知乎問題標籤預測開放數據集上線啦

在 2017 年的 5-8 月份,知乎聯合 IEEE 舉辦了首屆「知乎 · 看山杯機器學習挑戰賽」。經過 3 個月的激烈角逐,來自北京郵電大學、中國科學院計算機技術研究所、MicroSoft、北京大學、武漢大學、鄭州鐵路局等學校和單位的 7 支隊伍,取得了優秀的成績,獲得了首屆看山杯的獎金。在頒獎禮和賽事總結上,我們曾提到,知乎舉辦此次比賽,是為了吸引大家對於機器學習,特別是自然語言理解(NLU)領域的興趣;而在比賽結束後,我們也會發布一份對應的數據集,鼓勵大家在文本標籤預測方向上繼續進行探索。

經過幾個月的準備,我們和 NLPCC(自然語言處理與中文計算會議) 合作,發布了大家期待已久的這份數據。和賽題不同的是,這次的數據全部使用明文來提供;包括問題的 title、描述,話題的名字等。同時,我們還人工 review 了一部分話題標籤標註的質量,對其中的一些錯誤標籤進行了糾正。作為一家非常注重用戶隱私的公司,我們還對數據進行了嚴格的脫敏及審查,數據內僅包含提問內容及內容的標籤,並不涉及大家的知乎帳號等信息,知友們的個人隱私和信息安全將享有高優先順序的保護。

該任務也作為 NLPCC 2018 的 Shared Tasks,歡迎對中文自然語言處理感興趣的學術界和工業界同仁參與。

關於 NLPCC 2018 Shared Tasks 的說明請參見:NLPCC 2018 Call for Participation (Shared Tasks)

具體的問題說明和數據說明請參見:tcci.ccf.org.cn/confere

歡迎大家移步下載,同時我們更多的開放數據集也在計劃中,歡迎大家關注。

推薦閱讀:

怎樣理解時間序列二
構建lending club的申請評分卡模型
《Python數據挖掘》筆記(七) 自動化文本摘要
從懵逼到菜逼------菜逼來談數據挖掘
用【指數加權平均】構造時間序列問題的特徵

TAG:機器學習 | 自然語言處理 | 數據挖掘 |