知乎問題標籤預測開放數據集上線啦

04-23

在 2017 年的 5-8 月份，知乎聯合 IEEE 舉辦了首屆「知乎 · 看山杯機器學習挑戰賽」。經過 3 個月的激烈角逐，來自北京郵電大學、中國科學院計算機技術研究所、MicroSoft、北京大學、武漢大學、鄭州鐵路局等學校和單位的 7 支隊伍，取得了優秀的成績，獲得了首屆看山杯的獎金。在頒獎禮和賽事總結上，我們曾提到，知乎舉辦此次比賽，是為了吸引大家對於機器學習，特別是自然語言理解（NLU）領域的興趣；而在比賽結束後，我們也會發布一份對應的數據集，鼓勵大家在文本標籤預測方向上繼續進行探索。

經過幾個月的準備，我們和 NLPCC（自然語言處理與中文計算會議）合作，發布了大家期待已久的這份數據。和賽題不同的是，這次的數據全部使用明文來提供；包括問題的 title、描述，話題的名字等。同時，我們還人工 review 了一部分話題標籤標註的質量，對其中的一些錯誤標籤進行了糾正。作為一家非常注重用戶隱私的公司，我們還對數據進行了嚴格的脫敏及審查，數據內僅包含提問內容及內容的標籤，並不涉及大家的知乎帳號等信息，知友們的個人隱私和信息安全將享有高優先順序的保護。

該任務也作為 NLPCC 2018 的 Shared Tasks，歡迎對中文自然語言處理感興趣的學術界和工業界同仁參與。

關於 NLPCC 2018 Shared Tasks 的說明請參見：NLPCC 2018 Call for Participation (Shared Tasks)

具體的問題說明和數據說明請參見：http://tcci.ccf.org.cn/conference/2018/dldoc/taskgline06.pdf

歡迎大家移步下載，同時我們更多的開放數據集也在計劃中，歡迎大家關注。