標籤:

整理了一下關於知乎的公開數據集(歡迎評論補充)

整理了一下關於知乎的公開數據集(歡迎評論補充)

來自專欄複雜魚塘9 人贊了文章

這學期的Agent-based Model課上開了個小課題,標題非常直(chi)白(luo):How to get followed on Zhihu.

所以這段時間也一直在找關於知乎的資料庫,匯總了一下可以公開/半公開獲得的:

1. 知乎問題/標籤

作者:NLPCC 2018

內容:問題,標籤

下載地址:

  • zhuanlan.zhihu.com/p/35
  • 關於 NLPCC 2018 Shared Tasks 的說明請參見:NLPCC 2018 Call for Participation (Shared Tasks)
  • 具體的問題說明和數據說明請參見:http://tcci.ccf.org.cn/conference/2018/dldoc/taskgline06.pdf

格式:CSV

2. 「看知乎」數據

作者: @蘇莉安

內容:用戶基本信息;時序數據:贊/關注/感謝/收藏/發表數

下載地址:zhuanlan.zhihu.com/p/22

格式:MySQL

3. 知乎社交網路數據·一

作者: @路人甲

內容:還沒搞清楚怎麼打開……= =

地址:需聯繫作者

格式:Neo4j

4. 用知乎做科研

作者: @江踏歌

內容:Quora關於climate change的回答文本

地址:見評論區,Live:用知乎和 Quora 數據做學術

格式:未知

5. 2011~2016提問數據

未公開

im-Jay:【數據看知乎】知乎問題少男少女,以及關注度最高的300個問題

6. 知乎社交網路數據·二

作者: @趙澈

地址:zhihu.com/question/3613

格式:SQLite


相關回答/文章:

知乎數據集里的一個發現:「贊粉比」也是冪律分布的?

我分析了70萬局「吃雞」數據,找到了其中的3個秘密


推薦閱讀:

P2P簡史(三):「腐國」的起步
知乎上叫獬豸的都是法學生嗎?
P2P簡史(八):法國「參與性融資」的P2P

TAG:數據集 | 知乎 |