詢問有趣的複雜網路分析和分析的小技巧?

是這樣的 研究生學習的複雜網路基礎的課程要做一個複雜網路分析的presentation,出於學習的目的。想問一下有哪些有趣的數據可以推薦,還有哪裡下載這些數據呀,可以的話還想問一下有哪些小工具小技巧可以推薦的。分析方法的基礎我都學習了,問題並不是想找魚,而是想請教漁,謝謝~


謝邀啊(小白第一次被邀請), 複雜網路裡面數據和分析、處理、可視化工具還是比較多的。我下面列一些自己用過的。

  1. 斯坦福的SNAP (http://snap.stanford.edu/) 這裡面有SNAP複雜網路分析工具,提供C++/Python介面。 此外,還提供了很多良心的網路數據集http://snap.stanford.edu/data/index.html
    有各種各樣的,如社交網路,維基百科鏈接,引文網路等等, 均可以下載。
  2. Python的networkx 庫 也是很不錯的複雜網路庫,提供了一些複雜網路的指標計算, 可視化等等。
  3. 另外一個可視化的工具是 百度的 echarts 了,這個應該比較常見,提供網頁版的可視化,主要是js,裡面的關係圖還是不錯的,比較美觀。http://echarts.baidu.com/examples.html#chart-type-graph 不過由於是網頁端,不太適合大量數據展示。
  4. 再一個可視化工具gephi 這個是本地客戶端, 處理大量數據不錯。
  5. 數據的存儲的話, 簡單的話就是直接本地節點邊存儲或者關係型資料庫mysql等,複雜一些或者數據量比較大可以用一些圖資料庫,比如可以嘗試Neo4j https://neo4j.com/ 提供了各種語言的介面, 功能比較強大,上手容易,並且也提供了簡單的可視化。
  6. Neo4j是用來存儲圖/網路數據的, 與之相對的Spark GraphX則屬於分散式圖計算引擎。並且比較好的一點是, Neo4j 提供了結合二者的工具: https://neo4j.com/developer/apache-spark/ 用於超大數據分析計算。

關於數據問題, 常用的都是一些公開數據集: 社交網路比如微博,推特, web數據(維基百科), 然後就是引文網路,可能還有一些生物上的蛋白質的,這些基本都可以找到的,一般數據上面的SNAP提供了不少,然後看論文的時候,不少文章也會開源一些。

暫時想起來這些吧,可能有遺漏,歡迎補充。


推薦閱讀:

TAG:社交網路 | 數據分析 | 複雜網路 | 大數據 | 社會網路分析 |