有哪些網站用爬蟲爬取能得到很有價值的數據?


這個問題蠻適合我這種老爬蟲來回答。

0、IT桔子和36Kr
在專欄文章中(http://zhuanlan.zhihu.com/p/20714713),抓取IT橘子和36Kr的各公司的投融資數據,試圖分析中國各家基金之間的互動關係。

1、知乎
滄海橫流,看行業起伏(2015年) - 數據冰山 - 知乎專欄,抓取並匯總所有的答案,方便大家閱讀,找出2015年最熱門和最衰落的行業

有空的時候,準備寫爬蟲分析知乎的關係鏈。

2、汽車之家
大數據畫像:寶馬車主究竟有多任性? - 數據冰山 - 知乎專欄,利用論壇發言的抓取以及NLP,對各種車型的車主做畫像。

3、天貓、京東、淘寶等電商網站
超越諮詢顧問的算力,在用戶理解和維護:大數據改變管理諮詢(三) - 數據冰山 - 知乎專欄,抓取各大電商的評論及銷量數據,對各種商品(顆粒度可到款式)沿時間序列的銷量以及用戶的消費場景進行分析。

甚至還可以根據用戶評價做情感分析,實時監控產品在消費者心目中的形象,對新發布的產品及時監控,以便調整策略。

4、58同城的房產、安居客、Q房網、搜房等房產網站
下半年深圳房價將如何發展 - 數據冰山 - 知乎專欄,抓取房產買賣及租售信息,對熱熱鬧鬧的房價問題進行分析。

5、大眾點評、美團網等餐飲及消費類網站
黃燜雞米飯是怎麼火起來的? - 何明科的回答,抓取各種店面的開業情況以及用戶消費和評價,了解周邊變化的口味,所謂是「舌尖上的爬蟲」。

以及各種變化的口味,比如:啤酒在衰退,重慶小面在崛起。

6、58同城等分類信息網站
花10萬買貢茶配方,貴不貴? - 何明科的回答,抓取招商加盟的數據,對定價進行分析,幫助網友解惑。

7、拉勾網、中華英才網等招聘網站
互聯網行業哪個職位比較有前途? - 數據冰山 - 知乎專欄,抓取各類職位信息,分析最熱門的職位以及薪水。

8、挂號網等醫療信息網站
如何評價挂號網? - 何明科的回答,抓取醫生信息並於宏觀情況進行交叉對比。

9、應用寶等App市場
你用 Python 做過什麼有趣的數據挖掘/分析項目? - 何明科的回答,對各個App的發展情況進行跟蹤及預測。(順便吹一下牛,我們這個榜單很早就發現小紅書App的快速增長趨勢以及在年輕人中的極佳口碑)

10、攜程、去哪兒及12306等交通出行類網站
你用 Python 做過什麼有趣的數據挖掘/分析項目? - 何明科的回答,對航班及高鐵等信息進行抓取,能從一個側面反映經濟是否正在走入下行通道。

11、雪球等財經類網站
抓取雪球KOL或者高回報用戶的行為,找出推薦股票

12、58同城二手車、易車等汽車類網站
一年當中買車的最佳時間為何時? - 何明科的回答和什麼品牌或者型號的二手車殘值高?更保值?反之,什麼類型的貶值較快? - 二手車,找出最佳的買車時間以及最保值的汽車。

13、神州租車、一嗨租車等租車類網站
抓取它們列舉出來的租車信息,長期跟蹤租車價格及數量等信息

14、各類信託網站
通過抓取信託的數據,了解信託項目的類型及規模

其實還有很多數據,不一一列舉了。只要有愛數據的心和能爬的蟲子,一切且有可能。順利安利一下,抓取數據只是很小一部分,我們更擅長的是數據分析挖掘、可視化以及個性化的推薦。
————————————————————
更多文章關注我的專欄:數據冰山 - 知乎專欄


其實上個月就看到這個問題下有對知乎的數據分析,拿了好多贊。我雖然也想分享我們做的東西,但苦於原材料全是英文,style也比較嚴肅,調整起來比較煩。終於拖到現在,完成了整個內容的轉述,並且加入了一些新的思考。

本項目的源起其實要感謝@蘇莉安,當初就是因為看到他在專欄上發的兩篇知乎數據分析的文章,覺得知乎非常有分析的價值,於是在一個Course Project里提出了這個題目。正如文中已提到的,這個小項目其實遠遠沒達到令人滿意的程度,挖得太淺,實際處理的數據量也很小,我其實是還想繼續做下去的。如有任何問題敬請指正,如有知友想要在此基礎上繼續做點啥的也請讓我知道。

本文的簡書版鏈接:
知乎社交網路分析(上):基本統計
知乎社交網路分析(下):關注網路

------------------------------------------------------上篇-基本統計--------------------------------------------------------
1.0 簡介

本文源自我在2015年Social Computing課程中參與的一個小組項目,主要語言為Python。項目的原始材料為英文撰寫,內容包括了從爬取知乎數據一直到結果分析的整個過程。在本文中我打算略去數據爬取和資料庫I/O的部分,重點在分享一些有趣的結論。分析過程若有不周之處,還望指正。


為保證可讀性,本文將分為上下兩篇,一篇只涉及數據介紹及基本的統計分析,另一篇是基於用戶關注網路和關注話題進行的分析


如果對這個小項目的全貌感興趣,甚至想要自己fork過來玩玩,這裡是項目的Github傳送門。數據的壓縮包可以在這裡下載(使用請註明來源為本答案頁面)。(由於時間精力有限,想要做的遠遠比已經做了的多,數據量也很不讓人滿意,如果有童鞋感興趣咱一起繼續啊~)

1.1 數據

(自帶吐槽模式開啟)

雖說不講數據爬取,但要說清楚我們所使用的數據到底是啥,還是得簡單提一下的。2015年10月,我們使用了本人的知乎賬號作為種子,先獲得了所有我關注的用戶的數據,再獲得了這些用戶所關注的用戶的數據,所以算上種子的話一共是3層的廣度遍歷(注意其實這個數據可能是存在嚴重bias的,畢竟seed是一個逗逼,逗逼關注的人呢...咦怎麼感覺脖子一涼)。這裡的用戶數據包括:用戶的回答數,用戶獲得的贊同數、感謝數,用戶關注的人和關注用戶的人,用戶回答過的問題以及每個問題的話題標籤。這裡給出數據的簡要統計信息:

  • 資料庫文件: 688 MB(SQLite)
  • 數據包含:2.6萬名用戶, 461萬條關注連接, 72萬個問題

這裡是一張數據全貌的圖示:

下面將著重介紹我們所做的分析。

1.2 玩的不是同一個知乎:均值、中位數與標準差

要告訴別人我們在知乎上混得怎樣,最基礎的幾個指標是什麼呢?一定是關注、回答、贊同、感謝。所以我們首先對用戶的關注數(followee)關注者數(follower,粉絲數)回答數(answer)收到贊同數(agree)收到感謝數(thanks)的平均數、中位數以及標準差進行了計算,結果如下表:

這裡其實就有許多有趣的結論了。


首先我們看平均值,哇,平均每個人有三千多粉絲,三千多贊同,再看看可憐的我,306個粉和837個贊,而且他們回答的問題也並不多啊,卻有那麼多贊和粉絲,還讓不讓人玩知乎了?再看看中位數,頓時心裡好受一些了,原來我混得挺不錯嘛,五個指標都是我比較大,真開心(你是不是傻)。


究竟是什麼原因造成平均值和中位數差異這麼大呢,也許我們能從標準差看出來一些端倪——太大了,粉絲數和贊同數的標準差甚至超過了兩萬。


這意味著什麼呢?我們知道,標準差其實衡量了數據個體之間的離散程度,也可以解釋為大部分的數值和其平均值之間的差異。因此這麼大的標準差可以說明知乎用戶之間的差距可能略大於整個銀河系(霧),同時也說明絕大部分用戶的數值和平均值有很大的差距,要麼大得離譜(比如),要麼小得可憐(比如我)。

有人可能會不服氣,說標準差嚴重依賴於數據本身的scale,不能充分說明問題。那麼這裡使用標準離差率(標準差除以平均值)來算算贊同數,21951.4/3858.4 = 568.9%。我~就~問~你~服~不~服~


以上現象還可以導出一個猜測,那就是知乎用戶的這五個指標的值分布,都不大可能是正態分布及其近似。讓我們回想正態分布的樣子:

(圖片來源:https://zh.wikipedia.org/zh-cn/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83)

如果是正態分布,中位數(最中間的值)、眾數(最多的值)以及平均值三者至少應該是非常接近的,然而我們這裡卻是地月距離(怎麼一下縮水那麼多)。

1.3 當雪球滾到最後:長尾和冪律分布

為了進一步驗證1.2的猜測,我們繪製了五個指標的分布圖(Distribution Graph)。

這裡說明一下這五張分布圖的含義,橫軸表示指標的具體數值,縱軸表示有多少用戶具有該指標值。需要注意的是橫軸值和縱軸值都取了以10為底的log,這是研究中一種常見的處理辦法,能夠使圖所表達的信息更清晰。以感謝數分布圖為例,那個最左上方的點表示在這兩萬多知乎用戶裡面,有大於10的三次方也就是1000的人沒有獲得一個感謝(摸摸大);而最下面那一排點則是說,感謝數是x1,x2,..., xn (反正都不小)的用戶,都只有一個人——注意僅這一排點並不能形成什麼有效的結論,因為可能感謝數100的只有一個人,101的就有好多人了,這一定程度上大概是因為數據量小,採樣不足。但是如果把下面幾排點放到一起考慮,也許會更有啟發一些。


順便提一句,其實關注數和粉絲數的分布圖分別還有另外一個名字,它們其實是知乎用戶關注網路的出度(out-degree)分布圖和入度(in-degree)分布圖,這點在下篇中還會有所提到。


如果是對這種分布圖比較熟悉的童鞋,應該一眼就能看出,這絕壁不是正態分布,而極有可能是冪律(power law)分布(不過因為懶我們並沒有做擬合去驗證),這種分布在許多有人參與其中的網路中都會出現。此外,仔細比較這五條曲線的整體形狀,有沒有覺得有兩條與另外三條略有不同?一條是關注數,一條是答案數,這兩條曲線向外的彎曲程度似乎更明顯,也就是說隨著橫軸值的增大,縱軸值減小的趨勢相對較慢,而恰好五個指標里只有這兩個是某個用戶自己可以控制的,而其他三個指標則是由其他用戶形成的群體所控制,這是很奇妙的一點,我覺得其實還有深挖的可能性。


現在讓我們以感謝數為例,再畫另外一種分布圖。橫軸表示每個用戶的index也就是0,1, 2, 3...,順序由感謝數大小決定,縱軸則是該用戶收到感謝數的具體數值:

看到那個突破天際的點了嗎,二十七八萬的感謝(其實這個點在前面那張感謝數分布圖中也出現了,你還認得僅在幾個自然段以外的它嗎)!再看看下面那條長長的尾巴,人艱莫拆。再來看一個更誇張的,贊同數:

其他三個指標的圖的形狀也基本如此。


蘇莉安曾使用遠大於我們的數據量做了類似的分析,結論是一致的。總結一下就是:大多數人小得可憐,卻有極少數人大得可怕,一點也不正(可)態(愛)。前幾年不是有本書很火嗎,叫做《長尾理論》?所謂長尾,指的就是這樣一種現象(附送我對該現象的一些解釋:什麼是「長尾效應」 ? - 趙澈的回答)


到這裡不由得讓人提到另外一個東西:馬太效應。所謂窮的人越來越窮,富的人越來越富,感覺上其實就是長尾效應的動態解釋(最近打算看看有沒有相關的文獻)。富的人掌握大量資源,因此更可能攫取更多資源,而窮的人則相反;大V因為有名而得到更多關注,同時因此變得更加有名;玩遊戲carry從而得到更多錢,有了錢買裝備又更可能carry。這是典型的正(滾)反(雪)饋(球)。最後造成的結果,就是長尾現象。

1.4 論如何滾成人生贏家:贊同與關注

這一節可以算是對上一節結論的一個支撐。下面這張圖同時包含了用戶的贊同數和粉絲數兩個指標:


!密集恐懼症高能預警!

我想不需要我們再做個回歸什麼的了,一看就是赤裸裸的正相關啊。這也為我等如何冷啟動逆襲成為知乎大V提供了理論支持——要麼你就有本事回答出幾個贊數突破天際的答案,要麼你一開始就很有名,沒寫啥答案也能吸粉...(說的都是屁話...)


------------------------------------------------------下篇-關注網路---------------------------------------------------------
2.0 社交網路是什麼?

在上篇所述的基本的統計分析之後,我們已經對知乎用戶的贊答謝關四個方面的總體情況有了一些了解。現在,讓我們先來考慮這樣一個問題:我們平常所說的社交網路或者說社會網路,到底是什麼意思?也許你會講,這還不簡單,只要一個事情有多人參與,自然就會具有社交的性質,從而產生社交網路。那麼讓我們思考思考,維基百科算不算具有社交性質?


維基百科確實有很多人參與編輯詞條啊,但是這些人之間有沒有更直接的互動呢?假設編輯者們通過QQ、微博之類進行互動,那產生出的社交性質算不算是維基百科本身所具有的社交屬性呢?即使維基百科提供評論區之類的功能,可以使編輯者之間直接互動,這些互動仍然是基於某個詞條的,只要這個詞條沒什麼大問題了,互動基本上也就隨著編輯的停止而停止了。我認為這種臨時建立起來的關係,並無法得到一個較為穩定的社交網路。


讓我們再來思考一個例子。我們知道,一門科學源自跨越時代的許多人的共同貢獻,那麼這許多人,能夠構成社交網路嗎?當然不能。所謂牛頓和愛因斯坦的對話只是一種修辭,一篇已經發出的論文,如何能引用一篇未來的論文?但是當我們考慮到同一時代的同一學科,情況就有所不同,學者之間確實存在著各種交流合作的可能,因此我們可以認為學術領域的共同作者關係(Co-authorship)形成的網路其實是帶有社交性質的。


從以上粗略的思考中我們或許可以總結形成社交網路的幾個條件:多主體的直接互動、互動的長期性、互動的近同時性


現在讓我們重新回到知乎上面來。贊同、感謝、回答、關注,哪一種用戶行為最滿足以上三個條件?回答是基於問題的,知乎的產品設計並不突出是誰提出了某個問題,並且一個問題可以被不同的人進行編輯(類似維基百科的許可權設計),也就是說回答者一般不大在意是誰提出了問題,所以回答連互動都稱不上;贊同、感謝以及我們之前沒有提到的評論,相對來說互動得稍微直接一點,但是滑鼠一點了事,不具有長期性;只有關注關係,同時滿足了三個條件。這裡可能會有一個疑問,關注也只是滑鼠那麼一點,這能算長期的嗎?不要忘記知乎的時間線(Timeline)機制,這使得關注者有更大的概率看到被關注者的活動並與之進行互動,並且只要關注不取消,這種對時間線的影響就是長期的。


到此,我們可以認為,如果想要對知乎從社交網路的角度上進行分析,首先就可以考慮知乎用戶之間的關注關係。接下來開始介紹我們對此進行的具體分析。

2.1 分析對象和分析方法

首先來了解一些網路的基本知識:


一個網路可以被表示為一種圖(graph),其中包含點(vertex / node)與邊(edge / link)兩種基本要素。邊可以具有方向性,也就是說對於一個點來說,可以有外連邊(out-link)和內連邊(in-link)兩種邊。如果邊是具有方向性的,那麼這種圖稱為有向圖(directed graph),反之稱為無向圖(undirected graph)。圖反映了點與點之間的某種相關關係,這種關係由邊表現。


回到知乎上,我們知道關注和被關注實際上是一件事情的兩個角度。A關注了B,等價於B被A關注。在我們所爬取的數據中(見1.1中的數據全貌圖),我們知道這2.6萬用戶中的每個人都關注了哪些人。也就是說,我們知道了2.6萬用戶點的所有外連邊。從另一個角度想,我們其實也知道在這2.6萬用戶之間誰關注了誰(藍圈以內的部分),加上他們關注了其他什麼人(藍圈以外的部分)。因此我們只能分析這2.6萬用戶(紅色實心圓),因為我們並不知道其他的人(紅色空心圓)的所有連接,這是由我們的廣度優先爬取機制所導致的,不爬完知乎整站,不會有真正完整的數據(那些沒人關注的賬號應該可以忽略)。


此外,即使剔除了藍圈以外的部分,涉及的連邊數仍然具有很大的量級,計算量會是一個問題,所以在這個項目中,我們僅僅選取了這2.6萬用戶的兩個有趣的子集進行分析:獲得贊同數大於1萬的用戶(共1895人)、獲得贊同數大於5萬的用戶(共375人)。方便起見,我們將他們分別命名為Net10kNet50k,其實可以說就是兩個不同級別的知乎大V群體了。


接下來講講分析方法。一個網路圖,別看裡面只有點和邊兩種東西,其實可以包含複雜到極點的各種現象與性質。網路分析,或者進一步說複雜網路領域之中,存在大量人們為了描述網路的現象而定義的概念、以及為了量化網路的特徵而設計的指標。後文將要涉及的分析建立在其中最基本的一些概念和指標上,如果對它們逐個詳細介紹,那麼本文篇幅會大大加長,而且會多出不少數學公式,這不符合我對本文的寫作預期。因此我打算盡量從直覺(intuition)上來解釋它們分別表達了什麼的含義,即使給出定義也不求嚴格(數學公式才可帶來最清晰嚴格的定義),重點仍在對分析的思考。此外,由於我們所討論的知乎關注網路是有向圖,後面所有的指標和演算法都只討論有向圖的。當然,如果讀者已有一定的基礎,可以直接跳過相關的段落。

2.2 抱團的大V們:網路總體特徵

一直以來知乎就給人一種印象,那就是大V們喜歡抱團。你關注我、我關注他、他又關注你,形成了緊密的圈子。那麼我們怎樣來量化這種特徵?


假設有A、B、C三個用戶組成的關注網路,其中唯一的邊是A-&>B,那麼你覺得這個網路是否緊密?我們可以這樣想,三個人之間最多可以有6條邊,那麼我們可以用1除以6來表示這個網路的緊密程度。如果6條邊都存在,那麼緊密程度是1,都不存在則為0。這就是所謂圖的密度(density)。Net10k和Net50k的密度分別是0.064和0.195,到這我們可以猜測,獲得贊同更多的大V之間,關注關係也更為緊密。


接下來我們從另一個角度考慮這個猜測,先補充幾個定義:

  • 點的度(degree):與一個點通過邊相連的其他點的數量和,被稱為這個點的度。有向圖中一個點存在出度和入度兩個度,一個只看它能到達哪個點,一個只看哪些點能到達它。對於知乎的關注關係而言,我們很容易就能看到出度就是你關注的人數,入度就是關注你的人數;

  • 點與點之間的路徑(path):假如從點A出發,經過一條或更多條邊,到達了點B,那麼我們稱這些邊按順序相連形成了一條A與B之間的路徑。兩點間的路徑數量一定是大於等於0的。假設每條邊的長度相等,那麼包含邊數最少的路徑,便是所謂最短路徑(shortest path),最短路徑的長度一般被認為是兩點之間的距離(distance);

  • 圖的平均最短路徑長度(average shortest path length):對於一個網路而言,將所有點兩兩之間的最短路徑長度進行算術平均,得到的就是所謂平均最短路徑,可以用來衡量網路中點之間的平均距離。傳說中的六度分隔(Six Degree Seperation),其實指的就是一個網路的平均最短路徑長度為6(這裡大家可以想想邊、度和路徑三者間的聯繫);

  • 點的偏心率(eccentricity):對於圖中的任意一點P,算出它與其他各個點的最短路徑長度(距離),其中最大的距離稱作點P的偏心率。

  • 圖的半徑(radius)直徑(diameter):圖的半徑、直徑分別是圖中最小的、最大的點偏心率。注意圖的直徑不必然是半徑的兩倍。

  • 圖的強連通子圖(strongly connected subgraph):設想一個網路圖G的一個子圖G"(意味著G"中的點和邊都只能從G中挑),其中每一個點都能通過某條路徑到達另一個點,則我們說G"具備強連通性,而且是G的一個強連通子圖。這裡注意,單獨一個點我們也認為是強連通子圖,雖然單個點並沒有值得研究的;

  • 圖的強連通分量(strongly connected component):G的一個極大的強連通子圖G""(意味著再往G""加任何G中剩下的點,都會破壞其強連通性)被稱為G的一個強連通分量。這裡需要注意,極大並不代表很大;

字好多看煩了吧,終於可以上圖啦,下面分別是Net10k和Net50k的強連通分量示意圖:

其中每一個紅色圓圈都代表一個強連通分量,每條線(其實是很抽象的箭頭orz)代表一條路徑。光看這個我們還不清楚情況,我們來看二者對應的一些指標數據:

總結一下我們知道了什麼:

  1. 基本上Net10k和Net50k這兩個圖就是強連通的,別說抱團了,這已經根本就是擠成一坨(好吧,一個圈子)。
  2. 除了一個巨大的圈子,群體里就剩幾個特立獨行的高冷大V(都是只包含一個點的強連通分量),他們受到了其他大V的關注,但卻沒有任何回粉。在網路中,這種點也被稱為懸掛點(dangling nodes)

現在我們重點分析兩個最大的強連通分量,連通倒是連通,但是如果A要經過100個人才能到B,那估計光憑關注關係,他們是沒有緣分了。將Net10k和Net50k的最大強連通分量分別命名為Net10k-CNet50k-C,以下是兩者對應的指標數據:

如果你就是Net50k-C中的一個大V,還不認識其中的另一個大V?沒關係,你關注的關注的關注...總會有他,所以你們總有機會看到彼此。強連通保證了總會有一條路徑,平均最短路徑向你保證平均來講這條路徑很短,只有2左右。直徑和半徑則告訴你在最壞情況下(你們碰巧是整個圈子裡相距最遠的兩位),這條面基道路的長度在2到5(4)之間。What a small world,喜鵲們(霧)如是說。


再來對比Net10k-C和Net50k-C的平均最短路徑長度和直徑,後者都比前者要小,從另一個角度說明後者的關注圈子更緊密。而且注意一點,這些大V是來自各個不同的專業領域,但都緊抱在一起,這也是很有趣的現象,有進一步分析的價值。

2.3 給大V排個位:網路連接分析

上節側重於對知乎大V關注網路的整體進行分析,這固然很有趣;但或許更有趣的是這個整體之中的每個個體,同樣是贊同數很高的大V,他們彼此之間是否能一較高下呢?他們在關注這種社交行為上是否具有差異,如何衡量這種差異?這是本節涉及的問題。


讓我們先來設想一個簡單的關注網路,其中只有A、B、C三個人。A關注了B,B關注了A,A、B同時關注了C,而C誰也不關注,如下圖所示:

那麼你覺得光憑關注關係來看,A,B,C誰更「牛」?從直覺上來說當然是C,因為C在三人之中得到了最多的關注。但是否只要粉絲更多就能說明更「牛」呢?下面我們在這個網路的基礎上,來考慮幾種很有趣的情況:

  1. 多了10個自己粉絲數為0的用戶,同時關注A
  2. 多了10個用戶,他們彼此全部互相關注,除此之外都沒有其他粉絲
  3. 多了10個自己粉絲數為1的用戶,同時關注A,並且每個人還分別關注了10000個其他用戶

那我們能說1里的A,或者2里的10個用戶比C更牛嗎?前兩種情況明顯不合道理,可以說是較為典型的作弊行為。作弊利用了單純粉絲數排序的漏洞:沒有考慮到每個關注連接的質量差異。第三種情況算是一種正常現象,但是你會覺得,這些用戶一個是只有1個粉絲,幾乎等於0,另一個是他們關注了那麼多用戶,那麼他們關注A,真是因為A很重要嗎?


既然發現了漏洞,那麼假如不考慮贊同數等其他因素,我們是否有可能通過關注網路本身來予以解決呢?從直覺上來說,我們可以想到的是,用粉絲自己的粉絲的質量來衡量這個粉絲的質量,但粉絲的粉絲的質量又需要粉絲的粉絲的粉絲的質量來衡量...那麼到底最後是個什麼情況?到這裡我們看到了日常語言結構所能承載的思維深度之淺薄,當一個問題到達這個複雜度,語言已然蒼白無力,不得不將它託付給數學。


PageRank演算法(其與Google的關係我就不贅述了)就是一個數學上非常優美的答案,不僅考慮到前述的連接質量問題,還解決了所有特殊情況——無論關注網路是什麼樣子的,都保證能得到一個滿意的用戶重要程度排序。


下面是我們對Net10k和Net50k分別計算PageRank值,注意這裡只考慮大V們內部的連接,此外圈子裡所有大V的PageRank值相加等於1。最後得到排名前五的知乎大V用戶如下:

這些便是站在知乎大V巔峰的大V們了,是否覺得有一定道理呢?注意比較Net10k和Net50k前五用戶的PageRank值,前者比後者小,這主要是因為總和為1的PageRank資源被更多的大V們分掉了。


下面讓我們再考慮一點,所謂的「重要」,其實要看我們的目的是什麼。假如我們是要看更多的好答案或者想要找人出書約稿,那麼直接找到好答案的答主就好,而這些答主往往吸引了最多的關注,所以我們僅僅需要知道誰受到的關注最強(比如下圖中的C)。


但是光是通過關注,我們會漏掉那些暫時沒有得到太強關注的好答主(可能是剛剛加入知乎的大V潛力股),然而我們又不可能自己去一個一個挖掘這些好答主,如何是好?簡單,假如你能找到幾個類似牽線人的用戶(比如下圖中的D)你相信只要是他們關注的用戶,質量都不會差,都合你口味,事情就簡單了。你只需要不時看看他們都關注了誰,就能發現更大的世界。這其實也算是一種用戶推薦系統的可行思路,這裡就不展開了。

HITS演算法便能做到只使用關注網路,通過權威度(Authority)樞紐度(Hub)為我們分別挑出好的答主,和好的牽線人。


上面的基於直覺的分析是否說得通呢?讓我們看看Net10k和Net50k的權威度和樞紐度前五名:

Auth(好答主)方面,我相信大家應該能認同這樣的結果名單。值得一提的是在兩個大V群體之中,@張佳瑋(順便提一下,張佳瑋張公子就是上篇中那個在各條曲線中高高在上的閃亮極點)和@梁邊妖調換了位置,很有趣。另外在Net50k中,@采銅 老師一躍進入前五,@馬伯庸 馬親王(祥瑞御免)上升一名,黃繼新則掉了出去。這些現象或許反映了不同大V群體的一種喜好傾向的差異


Hub(牽線人)方面,說實話我個人只認識@徐湘楠一個人,其中還有一位目前處於賬號停用狀態,這裡便不做過多分析。只有一點比較有趣,作為大V,粉絲數很大很正常,然而這些用戶關注的人數也算是很多的,好幾個甚至達到了幾千,不可不謂之具有某種交際花屬性。另外提一下,Net10k Hub的第五名,叫乾脆面的用戶,我已經無法知道是誰了,原來的用戶ID是wang-wang-wang-08-18,現在改掉了,總覺得跟徐湘楠(ID:miaomiaomiao)之間存在著某種聯繫...


綜合來看,HITS和PageRank有不少相同的用戶入榜,這是為什麼呢?我給一個直覺上我認為對的解釋,其實PageRank的值是Hub值和Authority值的一種疊加(其實感覺更像是乘的關係)後的結果,這樣Hub或Auth中的一種很強,另一種也不弱時,PageRank便相應比較高,這樣兩種演算法得到部分相同的結果便很正常了。@黃繼新是一個典型的例子,他的Auth值和Hub值在Net10k和Net50k中雖然都不是最高,但都排到前20名,而他的PageRank則是第一。既有內容,又能充當渠道。

2.4 不均衡中的均衡:Closeness和Betweenness中心度

到此先讓我們總結一下,如果要衡量一個用戶在關注網路中的「重要程度」,我們可以利用這幾種指標:

  • 該用戶的粉絲數,即入度(In-degree)
  • 該用戶的PageRank值
  • 該用戶的HITS值

它們在網路分析中也可被歸為同一類指標:點的中心度(Centrality)。但我們發現,其實三種指標所表達的「重要」,其含義是不完全一樣的,同一個網路,同一個節點,可能不同的中心度排名會有不小的差距。接下來請允許我介紹本項目中涉及到的最後兩種點的中心度:

  • 點的近性中心度(Closeness Centrality):一個點的近性中心度較高,說明該點到網路中其他各點的距離總體來說較近,反之則較遠。假如一個物流倉庫網路需要選某個倉庫作為核心中轉站,需要它到其他倉庫的距離總體來說最近,那麼一種方法就是找到近性中心度最高的那個倉庫。

  • 點的介性中心度(Betweenness Centrality):一個點的介性中心度較高,說明其他點之間的最短路徑很多甚至全部都必須經過它中轉。假如這個點消失了,那麼其他點之間的交流會變得困難,甚至可能斷開(因為原來的最短路徑斷開了)。因此假如要hack一個網路的話,對哪個結點下手你懂的。從另一個角度想,這些點簡直就像是等在絲綢之路上必經關口的強盜。不留下買路錢?讓你無路可走,生意就別做了。

這兩種中心度我目前並未找到很公認的中文翻譯,姑且自己翻譯了。另外同PageRank和HITS一樣,由於指標的計算稍顯複雜,這裡就不詳細敘述了。但是我們都使用的是網路分析庫Networkx中的演算法實現,對詳細演算法有興趣的讀者可自行查閱其文檔。


本項目中我們分別計算了Net10k和Net10k的近性中心度和介性中心度,並畫出了分布圖。由於我們當時考慮欠周,算出的近性中心度是基於外連接而不是內連接的,我認為意義不大(你總是可以讓自己關注更多人,從而得到更大的近性中心度),所以本文決定略過。下面主要說一下介性中心度,其於Net10k和Net50k的分布圖分別如下:

我們又得到了兩條長長的尾巴。圖中橫坐標表示每一個特定的大V,縱坐標是大V相應的介性中心度。長長的尾巴表明大部分大V的介性中心度接近0,即使長尾以外有少數幾個人遠超其他人,但介性中心度的值依然很小。這說明什麼?說明這些大V即使退出知乎,也幾乎不會影響其他大V之間建立關注關係。沒了你,我還有許多其他最短路徑到達另外一個大V。這進一步說明什麼?說明大V的關注網路是如此健壯,健壯到即使失去許多結點,對整個圈子的連通幾乎毫無影響。


再橫向比較一下Net50k和Net10k,可以看到這種隨著圈子增大,冪律變得更強,除了少數點,大部分的人介性中心度都更趨近於0,人數的增加進一步稀釋了大多數人的「獨特性」,直覺上我相信繼續擴大這個圈子,到Net5k、Net1k甚至知乎全體用戶,這種健壯性只會越來越強,雖然人與人相比存在指數級的差異,但對整個網路本身而言,每個人幾乎同等重要,也同等不重要。這或許可以稱之為知乎關注網路所具有的一種不均衡中的均衡吧。

2.5 大V都在關注什麼:熱門話題分析

最後,我們嘗試了一種獲得知乎上熱門話題的辦法(本項目中唯一涉及內容的分析),先取得Net10k和Net50k的支配集(Dominant set,這裡由於我認為實際上不用這個子集結果也不會有顯著區別,所以就不解釋這個概念了),然後統計集合中所有用戶的回答所對應的問題標籤,最後對各個話題標籤按出現次數排序。以下分別是二者的前20名:


Top 20 from Net10k:
調查類問題 3792, 生活 3096, 歷史 1713, 戀愛 1464, 心理學 1432
電影 1419, 人際交往 1404, 社會 1332, 互聯網 1214, 情感 1197
政治 1028, 兩性關係 994, 教育 897, 中國 823, 人生 815
遊戲 805, 文學 772, 知乎 772, 法律 750, 音樂 738
愛情 699, 文化 659,創業 628, 大學 621, 程序員 619
心理 617, 你如何評價 X 609, 女性 604, 編程 585, X 是種怎樣的體驗 582


Top 20 from Net50k:
生活 1435, 調查類問題 1365, 政治 1285, 歷史 1204, 電影 1084
健康 996, 社會 984, 醫學 941, 戀愛 717, 中國 695
兩性關係 688, 英語 678, 人際交往 640, 心理學 634, 互聯網 595
法律 587, 微軟(Microsoft) 555, 美國 552, 健身 538, 編程 511


我個人認為大V們回答的問題所對應的話題,能夠從一定程度上反映了知乎這個平台總體的話題領域熱門程度。另外,我覺得排在最前的一些熱門話題也在一定程度上解釋了為什麼不同領域的大V會抱團,因為不論處於什麼專業領域,人們對於生活、歷史、電影等人文和泛娛樂話題總是會感興趣的,一旦都感興趣,又都有不錯的見解和分享,自然更容易惺惺相惜。


到此,本文終於可以畫上句號了,歡迎交流、討論與點贊(最後一個才是你發自內心的吶喊吧喂)。在此還要感謝和我一起參與本項目的其他三個小夥伴,四個人一起才得以在短短時間內做到這種程度(項目report里有我們的詳細分工)。感謝@egrcc的zhihu-python,幫我們省去了一部分爬蟲編寫的時間。


最後再重複一遍,如果有想要和我一起,在這些工作的基礎上繼續做一些有趣的分析的童鞋,請一定聯繫我!


========== 2016-04-22 更新 ==========
補幾張長尾圖。

粉絲數:

贊同數:

感謝數:

回答數:

知道這是誰的知乎了吧╰( ̄▽ ̄)╭

========== 以下為原答案 ==========

最近在抓知乎的數據,就簡單來分析一下吧。

抓取了知乎24W+的用戶詳細信息,以及他們之間的關注關係204W+(沒抓完)。

數據量不算大,但是,這些樣本用戶應該算是比較高質量的用戶了。(此處質量指的是活躍度,關注度等指標,而非道德層面上的質量)。

之所以這麼說,還是有些依據的,看下面分析:

可以看到:

  • 回答數大於100的用戶有16429個
  • 回答數大於1,000的用戶有549個
  • 回答數大於5,000的用戶有17個
  • 贊同數大於5,000的用戶有8099個
  • 贊同數大於10,000的用戶有4163個
  • 贊同數大於50,000的用戶有632個
  • 贊同數大於100,000的用戶有252個
  • 關注數大於1,000的用戶有10757個
  • 關注數大於5,000的用戶有3278個
  • 關注數大於10,000的用戶有1888個

整個數據抓取的過程是,以 @羋十四為種子用戶,依次抓取各用戶關注的人信息(是用戶所關注的人,而不是用戶的粉絲)。因為許多大V動輒十數萬粉絲,然而這些粉絲大多是不活躍用戶,對最終數據分析的意義不大。

下面進入一個分析的過程。可以進行許多維度的分析。例如:

性別分布:

地域分布:

學校分布:

專業分布:

公司分布:

由於數據沒有做後期的處理,因此上面的統計只能體現一個大概的分布。比如地域分布中,帝都和北京,魔都和上海,其實是一個地方;學校分布中,五道口,五角場之類的叫法也沒有與其所代表的學校合併統計。然後,我比較感興趣的是那些只關注了一個人的用戶。統計如下:

可以看到,在這24W+的樣本用戶中:

  • 只關注了一個人的有6205個
  • 只關注了一個人,且粉絲數大於100的,有699個
  • 只關注了一個人,且粉絲數大於1,000的,有161個
  • 只關注了一個人,且粉絲數大於5,000的,有46個
  • 只關注了一個人,且粉絲數大於10,000的,有26個

通常來說,一個用戶如果只關注了一個人,那麼很有可能這個人對他來說有著非比尋常的意義。但是要考慮到有些用戶是新用戶或者不活躍用戶,那麼他可能只是懶得關注人。所以,接下來的分析,選取只關注了一個人,且粉絲數大於1000的用戶,一共161個。

那麼,被這161個人所關注的人,是不是也只關注了一個人,並且他們兩個人之間是互相關注的呢?對這161個用戶進行分析,篩選出符合以下條件的用戶組:

  • 兩個人之間互相關注,且都是只關注了對方一個人
  • 其中至少一個人在這161個用戶樣本中

一共篩選出以下10組用戶。姑且稱之為「完美默契用戶」(或者「完美情侶」?抱歉我暫時沒想到更好的詞o(╯□╰)o):

  • @Jo Jo 和 @Peng Bo
  • @天璇真人 和 @天樞真人
  • @野合菌 和 @野合菌的女朋友
  • @Zongyuan Wang 和 @siyu
  • @Arthur C 和 @Mingke Luo
  • @暴脾氣的李淑女 和 @蘇破蠻
  • @薇薇安 和 @Vivianstyle123
  • @鄭亞旗 和 @NinaRicciJj
  • @崔冕 和 @RobinChia
  • @CIH Hacker 和 @Joseph Ku

最後,你們都是彼此的唯一,祝福你們O(∩_∩)O~

--------------------

鑒於有人反映太虐狗,就再加上個公益項目。在這24W+個樣本用戶中,查詢那些關注了500+然而自己卻只有一個粉絲的用戶(由於我的抓取策略,粉絲數為0的用戶不會被我抓取到):

(由於數據是前幾天抓取的,可能與最新的數據有少許出入,但是影響不大。)他們分別是(知乎的@ 太難用,有些就不@ 了,直接放個人主頁):

  • @關山月
  • @雞莫洛托夫
  • @莫筱木
  • 小聰
  • @hill1357
  • @你說
  • @梅西小貝
  • qiyuan zhu
  • 啊啦啦
  • 李夢
  • 難得做夢

我想他們一定很孤獨,請大家多多關注他們,給他們溫暖。謝謝~

--------------------

鑒於評論里有求源碼的,是用Node.js寫的,爬蟲基於GitHub - syaning/zhihu-api: Unofficial API for zhihu

上面的項目對獲取知乎數據的過程進行了封裝,但是只提供了基礎的數據介面,因此如果你要構建爬蟲的話,需要在此基礎上實現自己的抓取邏輯。

至於我自己的爬蟲代碼,因為時間倉促,寫的比較爛,穩定性什麼的都有待完善,就不拿出來丟人現眼了。

=============== 2016-04-07 17:00更新 ===============

如果是對上面提到的那些指標進行可視化,無非是一些柱狀圖、條形圖、餅圖等,沒什麼意思。下面是對用戶網路的可視化,使用Gephi來分析的。

首選選取粉絲數大於10,000的用戶,一共1,888個用戶,關注關係182,284條(可能不完整)。

很醜吧o(╯□╰)o 可以看到周圍的點和線。中間黑乎乎的一大片,其實是密密麻麻的點和線,還在動態調整位置。這已經是我等了好久之後的布局。

然後選擇粉絲數大於1,000的用戶,一共10,757個,關注關係713,855條(只是抓取到的部分關注關係,還有很大一部分沒有抓取到)。

這已經是我等了好久好久,電腦都能煎蛋之後的布局了,中間的點和線還在動態調整位置。我已經不想等了。剛開始的時候特么的就是個黑乎乎的球啊(抱歉我沒有設置顏色參數)!

那麼,這24W用戶樣本的整體網路結構是什麼樣的呢?別問我,我也不想知道,電腦已經卡死了/(ㄒoㄒ)/~~

PS:Gephi新手,自己瞎搞的。如果有熟悉Gephi的,歡迎指教~


前陣子在自學Python,可是平常用不到的話語法什麼的就好容易忘啊,一個勁的print又沒多大成就感,於是了解了requests、bs4、openpyxl、Scrapy...這些python庫,對拉勾網上面的職位信息進行爬取。

這是部分職位.....

這是爬下來的數據...

這是生成的Excel...

前方是數據分析報告,多圖預警!!

-------------------------------------------------------start--------------------------------------------------------

https://www.zhihu.com/people/xu-lu-47-52 (二維碼自動識別)

-------------------------------------------------------end--------------------------------------------------------

--------------------------------------------------- 職位印象 ---------------------------------------------------

對於每一個職位而言,如何能迅速了解其背景呢?

這就是在V1.3版本中加入的 職位印象 功能了...

簡單來說呢,就是在抓取每一個職位職位數據,對其進行一系列的分析,分詞、統計詞頻,生成排名前20的熱度詞...

這是拉勾網的職位要求...

下面以[數據挖掘]崗位為例進行試驗...

[這是抓取的所有詳情頁數據]

[這是分析結果]

[職位印象]

深度學習:

可以看到,「深度學習」、「機器學習」、「演算法」是最熱門辭彙,而Deep Learning常常使用的語言為C++和Python,應用領域最多的是計算機視覺。常被提及的是卷積神經網路(CNN),框架方面則為Caffe(雖說框架用什麼無所謂,但還是有點好奇2017年了為什麼不該是TensorFlow).


自然語言處理:

對於NLP崗位,「演算法」和「機器學習」依然是最熱門辭彙,編程語言則提及最多的是Python和C++。


數據挖掘:

在綜合了所有「數據挖掘」崗位招聘要求數據之後,經過分析,「數據挖掘」、「機器學習」、「演算法」是常被提及的熱度詞。數據挖掘崗位對編程語言的要求則為Python和Java。畢竟有Hadoop/Spark等成熟的生態體系。


人工智慧:

推薦系統:

作為演算法崗,數據、演算法、數據挖掘、個性化理所應當是熱門辭彙。


機器學習:

嚴格意義上來說,NLP/Computer Vision/Data Mining/AI 等都是Machine Learning的應用領域,但此處還是單獨將該職位拆分出來分析。


Android:

移動開發則更偏向經驗、架構、項目、設計模式。

其他的分析就不一一贅述了,分析過程類似,詳情見github。 ^_^
評論中有小夥伴要源代碼的,在此分享出來,沒有系統學習過python,代碼組織什麼的可能不太好,了解下實現流程就好啦。

[PPT分析報告原文件下載] 微雲文件
微雲在線預覽格式被打亂,請下載後閱讀!

[希望熱愛技術設計的小夥伴多多交流哈 o^_^o]

[這是github地址] GitHub - EclipseXuLu/LagouJob


如果想學習爬蟲、數據分析相關的東西,可以參考下我的另一篇文章:

世紀佳緣用戶畫像-Part1 - 知乎專欄


有時候有了數據就想分析一下,跟大家分享一下我的實驗。

這是我去年十一回來遍開始計劃的實驗,重裝系統之後將QQ存儲文件的文件夾放到了我的備份盤裡, QQ會把你的聊天記錄和圖片分開存儲,而且群組和好友也是分開存放在兩個文件夾里的,好友G:Tencent file&ImageC2C,群組G:Tencent file&ImageGroup。盡量保證電腦長時間開機,並且保證QQ一直在線,這樣,每當QQ群里接受到消息之後,圖片就被保存在了你的本地硬碟上。所以有人在群里爆了照再撤回其實是可以找到的,偷笑偷笑,只要找到Group文件夾里最新的照片就好了。

隨著圖片越來越多,QQ會把近期緩存的圖片整理到一個新的文件夾里去,每到4000張圖的時候就整理一次。我加了90多個QQ群,一半以上是千人群,6個月之後我的文件夾就變成了這個樣子。

緩存了將近7個G的圖片,一共十萬五千張。

這次不討論聚合和圖片分類的問題,我們簡單的統計一下直接從圖片文件所攜帶的信息。這些圖片一共有三種主要的格式, JPEG,PNG,GIF,通常就是,照片,截圖,表情包~~

比例如下:

除了簡單的類型統計呢,我們還可以根據圖片的創建時間來統計信息,當然在登錄QQ的一開始,也會因為大量的接受圖片而導致一個時間序列上圖片數量出現極值。

時間序列尺度在周,分鐘,和天的變化情況就顯而易見了。

哦,周末人們在網上竟然比平時少活躍了一半,可能是活躍的人少了,也可能是活躍的時間少了,但是我認為,大家在家睡到12點的可能性更大一點,誰叫我加的都是工科群,23333.

在看每天的數據,天哪,竟然到了1點多才算全睡覺,本寶寶突然覺得好心塞,這個行業是怎麼了。然後第二天6點多陸續起床,12點又開始去吃飯去了。等等等等,圖上都顯示的清清楚楚。

再看一年中的數據,唔~~~,好像周期性很強烈, 一到周末大家就睡覺了嘛?哎,二月五號左右我們在幹嗎?怎麼那麼低?原來是在過年,大家都在家裡浪著呢。怎麼有兩天是0?好吧,我在往返的火車上,好心塞。

等等,如果PNG代表截圖,那可能表示大家在討論問題。如果GIF多一些,可能表示大家在斗圖水群啊!我好像找到了你們不工作偷懶的秘密!讓我們來分別看一下三種圖片的動態變化。

看到了吧,過年的時候大家拍了好多照片分享到群里!

那麼周的呢?

左側是總數,右側是百分比,大家在周末,更少討論工作,也很少斗圖,竟然都出去玩拍照片去了!讓我很是詫異,只有我一個人會自然醒么?

對了我們還有圖片的寬高信息:

加了對數之後的分布情況,呃,貌似看不出什麼,那直接用散點吧

幾點線若隱若現的樣子,連起來看看好了

這下知道那些線是什麼了,是手機屏幕大小和電腦屏幕大小。斜線就是屏幕的長寬比啦。也很容易看出那些屏幕佔了市場的主流。那1:1的?有這種屏幕??應該是截圖的時候截的圖長寬比在1左右浮動吧,看到條線也是最粗的。

順便看了一下那些圖是最常用的。騰訊為了減少圖片在網路流上的浪費,對於md5一樣的圖片,他們在聊天記錄里的名字是一樣的!值得一提的是,一張gif動圖的第一幀如果和某個靜態的jpge圖片一樣的話,那麼他們的名字也是一樣的,基於這個原理,統計了一下29個文件夾下出現次數最多的圖片前三名,竟然是這個:

果然還是表情包~~~~,最容易反應大家當時的心情么23333,幀數最多的是~~~~~

貪吃蛇~~,你們是有多無聊。

對了,本寶寶濾了一套表情包出來,哈哈哈

好了,就這樣,這次不討論過多的模式識別和監督學習之類的東西,希望大家也能在想不到的地方得到想不到的結果,希望能對各位有所啟發。看完後希望你們也能給個這樣的表情。

再分享一篇之前的建模~~

假如現代的 1 萬人穿越到智人時代,大約多久能重建現代文明? - 最愛麥麗素的回答

歡迎各類奇葩怪咖加微信FavorMylikes,嘻~~~

http://weixin.qq.com/r/ZFEIEHLEjC-zrTZz9wR2 (二維碼自動識別)


2015.11.14

更新神器:
1.下面提到的Quandl網站有一個他們自己的Python庫,叫Quandl,可惜也是收費的。

pip install Quandl

2.TuShare -財經數據介麵包 國內好心人做的開源財經數據介面(覺得好的可以捐助一下)。這裡幾乎可以獲取到A股的所有信息了,還包括一些經濟數據。重點是他不僅免費,還提供了一個Python庫tushare。

pip install tushare

import tushare as ts

這樣一來你便可以通過這個庫方便地獲取大量A股信息了。


——————————————以下為原答案——————————————
一大波數據來襲!

題主問了有什麼網站,能用來做什麼。我給出幾個API網站吧,做APP用的可能比較多,不過也可以用在日常生活中。

一、生活服務

1.手機話費充值。手機話費充值數據服務
2.天氣查詢。天氣查詢數據服務
3.快遞查詢。快遞查詢服務數據服務
4.健康食譜。健康食譜數據服務
5.查醫院。醫院大全數據服務
6.水電煤繳費。水電煤繳費數據服務
7.電影大全。電影大全數據服務
8.謎語、歇後語、腦筋急轉彎。猜一猜數據服務
9.音樂搜索。音樂搜索介面數據服務
10.健康知識。健康知識數據服務
11.百度糯米、團購等信息。糯米開放api數據服務
12.彩票開獎。彩票開獎查詢數據服務

以上介面都來自網站:
APIX_國內領先的雲數據服務平台_API介面服務平台

細心 的人會發現,這些功能簡直是遍地都是啊,支付寶、微信什麼的一大堆,哪用那麼麻煩!

是的,但我相信這些可能為一些不太了解相關信息的人提供了幫助。不過,雖然這些功能很多APP都有,如果自己有空閑時間又懂得編程,不喜歡別人的UI設計,自己做一做也是挺好玩的。比如:

生活枯燥了,把這些謎語歇後語等根據個人喜好定時推送到自己的手機,放鬆身心;
把一些健康小知識在空閑時間推送給自己,提醒自己;
……

國內類似的網站還有:
API數據介面_開發者數據定製
API Store_為開發者提供最全面的API服務
API數據介面_免費數據調用-91查|91cha.com

除此之外還有一些門戶網站提供了一些API介面,比如豆瓣、新浪、百度等等。

二、金融數據



1
.股票
①新浪財經
最多人用的就是新浪財經了,因為它是免費的,並且使用起來也不難。以下是網上找的教程:
獲取歷史和實時股票數據介面

②東方財富網
網站提供了大量信息,也是基本面投資者的好去處。可以查看財務指標或者根據財務指標選股(如凈資產收益率):選股器 _ 數據中心。這些都是很好的投資參考,當然還有其它功能有對應的API,可以自己分析一下。

③中財網
http://data.cfi.cn/cfidata.aspx提供各種產品的數據


(國內很多功能類似網站,如和訊、網易財經、雪球等等,具體的我沒有一一試驗就不放上來了,各位可以自己去試試,下同。)


2.大宗商品
①黃金頭條——用資訊幫你賺錢!炒黃金,看黃金頭條!黃金價格
這裡提供了各種大宗商品的行情,也可以分析獲取。包括技術分析方面。

②當然還有外國網站:Investing.com


3.美股等綜合類(其實新浪財經和東方財富等也算是國內綜合的了,就不一一列舉了)
①Wind資訊。很多機構用的都是這裡的數據,當然普通個人是拿不到的,不過如果你是財經院校的學生,他們會提供免費的數據。詳見官網。

②Market Data Feed and API
外國網站,提供了大量數據,付費。有試用期。

③Quandl Financial and Economic Data
同上。部分免費。

④96 Stocks APIs: Bloomberg, NASDAQ and E*TRADE
外國網站整合的96個股票API合集,可以看看。

⑤雅虎財經
http://www.finance.yahoo.com/
https://hk.finance.yahoo.com/
香港版

三、其它


撇去上面的API不說,如果單單爬取網頁上的內容下來,那就太多可以爬的了。如:

1.爬取網站上的圖片。包括貼吧、知乎、Tumblr、輪子哥、XXX(你懂的)。

2.爬取影評、電影資訊、圖書等等。比如豆瓣電影。輕輕鬆鬆掌握好書好電影。

3.爬取社交網路。比如新浪微博,Twitter。(Twitter提供了API,可以提交關鍵字等信息爬取搜索結果中的每一條內容。)爬完可以對整個社交網路群體做個分析,情緒、作息、區域……

4.一些網站有你喜歡的文章或者帖子,但是他們沒有APP或者是APP做得不友好,你可以直接爬取頁面信息推送到手機上。

5.做一個微信公眾號。有了上面那麼多數據,還怕公眾號沒東西?生活服務、選股器、行情分析、文章推送等等等。

……

其它想到再更。


###
###

最近準備找工作,就想把拉勾網 的數據抓取了下來看看。

趁著五一有假有時間,寫了這個爬蟲把所有技術類的招聘信息爬了下來,閑著折騰一下。

#########
####答完準備發布才發現此頁面已經有人回答過類似的爬取拉勾的數據的答案了,不過也回答一下吧。
#########

用的是scrapy,總共約十萬條數據(103167條數據),數據更新至4月30號。

如果有時間再把其他的數據都抓取下來。

分析結果頁面:Crawllagou by ScarecrowFu

github:GitHub - ScarecrowFu/crawllagou

代碼大致解釋:爬下拉勾網數據進行分析--傅sir的個人主頁|Alan_fu"s Blog|程序設計

從結果來看,北京的需求量真的很大,幾乎是排在第二的上海的兩倍。同時也吸引了相應行業的人聚集,人的聚集又相應帶動公司的聚集,兩者相互影響使得北京成了互聯網的主力軍。廣州的互聯網行業比起北上深需求量低了不少。

需求最大的是本科以上,其次是大專。學歷對於這行雖然不是決定性因素,但要入門還是必須的。

對經驗要求,1-3年的佔了大數,個人認為一來是這個階段的人跳槽最多,二來是目前創業公司較多,兩者造就這個比例。

阿里巴巴,這個不用說了。 良諾科貿不太清楚,位置在北京。而聯想利泰則是聯想集團成員企業,其前身是成立於1996年的聯想集團研發部軟體開發團隊。

職位描述中,「團隊」這個詞出現的比重最大,我們的工作中離不開團隊。與技能有關的依次是設計,測試,資料庫,java,linux等等。

行業領域情況,移動互聯網真的很火。。。

PHP是最好的語言??既然比java還多出20個?其實很多人都應該會python,可能是工作上作為主要開發語言的需求量不大,導致python的職位數量是倒數。

看情況北京的公司規模比其他城市都要大,總體來看,創業公司還是居多。

技術類工作薪酬普遍都比較高,這裡沒有做一個區間分析,有興趣的可以分析一下,以後有時間我在重新做一做。

職位誘惑中,五險一金被提到的次數最多,這應該是標配才對,不是誘惑。。。

因為我在廣州,所以把廣州對python的經驗要求和薪酬比例分析出來看看。


回顧2016年,我用爬蟲做了很多事情。

1、微信好友的爬蟲,了解一下你的好友全國分布,男女比例,聽起來似乎是一個不錯的想法,當然你還可以識別一下你的好友有多少人是用自己照片作為頭像的,詳細的內容可以點擊這裡:Python對微信好友進行簡單統計分析

2、拉勾網的數據那麼多的招聘信息有用嗎?當然有用,你想了解一下你所在城市的各種主流語言(Java、PHP、JavaScript、Python、C++)的薪資水平嗎?這或許對你的學習決策是一個很大的幫助:

  • Java/Python/PHP/C#/C++各大城市招聘狀況分析
  • web前端開發各大城市招聘狀況分析

3、豆瓣的圖書、電影信息有用嗎?當然有,你想了解一下哪位小說作家的作品質量最高嗎?是否想了解豆瓣上最熱門的書記都有哪些,有沒有你錯過的好書籍呢?豆瓣的電影評論有水軍嗎?

  • 爬取6.6w+豆瓣電影之後的分析故事
  • 豆瓣5.6分的《西遊伏妖篇》評論有水軍嗎?
  • 豆瓣讀書分析報告——讀書愛好者

4、美團和大眾點評的數據有用嗎?有呀,你真的了解周黑鴨和絕味嗎?你知道在哪些城市周黑鴨比絕味火,哪些城市絕味比周黑鴨火呢?如果你都不知道,你就不算是鴨脖控!你所不知道的周黑鴨和絕味鴨脖 - 知乎專欄

5、伯樂在線的文章數據有用嗎?有啊,作為技術人員如何寫一篇受歡迎的技術文章,作為一名Python初學者如何快速找到Python全面的學習資料,一個爬蟲就夠了:抓取1400篇Python文章後的故事(內附高質量Python文章推薦)

6、騰訊NBA的用戶評論數據有用嗎?你用會員看一場NBA,我用爬蟲也能看完一場精彩的NBA:用彈幕看一場NBA(公牛 - 老鷹),甚至我還能看到很多你看不到的東西,不信你點進鏈接看一看。

7、鏈家網的數據有用嗎?當然有啦,我能快速地找到我想租的房子,當然我還有一項特殊的技能,我還能用這些數據畫出城市的地鐵交通路線,是否很想知道如何做:如何拿鏈家網的租房數據做些有意思的事情?

8、知乎的數據如何用呢?如何判斷一場知乎live的質量,如何發現知乎中有趣的東西,知乎中最厲害的粉絲最多的都有哪些人?你想知道嗎?

  • 不交智商稅,如何判斷一場知乎live的質量?
  • 爬取知乎60萬用戶信息之後的簡單分析

很多人問我如何學習Python爬蟲,為此我整理編寫了一本Python爬蟲相關的電子書,主要包括Python入門、Python爬蟲入門到進階、Python爬蟲面試總結等等。可以在微信公眾號【一個程序員的日常】後台回復關鍵詞【1】獲取這本電子書。


可以爬取留學論壇並分析呀

詳情看這篇專欄:

EasyEasyOversea北美留學數據報告書 - 知乎專欄

我爬取了一些留學論壇的數據,並做了分析:

這是托福總分的成績分布圖,我們專門把錄取與被拒的數據分開做了統計,同時把申 請常春藤學校(Harvard, Yale, Cornell, Columbia, Princeton, Brown, Dartmouth, Upenn) 的同學的托福成績單獨做了統計對比。從圖上看出,托福 100-106 分是分數集中區, 托福越低,被拒的概率越高,低托福逆襲常春藤的例子也比較少...托福越高,被錄取 的概率也相對更高。托福在 102 分及以下時,被拒的人幾乎都比錄取的人多,但托福 大於 102 分時,錄取的人幾乎都被被拒的人多。而想申請藤校的同學也可以看出,托 福大於 102 時,藤校申請者的托福分數遠高於平均水平。從數據上看,申請藤校的同 學托福過 104 就已經高於其他申請者的平均水平了。

接下來我們來分析托福單科分數。這是托福聽力分數的分布圖,我們特地把 Econ/MFE, 法學與常春藤申請者的托福聽力分數做了單獨分析。經濟金融類專業的同 學托福聽力最多的竟然是...竟然是...滿分!在高分段(27-30)也是常春藤申請同學保 持領先。聽力大於 26 分就比很多人更有優勢了。

而托福的閱讀水平,經濟金融類的同學也是遙遙領先,滿分 30 分依舊成為了眾數。而 中國申請者托福閱讀水平不得不說真的是高,大量集中在(28-30)範圍內。中國學生 的英語閱讀看了不是大問題...畢竟是做完形填空長大的...

藤校申請者還是都是高分狂魔呢...

我們來看中國學生最頭疼的托福口語成績分布。剛開始看到這圖的時候嚇一跳,以為 用了假的數據。然後在網上翻看托福口語評分標準我才發現,原來托福口語評分標準 里,就沒有 21 分與 25 分這兩個分數。(source: http://toefl.koolearn.com/20131230/784726.html)

在確認了數據的有效性後,我們發現(22-23)是大部分申請者的眾數,口語平均水平 確實需要加強。不過 Econ/MFE 的同學口語成績眾數是 24 分,因此口語成績的進步空 間還是很大。也看得出常春藤申請者的口語水平十分強勢,高分段大有人在。一般口 語大於 22 分錄取就具有優勢了,Offer 數也會比 Reject 數多。口語大於 23 分就比很多 人領先了。

寫作分數相對比較分散,集中在(24-28)之間。Econ/MFE 類的同學們受我一膜,眾 數在 28 分。Ivy League 在高分段也是保持領先。寫作大於 26 分就是一個不錯的成績 了。所以寫作也是中國學生考托的刷分大坎,一定要過啊。

我們對 GRE 總分也進行了分析,把常春藤大學的申請成績單獨做了分析,並把 Offer 與 Reject 的 GRE 總分進行了對比。GRE 的眾數是 320...這次意外的是無論是 Offer 還 是 Reject 還是 Ivy League,眾數都是 320。高分段(329-340)的規律是:常春藤&>Offer &> Reject。而申請成績只要大於 322 分就已經大於平均水平了。

我們甚至還用這些數據做了應用

詳情請看:

簡單海外 | EasyEasyOversea


3月27日更新:
前幾天註冊了一個新的域名:http://zhihu.photo,裡面是知乎一些熱門釣魚貼的圖片集,剛剛部署上去,這幾天會正式開始抓取。另爬蟲和Web端代碼已開源,地址:https://github.com/xlzd/。

------------------------------------------------------
簡單講點我爬過的數據(包括但不限於):

  • 知乎的100多萬用戶(一個知乎重度用戶眼中的知乎)
  • 圖片網站(Page 1 of Desktop Wallpaper)並做了微博帶美圖自動報時(xlz-d的微博_微博)
  • 一個菜譜網站的菜譜並計劃做成手機APP(暫時擱置)
  • 58/趕集/豆瓣的租房信息並主動推送優質房源到郵箱(前段時間準備租房)
  • 妹子圖/成人糗百/**的圖片(妹子圖 - 清純美女,可愛美女,美女圖片,糗百成人版::糗事百科 成人版 成年 糗友都懂得!,**)
  • 輪子哥 @vczh的關注列表的美女的所有爆照(通過face plus plus的API識別頭像並通過Python的庫簡單識別暴露面積)
  • 工作中的爬取內容不便過多透露

關於爬蟲,練手的話建議向需要登錄的、比較封閉的社區爬取數據,或者向一個超大量數據源分散式抓取,要考慮伺服器壓力和反爬蟲機制,分散式爬蟲機器間的通信以及失敗條目的重新抓取但不重複抓取已抓取數據等,可以使用一些成熟的Message Queue或者純手擼。

到最後希望你能夠達到的水平是,只要瀏覽器可以瀏覽的內容,都能夠用爬蟲抓取(在時間開銷/內存開銷/存儲開銷都吃的消的情況下)。


(由於知乎~嗶~的霸王條例,某1&<&<10網站用**代替。)

如果想了解投資數據,IT桔子絕對是一個很好的選擇。和朋友一起合作了這個小項目,利用python爬取IT桔子上的投資公司數據,包含第一層的投資公司名稱,投資公司介紹,投資次數,投資領域,及第二層的投資組合等欄位。先上個臨時域名Data Visualization,數據掛在了這個上面,感興趣的朋友可以去玩一下。感謝遠在倫敦的 @溫穎提供爬蟲支持,感謝@piupiu(他知乎是個空號,直接放他的個人網站了http://www.wuyue54.com)和我一起把這個項目做完。整個項目從0-1進行設計,純手寫,涉及html、angularjs、d3.js等語言,數據獲取為python。

數據截止至2016.4.23,共獲取投資公司2063個。
1. 先利用D3.js做了一個拓撲圖草圖,把所有的投資機構關係理順,投資次數越多代表該機構的氣泡半徑越大,具有共同投資關係的投資公司之間會存在連線,共同投資次數越多連線越寬。很明顯的國內投資機構和國外投資機構自然分成兩個聚類。

2. 之後增加了篩選,按照投資次數多少來篩選投資機構

3. 增加了點擊氣泡查看被投資公司列表,為增加交互性添加了網頁端的slider,可以直接滑動篩選投資次數大於一定數值的投資機構,界面顏色第一次做了統一調整。

4. 增加line chart和bar chart查看全部投資機構或者各投資機構的投資趨勢變化及在各輪次的投資次數變化。同時決定把這個項目做到用戶友好,調整了整個顏色風格,並添加簡單文案。

因為三個人在不同的國家,時間比較碎片化,目前line chart還存在一些小bug,不過不影響整體使用,之後會繼續完善。臨時域名http://www.benranfan.com/,感興趣的朋友可以去隨便玩一下。如果有任何問題請隨時指出,歡迎探討,轉載請註明原作者及出處。
-------------------------------------------
發現和之前 @何明科的答案基金恩怨情仇考(I) - 數據冰山 - 知乎專欄有一些類似,看出來我們的項目里分析各投資機構關係的部分還有很多不足,還是要繼續努力學習實踐。


2016年2月19日 update: 新增對僱主的統計

2016年4月27日 update: 知乎登陸帳號添加了驗證碼機制,原來的代碼無法完成登陸。

=========原回答==========


入坑知乎三年有餘,數月前靈光閃現,做個網頁爬蟲,專爬知乎下的精華回答,作統計分析。
以下,即是此項目的分析結果,希望能從另一個角度呈現出不一樣的知乎。

代碼

"talk is cheap, show me the code!" --屁話少說,放碼過來。心急的朋友可以直接戳鏈接看源碼,用的是Python3:
GitHub - SmileXie/zhihu_crawler

演算法簡述
1.爬蟲演算法

以根話題的話題樹為啟始,按廣度優先遍歷各子話題。話題的遍歷深度為3。解析各話題下的精華回答。

2.收集數量

目前收集的信息共計50539個精華回答。

3.分析內容

  • 精華回答的點贊數,答案長度等;
  • 答題用戶的id,點贊數,地區,性別,學歷,學校,專業等;

統計結果
1.匿名答主

50539篇精華回答中,有3308篇的回答者選擇了匿名發布答案。

2.答主性別

男15740,女5749.是否從一個側面印證了知乎上程序員佔了很大的比例.

3.答主受教育情況

按答主的所在(畢業)學校統計,TOP10的學校是:


可以看出,中國的頂尖高校對知乎的精華回答貢獻頗多。

按答主所在的專業統計,TOP10專業是:


果然是程序猿的天堂。(上面的數據,我針對「計算機」和「金融」的數據做了處理,把「計算機」「計算機科學」「計算機科學與技術」合併為「計算機」,把「金融」和「金融學」合併為「金融」)


4.僱主

精華回答答主的僱主統計,互聯網行業佔了大多數。

5.精華回答的贊同數

按精華回答所獲得的贊同數落在的區間,做統計

可見,大多數精華回答獲得的贊同數是處於0~4999範圍內的。
目前統計到的最高票回答是這篇:《哪些素質很重要,卻是讀書學不來的》中肥肥貓的回答,共獲得了91433個贊同。

6.回答字數

如果按以下標準將精華回答按字數分類:


0~99:短篇
100~999:中篇
1000~9999:長篇
10000以上:超長篇

那麼,精華回答的字數分布如下:


看來各位答主對沒少在知乎上碼字。長篇的數量甚至超越了短篇和中篇。
目前收集到的最長字數回答是:《人究竟能摳到什麼程度》中郭永年的回答,答主揚揚洒洒寫了98904字,敢情是在知乎上寫小說了啊。

後記

作為一個對Python和C都有使用的程序員,在開發的過程中不斷地領略著這兩種語言的巨大差異。
Python把對開發者友好做到了極致,犧牲了性能。
C把性能做到了極致,犧牲了對開發者的友好。
這個項目只用了500行Python,如果換作500行C,估計只能完成上述功能的1/10吧。
最後再貼一遍源碼:
GitHub - SmileXie/zhihu_crawler


這裡給出了一些網站平台,我們可以使用爬蟲爬取網站上的數據,某些網站上也給出獲取數據的API介面,但需要付費。

財經數據

(1)新浪財經:免費提供介面,這篇博客教授了如何在新浪財經上獲取獲取歷史和實時股票數據。

(2)東方財富網:可以查看財務指標或者根據財務指標選股。

(3)中財網:提供各類財經數據。

(4)黃金頭條:各種財經資訊。

(5)StockQ:國際股市指數行情。

(6)Quandl:金融數據界的維基百科。

(7)Investing:投資數據。

(8)整合的96個股票API合集。

(9)Market Data Feed and API:提供大量數據,付費,有試用期。

網貸數據

(1)網貸之家:包含各大網貸平台不同時間段的放貸數據。

(2)零壹數據:各大平台的放貸數據。

(4)網貸天眼:網貸平台、行業數據。

(5)76676互聯網金融門戶:網貸、P2P、理財等互金數據。

公司年報

(1)巨潮資訊:各種股市諮詢,公司股票、財務信息。

(2)SEC.gov:美國證券交易數據

(3)HKEx news披露易:年度業績報告和年報。

創投數據

(1)36氪:最新的投資資訊。

(2)投資潮:投資資訊、上市公司信息。

(3)IT桔子:各種創投數據。

社交平台

(1)新浪微博:評論、輿情數據,社交關係數據。

(2)Twitter:輿情數據,社交關係數據。

(3)知乎:優質問答、用戶數據。

(4)微信公眾號:公眾號運營數據。

(5)百度貼吧:輿情數據

(6)Tumblr:各種福利圖片、視頻。

就業招聘

(1)拉勾:互聯網行業人才需求數據。

(2)中華英才網:招聘信息數據。

(3)智聯招聘:招聘信息數據。

(4)獵聘網:高端職位招聘數據。

餐飲食品

(1)美團外賣:區域商家、銷量、評論數據。

(2)百度外賣:區域商家、銷量、評論數據。

(3)餓了么:區域商家、銷量、評論數據。

(4)大眾點評:點評、輿情數據。

交通旅遊

(1)12306:鐵路運行數據。

(2)攜程:景點、路線、機票、酒店等數據。

(3)去哪兒:景點、路線、機票、酒店等數據。

(4)途牛:景點、路線、機票、酒店等數據。

(5)貓途鷹:世界各地旅遊景點數據,來自全球旅行者的真實點評。

類似的還有同程、驢媽媽、途家等

電商平台

(1)亞馬遜:商品、銷量、折扣、點評等數據

(2)淘寶:商品、銷量、折扣、點評等數據

(3)天貓:商品、銷量、折扣、點評等數據

(4)京東:3C產品為主的商品信息、銷量、折扣、點評等數據

(5)噹噹:圖書信息、銷量、點評數據。

類似的唯品會、聚美優品、1號店等。

影音數據

(1)豆瓣電影:國內最受歡迎的電影信息、評分、評論數據。

(2)時光網:最全的影視資料庫,評分、影評數據。

(3)貓眼電影專業版:實時票房數據,電影票房排行。

(4)網易雲音樂:音樂歌單、歌手信息、音樂評論數據。

房屋信息

(1)58同城房產:二手房數據。

(2)安居客:新房和二手房數據。

(3)Q房網:新房信息、銷售數據。

(4)房天下:新房、二手房、租房數據。

(5)小豬短租:短租房源數據。

購車租車

(1)網易汽車:汽車資訊、汽車數據。

(2)人人車:二手車信息、交易數據。

(3)中國汽車工業協會:汽車製造商產量、銷量數據。

新媒體數據

新榜:新媒體平台運營數據。

清博大數據:微信公眾號運營榜單及輿情數據。

微問數據:一個針對微信的數據網站。

知微傳播分析:微博傳播數據。

分類信息

(1)58同城:豐富的同城分類信息。

(2)趕集網:豐富的同城分類信息。

網路指數(可能需用圖像識別)

(1)百度指數:最大中文搜索數據,觀測網路熱點趨勢。

(2)阿里指數:商品搜索和交易數據,基於淘寶、天貓和1688平台的交易數據,分析國內商品交易的概況。

(3)友盟指數:移動互聯網應用數據,包含下載量、活躍度、用戶情況等多維度數據。

(4)愛奇藝指數:涉及到播放趨勢、播放設備、用戶畫像、地域分布、等多個方面數據。

(5)微指數:通過關鍵詞的熱議度,以及行業/類別的平均影響力,來反映微博輿情或賬號的發展走勢。

目錄持續更新,如果你是小白,並且希望用爬蟲來獲取有價值的數據,可以看看我們的課程:Python爬蟲:入門+進階


題主的方向不就在自己的需求里么。
既然要轉數據分析方向,那就去爬各大招聘網站的數據分析崗阿。
然後進行數據清洗,語義處理,進而得到數據分析崗的用工趨勢,地域分布,薪酬水平,主要要求的技能點。
然後寫個分析文章發布,名利雙收,說不定就有企業主動就來找你了。


整理了一些教程可以加群了直接下載,Python QQ群: 202497449
【已經升級為2000人群,群友大多是Python,爬蟲相關人員,共享了很多資料。】

贊的比較多,放一些完整的代碼出來,可以跑起來玩玩,看著爬蟲運行還是蠻有趣的。

爬:apptool,應用工具,app排名查詢,app排名優化,app排名,應用市場排名

update(2016.3.5)到伺服器了,陌陌的排名趨勢:
陌陌

知乎的
知乎

最近一周排名跟蹤。(2016.3.1)

增加了可視化的排名變化(2016.2.27)

知乎的排名變化

爬內容,爬圖片,各種爬。

從幾千條,目前已經爬了幾百萬條了,後面做做數據可視化。

看著爬蟲運行的感覺很有趣,不停地,一條一條往前翻。

數據量最大的爬蟲,快四百萬條數據了。計劃是開發一個APP排名,跟蹤和查詢的application。後面還想做更加細緻的跟蹤,比如說排名發生變化的時候,下載量有什麼變化,評論量有什麼變化,如此等等。這才能勉強算是有點用的爬蟲,而不僅僅是簡單的download數據。


好久的問題了,嘗試回答下,希望對題主有用~

一、總結題主問題及現有回答
從題主的問題中來看,似乎題主對於python爬蟲的編寫已經沒問題了,在此就不贅述了。從問題來看,題主的問題主要分為兩個方面:第一,抓取到數據之後如何進行分析;第二,「哪些網站的數據抓取下來能獲得有分析價值的數據」,即從哪裡能獲取到有價值的數據。

從現有的回答來看(截止2016年1月1日晚;新年晚上回答。。太拼了。。),包括排名第一 @林駿翔 和排名第二 @xlzd在內的排名較高的答案大多數都在回答第二個方面的問題,從哪裡獲取有價值的數據。 我曾經抓取新浪微博;百度貼吧;百度的檢索結果及相關欄位等,就不詳細展開了。

我就主要結合自己的經歷分享一下第一個方面的問題吧。

二、爬蟲抓到的數據的分析方式設想

第一,在分析數據之前我們總是帶有某些特殊的目的、需求和預期想要得到的結論的。這往往是一個實際的問題,可能是商業性的,當然也可能是學術性的。舉個栗子,我們都知道,百度貼吧中總是存在各種各樣的信息,有一些是水軍,有一些是有用的等等。我的需求是,我想要寫一個爬蟲獲取某貼吧里每天所有的帖子及其評論,但是希望過濾到垃圾信息(這樣可以大大提高我的閱讀效率,逛過吧的應該知道,某些吧里一堆水軍)。於是,爬蟲就是我首先要寫的程序了。爬蟲寫好了,問題來了。問題是,每天24:00我抓完數據之後要怎麼過濾掉垃圾信息及水軍信息呢? 這是需要一種能力的,我覺得這是題主想要獲得的能力。就是將商業性或者學術性的問題轉化成一個可用數據分析解決的問題這是數據分析的一種能力。我覺得這需要三個方面的能力:1、領域知識,就是你對要分析的問題的領域的熟悉程度;2、數據挖掘、分析演算法的了解程度,對於常用的分類、聚類、回歸、關聯等演算法了解一些把;還有一些統計的方法;3、sense。這個就比較玄乎了,一眼看出問題是什麼。。可能跟前兩個方面存在共線性,但不得不承認,有些人確實存在特殊的天賦。。。
在此不展開說了。比如,在這個栗子里,我們可以採用分類的方式來解決問題,演算法那就是一些分類演算法了,SVM、KNN、Decision Tree等等。訓練一個二值分類器,垃圾與非垃圾。

第二,抓取到的數據不可能涵蓋到我們想要知道的所有方面,而且數據的清潔性也不見得能達到所有欄位都可以用於分析的程度。還是舉個栗子,小明想研究abcde,5個問題。但是,觀察數據之後,小明發現數據只能支持他要分析的abc,3個問題(sign。。);但是在觀察數據的過程中,小明又得到了啟發,f問題也可以分析。於是,最終,小明分析的可能是abcf,4個問題。

所以,數據分析也是一個trade-off的問題。我們抓取到得數據和要進行的分析之間的trade-off。
trade-off的過程就是這樣,產生預期→收集、處理、觀察數據→部分預期滿足、部分預期受挫、數據啟發產生新的預期→開始進行分析;甚至在分析的過程中,還會發現前面預期的不合理性,或者收到了進一步的啟發,這些都是有可能的。

==============================我是分割線=================================
最後來一個大栗子。抓取了新浪微博的數據,其實前後抓取了兩次,keyword分別是「iphone」和「京東白條」。 兩次分析的思路類似,抓取的欄位類似,兩個放在一起說啦,以「京東白條」為例來描述。

(因為是我大三的課程作業,所以不涉及版權和保密性問題,我就隨便扯扯了,不對的地方請大家指教)

分析的主題:《基於新浪微博的京東白條發展建議》(這不像那個垃圾分類那個問題,不是一個很主題很集中的問題,但是好在無論得到什麼樣的規律,只要可信,都可以作為一條建議出現在結論里233333333。。。)
一、數據來源:新浪微博。
二、抓取策略:在新浪微博搜索框進行檢索,獲取檢索結果。
三、開發環境:python3
四、數據維度及特徵:
1. 關於微博博文。(正文、點贊數、轉發數、評論數、發布設備、發表日期、博主主頁url)
2. 關於博主。(歷史博客書、粉絲數、關注數、性別、生日,地區、描述)
五、大家停下來,想想你們認為可以做的統計與分析的維度有哪些???

六、我當時做的統計與分析。

1. 基本統計學:每天微博有多少的趨勢圖(解析趨勢,還原到歷史事件);性別分布;地區分布(省份級別的分析,與GDP密切相關,但存在異常省份,可進一步分析為何這些省份對於京東白條的關注有異常,為進一步的營銷和白條策略做參考);累計分布(總點贊數、總轉發數、總評論數排名前20%,1%的博主佔總博主的人數)

2. 情感分析。 對微博正文切詞,然後進行情感判別。 我想了兩個思路,第一個基於切詞、情感詞典和極性詞的情感判別;第二個是基於機器學習的(與垃圾分類類似,進行情感分類;可以訓練個分類器試試)。當時實現了第一個,判別了每條微博正文的情感value。然後與性別、省份做了交叉分析。。。比較性別和省份上對於京東白條情感值的差別。我認為,這個對於營銷和產品設計是有意義的。發現特定群體對於某些產品的特定情感情況。 然後為進一步的營銷或者產品設計作參考把。

3. 回歸分析,以微博的點贊數、轉發數、評論數為因變數(營銷效果);以博主粉絲數、微博數、關注數、情感值和性別為自變數。做回歸。主要是想得到營銷方面的結論,大家都知道,微博營銷各種存在,水軍、大V等等。那麼如果京東白條要找水軍,應該找怎樣的水軍呢?
結論:低調的又富有正能量的男神;

低調是說發的微博比較少的人,營銷效果好一些;男生好於女生;情感值高的微博好於情感值低得微博;粉絲多的優於粉絲少的。 這四條是統計學上顯著的結論。

細節不贅述了。 希望對題主有所啟發~

有寫的不好的地方,請大家多多指教。


從某處爬到的某美國著名高校170000+份研究生申請文件。

因為顯而易見的原因,我不能公布它的具體來源……(所以請不要問我,絕對不回答

但是獲取這些文件(或者從各種各樣的pdf里提取文字)真的只是這件事的一小部分,重要的都在如何分析這些數據。比如遇到的第一個問題就是沒有標註,也就是我們完全不知道這些申請者的錄取結果如何,這樣不能直接訓練一個分類器。當然,某些系的網站上會有PhD學生的名單,那麼如果我們想知道怎樣的學生被錄取,實際遇到的是一個半監督學習當中的不完全先驗信息聚類問題。

這和我畢業論文大概處理的是相同的情況,雖然用的肯定不是這樣來路不明的數據。因為畢業論文還沒寫完,暫時沒有對這些文件處理。

我們也可以換個思路,做一些其他量的統計或者回歸。例如,考慮學生GPA的分布,與學校的世界排名等的關係,那麼至少可以為其他申請者提供一種參考:「申請該學校的有86.75%都比你優秀哦!」

不過之前,我做了一個很簡單的「留學文書例句搜索」(現在已下線,這裡有介紹:快速創建一個例句搜索工具的思路)。比如你想知道一般推薦信里對於申請者的弱點是怎麼說的,那可以搜索含有weakness的文本,然後就知道其實大家都是換著花樣在誇自己嘛。

最後,放幾張圖片,是我在隨手翻這些文件時找到的亮點。

(我們最專業)

(這個學生被坑慘了啊)

(雖然大家都是自己寫的推薦信,你們也不能太高調嘛)
(這是pdf屬性里的文件標題,如果直接從word轉換或列印,可能就會顯示出文件名)


我的爬蟲在內部網上爬到過未來2年內所有的產品代號和發布時間。真就有那麼不開眼的什麼都敢共享。


路過,大學期間爬過很多有趣的有用的有意義的網站。在這裡順便做個總結交個朋友
1.教務網站(涉及模擬登錄)
很多高校在入學時的教務系統登錄密碼是一樣的,而且50%的學生到大四都不改:)(123456)
當年寫的第一個爬蟲,用的php,因為php的curl庫做模擬登錄簡單暴力,代碼很簡單,創建遞歸模擬登錄,解析成績頁面。(南理工的同學應該還記得當初風格極簡的教務系統,沒有驗證碼,沒有瀏覽器攔截,cookie不加密)。
硬碟里存著懶得改密碼同學的姓名學號成績在當時是一種可怕的成就感:|

2.小遊戲網站
在CSTO上接了一個爬小遊戲的單子,細聊後了解到他們在做針對低齡青少年的遊戲網站(類似4399)。
也是從那個時候才知道原來小遊戲網站的swf文件都是赤裸裸的對外開放,仍然記得交付的時候對方的表情,哦,原來這個網站的文件都是不加密的啊,那挺簡單的。最後不得不悻悻地給錢走人。
由於對方站點"當時"沒有做相關聲明與技術攔截,原則上講通過手動方式能夠獲取的文件都不算違法。
爬取京東,亞馬遜商城的數據違法嗎? - 互聯網

3.亞文化與小清新網站
在做飢餓(StarvingTime)的時候調研過相關小眾網站,這些網站都是土豪外包,法律條款基本沒有,而且有些現在已經挺火了。大家沒事可以爬爬,數據存下來總沒有壞處。
VICE 中國 | 全球青年文化之聲:世界在下沉,我們在狂歡
公路商店_為你不著邊際的企圖心
ChokStick 騷貨
豆瓣東西

4.微信公眾號
無意間發現飢餓公眾號的文章出現在林子聰頭像旁邊,好奇微信有做加密怎麼會被爬,民間高手也太強了。後來調研了一下,原來是搜狗將微信的介面買了下來造福大眾。
如何利用爬蟲爬微信公眾號的內容? - 移動互聯網

5.股票數據
前年暑假做神經網路,需要大量的個股數據用來訓練,於是爬了A股1997-2014的所有數據。當時雅虎,新浪等都有api,先使用雅虎,資料太舊不成功。大家可以試試。
雅虎股票介面
新浪沒有歷史數據介面。
新浪實時股票數據介面http://hq.sinajs.cn/list=code
google的中國股票數據當時也調用的新浪介面,所以最終方案就是爬新浪頁面,當時新浪財經的UI有展示歷史數據,現在依然存在。
西寧特鋼(sh600117)歷史成交明細(對於個股也可以直接用同花順等軟體下載。)

6.音樂網站
落網 - 獨立音樂推薦
硬碟里有它六千多首歌,一輩子都夠聽了

---------------------------------------------------安利線------------------------------------------------
自己寫的可配置爬蟲
基於python3.4,有了非同步訪問後爬蟲的效率簡直了。
什麼是可配置爬蟲?
可以設置爬取深廣度,爬取規則(正則直接寫在xml里),爬取對象,爬取站點,爬取模式(主要是靜態。動態爬取還在測試)

如圖是一個從某用戶開始深度爬取知乎的 config DEMO,稍微改幾個欄位就可以爬取別的站點,使用起來非常方便。
代碼松耦合。數據存儲用的是MongoDB,所以使用的話需要先安裝mongodb,支持分散式,配合django+nginx開發系統工程效率可觀。
可配置爬蟲Python


給爸爸爬取雪球網中某個組合,查看股票持倉情況,一旦持倉變化,則發送郵件到指定的郵箱,luckterry7/stCrawler · GitHub

爬取豆瓣電影,最新的和評分大於7的電影爬取出來,周末慢慢看。luckterry7/doubanMovieCrawler · GitHub


推薦閱讀:

TAG:程序員 | Python | 數據挖掘 | 數據分析 | 爬蟲 (計算機網路) |