爬到社交網路文字數據有什麼用?
寫了個小爬蟲,爬了某社交網路數據,一晚上拿到大概500萬紀錄,還在爬。。。不知道這些數據有什麼用。為了方便沒有存關係數據,有沒有必要完善一下然後把關係數據存下來(評論和評論人,點贊什麼的)?謝
-------
來補充下,我爬的是qq空間,特別是說說的數據。這貨沒有速率限制,直接開80個線程放digital ocean, 單機就這速度。如果用上redis做分散式估計可以把騰訊伺服器搞垮(聽說是node JS的後端)最近沒有看爬蟲,GitHub上有人給我說好像被查了,等我申請季完了去看看。爬蟲是我學C++的時候寫的,所以略暴力,爬蟲邏輯也挺簡單的。
有段時間還用Scala重構了下,寫了點前端API,也不知道現在怎麼樣了。
(用上海話說)能做的事情不要太多喏。
核心的一些知識點:數據抓取(ETL),NLP(分詞、情感分析、語義分析等等)以及SNA(Social Network Analysis,網路理論中的各種指標)。
1、關鍵詞統計及分詞
利用知乎的熱門回答(滄海橫流,看行業起伏(2015年) - 數據冰山 - 知乎專欄),把所有回答抓取下來,並利用NLP分詞以及建立行業關鍵詞典對熱門行業進行統計,2015年最熱門最衰落的行業。給大家擇業提供方便的信息。
2、用戶畫像
利用汽車之家等論壇發言的抓取以及NLP,對各種車型的車主做畫像(大數據畫像:寶馬車主究竟有多任性? - 數據冰山 - 知乎專欄)。
抓取大眾點評的數據,在文章(小龍蝦是怎麼火遍全國的? - 數據冰山 - 知乎專欄)中,對小龍蝦的用戶進行畫像,並與其它夜宵食品的用戶進行比較。
3、情感分析
抓取各大電商的評論及銷量數據,對各種商品(顆粒度可到款式)沿時間序列的銷量以及用戶的消費場景進行分析(超越諮詢顧問的算力,在用戶理解和維護:大數據改變管理諮詢(三) - 數據冰山 - 知乎專欄)。
然後根據用戶評價做情感分析,實時監控產品在消費者心目中的形象,對新發布的產品及時監控,以便調整策略。
4、傅里葉分析
抓取B站上面關於《感覺身體被掏空》中所有的彈幕,並對彈幕的數量以及情緒進行時域和頻域的分析(你是怎麼被他掏空的? - 數據冰山 - 知乎專欄)。說不定對作詞作曲者( @金承志 )後續的創作工作有價值。
數量的時域分析。
情緒的時域分析。
數量及情緒的頻域分析。
5、社交網路分析
在專欄文章中(基金恩怨情仇考(I) - 數據冰山 - 知乎專欄),抓取IT橘子和36Kr的各公司的投融資數據,利用SNA分析中國各家基金之間的互動關係。當然有不少優秀文章是基於知乎的Social Network來做分析,非常具有參考價值。
...更多文章請到數據冰山 - 知乎專欄
...更多回答請看何明科的主頁
謝邀!
你可以把你爬取的這個過程或者一些想法寫出來,給我投一篇稿件么?
下面這篇文章的作者也是無意間在1024爬了一些數據,不知道該怎麼使用,然後我給了他一點點小建議,結果完成了這篇文章,發出的時候火爆了一段時間,百度、網易等平台當時都有部分轉載。文章如下:
大數據愛好者:草榴在我眼裡其實是這樣的!
你大概爬了知乎吧,我也在爬知乎,但是速度沒你那麼快,可能是我不會用並行爬蟲吧。
貼一個我用quora數據做的研究,有興趣我們可以一起合作。
作者:江漢臣
鏈接:如何在Quora上獲得更多的贊——來自10393個回答的實證 - 防川 - 知乎專欄
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
結論:在氣候變化的討論中,人們更願意為那些提供了專業性知識,而又不是科普知識的答案點贊。特別是打臉氣候變化否認者和懷疑者,以及打臉共和黨政策的那些答案,會得到更多的贊。如果答案中出現太多日常用語,就會失去更多的贊。這些都是common sense,但是可以通過定量方法進行細緻的研究。
如何在一個社交問答社區(online social QA community)中獲得更多的贊,是我一個希望研究的一個問題。
在今年4月份左右,我通過python的爬蟲爬取了Quora上面Climate Change這個Topic下面的問題、回答以及回答作者的信息。為什麼爬取這個話題,是因為Climate Change的Public Opinion或者Science Communication研究可以發文章,同時也是我很感興趣的領域。
Quora在2016年3月宣布自己的網站每個月有超過1億的獨立ip訪問,比2016年1月增長了22%。根據第三方流量統計平台Alexa的數據,2016年4月,Quora排名全球站點的128位,主要訪問者來自印度(39.9%),美國(23.1%),英國(2.9%),加拿大(1.8%)以及中國(1.8%)。Alexa同時指出,和互聯網平均水平相比,Quora用戶中有更多的男性,更多的高學歷用戶以及更多的年輕用戶。
我在2016年3月28日開始爬取數據,當時Climate Change這個話題下面有6.8K個問題(很不開心的是當時沒去截圖),現在已經是8.4K了,如圖1所示。遺憾的是,Quora沒有像知乎這樣提供完整的話題—問題數據,可得到的數據是顯示所有問題的一半(通過不停載入動態頁面,反覆試驗得到),於是我們只爬取了最新的3400個問題。
圖1 Quora的Climate Change Topic主頁
爬取的信息主要如圖2(問題和答案信息)、圖3(作者信息)所示,包括這個問題有多少跟隨者,問題的文本,問題屬於哪個話題,問題有多少回答,問題有多少瀏覽量,問題創建時間,答案的作者,答案的瀏覽量,答案的點贊數(研究對象,因變數),答案創建時間,答案的文本,作者粉絲數、提問數、回答數、跟隨數、公共編輯數、文章數。當然這些數據並不會全部用在研究中。
圖2 Quora中某個問題的頁面
圖3 Quora中某個用戶的主頁
我希望通過回歸模型來解釋什麼因素會影響一個答案獲得的點贊數。首先答案獲得的點贊數是一個計數數據(count data),需要用計數回歸的方法,比如泊松回歸(Poisson regression)、負二項回歸(Negative binomial regression),在本文中,我們同時採用了這兩種方法。點贊數的分布如圖4所示,可以看出超過2500的答案沒有得到點贊,超過2000的答案只有1個點贊,大約1500個答案有2個點贊。獲得最多點贊數的答案得到了2727個贊。
圖4 Quora回答得到的點贊數的分布
我們希望研究的特徵包括答案本身的性質,包括答案的長度、答案有多少圖片以及最重要的,答案討論了些什麼。前兩個特徵是很容易計算的,但是答案討論了什麼,這個特徵比較難以量化,畢竟如果靠人力閱讀,我們需要閱讀10393篇答案。於是我採用了主題模型的方法對這10393個答案進行建模。
我建立了4個主題模型,分別包括4個主題,8個主題,10個主題和12個主題,最後我發現10個主題的那個模型比較好。當然,這裡的主觀性很強,不過目前很難有一個量化的指標去幫助研究者選擇主題數,量化的指標和語義也不是等價的,因此通常這類研究都採用主觀判斷的方法。構建的10個主題,每個主題對應的關鍵詞,以及主題占整個數據集的比例如圖5
圖5 Quora回答主題建模結果-10主題數的模型
大多數主題都是針對氣候變化相關的特定領域的,比如能源、燃料和碳排放、科學傳播甚至政治學。但是我們也注意到主題2和主題8,其實更多的是一些日常用詞,這在主題建模過程中是不可避免的,因此我們也強行給它們進行標籤化。
在2006年,Lorenzoni等人[1]進行了一個針對美國和英國人民關於氣候變化的印象的研究,基於的方法是開放式訪談(open-ended survey)。因為Quora也是一個英文社區,雖然有很多印度人,但是還是可以進行粗略的對比。比如在Lorenzoni等人的研究中,氣候變化所導致的極端自然現象,比如冰川融化,洪水以及天氣異常,在美國和英國人民印象中佔比例非常大,而在Quora的回答中,相關的主題,包括主題5(大氣和天氣)以及主題7(水圈),總共佔比為20.9%。關於能源和碳排放的主題,包括主題1(燃料和碳)以及主題4(能源),在Quora的回答中共佔18.8%,而相關的主題,如溫室氣體,在Lorenzoni等人的調查中佔比少於5%。與人類和社會相關的主題,包括主題2(生活)、主題3(人類和生態多樣性)、主題8(未來)和主題9(政治),在Quora的回答中共佔比超過40%,遠超過,Lorenzoni等人的調查結果。主題6(科學傳播)在Quora的回答中佔比為11.4%,相似的主題,如氣候變化否定者(這個不好翻譯,原文是naysayer)在另一份2010年針對美國人的調查中[2],佔比為23%。最後,主題10是一個非常專業性的主題,講的是氣候模型的問題,帶有很強的科學性,這個主題在Quora中出現是意料之中的,但很少會有相關的主題在針對普通民眾的調研中出現。
這10個主題同時也是分配個數據集中每一個答案的,也就是說,每個答案都有一個10維向量代表這10個主題在該答案中的比例,向量的和為1。比如,某個答案重點談的是能源問題,那麼主題4在這個答案中的比例就會非常高。遺憾的是,我們不能直接用這個10維向量進行回歸,因為存在多重共線性的問題,因此我們將這些代表主題的特徵轉化為啞變數,具體的規則就是,如果一個主題的比例超過0.2,我們就將對應的啞變數標記為1。選擇0.2作為閾值的原因是,它是平均主題數的2倍,並且能夠保證超過99%的回答至少有一個突出的主題。
我們的回歸模型總共包括14個變數,分別代表10個主題,以及答案所屬問題的關注人數、答案文本長度、答案包含的圖片數、以及答案作者的粉絲數(後4個特徵在建模前都經過歸一化)。同時我們用答案存在的天數(從答案創建到數據採集的天數+1)作為offset來抵消時間效應。最終得到的結果如圖6所示。
*p&<0.05. **p&<0.01. ***p&<0.001
圖6 Quora回答點贊數的回歸結果
從圖6最後3行可以看出負二項模型是遠遠優於泊松模型的,因此我們的分析將基於負二項模型的結果。首先關注非文本特徵,作者粉絲數、回答文本長度、回答圖片數和所屬問題關注數這4個特徵。首先這4個特徵都是高度顯著的,***代表在p&<0.001水平上顯著。作者粉絲數對於一個答案獲得的點贊數影響最大,文本長度的影響第二,圖片數量和問題關注人數的影響差不多一樣。
再看文本特徵,β係數為負值的有4個主題,分別是主題2(生活),主題5(大氣和天氣),主題7(水圈)和主題8(未來)。其中顯著負面影響的主題2(生活)和主題8(未來)。一個可能的解釋是,主題2和主題8,包含很多日常生活中,以及在Quora的回答中常見的詞語,例如thing, problem, good, bad, question, answer等等,一個答案越多的包含這些詞語,說明這個答案越沒有信息量,因此主題2和主題8對於點贊的貢獻是負面的,並且是顯著地。主題5(大氣和天氣)以及主題7(水圈),雖然是氣候變化相關的特定主題,然而,正如上述分析的,這兩個主題是和氣候變化相關的自然現象,人們已經了解很多,屬於氣候變化的科普性知識,因此在Quora這樣一個高學歷用戶社區,主題5和主題7,也很難得到更多的關注和喜歡,它們對於點贊的影響是負面的,但是絕對值很小,並不顯著。
剩下的6個主題對點贊的影響是顯著正面的。影響最大的是主題6(科學傳播),一個可能的原因是,和知乎類似,Quora的主要用戶也是崇尚科學和理性的,他們普遍對氣候變化是否發生,人類是否是氣候變化的主要原因有著和科學共同體一樣的共識,而Quora當中討論科學傳播,主要是打臉那些否認者或者懷疑論者,因此能夠得到Quora用戶的支持。
影響第二大的主題是主題9(政治),準確的說是美國政治,可以看到很多相關詞語(共和、美國、保守等)。美國民主黨和共和黨在氣候變化問題上存在很大的分歧。由於共和黨是傾向於否認以及懷疑氣候變化的,因此對於共和黨的打臉,也能得到更多的點贊。
結論:在氣候變化的討論中,人們更願意為那些提供了專業性知識,而又不是科普知識的答案點贊,如果答案中出現太多日常用語,就會失去更多的贊。這些都是common sense,但是可以通過定量方法進行細緻的研究。
英文原文請到我的researchgate主頁看,正在投稿:https://www.researchgate.net/publication/307338503_Analyzing_online_science_communication_of_climate_change_with_the_data_collected_from_Quora
參考文獻:
1. Lorenzoni, I., Leiserowitz,
A., de Franca Doria, M., Poortinga, W. Pidgeon, N. F. (2006). Cross-national comparisons of image associations with
『『global warming』』 and 『『climate change』』 among laypeople in the United States
of America and Great Britain. Journal of Risk Research. 9, 265–281.
2. Smith, N., Leiserowitz, A. (2012). The rise of global
warming skepticism: Exploring affective image associations in the United States
over time. Risk Analysis, 32(6), 1021-1032.
前段時間剛爬完豆瓣所有的電影,把評分,類型,評論,時長,國家等等參數做了些分析,還比較了下中國大陸和港台電影差別及和世界之間的水平,這裡拋上幾張圖,有興趣的可以向我拿數據集,想看怎麼實現具體看(大)數據分析:豆瓣電影分析報告【1】,我屬各方面的新手,交流學習中,以下是一些從中分析的數據圖表,我想比我好的分析師多的去了,我就不獻醜分析了
圖片太多了就不一一上傳了,以我的水平都可以分析出很多東西,我想要是有更專業點的分析師,我想豆瓣所有電影的數據給他的價值比給我的要大得多。就醬紫
一晚上500萬條記錄,速度真可以,我能不能先問問用的什麼框架和伺服器。。。
我想說的是沒有一點用,大部分是垃圾數據,要降噪,提取關鍵詞,分析語義再算相互關聯性,才能作為大數據分析使用。這些環節裡面目前的演算法誤差都非常的大,一層層的誤差下來,分析的結果慘不忍睹。
爬掛騰訊伺服器....還是先別想那麼多了...
爬蟲門檻不高,很多人都在做,但大多爬過來就完了,好點的分析下一些有用沒用的指標,然而並沒有什麼卵用。(好像特別多的人都喜歡爬知乎啊 各種租房價格啦 電影什麼的,然後統計一下趨勢啦什麼的...說真,這種數據百度谷歌一下還少么...)
我覺得這些數據用處有那麼幾個
一是工作中用的,這個肯定要爬,爬來數據只是個開始,後續就有其他分析
二是爬來自己玩,學習學習數據分析
三是賣錢。這些數據對你而言沒什麼用,但有人是需要的。
數據本身沒什麼用,有用的是由數據衍生出來的價值。
大神您好,請問您的數據包含用戶評論嗎?我是一名計算機碩士在讀,研究方向是用戶畫像和數據挖掘,方便提供您的數據和代碼讓我進行研究嗎?有研究成果的話將會對您進行致謝和引用~
一晚上500萬,很厲害了
我自己爬過一些數據,不過是一些非主流的互聯網金融網站,因為我自己做FinTech和社會網路分析相關研究的。
有機會可以合作合作,加一些網路分析和文本分析,這個數據可以做很多東西
知微主頁
一晚上500w挺厲害的
推薦閱讀:
※有什麼有趣的網站嗎?新世界的大門那種?
※在網上該不該和陌生人撕逼,你們怎麼看?
※怎樣看待《馬哲有點甜》這首歌?
※為什麼人們願意在知乎等問答平台上無償作答?
※你們……有沒有……那個……什麼是什麼梗?