如何在Quora上獲得更多的贊——來自10393個回答的實證
結論:在氣候變化的討論中,人們更願意為那些提供了專業性知識,而又不是科普知識的答案點贊。特別是打臉氣候變化否認者和懷疑者,以及打臉共和黨政策的那些答案,會得到更多的贊。如果答案中出現太多日常用語,就會失去更多的贊。這些都是common sense,但是可以通過定量方法進行細緻的研究。
如何在一個社交問答社區(online social Q&A community)中獲得更多的贊,是我一個希望研究的一個問題。在今年4月份左右,我通過python的爬蟲爬取了Quora上面Climate Change這個Topic下面的問題、回答以及回答作者的信息。為什麼爬取這個話題,是因為Climate Change的Public Opinion或者Science Communication研究可以發文章,同時也是我很感興趣的領域。
Quora在2016年3月宣布自己的網站每個月有超過1億的獨立ip訪問,比2016年1月增長了22%。根據第三方流量統計平台Alexa的數據,2016年4月,Quora排名全球站點的128位,主要訪問者來自印度(39.9%),美國(23.1%),英國(2.9%),加拿大(1.8%)以及中國(1.8%)。Alexa同時指出,和互聯網平均水平相比,Quora用戶中有更多的男性,更多的高學歷用戶以及更多的年輕用戶。
我在2016年3月28日開始爬取數據,當時Climate Change這個話題下面有6.8K個問題(很不開心的是當時沒去截圖),現在已經是8.4K了,如圖1所示。遺憾的是,Quora沒有像知乎這樣提供完整的話題—問題數據,可得到的數據是顯示所有問題的一半(通過不停載入動態頁面,反覆試驗得到),於是我們只爬取了最新的3400個問題。
圖1 Quora的Climate Change Topic主頁
爬取的信息主要如圖2(問題和答案信息)、圖3(作者信息)所示,包括這個問題有多少跟隨者,問題的文本,問題屬於哪個話題,問題有多少回答,問題有多少瀏覽量,問題創建時間,答案的作者,答案的瀏覽量,答案的點贊數(研究對象,因變數),答案創建時間,答案的文本,作者粉絲數、提問數、回答數、跟隨數、公共編輯數、文章數。當然這些數據並不會全部用在研究中。
我希望通過回歸模型來解釋什麼因素會影響一個答案獲得的點贊數。首先答案獲得的點贊數是一個計數數據(count data),需要用計數回歸的方法,比如泊松回歸(Poisson regression)、負二項回歸(Negative binomial regression),在本文中,我們同時採用了這兩種方法。點贊數的分布如圖4所示,可以看出超過2500的答案沒有得到點贊,超過2000的答案只有1個點贊,大約1500個答案有2個點贊。獲得最多點贊數的答案得到了2727個贊。
我們希望研究的特徵包括答案本身的性質,包括答案的長度、答案有多少圖片以及最重要的,答案討論了些什麼。前兩個特徵是很容易計算的,但是答案討論了什麼,這個特徵比較難以量化,畢竟如果靠人力閱讀,我們需要閱讀10393篇答案。於是我採用了主題模型的方法對這10393個答案進行建模。
我建立了4個主題模型,分別包括4個主題,8個主題,10個主題和12個主題,最後我發現10個主題的那個模型比較好。當然,這裡的主觀性很強,不過目前很難有一個量化的指標去幫助研究者選擇主題數,量化的指標和語義也不是等價的,因此通常這類研究都採用主觀判斷的方法。構建的10個主題,每個主題對應的關鍵詞,以及主題占整個數據集的比例如圖5
圖5 Quora回答主題建模結果-10主題數的模型
大多數主題都是針對氣候變化相關的特定領域的,比如能源、燃料和碳排放、科學傳播甚至政治學。但是我們也注意到主題2和主題8,其實更多的是一些日常用詞,這在主題建模過程中是不可避免的,因此我們也強行給它們進行標籤化。
在2006年,Lorenzoni等人[1]進行了一個針對美國和英國人民關於氣候變化的印象的研究,基於的方法是開放式訪談(open-ended survey)。因為Quora也是一個英文社區,雖然有很多印度人,但是還是可以進行粗略的對比。比如在Lorenzoni等人的研究中,氣候變化所導致的極端自然現象,比如冰川融化,洪水以及天氣異常,在美國和英國人民印象中佔比例非常大,而在Quora的回答中,相關的主題,包括主題5(大氣和天氣)以及主題7(水圈),總共佔比為20.9%。關於能源和碳排放的主題,包括主題1(燃料和碳)以及主題4(能源),在Quora的回答中共佔18.8%,而相關的主題,如溫室氣體,在Lorenzoni等人的調查中佔比少於5%。與人類和社會相關的主題,包括主題2(生活)、主題3(人類和生態多樣性)、主題8(未來)和主題9(政治),在Quora的回答中共佔比超過40%,遠超過,Lorenzoni等人的調查結果。主題6(科學傳播)在Quora的回答中佔比為11.4%,相似的主題,如氣候變化否定者(這個不好翻譯,原文是naysayer)在另一份2010年針對美國人的調查中[2],佔比為23%。最後,主題10是一個非常專業性的主題,講的是氣候模型的問題,帶有很強的科學性,這個主題在Quora中出現是意料之中的,但很少會有相關的主題在針對普通民眾的調研中出現。
這10個主題同時也是分配個數據集中每一個答案的,也就是說,每個答案都有一個10維向量代表這10個主題在該答案中的比例,向量的和為1。比如,某個答案重點談的是能源問題,那麼主題4在這個答案中的比例就會非常高。遺憾的是,我們不能直接用這個10維向量進行回歸,因為存在多重共線性的問題,因此我們將這些代表主題的特徵轉化為啞變數,具體的規則就是,如果一個主題的比例超過0.2,我們就將對應的啞變數標記為1。選擇0.2作為閾值的原因是,它是平均主題數的2倍,並且能夠保證超過99%的回答至少有一個突出的主題。
我們的回歸模型總共包括14個變數,分別代表10個主題,以及答案所屬問題的關注人數、答案文本長度、答案包含的圖片數、以及答案作者的粉絲數(後4個特徵在建模前都經過歸一化)。同時我們用答案存在的天數(從答案創建到數據採集的天數+1)作為offset來抵消時間效應。最終得到的結果如圖6所示。
*p<0.05. **p<0.01. ***p<0.001
圖6 Quora回答點贊數的回歸結果
從圖6最後3行可以看出負二項模型是遠遠優於泊松模型的,因此我們的分析將基於負二項模型的結果。首先關注非文本特徵,作者粉絲數、回答文本長度、回答圖片數和所屬問題關注數這4個特徵。首先這4個特徵都是高度顯著的,***代表在p<0.001水平上顯著。作者粉絲數對於一個答案獲得的點贊數影響最大,文本長度的影響第二,圖片數量和問題關注人數的影響差不多一樣。
再看文本特徵,β係數為負值的有4個主題,分別是主題2(生活),主題5(大氣和天氣),主題7(水圈)和主題8(未來)。其中顯著負面影響的主題2(生活)和主題8(未來)。一個可能的解釋是,主題2和主題8,包含很多日常生活中,以及在Quora的回答中常見的詞語,例如thing, problem, good, bad, question, answer等等,一個答案越多的包含這些詞語,說明這個答案越沒有信息量,因此主題2和主題8對於點贊的貢獻是負面的,並且是顯著地。主題5(大氣和天氣)以及主題7(水圈),雖然是氣候變化相關的特定主題,然而,正如上述分析的,這兩個主題是和氣候變化相關的自然現象,人們已經了解很多,屬於氣候變化的科普性知識,因此在Quora這樣一個高學歷用戶社區,主題5和主題7,也很難得到更多的關注和喜歡,它們對於點贊的影響是負面的,但是絕對值很小,並不顯著。
剩下的6個主題對點贊的影響是顯著正面的。影響最大的是主題6(科學傳播),一個可能的原因是,和知乎類似,Quora的主要用戶也是崇尚科學和理性的,他們普遍對氣候變化是否發生,人類是否是氣候變化的主要原因有著和科學共同體一樣的共識,而Quora當中討論科學傳播,主要是打臉那些否認者或者懷疑論者,因此能夠得到Quora用戶的支持。
影響第二大的主題是主題9(政治),準確的說是美國政治,可以看到很多相關詞語(共和、美國、保守等)。美國民主黨和共和黨在氣候變化問題上存在很大的分歧。由於共和黨是傾向於否認以及懷疑氣候變化的,因此對於共和黨的打臉,也能得到更多的點贊。
結論:在氣候變化的討論中,人們更願意為那些提供了專業性知識,而又不是科普知識的答案點贊,如果答案中出現太多日常用語,就會失去更多的贊。這些都是common sense,但是可以通過定量方法進行細緻的研究。
英文原文請到我的researchgate主頁看,正在投稿:https://www.researchgate.net/publication/307338503_Analyzing_online_science_communication_of_climate_change_with_the_data_collected_from_Quora
參考文獻:
1. Lorenzoni, I., Leiserowitz,nA., de Franca Doria, M., Poortinga, W. & Pidgeon, N. F. (2006). Cross-national comparisons of image associations withn『『global warming』』 and 『『climate change』』 among laypeople in the United Statesnof America and Great Britain. Journal of Risk Research. 9, 265–281.
2. Smith, N., & Leiserowitz, A. (2012). The rise of globalnwarming skepticism: Exploring affective image associations in the United Statesnover time. Risk Analysis, 32(6), 1021-1032.
推薦閱讀:
※R語言可視化——圖表美化與套用主題(上)
※[譯]快速上手:在R中使用XGBoost演算法
※《R語言實戰》第二部分第七章複習筆記
※金融小知識——CRS風暴與全球離岸金融中心