輿情數據的應用
本文會從輿情數據的獲取、預處理、文本分析、結論這幾個階段來講述輿情數據的應用場景。
一、輿情數據的價值
從新聞媒介、微博、貼吧、電商、論壇等渠道平台取到大量輿情數據後,具體應該如何應用?其中可能包含哪些有價值的內容?能實現什麼預期效果?
這些數據信息能在一定程度上分析表象背後的原因,分析「為什麼」,可以挖掘出包含其中的焦點、趨勢、關聯,幫助我們了解產品的市場反饋和用戶需求,為方向聚焦、策略引導、價值判斷提供依據。
二、輿情數據的獲取方法
1、數據爬蟲工具:可以根據我們的需要免費從網站上爬取數據(在設有反爬蟲機制的渠道,獲取輿情數據的難度會增加)
2、輿情數據平台購買:目前輿情數據平台僅有一家 第谷數據 和子產品 第谷搜索 可以進行輿情數據的搜索、下載。
三、輿情數據的清洗和預處理
用戶再互聯網上的編寫內容非常多樣化,文字中加入數字、字母、符號等內容也非常常見,段落和語句時常也表達不完整,偶爾還會出現很多重複的文字內容,比如評論「66666」「牛牛牛」等詞。數據的清洗首要的就是把這些垃圾數據清洗掉。ROST的「文本處理」功能可以用來進行文本的清洗工作。
我們還應根據需要對數據進行重新編碼。例如用戶評論大量提及了 「 第谷輿情數據 」,但表達方式可以有多種(如第谷、第谷數據、輿情數據)。為了便於分析,統一編碼是非常有必要的。
四:分詞
分詞就是把一段中文文本切割成一個個單獨的詞。中文分詞的難點在於書寫中文時字詞之間並沒有明顯的間隔或劃分,不像英文那樣可以根據自然書寫的間隔實現基本的分詞(如「we are family」可以直接拆分出「we」 「are」 「family」)。
五:詞頻和關鍵詞
詞頻就是某個詞在文本中出現的頻次。簡單來說,如果一個詞在文本中出現的頻次越多,這個詞在文本中就越重要,就越有可能是該文本的關鍵詞。
六、語義網路分析
語義網路分析是指篩選統計出高頻詞以後,以高頻詞兩兩之間的共現關係為基礎,將詞與詞之間的關係數值化處理,再以圖形化的方式揭示詞與詞之間的結構關係。基於這樣一個語義網路結構圖,可以直觀的對高頻詞的層級關係、親疏程度進行分析。
七、情感分析
對用戶輿情進行情感分析,主要是分析具有情感成分的辭彙的情感極性(即情感的正性、中性、負性)和情感強烈程度,然後計算出每個語句的總值,判定其情感類別。還可以綜合全文本中所有語句,判定總輿情數據樣本的整體態度和情感傾向。
八、總結
總的來看,輿情數據具備的優勢特點:
- 來源渠道豐富:不限於社交網路、新聞資訊媒體、電商平台、應用市場等。
- 覆蓋面廣,信息量大:覆蓋到不同特徵的人群,覆蓋到目標用戶、競品用戶等不同人群。
- 真實客觀:整體而言是用戶最直接的表達,能在一定程度上保證數據的真實客觀。
- 獲取成本低:基本上都能快速、免費的獲取,省時高效。
在工作中,輿情數據分析能讓我們在特定的分析研究背景下,以更小的代價了解到產品的市場反饋,用戶的態度認知和需求痛點,有效的達到研究、分析的目的。
-----------------------
特此感謝:微信公眾號【用鹽有點咸】的內容原版。
本文進行了修改及簡化。
如本文有侵害您的版權問題,請及時聯繫,我會儘快處理,謝謝!
推薦閱讀:
※輿論和輿情的區別與解釋【輿情數據】
※政治及媒介在社會輿情演變中的作用
※戴爾電腦充電時發生4連爆 小型蘑菇雲觸目驚心
※三種數據獲取方法(輿情數據)
※【輿情熱議】奧迪用錯中國地圖 正式發布聲明致歉