輿情數據的應用

02-01

本文會從輿情數據的獲取、預處理、文本分析、結論這幾個階段來講述輿情數據的應用場景。

一、輿情數據的價值

　　從新聞媒介、微博、貼吧、電商、論壇等渠道平台取到大量輿情數據後，具體應該如何應用？其中可能包含哪些有價值的內容？能實現什麼預期效果？

　　這些數據信息能在一定程度上分析表象背後的原因，分析「為什麼」，可以挖掘出包含其中的焦點、趨勢、關聯，幫助我們了解產品的市場反饋和用戶需求，為方向聚焦、策略引導、價值判斷提供依據。

1、數據爬蟲工具：可以根據我們的需要免費從網站上爬取數據（在設有反爬蟲機制的渠道，獲取輿情數據的難度會增加）

2、輿情數據平台購買：目前輿情數據平台僅有一家第谷數據和子產品第谷搜索可以進行輿情數據的搜索、下載。

用戶再互聯網上的編寫內容非常多樣化，文字中加入數字、字母、符號等內容也非常常見，段落和語句時常也表達不完整，偶爾還會出現很多重複的文字內容，比如評論「66666」「牛牛牛」等詞。數據的清洗首要的就是把這些垃圾數據清洗掉。ROST的「文本處理」功能可以用來進行文本的清洗工作。

我們還應根據需要對數據進行重新編碼。例如用戶評論大量提及了「第谷輿情數據」，但表達方式可以有多種（如第谷、第谷數據、輿情數據）。為了便於分析，統一編碼是非常有必要的。

分詞就是把一段中文文本切割成一個個單獨的詞。中文分詞的難點在於書寫中文時字詞之間並沒有明顯的間隔或劃分，不像英文那樣可以根據自然書寫的間隔實現基本的分詞（如「we are family」可以直接拆分出「we」「are」「family」）。

詞頻就是某個詞在文本中出現的頻次。簡單來說，如果一個詞在文本中出現的頻次越多，這個詞在文本中就越重要，就越有可能是該文本的關鍵詞。

語義網路分析是指篩選統計出高頻詞以後，以高頻詞兩兩之間的共現關係為基礎，將詞與詞之間的關係數值化處理，再以圖形化的方式揭示詞與詞之間的結構關係。基於這樣一個語義網路結構圖，可以直觀的對高頻詞的層級關係、親疏程度進行分析。

對用戶輿情進行情感分析，主要是分析具有情感成分的辭彙的情感極性（即情感的正性、中性、負性）和情感強烈程度，然後計算出每個語句的總值，判定其情感類別。還可以綜合全文本中所有語句，判定總輿情數據樣本的整體態度和情感傾向。

總的來看，輿情數據具備的優勢特點：

在工作中，輿情數據分析能讓我們在特定的分析研究背景下，以更小的代價了解到產品的市場反饋，用戶的態度認知和需求痛點，有效的達到研究、分析的目的。

-----------------------

特此感謝：微信公眾號【用鹽有點咸】的內容原版。

本文進行了修改及簡化。

如本文有侵害您的版權問題，請及時聯繫，我會儘快處理，謝謝！