有沒有可能對門戶網站爬下來的新聞做主題分類?

如題,題主最近在做一個實驗,就是對一個門戶網站(網易)上爬下來的新聞做主題分類,用的是LDA,感覺效果並不好,看不出主題,感覺不同主題的詞都糅合到一個主題下面了,已經把停用詞去掉了,並且爬下來的新聞每一條作為一個文檔進行訓練的,網上有一些論文提到說當文檔包含主題過於雜亂的時候LDA是無效的,想請問門戶網站爬下來的新聞是否存在這種情況,因為這些新聞肯定是人為地掛在各個板塊的,應該也是存在主題的。另外就是想請問是不是跟詞袋有關,也就是題主訓練的詞袋裡的詞還是太雜亂了,沒有辦法分出太理想的主題

本題已加入圓桌 ? 數據挖掘應用,更多「數據挖掘」相關的話題歡迎關注討論


試試HDP吧,hierachical dirichlet process。和lda差不太多,但不要求預先指定topic的數目。


謝邀。

可以用doc2vec將文本向量化,然後再用各種分類或者聚類演算法。


LDA主題模型涉及很多技術上細節的問題,下面提供一些改進思路以供參考:

1. 文檔規模要足夠大,要和主題的個數滿足一定的比例。

2. 主題個數要適當,既不能太多,也不能太少,主題太多,會導致很多主題實際上是一回事兒,但卻分到不同的主題里去了。主題太少,會導致不同主題的內容揉到一塊兒。主題個數的確定需要重複多次試驗,已有研究中主要採用語料庫的Perplexity指標進行評估。

3. 雖然去掉停用詞是必要的,但是還需要考慮對「低頻詞」的處理。

(原因:根據Gibbs Sampling的演算法,當辭彙頻率較低時,辭彙最終歸屬於各個主題的「概率」幾乎一致,其原因在於LDA模型的參數估計的本質是對於未知參數(各主題中辭彙的概率分布)的基於貝葉斯學習的過程,觀察樣本太少的時候,對參數的更新是有限的。當「低頻詞」較多時,會導致不同辭彙在同一主題中分布過於均勻,進而會導致不同辭彙被「糅合」到同一個主題的情況。)

對低頻詞的處理,可以直接刪除,如果覺得重要不想刪除,則需要對同義詞或者近義詞進行「歸約」合併,增加對應的詞頻。

4. 如果是對中文進行主題分析,還應當考慮「切詞」的問題,進行適當的演算法優化。

5. 文檔長度的問題,LDA主題模型對短文本效果不太好。在很短的文章篇幅內,還要區分出多個主題,難度很大。因此,建議:先對文章進行聚類,「粗略」處理一下,可將最相近的兩個文檔預先配對,合併成一個較長文檔,然後對「新文檔」進行LDA主題分析。

最後指出提問中含糊不清的地方:

LDA主題模型本質意義在於文檔或詞的聚類,而不是用於分類的任務。聚類是無監督的,分類是有監督的。有監督的方法,一般先將文檔轉換為Vector的形式,然後再採用一般的分類模型(有很多,SVM,Logistic,ANN)不多列舉。LDA只是將文檔轉換為Vector的眾多形式一種,當LDA效果不好時,也可以考慮其他演算法進行Vector建模。


LDA想要好的效果,最好需要事先知道主題的個數(都還不知道主題本身),無監督是LDA的硬傷。不過如果文檔數量不夠或者很不均衡的話,模型的buff就很小了。

既然知道新聞掛在那些板塊了,有沒有考慮直接打標籤呢


推薦閱讀:

增強學習在推薦系統有什麼最新進展?

TAG:機器學習 | 自然語言處理 | LDA |