構建用於文本聚類的空間向量模型時,應該如何作特徵選擇?
01-08
題目描述的不夠具體。
在對高維度的向量空間模型進行降維處理時,通常使用特徵選擇和特徵提取(抽取)這兩種方法,這裡想要問的是,針對於聚類這種無監督學習,沒有已分好類的樣本(訓練集),應該如何作特徵選擇呢。
可以參考我在另外一個問題中的回答:如何抽取文章特徵?
前面這個回答著重是講如何從海量候選中選取有代表性的特徵。而特徵也有很多不同類型,如單詞、短語、隱含主題、概念,等等。文檔的特徵表示,是文本聚類和分類的共同基礎。目前的主要嘗試和結論如下:
1. 如開頭所提到的問題中的回答,最常見的特徵類型是辭彙/詞語,利用Chi-squre進行特徵選取,利用TFIDF作為特徵權重。這也是搜索引擎和文本分類中最通用魯棒的做法。
2. 對於短文本,如微博、查詢詞、社區問答系統中的提問問題等,利用基於辭彙的特徵向量空間計算相似度會面臨比較嚴重的數據稀疏性問題,解決的方案是利用隱含主題模型等方法,建立辭彙之間的相似度。具體方案可以參考2008年發表在WWW上的一篇論文:Learning to classify short and sparse text web with hidden topics from large-scale data collections。需要注意的是,在LDA的原始論文中作者就嘗試僅用文檔主題來作為特徵進行分類,但經驗表明,僅用隱含主題的特徵表示效果明顯弱於使用辭彙的特徵表示方案。實用的做法是將兩者相結合。
3. 2007年有研究者在IJCAI的論文中提出利用維基百科中的概念表示單詞和文檔,取得較好效果:Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis。它的優點是可以做任意長度文本的特徵表示,由於它將所有單詞和文檔都表示為維基百科詞條數目長度的向量,因此具有較強的表達能力,但問題就是計算效率的問題。一個可行的解決方案是限制每個單詞或文本只在幾百萬維的少數概念/詞條上取值。好問題。
先上結論:目前有這樣的無監督特徵選擇方法,但是效果並不怎麼樣,並且也是學術界在研究的問題。上圖:推薦閱讀:
※數據特徵的歸一化,是對整個矩陣還是對每一維特徵?
※中文情感分析 (Sentiment Analysis) 的難點在哪?現在做得比較好的有哪幾家?
※文本情感分析有什麼好資料、網站、工具推薦呢?
※Tagxedo個性化詞雲的繪圖思路是什麼?