關鍵詞提取Part2(A Deeper Discussion)

在關鍵詞提取任務中,可以通過制定關鍵性指標,對辭彙進行排序,然後抽取指標較高的辭彙輸出,作為最終的結果。有人會問,基於「關鍵性」指標的定義提取關鍵詞,是不是不屬於機器學習的方法?因為只需要為每個辭彙算一個值,排序就好了,不涉及對統計模型的參數學習過程。

答案是,這種說法並不嚴格!關鍵性指標是一個實數 x ,而辭彙本身又是基於一系列文本特徵的向量表示 vec{v} 。定義關鍵性指標,就是要找到 vec{v}x 之間的映射關係。這種映射關係,既可以是人工指定,也可以是基於機器學習的方法。但是,當前大多數演算法都是基於人工指定的思路。所以會讓很多學者誤以為:基於關鍵詞指標的定義的方法不屬於機器學習的方法。

基於人工定義的方法比較典型的有:基於TF-IDF指標,或者基於TextRank指標。TF-IDF和TextRank指標都是人為規定的,與數據集合的形式無關。只要給定辭彙對應的文本特徵,就可以基於預先設定的演算法計算對應的指標。(對於TF-IDF, vec{v} 是一個2維向量,分別是TF值和IDF值,對於TextRank指標, vec{v} 是一個 N 維向量, N 是被分析文檔包含的辭彙個數,每個維度表示該辭彙與其他辭彙之間的「共現」權重)。

基於機器學習的方法很少。其原因在於,「關鍵性指標」沒有客觀的標準存在,如果存在,其本身就是人工指定的,就直接按照人工指定的規則去計算好了,也沒有必要進行機器學習了。於是,便導致幾乎沒有學者沿著這個思路繼續研究,從而形成了「關鍵詞提取」任務研究的理論盲區。實際上,雖然"關鍵性」指標本身不存在「金標準」,但是我們可以假象這種「指標」是客觀存在的,只是這些「指標」是隱變數,我們無法觀測而已。我們可以在給定的文檔中,看到每一個辭彙是否為關鍵詞,然後基於觀察,反推這些看不到的「指標」,然後再去學習這種映射關係。

例如:

1. 可以通過人工標註辭彙的重要性排序,然後按照重要性排序反推重要性指標,然後學習關鍵性指標的規則。

2. 可以指定多個人對同一個文檔進行關鍵詞標註,辭彙被選為關鍵詞的概率(被選為關鍵詞的次數除以進行標註的總人次)作為其關鍵性指標,用於機器學習。

3. ....

總之,基於這種思路,比單純人工定義關鍵性指標具有更好的「監督性」,同時,也克服了基於辭彙的「關鍵」和「非關鍵」的二分類機器學習任務中關鍵詞個數選擇靈活性差的問題。


推薦閱讀:

「異類」年度大數據引領消費生態大進化

TAG:大數據分析 | 文本挖掘 | 機器學習 |