關鍵詞提取Part2（A Deeper Discussion）

02-12

在關鍵詞提取任務中，可以通過制定關鍵性指標，對辭彙進行排序，然後抽取指標較高的辭彙輸出，作為最終的結果。有人會問，基於「關鍵性」指標的定義提取關鍵詞，是不是不屬於機器學習的方法？因為只需要為每個辭彙算一個值，排序就好了，不涉及對統計模型的參數學習過程。

答案是，這種說法並不嚴格！關鍵性指標是一個實數 $x$ ,而辭彙本身又是基於一系列文本特徵的向量表示 $vec{v}$ 。定義關鍵性指標，就是要找到 $vec{v}$ 和 $x$ 之間的映射關係。這種映射關係，既可以是人工指定，也可以是基於機器學習的方法。但是，當前大多數演算法都是基於人工指定的思路。所以會讓很多學者誤以為：基於關鍵詞指標的定義的方法不屬於機器學習的方法。

基於人工定義的方法比較典型的有：基於TF-IDF指標，或者基於TextRank指標。TF-IDF和TextRank指標都是人為規定的，與數據集合的形式無關。只要給定辭彙對應的文本特徵，就可以基於預先設定的演算法計算對應的指標。（對於TF-IDF, $vec{v}$ 是一個2維向量，分別是TF值和IDF值，對於TextRank指標， $vec{v}$ 是一個 $N$ 維向量， $N$ 是被分析文檔包含的辭彙個數，每個維度表示該辭彙與其他辭彙之間的「共現」權重）。

基於機器學習的方法很少。其原因在於，「關鍵性指標」沒有客觀的標準存在，如果存在，其本身就是人工指定的，就直接按照人工指定的規則去計算好了，也沒有必要進行機器學習了。於是，便導致幾乎沒有學者沿著這個思路繼續研究，從而形成了「關鍵詞提取」任務研究的理論盲區。實際上，雖然"關鍵性」指標本身不存在「金標準」，但是我們可以假象這種「指標」是客觀存在的，只是這些「指標」是隱變數，我們無法觀測而已。我們可以在給定的文檔中，看到每一個辭彙是否為關鍵詞，然後基於觀察，反推這些看不到的「指標」，然後再去學習這種映射關係。

例如：

1. 可以通過人工標註辭彙的重要性排序，然後按照重要性排序反推重要性指標，然後學習關鍵性指標的規則。

2. 可以指定多個人對同一個文檔進行關鍵詞標註，辭彙被選為關鍵詞的概率（被選為關鍵詞的次數除以進行標註的總人次）作為其關鍵性指標，用於機器學習。

3. ....

總之，基於這種思路，比單純人工定義關鍵性指標具有更好的「監督性」，同時，也克服了基於辭彙的「關鍵」和「非關鍵」的二分類機器學習任務中關鍵詞個數選擇靈活性差的問題。