論文讀書筆記（Question Answering on Freebase via Relation Extraction and Textual Evidence）

01-31

轉載請註明出處：西土城的搬磚工
論文鏈接：Question Answering on Freebase via Relation Extraction and Textual Evidence

標題：Question Answering on Freebase via Relation Extraction and Textual Evidence

來源：ACL（2016）

關鍵詞：KB-QA，Relation Extraction，Textual Evidence

問題：

基於知識庫問答系統指的是利用知識庫中的知識對人們輸入的自然語言問句給出答案，例如：「世界上最高的山峰是什麼？」->「珠穆朗瑪峰」。而傳統的基於知識庫的問答系統通常只能依賴少量標註好的訓練數據。後來結合知識庫，人們在問答系統中引入關係抽取這種方法。關係抽取雖然能夠很好地解決數據的稀缺問題，但是不如語義解析之類深層理解的方式更具有表達性，因此很難回答那些有很多限制的問題。於是，本文在利用關係抽取的方式基礎上並引入維基百科數據方式來解決這個問題。

方法：

分為兩步：第一步是基於Freebase來推理，第二步是基於Wikipedia來推理，整體結構如下：

第一步（KB-QA）：

1.Entity Linking：找到問題的中心實體和對應Freebase可能的實體（S-MART）

2.Relation

Extraction：預測問題實體和答案實體對應Freebase可能的關係，設計了一個神經網路MCCNN（Multi-Channel Convolutional Neural

Network）具體結構如下：

3.Joint

Inference：由於實體和關係具有很強的相互選擇性，而前面的局部模型不能充分利用這種相互關係。所以對前面的前兩步得到的實體序列和關係序列進行組合，利用SVM rank分類器找到最有可能的實體-關係對，從Freebase中得到候選答案。

第二步（Answer Refinement）：

1.Finding

Evidence from Wikipedia：找到問題的中心實體在維基百科的主頁，然後尋找包含候選答案和實體的相關句子。（Wikifier，Stanford CoreNLP）

2.Refinement

Model：一個二分類器（判斷答案正確/錯誤），使用的是libsvm，特徵是lexical features:將問題詞條和答案詞條組合出現作為特徵。

相關工作：

1.問答系統可以分為：基於結構化數據的問答系統和非結構化數據的問答系統。基於結構化數據的問答系統由最開始是針對某個領域慢慢轉向基於大型的知識庫（Freebase, DBPedia），並且開始利用多個知識庫聯合同時回答問題。（Yahya et al., 2012;Fader et al., 2014; Zhang et al., 2016)

2.在基於知識庫的問答系統中引入非結構化數據這種方法，已經有作者去嘗試過(Krishnamurthy and Mitchell, 2012;Berant et al., 2013; Yao

and Van Durme, 2014;Reddy et al., 2014; Yih et al., 2015)，但是這些方法在測試的時候不會使用非結構化數據。之前（Mandar Joshi, Uma Sawant, and Soumen Chakrabarti.2014.

Knowledge graph and corpus driven segmentation and answer inference for

telegraphic entityseeking queries.）也是同時使用結構化數據和非結構化數據的方法相比，但是只有一種關係，而本文將多種關係的問題進行了分解。

3.關係抽取原本是用來提取關係豐富知識庫，這裡將句子級別的關係抽取用於問答系統。傳統的MCCNN本來是最大化問題和答案實體的相似度，這裡用來預測可能的關係，減小了搜索的解空間，從而取得了更好的結果。

簡評：

1．近年來，隨著大規模知識庫的出現（Freebase等），基於知識庫的問答系統開始成為一個新的熱點。學術界常用的三種方法如下：基於信息檢索的方法，這種方法先利用問句信息結合知識庫資源獲取候選答案，然後再從候選答案中篩選得到最佳答案；基於語義解析的方法，該方法關鍵在於將自然語言問句解析成一種表達問句語義的邏輯形式，再基於這種結構化的表達從知識庫中尋找答案；基於向量空間建模的方法，這種方法使用向量空間描述自然語言問句以及知識庫中的實體和關係，利用收集的問題-答案對進行問題向量和答案向量的自動訓練，通過比較問句和備選答案在向量空間中的距離實現對於輸入問題的回答。

2．這篇paper也是採用基於信息檢索的方法。一般的關係抽取的方法需要在候選答案中利用數學方法篩選出合適的答案，但是本文的創新性地引入了維基百科（非結構化數據）來驗證基於知識庫（結構化數據）的得到的候選答案集。知識庫中存儲了一些事實信息，而網上的一些信息比如維基百科知識則可以輔助驗證這些事實信息的準確性。此外，對於很多隱含語義限制的問題，網上信息也可以用來作為訓練數據的補充。這個利用網上信息驗證的過程，之前我和同學也嘗試過，但是我們採用的是非常簡單粗暴的方法：直接從維基百科，百度百科，互動百科，搜搜百科這幾大百科裡面去搜索實體和關係的相關句子來篩選答案。而本文作者是模仿人的思維過程去設計：先找到問題中心實體對應的維基百科的主頁，然後在維基百科的描述簡介裡面找到包含中心實體和候選答案實體的相關句子，再利用這些句子去設計一個二分類器，從知識庫提供的答案集合里篩選出正確的答案。無疑，同樣的motivation,如何去實現很重要。

3．在基於知識庫的關係抽取上，同時使用了局部特徵（依存路徑）和全局特徵（句子信息）。這裡最最巧妙地一步是最後通過聯合訓練的方式找到了最有可能的實體關係對。這一步考慮到了實體和關係互相篩選的特性：某些實體只會對應某些關係，某些關係只會對應某些實體。我們需要尋找的應該是最最相關的實體-關係對，所以最後這一步篩選很重要。作者利用的svm rank分類器對實體關係對打分，提取最可能的實體關係對，而這裡的特徵除了之前設計的實體鏈接的特徵和關係抽取的特徵，並且引入了答案的一些特徵，無疑在特徵中引入答案的一些信息，也能更好地篩選候選答案。

4．其實拆開整個模型看的話，每一部分都很簡單，很多是在現有的方法上改進的。但是作者巧妙組合得很巧妙，取得了很好的效果。這種組合創新以及思路上的創新是很值得我們借鑒。