《Exploring the E?ffectiveness of Convolutional Neural Networks for Answer Selection ...》閱讀筆記

轉載請註明出處:西土城的搬磚日常

原文鏈接:Exploring the E?ffectiveness of Convolutional Neural Networks for Answer Selection in End-to-End Qu?estion Answering

來源:SIGIR 2017

問題介紹

Question Answer作為一個完備的系統,可以分為一下幾個部分:Query Analysis、Document Retrieval、Answer Selection、Answer Extraction等,其中Answer Selection是QA任務中比較關注的點,有很多數據集和相關工作,研究方法也從最初的模版匹配,統計,發展到了神經網路的深度學習,且神經網路(CNN等)在這個單獨的任務上實現了很不錯的效果,但是大部分實驗都是基於已準備好的數據集(TREC等),很少有實驗是在整個QA流程中衡量神經網路對於Answer Selection這個子模塊的效果如何,而本文就是在嘗試探索這個問題。

相關工作

本文的工作比較簡潔,主要做了兩組大的實驗比較CNN在Answer Selection上相比傳統統計方法究竟有多少提升。

一、在TREC提供的Answer Selection任務數據集上CNN與傳統方法的比較

Word Overlap

作為baseline的傳統方法,即比較兩個句子中重疊(復)詞的個數,用來排序

idf-weighted Word Overlap

同上只不過詞加上了idf權重

CNN model

用了最簡單的CNN一維卷積處理詞向量的矩陣

其中四維的addictional features為統計特徵,具體為對於有/沒有停住詞的句子加入/不加入idf-weighted的word overlap特徵

二、在Query+Document Retrieval+Answer Selection的pipeline中,CNN與傳統方法的比較

Document Retrieval

還是TREC數據集,用開源搜索引擎(Anserini retrieval toolkit)對整個數據集的document建索引,對於每個query,召回top h的文章,然後分割成句子,用下列不同的方法對所有句子打分,取top k 作為結果,用於後續evaluation。

Word Overlap

通過得到的count值對query和retrieved sentence打分

idf-weighted Word Overlap

方法同上,加入詞的idf權值

CNN model

通過上述模型對兩個句子進行分類打分

實驗結果

一、在Answer Selection上:

在單獨任務上顯然,擬合能力更強的CNN會比傳統的baseline更好,但是也發現只是用idf-weighted的詞統計方法所得到的baseline表現也算不錯。

二、在pipeline上:

idf-weighted

CNN model

從實驗數據來看,對於由搜索引擎retrieve來的問題答案對,CNN對於word overlap的領先優勢沒有那麼大了,原因可能是Document Retrieval得到的候選答案,已經是傾向考慮統計特徵,與idf-weighted Word Overlap關注的特徵維度相同,而抽取出來的語義方面的相似度不是那麼重要,從而通過CNN抽取出來的特徵分布有偏,與label的聯繫不強。同時,實驗中也有不足的地方,注意上表中最後一欄「unjudged」,在這個實驗中所有樣本的label還是來源於TREC的Answer Selection任務中標註好的,只是用retrieve來的候選答案去標註的數據中做Jacard Similarity匹配,大於閾值的把標註數據的label當成本條答案的label,在樣本的構造上就存在一定問題。

總結

本文是一篇指標推進式的標準論文,文章中的用詞略帶diss深度學習的意思,設計的對比實驗,通過CNN在實驗中並不出彩的表現,模糊的質疑了深度學習在整個QA系統中對比與傳統統計方法的提升,認為過於關注Answer Selection單獨任務上的指標提升,可能也會由於上游Document Retrieve的不確定而導致在整個QA流程將這一單個環節的效果抹殺。


推薦閱讀:

揭開知識庫問答KB-QA的面紗5·深度學習上篇
REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION
隆重介紹集智的吉祥物--集智娘
word2vec和sentence2vec的真正差別是什麼?後者和簡單用詞向量累加有什麼差別?
遷移學習在自然語言處理方面的應用?

TAG:问答系统 | 自然语言处理 |