層疊注意力模型 - 實現機器閱讀的正確姿勢 | 論文訪談間 #04
作者 | 崔一鳴,陳致鵬,魏思,王士進 ,劉挺,胡國平(哈工大訊飛聯合實驗室)
特約記者 | 楊潤琦(南京大學)
通過搜索引擎我們可以輕鬆獲取到海量的知識,可我們通常不會覺得一台電腦「知識淵博」——計算機並不理解這些知識,只能給你一系列相匹配的檢索結果。在我們眼中,計算機更像是一座高級的圖書館,而不是一位能理解你所想所問的博學之士。
好消息是這一點正在逐漸改善。機器閱讀理解,一項致力於教會機器閱讀人類的語言並理解其內涵的研究,作為目前自然語言處理領域中的熱門方向受到了廣泛關注。與傳統的問答系統不同的是,閱讀理解任務更注重於對於篇章文本的理解,機器必須自己從篇章中學習到相關信息,而不是利用預設好的世界知識、常識來回答問題,所以更具有挑戰性。目前 Google DeepMind、Facebook AI Lab、IBM Watson、微軟、斯坦福大學(Stanford)、卡內基梅隆大學(CMU)等知名研究機構都都紛紛投入到相關研究當中。
訓練機器去閱讀理解人類語言的方法,和訓練人類閱讀外語的方法有很多相似之處,其中一個重要的手段就是填空型閱讀理解。機器會看到一段文本片段,並需要回答若干問題,問題的答案就出現在這段文本當中。例如:
我們在做這樣的閱讀題的時候常常會發現,一口氣讀完文章然後僅憑著對文章的印象答題可不是一個好做法,通常需要在看了問題之後再回到文章特定的地方找答案。對機器來說也是這樣,目前的大多數模型都有一個注意力機制,在看了不同的問題之後,模型會把注意力放在篇章的不同部分,從而得到更精準的答案。
來自哈工大訊飛聯合實驗室(HFL)的崔一鳴、陳致鵬、魏思、王士進、劉挺老師和胡國平把問題想得更深了一步。他們發現此前的研究都只把問題看作一個整體,或者只考慮了問題對篇章的影響,沒有仔細考慮篇章對問題的影響,而模型實際上可以利用更多的篇章-問題之間的交互信息。他們設計了新的層疊式注意力(Attention-over-Attention),對問題進行了更細緻的拆解,而不是簡單將其看做成一個整體,把閱讀理解的研究提高到了一個全新的水平。他們的論文 Attention-over-Attention Neural Networks for Reading Comprehension 發表在了 2017 年的計算語言學會(ACL2017)上。
論文的作者崔一鳴高興地向我們介紹,「相比於前人工作,本文提出的模型結構相對簡單且不需要設置額外的手工超參數,並且模型中的某些結構具有一定的通用性,可應用在其他相關的任務當中。實驗結果表明,在公開數據集 CNN、CBT-NE/CN 數據集上,我們的模型顯著優於其他基線模型,並且達到了 state-of-the-art(當前最先進)的效果。」
那麼這個「層疊式注意力」究竟是怎麼回事呢?崔一鳴舉了一個簡單的例子。假設我們遇到了一個填空題,「Tom loves ___.」,模型會做以下幾步:
1. 將篇章及問題通過詞向量映射以及循環神經網路(RNN)的建模,得到包含上下文信息的文本表示;
2. 對篇章和問題中的每個詞兩兩計算「匹配度」;
3. 根據匹配度計算出每個問題詞的相關程度,即對於這篇文章來說,問題中的關鍵詞是什麼(表中第一行);
4. 對問題中的每個詞計算篇章中可能的候選(表中第二行,這裡節選了三個候選詞:Mary、him、beside)
鑒於不同問題詞的貢獻不同,求得他們的加權得分再合併,得到每個候選詞的最終得分,從而找出適合填入空缺中的詞(表中第四行)。
崔一鳴進一步解釋道,「如果我們將問題看做一個整體,只計算一次 attention 的話,答錯的幾率就會大一些,通過將問題拆解,並賦予不同權重則會將風險分攤到每個詞上,從整體上降低答錯的概率。」在上面的例子中,如果不考慮每個問題詞的相關度,直接對候選詞的得分求平均,就會得出「Tom loves him.」這樣的錯誤答案。選擇「him」雖然同樣符合語法,但結合篇章可以看出填入 Mary 更合理。▲ Attention-over-Attention Neural Network 的模型結構圖
談到後續工作和閱讀理解未來的發展,崔一鳴也與我們分享了一些看法:
「儘管近一兩年來機器閱讀理解的研究突飛猛進,相關神經網路模型層出不窮,但對於機器閱讀理解的終極目標來說,現在還只是萬里長征的開始。根據我們對目前的閱讀理解數據集的詳細分析,在這些公開數據集中的大多數問題都屬於單句推理的問題,即回答問題只需找到文中的一個關鍵句即可。如何能夠從錯綜複雜的線索以及前因後果中找到問題的答案,這對於目前的閱讀理解技術來說還是相對困難的。相比於機器,人類的一大優勢是能夠通過多個線索來推理得到問題的答案,這是目前機器閱讀理解非常薄弱的地方。如果我們真的希望機器能夠『能聽會說,能理解會思考』,那麼對文本的更深層次的歸納、總結、推理是未來機器閱讀理解不可缺少的一部分,也是今後這項研究必須攻克的難關。不過我們相信隨著閱讀理解研究的逐步推進,這個問題會逐步得到改進。」
歡迎查看論文原文:
Attention-over-Attention Neural Networks for Reading Comprehension關於中國中文信息學會青工委
中國中文信息學會青年工作委員會是中國中文信息學會的下屬學術組織,專門面向全國中文信息處理領域的青年學者和學生開展工作。
關於PaperWeekly
PaperWeekly是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事AI領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入PaperWeekly的交流群里。
微信公眾號:PaperWeekly
新浪微博:@ PaperWeekly
推薦閱讀:
※<Neural Relation Extraction with Selective Attention over Instances>筆記
※HIN2Vec:異質信息網路中的表示學習 | PaperDaily #18
※如何處理不均衡數據?