DeepMind論文解讀:讓機器更深入地理解文本
來自專欄 PaperWeekly
本期推薦的論文筆記來自 PaperWeekly 社區用戶 @wutong_SEU。DeepMind 提出了一個全新閱讀理解數據集 NarrativeQA,機器需要面對的是一整部書籍或電影劇本,在沒有限定答案範圍的前提下,機器需要從文本中找到最相關的段落並且總結出問題的答案。
關於作者:吳桐,東南大學碩士生,研究方向知識圖譜。
論文 | The NarrativeQA Reading Comprehension Challenge
鏈接 | https://www.paperweekly.site/papers/1397
源碼 | https://github.com/deepmind/narrativeqa
論文導讀
相比於信息抽取,閱讀理解任務要求機器能夠整合篇幅較長的上下文信息(如整篇文章)並能夠對事件進行推理。但是現階段的閱讀理解任務仍然能夠以一種投機取巧的方法,利用淺層的語言形態學信息(如問答對之間的文本相似性以及整個文章內的統計詞頻)從問題中直接找到關於答案的蛛絲馬跡。
因此文中提出了一個新的閱讀理解數據集,旨在迫使機器必須通篇閱讀書籍或者電影腳本(遠遠長於一篇文章)才能回答問題。該數據集更側重於發掘機器閱讀理解對於含蓄的敘述的理解能力而不是基於淺層的模式匹配就能夠直接得到答案。
工作動機
人在閱讀的時候往往通讀全篇,並不一定能夠記住書中的每一點細節,但是一定能夠注意到書中有哪些關鍵的實體,並且記住這些實體的關係是怎麼樣的。
但是,現在的閱讀理解任務的 benchmark 數據集並不能夠針對這點進行測評,相反,多數問題可以通過 question 和 paragraph 之間的 pattern match 得到答案。
因此 DeepMind 提出了這個新的數據集 NarrativeQA,機器需要面對的是一整部書籍或電影劇本,在沒有限定答案範圍的前提下,機器需要從文本中找到最相關的段落並且總結出問題的答案。該任務十分具有挑戰性。
那麼,這個新的數據集理論上應該具備以下特徵:
- 數據量足夠大,用以滿足神經網路的訓練需求;
- 問題和答案最好都是自然語言,且答案最好和多個片段相關或者需要從一大段話中總結出來;
- 標註者要自己總結答案,從更高的層面理解文章中實體之間的關係,而且最好使用個性化的語言描述而不是從文中直接截取答案;
- 從判別器的角度上講,最好能夠從答案的流暢性和正確性等兩個角度進行判斷;
- 數據量需要控制在對於當前既有的模型來說十分困難,但仍處在人可以解決的範圍內。
相關工作
主要提一下三個,SQuAD,MS MARCO 和 SearchQA。
SQuAD 的場景比較局限,給定的來源於維基百科短文本,眾包標註的問題以及從短文本中直接截取的答案。 MS MARCO 提出了更開放的數據集,文本來自搜索引擎,真實的用戶問題以及眾包標註的答案,但是多數答案仍然不可避免的是文本中的原文,多數在 SQuAD 測評中取得不錯成績的模型在 MS MARCO 上仍然能夠取得不俗的結果。SearchQA 的文本來自搜素引擎,問題來自 Jeopardy,對,就是當年 Watson 一戰成名的那個節目,然後統計發現,數據集中 80% 的答案少於兩個單詞,99% 的答案少於 5 個單詞,抽樣調查發現 72% 的問題答案是命名實體。論文作者似乎對這種很不屑,但我想說命名實體是我們這些知識圖譜人的心頭愛啊。
數據集分析
數據集的問答對中主要會出現 Title,Question,Answer,Summary snippet,Story snippet 等欄位,其中 title 確定了問答對的出處,即圍繞著哪本書或劇本來進行閱讀。其中相關片段由人工標註得出,但並不建議在訓練中作為標註語料使用,且最終的測試集中不會出現該類片段,需要程序自行設計文本段落的定位方案。
數據集的主體是小說以及電影劇本,問答集主要根據小說或電影的摘要信息進行提問,如果問答集同時提供了摘要,那麼和現在的閱讀理解任務也就沒有什麼不同了,但是,在沒有提供摘要及標明相關段落的基礎上,回答此類問題需要程序通讀整部書籍,整理分析所有相關段落以進行閱讀理解。
任務
提供一組測試任務:分別以摘要和全文作為 context,測試基於答案生成和答案選擇的兩類閱讀理解問題。測試指標包括 Bleu-1,Bleu-4,Rouge—L 以及基於答案排序的 MRR。
Baseline實驗結果
文中提出了三類對比,一將其視為 IR 任務,二直接應用 LSTM 預測後綴詞,三在全書範圍內 IR+BiDAF。 最終的實驗結果證明在全書範圍內的閱讀理解任務上,暫沒有演算法能夠取得很好的結果。
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
加入社區:http://paperweek.ly
微信公眾號:PaperWeekly
新浪微博:@PaperWeekly
推薦閱讀:
※大規模知識圖譜的存儲
※知識圖譜的問答(基於模板方法 )
※從 6 篇頂會論文看「知識圖譜」領域最新研究進展 | 解讀 & 代碼
※16.關於靠譜那回事
※知識圖譜如何助力輿情監控升級為商業智能