論文解讀 | 基於神經網路的知識推理
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背後的探索和思考。 在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。 點擊即刻加入社區,查看更多最新論文推薦。
本期推薦的論文筆記來自 PaperWeekly 社區用戶 @britin。本文對基於 RNN 的從大規模知識庫中進行推理進行了精度和可操作性的改善,提出的模型使用單個 RNN 就可以在多種 relation types 之間進行推理。
如果你對本文工作感興趣,點擊底部的閱讀原文即可查看原論文。
關於作者:Britin,中科院物理學碩士,研究方向為自然語言處理和計算機視覺。
論文 | Chains of Reasoning over Entities, Relations, and Text using Recurrent Neural Networks
鏈接 | https://www.paperweekly.site/papers/1521
源碼 | https://rajarshd.github.io/ChainsofReasoning
論文動機
使用神經網路進行更為複雜的推理以增加 KB 中的條目正在引起廣泛關注,這麼做的一個重要原因是為了同時支持 look-up 類型的問答系統以及從 entity 和 relation 中間接推理到答案的問答系統。
KB 通常是非常不完整的,推理可以完善那些缺失的信息。見下圖:
已有的方法大多是基於 symbolic 和 logical 的推理系統,比如 Universal Schema,它學習 relation type 的向量表示,包括結構化 KB 中的以及自然語言文本中的關係表示,其中的 matrix completion 機制可以進行簡單的推理,但只能對單條 evidence 進行操作,比如從 microsoft-located-in-seattle 推理出 microsoft-HQ-in-seattle。
更高級的推理是從從句中得到包含三個或更多實體的 multi-hop 的知識庫圖路徑。比如可以從 Melinda–spouse–Bill–chairman–Microsoft–HQ-in–Seattle 得到 Melinda–lives-in–Seattle。這種推理通常用 path ranking algorithm 進行。RNN 沿著任意長度的路徑組成了每條邊關係的 embeddings,輸出一個表示路徑兩端實體之間關係的向量表示。但是這些方法只能用於小型或人造資料庫上,並且對於許多情況下來說還是不準確不實際。
本文提出的方法則可以對大型的多語義 KB 進行推理,本文對基於 RNN 的從大規模 KB 中進行推理進行了精度和可操作性的改善:
- 之前的工作只推理了 relation,沒有推理組成路徑上節點的 entities,本文對關係類型,實體和實體類型進行了聯合學習和推理。
- 本文使用了 neural attention 機制對多條路徑進行推理。
- 之前的方法最大的問題是要為每一個需要預測的 relation-type 單獨訓練模型。而本文只訓練一個 RNN 來預測所有的 relation type。另外,由於訓練的 multi-task 特性,共享了 RNN 參數,精度也顯著提高了。
模型介紹
本文首先介紹了基本的 Path-RNN 的架構,本文的一切改進都是基於該模型的。
Path-RNN 的輸入是兩個實體之間的路徑,輸出推理出的二者之間的新關係。通過將關係之間的連接用 RNN 表示來進行推理。路徑的表示是在處理完路徑中所有的關係之後由 RNN 的最後的隱狀態給出的。
架構如圖所示,對每一條可能的路徑用一個 RNN 來表示,將改路徑每一個節點上的 entity 和連接的 relation 進行向量化後輸入一個 RNN 單元,整條路徑的最終向量表示就是 RNN 最後一個單元輸出的 Hidden state,將改路徑的向量表示和要預測的關係的向量表示求相似度,相似度最高的就是目標路徑。
這個模型的缺點是每一個 relation type 都要訓練一個新的模型,變數無法共享,數量巨大。另外只選擇相似度最高的那一個路徑可能會忽略掉其他路徑所隱含的信息,還造成了計算浪費。
本文對這個模型做出的改進有:
- 本文共享了 relation type 的表示以及 RNN 的 composition matrices,這樣同樣的訓練數據變數就大大減少了。訓練模型的損失函數用的是 negative log-likelihood。
- 分別用 Top-k,average 和 LogSumExp 方法為每一條路徑的相似度評分加上權重,這樣就考慮了每一條路徑包含的信息,而不僅僅是評分最高的那條。
實驗結果
本文在一個大型的 freebase 實體和關係數據集以及 clueweb 文本數據集上做了驗證。和先前最好的結果相比,本文在 MAP 上提高了 25%。另外本文還單獨設計了一個驗證來驗證在同一個 RNN 中共享 strength 的效果,結果證明在訓練過程中一些出現頻率較小的關係也提高了 54% 的精度。
本文還在另一個數據集上做了驗證:chains of resoning in WordNet。和目前最好的結果相比,在平均分位數上的錯誤率減少了 84%。
文章評價
本文提出的模型使用單個 RNN 就可以在多種 relation types 之間進行推理。並且利用了多條可能路徑以及路徑間所有實體和關係的綜合信息,這些信息在之前的方法中都是忽略的,極大程度的提高了精度。但是由於數據的稀疏性,在處理較長的文本特徵時性能就會減弱。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智慧、機器學習、數據挖掘和信息檢索等研究方向,點擊即刻加入社區!
我是彩蛋
解鎖新姿勢:用微信刷論文!
PaperWeekly小程序上線啦
今日arXiv√猜你喜歡√熱門資源√
隨時緊跟最新最熱論文
解鎖方式
1. 掃描下方小程序碼打開小程序
2. 用PaperWeekly社區賬號進行登陸
3. 登陸後即可解鎖所有功能
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
微信公眾號:PaperWeekly
新浪微博:@PaperWeekly
推薦閱讀:
※Inception-v2/v3結構解析(原創)
※Paper Reading | 讓機器像人類一樣學畫畫?GANs 「全家福」一覽
※譯文:如何使用TensorFlow實現神經網路(上)
※斯坦福CS231n項目實戰(四):淺層神經網路
※李飛飛最新論文:構建好奇心驅動的神經網路,複製嬰兒學習能力