從 6 篇頂會論文看「知識圖譜」領域最新研究進展 | 解讀 & 代碼
ISWC 2018
鏈接 | http://www.paperweekly.site/papers/1912
源碼 | https://github.com/quyingqi/kbqa-ar-smcnn
解讀 | 吳桐桐,東南大學博士生,研究方向為自然語言問答
概述
隨著近年來知識庫的快速發展,基於知識庫的問答系統(KBQA )吸引了業界的廣泛關注。該類問答系統秉承先編碼再比較的設計思路,即先將問題和知識庫中的三元組聯合編碼至統一的向量空間,然後在該向量空間內做問題和候選答案間的相似度計算。該類方法簡單有效,可操作性比較強,然而忽視了很多自然語言詞面的原始信息。
因此,本文提出了一種 Attentive RNN with Similarity Matrix based CNN(AR-SMCNN)模型,利用 RNN 和 CNN 自身的結構特點分層提取有用信息。
文中使用 RNN 的序列建模本質來捕獲語義級關聯,並使用注意機制同時跟蹤實體和關係。同時,文中使用基於 CNN 的相似矩陣和雙向池化操作建模數據間空間相關性的強度來計算詞語字面的匹配程度。
此外,文中設計了一種新的實體檢測啟發式擴展方法,大大降低了雜訊的影響。文中的方法在準確性和效率上都超越了 SimpleQuestion 基準測試的當前最好水平。
模型
模型如上圖所示,假設單關係問題可以通過用單一主題和關係論證來查詢知識庫來回答。因此,只需要元組(s,r)來匹配問題。只要s和r的預測都是正確的,就可以直接得到答案(這顯然對應於o)。
根據上述假設,問題可以通過以下兩個步驟來解決:
1. 確定問題涉及的 Freebase 中的候選實體。給定一個問題 Q,我們需要找出實體提及(mention)X,那麼名稱或別名與實體提及相同的所有實體將組成實體候選 E。現在 E 中的所有實體都具有相同的實體名稱,因此我們暫時無法區分他們。具體地,模型中將命名實體識別轉換成了基於 Bi-LSTM 完成的序列標註任務。
2. 所有與 E 中的實體相關的關係都被視為候選關係,命名為 R。我們將問題轉換為模式 P,它是通過用 <e> 替換問題中的提及而創建的。為了找出與問題真正相關的關係,我們將 P 與 R 中的每個關係進行比較並對它們進行評分,然後將得分最高的關係作為最終結果。
為了更好地進行關係匹配,模型從單詞字面表達和語義兩個層面對自然語言進行了建模。具體操作如下圖所示:
圖中所示的 AR-SMCNN 模型,輸入是經替換 mention 後的問題模版(pattern)P 和候選關係 。
模型左邊的部分是結合了 attention 機制的 BiGRU,用於從語義層面進行建模。右邊的部分是 CNN 上的相似性矩陣,用於從字面角度進行建模。最終將特徵 ??1,??2,??3,??4 連接在一起並通過線性層得到最終的候選關係分數 ??(??,????)。
實驗結果
如表 1 所示,文中提出的方法在 FB2M 和 FB5M 設置上達到了 77.9% 和76.8% 的精確度,分別超過了之前的最佳結果 0.9% 和 1.1%。
總結
在這篇文章中,作者提出了一種基於神經網路的新穎方法來回答大規模知識庫中的單關係問題,它利用 RNN 和 CNN 的優勢互補來捕獲語義和文字相關信息。通過省略實體匹配模型使得模型簡單化,所提出的方法實現了有競爭力的結果。
儘管所提出的方法僅限於單關係問題,但這項工作可以作為未來開發更先進的基於神經網路的 QA 方法的基礎,可以處理更複雜的問題。證實了人機協作的有效性,但是 MQS 演算法複雜度太高,導致運行時間過長。
NAACL HLT 2018
鏈接 | http://www.paperweekly.site/papers/1911
解讀 | 鄧淑敏,浙江大學博士生,研究方向為知識圖譜與文本聯合表示學習
動機
機器學習一直是許多 AI 問題的典型解決方案,但學習過程仍然嚴重依賴於特定的訓練數據。一些學習模型可以結合貝葉斯建立中的先驗知識,但是這些學習模型不具備根據需要訪問任何結構化的外部知識的能力。
本文的目標是開發一種深度學習模型,可以根據任務使用注意力機制從知識圖譜中提取相關的先驗知識。本文意在證明,當深度學習模型以知識圖譜的形式訪問結構化的知識時,可以用少量的標記訓練數據進行訓練,從而降低傳統的深度學習模型對特定訓練數據的依賴。
模型
模型的輸入是一組句中的詞構成的詞向量序列 x=[x_1, x_2,...,x_T],經過一個 LSTM 單元得到每個詞向量的隱藏層狀態 h_t = f(x_t, h_{t-1}),然後將得到的隱藏層狀態向量加和平均得到 o = 1/T(sum_{t=1}^{T}h_t)。根據可以計算上下文向量 C=ReLU(o^T W)。
實體和關係對應的上下文向量分別與實體和關係的向量相乘,經過softmax操作,算出每個實體和關係的權重 alpha_{e_i}, alpha_{r_i}。其中,實體和關係的向量是通過 DKRL 模型(一種結合文本描述的知識圖譜表示學習模型)計算得到。
然後將文本中的所有實體和關係分別根據前面算出的權重進行加權平均,從而得到文本中所有實體和關係的向量 e, r。
根據 TransE 的假設 (h+r≈t),構建事實元組 F=[e,r,e+r],將這個輸入 LSTM 模型中進行訓練,得到文本分類的結果。
計算文本中實體和關係表示的原始模型架構如下圖所示:
將計算實體和關係表示的模型與文本分類的 LSTM 模塊進行聯合訓練,聯合模型架構如下圖所示。
文本中實體和關係的數目很大,為每一個實體和關係分別計算權重開銷不菲。為了減少注意力空間,本文利用 k-means 演算法對實體和關係向量進行聚類,並引入了基於卷積的模型來學習知識圖譜實體和關係集的表示。
實驗
本文使用了 News20,DBPedia 數據集來解決文本分類的任務,使用斯坦福自然語言推理(SNLI)數據集進行自然語言推斷的任務。還使用了 Freebase (FB15k) 和 WordNet (WN18) 作為相關的知識庫輸入。
圖 (a)、圖 (b) 分別表明,在 SNLI 數據集上訓練的準確度和損失函數值。實驗中分別比較 100% 數據集,70% 數據集,以及 70% 數據集 + KG 三種情況輸入的結果。
可以發現,引入 KG 不僅可以降低深度學習模型對訓練數據的依賴,而且還可以顯著提高預測結果的準確度。此外,本文提出的方法對大量的先驗信息的處理是高度可擴展的,並可應用於任何通用的 NLP 任務。
AAAI 2018
鏈接 | http://www.paperweekly.site/papers/1909
解讀 | 高桓,東南大學博士生,研究方向為知識圖譜、自然語言處理
動機
傳統的知識圖譜問答主要是基語義解析的方法,這種方法通常是將問題映射到一個形式化的邏輯表達式,然後將這個邏輯表達轉化為知識圖譜的查詢例如 SPARQL。問題的答案可以從知識圖譜中通過轉化後的查詢得到。
然而傳統的基於語義解析的知識庫問答會存在一些挑戰,如基於查詢的方法只能獲取一些明確的信息,對於知識庫中需要多跳才能獲取的答案則無法回答。舉例來說當問到這樣一個問題「Who wrote the paper titled paper1?,傳統的基於語義解析的方法可以獲得如下語句進而可以查到 paper1 這個實體。
但是在上例中,當我們詢問 Who have co-authored paper with author1? 由於缺乏 co-author 這個明確的關係,傳統的方法則無法轉換成合適的查詢語句。但實際上,在上例中 author2 則是 author1 在 paper1 中的 co-author。
另一個對於傳統方法的挑戰是,在傳統方法中問句中含有的實體通常都使用很簡單的方法來匹配到知識庫上,例如字元串匹配。但實際場景中用戶的輸入可能是通過語音識別轉換而來或者是用戶通過打字輸入而來。因此用戶的輸入很難確保不存在一定的雜訊。在具有雜訊的場景下,問句中的實體則很難直接準確的匹配到知識庫上。
因此本文提出了一個端到端的知識庫問答模型來解決以上兩個問題。
創新點
▲ 模型框架圖
本文提出的模型如上圖所示,這個模型為了克服上述所說的問題則將模型分為兩個部分:
第一部分是通過概率模型來識別問句中的實體。如問句 who acted in the movie Passengers? 我們希望能將 Passengers 識別出來。但由於訓練數據中的實體沒有被標註出來,因此這個識別的實體將被看成一個隱變數。整個識別實體的過程如下:
1. 先將輸入的問句 q 進行編碼,將問句 q 轉換為一個維度是 d 的向量;
2. 隨後將圖譜中每個實體都轉化為一個向量;
3. 通過 softmax 計算在 q 下圖譜中每個實體是 q 中實體的概率。
該過程在整個模型框架圖的左上部分在上例中輸入問句 The actor of lost Christmas also starred in which movies,通過演算法在圖中找到 lost Christmas 為問句中對應的實體。
第二部分則是在問答時在知識圖譜上做邏輯推理,在推理這部分的工作中我們給出了上一步識別的實體和問句希望系統能給出答案。由於在整個系統的學習過程中沒有人來標註在問答時使用的推理規則,因此在問答時使用的規則將被學習出來。整個推理過程如下所示:
1. 通過另一個網路對問句 q 進行編碼,將 q 轉化為一個維度是 d 的向量;
2. 通過一個 Reasoning graph embedding,對 y 的相鄰實體進行編碼;
3. 通過 softmax 計算通過 y 推理找到實體是問題 q 答案的概率;
4. 如果推理沒有達到限定的步數則返回 2,將原來 y 相鄰的實體轉換為 y 進而進行推理。
整個推理過程則在上圖的右半部分,該部分分別計算推理時實體是問句答案的概率,最後得到實體 shifty 對於問句 q 概率最大。而概率最大的實體到 y 的路徑則是推理所獲取的路徑為 lost Christmas acted Jason Flemyng acted Shifty。
最後演算法通過 EM 進行優化,整體訓練的思路是希望第一部分和第二部分的概率同時最大。
實驗結果
實驗結果顯示在 Vanilla、NTM 和 Audio 數據集下,演算法的效果都超過傳統的 QA 系統,同時在需要推理的問題中性能更為顯著。
AAAI 2018
鏈接 | http://www.paperweekly.site/papers/1910
源碼 | http://sentic.net/downloads/
解讀 | 徐康,南京郵電大學講師,研究方向為自然語言處理、情感分析和知識圖譜
概述
目前大部分人工智慧的研究都集中在基於統計學習的方法,這些方法需要大量的訓練數據,但是這些方法有一些缺陷,主要是需要大量的標註數據而且是領域依賴的;不同的訓練方法或者對模型進行微調都會產生完全不同的結果;這些方法的推理過程都是黑盒的。
在自然語言處理領域中,人工智慧科學家需要減少統計自然語言處理領域和其他理解自然語言急需的領域(例如,語言學、常識推理和情感計算)之間的隔閡。在自然語言處理領域,有自頂向下的方法,例如藉助符號(語義網路)來編碼語義;也有一種自底向上的方法,例如基於神經網路來推斷數據中的句法模式。
單純地利用統計學習的方法主要通過歷史數據建模關聯性以此「猜測」未知數據,但是建模自然語言所需要的知識遠不止此。因此,本論文工作的目的就是結合人工智慧領域中統計學習和符號邏輯的方法進行情感分析任務。
模型
本論文首先設計了一種 LSTM 模型通過詞語替換髮現「動詞-名詞」概念原語(概念原語就是對常識概念的一種的抽象,概念「嘗」、「吞」、「啖」和「咀嚼」的原語都是「吃」。),為情感分析任務構建了一個新的三層知識表示框架 SenticNet5。
SenticNet5 建模了普遍關聯現實世界對象、行為、事件和人物的內涵和外延信息,它不是盲目地依賴關鍵詞和詞語共現模式,而是依賴關聯常識概念的隱含語義。
SenticNet5 不再單純地使用句法分析技術,同時通過分析短語關聯的概念,而不是短語本身(因為短語本身經常並不顯式地表達情感)挖掘微妙表達的情感。
▲ 圖1:上下文語境向量和詞向量生成框架
本論文聲稱是情感分析應用中第一個提出結合符號邏輯和統計學習的方法。本論文的核心思想就是提出一種概念原語的,也就是使用一種自頂向下的方法泛化語義相關的概念,例如,「munch_toast」和「slurp_noodels」可以泛化成概念原語「EAT_FOOD」。這種做法背後核心的思想就是使用有限的概念上的原語描述包含情感信息的概念。
本論文工作的第一步就是挖掘概念原語,具體模型如圖 1 所示,該模型的核心思想就是屬於相同原語下的概念詞語跟目標詞語在語義上關聯並且具有相似的上下文語境。
舉個例子,句子「他剛剛咀嚼幾口粥」,這裡的「咀嚼」和「狼吐虎咽」屬於相同的概念原語「吃」,所以這裡的句子「狼吞虎咽」代替「咀嚼」也說得通。
該模型左邊建模目標詞語的左上下文和右上下文合成目標詞語的上下文語境表示,模型的右邊建模目標詞語的表示,基於這個模型就可以找到屬於同一原語的詞語,也就是講這些詞語聚類,然後人工標註原語。
▲ 圖2:原語「Intact」在語義網路圖Sentic5中的片段
因為 SenticNet5 是一個三層的語義網路(如圖 2 所示),原語層包含基本的狀態和行為(狀態之間的交互),包含狀態的情感信息;概念層通過語義關聯鏈接的常識概念;實體層屬於常識概念的實例。
例如,在原語層,狀態「inact」對應情感「joy」和概念層上的形容詞概念「complete」,行為「break」對應動詞概念「crack」和「split」;在概念層,概念短語「repair_phone」對應概念「repair」和「phone」;同時概念「phone」又對應實例層上的「iPhone」。
這樣我們分析「iPhone」的時候雖然本身不包含情感信息,但是跟「repair」在一起,「repair」對應狀態原語「fix」,「fix」又轉到正面的情感「intact」,因此「iPhone」就包含了正面的情感。
實驗
在實驗部分,本論文主要評估了深度學習方法的性能和 SenticNet5 作為知識庫在情感分析任務中的效果。從圖 3,4,5 的結果看來本論文的方法在兩個人物都有 3% 左右的提升。
▲ 圖3:對比現有方法和深度學習方法在原語識別上的性能
▲ 圖4:SenticNet5在Biltzer數據集上情感分析的性能
▲ 圖5:SenticNet5在Movie Review數據集上情感分析的性能
AAAI 2018
鏈接 | http://www.paperweekly.site/papers/1913
源碼 | https://github.com/TimDettmers/ConvE
解讀 | 汪寒,浙江大學碩士,研究方向為知識圖譜和自然語言處理
本文主要關注 KG Link prediction 問題,提出了一種多層卷積神經網路模型 ConvE,主要優點就是參數利用率高(相同表現下參數是 DistMult 的 8 分之一,R-GCN 的 17 分之一),擅長學習有複雜結構的 KG,並利用 1-N scoring 來加速訓練和極大加速測試過程。
背景
一個 KG 可以用一個集合的三元組表示 G={(s,r,o)},而 link prediction 的任務是學習一個 scoring function psi(x),即給定一個三元組 x=(s,r,o) ,它的 score psi(x) 正於與 x 是真的的可能性。
Model ConvE
這是 ConvE 的整體結構,把輸入的實體關係二元組的 embedding reshape 成一個矩陣,並將其看成是一個 image 用卷積核提取特徵,這個模型最耗時的部分就是卷積計算部分。
為了加快 feed-forward 速度,作者在最後把二元組的特徵與 KG 中所有實體的 embedding 進行點積,同時計算 N 個三元組的 score(即1-N scoring),這樣可以極大地減少計算時間,實驗結果顯示,KG 中的實體個數從 100k 增加到 1000k,計算時間也只是增加了 25%。
ConvE 的 scoring function:
Loss function 就是一個經典的 cross entropy loss:
Test Set Leakage Problem
WN18 和 FB15k 都有嚴重的 test set leakage problem,即測試集中的三元組可以通過翻轉訓練集中的三元組得到,舉個例子,測試集中有 (feline, hyponym, cat) 而訓練集中有 (cat, hypernym, feline),這個問題的存在導致用一個很簡單的 rule-based 模型就可以在某些數據集上實現 state-of-the-art 性能。
作者構造了一個簡單的 rule-based inverse model 來衡量這個問題的嚴重性,並利用消去了 inverse relation 的數據集 WN18RR 和 FB15k-237 來進行實驗,實驗結果如下:
AAAI 2018
鏈接 | http://www.paperweekly.site/papers/1914
源碼 | https://github.com/bxshi/ConMask
解讀 | 李娟,浙江大學博士生,研究方向為知識圖譜和表示學習
本文解決知識庫補全的問題,但和傳統的 KGC 任務的場景有所不同。以往知識庫補全的前提是實體和關係都已經在 KG 中存在,文中把那類情況定義為 Closed-World KGC。從其定義可以發現它是嚴重依賴已有 KG 連接的,不能對弱連接有好的預測,並且無法處理從 KG 外部加入的新實體。
對此這篇文章定義了 Open-World KGC,可以接收 KG 外部的實體並鏈接到 KG。論文提出的模型是 ConMask,ConMask 模型主要有三部分操作:
1. Relationship-dependent content masking
強調留下和任務相關的詞,抹去不相關的單詞; 模型採用 attention 機制基於相似度得到上下文的詞和給定關係的詞的權重矩陣,通過觀察發現目標實體有時候在權重高的詞(indicator words)附近,提出 MCRW 考慮了上下文的權重求解方法。
2. Target fusion
從相關文本抽取目標實體的 embedding(用 FCN 即全卷積神經網路的方法);這個部分輸入是 masked content matrix,每層先有兩個 1-D 卷積操作,再是 sigmoid 激活函數,然後是 batch normalization,最後是最大池化。
為避免參數過多,在得到實體名等文本特徵時本文選用語義平均來得到特徵的 embedding 表示。
3. Target entity resolution
通過計算 KG 中候選目標實體和抽取的實體的 embedding 間的相似性,結合其他文本特徵得到一個 ranked list。本文設計了一個 list-wise ranking 損失函數,採樣時按 50% 比例替換 head 和 tail 生成負樣本,S 函數時 softmax 函數。
論文的整體模型圖為:
本文在 DBPedia50k 和 DBPedia500k 數據集上取得較好的結果,同時作者還添加了 Closed-World KGC 的實驗,發現在 FB15k,以及前兩個數據集上效果也很不錯,證明了模型的有效性。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智慧、機器學習、數據挖掘和信息檢索等研究方向,點擊即刻加入社區!
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
微信公眾號:PaperWeekly
新浪微博:@PaperWeekly
推薦閱讀:
※肖仰華:基於知識圖譜的用戶理解
※16.關於靠譜那回事
※超詳細解讀:神經語義解析的結構化表示學習 | 附代碼分析
※深度 | 張義:基於概念解釋的實體推薦