深度 | 張義：基於概念解釋的實體推薦

05-10

本文整理自張義博士在IJCAI 2017 會議上的論文報告，題目為《Entity Suggestion with Conceptual Explanation》，作者包括張義（現為賓夕法尼亞大學博士），肖仰華教授（復旦大學）等等。
張義，本科畢業於復旦大學，曾在知識工場實驗室從事知識圖譜等相關研究。畢業之後，現為賓夕法尼亞大學在讀博士二年級，主要研究方向為資料庫、機器學習以及自然語言處理。
有任何問題歡迎聯繫yizhang5@seas.upenn.edu

IJCAI(International Joint Conference on Artificial Intelligence，國際人工智慧聯合會議)是人工智慧領域最頂級的學術會議之一，被中國計算機學會推薦國際學術會議列表認定為 A 類會議。該會議聚集了人工智慧領域最頂尖的研究者和優秀從業者，關注研討領域涵蓋機器學習、計算可持續性、圖像識別、語音技術、視頻技術等，對全球人工智慧行業具有巨大影響力。8月19日-8月25日，IJCAI 2017在澳大利亞墨爾本正式開啟。

獲取完整PPT和論文

關注「知識工場」微信公眾號，回復「20170912」獲取下載鏈接。

張義：大家好，我今天演講的主題是基於概念解釋的實體推薦。我將首先說明概念解釋對於實體推薦的重要性，其次再介紹一下我們對該問題的形式化描述以及所用到的模型，最後給出我們的實驗結果。

實體推薦指的是一種查詢：當用戶輸入一組樣本實體時，返回一組相關實體。例如，在許多在線商店，例如亞馬遜上，用戶可能已經瀏覽了一些產品，然後希望網站根據自己的瀏覽記錄推薦更多類似的產品以供選擇。

那麼，在這種情況下，我們根據什麼來推薦相關實體呢？在本文中，我們根據給定實體集合的共有概念來對其進行解釋。

為什麼需要解釋呢？

首先，具有合理解釋的實體推薦更值得信賴，能提高點擊量。在我們的例子中，如果我們可以準確地把圖中紅色的空白處填上，用戶就可以直接瀏覽感興趣的產品種類，從而把瀏覽不感興趣的產品的時間節省下來。這樣可以增加用戶的滿意度，亦提高網站的點擊率。

第二，通過展示推薦實體以及它們所對應的解釋，用戶能更加準確的知道它的搜索意圖是否被正確的識別，同時網站也可以以此評估自己的推薦演算法的有效性。

因此，我們的目標不僅是返回語義相關的實體，還要告訴大家我們為什麼推薦這些實體。在這項工作中，我們的關注點在於利用查詢實體的所屬概念來對搜索意圖進行解釋。我們稱這個問題為基於概念解釋的實體推薦。

我們的問題定義如下，給定一組樣本實體，返回一組相關實體，並給出這個查詢的概念型解釋。目前已經有許多實體推薦的解決方案，但它們都不能提供這樣的解釋。

下面我們分別來看看這三種方法：

第一種方法是以共現性作為基本的推薦機制。它的基本思想是推薦那些和樣本實體共現在文本或查詢日誌中的實體。然而，實體共現並不意味著它們所屬的概念就是一致的。例如，當提起Alpha Go時，也會經常提到Google，但它們並不屬於同一個概念。

第二類方法是基於互聯網上的列表，並估計查詢集合中每個實體屬於這個列表的概率。但是，列表中的實體有時只是隨意組合在一起或者是一種排名，並不代表裡面的實體都屬於某個具體的概念。

第三種方法是計算一個實體和樣本實體的屬性重疊度，並按照重疊度指標進行排序，取排名靠前的那些實體作為相關實體。然而，屬性的重疊也不能完全說明它們的概念是一致的。比如說，一個紅球和一個紅蘋果。雖然它們都是紅色的，但它們屬於不同的種類。

所以，接下來的問題是，什麼樣的概念可以用來解釋查詢和實體推薦的結果？以及什麼是可解釋的概念？

我們來看下面兩個例子：

第一個例子是，給出中國、巴西和俄羅斯時，推薦出來的實體是印度。

第二個例子是，給出騰訊和百度時，推薦出來的實體是阿里巴巴。

那麼，怎麼對這兩個查詢和推薦結果進行解釋呢。

我們先使用粗粒度的概念來進行解釋：因為中國、巴西和俄羅斯都是國家。所以推薦另一個國家印度。因為騰訊和百度都是公司，所以推薦另一個公司阿里巴巴。

但是很顯然，用粗粒度的概念來解釋效果太差了。國家包括美國、英國、日本等，為什麼單單推薦印度呢？公司包括谷歌、Twitter、Facebook等，為什麼只推薦阿里巴巴呢？

更加合理的解釋是使用細粒度的概念：因為中國、巴西和俄羅斯都屬於金磚四國，所以推薦金磚四國裡面的另一個國家印度。因為騰訊、百度都是中國互聯網巨頭，所以推薦另一個中國互聯網巨頭，阿里巴巴。

那麼接下來問題來了，怎麼才能為一組樣本實體找到最適合的概念呢？在本文中，我們使用了微軟的Probase作為數據集。它包含了大量的isA關係，是從海量互聯網語料集中通過Herast Pattern自動構建出來的。使用Probase的好處是，它幾乎涵蓋了所有常見的概念包括大量的細粒度概念，這是很多其他分類體系所不具備的。但是壞處在於，Probase的概念實體關係存在噪音，據統計，Probase概念實體關係的準確率約為92%。這一點是我們在設計推薦和解釋演算法時所必須要考慮的。

下面，我們來對這個問題進行建模。

第一種模型是將這個問題建模成一個概率相關度模型。

給定一組查詢實體q和一個實體e，我們使用rel(q,e)來表示實體e和q的相關度，這可以解釋為一個人在觀察到一組實體q的時候想到實體e的概率。因此，目標函數為找到相關性最高的實體，我們根據相關度來推薦實體。

因此，關鍵問題在於如何定義這個相關性。

根據一個人在觀察到一組實體q的時候想到實體e時的心理過程，我們將相關度定義為三個概率的乘積。

第一個概率P(e|c_i) 表示給定一個概念c_i，想到實體e的概率。我們用Probase中概念的典型度來表示。概念中的典型實體應該優先被推薦。

第二個概率P(c_i|q)表示給定一組查詢實體集合q，想到概念c_i的概率。

第三個概率是一個粒度相關的因子。

第二種模型是使用了一個相對熵的模型。通過KL距離來計算查詢q所屬的概念分布和查詢q加實體e所屬的概念分布的相關性。

下面，我們來看看如何計算概念的粒度。一個好的概念既不能太寬泛也不能太具體（即不能覆蓋樣本實體）。

以下我們給出兩種計算概念粒度的方法。

第一種方法是基於概念所覆蓋的實體數。比如國家有2648個實體，而發展中國家有149個實體，顯然，國家比發展中國家要寬泛地多。

第二種是基於距離。基於距離的分數依賴於probase本身的結構信息。在probase中，我們會發現中國有一個概念是國家，因此中國和國家之間存在一條路徑長度為1的路徑，同時我們發現中國有一個概念是發展中國家，而發展中國家還有一個概念叫國家，因此中國和國家之間還存在一條長度為2的路徑，假設只有這兩條路徑，我們可以得到中國和國家之間存在一條平均路徑長度為1.5的路徑。如果發展中國家和中國之間只存在一條直接相連的邊，那麼中國和發展中國家之間的平均路徑長度為1。顯然，如果平均路徑長度越短，則說明該概念是一個相對於其他概念來說針對該實體更具體的概念。

基於實體數的計算公式如上所示。

基於距離的計算公式如上所示。需要注意的是，我們並不關心平均路徑長度過長的概念，同時為了簡化計算，我們將路徑長度的閾值設為3。

我們綜合了這兩種得分，並在我們的模型中使用。

最後我們還需要計算P(c_i|q) 即給定一個查詢時，人們最可能聯想到的概念。這裡使用了兩種經典的建模方式，樸素貝葉斯和異或模型，具體的原理可以參見論文。

為了驗證本文的方法，我們使用了兩個數據集。

第一個數據集是seal，但是由於這個數據集的實體列表都是相對寬泛的概念，因此為了提升任務的難度，我們還構造了一個細粒度的概念實體列表。

在seal上的驗證的結果顯示，本文的方法都達到了最好的效果。

在細粒度概念列表上我們的平均召回率也顯著高於其他對比的方法。

還有一個數據集是casestudy，我們將我們的方法給出的概念解釋和另一篇論文中提出的方法進行對比。我們的方法給出的概念相對都更具體一些，比如query 3，給出的樣本事實上指的是香港四大天王，與我們對比的方法只能給出performer、idol等粗泛的概念，雖然也是正確的但不是很貼切。而我們的方法則給出了最熱的香港歌手等更為細緻準確的概念，應當說是更好的解釋。