知識圖譜與知識表徵學習系列

04-28

知識圖譜(Knowledge graph)技術是近年來興起的熱門人工智慧技術，它可以被廣泛地應用在知識表達、自動推理、對話生成、自動問答等人工智慧系統中。表示學習（也稱為表徵學習，Representation learning）是將考慮的實體或關係計算出相應的向量化表示的方法，它是深度學習的最核心技術。

什麼是知識圖譜？

所謂的知識圖譜其實就是一個由大量的三元組<head, relation, tail>所構成的集合，其中head和tail都是所謂的實體（Entity），它們分別對應主語和賓語，而relation是所謂的關係，它通常表達了某種動作或關係。用這種三員組可以表達很多種關係，比如「奧巴馬曾經在哥倫比亞上學」，我們就可以表達為三元組<奧巴馬, 學校, 哥倫比亞大學>。

從另一個角度說，這種三元組的集合可以構成一個多關係網路，其中實體是節點，關係是連邊。由於連邊可能有多種類型，比如學習，比如住所，比如父子，等等，那麼對應的連邊也就有多種類型，如下圖所示：

知識圖譜有什麼用？

用這樣的多關係網路我們能做什麼？我們可以做自動推理，比如現在的搜索引擎實際上都可以和用戶完成自然語言問答。例如我們輸入"who is the son of Albert Einstein"的時候，系統並不是簡單地對這些出現的關鍵詞做匹配，而是利用知識圖譜，自動推理出愛因斯坦的兒子是Hans Einstein。2013年，印度裔Google工程師Amit Sinhal將知識圖譜引入到了Google搜索引擎之中。

另外，知識圖譜在金融領域存在著廣泛的用途，包括 ?數據自動校準 ?防欺詐 ?法金授信 ?二級市場分析 ?投資研究等等。知識圖譜還可以用於問答系統中。比如著名的IBM超級計算系統Watson就利用了YAGO、DBpedia以及Freebase這些大型的知識圖譜系統來完成自動推理，並最終在Jeopardy遊戲之中戰勝人類選手的。

怎麼構建知識圖譜？

如下圖所示，目前主要存在四種構建知識圖譜的方式，它們被分為了手動方式和自動方式兩大類。目前，人們利用最多的當然是自動構建方式，其中自動半結構化的構建方式就是利用一些人工指定的規則或者正則表達式來進行模版匹配，從而從自然語言文本中提煉出實體關係三元組，例如Wikipedia infoboxes、YAGO、DBpedia的構建就屬於這種；而自動非結構化的方式則利用機器學習和自然語言處理等技術從大量文本中自動地提煉知識。例如Google的Knowledge Vault（知識金庫）就是通過掃描大量的網頁從而提煉出知識，構建知識圖譜。

但是，當我們在知識圖譜中做推理的時候通常會遇到一些問題，這就是知識圖譜是符號化的、離散的點，而我們的應用通常需要連續性地推理，從而實現一定的魯棒性。其次，傳統的知識圖譜推理很難進行長鏈、全局化的推理，因為需要存在著組合爆炸的問題。

解決這個問題的方法就是利用表示學習技術。

表示學習技術

表示學習又稱表徵學習（Representation learning）就是利用機器學習技術自動獲取每一個實體或者關係的向量化表達。深度學習之所以現在大獲成功，並具有非常廣泛的應用就在於表示學習。

Word2Vec就是一套非常成功的表示學習技術，它將單詞轉化成了向量，並且可以讓語義上相似的向量具有很高的相似度。而且，Word2Vec還可以在一定程度上學習到了單詞之間的抽象關係。比如著名的公式：（男人－女人＝國王－王后）就告訴我們Word2Vec可以學習到「男女」關係。

除了Word2Vec，在知識表徵學習領域還應用有大量基於神經網路和基於「翻譯」的模型，其中包括基於神經網路的模型：SLM、SME、LFM；以及基於「翻譯」的模型TransE、TransR、TransG…… 這些模型都是怎樣實現的？每個模型各有什麼特點？觀看集智AI學園《知識圖譜與知識表徵學習系列》課程，你將獲得答案！

本課程的主要內容有：

介紹：什麼是知識圖譜和表徵學習？

表徵學習模型簡介

原理：表徵學習的三類實現方法

基於神經網路、基於張量、基於翻譯

改進模型：解決關係多語意的

TransG模型

改進模型：引入路徑排序演算法的

PTransE模型

Word2Vec:Word2Vec的原理應用

TAG:知識圖譜 | 學習 | 深度學習DeepLearning |