報告 | 肖仰華：知識圖譜研究的回顧與展望

04-03

本文整理自2017年10月19日肖仰華教授在知識圖譜前沿技術課程（華東師範大學站）所做的報告，報告的題目為《知識圖譜研究的回顧與展望》。

獲取完整PPT

關注「知識工場」微信公眾號，回復「20171101」獲取下載鏈接。

大家好，很多人在對知識圖譜的研究或者落地方面都表現出了極大的興趣，我從知識圖譜綜述的角度給今天的研討會開個頭。

我們先從知識圖譜的概念和定義講起。知識圖譜本質上是一種大規模語義網路，它包含了各種各樣的實體，概念以及語義關係。比如說C羅，他是一個實體，人物和運動員是他的基本概念，「金球獎」也是一個實體，它是一個獎項，那麼C羅和金球獎之間的關係就是C羅曾經獲得這個獎項。所謂知識圖譜就是這樣一個語義網路。

知識圖譜為什麼這麼重要？可以從兩個方面來講，首先從它的學科體系來看，如果把知識圖譜置於整個人工智慧的學科框架裡面來看，它有著非常清晰的學科定位。在人工智慧這個非常龐大的學科體系里，知識圖譜有著非常清晰的學科路徑，人工智慧的基本目標是希望機器能像人一樣理性地思考或者行為。知識工程是人工智慧學科體系的一個分支，它從上世紀五六十年代開始，到七八十年代達到頂峰，Feigenbaum是知識工程的鼻祖，做了一系列開創性的工作，在很多領域，尤其是醫療、診斷領域取得了突破性的進展。知識工程的目的是讓知識能夠融入到計算機系統中，使得計算機系統一定程度上可以像專家一樣，利用專家的知識去做診斷和治療等。在整個知識工程的分支下，知識表示是一個非常重要的任務，我們想要把知識應用到計算機系統中去，首先要解決知識是怎麼表示的，尤其在計算機系統中是怎麼表示的。大家都知道，計算機想要處理問題，首先要把邏輯表示出來，要有適當的數據結構來表達這個數據，機器才有可能去處理這個數據，所以知識表示是最關鍵的問題。知識工程的發展離不開知識表示，先要有知識表示，才可能有知識工程的巨大發展，所以在知識工程的體系下，一個很重要的分支是如何去表示知識。而在知識表示下有個很重要的方式，就是知識圖譜。知識圖譜本質上只是一種知識表示的方式，它側重在用一種關聯方式來表達實體與概念之間的語義關係。這樣一來大家就能看到知識圖譜在整個人工智慧體系下是有很清晰的脈絡的。需要強調的是，知識圖譜只是知識表示的一種，並不是全部。事實上，現在整個國際學術界也一直希望能夠提出有更強表達能力，更小計算複雜性的知識表示方式，很多團體都在做這方面的努力。

我們再從時間維度來看知識圖譜，人工智慧發展到今天，進入了大數據人工智慧時代，由於大數據的出現，計算能力的升級，造就了一批新型的人工智慧技術，尤其以深度學習和知識圖譜為代表。從技術層次來看，狹義上講，知識圖譜本質上就是一種語義網路，是大數據時代知識表示最重要的一種方式，可以說是大數據的出現造就了知識圖譜。從技術體系來看，廣義上講，知識圖譜是一種技術體系，就跟深度學習一樣，它不是指某一特定的模型，是指一類模型，一類技術。知識圖譜某種程度上被當作是大數據時代知識工程具有代表性的一脈技術。所以從狹義和廣義這兩個角度來理解知識圖譜，可以是一種語義網路，也可以是一種技術體系。它是典型的大數據時代的產物。

我們知道，在計算機領域，知識圖譜最早是2012年5月份Google正式提出，並且發布了自己的知識圖譜。Google作為互聯網巨頭，當時的核心訴求是搜索通往答案，就是用戶搜索一個關鍵字，可以直接得到答案，而不是給出包含關鍵字的網頁。為什麼在知識圖譜出現之前，只能返回包含關鍵字的網頁呢？因為在知識圖譜出現之前，「Obama」和「birthday」只是一個字元串而已，機器無法知道Obama是一個人，birthday是一個屬性。知識圖譜的出現，使得搜索引擎可以理解搜索的關鍵字，並返回精準的答案。這對搜索引擎是至關重要的，是搜索引擎真正意義上實現從搜索通往答案的一個必備技術。在知識圖譜出現之前，搜索引擎做不到搜索通往答案的根本原因，就是缺乏像知識圖譜這樣能提供大量背景知識的資料庫。這實際上啟發了我們語言理解是需要背景知識庫支撐的，知識圖譜在很多場合上被用作讓機器理解語言的背景知識庫，它的根本意義就是能幫助機器理解語言。

機器理解語言是一件非常複雜的事情，現在最多能說自然語言處理，還談不上自然語言理解。語言理解是有歧義的，比如說「蘋果」可以指公司，也可以指水果；語言理解往往是需要上下文的；很多語言是隱式的，表達的很委婉；語言表達具有多樣性等等，這些都決定了自然語言理解困難重重。

語言的理解是建立在認知的基礎之上，在座的能聽懂我在說什麼，是因為我們有著共同的認知，有著相類似的對世界的體驗和教育背景。假想一個外星人來聽報告，他就不能聽懂，因為我們沒有共同的認知。認知的不同決定了語言理解的不同。由於體驗和認知，我們積累了大量的背景知識，如今我們想要機器也具備語言認知能力，那麼機器也需要具備與人類差不多的背景知識庫。這個背景知識庫就是知識圖譜，知識圖譜的歷史使命是作為一個巨大的背景知識庫讓機器具備語言認知能力。整個語言理解就好比是冰山一角，我們看到的是表面各種各樣的字元串，而實際上理解表面的字元串，需要冰山下面非常龐大的背景知識。有了知識圖譜，機器看到的不再僅僅是字元串，而是可以把這些字元串映射到各種各樣的實體、概念，從而建立機器自己的認知世界，就是知識圖譜使能機器語言認知。

在知識圖譜出現之前，已經有各種各樣的知識表示，像本體、語義網、文本等等，它們都是更為龐大的知識表示形式。那為什麼傳統的知識表示不足以作為機器理解語言的強大背景知識呢？那是因為並不是任何知識庫都可以有效地作為背景知識庫。事實上，想讓機器具備語言認知能力，背景知識庫必須滿足幾個條件，第一個是規模要足夠大，必須涵蓋足夠多的實體和概念。第二個是知識庫語義關係要足夠豐富，描述現實世界的語義關係是豐富多樣的，知識庫要涵蓋常見的語義關係。第三個就是知識庫表示結構要十分友好。文本是一個巨大的載體，但是文本是一個非結構化數據表現形式，機器很難處理，而知識圖譜往往表達為RDF結構，是一種結構友好的表達形式，是能夠被計算機有效處理的。第四，受益於大數據的多源異構性，知識圖譜的質量很高，我們還可以用眾包的手段來進行質量的保證。

正是因為知識圖譜具有這些特性，才使知識圖譜使能機器語言認知成為可能。

再來看看知識圖譜的優勢，首先，知識圖譜規模很大，很多知識圖譜動輒數千萬，很多企業像google，微軟都有上十億、百億的實體，對實體的覆蓋規模是十分巨大的。

第二個就是語義關係豐富。不同的在線知識庫涵蓋了各種各樣的語義關係，再互聯到一起，就基本能涵蓋我們常見的語義關係。

第三個就是質量很高。通過眾包和多源校驗使得知識圖譜的質量非常高，CN-DBpedia還可以通過用戶的反饋來校驗。在大數據時代，我們可以通過很多的手段來確保知識庫的質量。

第四個就是結構很友好。知識庫表示出來都是一個個三元組，是RDF或者圖的結構。

現在有越來越多的知識圖譜出現，三月份的數據顯示至少有一千種常用的知識圖譜，這個數據量還在不斷的增長。

到了今天，我們要重新審視一下知識圖譜技術的發展。在2012年至今五年的時間裡，我們看到了一系列的變革。

從兩個方面來講，一方面是應用場景，另一個方面就是技術生態。隨著應用場景和技術生態的變化，整個知識圖譜面臨著全新的挑戰，以前的技術手段在應對現在智能化大潮給我們提出的挑戰的時候，已經有些力不從心，所以我們要研發一些新技術。

從應用的角度來講，知識圖譜的應用趨勢越來越從通用領域走向行業領域，現在的局面是通用與行業應用百花齊放，各行各業都在討論適合自己的知識圖譜。今天展示給大家的是我們自己實驗室的知識圖譜，在通用領域，我們實驗室有CN-DBpedia，Probase plus。CN-DBpedia是一種通用百科知識圖譜。通用知識庫在通用人工智慧中扮演著重要的角色，是未來競爭的戰略制高點，即掌握了通用人工智慧技術，可以從一個戰略制高點向下俯衝，這樣收穫領域知識圖譜的成果是相對容易的。但是如果只具備領域人工智慧的能力，未必可以掌握通用人工智慧能力。雖然領域/行業人工智慧技術更容易落地，但是從戰略層面上來講，一定要對通用人工智慧予以高度的關注。領域人工智慧在很多領域已經落地開花，但領域圖譜的應用也不是簡單的事，還具有很多挑戰性的研究問題，領域知識庫構建的語料往往比較稀疏，比如在某個領域提到某個事實，某類關係的樣本非常少，這個時候利用關係去構建有效的抽取模型就會變的十分困難，在樣本稀疏的環境下去做領域知識圖譜的自動化構建仍然是件非常困難的事情。

第二個應用場景發生變化是從搜索延伸至推薦、問答等複雜任務。舉個例子，圖中知識圖譜幫助搜索代碼，如果能利用知識圖譜理解搜索意圖，並返回準確的代碼，這樣效率將大有提升。用戶搜索輸入關鍵字，機器給出答案，還可以為用戶做智能推薦。將來更智能的形式就是直接問答，我們實驗室研發的「小Cui問答」就是這樣的問答系統。

整個知識圖譜將來會在越來越複雜和多元的場景下發揮重要的作用。

再進一步就是交互方式發生變化。以前的交互方式更多是基於關鍵字，現在越來越多的是自然語言的處理，對話式的處理，像Google Now，Apple Siri，Amazon Alexa等等，很多大公司都在研發自然語言交互的產品，這意味著自然語言交互成為未來人機交互的主流方式。對知識圖譜提出的挑戰就是，對自然語言的認知到了一個新的高度，需要能夠利用知識圖譜幫助平台和系統更好的理解問答，上下文對話等等。

進而就是從用戶提的問題來看，呈現出從簡單的陳述類問題到解釋類問題的變化趨勢。以前用戶喜歡問「what」、「who」、「when」、「where」這樣簡單陳述性問題，現在越來越多的問「why」、「how」。用戶對系統智能性的期望越來越高，很多用戶在Google上問why類問題，但是很遺憾，Google還不能進行回答，只能回答陳述類問題。隨著「why」、「how」問題越來越多，解釋就變的很重要，可解釋是未來人工智慧發展的核心訴求之一，是人機互信的前提。

再進一步就是，以前在實體之間找到一些簡單關係就行了，比如王寶強的老婆是馬蓉，但現在不滿足於簡單關係的揭示，而是希望能夠推理出一些深層關係，比如王寶強離婚案，為什麼王寶強會請張起淮當律師？王寶強和馮小剛是好朋友，馮小剛有個御用演員叫徐靜蕾，張起淮是徐靜蕾的法律顧問，所以王寶強會請張起淮當律師，這個就是深層關係推理。隱式關係發現、深層關係推理將成為智能的主要體現之一。

再從技術生態的角度來看，人工智慧也發生了很大的變化。從機器學習來看，雖然深度學習發展非常迅速，並且在樣本數據豐富的場景下取得了很好的效果，但是機器學習仍然存在很多問題，小樣本學習、無監督學習手段有限，現有模型難以有效利用大量先驗知識。再從自然語言處理角度來看，雖然自然語言處理在深度學習的推動下取得了很大的進展，但是自然語言處理離實際應用需求還很遠，還只是在處理階段，遠遠談不上理解。從知識庫本身來看，英文圖譜積累迅速，發展得相當成熟，並且在很多應用中發揮了巨大的作用，但是其他語種的知識圖譜十分缺乏。雖然現在知識圖譜很多，但是大部分都側重在簡單事實，對於常識的覆蓋仍然十分有限。很多知識圖譜都是依賴手工構建的，如何從大規模數據里用數據挖掘的方法自動挖掘出知識圖譜的手段仍然缺乏。

時至今日，對知識圖譜的研究必須要進行反思，在變化下我們將面臨怎樣的機遇和挑戰呢？

第一個挑戰是知識圖譜構建的有效策略和方案。知識圖譜涉及的領域很多，構建的有效策略和方案顯得格外重要，一個有效的策略往往可以顯著地彌補模型上的不足。如何充分利用知識的跨語言特性；如何區別對待數據來源的不同結構化程度；基於概念模板的迭代式抽取；基於語義與語法混合模式的抽取都需要一個有效的策略和方案，我們初步實驗下來，有效的策略和方案是可以顯著提升知識圖譜自動化構建的效果的。

第二個挑戰是大規模常識的獲取和理解。隨著知識庫應用越來越深入，對於智能化要求越來越高，其對於常識的需求也會越來越顯著。現在大規模人工智慧技術是缺乏常識理解能力的，常識缺乏是人工智慧研究的重大制約瓶頸。

第三個挑戰是在樣本稀疏環境下的領域知識獲取。很多領域知識圖譜缺乏有效的樣本，如何將高頻知識的獲取模型有效遷移到樣本稀疏的低頻知識，是當前知識獲取領域面臨的重大難題。

第四個挑戰是數據驅動與知識引導深度融合的新型機器學習模型。因為不能有效利用先驗知識，當前機器學習的模型效果越來越接近天花板，如何把先驗知識與機器深度學習結合到一起，這是個挑戰。

第五個挑戰是基於知識圖譜的可解釋人工智慧。是否能利用知識圖譜去解釋機器產生的結果，這個將來會越來越重要。

第六個挑戰是知識獲取中的人機協作機制與方法。人機邊界問題，這實際上是一個非常重要的問題。

還有就是知識驅動的機器語言理解。如何利用知識幫助機器理解語言，做有效的搜索和推薦。以前的搜索和推薦是基於用戶的行為，將來會越來越多的利用背景知識來開展搜索和推薦。

我們初步進行了一些工作，在知識圖譜構建的策略和方案方面，充分利用知識的跨語言特性，把其他語言的知識遷移到中文裡，從而有效地構建知識庫。遵循先易後難的順序，盡量避免從零開始，可以從通用知識庫導出某個領域作為種子，還可以做跨領域遷移，從鄰近領域遷移。

在可解釋人工智慧這塊，國際上已經在做很多事情。以後給出一張貓的圖片，機器不僅會告訴用戶這是貓，還會告訴用戶是因為觀察到了爪子和耳朵來推斷這是貓。

機器學習模型將來必須具備解釋性，用戶才會相信這個模型，在這個方面，我們現在可以做可解釋的推薦，比如用戶搜索「三星S8」、「蘋果8」，機器會推薦「華為P9」，因為機器知道用戶在搜索高端手機。機器不僅給你推薦，還告訴你推薦的原因。

對於現在領域知識圖譜樣本都很稀疏的問題，現在有兩個基本思路，一個是從高頻向長尾的遷移，有些關係樣本很少，但也有些關係樣本很多，把樣本多的關係遷移到樣本比較少的關係。還有一個就是富樣本向窮樣本領域遷移，把人類先驗知識和規則與深度學習模型有效融合在一起，從而能夠有效生成自然語言模型。

在常識獲取和理解上，我們已經在常識抽取、推斷、判定等方面做了一些工作。

最後，套用Edward Feigenbaum的一句話「Knowledge is Power in AI」，知識在整個AI中是非常重要的，還有一句話要送給大家，卡爾?雅斯貝斯在《時代的精神狀況》里提到的「即將到來的是一個終點，還是一個起點？它會不會是一個起點，其重要性相當於人最初成為人的時候，所不同的只是人現在擁有大量新獲得的工具以及在一個新的、更高的水準上的經驗能力？」

我的報告就到這裡，謝謝大家！

http://weixin.qq.com/r/CDp3b_vEi7b0ra8M928a (二維碼自動識別)