重磅 | 肖仰華:知識圖譜與認知智能

(由於字數限制,此版本為刪減版,查看完整版請前往微信公眾號:知識工場)

版權聲明:本文為知識工場實驗室原創文章,若需轉載請聯繫郵箱info.knowledgeworks@gmail.com。


肖仰華教授1萬5千字雄文帶您深度剖析知識圖譜與認知智能,對知識圖譜技術與落地應用中的一系列關鍵問題做了系統梳理與解答。

肖仰華博士,復旦大學計算機科學與技術學院教授,博士生導師,知識工場實驗室負責人。

下文根據肖仰華教授近期所作報告《知識圖譜與認知智能》整理而成,並經肖仰華教授親自審核。

(獲取完整PPT:請前往 kw.fudan.edu.cn/worksho


今天跟大家分享的主題是《知識圖譜與認知智能》。

知識圖譜自2012年提出至今,發展迅速,如今已經成為人工智慧領域的熱門問題之一,吸引了來自學術界和工業界的廣泛關注,在一系列實際應用中取得了較好的落地效果,產生了巨大的社會與經濟效益。那麼到底是什麼在支撐著知識圖譜技術的繁榮景象?是一股什麼力量讓知識圖譜技術吸引了如此多的關注?換句話說,知識圖譜到底能解決什麼問題?何以能夠解決這些問題?今天的報告主要圍繞著這些問題,給大家做一個初步的解答。

先簡單介紹一下整個報告的總體思路。人類社會已經進入智能時代,智能時代的社會發展催生了大量的智能化應用,智能化應用對機器的認知智能化水平提出了前所未有的要求,機器認知智能的實現依賴的就是知識圖譜技術。

我想大家已經深刻地感受到我們身處在一個智能化的時代。

從2012年Google的圖像識別錯誤率顯著下降,機器在圖像識別方面接近人類水平;到2016年AlphaGo戰勝了人類圍棋冠軍;再到2017年AlphaZero戰勝了AlphaGo,以及DeepMind去嘗試星際爭霸遊戲,這一系列AI發展的標誌性事件讓我們看到了人工智慧技術幫助解決人類社會發展若干問題的希望。我們已經見證的這一系列人工智慧技術的發展,本質上是受益於大數據給人工智慧帶來的數據紅利。這一波人工智慧熱潮是在大數據所給予的海量標註樣本以及超強計算能力這兩個強大的支撐作用下所形成的。可以說,這一波人工智慧的發展本質上是大數據餵養出來的。到了今天,可以很自豪地宣告機器智能在感知智能和計算智能等若干具體問題上已經達到甚至超越人類水平。現在,在語音識別與合成、圖像識別、封閉環境有限規則的遊戲領域等問題上,機器智能水平堪比、甚至超越人類水準。

這一系列人工智慧技術的突破性進展,促使各行各業紛紛走向了一條智能化升級和轉型的道路。智能化技術尤其為我國傳統行業的發展帶來了全新機遇,對於我國經濟結構升級,以及傳統實體行業擺脫當前一系列發展困境帶來了全新的機遇。智能化升級和轉型已經成為各行各業的普遍訴求。各行業走向智能化的發展道路,在某種意義上也是人類社會發展的必然趨勢。自計算機面世以來,人類社會在經歷了計算機技術發展的一系列浪潮之後,基本完成了信息化的使命。信息化時代最重要的任務是數據記錄與採集,這勢必造就大數據。當我們邁進大數據時代之後,我們勢必對大數據的價值挖掘提出訴求。大數據的價值挖掘需要智能化手段因此大數據時代的到來,某種意義上只是智能化時代的短暫序曲。我相信,未來若干年,計算機技術的主要使命是幫助人類社會實現智能化

在各行業的智能化發展進程中,AI+或者AI賦能成為了傳統行業智能化升級和轉型的一個基本模式。在AI的賦能下,傳統行業面臨著非常多的機遇,其所關心的一系列核心問題,比如增加收入、降低成本、提高效率和安全保障等,都將顯著受益於智能化技術。比如智能客服系統已經在很多行業大規模應用,大大降低了人工客服的巨大勞動力成本;一些企業利用知識圖譜,對企業內部的研發資源進行管理,顯著提升研發效率,這些都是AI可以賦能傳統行業的具體體現。智能化的升級和轉型對整個傳統行業產生的影響將是顛覆性的,將重塑整個行業的形態,革新傳統行業的各個關鍵環節,智能化技術將逐步滲透到傳統行業的各個角落。最近幾年我們看到越來越多的傳統行業將人工智慧領域升格為企業的核心戰略,在電商、社交、物流、金融、醫療、司法、製造等很多領域湧現出越來越多的AI賦能傳統行業的發展案例。

智能化對機器的智能水平提出了要求,包括機器的計算智能、感知智能,尤其是機器的認知智能。所謂讓機器具備認知智能是指讓機器能夠像人一樣思考,而這種思考能力具體體現在機器能夠理解數據、理解語言進而理解現實世界的能力,體現在機器能夠解釋數據、解釋過程進而解釋現象的能力,體現在推理、規劃等等一系列人類所獨有的認知能力上。

相較於感知能力,認知能力的實現難度更大,價值也更大。前幾年在深度學習的推動下,機器感知能力顯著提升。但是感知能力動物也具備,比如我們家裡的小貓小狗也能識別主人,識別物體。所以讓機器具備感知能力只是讓機器具備了一般動物所具備的能力,還不是那麼值得「炫耀」的事情。但是,認知能力是人類獨有的能力,一旦機器具備認知能力,AI技術將會給人類社會帶來顛覆性革命,同時也將釋放出巨大的產業能量。所以實現機器的認知能力是人工智慧發展進程中具有里程碑意義的重大事件

隨著大數據紅利的消失殆盡,以深度學習為代表的感知智能水平日益接近其「天花板」。以深度學習為代表的統計學習嚴重依賴大樣本,這些方法只能習得數據中的統計模式。然而,現實世界很多實際問題的解決單單依靠統計模式是不夠的,還需要知識,特別是符號化的知識。我們人類的語言理解、司法判案、醫療診斷、投資決策等等很多領域都是顯著依賴我們的知識才能實現的。很多從事自然語言處理的研發人員普遍有個深刻的感受:即便數據量再大,模型再先進,很多自然語言處理任務,比如中文分詞、情感分析達到一定準確率之後,就很難再改進了。比如,中文分詞的一個經典案例:「南京市長江大橋」,不管是分為「南京市長+江大橋」還是「南京市+長江大橋」都依賴我們的知識。如果從上下文我們得知是在討論南京市長,並且有個人叫「江大橋」,我們會傾向於分為「南京市長+江大橋」,否則我們會根據我們已有的知識斷句為「南京市+長江大橋」。不管是哪種情況,我們都在利用我們的知識。我記得我國知名統計學者徐宗本院士在去年年底一個論壇上說過:「數據不夠模型補」。我想傳達類似的觀點:數據不夠知識補,甚至數據足夠了,知識也不能缺失。而知識圖譜就是這種不可或缺的知識的重要表現形式之一。

機器認知智能絕不是束之高閣、高高在上的前沿技術。它是一類能夠實實在在落地的、有著廣泛且多樣的應用需求的、能夠產生巨大社會經濟價值的技術。機器認知智能的發展過程本質上是人類腦力不斷解放的過程。在工業革命和信息化時代,我們的體力被逐步解放;而隨著人工智慧技術的發展,尤其是認知智能技術的發展,我們的腦力也將會逐步解放。越來越多的知識工作將逐步被機器所代替,伴隨而來的將是機器生產力的進一步解放。機器認知智能在應用方面是廣泛和多樣的,體現在精準分析、智慧搜索、智能推薦、智能解釋、更自然的人機交互和深層關係推理等各個方面。

認知智能的第一個應用抓手就是大數據的精準與精細分析。如今,越來越多的行業或者企業積累了規模可觀的大數據。但是這些數據並未發揮出應有的價值,很多大數據還需要消耗大量的運維成本。大數據非但沒有創造價值,在很多情況下還成為了一筆負資產。這一現象的根本原因在於,當前的機器缺乏諸如知識圖譜這樣的背景知識,機器理解大數據的手段有限,限制了大數據的精準與精細分析,從而大大降低了大數據的潛在價值。舉個親身體驗的例子,在娛樂圈王寶強離婚案剛剛開始的時候,新浪微博的熱搜前三位分別是「王寶強離婚」、「王寶寶離婚」和「寶強離婚」。也就是說,當時的微博平台還沒有能力將這三件事自動歸類到一件事,不知道這三件事其實說的是一件事。機器在統計事件熱度的時候就分開統計了,這就是因為當時機器缺乏背景知識,不知道王寶強又稱為「王寶寶」或「寶強」,所以沒有辦法做到大數據的精準分析。事實上,輿情分析、互聯網的商業洞察,還有軍事情報分析和商業情報分析都需要大數據的精準分析,而這種精準分析就必須要有強大的背景知識支撐。除了大數據的精準分析,數據分析領域另一個重要趨勢:精細分析,也對知識圖譜和認知智能提出了訴求。比如很多汽車製造廠商都希望實現個性化製造。個性化製造希望從互聯網上搜集用戶對汽車的評價與反饋,並以此為據實現汽車的按需與個性化定製。為了實現個性化定製,廠商不僅需要知道消費者對汽車的褒貶態度,還需要進一步了解消費者不滿意的細節之處,以及消費者希望如何改進,甚至用戶提及了哪些競爭品牌。顯然面向互聯網數據的精細化數據分析必需要求機器具備關於汽車評價的背景知識(比如汽車的車型、車飾、動力、能耗等等)。因此,大數據的精準和精細化分析需要智能化的技術支撐。

認知智能的第二個非常重要的應用抓手是智慧搜索。下一代智慧搜索對機器認知智能提出了需求。智慧搜索體現在很多方面。首先,體現在搜索意圖的精準理解方面。比如在淘寶上搜索「iPad充電器」,用戶的意圖顯然是要搜索一個充電器,而不是一個iPad,這個時候淘寶應該反饋給用戶若干個充電器以供選擇,而不是iPad。再比如在Google上搜索「toys kids」或者「kids toys」,不管搜索這兩個中的哪一個,用戶的意圖都是在搜索給孩子的玩具,而不是玩玩具的小孩,因為一般不會有人用搜索引擎搜孩子。「toys kids」和「kid』s toys」中兩個詞都是名詞,要辨別出哪一個是核心詞,哪一個是修飾詞,在缺乏上下文的短文本上,仍然是個具有挑戰性的難題。其次,搜索的對象越來越複雜多元化。以前搜索的對象以文本為主,現在大家希望能搜索圖片和聲音,甚至還能搜代碼,搜視頻,搜設計素材等等,要求一切皆可搜索。第三、搜索的粒度也越來越多元化。現在的搜索不僅能做篇章級的搜索,還希望能做到段落級、語句級、辭彙級的搜索。尤其是在傳統知識管理領域,這個趨勢已經非常明顯。傳統的知識管理大都只能做到文檔級搜索,這種粗粒度的知識管理已經難以滿足實際應用中細粒度的知識獲取需求。最後,是跨媒體的協同搜索。傳統搜索以面向單質單源數據的搜索居多。比如針對文本搜索難以借力視頻、圖片信息,針對圖片的搜索主要還是利用圖片自身的信息,對於大量文本信息利用率還不高。最近的趨勢是跨媒體的協同搜索。比如前幾年,明星王珞丹在微博上曬了張自家小區的照片,然後就有好事者根據她的微博社交網路、百度地圖、微博文本與圖片信息等多個渠道多種媒體的信息,通過聯合檢索準確推斷出其所在小區位置。所以,未來的趨勢是一切皆可搜索,並且搜索必達

認知智能的第三個應用抓手是智能推薦。智能推薦表現在很多方面。首先是場景化推薦。比如用戶在淘寶上搜「沙灘褲」、「沙灘鞋」,可以推測這個用戶很有可能要去沙灘度假。那麼平台是否能推薦「泳衣」、「防晒霜」之類的沙灘度假常用物品呢?事實上,任何搜索關鍵字背後,購物籃里的任何一件商品背後都體現著特定的消費意圖,很有可能對應到特定的消費場景。建立場景圖譜,實現基於場景圖譜的精準推薦,對於電商推薦而言至關重要。第二、任務型推薦。很多搜索背後的動機是完成特定任務。比如用戶購買了「羊肉卷」、「牛肉卷」、「菠菜」、「火鍋底料」,那麼用戶很有可能是要做一頓火鍋,這種情況下,系統推薦火鍋調料、火鍋電磁爐,用戶很有可能買單。第三、冷啟動下的推薦。冷啟動階段的推薦一直是傳統基於統計行為的推薦方法難以有效解決的問題。利用外部知識,特別是關於用戶與物品的知識指引冷啟動階段的匹配與推薦,是有可能讓系統儘快渡過這個階段的。第四、跨領域的推薦。當阿里剛剛入股新浪時,我們在設想是否能將淘寶的商品推薦給微博的用戶。比如,如果一個微博用戶經常曬九寨溝、黃山、泰山的照片,那麼為這位用戶推薦一些淘寶的登山裝備准沒錯。這是典型的跨領域推薦,微博是一個媒體平台,淘寶是一個電商平台。他們的語言體系、用戶行為完全不同,實現這種跨領域推薦顯然商業價值巨大,但卻需要跨越巨大的語義鴻溝。如果能有效利用知識圖譜這類背景知識,不同平台之間的這種語義鴻溝是有可能被跨越的。比如百科知識圖譜告訴我們九寨溝是個風景名勝,是個山區,山區旅遊需要登山裝備,登山裝備包括登山杖、登山鞋等等,從而就可以實現跨領域推薦。第五、知識型的內容推薦。在淘寶上搜索「三段奶粉」,能否推薦「嬰兒水杯」,同時我們是否能推薦用戶一些喝三段奶粉的嬰兒每天的需水量是多少,如何飲用等知識。這些知識的推薦,將顯著增強用戶對於推薦內容的信任與接受程度。消費背後的內容與知識需求將成為推薦的重要考慮因素。所以未來的推薦趨勢就是精準感知任務與場景,想用戶之未想推薦技術演進的重要趨勢是從單純基於行為的推薦過渡到行為與語義融合的推薦。換言之,基於知識的推薦,將逐步成為未來推薦技術的主流

認知智能的第四個應用抓手是智能解釋。2017年年底的時候,微信上流傳Google17年最流行的搜索關鍵字是「how」,這說明人們希望Google平台能做「解釋」。類似於「如何做蛋炒飯」,「怎麼來北理工」等這類問題在搜索引擎上出現次數日益增多,這些問題都在考驗機器的解釋水平。一個更有意思的例子是,當我們在Google上搜索「Donald Trump」相關的問題時,你會發現Google會自動提示詢問「為什麼特朗普的老婆嫁給他」而不再是「特朗普老婆是誰」這類簡單事實問題。「why」和「how」問題在現實應用中越來越多。這一趨勢實際上體現了人們的一個普遍訴求,那就是希望智能系統具備可解釋性。所以可解釋性將是智能系統一個非常重要的體現,也是人們對智能系統的普遍期望

可解釋性決定了AI系統的決策結果能否被人類採信。可解釋性成為了很多領域(金融、醫療、司法等)中阻礙AI系統落地應用的最後一公里。比如在金融領域的智能投資決策,即便AI決策的準確超過90%,但是如果系統不能給出作出決策的理由,投資經理或者用戶恐怕也是十分猶豫的。再比如在醫療領域,即便系統判斷疾病的準確率在95%以上,但是如果系統只是告訴病患得了什麼病或者開了一個藥方,卻不能解釋為什麼作出這類判斷的話,病人是不會為此買單的。

智能系統的可解釋性體現在很多具體任務中,包括解釋過程、解釋結果、解釋關係、解釋事實。事實上,可解釋人工智慧最近受到了越來越多的關注。在學術界,機器學習,特別是深度學習的黑盒特性,日益成為學習模型實際應用的主要障礙之一。越多越多的學術研究項目旨在打開深度學習的黑盒。美國軍方也有項目在嘗試解釋機器的學習過程。我個人也曾做過《基於知識圖譜的可解釋人工智慧》的研究與思考,旨在強調知識圖譜在可解釋性方面的重要作用。

智能系統另外一個非常重要的表現方式就是自然人機交互。人機交互將會變得越來越自然,越來越簡單。越自然簡單的交互方式越依賴強大的機器智能水平。自然人機交互包括自然語言問答、對話、體感交互、表情交互等等。特別是自然語言交互的實現需要機器能夠理解人類的自然語言。會話式(Conversational UI)、問答式(QA)交互將逐步代替傳統的關鍵字搜索式交互。對話式交互還有一個非常重要的趨勢就是一切皆可問答。我們的BOTs(對話機器人)將代替我們閱讀文章、新聞,瀏覽圖譜、視頻,甚至代替我們看電影、電視劇,然後回答我們所關心的任何問題。自然人機交互的實現顯然需要機器的較高認知智能水平,以及機器具備強大的背景知識。

認知智能還體現在機器的深層關係發現與推理能力方面。人們越來越不滿足於「葉莉是姚明妻子」這樣的簡單關聯的發現,而是希望發現和挖掘一些深層、潛藏關係。這裡有一些來自互聯網的例子。王寶強離婚的時候,就有人挖過為什麼王寶強找張起淮當律師。後來有人把人物關聯圖譜建立起來,發現王寶強與馮小剛關係很好,而馮小剛有徐靜蕾和趙薇兩個經常合作的演員,而張起淮是這兩個演員的法律顧問。這樣的關係鏈路一定程度上揭示了王寶強與他的律師之間的深層次關聯,也解釋了王寶強為何選擇這位律師。更多類似例子發生在金融領域。在金融領域,我們可能十分關注投資關係,比如為何某個投資人投資某家公司;我們十分關注金融安全,比如信貸風險評估需要分析一個貸款人的相關關聯人物和關聯公司的信用評級。

我們可以看到,剛才所說的這些需求都在各領域醞釀、發生,這些需求要求機器具備認知能力,要求機器具備理解、解釋、規劃、推理、演繹、歸納等一系列能力。其中,尤其以理解和解釋較為突出。讓機器具備認知能力不是今天才提出的問題,早在圖靈時代,阿蘭-圖靈在設計圖靈機的時候就在想像機器能不能像人一樣思考。而機器認知智能的實現在本質上就是讓機器能夠像人一樣思考。這裡有一個非常重要的觀點要分享給大家,我認為實現認知智能是當前以及今後一段時間裡AI發展的重要使命之一。更具體一點,理解和解釋將是後深度學習時代人工智慧最重要的使命之一。之所以說後深度學習時代,是因為深度學習的發展對於大數據紅利的使用基本上已經到了盡頭,深度學習日益面臨性能瓶頸,需要尋求新的思路和方向進行突破。而一個非常重要的突破方向在於知識,在於對於符號知識的利用,在於符號知識與數值模型的融合。而這些努力的最終結果就是使機器具備理解和解釋的能力。

如何實現機器的認知能力?或者更具體一點,如何讓機器具備理解和解釋的能力?我認為知識圖譜,或者說以知識圖譜為代表的這一波知識工程的一系列技術,在認知智能的實現中起到非常關鍵的作用。一言以蔽之,知識圖譜是實現機器智能的使能器(Enabler)。也就是說沒有知識圖譜,或許就沒有機器認知智能的實現。

知識圖譜是什麼?我認為知識圖譜本質上是一種大規模語義網路。理解知識圖譜的概念,有兩個關鍵詞。首先是語義網路。語義網路表達了各種各樣的實體、概念及其之間的各類語義關聯。比如「C羅」是一個實體,「金球獎」也是一個實體,他們倆之間有一個語義關係就是「獲得獎項」。「運動員」、「足球運動員」都是概念,後者是前者的子類(對應於圖中的subclassof 關係)。理解知識圖譜的第二個關鍵詞是「大規模」。語義網路並非新鮮事物,早在上個世紀七八十年代知識工程盛行之時,就已存在。相比較於那個時代的語義網路,知識圖譜規模更大。關於這一點後面還會深入介紹。

從2012年Google提出知識圖譜直到今天,知識圖譜技術發展迅速,知識圖譜的內涵遠遠超越了其作為語義網路的狹義內涵。當下,在更多實際場合下,知識圖譜是作為一種技術體系,指代大數據時代知識工程的一系列代表性技術進展的總和。去年我國學科目錄做了調整,首次出現了知識圖譜的學科方向,教育部對於知識圖譜這一學科的定位是「大規模知識工程」,這一定位是十分準確且內涵豐富的。這裡需要指出的是知識圖譜技術的發展是個持續漸進的過程。從上個世紀七八十年代的知識工程興盛開始,學術界和工業界推出了一系列知識庫,直到2012年Google推出了面向互聯網搜索的大規模的知識庫,被稱之為知識圖譜。理解今天的知識圖譜內涵,是不能割裂其歷史臍帶的。

知識圖譜的歷史發展必然帶來一個非常有意思的問題,那就是上世紀七八十年代的知識表示與我們今天的知識圖譜到底有什麼本質差別?知識工程在圖靈獎獲得者費根鮑姆以及AI先驅馬文明斯基的帶領下,曾經興盛一時,解決了一系列實際應用問題,甚至在數學定理證明等看上去很難的問題上取得了顯著進展。時至今日,我們再次討論作為一種語義網路的知識圖譜,會不會只是冷炒飯的再次煎炒而已?知識圖譜在當下的火熱到底是知識工程的迴光返照還是再次中興?這一系列問題需要得到合理回答。

傳統語義網路與知識圖譜的差別首先表現在其規模上。知識圖譜是一種大規模語義網路,與上世紀七八十年代的各類語義網路相比較,最顯著的差異就是規模差異。推而廣之,以知識圖譜為代表的大數據時代的各種知識表示與傳統的知識表示的根本差別首先體現在規模上。傳統知識工程一系列知識表示都是一種典型的「小知識」(small knowledge)。而到了大數據時代,受益於海量數據、強大計算能力以及群智計算,我們如今能夠自動化構建、或者眾包構建大規模、高質量知識庫,形成所謂的「大知識」(big knowledge,合肥工業大學的吳興東教授在很多場合下也提到類似觀點)。所以知識圖譜與傳統知識表示在淺層次上的區別,就是大知識與小知識的差別,是在規模上的顯而易見的差別

更深刻的進行分析就會發現,這樣的一個知識規模上的量變帶來了知識效用的質變。知識工程到了上世紀八十年代之後就銷聲匿跡了。根本原因在於傳統知識庫構建主要依靠人工構建、代價高昂、規模有限。舉個例子,我國的詞林辭海是上萬名專家花了10多年編撰而成的,但是它只有十幾萬詞條。而現在任何一個互聯網上的知識圖譜,比如DBpedia,動輒包含上千萬實體。人工構建的知識庫雖然質量精良,但是規模有限。有限的規模使得傳統知識表示難以適應互聯網時代的大規模開放應用的需求。互聯網應用的特點在於:一、規模巨大,我們永遠不知道用戶下一個搜索關鍵詞是什麼;二、精度要求相對不高,搜索引擎從來不需要保證每個搜索的理解和檢索都是正確的;三、簡單知識推理,大部分搜索理解與回答只需要實現簡單的推理,比如搜索劉德華推薦歌曲,是因為知道劉德華是歌星,至於「姚明老婆的婆婆的兒子有多高」這類的複雜推理在實際應用中所佔比率是不高的。互聯網上的這種大規模開放應用所需要的知識很容易突破傳統專家系統由專家預設好的知識庫的知識邊界。我想這一定程度上回答了,為何谷歌在2012年這個時間節點推出知識圖譜,利用一個全新名稱以表達與傳統知識表示毅然決裂的態度。

有人或許會問,那麼傳統知識表示對於領域應用應該依然有效,為何專家系統後來在領域應用中也不多見了?這個問題我也曾思考了很長時間,直到後來在很多領域知識圖譜的應用實踐中意識到一些知識應用的有趣現象,我姑且將這個現象叫做「領域知識的偽封閉」現象。領域知識看似應該是封閉的,也就是不會蔓延至專家預先設定的知識邊界範圍之外。但是事實恰好相反,很多領域知識的應用十分易於突破原先設定的邊界。比如,我們現在做金融知識圖譜,原先我們覺得只有股票、期貨、上市公司與金融密切相關,但是實際應用中,幾乎萬事萬物在某種意義下都與金融相關,比如某個龍捲風,可能影響農作物產量,進而影響農業機械的出貨量,進而影響了農機發動機,最終影響了這個發動機的上市公司股價。類似這樣的關聯分析,不正是我們期望智能金融實現的么?而這樣的深度關聯分析,顯然十分容易超出任何專家系統的預先設定的知識邊界。因此,某種意義上,知識是普遍關聯的,當然關聯也是有條件的領域知識的領域性通常是個偽命題,很多領域知識庫的構建要直面通用知識庫的構建所面臨的同樣挑戰。換句話說,領域知識庫的深度應用勢必涉及通用知識庫。這也在一定程度上解釋了,我曾經強調的一個觀點,那就是通用知識庫的研究具有戰略意義,不容有失;一萬個領域知識研究通透了也未必有一個通用知識庫研究透徹價值來的高。通用知識庫的研究是在搶佔知識庫研究的戰略制高點,對於領域知識庫能夠形成戰略俯衝

如果你仍然不滿足於我當前的回答,進一步追問決定了領域知識庫與通用知識庫這種粘連特性的根本原因是什麼。那麼我想答案在於人類的知識體系。我們的知識是有體系架構的,這個架構的最底層,也就是作為地基支撐整個知識體系的知識就是通用知識。而在通用知識中的最底層應該是常識,也就是我們每個人都知道的知識,特別是我們人類關於時間、空間以及因果的基本常識。整個知識體系是建基在這些通用常識之上,再通過隱喻作為主要手段,逐步形成我們的高層、抽象或者領域性知識

因此,我想通過一個簡單的公式表明傳統知識工程與以知識圖譜為代表的新一代知識工程的聯繫與區別:Small knowledge + Bigdata=Big knowledge。通過這個公式表達兩層意思。一、以知識圖譜為代表的大數據時代知識工程有著悠久的歷史淵源;知識圖譜脫胎於傳統知識表示,但是在規模上顯著優於傳統語義網路;而這種量變也帶來知識效用上的質變。這層含義剛才已經闡述,不再贅述。我通過這個公式想強調的是另一層含義:傳統知識表示形式林林總總,通過大數據的賦能,這些知識表示將在各個應用場景下發揮巨大能量。知識圖譜只不過是傳統的語義網路在規模上顯著提升,就已經能夠解決大量實際問題。試想一下,我們還有大量其他的知識表示,比如本體、框架、謂詞邏輯、馬爾科夫邏輯網、決策樹等等各種知識表示仍然被鎖在規模的牢籠里,一旦規模瓶頸被突破,我相信整個知識工程的產業能量將得到巨大釋放。正是在這個意義上,我認為知識圖譜只是知識工程復興的序曲,知識圖譜將引領知識工程復興。我有一種強烈的感覺,好比我們曾經經歷了小數據到大數據的轟轟烈烈的時代轉變,我們也必將經歷從小知識走向大知識的時代轉變

為什麼知識圖譜對於機器實現人工智慧如此重要呢?我們先從形而上的角度來分析這個問題。具體而言,我們分析知識圖譜實現機器認知智能的兩個核心能力:「理解」和「解釋」。我嘗試給機器「理解與解釋」提出一種解釋。我認為機器理解數據的本質是建立起從數據到知識庫中的知識要素(包括實體、概念和關係)映射的一個過程。比如如果我說到「2013年的金球獎得主C羅」這句話,我們之所以說自己理解了這句話,是因為我們把「C羅」這個辭彙關聯到我們腦子中的實體「C羅」,把「金球獎」這個辭彙映射到我們腦中的實體「金球獎」,然後把「得主」一詞映射到邊「獲得獎項」這個關係。我們可以仔細體會一下我們的文本理解過程,其本質是建立從數據,包括文本、圖片、語音、視頻等數據到知識庫中的實體、概念、屬性映射的過程。再來看我們人類是如何「解釋」的。比如我問「C羅為什麼那麼牛?」,我們可以通過知識庫中的「C羅獲得獎項金球獎」以及「金球獎地位影響力最大的足球獎項之一」這兩條關係來解釋這一問題。這一過程的本質就是將知識庫中的知識與問題或者數據加以關聯的過程。有了知識圖譜,機器完全可以重現我們的這種理解與解釋過程。有過一定計算機研究基礎的,是不難完成上述過程的數學建模的。

知識圖譜對機器認知智能的必要性還可以從若干具體問題來進行闡述。首先,我們來看機器認知的核心能力之一:自然語言理解。我的觀點是機器理解自然語言需要類似知識圖譜這樣的背景知識。自然語言是異常複雜的:自然語言有歧義性、多樣性,語義理解有模糊性且依賴上下文。機器理解自然語言困難的根本原因在於,人類語言理解是建立在人類的認知能力基礎之上的,人類的認知體驗所形成的背景知識是支撐人類語言理解的根本支柱。我們人類彼此之間的語言理解就好比是根據冰山上浮出水面的一角來揣測冰山下的部分。我們之所以能夠很自然地理解彼此的語言,是因為彼此共享類似的生活體驗、類似的教育背景,從而有著類似的背景知識。冰山下龐大的背景知識使得我們可以彼此理解水面上有限的幾個字元。我們可以做個簡單的思想實驗,假如現在有個外星人坐在這裡聽我講報告,他能聽懂么?我想還是很困難的,因為他沒有在地球上生活的經歷,沒有與我相類似的教育背景,沒有與我類似的背景知識庫。再舉個很多人都有體會的例子,我們去參加國際會議時,經常遇到一個尷尬的局面,就是西方學者說的笑話,我們東方人很難產生共鳴。因為我們和他們的背景知識庫不同,我們早餐吃燒餅、油條,西方吃咖啡、麵包,不同的背景知識決定了我們對幽默有著不同的理解。所以語言理解需要背景知識,沒有強大的背景知識支撐,是不可能理解語言的。要讓機器理解我們人類的語言,機器必需共享與我們類似的背景知識。

實現機器自然語言理解所需要的背景知識是有著苛刻的條件的:規模足夠大、語義關係足夠豐富、結構足夠友好、質量足夠精良。以這四個條件去看知識表示就會發現,只有知識圖譜是滿足所有這些條件的:知識圖譜規模巨大,動輒包含數十億實體;關係多樣,比如在線百科圖譜DBpedia包含數千種常見語義關係;結構友好,通常表達為RDF三元組,這是一種對於機器而言能夠有效處理的結構;質量也很精良,因為知識圖譜可以充分利用大數據的多源特性進行交叉驗證,也可利用眾包保證知識庫質量。所以知識圖譜成為了讓機器理解自然語言所需的背景知識的不二選擇。

既然機器理解自然語言需要背景知識,我對於當前的自然語言處理有個重要看法:我認為自然語言處理走向自然語言理解的必經之路是知識,我將我的這個觀點表達為NLP+KB=NLU的公式。很多NLP從業人員有個體會,明明論文裡面報道的在某個benchmark數據95%準確率的模型一旦用到實際數據上,至少有10個百分點的下降。而最後那幾個點的準確率的提升需要機器理解自然語言。這一點在司法、金融、醫療等知識密集型的應用領域已經體現的非常明顯了。比如在司法領域,如果不把司法背後的事理邏輯、知識體系賦予機器,單純依賴字元數據的處理,是難以實現司法數據的語義理解的,是難以滿足司法文本的智能化處理需求的。

因此,NLP將會越來越多地走向知識引導的道路NLP與KB將走向一條交迭演進的道路。在知識的引導下,NLP模型的能力越來越強,越來越強大的NLP模型,特別是從文本中進行知識抽取的相關模型,將會幫助我們實現更為精準地、自動化抽取,從而形成一個質量更好、規模更大的知識庫。更好的知識庫又可以進一步增強NLP模型。這種循環迭代持續下去,NLP最後將會非常接近NLU,甚至最終克服語義鴻溝,實現機器的自然語言理解。最近幾年,這條技術演進路線日漸清晰,越來越多的頂尖學者有著與我類似的看法,我的研究團隊沿著這條路徑做了很多嘗試,初步看來效果顯著。當然這些都是一家之言。也有不少人認為依靠純數據驅動的自然語言處理模型也可實現機器的自然語言理解,特別是當下深度學習在自然語言處理方面還十分流行,我所倡導的知識引導下的NLP發展路徑多少有些顯得不合時宜。

這裡,通過一個實際案例論證知識對於NLP的重要作用。在問答研究中,自然語言問題的理解或者語義表示是一個難題。同樣語義的問題表達方式往往是多樣的,比如不論是how many people are there in Shanghai? 還是 what isthe population of Shanghai,都是在問上海人口。又或者形式上看上去很接近的問題,實質語義相差很大,比如「狗咬人了嗎」與「人咬狗了嗎」語義完全不同。當問題答案來自於知識庫時,這類問題就屬於KBQA(面向知識庫的自然語言問答)的研究內容。KBQA的核心步驟是建立從自然語言問題到知識庫中的三元組謂詞的映射關係。比如上面的兩個與上海人口相關的問題,都可以映射到知識庫中的Population這個謂詞。一種簡單的辦法是讓機器記住問題到謂詞的映射規則,比如機器記住「How many people are there in Shanghai?」映射到上海這個實體的Population謂詞上。但這種方法沒有把握問題語義本質,如果用同樣的句式問及北京、南京,甚至任何一個城市人口呢?難道機器需要為每個實例記住這些映射么?顯然我們人類不是如此理解問題語義的,我們是在「How many people are there in $City?」這個問題概念模板層次把握問題語義的實質的。利用概念模板不僅避免了暴力式的記憶,同時也能讓機器具備類人的推理能力。比如,如果問到「How many people are there in XXX?」,機器只要知道XXX是個city,那麼這個問題一定是在問XXX的人口數量。那麼我們怎麼生成這種問題概念模板呢,我們用概念圖譜。概念圖譜裡面含有大量的類似shanghai isa city,beijing isa city 這類知識。充分利用這些知識可以得到自然語言問題的有效表示,從而實現機器對於自然語言問題的語義理解。

知識圖譜對於認知智能的另一個重要意義在於:知識圖譜讓可解釋人工智慧成為可能。「解釋」這件事情一定是跟符號化知識圖譜密切相關的。因為解釋的對象是人,人只能理解符號,沒辦法理解數值,所以一定要利用符號知識開展可解釋人工智慧的研究。可解釋性是不能迴避符號知識的。我們先來看幾個解釋的具體例子。比如,我若問鯊魚為什麼可怕?你可能解釋說:因為鯊魚是食肉動物,這實質上是用概念在解釋。若問鳥為什麼能飛翔?你可能會解釋因為它有翅膀。這是用屬性在解釋。若問鹿晗關曉彤前些日子為什麼會刷屏?你可能會解釋說因為關曉彤是鹿晗的女朋友。這是用關係在解釋。我們人類傾向於利用概念、屬性、關係這些認知的基本元素去解釋現象,解釋事實。而對於機器而言,概念、屬性和關係都表達在知識圖譜裡面。因此,解釋離不開知識圖譜。

沿著這個思路,我們做了一些初步嘗試,我們首先試著利用知識圖譜做可解釋推薦。我們目前的互聯網推薦,只能給我們推薦結果,卻無法解釋為什麼。可解釋推薦將是未來推薦研究的重要領域,將是具有巨大商業價值的研究課題。我們初步實現了可解釋的實體推薦。若用戶搜索了「百度」和「阿里」,機器推薦「騰訊」,並且解釋為什麼推薦「騰訊」,因為他們都是互聯網巨頭、都是大型IT公司。這裡實質上是在利用概念展開解釋,這些概念可以在很多概念圖譜,比如英文概念圖譜Probase,和中文概念圖譜CN-Probase里找到。

另一個例子是讓機器解釋概念。比如向機器提及「單身漢」這個概念,機器能否自動產生「男性」、「未婚」這樣的屬性用於解釋這個概念。我們針對富含實體、概念和屬性信息的大型百科圖譜展開挖掘,自動挖掘出常見概念的定義性屬性。這些定義性屬性可以幫助我們完善概念圖譜,也就是為概念圖譜上的每個概念補充定義性屬性信息;進一步可以利用這些信息讓機器利用屬性對於實體進行準確歸類。這一歸類過程本質上是在模擬人類的範疇化過程。

知識圖譜的另一個重要作用體現在知識引導將成為解決問題的主要方式。前面已經多次提及用戶對使用統計模型來解決問題的效果越來越不滿意了,統計模型的效果已經接近「天花板」,要想突破這個「天花板」,需要知識引導。舉個例子,實體指代這樣的文本處理難題,沒有知識單純依賴數據是難以取得理想效果的。比如「張三把李四打了,他進醫院了」和「張三把李四打了,他進監獄了」,人類很容易確定這兩個不同的「他」的分別指代。因為人類有知識,有關於打人這個場景的基本知識,知道打人的往往要進監獄,而被打的往往會進醫院。但是當前機器缺乏這些知識,所以無法準確識別代詞的準確指代。很多任務是純粹的基於數據驅動的模型所解決不了的,知識在很多任務里不可或缺。比較務實的做法是將這兩類方法深度融合。

實際上在很多NLP應用問題中,我們在嘗試用知識引導突破性能瓶頸。比如在中文實體識別與鏈接中,針對中文短文本,在開放語境下,在沒有充分上下文,缺乏主題信息的前提下,這一問題仍然十分困難,現在工業界最高準確率大概60%多的水平。當前機器仍然難以理解中文文本中的實體。最近,我們利用中文概念圖譜CN-Probase,給予中文實體識別與鏈接任務以豐富的背景知識,取得了十分顯著的效果。我們知道打球的李娜和唱歌的李娜不是同一個人,現在即便這兩人在文本中同時被提及,機器也能準確識別並加以區分。

知識對於認知智能又一個很重要的意義就是將顯著增強機器學習的能力。當前的機器學習是一種典型的「機械式」學習方式,與人類的學習方式相比顯得比較笨拙。我們的孩童只需要父母告知一兩次:這是貓,那是狗,就能有效識別或者區分貓狗。而機器卻需要數以萬計的樣本才能習得貓狗的特徵。我們中國學習英語,雖然也要若干年才能小有所成,但相對於機器對於語言的學習而言要高效的多。機器學習模型落地應用中的一個常見問題是與專家知識或判斷不符合,這使我們很快陷入進退兩難的境地:是相信學習模型還是果斷棄之?機器學習與人類學習的根本差異可以歸結為人是有知識的且能夠有效利用知識的物種。我相信,未來機器學習能力的顯著增強也要走上知識的充分利用的道路。符號知識對於機器學習模型的重要作用會受到越來越多的關注。這一趨勢還可以從機器智能解決問題的兩個基本模式方面加以論述。機器智能的實現路徑之一是習得數據中的統計模式,以解決一系列實際任務。另一種是專家系統,專家將知識賦予機器構建專家系統,讓機器利用專家知識解決實際問題。如今,這兩種方法有合流的趨勢,無論是專家知識還是通過學習模型習得的知識,都將顯式地表達並且沉澱到知識庫中。再利用知識增強的機器學習模型解決實際問題。這種知識增強下的學習模型,可以顯著降低機器學習模型對於大樣本的依賴,提高學習的經濟性;提高機器學習模型對先驗知識的利用率;提升機器學習模型的決策結果與先驗知識的一致性。我個人傾向於認為:機器學習也面臨一次全新機遇。我將其總結為ML+KB=ML2,也就是說機器學習在知識增強下或許就是下一代機器學習。

沿著上面的思路我們也做了一些嘗試。在自然語言生成任務中,我們的機器學習模型,特別是深度生成模型會經常生成很多不符合語法、或者不符合語義的句子。我們人類顯然可以總結出很多語法語義規則用於描述什麼是好的自然語言語句。但是這些知識還很難被機器有效利用。這就需要把語法、語義知識用規則、符號的方式表達出來,並有效融合到深度生成模型裡面。最近,我們基於對抗生成網路初步實現了這一目標。並將融合了先驗知識的語言生成模型用於從知識庫三元組自動生成自然語言問題,並將這一技術用於文本驗證碼。具體技術細節可以參考我曾做過的一個技術報告《未來人機區分》。

知識將成為比數據更為重要的資產。前幾年大數據時代到來的時候,大家都說「得數據者得天下」。去年,微軟研究院的沈向陽博士曾經說過「懂語言者得天下」。而我曾經論述過,機器要懂語言,背景知識不可或缺。因此,在這個意義下,將是「得知識者得天下」。如果說數據是石油,那麼知識就好比是石油的萃取物。如果我們只滿足賣數據盈利,那就好比是直接輸出石油在盈利。但是石油的真正價值蘊含於其深加工的萃取物中。石油萃取的過程與知識加工的過程也極為相像。都有著複雜流程,都是大規模系統工程。我今天的報告就是在當前的時代背景下重新解讀圖靈獎獲得者,知識工程的鼻祖,費根鮑姆曾經說過的一句話「knowledge is the power in AI」。這句話已經出現幾十年了,在當今語境下需要重新解讀。

知識的沉澱與傳承鑄就了人類文明的輝煌,也將成為機器智能持續提升的必經之路。只不過到了機器身上,知識的沉澱變成了知識的表示,知識的傳承變成了知識的應用。所以,知識的沉澱和傳承不僅鑄就了人類文明的輝煌,或許也將造就機器智能的全新高度。

版權聲明:本文為知識工場實驗室原創文章,若需轉載請聯繫郵箱info.knowledgeworks@gmail.com。

(由於字數限制,查看完整版請前往微信公眾號:知識工場)

推薦閱讀:

深度學習在語音生成問題上的典型應用
聲智科技陳孝良:講講國內AI產業的真實現狀 | 愛分析訪談
機器學習初始
如何不出國門走進NLP學術前沿
卷積神經網路結構演變(form Hubel and Wiesel to SENet)——學習總結,文末附參考論文

TAG:知識圖譜 | 人工智慧 |