肖仰華:基於知識圖譜的可解釋人工智慧:機遇與挑戰

本文整理自2017年10月13日肖仰華教授在 CIIS2017 中國智能產業高峰論壇上所做的報告,報告的題目為《基於知識圖譜的可解釋人工智慧:機遇與挑戰》。

獲取完整PPT

關注「知識工場」微信公眾號,回復「20171013」獲取下載鏈接。


肖仰華:很高興有機會跟大家一起分享《基於知識圖譜的可解釋人工智慧:機遇與挑戰》。

剛才劉總的報告中提到了機器和人類將來要互相擁抱,互相擁抱的前提是互信,機器要相信我們,我們要相信機器。這個相信指的是,比如機器給我們做一個決策案或者治療方案,我們能夠相信機器給出的結果。當前,機器顯然還不能給出合理的解釋, AI系統作出的決策仍然缺乏可解釋性。正因為可解釋性的缺乏,導致人類對機器產生的結果無法採信。可以設想一下,如果我們都不相信機器的行為和決策,那麼機器為人類生活提供的服務將大打折扣。所以需要增強人工智慧的可信性和可解釋性。

AI的可解釋性問題要從深度學習談起。這幾年我們見證了深度學習的一系列突破。深度學習的進展本質上是由大數據餵養出來的。大數據時代,海量高質量的帶標註數據,使深度學習模型可以學習到非常有效的層次化特徵表示,從而使得深度學習成為可能。以雲計算為代表的大規模分散式計算平台以及GPU、FPGA等硬體能力的提升為深度學習提供了必要的計算基礎設施。大數據餵養下的深度學習取得了顯著進展,機器在圖像、語音識別等感知能力方面甚至超越人類。在深度學習的推動下,自然語言處理方面也取得了顯著進展。

然而,深度學習的一個廣為詬病的問題是其不透明性,不可解釋性。深度學習模型是一種端到端的學習,接受大樣本作為訓練輸入,所習得的模型本質上是神經網路結構的參數。其預測過程,是相應參數下的計算過程,比如說輸入一張狗的圖片,機器做出是否是狗的判斷。深度學習的學習和預測過程是不透明的,模型究竟學到了什麼有效特徵,使得它做出這樣一個判斷,這個過程缺乏可解釋性。深度學習的不透明性問題,有時又被稱為深度學習的黑盒(「Black box」)問題,最近受到了廣泛關注。《Nature》、《Science》以及《MIT Technology Review》最近都有文章討論這一問題,都指出深度學習的發展需要打開這個黑盒。喬治亞理工的Mark Riedl認為如果AI系統不能回答Why問題,解釋這些系統何以產生特定的結果,這些AI系統就只能束之高閣。

深度學習的黑盒問題吸引了各界人士廣泛的研究興趣,學術界與工業界都在努力打開深度學習或者AI系統的黑盒子。這些工作都可以被視作是可解釋人工智慧的研究範疇,也就是Explainable AI或者簡稱為XAI。XAI吸引了很多學術團體和政府的關注,最有代表性的就是David Gunning所領導的美國軍方DAPRA可解釋AI項目,他們旨在建設一套全新的且具有更好可解釋性、以及更易為人所理解的機器學習模型。比如在貓的識別任務中,新模型不僅僅告訴你這是一隻貓,而且還告訴你模型是因為觀察到了貓所特有的爪子和耳朵等做出這是貓的判斷。

XAI在我看來,不單單是對於解決深度學習可解釋性問題具有重要意義,它將在整個AI里都扮演著非常重要的角色。因為,我個人認為理解和解釋將來會是整個後深度學習時代人工智慧最為核心的使命。在深度學習時代,我們的模型某種程度上只「知其然」而不知其「所以然」。這就好比中醫看病,根據以往的經驗做診斷。當然,無論是現代中醫還是傳統中醫也都在尋求理論解釋,但是仍然很難全面達到西醫的解釋水平。很顯然,我們不可能對只知其然而不知其所以然的AI系統完全採信。所以AI勢必要從只「知其然」走向「知其所以然」。我們希望XAI能夠解釋過程,也能夠解釋結果。只有能夠解釋過程和結果,才能使人類信任它。還有很多機器學習模型,我們知道任何模型都不可能100%準確,一定會產生錯誤,對於產生這些特定錯誤的原因,我們也在尋求解釋。更重要的是,未來我們的AI醫生所做的任何治療方案,都必須配備解釋,否則人類不可能為它的診斷買單。在電商以及更多商業場景下,可解釋的推薦顯得尤為重要,我們相信,將來如果電商不只是給用戶推薦一個商品,而且還能告訴用戶為什麼推薦這個商品,這樣的推薦更有說服力。比如說用戶去訂酒店的時候,可以告訴用戶推薦這個酒店的理由,或是離用戶會場較近,或是價格便宜。再比如說用戶搜索「二段奶粉」,平台可以告訴用戶喝此段奶粉的嬰兒每天需要飲用多少水,用多大容量的水杯保證每天用水量,從而推薦水杯給用戶,如果平台做到有解釋的推薦,相信銷量肯定會大有提升。

可解釋人工智慧非常重要,很多人都在嘗試解決這一問題,不同的學術團體根據各自的特長在做相應的努力。比如最近剛過學者提出Information Bottleneck的理論,這實質上是資訊理論的學者,嘗試從資訊理論角度解決這個問題。我本人是從事知識庫和知識圖譜研究的,所以我的出發點是闡述從知識圖譜的角度看XAI有什麼機會。我的基本觀點是,知識圖譜為XAI帶來重大機遇。首先要了解知識圖譜是什麼?剛才也有學者提過,知識圖譜是一種語義網路,包含大量實體和概念及其之間的語義關係。相對於傳統的知識表示,知識圖譜具有海量規模、語義豐富、結構友好、質量精良等優點。知識圖譜的這些優點使其成為機器理解語言的重要的背景知識,使機器語言認知成為可能。當前,自然語言「理解」仍是個很遙遠的目標,現在只能談得上是處理。為什麼談不上理解,就是因為沒有背景知識。正是在知識圖譜的支撐下,機器才能理解搜索關鍵字,從而實現從搜索直接通往答案,我們才能做到大數據的精準分析,未來我們才可能實現機器智腦。

知識圖譜對於XAI的重要作用可以套用Edward Feigenbaum的一句話名言來闡述。圖靈獎獲得者,知識工程創始人Edward Feigenbaum有個觀念:「Knowledge is the power in AI system」。我認為Knowledge is thepower in XAI system。知識圖譜中所富含的實體、概念、屬性、關係等信息,使解釋成為可能。比如C羅是一個實體,運動員是他的一個概念,他曾經獲得「金球獎」這個獎項,這就是知識圖譜的基本構成。為什麼知識圖譜對可解釋AI有幫助?我們先來看一下人是怎麼解釋的。對於問題,「鯊魚為什麼那麼可怕」?人類給出的解釋可能是「鯊魚是食肉動物」,這實質是用概念在解釋。而「為什麼鳥兒會飛翔?」 人類的解釋則可能是「鳥兒有翅膀」,這實質上使用屬性在解釋。還有最近的熱門問題,「為什麼鹿晗和關曉彤刷屏了」,因為「關曉彤是鹿晗女朋友」,大家都知道是因為他們公開了戀愛關係,引得鹿晗粉絲一片嘩然。這裡的解釋實質上是用關係在解釋。我們或許會進一步追問,為什麼人類傾向於用概念、關係和屬性做解釋?這是因為任何解釋都是在認知基本框架下進行的。人類認識世界理解事物的過程,其實就是在用概念、屬性和關係去認知世界的過程。概念、屬性、關係是理解和認知的基石。

基於上面的認識,我們開始利用知識圖譜進行解釋的一些探索性研究工作。首先簡單介紹一下我們即將用到的兩類知識圖譜。

一是Probase和Probase+。Probase是一個大規模isA知識庫,是從大規模web語料中通過pattern抽取得到的。比如針對「Domestic animals such as cats and dogs」,通過such as模式,可以抽取出Cat is a domesticanimal以及Dog is a domesticanimal這樣的isA知識。Probase+是在Probase基礎之上,通過補全和糾錯,進而得到了一個更大規模的isA知識庫。

第二我們將用到的知識庫是DBpedia和CN-DBpedia。它們都是關於實體的結構化知識庫,比如<復旦大學,位於,上海市楊浦區>這樣的三元組事實。CN-DBpedia是DBpedia的中文版本,是由我所在的復旦大學知識工場實驗室研發並且維護的。後續我將介紹的解釋研究,主要就是基於這兩類知識庫。

先介紹如何利用Probase/Probase+讓機器理解和解釋概念。在互聯網上有很多新概念(Concept)、新品類(Category)。通常機器仍難以理解或解釋這些概念或者類別。比如對於Bachelor(單身漢)這個概念,我們人是怎麼解釋的呢?我們可能會用一組屬性來解釋,比如{未婚、男性}。

我們在這個任務中的基本目標就是為每個概念和類別自動產生這樣的屬性解釋。利用DBpedia這樣的知識庫,為每個概念或類別自動生成一組屬性加以解釋。最終我們為DBpedia中的6萬多個概念自動生成了它們的屬性解釋。

我們緊接著看看如何利用知識圖譜讓機器理解一組實體,並進而做出推薦。如果我跟你說百度和阿里,你自然會想到騰訊,因為它們俗稱BAT,都是中國的互聯網巨頭,都是IT大公司。假如我們先在亞馬遜上搜索iphone8,緊接著搜索三星S8,那麼亞馬遜應該給我推薦什麼呢?最好是推薦華為P10一類的手機。因為根據用戶的搜索,我們能夠推斷出用戶大致是在搜索高端智能手機,如果平台推薦一些中低端廉價手機,用戶可能就會不滿意。

這種推薦是建立在實體理解基礎上,我們希望用概念去解釋實體,從而準確把握用戶搜索意圖。通過顯式地給出概念,系統可以展示對於搜索實體的理解。比如說搜索阿里和騰訊,系統不僅推薦百度,還可以給出因為它們都是互聯網巨頭這樣的解釋。我們利用Probase知識庫提供背景知識,提出了一個基於相對熵的模型來產生概念解釋以及尋找最佳推薦實體。

接下來介紹如何利用知識庫讓機器解釋詞袋(Bag of words)。在進行文本處理,特別是主題模型時,我們經常碰到詞袋。一個主題往往表達為一組詞,我們經常困惑於不知道這組詞說明了什麼。在社交媒體上也大量存在各類詞袋,比如Flickr上圖片的tag,微博用戶的標籤等等都是詞袋。我們通過一個真實的例子來說明讓機器解釋詞袋的任務,比如一個圖片的標籤是「新郎」、「新娘」、「婚紗」、「慶典」這些詞,很顯然我們人對於這組標籤的理解是婚禮,我們希望機器也能自動為這組詞產生「婚禮」這樣的解釋。

這裡忽略方法細節。我們利用Probase等知識庫,提出了一個基於最小描述長度的模型,來為輸入詞袋產生一組易於理解的概念標籤,用以解釋這個詞袋。

最後一個任務是解釋維基百科中的鏈接實體。我們知道百科數據很重要,百科中每個詞條的解釋文本中會提及大量相關實體,這些實體通過超鏈接連接到相應詞條。我們的基本任務是能否解釋每個百科實體與其鏈接實體之間的關係。比如在有關SQL的詞條中,往往會提到E. F. Codd。事實上E.F.Codd是關係資料庫理論的奠基人,是SQL發明的關鍵人物。我們能否產生一個解釋來說明為何E. F. Codd出現在SQL的鏈接實體中?

我們將這個問題建模成可解釋的聚類問題,我們先將所有鏈接實體聚類,並自動生成一個概念標籤解釋每個類,從而解釋為何一個鏈接實體出現在某個特定實體的描述頁面中。

雖然我們在基於知識圖譜的可解釋人工智慧方面開展了初步研究,但仍然面臨巨大挑戰。總體來說,可解釋人工智慧的路還非常遙遠,具體要面臨哪些挑戰呢?我認為有這幾個挑戰:一是對於解釋和理解的認知仍然很匱乏。我們如果想把解釋和理解的能力賦予機器,我們首先要反思自身,理解人是怎麼解釋現象,人是如何理解世界的。但是,我們在哲學、心理學、認知科學等層面,對於人類的理解和解釋的認知十分有限,尤其是對於日常生活中的理解和解釋機制更為有限。當前哲學領域理解和解釋的研究主要還是聚焦在科學研究過程中的理解和解釋,而人類日常生活的理解和解釋對於人工智慧技術而言則具有更重要的參考意義,對於服務機器人融入人類的生活具有重要意義。但遺憾的是,我們對日常生活中的理解與解釋仍知之甚少。

第二個挑戰就是,大規模常識的獲取及其在XAI中的應用。常識就是大家都知道的知識,比如說人會走、魚會游等等。我們的解釋通常會用到一些常識,當問題涉及到常識的時候,這個問題的解釋就會變得非常困難。因為目前對機器而言,常識仍然十分缺乏。常識缺乏的根本原因在於我們很少會提及常識。正因為大家都知道常識,故而沒必要提及,以至於語料中也不會顯式提及常識。這樣一來,所有基於文本抽取的方法就會失效。常識獲取仍是當前知識庫構建的瓶頸問題。但是常識獲取也不是真的一點辦法也沒有,在大數據的某些角落裡,還是會提及常識的。總體而言,常識的獲取以及在XAI里怎麼用是有很大難度的。

XAI的第三個挑戰是數據驅動與知識引導深度融合的新型機器學習模型,或者說是如何將符號化知識有機融入基於數據的統計學習模型中。這不僅是XAI的核心問題,也是當前整個人工智慧研究的重大問題之一。要想對於機器學習,特別是深度學習的過程,進行顯式解釋,我們需要將符號化知識植入到數值化表示的神經網路中去,用符號化知識解釋習得深度神經網路的中間表示與最終結果。符號化知識與深度學習模型的有機融合是降低深度學習模型的樣本依賴,突破深度學習模型效果的天花板的關鍵所在。目前這一問題雖然受到了普遍關注,但仍然缺乏有效手段。

總結一下,在這次報告中我想表達的觀點包括:一、以深度學習為代表的大數據人工智慧獲得巨大進展。二、深度學習的不透明性、不可解釋性已經成為制約其發展的巨大障礙。三、理解與解釋是後深度學習時代AI的核心任務。四、知識圖譜為可解釋人工智慧提供全新機遇。五、「解釋」難以定義,常識獲取與應用,深度學習和符號主義的融合對XAI提出巨大挑戰。

最後把亞里士多德的一句名言「Knowing yourself is the beginning of all wisdom」送給大家。研究可解釋人工智慧的前提是梳理清晰人類自身的認知機制。認清我們自己,才能將人類的能力賦予機器。我相信重新審視人類自我將是在未來人工智慧研究過程中經常遇到的情形。

謝謝大家!


推薦閱讀:

微軟人工智慧又一里程碑:微軟中-英機器翻譯水平可「與人類媲美」
【願景學城】24小時AI熱點新聞的匯總(2018/02/28)
這些資源你肯定需要!超全的GAN PyTorch+Keras實現集合
Cousera deeplearning.ai筆記 — 超參數調試、批標準化、多分類、深度學習框架
手勢識別拍照攝影類競品分析

TAG:人工智慧 | 知識圖譜 |