中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

雷鋒網 AI 科技評論按:2018 全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網(公眾號:雷鋒網)、香港中文大學(深圳)承辦,得到了寶安區政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智慧領域最具實力的跨界交流合作平台。

CCF-GAIR 2018 延續前兩屆的「頂尖」陣容,提供 1 個主會場和 11 個專場(仿生機器人,機器人行業應用,計算機視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI 晶元,IoT,投資人)的豐富平台,意欲給三界參會者從產學研多個維度,呈現出更富前瞻性與落地性相結合的會議內容與現場體驗。

趙軍,中國科學院自動化研究所模式識別國家重點實驗室,研究員,博士生導師,中國科學院大學人工智慧學院崗位教授。研究領域為自然語言處理、知識圖譜、問答系統等。作為項目負責人承擔國家自然科學基金重點課題等多項國家級重要科研項目以及雲知聲、華為、螞蟻金服等企業應用項目。在 ACL、IJCAI、SIGIR、AAAI、COLING、EMNLP 等頂級國際會議和 TKDE 等重要學術期刊上發表論文 80 余篇。曾獲自然語言處理國際頂級學術會議 COLING 2014 最佳論文獎。兼任 ACM TALLIP 副主編,中國中文信息學會常務理事、語言與知識計算專委會副主任、計算語言學專委會副主任,《中文信息學報》編委等學術職位。在中國科學院大學主講《知識圖譜導論》等課程。

來到 CCF-GAIR 2018 大會第三日的自然語言處理專場,教授們為觀眾奉上了環環相扣的精彩演講:

哈爾濱工業大學秦兵教授:「給定一個情感,可以讓生成的文本帶有這種情感,或者偏向這種情感。」,清華大學孫茂松教授緊接著講解,「作詩將來要和知識圖譜結合」,來到知識圖譜領域,中科院趙軍教授正是國內知識圖譜和問答系統方面的知名專家,趙軍教授還曾指導學生獲得 2014 年 COLING 會議最佳論文獎。

以下是趙軍教授發表的題為「開放域事件抽取」的演講全文,雷鋒網 AI 科技評論在趙軍教授的幫助下,做了不改變原意的整理與編輯:

非常感謝劉挺老師和 CCF-GAIR 2018 大會的邀請。剛才劉老師也提到了,我本次報告與知識有關。自然語言處理是人工智慧的一個重要應用方向,上世紀五六十年代,人工智慧的主要研究是,搜索的演算法或者推理的演算法。但是,人們在這個方面研究了一段時間後,意識到有一個問題不可迴避,那就是知識。我們很多系統中沒有領域的知識或者專家的知識,在這種情況下,無法去做推理演算法。這時,知識就成為人工智慧一個非常重要的問題。

1977 年,Feigenbaum 提出,知識是人工智慧非常重要的方向。2012 年,Web2.0 已經面世,網路上有了維基百科、百度百科等寶貴的知識資源。再加上信息抽取等自然語言處理技術的進展,這使得以前依靠專家來建立知識庫的傳統方法發生了顯著的變化,知識庫的規模和類型也都發生了顯著的變化,知識工程再次成為人工智慧的一個熱點,它跟深度學習和情感一樣,都是新一代人工智慧的很有代表性的工作。

知識圖譜有以下幾種:

實體圖譜,是一種是我們常見的以實體為中心的圖譜。例如,圖譜中間的一塊上,每一個節點都是一個實體,例如 Barack Obama 和 Michelle Obama,它們之間通過夫妻這種關係聯繫起來,現在的大多數圖譜就是這樣的。

事件圖譜,事件的知識圖譜是應用中不可缺少的一類圖譜,其中的每一個節點是一個事件,事件之間通過事件的關係(比如時序關係、因果關係等)相關聯,這就叫做事件的圖譜。

實體圖譜和事件圖譜,對於我們做問答,以及其他應用來說都必不可少。無論是實體圖譜還是事件圖譜,我們不可能完全依靠人工去構建,我們需要關鍵技術的支撐,這個關鍵技術就是信息抽取的技術。

實體的識別是最基礎的,有了實體以後,做實體圖譜需要做關係抽取,比如(比爾蓋茨是微軟的 CEO),我們要轉成三元組的結構化方式,CEO(比爾蓋茨,微軟)。當然。還存在多元的關係,它們都可以轉成二元的關係,這樣存儲和應用的時候,效率更高。

事件的抽取與事件圖譜相關聯,舉個例子,土耳其的飛機失事事件,這樣一個事件的類別屬於恐怖事件,襲擊的目標是俄羅斯戰機,襲擊的工具是 F-16,還有地點和時間,這就是事件。我們要從一個文本當中找出這樣的事件信息並進行結構化,這就是事件的抽取。

有關事件的關係其實也有很多,目前,我們應用方面比較關注的是事件的同指關係,還有時序關係、因果關係、上下位關係等。

今天我講的是事件的抽取,也捎帶講一點關係的抽取。

剛才,我主要講解的是開放域的事件的抽取。我們先了解什麼是開放域,在談到開放域之前,來看看傳統的關鍵抽取是什麼樣子的。傳統的叫預定義的關係抽取。我們抽取的目標關係類別是定義好的,我們給定的語料的結構是比較單一的,這種就是預定義的關係抽取。

學界、產業界在這方面做得很多,國際上也有評測,一般都給定一些標註語料,這都是有監督的關鍵抽取的技術。ACE 是美國的一個評測,評測的就是這個表中列出的實體關係類別。這是 SemEval 的實體關係的類別,這是 TAC-KBP 的實體關係類別,都是預定好的。

預定義的關係抽取,有各種各樣的方法來做預定義的關係抽取。現在,大家所共同關注的還是深度學習的方法。2014 年 COLING 上,我們首次使用深度學習的方法做了基於卷積神經網路的預定義關係抽取。基於深度學習的關係抽取方法在性能方面,較傳統方法有明顯的提升。

那麼為什麼要研究開放域關係抽取呢?我們來看:

Freebase:4000 多萬實體,上萬個屬性關係,24 多億個事實三元組,這樣級別的關係抽取,如果還是依靠剛才的那種方法,依靠人工標註的訓練集,在這方面肯定行不通,這時我們就必須考慮一些自動的或者弱監督、半監督的方法,來做開放的關係抽取。

難點問題在於如何獲取訓練語料。有了語料還不行,我們還需要研究新的抽取方法。在這方面,國際上有兩個有代表性的開放域關係提取的研究方法,一個是基於句法的方法,一個是基於知識監督的方法。

基於句法的方法,是美國華盛頓大學圖靈實驗室做的一系列工作,例如,(華為,總部位於,深圳),語料庫中有各種表述方法,我們可以抽出(華為總部位於深圳,華為總部設置於深圳,華為將其總部建於深圳),都是相關的知識。我們需要通過句法分析器,對這樣的句子找出三元結構,抽取出來放在一起,這是我們所需要的知識。

基於句法的方法的核心是句法分析器。然而,很多找出來的句法三元組並不是我們需要的有實際含義的三元組,這是我們需要人工設計一些規則,把這些有實際含義的三元組過濾出來,這就是基於句法的關係抽取的主要思想。這種方法存在的問題是:這些實體關係三元組知識抽取出來放在了一起,它們到底代表什麼語義還不明確,它的語義並沒有和人類的知識庫掛接,所以這還不是一種徹底的理解。而且,同樣的關係有各種各樣的語言表示,沒有歸一化,所以,如何應用還存在很多問題。

基於知識監督的方法。2007 年 CIKM 的論文最早提出這樣的思想,在 Wikipedia 中可以分成兩個區域,一個區域是結構化部分,我們叫做 Infobox,另一個區域是自然語言表達的部分,這兩部分描述的信息有重疊,比如描述清華大學和建校時間的知識,在 Infobox 和自然語言裡面有重疊的描述,如果把這兩部分對應起來,就可以對應兩邊區域的知識,一邊是它的訓練集。這是一個非常簡單的思想。如果用 Infobox 的結構化信息在 wikipedia 條目的自然語言文本中進行回標,可以自動產生訓練語料。

Mintz 發展了這種思想,提出了遠距離監督方法或者說是知識監督方法。大家看這個例子,第一個例子是正例,剩下的都是反例(也就是噪音)。我們需要把裡面標註的例子中的噪音例子給過濾掉。噪音問題目前是利用知識監督方法建立訓練集的最大挑戰。大家在這方面做了很多研究,主要思想是:正例有規律的出現,反例是零零散散出現,藉助這樣的思想進行過濾。

這是我們做的開放關係抽取的研究工作。我們用 Freebase 作為結構化知識,在紐約時報的文本上進行回標。作為過濾噪音的方法,我們用了多示例學習。在傳統的方法中,假設回標的每個句子都表示這種關係,它的噪音就很多。在多學習示例當中,我們假定至少有一個句子表示了這種關係,目的就是要把最有可能的句子標註出來,這樣它的準確率就比剛才那一個包裡面的準確率高了,性能就會提高。

這件工作也是在深度學習框架下做的。因為做關係抽取,需要有兩個實體,可以把句子分成三段。我們做深度學習和向量化的時候,不是一個句子做向量,而是把句子分成三部分,三部分分布做深度卷積操作,三部分的向量再合起來,來做整個句子向量化表示,這樣可以保留句子的更多結構化信息,我們把這個模型叫分段卷積神經網路來自動學習特徵。

這是我們標註的知識庫和語料庫,Freebase 和紐約時報。我們如果這樣做的話,可以達到相對比較好的性能(大概在 70% 多的水平),雖然比較低,但已經比傳統方法高,因為這是在 Freebase 的很多關係的類別上做的,能做到這個程度,其實就可以看到希望。

後面講一下事件抽取。這是 ACE 的事件,可以定義的事件有這麼多種。

預定義的事件抽取,預定義的事件抽取也是用神經網路做的。開放的事件抽取比開放的關係抽取要困難得多,為什麼?

一個關係是由兩個實體、以及它們之間的關係構成的。而一個事件不一樣,比如一個婚姻事件,它有五個要素。我們可以把兩個實體作為錨點,在文本中標註。這個事件有五個要素,但不可能在一個句子中找全五個要素,因為,事件經常橫跨幾句、甚至一 個段落才能找到要素。還有一個更重要的特徵,中間這個是 Marriage,在 Freebase 裡面表示為 ID 號,在文本當中不可能找到對應的位置,所以這個最鮮明的特徵我們找不著,所以回標的過程中遇到了非常大的困難。換句話,事件裡面最有表徵意義的是那個觸發詞,但是知識庫中只是一個標號,所以觸發詞就沒有,這就很困難。

我們的方法,比如一類事件有 10 個要素,10 個要素不可能都出現,但是一個事件裡面會有一些核心要素,我們就從一堆要素當中找出核心要素,用核心要素到句子當中找到觸發詞,將觸發詞和前面的要素關聯到一起,再回標,就可以在文本當中找到更多數據,這就是我們的基本思想。在這件工作中,我們在 Freebase 上做了 21 類,ACE 只提供了 6000 個句子訓練集,用我們這樣的方法可以找到 42 萬的語料,再過濾掉一些噪音,可靠性非常高的有 7 萬多句,然後再訓練事件抽取模型,觸發詞識別正確率達到 89%,元素標註正確率可以達到 85%。

今年,我們 ACL-2018 的一件工作也是在 Freebase 上做的,我們在一個具體的金融領域做一些項目(不是在通用領域),能不能發揮更好的作用。在金融領域做金融事件的挖掘,做了四類,凍結、質押、回購、增減持。能不能用知識監督方法建立建立訓練語料把四類事件抽出來。我們主要的方法,利用金融知識庫,回標的文本是上市公司年報,這是回標的句子,後面是回標以後具體的深度學習的方法,時間限制不做具體講解。

從我們的實驗可以看出來,在一個上市公司年報相對比較規範的文本中,知識庫也比較詳細,我們可以比通用領域做得更好,基本上可以達到 90% 的水平,給企業做這樣的知識庫,他們再去做人工的編輯,做出來的知識資源還是非常有用的,這是我們的方法在金融領域的應用。

今天我大概講了這幾個事情:知識圖譜很重要,事件圖譜是知識圖譜中很重要的類型,為了建立事件圖譜,我們需要研究開放域關係抽取,開放域事件抽取等等,其實可以在這方面做出很多有意思的工作,也可以有很多的應用,是一種很有潛力的方法。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。


推薦閱讀:

TAG:ccf | 科技 | 中國科學院 |