聊聊「事件抽取」 | 每周話題精選 #05

01-28

「每周話題精選」是根據 PaperWeekly 最近一周的專題交流群討論沉澱下來的精華內容。目前已成立的專題交流群有：知識圖譜，量化，GAN，醫療 AI，CV，Chatbot 和 NVIDIA。

1. 本期問題清單

事件抽取的定義/概念是什麼？哪些比賽/會議給出了定義？
有哪些常用的評測數據集和評測標準？
國內外有哪些研究團隊和學者，它們主要研究的目標是什麼？
事件抽取有哪些應用場景和實際的產品？
事件抽取的一般過程，有標註數據開展研究，如何擴展，沒有數據怎麼做？事件抽取有哪些經典的方法，效果如何？
事件抽取與其他信息抽取任務（關係抽取、NER 等）有什麼聯繫，難點在哪？
事件之間的關係如何表示，如何做事件之間的關係抽取，目前有哪些研究？
有哪些值得閱讀的論文？有哪些開源了代碼的工作？
最新的前沿進展有哪些？

2. 話題討論精選

(1) 事件抽取的定義/概念是什麼？哪些比賽/會議給出了定義？

A: 時間，地點，人物，故事情節。

A: ACE 05 中對事件進行了明確的定義。

A: 屬性信息（Attribute），包括：類型（Type）、子類（Subtype）、模態（Modality）、傾向性（Polairty）、普遍性（Genericity）和時態（Tense）。

Q: 不同任務對事件的定義不同吧，能具體解釋下這些欄位嗎？

A: 屬性是實體、數值和時間的集合。

A: 我認為關係抽取一般來說是針對兩個實體的，而事件抽取的話，不同事件類型會對應不同的元素元素（事件要素）。

A: 一般來說是的，需要提前定義好事件的類型以及每種類型包含的屬性。

A: ACE05 中給出了類似的 schema，此處給出 ace05 對事件抽取的定義：

Q: 能簡單介紹一些事件抽取的應用背景嗎？

A: 比如一個事件里的被殺人數就是個數值，我記得最開始是用於反恐情報收集的。

A: 之前看過有人寫事件是一種特殊的關係，不知道是否正確。

A: 新聞撰寫機器人，比如百度知識圖譜團隊研發的寫稿機器人，基於事件圖譜自動生成一些大事件文章。

Q: 事件是要分類型的吧？

A: 看描述好像也有實體那種感覺。

A: 事件類型要先定義出來。

A: 有些研究是針對微博，將事件分為 4 元組：命名實體，事件短句，日期，事件類型。

A: 覺得定義事件跟抽取語義是一樣的，此處放上一張分類ace05事件抽取分類圖：

Q: 事件抽取針對的是一段話還是一篇文章呢？

A: 針對一句話是 sentence-level 的，還有 document-level，cross-sentence level，cross-document level 的等等。

(2) 有哪些常用的評測數據集和評測標準？

A: ACE2005

(3) 國內外有哪些研究團隊和學者，它們主要研究的目標是什麼？

A: 國內好像蘇州大學周國棟團隊，哈工大劉挺，秦兵團隊。

A: 國外有韓家煒，繼桓團隊。

A: Heng 的相關文章推薦讀。

A: 國內企業有百度知識圖譜團隊。

A: 國內外相關研究團隊發表的論文：

(4) 事件抽取有哪些應用場景和實際的產品？

A: 股票，金融，QA，新聞趨勢跟蹤，輿情，事件型投資，併購。

A: 反恐，反詐騙，政策性投資。

A: 生物醫學有類似藥物不良反應的事件抽取。

A: 通過對新聞熱點事件的抽取，也許可以用來預測 IT 基礎設施的故障，這個案例 NTT 做過，通過大量新聞事件的分析抽取預測了大規模網路故障。

Q: 為什麼通過新聞可以預測網路故障呢？

A: 如果突然有個突發事件，網路上也許會引發大規模的群體關注，相關網路的伺服器也許突然大規模負載上升。

A: 百度的知識圖譜團隊在事件圖譜這塊開展了不少前沿性的工作，並已經落地在了一些產品上；他們的目標是打造一個覆蓋面最全時效性最快分析最全面精準的中文事件圖譜。目前的產品形態比如事件脈絡，明星事件追蹤，明星歷史熱點等產品：

(5) 事件抽取的一般過程，有標註數據開展研究，如何擴展，沒有數據怎麼做？

A: 種子迭代，規則，模板。機器學習也可以用，比如論元的檢測，就是構建一些特徵，然後分類。

A: 這個還是要做垂直領域，從規則和模板開始。

A: 一些門戶網站倒是可以通過訪問量（檢測波峰）的方法來看是不是發生了事件。

Q: 事件抽取一般有什麼方法呢？

A: 帶監督的深度卷積網路肯定是一個。

A: CNN 用的比較多。

A: 估計從規則到機器學習都有，看具體的場景和數據。

A: 經典方法就是：規則+模板，前沿方法：強化+模版（深度卷積）。

A: 基於模板的抽取方法、半監督學習的模板抽取方法、經典機器學習方法、latent model 等等。

(6) 深度學習在事件抽取上有哪些應用，與傳統方法比有什麼優勢/劣勢？

A: 性能好，不用人工構造特徵。

A: 觸發詞的識別和分類，CNN 模型要好。

(7) 事件抽取與其他信息抽取任務（關係抽取、NER 等）有什麼聯繫，難點在哪？

A: 得先 NER。

A: 時間是不是直接抽取就好了，其它屬性該怎麼辦呢？

A: 配模板的嘛，時間也是模板的一部分。

Q: 觸發詞一般是預定義好的，還是需要做檢測任務？

A: 一般是定義好的，也有檢測觸發詞的任務。

(8) 事件之間的關係如何表示，如何做事件之間的關係抽取，目前有哪些研究？

A: 我個人看法：事件也許應該是在時間軸上，有明確開始和結束的一段實體與實體產生關係的「運動」。

A: 外國一般都是只做二元關係或者時序上的關係。

A: 研究「事件」必須給他來個操作性定義。

A: Semeval 2015 task4 是有定義的，但是產出產出太少。

(9) 有哪些值得閱讀的論文？有哪些開源了代碼的工作？

A: 基於符號特徵的方法：

A: 基於表示學習的方法：

(10) 最新的前沿進展有哪些？

A: 我覺得事件之間的關係或網路會是將來的熱點。

A: 事件抽取必然會和監控視頻結合。

A: 和關係抽取在一起應用。檢測事件的關係，輿情監測。其實對話系統也能用。

A: 適合社交媒體，通過分析過往當事人發布的微信及 Facebook，可以做性格分析工作介紹、相親配對。

A: 延伸過去也可以做推薦系統，顧客銷售行為預測。

3. 相關資源

關於短句子事件短語抽取的論文：

ACE 數據：https://github.com/oferbr/BIU-RPI-Event-Extraction-Project/tree/master/ACE_EVENT/corpus/orig

用 event embedding 做股票預測：

爬蟲：該爬蟲爬取了 36 kr（科技資訊網站）的新聞快訊，以 json 的格式儲存，適合用來做信息提取的測試樣本或自動摘要的語料。

https://github.com/HughWen/wen_spiders

中文 NER 識別：作者希望大家可以貢獻自己的力量一起維護一個開源的中文 NER 項目。

https://github.com/zjy-ucas/ChineseNER

4. 參與討論

請添加群主微信：min279，備註「知識圖譜」申請入群。

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域，歡迎在公眾號後台點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

微信公眾號：PaperWeekly

新浪微博：@PaperWeekly