我們眼中的「關係抽取」 | 每周話題精選 #02

01-27

「每周話題精選」是根據 PaperWeekly 最近一周的專題交流群討論沉澱下來的精華內容。目前已成立的專題交流群有：知識圖譜，量化，GAN，醫療AI，CV和NVIDIA。

一. 本期問題清單

什麼是關係抽取？
關係抽取是在實體識別之後還是同時呢？
關係抽取有哪些經典的方法和應用？
關係抽取有哪些可用的數據集？
在使用遠程抽取構造數據集時怎麼將三元組和句子相關聯？
是否可以考慮把關係抽取與其他任務進行結合？
端到端對複雜關係抽取有什麼好方法？

二. 話題討論精選

1. 什麼是關係抽取？

Q: 什麼是關係抽取？

A: 我理解的關係抽取是從文本中抽取出特定的關係，以及具有這種關係的實體。

A: 面向特定領域的關係抽取研究和面向開放互聯網文本的關係抽取研究。面向特定領域的關係抽取技術以基於標註語料的機器學習方法為主；面向開放互聯網文本的關係抽取則根據不同任務需要，採取基於啟發式規則的方法或者基於背景知識庫實例的機器學習方法。

A: 關係抽取是自動識別由一對概念和聯繫這對概念的關係構成的相關三元組。

A: 限定域的關係抽取問題一般都是當作分類問題來處理的。

A: 從自然語言文本中尋找並判定實體對之間存在的特定關係。

2. 關係抽取是在實體識別之後還是同時呢？

Q: 關係抽取是在實體識別之後還是同時呢？

A: 一般是分開，但是今年有些論文是一起。

A: 可以之後也可以同時。

A: 之前那篇：paper Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme，就是關係和實體的聯合抽取。

A: 最近有好幾篇都是一起建模。

A: 傳統的都是先識別實體再針單個句子進行抽取，今年那篇 ACL 是一起 tag 的。

A: 以前一般都是先識別實體，然後識別實體間的關係，但是這種做法存在錯誤累積的問題，所以有一些工作試圖通過聯合抽取的方法來提高準確率。

A: 以前是 pipeline 的，現在是並行。

A: with Knowledge Bases 也是兩者聯合抽取的。

A: 一起建模的話有個壞處是 NER 訓練不充分。

Q: 如果在一個訓練過的 NER 模型基礎上訓練一個聯合模型是不是會好些？

A: 聯合抽取會共享參數，可能對之後的關係抽取任務有幫助。

A: 我是覺得如果有訓練很好的 NER，分開搞更好。

A: 也不知道，開個腦洞，記得之前好像有工作那一個預訓練的 NER 模型作為輸入再訓練。

Q: 有人了解 Google rankbrain 的做法嗎？

A: Google 聲稱是無監督方法做的，我認為是種子迭代聯合抽取。

A: 應該不可能做到完全無監督吧。

3. 關係抽取有哪些經典的方法和應用？

Q: 關係抽取有哪些經典的方法和應用？

A: 總感覺句法樹在自然文本上不靠譜。

A: 目前遠程監督的方法比較佔優？

A: 看著用的人挺多的呀。

A: 只能通過這種方法造數據呀。

Q: 關係抽取用遠程監督現在是不是比較多呢？

A: 主導的方法是。

A: 遠程抽取得到的數據集 ground truth 相比於人工標註就有一些噪音問題，總覺得有哪裡怪怪的。

A: 嗯，這種先天性的雜訊，目前沒看到有相關文獻去解決這個事情，可能本身也不好解決吧？

Q: 除了遠程監督，還有別的方法么？

A: 除了遠程監督之外，我知道的有兩種，一種是 Bootstrapping，代表系統是 NELL，還有一種是 OPEN IE，代表系統是 TextRunner。

A: 知識圖譜中的 path 特徵也有被用來做關係抽取的。

A: bootstrapping 這種方法需要不停疊代，做起來麻煩，估計一般人不會去嘗試。

A: NELL 跑了好多年了吧？上次看過一眼 NELL 的論文，說是跑到一定程度也上不去了。

A: 嗯，現在好像已經沒什麼消息了。

A: 只有 boostraping，其他的沒思路。

A: 還有就是人標註。

A: 我覺得用一定的語言規則加 pattern 加好的評估方法可以解決部分問題。

A: 規則和 pattern 總是在實際中相當有效的，但是做到前面太難了。

4. 關係抽取有哪些可用的數據集？

Q: 關係抽取有哪些可用的數據集？

A: ACE04，05。

A: SemEval Task8。

A: 還有這個：Index of /riedel/ecml。

A: openIE 啊，不需要事先定義。

A: openIE 是以動詞作為關係描述的吧，那個抽出來質量參差不齊。

A: 召回率要低一些。

A: KV 融合了好幾個 KB。

5. 在使用遠程抽取構造數據集時怎麼將三元組和句子相關聯？

Q: 大家在使用遠程抽取構造數據集的時候怎麼將三元組和句子關聯起來的？

A: 直接查找。

A: https://arxiv.org/pdf/1609.07479.pdf

Q: 那同義詞怎麼定義的？自己定義？還是有什麼工具？比如特朗普和川普這就指的是一個人。

A: 同義詞庫需要事先定義，要麼就是上下文。

Q: 上下文具體怎麼實現？

A: 有上下文就是有語料。

A: Google 的 Knowledge Vault 論文：http://www.cs.ubc.ca/~murphyk/Papers/kv-kdd14.pdf

A: KV 還是在 Closed World Assumption 的基礎上做的，而且 KV 還利用了文本以外的特徵，如表格、網頁結構等。

Q: 有人關注過今年 TACL , MSR 那篇 cross-sentence relation extraction 嗎？還挺新的 task。

A: 跨句子的關係抽取，打破了以前的假設。

A: 這位作者 Chris Quirk 的後續工作是發在了 TACL 上： http://www.cs.jhu.edu/~npeng/papers/TACL_17_RelationExtraction.pdf

A: 嗯，是那兩篇，提出一個跨句子關係抽取的新 task，雖然方法基本上還是用的句依存關係。

6. 是否可以考慮把關係抽取與其他任務進行結合？

Q: 是否可以考慮把關係抽取與其他任務結合呢，像 machine reading, QA 之類的？

A: 開放 KG 和 QA 是趨勢，機器閱讀和開放 KG 同樣如此。

A: 關係抽取特別是因果關係和相關關係，在疾病風險預估方面工業界有應用。

A: 關係抽取技術在疾病預測中一般作為一種特徵來源，一般考慮多模態的多，結合圖像和生理診斷指標，我所了解的，然後在故障檢測中，關係抽取也是有應用的地方，特別是在類似故障搜索方面，但設備數據一般掌握在大廠手中，學術上論文很少。

A: 中醫辨證。

A: 中醫已經超出目前的模型的範圍，中醫問題也是現實世界面臨的問題。

Q: 在疾病或故障預測方面，有用過 Bayesian network 的童鞋么？

A: Bayesian network 在工業界有不少實際案例，比如發動機故障、飛機故障檢測方面。

Q: Bayesion network 的有向圖和 CNN 結合有童鞋試過么？

A: RNN 和貝葉斯可以。

7. 端到端對複雜關係抽取有什麼好方法？

Q: 端到端對複雜關係抽取有什麼好方法么？比如姚明的老婆的孩子的姥爺的年齡。

A: 長關係鏈。

A: 複雜關係的定義，我感覺是兩個實體或者是事件，在空間和事件的概率分布較遠。

A: 在對文本數據的複雜關係抽取中，很難只靠文本數據本身抽取，因為時間因素模糊了。

A: 我知道一個大廠用圖結構（deep tensor）結合 CNN 做了很多成功嘗試和應用，在製藥領域預測化合物活性方面成果不錯。

A: 比如在基於知識庫的問答過程中，想用端到端的方法，解決類似上面問題或者「最先登月的人的老婆叫什麼」。

A: 你那個問題，類似隱結構演算法。

三. 參與討論

請點擊 PaperWeekly 微信公眾號底部「交流群」菜單中的「專題子群」，獲取詳細加群方式。

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域，歡迎在公眾號後台點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

微信公眾號：PaperWeekly

新浪微博：@ PaperWeekly