強化學習在關係抽取、QA場景的應用
前言:本期將引介兩篇論文來介紹近期應用強化學習在遠距離關係抽取和在QA系統中如何更好理解用戶提出的問題。
本文作者:卞書青,2017級研究生,目前研究方向為自然語言處理,來自中國人民大學大數據管理與分析方法研究北京市重點實驗室
寫在前面:筆者也是剛開始接觸強化學習的相關研究內容,這裡推薦幾個介紹強化學習的相關的文章以供大家學習參考。
在開始強化學習前,你所需要了解的知識。 - 雲+社區 - 騰訊雲David Silver強化學習公開課中文講解及實踐
論文一:
《Ask the right questions:Active Question Reformulation with Reinforcement Learning》(ICLR,2018)
一、寫作動機
自動問答、智能客服系統目前可以說是隨處可見,但是目前這類的問答系統存在的一個問題是如果用戶在問一個問題的時候沒有考慮正確的語法結構,表意不是十分清晰的時候,問答系統往往是不能夠反饋正確的答案給用戶。所以Google團隊在這篇論文中提出了把問答作為一個強化學習任務,實現一個主動問答系統。通過訓練一個介於用戶和問答黑盒之間的Agent,讓它在獲取到用戶的提問之後,能夠重新構成問題的形式以獲得更好地回答。
二、自主問答模型——Active Question Answering Model
自主問答Active Question Answering (AQA)的模型中定義了用戶、智能體、環境。一個自主問答流程如下,用戶傳入一個原始的 問題,然後在智能體里利用Seq2Seq模型生成相關的類似問題形式集 ,然後將這些問題推入到環境中,然後在接下來的時刻,這些問題又將會生成相關的答案集 。在智能體中將根據不同問題和答案對應的 值融合問題和答案的embedding構建一個1維的卷積網路去最大化回報並預測最佳的answer返回給user。
論文二:
《Large Scaled Relation Extraction with Reinforcement Learning》(AAAI,2018)
一、寫作動機
遠程監督的關係實體抽取在大規模的非結構化文本近年來被經常用到。簡單來講,遠程監督的目標是基於已有的知識庫例如wiki中已經包含的實體對和關係,對文本中也包含該實體對的句子進行標註,但是在這種情況下可能會存在很多雖然包含兩個實體但是並不表達該類關係的句子,為此我們必須將其剔除。在之前的論文介紹我們也曾介紹過類似的工作。
卞書青:Neural Relation Extraction with Selective Attention over Instances閱讀筆記本文針對強化學習模型改進遠程監督抽取的方法。
二、方法簡述
本文在方法中還是運用之前多示例學習的方法,將一個實體對以及所有標記到這對實體對的句子記作一個Bag。
首先基於強化學習的方法開始將對一個Bag內的句子進行分類。這裡分類器對Bag內的每一個句子會進行分類。去預測這個句子實體對的關係。這裡流程類似於在強化學習過程中的一個episode(操作)。
當我們把bag內的每一個句子都分類出對應的結果之後,我們就可以對整個bag進行分類,其最終的結果是會歸屬到句子分類得分最高的那個句子類別上。
通過對Bag分類結果和gold relation的比較,如果發現是一致的情況,我們將會去給予一個積極的reward記作 。
因此當前state的有利度可以表示為
我們以上圖這個例子做一下說明,首先我們獨立地抽取出關係從這3個句子中,對每一個句子來講,第一個句子我們預測出它是founder的關係的概率是0.7 , 第二個句子是0.8 , 第三個句子預測出它沒有這樣的關係(NA)的概率是0.9 , 所以最後會去選擇它的第二個句子作為該bag的關係,最終gold relation與預測的一致,那麼最終的reward將會加1。
關於論文中optimization過程
可以參考Deep Reinforcement Learning: Pong from Pixels
使用強化學習的訓練方式,在最後的實驗證明其效果也不錯。
論文鏈接:
ASK THE RIGHT QUESTIONS: ACTIVE QUESTION REFORMULATION WITH REINFORCEMENT LEARNINGLarge Scaled Relation Extraction with Reinforcement Learning相關參考:
關係抽取在強化學習中的應用
推薦閱讀:
※機器學習中的數學基礎(簡介)
※NLP——自然語言處理(三)text2vec包
※周明:如果用一個詞形容NLP圈的2017,我選「想像」| 人物對話
※關於語音交互的不得不知的技術知識
※下半年寫作計劃
TAG:自然語言處理 |