QA專題閱讀小組 | 每周一起讀 #09

「每周一起讀」是由 PaperWeekly 發起的協同閱讀小組。我們每周精選一篇優質好文,利用在線協同工具進行精讀並發起討論,在碎片化時代堅持深度閱讀。

從本周起,PaperWeekly 將針對機器閱讀理解和傳統 QA 方向組建專題閱讀小組, 在組內發起「每周一起讀」活動。我們將每周選定一篇優質文章,並為大家提供可撰寫讀書筆記和在線協同討論的閱讀工具。

如果你也希望和我們一起培養良好的閱讀習慣,在積極活躍的討論氛圍中增長姿勢,就請留意下方的招募信息吧:)

上周閱讀筆記精選

1. Chatbot

Deep Reinforcement Learning for Dialogue Generation

chris:作者使用了三種回報方法衡量生成的對話合理性。第一種,使用 seq2seq 模型計算由生成的對話產生之前統計的一些無聊的回答的概率,概率越高,回報越少。這個防止聊天很快被終止。第二種,衡量生成的對話的信息量,通過計算該對話與前一個對話的相似性,越相似,回報越少。第三種,語法上的聯繫,這點非常重要,以保證生成的對話符合正常語法邏輯的。分別通過 seq2seq 模型計算輸入之前的對話內容生成該對話的概率和歷史數據計算之前對話產生當前對話的概率共同決定回報。最後作者將這三種回報函數按照一定的權值結合起來作為最終模型的回報函數。

xwzhong:paper 想通過引入 RL 機制來解決使用 seq2seq 做對話系統時遺留的難題,如通用性回復較多。在具體實現中,作者首先使用 seq2seq 方法 pre-train 一個 base 模型,最後使用 RL 機制,以兩個 agent 互相對話最終得到的 reward 來調整 base model 的參數。 comment: 1. 使用 RL 的過程很清晰,定義了 RL 機制涉及到的 action,state,policy,reward,可以當做 RL 的簡單應用學習; 2. 縱觀全文,訓練結果的好壞取決於 reward 公式的設計;在 paper 中,Ease of answer 設計有以偏概全的嫌疑(你不能直接說 many of these responses are likely to fall into similar regions in the vector space,需要更科學的解釋或證明); 3. 文章使用 RL 機制時,有種「為了實現對話特點而設計」,從個人角度觀點出發,更應該從「對話目的」角度來設計,而且,簡單的使用 RL 機制來實現對話存疑。

taoxuaner:作者的主要工作是用於解決多輪對話中生成無意對話,最終導致對話難以進行下去的問題。(記得百度的嚴睿在 2016 的 IJCAI 還是 SIGIR 上有這方面的工作,具體哪個忘了)。作者認為一個好的對話系統應該具有 forward-looking、interactive、informationtive 以及 coherent 四個方面的特性。為此,他們在 agent 對話生成中引入 reinforcement learning,他們依次構建了 Ease of answering 、information flow、semantic coherence 三個 reward function 分別衡量生成對話的合理性。

2. GAN

InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

yangampere:GAN 的問題是 imposing no restrictions on the manner in which the generator may use this noise,解決方法是用了分成兩部分的 Structured noise vector:(i) z, which is treated as source of incompressible noise; (ii) c, which we will call the latent code and will target the salient structured semantic features of the data distribution. 其中第二部分會有 trivial code,解決方法是用互信息。但互信息 is hard to maximize directly as it requires access to the posterior P (c|x),所以在第 5 節找到了 lower bound,公式 6 是最終的公式。在多種數據集上實驗,不同數據集上的 latent code 數量不同,證明了不同數量的 latent code 模型都很好。遺憾的是我沒有看到文章介紹如何針對不同數據集確定 latent code 的數量,也不知道故意 latent code 過量、不足會發生什麼。

yivan:Driving question of unsupervised learning: learning something about some underlying probability distribution p(x) based on random samples {X} from it. What is the "something" and what is the "value" to be extracted? IMHO, it is the representation of the data. It might be in a more coarse-grained space (in the case of clustering, every data point is represented by a discrete cluster centroid, though detailed information is lost), or, it can convey almost equivalent information about the original data (this is what VAE or GAN mean to do). I think the reasons we want to work with the representation of the data instead of the original one is two-fold: one reason is out of consideration for data compressing, abstracted version of data might be more useful than all details when dealing with e.g. nature images, sound, speech, and text; the other reason is, the "representation space" is usually much easier to deal with and we can do more things on that space such as sampling, inference and reasoning, measuring the semantic distance, etc. I think the unsupervised learning method represents the aspect of "abstraction" in human intelligence. Therefore, it may not be applicable in some tasks that aim to utilize all details in the data.

weiuniverse:標準的生成對抗網路中,會忽視隱變數 c 的作用,而在 info-GAN 中則需要強化隱變數 c 的作用,使得 c 能夠直接代表生成的變數的某一方面的屬性,所以需要讓隱變數與生成的變數 G(z,c) 擁有儘可能多的共同信息。因此引入了資訊理論的觀點,定量表達共有信息為 I(c;G(z,c)), 並且在生成器網路的訓練中通過調整使得這個量最大化。

3. 知識圖譜

Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions

huangchao:本文提出了一種加入 sentence-level attention 和 entity description 的 CNN 模型(APCNN)來解決限定域的關係抽取問題。該模型分為兩個模塊:PCNNs 模塊和 Sentence-level Attention 模塊,其中,PCNNs 模塊將句子的 word embedding 和 position embedding 連接作為輸入,通過卷積和 piecewise max-pooling 操作得到句子級別的特徵向量;Sentence-level Attention 模塊輸入一個 bag 中所有句子的句子級別特徵向量和 bag 對應的關係的向量(通過兩個實體的向量相減得到),通過匹配來學到不同句子的權重。本文的方法有兩個亮點:一是通過 sentence-level attention 可以充分利用能夠表示關係的信息,二是通過引入 entity description 背景知識來更好的對實體進行向量化表示。實驗採用了 held-out 評估和人工評估兩種方式,結果表明本文的方法相比一系列的 baseline 方法可以得到更高的準確率。

cuixiankun:關係提取這塊兒我是個門外漢,簡述下我對該模型理解和一點疑惑,該模型主要分三部分,APCNN(算是 sentence 的 embedding 層),Sentence-level Attention(帶有 attention 機制的分類層)和 Entity Description(描述語句的 embedding 層)。作者將關係提取作為分類處理,那麼應該會有幾個候選的關係類別對應了 softmax。將 bag 中的 sentences 通過 APCNN(embedding)處理後轉換成對應的 vector,並通過 attention 機制進行 softmax 分類,這裡訓練的目標是使分類的準確率最大化。後面附加的 Entity Description 模型我不太理解, 其中訓練使 Description vector 和 Entity vector 儘可能接近我沒疑問,但使這樣的訓練附加到前面分類模型的訓練中就會使效果更好嗎?感覺上面的分類模型和 Description 模型是相互獨立的,即使後面公式看到他們兩個進行訓練目標的整合,也感覺不到 Description 的訓練會對分類的準確率產生什麼影響啊。想知道作者是怎麼考慮將這兩個訓練目標進行相加整合的。

zhuanxu:此處 attention 的重點就是挑選出 bag 中哪些句子對於要識別的 relation 的權重大,而權重的計算演算法則是由上面的一個公式 3,4 給出,公式 3 是說每個句子是佔總的分量,而式子 4 則是一個全連接操作。

4. 多模態

Enhancing Video Summarization via Vision-Language Embedding

pandabro:從圖像和語言數據里學一個 joint embedding 自然可以更好地表示圖像的 semantics,因而 summarization 的結果會更加 intuitive。

Daeyeon7:這裡對於 visual features 和 vision-language embedding 的處理方式應該是方法中的重點部分,但就從文章的介紹中看來,除了計算 cosine 相似度,其他地方和一般 multimodel 沒有什麼區別。

sophieag:想問一下,之前的方法只由 visual feature 求與中心點的最近。這篇文章加入了 vison-language 模型,是不是只加入了圖文間關係?沒有在 visual only 的地方用圖文模型的 embedding 圖像特徵呢? 在 2.2 中不是寫的是 L2 距離算圖文相似么?

閱讀小組參與細則

1. 參與者需具備小組專題方向的研究背景,目前開放申請的閱讀小組有「QA」、「知識圖譜」、「多模態」、「GAN」和「Chatbot」。

2. 填寫報名表單提交個人基本信息,我們將在 48 小時內完成審核並和您取得聯繫。

關於PaperWeekly

PaperWeekly是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事AI領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入PaperWeekly的交流群里。

微信公眾號:PaperWeekly

新浪微博:@PaperWeekly


推薦閱讀:

有什麼神經網路結構圖的畫圖工具值得推薦嗎?
為什麼寫業務代碼是無趣的?
吳恩達 DeepLearning.ai 課程提煉筆記(2-3)改善深層神經網路 --- 超參數調試和Batch Norm

TAG:人工智能 | 自然语言处理 | 深度学习DeepLearning |