A Network-based End-to-End Trainable Task-oriented Dialogue System

01-30

構建一個task-oriented的bot，比如訂票，技術支持服務等等，是一件非常難的事情，因為對於特定任務，訓練數據會非常非常有限。在學術界，bot領域現在最流行的解決方案之一是seq2seq，在一個非常龐大的open-domain數據集上進行訓練，得到一些效果不錯的模型，但難以應用到具體task中，因為這類模型無法做到與資料庫交互以及整合其他有用的信息，從而生成實用的response。還有一種非常流行的方案是reinforcement learning，上一篇分享的paperDeep Reinforcement Learning for Dialogue Generation將兩者有機地結合在了一起，增強學習可以使得response生成時考慮更長遠的影響。

本文將分享的這篇paper，針對task-oriented的bot問題，平衡了兩種流行方案的優缺點，提出了一套有參考價值的、具有實際意義的seq2seq解決方案。paper的題目是A Network-based End-to-End Trainable Task-oriented Dialogue System，本文於2016年5月20日發表於arxiv上，作者是來自劍橋大學Dialogue System Group的博士生Tsung-Hsien Wen，該組專門研究chatbot相關技術，發表過大量與之相關的paper，後續會更多地關注該組的工作。

上圖是本文方案的架構示意圖，分為五個部分。下面分別進行介紹：

1、Intent Network

這個部分可以理解為seq2seq的encoder部分，將用戶的輸入encode成一個vector z(t)。encoder部分分別用了lstm和cnn兩種模型對該輸入進行建模。這兩種句子表示的方法在之前的文章中都有介紹。

2、Belief Trackers

這個部分又被稱作是Dialogue State Tracking(DST)，是task-oriented bot的核心部件。本文的Belief Trackers具有以下的作用：

支持各種形式的自然語言被映射成一個有限slot-value對集合中的元素，用於在資料庫中進行query。
追蹤bot的state，避免去學習那些沒有信息量的數據。
使用了一種weight tying strategy，可以極大地減少訓練數據的需求。
易擴展新的組件。

這個組件的輸入時用戶的input，輸出是一個informable slot和requestable slot的概率分布，這裡的informable slot是指food，price range和area（以訂餐為例），用來約束資料庫中的查詢，requestable slot是指address，phone，postcode等一些可以被詢問的值。這裡會定義一個針對具體task的知識圖譜，來表示這些slot之間的關係，每個slot都會定義一個tracker，tracker的模型如上圖所示，包括一個CNN特徵提取模塊和一個Jordan型的RNN模塊，CNN不僅僅對當前的input進行處理，還對上一輪的user input進行處理，綜合起來作為RNN的輸入。

這個組件的意義在於獲取到預先定好的知識圖譜中每個slot的分布，就是說弄清楚用戶在這輪對話中的需求是哪個詞或者片語。

3、Database Operator

資料庫查詢的輸入來自於Belief Trackers的輸出，即各種slot的概率分布，取最大的那個作為DB的輸入，進行查詢，獲取到相應的值。

4、Policy Network

這個組件是像一個膠水，起到粘合其他上面三個組件的作用。輸入是上面三個組件的輸出，輸出是一個向量。

5、Generation Network

最後一個組件是生成模型，本質上是一個語言模型，輸入是Policy Network的輸出，輸出是生成的response，再經過一些處理之後可以返回給用戶了。這裡的處理主要是將response中的slot，比如s.food還原成真實的值。生成部分用簡單的LSTM-LM可以做，用Attention Model也可以做，效果會更好。

數據的準備這部分，利用了眾包進行收集，一共採用了680輪對話作為訓練數據，資料庫中保存了99個飯館，3個informable slots和7個requestable slots。

訓練分為兩個階段，第一階段是訓練belief trackers，得到模型之後，更新參數，對生成網路中的語言模型進行訓練，得到full model，batch size取1。

bot模型自動評價這塊是一個非常難的事情，本文選擇了BLEU score、entity matching rate和objective task success rate，本文模型均取得了不錯的結果。另外，通過人工評價對本文模型和rule-based進行了對比，結果看下圖：

最後paper給出了一種生成的句子向量的二維圖，如下圖：

幾乎同一類話都被聚集到了相似的位置上，驗證了模型的有效性。

開放域的bot只是根據query生成一句response，雖然質量可以做到很高，但實用價值不大。面向具體業務的閉域bot一直難以應用seq2seq的解決方案在於，無法將大量的專業信息建模到模型中來，包括：歷史信息，用戶身份信息，業務信息等等，本文打開了一扇窗，就是將具體的業務信息和歷史信息加到了模型中，並且通過將對話中的slot詞轉換為一些slot表示，就好比構建了很多的模板，降低了對訓練數據的需求，避免了seq2seq在應用時存在的問題。如果再考慮上Jiwei Li的那篇A Persona-Based Neural Conversation Model中對用戶信息的建模，bot的實用價值就會更大，用data來解決真正的業務問題就會更進一步。

一點思考，歡迎交流。