斯坦福公布多輪對話數據集，含3000多條對話

01-31

安妮編譯自斯坦福NLP小組官方博客

量子位出品 | 公眾號 QbitAI

任務導向型對話側重於參與用戶發起的特定話題的對話。一般來說，如果研究者想做任務導向型對話，訓練模型數據集又不夠大且不夠多樣，那麼接下來的工作很有可能受阻。

為了幫助緩解這個問題，斯坦福自然語言處理小組公布了一組語料庫。這組數據集包含了3031條多輪對話數據，內容主要分布在日程安排、天氣信息檢索和興趣點導航。

這個對話集是通過知識庫建立的，確保系統對自然語言處理得靈活流利。數據集與人類的對話差不多是下面的畫風——

在這個數據集中，用戶有兩種可能的模式：駕駛員模式和助手模式。

在駕駛員模式中，用戶會收到一份包含了明確信息的任務，裡面列出了他們試圖從助手中提取的某些信息，以及駕駛員和助手之間的歷史對話。駕駛員只負責提供一組對話，並根據之前的歷史對話消息和指定任務將對話進行下去。這些任務是通過3到5個可選值（比如時間、日期、地點等）隨機指定的。

△ 駕駛員模式示意圖

在助手模式中，用戶能看到一份聊天記錄，剛好進行到司機提了個問題；同時，還會看到助手專屬的知識庫，包含回答司機問題所需要的信息，比如事件信息日曆、附近城市的預測信息和收集到的附近相關信息點。

△ 助手模式示意圖

數據集中的數據大致可以分為以下幾類：

每個領域slots的類型和數量統計如下：

最後，附數據公開下載地址：

http://nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip

Paper地址：

[1705.05414] Key-Value Retrieval Networks for Task-Oriented Dialogue

【完】

歡迎大家關注我們的專欄：量子位 - 知乎專欄