斯坦福公布多輪對話數據集,含3000多條對話
01-31
安妮 編譯自 斯坦福NLP小組官方博客
量子位出品 | 公眾號 QbitAI任務導向型對話側重於參與用戶發起的特定話題的對話。一般來說,如果研究者想做任務導向型對話,訓練模型數據集又不夠大且不夠多樣,那麼接下來的工作很有可能受阻。
為了幫助緩解這個問題,斯坦福自然語言處理小組公布了一組語料庫。這組數據集包含了3031條多輪對話數據,內容主要分布在日程安排、天氣信息檢索和興趣點導航。
這個對話集是通過知識庫建立的,確保系統對自然語言處理得靈活流利。數據集與人類的對話差不多是下面的畫風——
在這個數據集中,用戶有兩種可能的模式:駕駛員模式和助手模式。在駕駛員模式中,用戶會收到一份包含了明確信息的任務,裡面列出了他們試圖從助手中提取的某些信息,以及駕駛員和助手之間的歷史對話。駕駛員只負責提供一組對話,並根據之前的歷史對話消息和指定任務將對話進行下去。這些任務是通過3到5個可選值(比如時間、日期、地點等)隨機指定的。
△ 駕駛員模式示意圖在助手模式中,用戶能看到一份聊天記錄,剛好進行到司機提了個問題;同時,還會看到助手專屬的知識庫,包含回答司機問題所需要的信息,比如事件信息日曆、附近城市的預測信息和收集到的附近相關信息點。
△ 助手模式示意圖
數據集中的數據大致可以分為以下幾類:
每個領域slots的類型和數量統計如下:最後,附數據公開下載地址:
http://nlp.stanford.edu/projects/kvret/kvret_dataset_public.zipPaper地址:
[1705.05414] Key-Value Retrieval Networks for Task-Oriented Dialogue【完】
歡迎大家關注我們的專欄:量子位 - 知乎專欄
推薦閱讀: