EMNLP最佳論文公布:讓發明自己語言的AI說人話,讓演算法別以為男人都不做飯……
李林 編譯整理
量子位 報道 | 公眾號 QbitAI自然語言處理領域的學術會議EMNLP今天評出了四篇最佳論文:最佳長論文兩篇、最佳短論文和最佳資源論文各一篇。
EMNLP的全稱是Conference on Empirical Methods in Natural Language Processing,自然語言處理中的經驗方法會議,由國際語言學會(ACL)的SIGDAT小組主辦,今年9月7-11日將在丹麥哥本哈根舉行。
下面是本屆EMNLP評出的幾篇最佳XX論文。量子位決定先說最佳短論文,因為它比較好玩:
最佳短論文
Natural Language Does Not Emerge 『Naturally』 in Multi-Agent Dialog
https://arxiv.org/pdf/1706.08502.pdf
作者:Satwik Kottur, José M.F. Moura, Stefan Lee, Dhruv Batra(來自卡耐基梅隆大學、弗吉尼亞理工學院、喬治亞理工和Facebook AI研究院)
你可能注意到了這篇論文的最後一位作者:Facebook研究員Dhruv Batra。
前段時間被炒得沸沸揚揚的「AI發明了自己的語言」事件,最初起源於Facebook一項訓練人工智慧agent談判的研究,Batra正是參與者之一,也是後來忍無可忍出來懟媒體「騙流量、不負責任」的那位。
本論文的幾位作者雖然來自不同機構,但之前就在這個領域有合作,共同參與了一篇題為Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning的論文,這篇論文表明,兩個AI可以通過討論和分配顏色和形狀值來發明自己的通信方式。
今天獲獎的這篇,再次闡述了AI自己發明語言是非常正常的事情,但是,AI自己發明的通信方式通常都「不是人話」,論文還探索了能如何限制AI的通信規則,哄騙它們「說人話」。
幾位作者在論文中以Task & Talk推理遊戲為測試平台,來讓兩個agent溝通。
Task & Talk遊戲是這樣的:有一個虛擬的世界,其中的物體有4種可能的形狀、4種可能的顏色、以及4種可能的樣式。負責回答問題的A-BOT拿到一個物體,然後Q-BOT的任務是通過向A-BOT提問來搞清楚物體的一對屬性。
實驗產生了一系列「負面」的結果之後,最終得到了一個「正面」結果。這表明,大多數agent發明的語言(對它們自己來說)都是有效的,能達到獲取任務獎勵等目的,但它們顯然不能被人所理解。他們在論文中寫道,「實際上,我們發現自然語言並不會『自然地』出現。」
在這篇論文中,作者也討論了如何通過在兩個agent的溝通方式上增加限制條件,來「哄騙」它們,讓他們發明的語言越來越接近人類,能被人所理解。
最佳長論文
1
Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints
https://arxiv.org/pdf/1707.09457.pdf
作者:Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez、Kai-Wei Chang(來自弗吉尼亞大學和華盛頓大學)
這篇論文提出了一種方法,要通過語料庫級的限制來減輕性別偏見在機器學習模型訓練過程中的擴大。
在多標籤物體識別、視覺語義角色標註等圖像識別任務,都涉及到自然語言。在研究這類問題時,研究者們通常會使用結構化的預測模型和從網上搜集圖片數據,這些數據也帶來了一些社會偏見。
研究發現,這些任務的數據集就顯示出了巨大的性別偏見,而用這些數據集訓練出來的模型,會將已有的偏見放大。
比如說做飯這件事。雖然標題叫men also like shopping,但文章中最主要的例子是「cooking」。
在訓練集中,做飯這個行為涉及女性的概率比男性要高33%,而用這樣的數據集訓練出來的模型,會放大這種偏見,在測試時,男女之間的差異被擴大到了68%。
於是,論文作者提出了用語料庫級的限制來校準預測模型,並為集合推理(collective inference)設計了一種基於拉格朗日鬆弛的演算法。使用這種方法之後,模型的識別性能幾乎沒有損失,但在多標籤分類任務和視覺語義角色標註任務中表現出的偏見分別降低了47.5%和40.5%。
量子位想提議另一種途徑,從根本上解決這個問題:男同學們多做飯,多拍照,發到網上??
2
Depression and Self-Harm Risk Assessment in Online Forums
論文尚未公開
作者:Andrew Yates、Arman Cohan、Nazli Goharian
(來自馬克思普朗克信息研究所和喬治城大學)我們目前還沒有看到全文,從標題來看,這篇論文是要通過線上論壇中的內容,來評估用戶的抑鬱和自殘風險。
最佳資源論文
Crowdsourcing a Benchmark of Concept Maps
https://arxiv.org/pdf/1704.04452
作者:Tobias Falke、Iryna Gurevych(來自德國達姆施塔特工業大學)
概念地圖可以用來簡潔地展示重要信息,將大型文本集合結構化。作者研究了多文檔摘要的一種變體,能以概念地圖的形式生成簡介,但發現找不到用來評估任務效果的數據集。
於是,他們就創建了一個。
作者用眾包方法創建了一個新的概念地圖語料庫,總結了網上教育主題的異構文件集合,同時還發布了一組基準系統,還提出了一套測試方案,用來進一步研究摘要的這種變體。
—— 完 ——
歡迎大家關注我們的專欄:量子位 - 知乎專欄
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI
?? ? 追蹤AI技術和產品新動態
推薦閱讀:
※堅不可摧的天才 - 馬克·扎克伯格
※Facebook 的增長機會在哪裡?
※Alphabet和Facebook的 「熱氣球網路計劃」 遇阻:高空下的繁文縟節