如何看待SQuAD比賽中,阿里、MSRA機器閱讀理解準確率超越人類?

在斯坦福大學發起的 SQuAD(Stanford Question Answering Dataset)文本理解挑戰賽上,以阿里巴巴、 微軟亞洲研究院(下稱 MSRA)為代表的中國研究團隊在近日相繼刷新了 SQuAD 紀錄,機器閱讀能力的準確率首次超越人類。

阿里巴巴 iDST NLP 團隊於 1 月 5 日提交的 SLQA + 在 EM 值(Exact Match, 表示預測答案和真實答案完全匹配)上也獲得了 82.440 的優秀成績,F1 值(F1-score,評測模型的整體性能)則為 88.607。

MSRA 自然語言計算組於 2018 年 1 月 3 日提交的 R-NET 模型在 EM 值上獲得了 82.650 的成績,在 F1 值上的表現為 88.493 。

兩個團隊的 EM 值成績都超越了人類在該項目上的得分——82.304,這也標誌著,機器閱讀理解準確率超越人類這一看似困難重重的目標,在 2018 年已經成為現實。

SQuAD(Stanford Question Answering Dataset)是行業內公認的機器閱讀理解領域的頂級水平測試,被譽為機器閱讀理解領域的 ImageNet。它構建了一個包含十萬個問題的大規模機器閱讀理解數據集,選取超過 500 篇的維基百科文章。機器在閱讀數據集內的文章後,需要回答若干與文章內容相關的問題,並通過與標準答案的比對,得到精確匹配(Exact Match)和模糊匹配(F1-score)的結果。


首先還是要承認大公司的科研實力,模型的複雜度和學習能力都要比大部分其它模型要強,其背後追求的思路也更有深度和前瞻性。

但是現在大多數任務,尤其是 NLP 任務,其評價指標往往不能反映真實的「智能」水平。關於這點,也都出現在近期各種科研論文和大家的回答中。比如(https://aclweb.org/anthology/D16-1230,https://arxiv.org/pdf/1801.03622.pdf),還有一篇回答有點找不到了,大概是說為什麼 NLP 現在發展看起來比較緩慢,答主也是主要歸結為評價指標的不合理。

針對機器閱讀理解(Machine Comprehension),尤其是已經刷爆的 SQuAD 數據集,有一篇論文用簡單的方式證實了大部分現有模型都根本沒做到「理解」,而只是簡單的字元串、關鍵詞匹配。這篇論文就是來自 Stanford Percy Liang 組的 EMNLP 2017《Adversarial Examples for Evaluating Reading Comprehension Systems》。

作者藉助於對抗樣本的思路,在不影響原始答案的正確性的前提下,構造出了可以影響模型判斷的干擾樣本。思路雖然和 CV 中的對抗樣本差不多,但有幾大區別:

具體來說,這篇論文中,在閱讀理解的原文的基礎之上,通過一些 heuristic 的自動化方法,構造出了額外的一句話。這句話在淺層意思上,或者直白地說,看起來很關鍵句句法結構等等非常相似,但是其含義是完全不同的。同時,heuristic 和 ad-check 都保證了這個句子與原始正確答案並不衝突。作者把這樣的句子叫做 adversarial example,對抗樣本,並將其加入到閱讀理解的原文的末尾,使得文檔從 N 個句子,變成 N+1 個句子。舉例來說:

藍色句子就是構造出來的對抗樣本。把它加在文章後面,原始能做對的模型也會做錯。

用這樣的思路構造完對抗樣本後,作者檢測了當下比較主流的各種模型:

初步檢測後,各種模型的準確率基本都大幅下降。但是如果讓人來做,則發現人的準確度幾乎沒有下降:

論文還做了許多進一步的檢測,就不一一列舉了。概括來說,這樣初步的結果基本可以認定,現在的模型和人的「理解」還差很多。大部分模型,雖然運用了很複雜的 attention 結構,但依然停留在淺層的模式匹配(shallow pattern matching)層面吧。

至於怎麼賦予機器真正的「理解」能力,應該是現在大部分 NLPer 都在研究的。在機器閱讀理解上也有越來越多更豐富更有針對性的數據集,比如 RocStories 和 Story Cloze Test 雖然是二分類問題,但要解決這個二分類問題則需要各種「知識」(情感知識、事實知識等,可參考 EMNLP 2017 《Story Comprehension for Predicting What Happens Next》和《Reasoning with Heterogeneous Knowledge for Commonsense Machine Comprehension》。而比如 NewsQA 這個 dataset 則不僅有問題的分類,還有解決問題需要的「推理」能力的分類,如下:

相信 2018 年會有更多這方面的 exciting 的工作。


很多人已經說了,現有的模型不足以準確完整的評估認知能力。

話說,如果真的能設計出準確完整的可量化的模型來評估閱讀理解甚至認知的能力,整個問題就已經解決一大半了吧?

我現在是不覺得人類智能有什麼足夠特別的地方是無法用機器實現的。這個模型本身不能夠完整表達閱讀理解這種認知能力,不過至少算是一個局部的模型,是通往強人工智慧的路上的一步。接下來應該需要設計新的評估模型,然後找新的數據集,用舊的或者新的演算法去刷,慢慢AI的能力就越來越像人,甚至比人更強了。

其實即使是現在的程度,我覺得在輔助進行閱讀理解上應該也有很多可以應用的地方吧?


NLP的任務基本上分為兩類, 一種極為簡單,一種極其困難. 我想這個成績還是主要說明這個task可能是過於簡單了,只需要syntax就可以解決,類似於cnn/dailymail ?


手錶報時的準確率遠遠超過人類呢。


只能說在這個數據集上也許是這樣的,那麼真實情況你我都心知肚明的吧?

煉丹術啊煉丹術,你知道為啥嗎?


謝邀

2018年伊始,人工智慧取得重大突破!1月11日,由斯坦福大學發起的機器閱讀理解領域頂級賽事SQuAD刷新排名,令業界振奮的是人工智慧的閱讀能力歷史上首次超越人類。阿里巴巴憑藉82.440的精準率打破了世界紀錄,並且超越了人類82.304的成績。

SQuAD的負責人Pranav Rajpurkar難掩興奮之情。他在社交媒體上表示,2018年一個強勁的開始,第一個模型(阿里巴巴iDST團隊提交的SLQA +)在精準度匹配上超越人類表現!下一個挑戰:模糊匹配,人類仍然領先2.5分!

SQuAD比賽構建了一個大規模的機器閱讀理解數據集(包含10萬個問題),文章來源於500多篇維基百科文章。人工智慧在閱讀完數據集中的一篇短文之後,需要回答若干個基於文章內容的問題,然後與標準答案進行比對,得出精確匹配(Exact Match)和模糊匹配(F1-score)的結果。

SQuAD是行業內公認的機器閱讀理解頂級賽事,吸引了包括谷歌、卡內基·梅隆大學、斯坦福大學、微軟亞洲研究院、艾倫研究院、IBM、Facebook等知名企業研究機構和高校的深度參與。

此次技術的重大突破源於阿里巴巴研究團隊提出的「基於分層融合注意力機制」的深度神經網路模型。該模型能夠模擬人類在做閱讀理解問題時的一些行為,包括結合篇章內容審題,帶著問題反覆閱讀文章,避免閱讀中遺忘而進行相關標註等。

模型可以在捕捉問題和文章中特定區域關聯的同時,藉助分層策略,逐步集中注意力,使答案邊界清晰;另一方面,為避免過於關注細節,採用融合方式將全局信息加入注意力機制,進行適度糾正,確保關注點正確。

阿里巴巴自然語言處理首席科學家司羅表示,對於解決wiki類客觀知識問答,機器已經取得非常好的結果,我們將繼續向對通用內容的「能理解會思考」的終極目標邁進。今後,研發的重點在於把這項技術真正應用在廣大實際場景,讓機器智能普惠生活。

實事上,這項技術已經在阿里巴巴內部被廣泛使用。比如,每年雙11都會有大量的顧客對活動規則進行諮詢。阿里小蜜團隊通過使用司羅團隊的技術,讓機器直接對規則進行閱讀,為用戶提供規則解讀服務,是最自然的交互方式。

再比如,顧客還會針對單個商品詢問大量的基礎問題,而這些問題其實在商品詳情頁都是有答案的。現在通過機器閱讀理解技術,能夠讓機器對詳情頁中的商品描述文本進行更為智能地閱讀和回答,降低服務成本的同時提高購買轉化率。

由司羅領導的自然語言處理團隊支撐了阿里巴巴整個生態的技術需求。由他們研發的AliNLP自然語言技術平台每日調用1200億+次,Alitranx 翻譯系統提供20個語種在線服務日調用量超過7億+次。此前曾在2016年ACM CIKM 個性化電商搜索、2017年IJCNLP中文語法檢測CGED評測、2017年年美國標準計量局TAC評比英文實體分類等大賽中取得全球第一的成績。


微軟亞洲研究院副院長周明原話

媒體省略的約束條件恰恰是一些關鍵點、技術上需突破難點,媒體為了吸引讀者眼球不做嚴謹陳述。就像去年下圍棋的阿法狗那段時間被媒體用來宣揚「人工智慧威脅論」,可笑至極。對於大眾而言,科普文章往往沒有「......超越人類」類的文章更受歡迎,或許是人們喜歡保留對新事物的那絲神秘感、恐懼感。

首先我們應當肯定技術的發展進步,但同時不要被一些標題黨給誤導。


基本上,只要有測試集合來考核人工智慧的水平,在實際應用的時候都要打折扣。

機器總可以不斷的刷分升級。

君不見,現在一些圖像識別競賽的頭名竟然有保險公司。只有你想刷,總還是有的。

哪天直接到現實中,隨機比一下,才更有說服力。


推薦閱讀:

AI領域學術論文中的實驗是否應該標明不確定度?
自人機大戰落下帷幕後不少棋手在向alphago學習。看倡棋杯解說常提到狗狗流。什麼是狗狗流?
人工智慧可以學會冥想嗎?它能進入禪定嗎?
如果AI學會編程會發生什麼?
AlphaGo 阿爾法狗的程序什麼水平 中國能寫出來嗎?

TAG:人工智慧 | 阿里巴巴集團 | 微軟Microsoft | 機器學習 |