如何評小度機器人在《最強大腦》中的表現?

今天看了最強大腦第四季中,小度機器人的表現,發現人工智慧深度學習真的很厲害。

吳恩達團隊所研究的AI真的能比人類更聰明嗎?


黑是能力,暴露智商!

我沒有經過公司允許,截一部分內網公開介紹給各位:

小編:咱們百度大腦是怎麼會去參加《最強大腦》的pk賽的呢?

《最強大腦》的技術總指導劉嘉老師一直很關注人工智慧的進展,《最強大腦》節目組其實很早就設定了第四季有人機pk的比賽,所以他們2016年中就開始在中國公司里尋找合適的pk對象。7月份的時候,節目組專程到百度「送戰書」,問百度願不願意以技術來一場人機對戰。之前,他們給阿里、搜狗、小米等國內研發人工智慧的公司也都做了邀請,他們希望先從這些公司里選出人工智慧的最強者,再和人類的最強者較量一下。

小編:百度大腦在這次「選拔」測試表現怎麼樣?

其實在我們測試之前,節目組已經找了其他幾家公司測試。所以當我們的結果出來時,他們被嚇了一跳:因為百度大腦在給的8組數據中,做對了7組,這個正確率比所有競品要高很多。他們當天就發出邀請,希望我們參加《最強大腦》。

小編:那我們最終為什麼決定參加呢?

首先我們技術是過硬的,不怕被挑戰。我們人臉識別技術在過去兩年已經做到了世界第一,但今年我們想嘗試從技術第一走到市場第一。所以在提高演算法技術的同時,又用了大概200萬人次、近2億張照片去訓練我們的系統。到去年9月初的時候,我們內部測試的錯誤率已經從年初的8%降到了2.6%以下,這個成績相當不錯了,所以我們很有信心的;其次,參加比賽對我們是很有價值的,它不僅是對百度品牌有宣傳價值,更重要的是,這會促進我們人工智慧技術的落地,實現商用。再考慮到百度過去幾年在人工智慧上一直做研發,我們非常想看看現今的百度人工智慧技術跟最強的人類比,在哪個水平上,這本身有很大的科學意義。

小編:9月份我們正式接受了《最強大腦》的挑戰,您的心情如何?

我以前沒怎麼看過這個節目,確定要參賽後我趁著周末看了幾集,一邊看一遍感嘆,「天哪這些是人嗎!」對手真的很強,但我們願意被挑戰,沒有百分百確定的結果才有意思啊!

小編:節目組告訴了我們現場PK什麼嗎? 節目組只告訴我們第一場是跨年齡人臉識別、第二場是語音識別、第三場是PK暗光環境下的人臉識別,不知道比賽細節,不知道比賽題目,也不知道對手是誰。

小編:到了11月第一場正式pk的錄製現場,現場是個什麼情況?

根據節目組的安排,我們的現場pk是以百度大腦在後台計算,小度機器人在前台反饋結果。我和十來個工程師提前幾天就到了南京。百度大腦的程序員在賽前把系統調試好。因為節目只錄一遍,贏就贏了,輸就輸了,我們決定計算在當地進行,我們準備了兩套系統,一套作為backup。錄製現場的氣氛超級緊張。我們以前可能有過給幾十人或幾百人做展示的經歷,這次是給電視機前的千萬級別的觀眾展示我們的技術,結果還有一定的隨機性。緊張程度可想而知。

小編:我們看到第一場對陣的人類選手是王峰,第一題是主持人在台上唱歌跳舞的女團成員中隨機挑出一人,從兒時的照片找中出來。百度和人類都選對了,你們當時心情怎麼樣?

第一局的時候雙方發揮都比較穩定。我們在後台是看不到人類選手的選擇結果的。我們的演算法不僅預測結果,還給出結果的置信度。當時置信度很高,因此很相信我們的結果應該是對的。看到王峰也做對了,我們覺得我們遇到非常強大的對手了。

小編:到了第2局,就是嘉賓選中的是雙胞胎之一的這局,真的非常精彩,人類選手錯了,而我們對了。這一次後台發生了什麼?雙胞胎的出現給我們的系統帶來困擾了嗎?

賽前我們不知道這次比賽會有雙胞胎。但我們之前有考慮到這樣的可能性,因此有討論過,如果有相似度分數相差很小的情況,我們會考慮列印兩張結果。這是因為這樣細小的差別已經在誤差範圍之內,選其中的任意一個都有接近50%概率會是錯的。當時那個雙胞胎的情況,百度大腦計算出的兩個分數只相差萬分之一,我們看到那兩個成績時都愣住了,真的非常接近。最後我們把兩個選項交給了節目組。非常棒的是,Andrew處理得非常好,最後選了分數略高的那個。後來我們就聽到主持人公布說王峰選錯了,我們選對了,說實話鬆了一口氣,真的是特別開心!實際上,我們不僅發現這是一對雙胞胎,還找對了雙胞胎中正確的那個。

小編:下半場是兩分制,分值大是不是壓力更大一些?

是的,上半場是1分,下半場是2分,因為下半場難度要大很多。因此,只要下半場贏了,就贏下整個比賽,壓力可想而知。周五的節目播出的刪減版(由於節目時間限制) -- 在不改變最終結果的基礎上對節目進行刪減。實際上,當時的比賽是比了三局,規則三局兩勝。第一局是小度和王峰都錯了,第二局是小度和王峰都對了,第三局是王峰錯了,小度對了,是2:1 (不是播出時的1:1)。你能想像,第三局決定勝負,當是心都要跳出來的那種緊張!

小編:當時現場觀眾也像我們看電視時一樣吃驚嗎?

當時所有人都很震驚,聽著大家的感嘆聲我們也是很自豪。節目的嘉賓諾貝爾獎獲得者Dr. Edvard Moser還專門到後台對我們表示祝賀,說百度的技術太amazing了, 向我們學習了解這是這麼做到的。

---------------------------------------------------------------------------------------------------

01月13日:

小度機器人背後的百度大腦在語音技術領域有不小的成就--百度的深度語音系統Deep Speech2擁有語音識別、語音喚醒和個性化語音合成三大技術,去年還被《麻省理工科技評論》評為2016年十大突破技術。(這場人機比拼的是聲紋識別,即辨認出聲音的主人),謙虛的說,百度的語音識別技術在全世界也處於領先水平。

同時恭喜孫亦廷小朋友,能夠和計算機戰成平手,確實雖平猶勝。

由於樣本本來就短,還被人為切割掉一部分,對於計算機和人類而言,都是相當有難度的。

下面是01月13日收視率情況:

-------------------------------------------------------------------------------------------------

01月20日

最後一期的比賽也結束了,把百度官方微信公眾號的內容分享給各位。

http://mp.weixin.qq.com/s/P0pR7s9xKhRrYgPM05CEZw

科技的進步永遠都在證明人類的偉大!

安利:百度大腦


利益相關: AI領域在讀master 做的課題屬於文本挖掘領域 正在準備申請機器學習方向的PhD,上過Andrew的machine learning的神課 是我偶像
--
回答如下:
1.為什麼三場PK的主題定在人臉識別和語音識別領域,因為這兩個領域的baseline確實已經很高了,但是自然語言處理等方向目前學術界的準確率還不行,所以只能選這兩個領域和腦王決戰了。
2.關於小度是怎麼讀入圖片的,為什麼和選手的圖片不一樣。我個人的回答是:舞台上的小度只是一個道具。用於人臉識別的照片由節目組拍取,然後給百度後台的工程師輸入程序進行識別。輸入輸出的方式不是人臉識別的重點,所以與本場PK的主題無關,節目組之所以這樣做只是為了節目的效果。當然我個人傾向於相信百度團隊得到的結果是真實的,而不是因為作為贊助商就提前知道正確結果,因為我相信Andrew,這種級別的大牛,還有目前圖像識別和語音識別的精確度,確實沒有必要作弊,別人拿的世界第一可都是貨真價實的。
3.小度能做到搶答劉國梁的話,這個只是節目效果,應該是後台有人工回答然後進行了變聲處理。畢竟輸入輸出方式與真正的人臉識別的演算法無關,只是為了用戶友好而已,所以這樣做並沒有問題,不是作弊,不用抓著這一點吐槽。要不然你能想像讓程序員團隊坐在一邊 然後用相機拍出一張照片 輸入到計算機里 然後等一會兒計算機對每個候選人的預測值計算出來之後 程序員解釋說:根據我們的演算法,給這倆人打的分是最高的,所以我們的預測結果應該是誰誰誰。你作為一個觀眾更喜歡哪種呢?解釋一下我為什麼說這是後台人工,要做到搶答劉國梁的話,需要用到人臉識別,語音識別,問答系統(QA),以及自然語言處理和文本挖掘領域的成果:小度需要先對劉國梁面部進行掃描,後台經過人臉識別後確定這是劉國梁,然後在網上的文本里挖掘劉國梁有哪些昵稱,選擇"劉指導",至於要做到搶答,根據不完整的上下文語境和當時的場景 就能提前回答出:有信心。這在QA系統和文本挖掘領域還做不到。所以我推測是後台有個妹紙在回答,小度這端進行了聲音處理。參考當前siri的表現有多渣就可以了。(本來還想貼幾篇頂級會議的paper,但是今天答完另一題沒有時間了,就直接上結論了)
4.關於雙胞胎的梗,列印出兩張結果是合理的。後台的百度團隊看到輸出結果兩個這麼接近,再一看媽蛋這倆人明明長得完全一樣嘛,然後就都給現場的印表機列印出來,如果我是負責人,我也會選擇兩個結果都列印出來,這樣才能說明我的演算法NB啊;而且萬一正確答案是雙胞胎中的另一個,我輸出的兩個答案中至少對了一個呀,而且錯了也情有可原,誰讓你們是雙胞胎呢!要不然就是0 or 1的結果,一錯全錯。

--

過去好幾天 忘得差不多了 不想回答了。


感覺現在有很多人都對百度意見很大。百度提前知道規則不奇怪,不然怎麼訓練專門針對這類問題的模型,問題是具體問題百度是否知道(哪張照片),不過在百度已有AI技術上,有Andrew Ng的帶領,如果這些相片和對應的人之前出現在訓練數據里,感覺匹配度會更高一點吧。再者, Andrew作為ML領域頂尖科學家,很難想像他會拿自己的名聲擔這種cheating風險。

在youtube上還看到一些人詆毀百度不將技術用到正道上,還有詆毀Andrew為什麼不說中文說英文的。感覺目前的輿論趨勢是:1. 公司的出現和對技術的培養是為了無償對全人類做貢獻的; 2.只要有中國血統的不會說中文就是叛國;3. 一個企業,一點沒做好,什麼都做不好(評價人也是同一個思路)。


這次拋開我對度獸的惡意。就事論事回答。

人類的記憶一半是整體性的照片記憶。百度機器人估計用了剪枝,它如果用了背景屏蔽和只強調對比細節的話,我覺得人類的確不是它的對手。

希望有關人工智慧的研究,我們的企業也要努力再努力。如果這方面落後的話,我們會死無葬身之地的


我是來貼圖的,圖多慎入

===================================================================

1. 第一題第一個人雙方選手給出的答案。小度左下角顯示「題號:1」。答案中人物的圖片背景也不同,王峰中是純白背景,小度答案中上下黑邊+背景色。

2.第一題第二個人雙方選手給出的答案。小度左下角顯示「題號:2-A」,「題號:2-B」。答案中人物的圖片背景也不同,王峰中是純白背景,小度答案中上下黑邊+背景色。小度答案比第一個人中給出的答案多個右下角的「相似度」文本標籤。

3.第二題

王峰提交的選題界面,表明肉眼所見的界面應該是這樣子的。

小度的答案,圖片跟肉眼所見不同。表明小度不是使用攝像著採集顯示屏所顯示的圖片進行分析的,圖片是經過後台傳到它的識別系統的,小度機器人坐在那裡,並在它前面放個顯示屏,完全是為了表演效果。另一種說法是:可以忽悠不明觀眾。PS. 還是佩服螞可PK水哥那一場,前端圖片如何採集完全顯示給觀眾看。

參與者自己手持的相片。

我的結論:機器端數據如何輸入不明,有沒加工更不明,跟人眼所見場景PK真缺乏對比性。能否用於真實場景還有待實證。


百度IDL在設計系統的時候已經考慮了雙胞胎的情況,因此,對於識別出來非常相近,在某個閾值以下的圖片會一同輸出。從最後結果來看,兩張圖片的最後概率是相差萬分之一,符合系統設計。


看到這麼多人在黑百度,貌似很多人黑的很沒水平啊。

而且很多人都是無腦黑的,一點水平都沒有,看得出來知乎的平均水平都被拉低了很多。

我想問,有幾個人了解百度的人工智慧?有幾個人了解人工智慧識別的的邏輯?有幾個人知道人工智慧識別需要什麼資料,是否需要提前知道題目?拿出李威的一個微博發言就去黑百度?

從一個娛樂節目角度來講,有些必要的穿插是很正常的好吧,有什麼黑點?如果沒有這些穿插,小度在幾秒甚至毫秒之內就知道答案了,沒有任何花哨的掃描,沒有任何花哨的對比,還拿什麼吸引觀眾、吸引播放率?哪個娛樂節目沒有這些穿插?

另外,提前知道題目又如何?難道王峰不知道?難道主持人不知道?誰敢說沒綵排幾次就直接現場直播?也許細節不知道,也許不知道會選那個人去對比,但是我想說的是,這是個識別面孔的題目現場的參與者必然都知道。

從一個技術角度來講,有人黑小度識別畢業照時候,掃描畢業照的圖漏掉幾個面孔,這人是典型的沒仔細看視頻。節目中小度掃描畢業照時候,同一個畢業照掃的不止一次,而且有一個鏡頭掃描的結果不一樣。

另外,小度的專業就是人臉識別,主持人在開頭都介紹過了小度獲得過哪些世界級項目的第一名。項目就是人臉識別,專業的人臉識別人工智慧,你覺得設計這個人工智慧的科學團隊會想不到雙胞胎的可能性?

有萬分之一不相似的兩個人臉,小度識別出來是雙胞胎,從而列印出來兩張,這個邏輯應該沒毛病吧。

黑的人都從自己的角度去找反駁的例子,沒人找找正面例子?什麼時候知乎的人心裡都這麼黑暗了?

再另外,百度人工智慧就像是魏教授說的那樣,比的是概率,肯定有一個概率高的。而小度的團隊難道就設計的小度非得列印出來最高的一張才算符合人工智慧?就不能識別出來是雙胞胎列印兩張?

最終總結,項目有打廣告的嫌疑,節目有嘩眾取寵的地方。但是,人工智慧沒有黑點,百度的科技沒有黑點。黑點只是某些人。


第二輪的比賽很有意思,用途也很大,可以用來破解歷史之謎

讓我想起了前幾年在天涯看到的一個帖子《明治維新的黑幕——日本政府最想掩蓋的黑歷史》:明治維新的黑幕--日本政府最想掩蓋的黑歷史_煮酒論史_天涯論壇

大意就是明治維新有一個天大的陰謀被後來的日本政府掩蓋了,就是明治天皇並非孝明天皇的兒子睦仁,而是南朝後裔大室寅之佑。維新志士和少數幕府高官(勝海舟為代表)和公卿(岩倉具視為代表)勾結,謀殺了孝明天皇,然後狸貓換太子,除掉了睦仁換成了大室寅之佑。

這張現在還有爭議究竟是拍攝於1865年還是1868年的Guido

Verbeck照片裡面Guido

Verbeck下方標著假名的人就是據說的大室寅之佑,第一張圖是黑幕說的支持者提出的相片上人物的身份,並且認為該照片攝於1865年,戊辰戰爭前。

反對黑幕說的人也提出了一個名單,並且認為相片攝於1868年

聽起來有些聳人聽聞,但是如果將Guido

Verbeck的那張合照中傳說中的大室寅之佑和明治天皇的照片進行對比,尤其是應用現有的百度人像照片對比識別技術(也是使用了最近在圍棋上大出風頭deep
learning,據說false positive rate只有2.3%)。我們可能就可以破解這個千古之謎。

如果Guido Verbeck照片中的那位年輕人和中年明治天皇是一個人的概率大於70%,上面的那些天方夜譚就很可能是真的。另外還可以對比其他人,比如陸奧宗光,勝海舟等人中老年的照片和Guido Verbeck照片被懷疑是他們的人物。

如果相片中的年輕人真是明治,即使相片攝於1868年,那也一樣很奇怪,因為當年一月底明治天皇正式登基,作為太子或者天皇怎麼可能在合照中處於那麼不顯眼的位置?

那樣的話,伊藤博文等人的作為和當年的足利尊氏兄弟有什麼區別呢?都是弒君奪位啊。


向百度團隊的技術人員致敬,不過王峰也是夠牛的


看了些評論之後有幾點疑問:

1.百度是什麼時候知道題目的?

(1)李威的微博顯示百度早幾個月之前就知道題目了。

(2)節目一播完新智元的微信消息就發出來了,ppt肯定不是播完再做的了,那是錄製完到播出之間做的?還是錄製前就做好了?如果錄製前就好的,那麼裡面的人物照片怎麼解釋?

這兩點如果有一點成立,哪怕只有少量人臉識別經驗的人都知道怎麼train接近100%了。2.現場的機位是怎樣的?

這是觀眾看到的:

這是選手和機器人看到的:

背景怎麼沒人了?

3.集體照的人臉檢測結果似乎不太理想吧?這漏檢可是有點多了,那怎麼保證嘉賓選的人一定不在漏檢的人裡面,呵呵。因為一旦漏檢就不可能識別對了。

4.跨年齡識別在業內的情況有人已經貼過,問題是吃瓜群眾們都以為現在做的非常准了。如果國內從上到下都虛假繁榮以為跨年齡識別已經完美解決了,那國內的人工智慧真就一丁點希望都看不到了

這個節目以後還是會看的,當娛樂節目就好,「讓科學流行起來」這口號有點噁心人


看到有人質疑小度搶答.

蔣老師中文斷句和當年辯論場上差不多,應該是多年辯論訓練的結果.這種斷句和英文的斷句差別太大,如果使用國際通行演算法的話可能會出問題.不知道原因是否出在這裡.貼上我在其他地方的回復:

我提供一個可能性:

小度識別的時候,把前面一句話的一半切割了下來,變成了:

王峰/

對自己的答案有信心嗎?小度/

對自己的答案有信心嗎

後面的也被切割掉,百度誤以為前面半句是問自己的,識別了之後回復了"有信心"

相信這個是最好的一種情況,但是即使是這樣也說明百度語音識別中文部分有很大進步的空間

小度很萌,外形設計不知道有沒有參考大白.希望投入大規模生產


先把過程和結果的爭議性拋在一邊,就這個項目來說,難道僅僅是人臉圖像識別就可以稱之為人工智慧了嗎?


百度別做AI了,怎麼做都要被罵

不如學習你國最受尊重的互聯網公司做遊戲

你看你做個無人車,能賣出去幾輛?

每年過節出出699禮包骨灰盒抽獎,限量289皮膚,不知道有多少人買


技術上確實很厲害。

不過為了宣傳效果,對人類選手打突然襲擊是很不講道理的一件事。

另外,就百度這個公司來說,參考它以前的一系列所作所為,它掌握的技術越先進,我們就越應該擔心。

知識越多越反動,這個有罪推論用在百度上面是一點問題沒有。


作者的本意是不是問人工智慧領域?感覺下面一撥人以娛樂社會新聞強答。。

————

就吐槽一下知乎現在回答問題的成本太低了,都沒有乾貨


一群嚷嚷著列印兩張就是機器不可能預先想到的, 很難實現的同學

請問你們有幾個做過機器學習方面的項目? 這個很難想到? 很難實現?

寫程序的時候, 設置閾值差距在千分之一以內就同時輸出的機制 很複雜?

做相關的機器學習預測或分類任務 哪個不是需要看實際概率或者閾值....你們以為任務是預測一個 你從到尾模型的輸出就只設一個唄? 至少不也得看一下預測出來的前五名嗎?


看小度表現確實很厲害。

仔細思考了一下,這個事噴點如下:

1.這個項目完全是百度贊助提供的項目,而不是挑戰人類現有項目。小度團隊提前知道規則,而人類團隊明顯是什麼規則都不了解,才會出現倉惶迎戰的感覺。

2.王峰確實很厲害,如果在沒有做過相關訓練的情況下,答對三個中的兩個,對得上「最強大腦」的稱謂。但是終究王峰並不一定是這個項目最厲害的人。

3.用不恰當的例子來比喻,猶如我自己發明了一套規則和象棋類似的「獅棋」,然後做了一個這樣的機器,來挑戰全國象棋水平最高的人,意義並不是最大化。

4.小度帶自己的項目來挑戰幾個對規則都不知道的「最強大腦」有失公允,但是也增加了節目的未知性,比都按劇本進行好看。

5.人工智慧不應該包含記憶的比拼,比如應該沒有人能和機器比較記圓周率的能力。所以涉及記憶的部分不應該疊加到這個項目上。記憶應該不屬於人工智慧的範疇。

6.還有本期節目的釘子畫和樂高積木的項目,用機器應該比人表現更好,這些機器也不應該算人工智慧範疇。感覺釘子畫中的人工誤差,用電腦檢測不出來有點不靠譜,這個應該是用程序很容易判斷的吧,即使釘子可能有些訂歪一些, @叛逆者 來給判斷下唄。

7.關於語音部分的搶答和喜歡醒醒的回答存疑。


從前有一個老闆,靠作姦犯科坑蒙拐騙發家致富,專門幫人介紹江湖郎中,只要郎中你給我錢,我不管你能不能治病能不能治好優先把你介紹給來諮詢我的病人。然後有一天,老闆看到哇塞,人工智慧好神奇啊,能夠推動社會的進步啊,還有個節目叫最強大腦能夠幫我免費打廣告啊,那就能撈到更多的錢了啊,於是老闆撈到的錢投入到了人工智慧的研究之中,並且因為雄厚的資金一躍成為國內行業的頂尖。於是乎大家都在說,看啊,那個老闆真的有良心啊,不像別的企業家,吧人命當草芥,只會剝削壓榨,他推動了社會的進步啊,我們的未來在這種偉大高尚的人手中啊。這種這麼有研發創新精神的團隊你們怎麼 能罵人家呢?這是我們中國的阿爾法狗啊!

我只想說一句,狗就是狗,不改變了吃屎的毛病就永遠是條賴皮狗。我相信,你今天敢砸這麼多錢在人工智慧,你明天就一定會想法設法不擇手段拿回來,畢竟有人死了,推廣還在,賺錢的思路依舊沒變,然而我們的國民就是有一點,即健忘又虛榮


160110更新:

更換到吐槽模式, 最近這話題被黑, 導致百度終於有一次反轉的機會.
百度員工/粉/五毛開始激動了, 謾罵了, 盡情鄙視大眾智商了.

百度人工智慧的確厲害, 吳恩達的確厲害, 人工智慧識別比人強這些我都知道, 不是所有人都是腦殘黑.

但是, 要是說現場錄製前不知道有雙胞胎, 就是侮辱大眾的智商.

規則是之前制定好的, 簡單說, 這場列印兩張相片實際是違規的(更不用說電腦或許根本不知道這是雙胞胎還是同一個人的不同狀態). 如果說是之前考慮到雙胞胎情況, 那列印兩張照片就是邏輯bug !

所以, 如果真不是提前安排的, 從規則上說, 這道題百度也應該出局(就像單選題你勾了兩個答案)

唉, 難得想粉一次, 某不敢露臉用戶的不友好言論又讓我轉黑了.

------ 之前答案

概率明明不同,為什麼會列印出兩張?
不認為是代碼bug,怎麼看都是為了增強節目效果特地設置的。
——————

又思考了一下,慢慢的接受了這種設定。
因為最強大腦最主要的是突出人類,而人工智慧算是一個標杆。我們不應該將其真的看成是PK。

百度之前知道題是必然的,每一個比賽項都是必須提前編寫邏輯代碼的。小度做不到聽題就理解。所以完全不用妄自菲薄,隨便一個人比現在的人工智慧不知道強到哪去了。

讓我們好好享受最強大腦們的發(si)揮(bi)吧。

PS: 預測一下,最後一期一定會安排人類獲勝。


研究出來的人聰明,一個團隊。


推薦閱讀:

怎樣看待王昱珩最強大腦人機大賽滑鐵盧?
如何看待2016年5月27日MIUI更新放棄和谷歌輸入法的合作改用搜狗?
如何看待《最強大腦》第四期中「小度」的表現?
劉陝西是不是騙子?如果是騙子怎麼舉報他?他有沒有買下血友病吧?
大公司為什麼總是推出同質化的產品?

TAG:人工智慧 | 百度 | 演算法 | 最強大腦電視節目 |