「撒幣」問答AI外掛能幫你贏取百萬么?我們用實驗說話

唐旭 屈鑫 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

「撒幣」答題大火。

主動承認自己「撒幣」甚至是「大撒幣」的金主迅速增加,幾個主要「撒幣」戰場的獎金總額增加,新的「撒幣」戰場還在不斷開闢。答對一套題,有可能迅速晉身百萬富翁行列!

通過緊張、苛刻、持續的「撒幣」大戰,越來越多的人開始享受到知識變現的快感。不僅如此,在這場近乎喧嘩的狂歡之中,人們還第一次體會到了團隊合作的寶貴,甚至——

復活了殘喘已久的親情。

這並不是不好。

但作為普利策口中「船頭的瞭望者」,量子位,或許應該刻意地同人群保持一點距離。

我們應該是冷靜的旁觀者。我們不能丟失自己所堅信的東西。像這種有可能用人工智慧來「耍流氓」的機會,一定要嘗試一下。

俗話說:君子性非異也,善假於物也。

畢竟早在2011年,由IBM開發的問答式人工智慧系統沃森就已經在智力問答節目《危機邊緣》(Jeopardy!)上擊敗過人類頂尖選手,贏取了百萬美元獎金。

7年過去了,AI已經發展得更厲害。一個普通人,能否在這些AI「外掛」的幫助下順利在「撒幣」答題中通關?對這一問題的解答,對共同富裕的實現可能存在重要意義。

一條科學致富的道路擺在眼前,走不走得通?

立刻開始實驗,用事實說話。

工具準備

工欲善其事,必先利其器。

對於一個普通人來說,有哪些AI裝備有可能助力「撒幣」答題?

虛擬助手、智能音箱、專用外掛。

最後我們準備的實驗對象是:

iPhone 7手機一台(裝有Siri、簡單搜索、汪仔答題助手)、渡鴉智能音箱Raven H、阿里巴巴智能音箱「天貓精靈」、小米智能音箱「小愛同學」各一台。

百度出品的簡單搜索,在5天前更新的iOS 1.12.1版本中聲稱對「語音搜索」進行了優化,「助你答題抽獎,先聲奪人」;

內置在搜狗搜索App中的汪仔答題助手則更過分,省去了語音輸入的步驟,針對西瓜視頻自動同步答題,頁面直接顯示答案。

我們準備的測試數據集是:西瓜視頻「百萬英雄」2018年1月10日19點場共12道題目。

(覺得樣本量不夠的,我喊一句看完再說你敢答應嗎)

一切就緒,開始!

方法一:直接法

量子位立刻嘗試了直接答題法。也就是讓這些AI設備,直接收聽「撒幣」答題主持人念的題目。

這個方法聽起來省心、省力。

不過,我們準備的這些AI外掛們,自然語言理解能力顯然還很欠缺,基本聽不懂甚至聽不清主持人念出的題目。對於選擇題這種模式,AI們更是無能為力。

此路不通!

方法二:升級法

只靠AI不行,還是得發揮人的主觀能動性。

這是我們總結的一套方法。

要點一:科學改題

答題時間,只有黃金10秒啊!10秒鐘一過黃花菜都涼了。朋友們,這種爭分奪秒的事情當然越!快!越!好!

所以首先,得把題目儘可能進行精簡概括,然後得到一個升級版的新題庫,以保證能最快獲得答案。

我們嘗試了很多遍,已經找到一些規律和方法。

這裡,我們把原題目和改造後的新題目開源共享如下:

#原題目新題目1三角形的內角和是120°,180°還是240°呢?三角形內角和2以下哪部作品不是魯迅的《孔乙己》、《紀念劉和珍君》,還是《家》呢?家的作者是誰(按照原題,除了汪仔沒有AI能聽懂,所以只能從我們的預設角度出發……)3我國唯一的壯族自治區是廣西、雲南還是貴州呢?中國的壯族自治區4我們常說「人有七竅」,「七竅」中不包括耳朵、鼻子還是額頭呢?送分題!七竅流血(原題沒人聽得懂。這題基本作廢。)5鯨在水中用身體的哪個部位呼吸,是腮、肺還是心呢?鯨魚用什麼呼吸6我們通常用什麼字母來表示攝氏度,是C、D還是F呢?攝氏度符號是什麼7最近熱播的電視劇《虎嘯龍吟》講的是哪一個時期的故事呢?是三國時期,唐朝還是明朝呢?電視劇虎嘯龍吟8「生的偉大,死的光榮」是毛主席對以下哪個人物的評價,是雷鋒、劉胡蘭還是邱少雲呢?生的偉大,死的光榮9在田徑運動男子110米跨欄中,運動員一共要跨國多少個欄?是9個、10個還是11個呢天哪!110米欄幾個欄架10以下哪首歌不是周杰倫的?《聽媽媽的話》、《聽奶奶的話》、《聽爸爸的話》周杰倫聽奶奶的話11從職責上看,美國的國務卿相當於我國的外交部長、國務院總理還是中央軍委主席呢?國務卿相當於中國的什麼12下列城市不在長江以南的是蘇州、揚州還是杭州呢?揚州在長江哪一邊

其中第2題、第4題和第10題為照顧AI的智力水平,做出了巨大的改動。

要點二:語速拿捏

改題之後,只能我們親自讀題給AI聽了。

這裡一定要要注意,語速不能太慢,也不能太快!

我們推薦以666字/分鐘的語速,清晰的念出題目。

要點三:凝神靜氣

有時候AI並不能給出直接答案,你得能快速在答案中找到可能正確的信息。

答題全程保持精神高度集中,充分調動每一個腦細胞。

實驗過程及數據記錄

這裡交待一下比較的方法。

對於每個AI外掛的測試,我們都在開始讀題的一刻開始計時,當智能音箱的回答中出現答案關鍵詞,或是未出現關鍵詞但回答結束時,計時結束;語音助手則在其給出結果的一刻停止計時。

讀題步驟由一位口齒清晰、流利的單身男青年完成。計時工具為iPhone 5s的系統自帶秒錶。

三位智能音箱代表用語音回答問題,兩位App代表在屏幕上返迴文字或圖片形式的搜索結果。

註:上述兩條不適用於汪仔語音助手。它的回答已經在1月10日晚7點到7點20分之間被如實截屏。答題時間定為1秒。

計時完成後,對智能音箱/語音助手給出的答案/結果進行記錄(考慮到「撒幣」直播對於速度的要求,語音助手只截一屏),並與正確答案進行比對,判定前者中給出的信息是否足夠推出正確答案。

此處為了儘可能避免因語音識別造成的誤差,每道AI答錯的題至少被重問了三遍。

實驗過程如下。括弧里分別是反應時間和「正誤」。

第1題

原題目:三角形的內角和是120°,180°還是240°呢?

新題目:三角形內角和

關鍵詞:180°

  • Raven H:(4.4s,√)答案是180°。
  • 天貓精靈:(5.8s,×)我竟然答不上來,太傷心了,我要用小拳拳捶你的胸口。
  • 小愛同學:(5.7s,√)三角形的內角和為180°,已知其中任意兩個角的度數,即可求出第四個角的度數。。。
  • 簡單搜索:(2.8s,√)

  • 汪仔答題助手:(1s,×)

  • Siri:(3.8s,×)我好像不明白。

第2題

原題目:以下哪部作品不是魯迅的,《孔乙己》、《紀念劉和珍君》,還是《家》呢?

新題目:家的作者是誰

(按照原題,除了汪仔沒有AI能聽懂,所以如果只能從我們的預設角度出發……)

關鍵詞:巴金

  • Raven H:(4.1s,√)《家》的作者是巴金。
  • 天貓精靈:(4.5s,√)《家》的作者是巴金。
  • 小愛同學:(5.0s,×)啊呀,小愛沒聽懂,請你再說一遍吧。
  • 簡單搜索:(3.2s,√)

  • 汪仔答題助手:(1s,√)

  • Siri:(4.5s,×)下面是「家」的聯繫信息。

第3題

原題目:我國唯一的壯族自治區是廣西、雲南還是貴州呢?

新題目:中國的壯族自治區

關鍵詞:廣西

  • Raven H:(4.9s,×)我還不能明白你的意思。
  • 天貓精靈:(5.2s,×)我自橫刀向天笑,答案在何,暫時不知道。
  • 小愛同學:(4.9s,×)你問住小愛了,請換個說法吧。
  • 簡單搜索:(3.1s,√)
  • 汪仔答題助手:(1s,√)

  • Siri:(6.4s,×)你想找什麼樣的商戶?

第4題

原題目:我們常說「人有七竅」,「七竅」中不包括耳朵、鼻子還是額頭呢?送分題!

新題目:七竅流血

(量子位也嘗試了「七竅是什麼意思」、「七竅有哪些」等問法,沒有AI聽得懂。這對AI來說根本不是送分題,而是送命題。)

關鍵詞:孔或口

  • Raven H:(4.5s,×)我還不能明白你的意思。
  • 天貓精靈:(13.8s,√)七竅流血所屬中國漢語成語,拼音為……意思是指人頭上的七個孔,即……往外流血。
  • 小愛同學:(4.7s,×)你問住小愛了,請換個說法吧。
  • 簡單搜索:(2.1s,√)

  • 汪仔答題助手:(1s,×)

  • Siri:(3.2s,√)好的,我找到了以下資料。(給出了百度搜索結果)

第5題

原題目:鯨在水中用身體的哪個部位呼吸,是腮、肺還是心呢?

新題目:鯨魚用什麼呼吸?

關鍵詞:肺

  • Raven H:(9.1s,√)來自百度知道,哺乳動物呼吸分為通氣和換氣,鯨魚通過肺換氣,通過頭頂上的鼻孔……
  • 天貓精靈:(4.6s,×)厲害了老哥,這個問題有些深奧哦,容我再思考一下。
  • 小愛同學:(6.1s,×)鯨魚1分鐘的心跳只有10次。
  • 簡單搜索:(3.1s,√)

  • 汪仔答題助手:(1s,√)

  • Siri:(4.4s,×)在你附近找不到匹配」鯨魚用什麼呼吸」的地方。

第6題

原題目:我們通常用什麼字母來表示攝氏度,是C、D還是F呢?

新題目:攝氏度符號是什麼?

關鍵詞:C

  • Raven H:(4.5s,×)攝氏度的符號是度。
  • 天貓精靈:(4.4s,×)我在腦子裡翻了一遍又一遍,還是沒找到這個問題的答案。
  • 小愛同學:(4.3s,×)你問住小愛了,請換個說法吧。
  • 簡單搜索:(2.8s,√)

  • 汪仔答題助手:想都沒想,直接跳過……
  • Siri:(3.3s,√)我找到以下與℃有關的網頁。

第7題

原題目:最近熱播的電視劇《虎嘯龍吟》講的是哪一個時期的故事呢?是三國時期,唐朝還是明朝呢?

新題目:電視劇虎嘯龍吟

關鍵詞:三國、諸葛亮、司馬懿等

  • Raven H:(7s,×)虎嘯龍吟是個成語,比喻……
  • 天貓精靈:(4.7s,×)抱歉,我還沒有找到虎嘯龍吟
  • 小愛同學:(5.2s,×)現在為你播放專輯電視劇虎嘯龍吟……
  • 簡單搜索:(2.4s,√)

  • 汪仔答題助手:(1s,×)

  • Siri:(3.1s,√)我找到與「電視劇虎嘯龍吟」的相關網頁。

第8題

原題目:「生的偉大,死的光榮」是毛主席對以下哪個人物的評價,是雷鋒、劉胡蘭還是邱少雲呢?

新題目:生的偉大,死的光榮

關鍵詞:劉胡蘭

  • Raven H:(4.8s,√)答案是劉胡蘭。
  • 天貓精靈:(4.7s,×)抱歉,我還沒有找到生的偉大死的光榮。
  • 小愛同學:(4.5s,×)哎呀,小愛沒聽懂,請換個說法吧。
  • 簡單搜索:(3.1s,√)

  • 汪仔答題助手:(1s,×)
  • Siri:(3.2s,√)我找到與「生的偉大,死的光榮」有關的網頁。

第9題

在田徑運動男子110米跨欄中,運動員一共要跨國多少個欄?是9個、10個還是11個呢?天哪!

新題目:110米欄幾個欄架

關鍵詞:10

  • Raven H:(8.2s,√)來自百度知道,應該是10個欄。
  • 天貓精靈:(4.9s,x)你就是我的棉花糖,我要帶著問題去飛翔,等下來我就給你答案哦。
  • 小愛同學:(4.9s,×)哎呀,小愛沒聽懂,請你再說一遍吧。
  • 簡單搜索:(3.4s,√)

  • 汪仔答題助手:(1s,×)

  • Siri:(4.1s,×)對不起我不知道如何回答。(問了十幾遍無論如何都將110米欄識別成110米蘭)

第10題

原題目:以下哪首歌不是周杰倫的?《聽媽媽的話》、《聽奶奶的話》、《聽爸爸的話》

新題目:周杰倫聽奶奶的話

(量子位冥思苦想,這種問「哪個不是」的選擇題的確是AI剋星,唯一的解決方案是根據選項拆開,問AI三個問題:「周杰倫聽媽媽的話?周杰倫聽奶奶的話?周杰倫聽媽媽的話?」我們選出其中之一來測試)

沒有關鍵詞,搜不出來就算勉強算它對了

  • Raven H:(5.3s,×)我還不太理解。
  • 天貓精靈:(4.8s,√)即將播放周杰倫的《聽媽媽的話》。
  • 小愛同學:(5.3s,√)好的。(播放《聽媽媽的話》)
  • 簡單搜索:(2.1s,√)

  • 汪仔答題助手:(1s,×)

  • Siri:(3.9s,×)抱歉,這目前超出了我的能力範圍。

可以搜不著,但是你嘗試一下幫幫忙啊喂……

第11題

原題目:從職責上看,美國的國務卿相當於我國的外交部長、國務院總理還是中央軍委主席呢?新題目:國務卿相當於中國的什麼

關鍵詞:外交

  • Raven H:(6.6s,√)來自百度知道,相當於我國外交部長,但還有其他許可權……
  • 天貓精靈:(6.5s,×)怕是我瘦小的身軀限制了我的想像力,我竟然答不上來。
  • 小愛同學:(5.7s,×)啊呀,小愛沒聽懂,請你再說一遍吧×10086
  • 簡單搜索:(3.2s,×)

  • 汪仔答題助手:(1s,√)

  • Siri:(4.3s,√)我找到與「國務卿相當於中國的什麼」有關的網頁。

第12題

原題目:下列城市不在長江以南的是蘇州、揚州還是杭州呢?

新題目:揚州在長江哪一邊

關鍵詞:北

  • Raven H:(16.8s,√)來自百度知道,江蘇省以長江為界限……主體在江北的是……揚州……
  • 天貓精靈:(5.1s,×)厲害了我的天,精靈甘拜下風,你問倒我了。
  • 小愛同學:(4.7s,×)你問住小愛了,請換個說法吧。
  • 簡單搜索:(3.2s,√)

  • 汪仔答題助手:(1s,×)

  • Siri:(4.2s,×)這是揚州市的地址。

初步結果

智慧與知識的碰撞。精彩攻防,令人智熄。

這裡我們引入一個「命中」的概念:就是說,如果某個AI給出的答案跟正確答案多多少少貼上點邊,就算一次「命中」,也就是在上一部分打了√的。

各位AI的答題結果和耗時,綠色表示命中

因此按這個標準,在這一眾智障之中,百度的簡單搜索以11次命中的成績脫穎而出,平均每題反應時間2.9秒;同屬百度系的渡鴉智能音箱Raven H則以7次命中數位居次席,平均每題反應時間6.7秒。真·外掛汪仔答題助手答對5題,但是速度碾壓各位AI同類。

如果去掉對題目改動巨大的3道題,在剩下的9題之中,簡單搜索命中8題,Raven H命中6題,汪仔命中4題。

剩下的就,不提了……

實驗過程可以用天昏地暗來形容。幾款著名AI在面對某些特定問題類型時集體懵比的景象令人印象深刻,皮皮蝦一般的中文理解能力讓一切存在的數據失去意義,讓無數百萬富翁的夢境成為泡影。

實驗結論

結果是不是驚人的好?!

2.9秒或者6.7秒,就有可能獲得正確答案。

似乎今晚!今晚!就能贏取百萬,走上人生巔峰!

Think Beautiful!

且慢,這個理論時間,還不是全部的時間。

除了搜狗的汪仔答題助手之外,整個答題的流程是這樣的:

看題 → 改題 →(喚醒)→ 念題 → 2.9秒或者6.7秒 → 確定答案 → 做出選擇

  • 「看題 → 改題 →(喚醒)→ 念題」這個過程平均需要4.7秒。
  • 「確定答案 → 做出選擇」這個過程平均需要2.4秒。

完美的情況下,最快也要10秒。

如果你情緒不夠穩定,妥妥的超過10秒。

所以,在場地、器材、測量手段等客觀條件存在巨大誤差的情況下,實驗依然證明,試圖以民用級別AI作為外掛來通關「撒幣「答題的道路,在當下的中國,存在理論上的可能性。

你手頭如果有合適的AI裝備,趕緊用起來!

特別說明,Siri就純屬娛樂,別再試了。

(此處假裝有人問):為什麼不放出門問問沖頂助手?第一,「沖頂助手」本身沒有問答功能,只是個具有刷題功能的題庫了;第二,至於出門問問的問答功能,大家可以自己下載出門問問的手機App去體會一下……不多說了。

OMT

還記得我們前面提醒過么,你要氣定神閑、高度集中。

還有,天下武功,唯快不破。

AI提速可能性太低,所以你的反應時間得不斷加快。記得多給智商充值。

祝今晚走上人生巔峰!

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態


推薦閱讀:

Amazon Echo 背後的故事
前沿 | 智能音箱成竊聽器,你在不在睡覺黑客都知道
語音入口大戰升級,Echo音箱還不是殺手鐧,等所有汽車都用上Alexa就不一樣了
百箱爭鳴:真火還是虛火?是否該迅速入局?看各路行家怎麼說 | 語音智能特稿

TAG:人工智能 | 智能音箱 | 答题赢钱 |