「撒幣」問答AI外掛能幫你贏取百萬么?我們用實驗說話
唐旭 屈鑫 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
「撒幣」答題大火。
主動承認自己「撒幣」甚至是「大撒幣」的金主迅速增加,幾個主要「撒幣」戰場的獎金總額增加,新的「撒幣」戰場還在不斷開闢。答對一套題,有可能迅速晉身百萬富翁行列!
通過緊張、苛刻、持續的「撒幣」大戰,越來越多的人開始享受到知識變現的快感。不僅如此,在這場近乎喧嘩的狂歡之中,人們還第一次體會到了團隊合作的寶貴,甚至——
復活了殘喘已久的親情。
這並不是不好。
但作為普利策口中「船頭的瞭望者」,量子位,或許應該刻意地同人群保持一點距離。
我們應該是冷靜的旁觀者。我們不能丟失自己所堅信的東西。像這種有可能用人工智慧來「耍流氓」的機會,一定要嘗試一下。
俗話說:君子性非異也,善假於物也。
畢竟早在2011年,由IBM開發的問答式人工智慧系統沃森就已經在智力問答節目《危機邊緣》(Jeopardy!)上擊敗過人類頂尖選手,贏取了百萬美元獎金。
7年過去了,AI已經發展得更厲害。一個普通人,能否在這些AI「外掛」的幫助下順利在「撒幣」答題中通關?對這一問題的解答,對共同富裕的實現可能存在重要意義。
一條科學致富的道路擺在眼前,走不走得通?
立刻開始實驗,用事實說話。
工具準備
工欲善其事,必先利其器。
對於一個普通人來說,有哪些AI裝備有可能助力「撒幣」答題?
虛擬助手、智能音箱、專用外掛。
最後我們準備的實驗對象是:
iPhone 7手機一台(裝有Siri、簡單搜索、汪仔答題助手)、渡鴉智能音箱Raven H、阿里巴巴智能音箱「天貓精靈」、小米智能音箱「小愛同學」各一台。
百度出品的簡單搜索,在5天前更新的iOS 1.12.1版本中聲稱對「語音搜索」進行了優化,「助你答題抽獎,先聲奪人」;
內置在搜狗搜索App中的汪仔答題助手則更過分,省去了語音輸入的步驟,針對西瓜視頻自動同步答題,頁面直接顯示答案。
我們準備的測試數據集是:西瓜視頻「百萬英雄」2018年1月10日19點場共12道題目。
(覺得樣本量不夠的,我喊一句看完再說你敢答應嗎)
一切就緒,開始!
方法一:直接法
量子位立刻嘗試了直接答題法。也就是讓這些AI設備,直接收聽「撒幣」答題主持人念的題目。
這個方法聽起來省心、省力。
不過,我們準備的這些AI外掛們,自然語言理解能力顯然還很欠缺,基本聽不懂甚至聽不清主持人念出的題目。對於選擇題這種模式,AI們更是無能為力。
此路不通!
方法二:升級法
只靠AI不行,還是得發揮人的主觀能動性。
這是我們總結的一套方法。
要點一:科學改題
答題時間,只有黃金10秒啊!10秒鐘一過黃花菜都涼了。朋友們,這種爭分奪秒的事情當然越!快!越!好!
所以首先,得把題目儘可能進行精簡概括,然後得到一個升級版的新題庫,以保證能最快獲得答案。
我們嘗試了很多遍,已經找到一些規律和方法。
這裡,我們把原題目和改造後的新題目開源共享如下:
#原題目新題目1三角形的內角和是120°,180°還是240°呢?三角形內角和2以下哪部作品不是魯迅的《孔乙己》、《紀念劉和珍君》,還是《家》呢?家的作者是誰(按照原題,除了汪仔沒有AI能聽懂,所以只能從我們的預設角度出發……)3我國唯一的壯族自治區是廣西、雲南還是貴州呢?中國的壯族自治區4我們常說「人有七竅」,「七竅」中不包括耳朵、鼻子還是額頭呢?送分題!七竅流血(原題沒人聽得懂。這題基本作廢。)5鯨在水中用身體的哪個部位呼吸,是腮、肺還是心呢?鯨魚用什麼呼吸6我們通常用什麼字母來表示攝氏度,是C、D還是F呢?攝氏度符號是什麼7最近熱播的電視劇《虎嘯龍吟》講的是哪一個時期的故事呢?是三國時期,唐朝還是明朝呢?電視劇虎嘯龍吟8「生的偉大,死的光榮」是毛主席對以下哪個人物的評價,是雷鋒、劉胡蘭還是邱少雲呢?生的偉大,死的光榮9在田徑運動男子110米跨欄中,運動員一共要跨國多少個欄?是9個、10個還是11個呢天哪!110米欄幾個欄架10以下哪首歌不是周杰倫的?《聽媽媽的話》、《聽奶奶的話》、《聽爸爸的話》周杰倫聽奶奶的話11從職責上看,美國的國務卿相當於我國的外交部長、國務院總理還是中央軍委主席呢?國務卿相當於中國的什麼12下列城市不在長江以南的是蘇州、揚州還是杭州呢?揚州在長江哪一邊
其中第2題、第4題和第10題為照顧AI的智力水平,做出了巨大的改動。
要點二:語速拿捏
改題之後,只能我們親自讀題給AI聽了。
這裡一定要要注意,語速不能太慢,也不能太快!
我們推薦以666字/分鐘的語速,清晰的念出題目。
要點三:凝神靜氣
有時候AI並不能給出直接答案,你得能快速在答案中找到可能正確的信息。
答題全程保持精神高度集中,充分調動每一個腦細胞。
實驗過程及數據記錄
這裡交待一下比較的方法。
對於每個AI外掛的測試,我們都在開始讀題的一刻開始計時,當智能音箱的回答中出現答案關鍵詞,或是未出現關鍵詞但回答結束時,計時結束;語音助手則在其給出結果的一刻停止計時。
讀題步驟由一位口齒清晰、流利的單身男青年完成。計時工具為iPhone 5s的系統自帶秒錶。
三位智能音箱代表用語音回答問題,兩位App代表在屏幕上返迴文字或圖片形式的搜索結果。
註:上述兩條不適用於汪仔語音助手。它的回答已經在1月10日晚7點到7點20分之間被如實截屏。答題時間定為1秒。
計時完成後,對智能音箱/語音助手給出的答案/結果進行記錄(考慮到「撒幣」直播對於速度的要求,語音助手只截一屏),並與正確答案進行比對,判定前者中給出的信息是否足夠推出正確答案。
此處為了儘可能避免因語音識別造成的誤差,每道AI答錯的題至少被重問了三遍。
實驗過程如下。括弧里分別是反應時間和「正誤」。
第1題
原題目:三角形的內角和是120°,180°還是240°呢?
新題目:三角形內角和
關鍵詞:180°
- Raven H:(4.4s,√)答案是180°。
- 天貓精靈:(5.8s,×)我竟然答不上來,太傷心了,我要用小拳拳捶你的胸口。
- 小愛同學:(5.7s,√)三角形的內角和為180°,已知其中任意兩個角的度數,即可求出第四個角的度數。。。
- 簡單搜索:(2.8s,√)
- 汪仔答題助手:(1s,×)
- Siri:(3.8s,×)我好像不明白。
第2題
原題目:以下哪部作品不是魯迅的,《孔乙己》、《紀念劉和珍君》,還是《家》呢?
新題目:家的作者是誰
(按照原題,除了汪仔沒有AI能聽懂,所以如果只能從我們的預設角度出發……)
關鍵詞:巴金
- Raven H:(4.1s,√)《家》的作者是巴金。
- 天貓精靈:(4.5s,√)《家》的作者是巴金。
- 小愛同學:(5.0s,×)啊呀,小愛沒聽懂,請你再說一遍吧。
- 簡單搜索:(3.2s,√)
- 汪仔答題助手:(1s,√)
- Siri:(4.5s,×)下面是「家」的聯繫信息。
第3題
原題目:我國唯一的壯族自治區是廣西、雲南還是貴州呢?
新題目:中國的壯族自治區
關鍵詞:廣西
- Raven H:(4.9s,×)我還不能明白你的意思。
- 天貓精靈:(5.2s,×)我自橫刀向天笑,答案在何,暫時不知道。
- 小愛同學:(4.9s,×)你問住小愛了,請換個說法吧。
- 簡單搜索:(3.1s,√)
- 汪仔答題助手:(1s,√)
- Siri:(6.4s,×)你想找什麼樣的商戶?
第4題
原題目:我們常說「人有七竅」,「七竅」中不包括耳朵、鼻子還是額頭呢?送分題!
新題目:七竅流血
(量子位也嘗試了「七竅是什麼意思」、「七竅有哪些」等問法,沒有AI聽得懂。這對AI來說根本不是送分題,而是送命題。)
關鍵詞:孔或口
- Raven H:(4.5s,×)我還不能明白你的意思。
- 天貓精靈:(13.8s,√)七竅流血所屬中國漢語成語,拼音為……意思是指人頭上的七個孔,即……往外流血。
- 小愛同學:(4.7s,×)你問住小愛了,請換個說法吧。
- 簡單搜索:(2.1s,√)
- 汪仔答題助手:(1s,×)
- Siri:(3.2s,√)好的,我找到了以下資料。(給出了百度搜索結果)
第5題
原題目:鯨在水中用身體的哪個部位呼吸,是腮、肺還是心呢?
新題目:鯨魚用什麼呼吸?
關鍵詞:肺
- Raven H:(9.1s,√)來自百度知道,哺乳動物呼吸分為通氣和換氣,鯨魚通過肺換氣,通過頭頂上的鼻孔……
- 天貓精靈:(4.6s,×)厲害了老哥,這個問題有些深奧哦,容我再思考一下。
- 小愛同學:(6.1s,×)鯨魚1分鐘的心跳只有10次。
- 簡單搜索:(3.1s,√)
- 汪仔答題助手:(1s,√)
- Siri:(4.4s,×)在你附近找不到匹配」鯨魚用什麼呼吸」的地方。
第6題
原題目:我們通常用什麼字母來表示攝氏度,是C、D還是F呢?
新題目:攝氏度符號是什麼?
關鍵詞:C
- Raven H:(4.5s,×)攝氏度的符號是度。
- 天貓精靈:(4.4s,×)我在腦子裡翻了一遍又一遍,還是沒找到這個問題的答案。
- 小愛同學:(4.3s,×)你問住小愛了,請換個說法吧。
- 簡單搜索:(2.8s,√)
- 汪仔答題助手:想都沒想,直接跳過……
- Siri:(3.3s,√)我找到以下與℃有關的網頁。
第7題
原題目:最近熱播的電視劇《虎嘯龍吟》講的是哪一個時期的故事呢?是三國時期,唐朝還是明朝呢?
新題目:電視劇虎嘯龍吟
關鍵詞:三國、諸葛亮、司馬懿等
- Raven H:(7s,×)虎嘯龍吟是個成語,比喻……
- 天貓精靈:(4.7s,×)抱歉,我還沒有找到虎嘯龍吟
- 小愛同學:(5.2s,×)現在為你播放專輯電視劇虎嘯龍吟……
- 簡單搜索:(2.4s,√)
- 汪仔答題助手:(1s,×)
- Siri:(3.1s,√)我找到與「電視劇虎嘯龍吟」的相關網頁。
第8題
原題目:「生的偉大,死的光榮」是毛主席對以下哪個人物的評價,是雷鋒、劉胡蘭還是邱少雲呢?
新題目:生的偉大,死的光榮
關鍵詞:劉胡蘭
- Raven H:(4.8s,√)答案是劉胡蘭。
- 天貓精靈:(4.7s,×)抱歉,我還沒有找到生的偉大死的光榮。
- 小愛同學:(4.5s,×)哎呀,小愛沒聽懂,請換個說法吧。
- 簡單搜索:(3.1s,√)
- 汪仔答題助手:(1s,×)
- Siri:(3.2s,√)我找到與「生的偉大,死的光榮」有關的網頁。
第9題
在田徑運動男子110米跨欄中,運動員一共要跨國多少個欄?是9個、10個還是11個呢?天哪!
新題目:110米欄幾個欄架
關鍵詞:10
- Raven H:(8.2s,√)來自百度知道,應該是10個欄。
- 天貓精靈:(4.9s,x)你就是我的棉花糖,我要帶著問題去飛翔,等下來我就給你答案哦。
- 小愛同學:(4.9s,×)哎呀,小愛沒聽懂,請你再說一遍吧。
- 簡單搜索:(3.4s,√)
- 汪仔答題助手:(1s,×)
- Siri:(4.1s,×)對不起我不知道如何回答。(問了十幾遍無論如何都將110米欄識別成110米蘭)
第10題
原題目:以下哪首歌不是周杰倫的?《聽媽媽的話》、《聽奶奶的話》、《聽爸爸的話》
新題目:周杰倫聽奶奶的話
(量子位冥思苦想,這種問「哪個不是」的選擇題的確是AI剋星,唯一的解決方案是根據選項拆開,問AI三個問題:「周杰倫聽媽媽的話?周杰倫聽奶奶的話?周杰倫聽媽媽的話?」我們選出其中之一來測試)
沒有關鍵詞,搜不出來就算勉強算它對了
- Raven H:(5.3s,×)我還不太理解。
- 天貓精靈:(4.8s,√)即將播放周杰倫的《聽媽媽的話》。
- 小愛同學:(5.3s,√)好的。(播放《聽媽媽的話》)
- 簡單搜索:(2.1s,√)
- 汪仔答題助手:(1s,×)
- Siri:(3.9s,×)抱歉,這目前超出了我的能力範圍。
可以搜不著,但是你嘗試一下幫幫忙啊喂……
第11題
原題目:從職責上看,美國的國務卿相當於我國的外交部長、國務院總理還是中央軍委主席呢?新題目:國務卿相當於中國的什麼
關鍵詞:外交
- Raven H:(6.6s,√)來自百度知道,相當於我國外交部長,但還有其他許可權……
- 天貓精靈:(6.5s,×)怕是我瘦小的身軀限制了我的想像力,我竟然答不上來。
- 小愛同學:(5.7s,×)啊呀,小愛沒聽懂,請你再說一遍吧×10086
- 簡單搜索:(3.2s,×)
- 汪仔答題助手:(1s,√)
- Siri:(4.3s,√)我找到與「國務卿相當於中國的什麼」有關的網頁。
第12題
原題目:下列城市不在長江以南的是蘇州、揚州還是杭州呢?
新題目:揚州在長江哪一邊
關鍵詞:北
- Raven H:(16.8s,√)來自百度知道,江蘇省以長江為界限……主體在江北的是……揚州……
- 天貓精靈:(5.1s,×)厲害了我的天,精靈甘拜下風,你問倒我了。
- 小愛同學:(4.7s,×)你問住小愛了,請換個說法吧。
- 簡單搜索:(3.2s,√)
- 汪仔答題助手:(1s,×)
- Siri:(4.2s,×)這是揚州市的地址。
初步結果
智慧與知識的碰撞。精彩攻防,令人智熄。
這裡我們引入一個「命中」的概念:就是說,如果某個AI給出的答案跟正確答案多多少少貼上點邊,就算一次「命中」,也就是在上一部分打了√的。
△ 各位AI的答題結果和耗時,綠色表示命中
因此按這個標準,在這一眾智障之中,百度的簡單搜索以11次命中的成績脫穎而出,平均每題反應時間2.9秒;同屬百度系的渡鴉智能音箱Raven H則以7次命中數位居次席,平均每題反應時間6.7秒。真·外掛汪仔答題助手答對5題,但是速度碾壓各位AI同類。
如果去掉對題目改動巨大的3道題,在剩下的9題之中,簡單搜索命中8題,Raven H命中6題,汪仔命中4題。
剩下的就,不提了……
實驗過程可以用天昏地暗來形容。幾款著名AI在面對某些特定問題類型時集體懵比的景象令人印象深刻,皮皮蝦一般的中文理解能力讓一切存在的數據失去意義,讓無數百萬富翁的夢境成為泡影。
實驗結論
結果是不是驚人的好?!
2.9秒或者6.7秒,就有可能獲得正確答案。
似乎今晚!今晚!就能贏取百萬,走上人生巔峰!
Think Beautiful!
且慢,這個理論時間,還不是全部的時間。
除了搜狗的汪仔答題助手之外,整個答題的流程是這樣的:
看題 → 改題 →(喚醒)→ 念題 → 2.9秒或者6.7秒 → 確定答案 → 做出選擇
- 「看題 → 改題 →(喚醒)→ 念題」這個過程平均需要4.7秒。
- 「確定答案 → 做出選擇」這個過程平均需要2.4秒。
完美的情況下,最快也要10秒。
如果你情緒不夠穩定,妥妥的超過10秒。
所以,在場地、器材、測量手段等客觀條件存在巨大誤差的情況下,實驗依然證明,試圖以民用級別AI作為外掛來通關「撒幣「答題的道路,在當下的中國,存在理論上的可能性。
你手頭如果有合適的AI裝備,趕緊用起來!
特別說明,Siri就純屬娛樂,別再試了。
(此處假裝有人問):為什麼不放出門問問沖頂助手?第一,「沖頂助手」本身沒有問答功能,只是個具有刷題功能的題庫了;第二,至於出門問問的問答功能,大家可以自己下載出門問問的手機App去體會一下……不多說了。
OMT
還記得我們前面提醒過么,你要氣定神閑、高度集中。
還有,天下武功,唯快不破。
AI提速可能性太低,所以你的反應時間得不斷加快。記得多給智商充值。
祝今晚走上人生巔峰!
— 完 —
歡迎大家關注我們的專欄:量子位 - 知乎專欄
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI · 頭條號簽約作者
?? ? 追蹤AI技術和產品新動態
推薦閱讀:
※Amazon Echo 背後的故事
※前沿 | 智能音箱成竊聽器,你在不在睡覺黑客都知道
※語音入口大戰升級,Echo音箱還不是殺手鐧,等所有汽車都用上Alexa就不一樣了
※百箱爭鳴:真火還是虛火?是否該迅速入局?看各路行家怎麼說 | 語音智能特稿