標籤:

語音識別出現過哪些有趣的「Bug」或失誤?

比如聽錯了什麼、或者理解錯了什麼?

本題已收錄至知乎圓桌:人工智慧 · 語言智能,更多「人工智慧」相關話題歡迎關注討論


語音識別跟人一樣會空耳的。比如 Jimi Hendrix 的這句歌詞:

Excuse me while I kiss the sky

放到語音識別器里,很可能出來就變成了這個樣子:

Excuse me while I kiss this guy

還有計算詞錯誤率時常舉的一個經典例子:「recognize speech」可能會被識別成「wreck a nice beach」。

當然,語音識別犯的錯誤不只是空耳。這裡有一個山東大哥跟車載語音助手對話失敗的視頻,體現了語音識別系統的各種失誤:

牆內版:山東大漢手機沒電了和車載智能安吉星語音對話:笑死我啦!

牆外版:https://www.youtube.com/watch?v=t26Oo-jRG_k

在視頻中,語音助手始終不能把大哥說的 11 位手機號碼完全識別正確。在大哥試圖糾正時,又把「糾正」識別成了「96」,再加上雙方都不知道應該在什麼時機打斷對方,結果花了 2 分鐘也沒能把這個電話撥打出去。


比如去年奧運的時候,某廠的語音助手把奧運首金識別成了奧運手巾,推了一大波廣告= =


微信語音轉文字

我說的是 爽個jb,哥剛下班

然後


20 世紀 70 年代,美國國防部(DARPA?)資助卡內基梅隆大學(CMU)設計了一個名為「HEARSAY」的程序,可以根據語音指令操作國際象棋。某次國防部的一位將軍視察該研究所,坐到棋盤前連著計算機的麥克風前,清了清嗓子,然後程序顯示:「Pawn to King 4。」


老師測試我們自己的識別系統,喊他自己的名字時蹭出了個"混蛋"。


以上


我要打電話給老公,結果打給了老闆......


推薦閱讀:

語音識別中區分性訓練(Discriminative Training)和最大似然估計(ML)的區別?
研一剛接觸語音識別,怎麼運用kaldi工具箱做一個baseline?
未來語音技術或者語音智能助手的發展方向是什麼?
語音識別技術中提取的聲音特徵的參數具體指什麼?

TAG:語音識別 |