【深究語音助手,鎚子TNT究竟有多雞肋】

【深究語音助手,鎚子TNT究竟有多雞肋】

如果語音識別不能做到100%正確率,不能有自己的思想,那麼他的存在意義就沒有想像中的那麼大。

語音助手最大的問題就是不能給人安全感,我不確定他能不能100%按照我的意願執行我的操作,哪怕他識別率100%,但是落實到操作上不能到100%完成,那這種不安全感就是阻止我用它的最大阻力。

面是正文部分

首先語音操作有四部分

  1. 接收語音
  2. 將接收到的語音轉化為文字
  3. 將文字轉換為可識別的操作
  4. 執行操作

接受語音

接受語音有一個條件,就是周圍環境必須安靜,如果環境聲嘈雜,你的語音系統根本識別不出來,哪怕不嘈雜,你說話的時候別人說一句,你的錄入過程就失敗了。這部分對於環境安靜程度要求過高,導致他的使用場景非常狹隘。

另外,一旦打開錄入開關就必須說下去,中間不能思考不能斷,比如我先說打開wifi,結果忘記了沒有wifi,所以我改口說別開WiFi了,打開流量就行,那麼你只能先關閉語音識別,然後重新說打開流量。所以你必須要在錄入語音之前思考清楚你要說什麼,完成的操作是什麼,這無形間增加了我們的操作內容與負擔。

轉化文字

第二部分將語音轉化為文字,這個是整個流程里最複雜的部分,而恰恰就是這部分嚴重影響用戶到底用不用語音,平時你和別人說話有那麼幾個音不對,詞錯了,對方根據邏輯可以推斷出你要說的大意,而對於語音助手你必須保證你的吐字清晰,字與字間隔必須明顯,口音與發音習慣都需要糾正。

於是這麼一看,語音助手目前的識別還停留在根據聲音波形來判斷文字,輔助加以智能糾錯功能,而不是人工學習的結果,假如你以一定聲音波形說話,識別錯了,你再以那個一模一樣的波形給語音助手識別,那還是錯的。

最最重要的就是錯誤了以後會顯得非常尷尬,比如你說hei,Siri,給媽媽打個電話,結果識別錯誤了,Siri告訴你對不起我不理解你的意思,這時候哪怕你周圍沒有人,你都覺得這個功能雞肋而且不好用。

也就是說,哪怕你語句結構清晰,只要發音不對,系統也不一定能完整的把你的語句轉換為文字。

轉化操作

這一部分是基於上面文字識別的,所以語音轉文字這個過程的準確率直接影響了這一部分的操作,舉個例子,假如你的本意是打開WiFi開關,結果語音識別成了打卡WiFi開關,這時候直接就斷了,接下來的操作無法進行,語音助手回復,抱歉我不理解您的意思。當然目前的識別技術這個錯誤應該是不會犯的,我只是舉個例子,但是我們的話語有無限的可能,所以你機器不可能保證每一次識別都是正確的。

假設語音識別完成了,而且非常準確,這時候又會出現另一個問題,這一串文字到底如何變成操作呢,這就需要強大的演算法判斷哪些是條件,哪些是執行操作,比如:用QQ給小劉發送中午來辦公室,那麼限制條件就是用QQ,目標對象是小劉,執行操作就是把中午來辦公室以文字消息發送過去。這句話很簡單所以一般的語音助手都能識別,但是假如我說:「下午三點我有一個飛往北京的飛機,記得提醒我及時出發。」我相信絕大多數語音助手都能把這句話一個字不差的變成文字,但是到了識別操作這部分他就很難從你的話語里找到什麼是重點,他就無法執行相應的操作。

執行操作

語音助手的操作本質上就是模仿我們去按屏幕,只不過省去了識別按下的是什麼區域,直接提交命令罷了,所以語音助手必須提前知道我要提交上去的操作是什麼,這就必須讓語音助手去視頻各個UI,他要知道這個UI我可以提交什麼操作,假如不去適配,就沒法執行命令。

假如你對著bixby說用QQ給xxx發個多少錢的紅包,她能完成,因為bixby對QQ適配了,假如你說bixby把王者榮耀的畫質調低點,他就無法進行操作了,也就是說,語音識別正確了,語句內容也非常簡單,但是助手依舊可能無法完成你的操作。

那麼我們看一個完整流程

  1. 周圍環境安靜
  2. 錄入前我思考清楚我要說什麼,操作什麼,不會出現改口
  3. 語音成功錄入,不出現錄入過程突然發出別的聲音
  4. 系統成功將語音轉化為文字
  5. 系統成功將文字的限定內容和操作分離開來
  6. 將要執行的操作應用已經適配
  7. 系統成功執行操作
  8. 操作內容符合我的預期

一旦上面8條有任意一條操作失誤,那麼你整個語音操作都要重來,如果一條失誤率比較低,但是這8條可是樣樣都會出現操作失誤的,這就導致語音最終很難轉化為我要的操作。


最後插一句個人觀點,目前的語音只不過是幫助我們去操作,本質上還是需要我們思考操作內容,僅僅只是執行操作不需要我們完成,那麼我用手完成,和說話用電腦去完成假如方便程度是一樣的,那我要語音幹什麼?語音還不一定正確,手去操作只要我不按錯,那就是100%按照我的意願操作的,但是智能家居不一樣,智能家居的操作就那麼幾個簡單口令,比如空調,常用的只有調高溫度和降低溫度,而燈就更簡單了,只有開和關,因此,適配簡單,口令也簡單,而且他是真正能方便我們生活的,因為我不需要找遙控器,也不需要起身就能完成操作,而電腦和手機這種涉及到大量複雜操作的環境下,語音助手就顯得很雞肋了。

目前民用市場上最好用的語音助手莫過於三星的Bixby了吧,他不光適配了系統,還針對很多應用進行了深度的定製,然而就剛更新那幾天新鮮了一下,後來我根本不願意用,為什麼?確實,很多操作語音比手動方便,比如我要看書的時候,就把鎖屏時間改到10分鐘,平時1分鐘,如果我自己操作我需要去找這個選項,而對著Bixby我只需要說把屏幕鎖定時間調整為10分鐘,他自己就能完成,但是很多小操作他是會經常失誤的,100次失誤1次還好說,如果是3次就失誤一次,想必每次語音助手失誤的時候你都覺得莫名尷尬。

語音助手想要完成全部操作,就必須擁有自己的思想,他能從複雜的環境音里找到我們的聲音,他能從我們的語句里挑選出來我們的意思,他能在不用適配的情況下完成對於APP的操作,哪怕我的意思不清楚,他也能推理出我要幹什麼,只有到這個地步,語音助手才能真正代替我們的操作,否則,沒有100%完成度的語音不能給我安全感,沒有安全感,我就不想用。

如果你覺得我的文章寫的還不錯,就請點一波關注吧,你的關注是對我最大的支持!!!

推薦閱讀:

TAG:語音助手 | 堅果TNT工作站 | 堅果TNT |