【深究語音助手，鎚子TNT究竟有多雞肋】

06-05

如果語音識別不能做到100%正確率，不能有自己的思想，那麼他的存在意義就沒有想像中的那麼大。

語音助手最大的問題就是不能給人安全感，我不確定他能不能100%按照我的意願執行我的操作，哪怕他識別率100%，但是落實到操作上不能到100%完成，那這種不安全感就是阻止我用它的最大阻力。

面是正文部分

首先語音操作有四部分

接收語音
將接收到的語音轉化為文字
將文字轉換為可識別的操作
執行操作

接受語音

接受語音有一個條件，就是周圍環境必須安靜，如果環境聲嘈雜，你的語音系統根本識別不出來，哪怕不嘈雜，你說話的時候別人說一句，你的錄入過程就失敗了。這部分對於環境安靜程度要求過高，導致他的使用場景非常狹隘。

另外，一旦打開錄入開關就必須說下去，中間不能思考不能斷，比如我先說打開wifi，結果忘記了沒有wifi，所以我改口說別開WiFi了，打開流量就行，那麼你只能先關閉語音識別，然後重新說打開流量。所以你必須要在錄入語音之前思考清楚你要說什麼，完成的操作是什麼，這無形間增加了我們的操作內容與負擔。

轉化文字

第二部分將語音轉化為文字，這個是整個流程里最複雜的部分，而恰恰就是這部分嚴重影響用戶到底用不用語音，平時你和別人說話有那麼幾個音不對，詞錯了，對方根據邏輯可以推斷出你要說的大意，而對於語音助手你必須保證你的吐字清晰，字與字間隔必須明顯，口音與發音習慣都需要糾正。

於是這麼一看，語音助手目前的識別還停留在根據聲音波形來判斷文字，輔助加以智能糾錯功能，而不是人工學習的結果，假如你以一定聲音波形說話，識別錯了，你再以那個一模一樣的波形給語音助手識別，那還是錯的。

最最重要的就是錯誤了以後會顯得非常尷尬，比如你說hei，Siri，給媽媽打個電話，結果識別錯誤了，Siri告訴你對不起我不理解你的意思，這時候哪怕你周圍沒有人，你都覺得這個功能雞肋而且不好用。

也就是說，哪怕你語句結構清晰，只要發音不對，系統也不一定能完整的把你的語句轉換為文字。

轉化操作

這一部分是基於上面文字識別的，所以語音轉文字這個過程的準確率直接影響了這一部分的操作，舉個例子，假如你的本意是打開WiFi開關，結果語音識別成了打卡WiFi開關，這時候直接就斷了，接下來的操作無法進行，語音助手回復，抱歉我不理解您的意思。當然目前的識別技術這個錯誤應該是不會犯的，我只是舉個例子，但是我們的話語有無限的可能，所以你機器不可能保證每一次識別都是正確的。

假設語音識別完成了，而且非常準確，這時候又會出現另一個問題，這一串文字到底如何變成操作呢，這就需要強大的演算法判斷哪些是條件，哪些是執行操作，比如：用QQ給小劉發送中午來辦公室，那麼限制條件就是用QQ，目標對象是小劉，執行操作就是把中午來辦公室以文字消息發送過去。這句話很簡單所以一般的語音助手都能識別，但是假如我說：「下午三點我有一個飛往北京的飛機，記得提醒我及時出發。」我相信絕大多數語音助手都能把這句話一個字不差的變成文字，但是到了識別操作這部分他就很難從你的話語里找到什麼是重點，他就無法執行相應的操作。

執行操作

語音助手的操作本質上就是模仿我們去按屏幕，只不過省去了識別按下的是什麼區域，直接提交命令罷了，所以語音助手必須提前知道我要提交上去的操作是什麼，這就必須讓語音助手去視頻各個UI，他要知道這個UI我可以提交什麼操作，假如不去適配，就沒法執行命令。

假如你對著bixby說用QQ給xxx發個多少錢的紅包，她能完成，因為bixby對QQ適配了，假如你說bixby把王者榮耀的畫質調低點，他就無法進行操作了，也就是說，語音識別正確了，語句內容也非常簡單，但是助手依舊可能無法完成你的操作。

那麼我們看一個完整流程

周圍環境安靜
錄入前我思考清楚我要說什麼，操作什麼，不會出現改口
語音成功錄入，不出現錄入過程突然發出別的聲音
系統成功將語音轉化為文字
系統成功將文字的限定內容和操作分離開來
將要執行的操作應用已經適配
系統成功執行操作
操作內容符合我的預期

一旦上面8條有任意一條操作失誤，那麼你整個語音操作都要重來，如果一條失誤率比較低，但是這8條可是樣樣都會出現操作失誤的，這就導致語音最終很難轉化為我要的操作。

最後插一句個人觀點，目前的語音只不過是幫助我們去操作，本質上還是需要我們思考操作內容，僅僅只是執行操作不需要我們完成，那麼我用手完成，和說話用電腦去完成假如方便程度是一樣的，那我要語音幹什麼？語音還不一定正確，手去操作只要我不按錯，那就是100%按照我的意願操作的，但是智能家居不一樣，智能家居的操作就那麼幾個簡單口令，比如空調，常用的只有調高溫度和降低溫度，而燈就更簡單了，只有開和關，因此，適配簡單，口令也簡單，而且他是真正能方便我們生活的，因為我不需要找遙控器，也不需要起身就能完成操作，而電腦和手機這種涉及到大量複雜操作的環境下，語音助手就顯得很雞肋了。

目前民用市場上最好用的語音助手莫過於三星的Bixby了吧，他不光適配了系統，還針對很多應用進行了深度的定製，然而就剛更新那幾天新鮮了一下，後來我根本不願意用，為什麼？確實，很多操作語音比手動方便，比如我要看書的時候，就把鎖屏時間改到10分鐘，平時1分鐘，如果我自己操作我需要去找這個選項，而對著Bixby我只需要說把屏幕鎖定時間調整為10分鐘，他自己就能完成，但是很多小操作他是會經常失誤的，100次失誤1次還好說，如果是3次就失誤一次，想必每次語音助手失誤的時候你都覺得莫名尷尬。

語音助手想要完成全部操作，就必須擁有自己的思想，他能從複雜的環境音里找到我們的聲音，他能從我們的語句里挑選出來我們的意思，他能在不用適配的情況下完成對於APP的操作，哪怕我的意思不清楚，他也能推理出我要幹什麼，只有到這個地步，語音助手才能真正代替我們的操作，否則，沒有100%完成度的語音不能給我安全感，沒有安全感，我就不想用。

【深究語音助手，鎚子TNT究竟有多雞肋】

如果語音識別不能做到100%正確率，不能有自己的思想，那麼他的存在意義就沒有想像中的那麼大。

接受語音

轉化文字

轉化操作

執行操作

如果你覺得我的文章寫的還不錯，就請點一波關注吧，你的關注是對我最大的支持！！！