關於語音輸出的胡思亂想：語音記錄的弊端和發展構想

06-05

隨著互聯網在生活中逐步滲透，更多元的交互模式已經從幻想中走了出來，出現在了生活中。聽覺相較於視覺而言，是一種更利於交流的方式。在一番清空大腦的思考後，胡亂分析了語音交互所帶來的問題與發展。

語音行業類型分析

我們要了解語音，就需要結合當下的發展趨勢去看，一個交互的手段當然不是我們所需求的最終目的，用戶所需求的是手段所實現的終端是否有價值，所謂價值也就是：

是否提高了生活工作中的效率；
是否降低了用戶達到目的的成本；
是否提升了用戶的體驗。

那麼簡單想想，語音出現的價值是滿足任一條件的，當然，目前語音的發展還很初級，與技術與環境的關係密不可分，而所謂的語音產品也可以大致分為三類：

工具：科大訊飛、siri、Google now等

社交：啪啪、比鄰等

內容：喜馬拉雅、荔枝、蜻蜓等

在對比之下，僅僅是內容行業的發展迅速，而工具類和社交類並沒有形成爆髮式的發展，原因可能是多方面的：

工具類的科技技術是高端的，但是呈現形式僅僅停留在技術層面上，或者說僅僅是demo樣式，完整的應用並沒有實現；
社交類應用的門檻較低，用戶範圍較廣，但大多數用戶暫時無法改變圖文式社交模式，加上語音本身就是一個信息獲取成本較高的方式，所以就造成了用戶使用上的反人類行為，不符合直覺。但也有例外，低俗或者說色情等語音是用戶願意違反自身直覺來獲取的信息之一，因為信息本身就具備高吸引力，這就造成了語音社交的低俗性；
內容類應用的優勢恰好是建立在語音的優勢上的，語音的優勢：1.比文字更為快捷、方便；2.解放了手眼；3.創造出了伴隨性場景；4.聲音本身的「成本」是很高的，名人的聲音更有代表性。而這四點也是語音內容應用的最大優勢。

關於語音行業或者是語音交互的問題，有興趣的可以去看看《VR還早呢，互聯網女皇看好的語音會是大機會嗎？》，寫得很不錯，我也有很多想法來源於其中。

語音記錄弊端

最便捷的語音記錄是一站式的，即不需要進行任何操作的記錄：錄音。但是我也提到過，語音本身是獲取成本較高的信息，加上語音的分類，辨認，保存上不如文字，所以才會出現語音→文字的轉換形式。

市面上的筆記APP大多都支持語音錄入，當然，準確率上是有所不同的，準確率最高的肯定是訊飛所做的訊飛語記訊飛在語音上的準確率與多元化是全球領先的，無論是在語音→文字，還是文字→語音上，都是出色的。

不過，實在不是我雞蛋裡挑骨頭，或許英文和中文的語音錄入都會碰到一些問題：

語言的低效性和冗餘性的基礎上，記錄會變得更加的繁瑣

我需要記錄筆記：（1+2+3）*3=？

或許能口述：正括弧，一加二加三，反括弧，乘以三等於問號，甚至這樣的描述都會出現錯誤。

這完全繁瑣了公式，更別說上面這是最為簡單的公式了，並且在語言中，需要隨時注意切換，比如數字與漢字之間的判斷切換，記賬時的漢字大小寫切換（一與壹）等等。

場景的局限性

語言的描述是不存在保存隱私的，普通人在家的時間大約是12小時，去除7小時睡眠時間。也就說在封閉環境中的時間僅僅為五小時，而存在於發散環境的時間是12小時甚至更多，基本是封閉環境的2倍；這就形成了一個問題，用語音時無法保證隱私的保護；當你在地鐵，公司突然靈光一現，看了看身邊的人，還是老老實實地打字記錄了下來。

隨時隨地的「尷尬感」

這或許不能成為一個弊端。10年前，家長教育孩子在飯桌上做其他的事是不禮貌的，而現在的家長在飯桌上拍照發朋友圈；10年前，家長會教育孩子在路上看東西對眼睛不好，而現在的家長在路上刷著微博，看著小說。什麼改變了？是環境改變了，我想，當語音交互成為了主流，尷尬感也會隨之消除。

當然，並不是說語音記錄會成為了雞肋，在封閉條件下，語言還是會代替GUI交互，畢竟因為語音交互的獨立性大大簡化了生活中的內容。

語音交互問題

真正的交互方式，應該符合人的直覺，即上手就能用。

目前的語音APP無論是在工具端，還是在內容端，都存在不獨立的操作，比如之前所說的訊飛語記，在語音輸入之後延伸出的更多操作是非語音性質的，也就是修改，保存，查看，刪除等，各方面都還是建立在了GUI交互的基礎之上，我們排除了「尷尬感」再來建立一個用戶場景：

小明是一個騎行愛好者，在戶外騎車的過程中偶有感觸，想記錄一下心中所想：
「嘿，siri,打開訊飛語記」，「開始記錄」，「哇！成都的天好藍呀！」
然後，問題來了，小明需要看看是否寫錯了，他停下了車，掏出了手機，發現語記忘了重要的感嘆號了，那好，修改，保存。

怎麼樣，是不是覺得在用語音記錄的過程中步驟的數量並沒有減少？僅僅是記錄過程由觸控變為了語音？既然是這樣，為什麼需要語音記錄？

人類與其他高智商動物的最大區別不在智商，而在語言，語言誕生的一刻，即成為生物聯繫的最重要和最有效的方式。

為什麼這麼說？因為現有人人交互中（不考慮未來會有的腦波人人交互），最有效的就是語言：我渴了，幫忙讓人買瓶水；我餓了，幫忙讓人買吃的……這些在現在即使有即時社交軟體的情況下，還是語言最有效率，這也是為什麼我認為語音交互會成為，至少不遠的未來會成為主流交互方式。 Amazon echo就是一款相當成功的語音交互產品，無論是從產品設計，還是產品定位來說都是相當的完善。

echo並沒有過多的GUI交互設計，按鍵少，強制性的使用戶使用語音交互進行操作；

發散式的喇叭也解決了聲音採集所遇到的問題；

家居式的產品定位也避免了語音交互的尷尬感。

那，倒過來再次考慮一下語音記錄問題，有什麼辦法可以解決語音記錄的種種劣勢和弊端呢？

語音記錄發展構想

目前的筆記APP多採用：

GUI交互→語音→GUI交互

偽語音交互所帶來的就是一次次的差體驗，所以思考一個真正的類echo的語音交互過程才是語音記錄的未來。

語音→文字→語音：錄入→顯示→確認→修改→存儲

上面所寫的是一個完整的流程記錄：即語音錄入，文字顯示，語音確定，語音修改，自動保存事實上，這一整套過程中，最難實現的是語音修改過程，如何採用語音來修改已錄入的文字，這是難點，也是重點。解決了這個問題，那上面所描述的場景就不會成為困難，因為一系列的過程都是在手機未被打開的情況下所展開的。

當然，我在這兒只是口頭上的解釋產品的改進，實際的操作上或許也有很多的難點。例如：語言的準確性，機器是否能夠理解；修改位置如何確定；顯示之後的確定如何定時，是一段之後確定？還是一句之後確定？

總結

總的來說，語音的發展並不完善，但是潛在的用戶是存在的，也是大量的。

訊飛在截止今年11月時，用戶量已經超過千萬，且並沒有付費宣傳。

單從訊飛的用戶增量上來看，語音輸出是很多用戶的興趣所在，也是很多用戶所需求的。而這些用戶提供給了語音交互的發展空間，也提供了語音使用場景的平台，在不久的未來，語音所能帶來的或許將和文字的重要性一樣，現在，我們只是將小說，筆記有聲化；未來，我們或許會把檔案，資料有聲化。

當然，我的一家之言也僅僅建立在語音交互的發展快於更便捷交互方式的發展前提下，如果語音交互的利用率不能加快速度，那麼說再多也是白搭。

至於說語音記錄的問題，我想也許再過一兩年，作家們就不用痛苦的坐在電腦前進行監獄式碼字行為了，能轉換為文字的錄音筆，這將是對作家或者是需要處理文字的工作者來說最大的福音。那麼，解放雙手的將是我們的嘴、耳和腦。

本文由 @jonathan0627 原創發佈於人人都是產品經理。未經許可，禁止轉載。

本文為頭條號作者發布，不代表今日頭條立場。