大家為什麼很少用語音輸入?


安靜的場合,說話可能擔心影響他人。
嘈雜的場合,嘈雜的環境音對識別有影響。

所以,理論上說,語音識別只適合獨處的情形,典型的場合是私家車內,以及具有獨立辦公室的辦公環境,以及獨立住宅內。這並不算可以非常廣泛應用的場合。


  1. 鍵盤打字足夠快;
  2. 用語音輸入時難以保持說話連貫;
  3. 用語音不能輸入標點符號;
  4. 語音識別結果如果有錯,改起來麻煩。

1.一些不著名的專有名詞(比如小公司的名字、身邊朋友的名字和綽號等)不易輸入,方言詞、網路辭彙、自造詞等不易輸入。
2.輸入顏文字、繪文字等還是要切換鍵盤。
3.點那個開始說話的按鈕挺煩的,說完了還要空幾秒鐘等它反應。
4.關鍵是羞恥度高,有些東西不適合當著別人的面讀出來,甚至有些東西自己獨處的時候讀給自己聽都覺得尷尬。


第一,暴露隱私。
第二,錯誤率高。
第三,看上去很蠢。


調研了一些關於人腦思維載體的相關文章,對「為什麼難以培養用戶本能的使用語音轉文字這一用戶習慣」做了一些思考:

為什麼難以培養用戶本能的使用語音轉文字的習慣?

這和人腦的思維載體有關,這是牽涉到本能的問題。而且這裡不想拿什麼使用場景限制、識別率限制等聽到爛的理由說事,這些當然是影響因素,但不是決定性的。

人腦思考使用的思維語,在進行人與人日常信息表達和複雜信息的邏輯梳理時,基本會使用inner speech的形式,也就是自己腦海中的聲音(當然不是所有的思維過程都依賴於inner speech)。對非聾啞人,也就是正常人來說,inner speech的載體基本都是自己的正常語速說話聲音(聾啞人另當別論,手語、文字都是其inner speech 的載體)。聲音作為語言編碼的核心屬性,在working memory(即思考時接收思考產生的實時信息的緩存)中是主要形式。為了與人聲這樣的思維編碼進行最高效率的銜接而無需做二次轉換,人和人之間交流(僅限於人和人之間交流)的過程中,聲音是最高效(此高效是針對人腦思考過程所耗費的功能區域而言,而非實際溝通效率)的信息接收和表達的載體,也就是為什麼人類有需求發明電話並讓這玩意全球普及,老少皆宜。這也是為什麼在智能機出現之前,即使有了簡訊,打電話依然是人類使用電話這麼個工具,最本能會去用的功能。這同樣是為什麼即使智能機出現後,即使簡訊有了iMessage,有了手機qq,核心功能為語音消息的微信出現後依然能夠迅速奪取市場(不要和我說微信流行的原因是因為可以用來約炮,那是產品的一個病毒傳播功能點為了配合營銷套路你懂得,另參見陌陌)。所以,如果你想和一個人傳遞一個非牽涉到圖形的信息,通常來說,對你最方便的表達方式就是把你腦海中的聲音直接說出來,對於接收信息的人來說,最方便的也是聽你說話。

以上的結論階段性總結一下,就是:從腦科學的角度來說,語音是人最本能的溝通交流媒介,也就是所謂的人與人之間交流的本能「用戶習慣」。

之所以現在有不少人討厭聽微信語音消息,甚至還覺得手機上別人給我發消息,還是發文字我看起來方便快捷,其核心決定因素不是因為語音聽起來慢,我很忙沒時間之類的,更不是因為文字直觀(文字對於會說話的人來說,都是要轉變成inner speech才能進入思維和記憶流程的,這是成本啊,這是個信息轉碼過程啊)而是因為手機,作為一個僅僅是拿在手裡,揣在兜里,放在桌上的東西,如果從語音傳遞工具的人機交互角度,是不合適的(每次聽語音都要拿起來湊近耳邊,不累么?不煩么?而且絕大部分IM軟體,還要人工點擊確認播放,無語)。但如果別人發的是文字,交互起來就不用這麼麻煩了。所以什麼才是合適的,最自然的人與人之間溝通的工具形態呢?答案是心電感應,inner speech connect with inner speech.

好吧,開個玩笑,這顯然超出了可預見的現實。在現實中比較符合的是什麼工具呢?答案是未來的AR(或者MR,或者未來又冒出來的什麼新名詞,這不是重點)。有了直觀映入眼帘的圖形化的界面,有了入耳式或骨傳導式的耳機,AR時代的人和人之間溝通,還會用文字嗎?還是會的,但肯定不會是即時溝通的主要方式了,能用耳朵直接就聽到別人,為什麼要費力設計個語音輸入法,將你的語音轉變成文字發個別人,投射在別人的AR界面上,讓別人來閱讀呢?直接語音消息或者實時對講不就結束了?

回到現在的智能手機時代,為什麼在聊天場景下的文本框中,需要輸入文字時,很難培養出用戶使用語音轉文字輸入這樣的用戶習慣呢?而用為什麼鍵盤碼字就是無需干涉就能形成成普遍的用戶習慣的行為?

因為鍵盤碼字,是單向的從inner speech轉變成圖形化文字編碼的過程:腦海里先有想說的話(inner speech),再在腦海中投射成文字,在鍵盤上輸入時,候選欄中找到腦海里對應的那個圖形(文字),點擊上屏即可。而語音轉文字,是腦海里先有想說的話(inner speech),通過語音說出,語音識別成文字上屏,人腦再識別文字含義,將文字轉變成inner speech,和腦海中working memory的inner speech進行對比,發現一致了,才確認信息錄入完畢。

簡而言之:
鍵盤輸入的人腦過程是:1、腦海聲音—&>文字圖形;2、文字圖形對比—&>選擇(對於英文輸入來說,甚至沒有這一步)
語音輸入的人腦過程是:1、腦海聲音 —&>語音;2、文字圖形—&>腦海聲音;3.對比確認

從效率來說(這裡先拋開語音識別的速度、鍵盤輸入法的設計對效率的影響),語音輸入由於還有第三步對比確認,正是因為有這一步,導致語音輸入是個很「「繁瑣」,很「心累」的事情。也就意味著,如果有一天語音輸入能夠做到100%正確性,或者說已經識別率高到讓用戶壓根就不會下意識去核對結果,讓第二步和第三步不再需要,那是有很有可能取代習慣用鍵盤輸入文字的用戶習慣的。另外,鍵盤輸入的第一步和語音輸入的第一步相比,inner speech轉變成文字圖形這個過程,明顯比inner speech直接轉變成發音是要慢的,在無需確認的前提下,語音輸入就能徹底發揮出它的優勢。換個角度看,這種情況下,語音輸入就和發語音消息的效率完全一樣了,說完即發,無需確認。形成用戶習慣,是遲早的事情。

人腦是懶惰的,是追求內部單個流程的效率最大化,功耗最低化的,所以即使現在鍵盤輸入,哪怕輸入法再爛,寧願耐著性子,不急不慢的碼字,也想不起來用語音,雖然從整體的輸入效率來說,語音秒殺鍵盤。

from Pendulumitis


有些猥瑣的東西打的出來說不出口


真想用你這個問題問一問那些每次發語音都是「嗯,啊,。。。哎呀!對了,,」的人。
聽他們說話這段時間我都能做一盤黃花菜然後看著它慢慢變涼了。


思考過後打出來的文字,交流效率比起語音高不是一點半點


講真,難道沒有人跟我一樣覺得自己聲音不好聽才不發語音的么......


分情況,不知道問的是哪一種。
一是語音輸入給系統(例如百度搜索時使用語音),此時不用的原因:
1、輸入門檻高,包含對周邊環境要求及發音要求;
2、習慣難以形成:除開睡覺,每天人大部分時間是在室外,在室外用語言輸入一段文字想想都比較傻缺。大部分時間都用輸入,也就習慣了輸入;
3、錯誤難以修改;
二是語音輸出給別的人(微信)
用的場景:
1、便捷,不用打字,尤其是要說的東西很長的時候;
2、語音比文字可以包含更多感情(尤其是情侶);
不用的場景:
1、和對方說話需要思考和斟字酌句;
2、對方的場合不適合接受語音;
3、自己的環境不適合發送語音。


為什麼我周圍那麼多人一天到晚就知道發語音?真想抽死他們


在這個普通話白話為最優的城市。。。我嘰嘰呱呱完全拉低了我的西裝革履


昨天嘗試用語音輸入碼字。

1、平時寫東西習慣寫完一句念出來,反覆念,確認通順。用語音輸入自然也改不了這個習慣,結果。。。
2、我以為語音輸入就是可以完全解放雙手的呀,可是為什麼退格、刪除、換行還是要切換一下輸入模式,再手動操作啊?這樣算下來還是手動打字更快~
3、明明大家都說我普通話說得挺好的,為啥米用完語音輸入之後我就開始懷疑自己了~


選擇打字,就是不想讓別人知道自己在跟什麼正在聊什麼事……


(不是軟文,因為語音識別我只用過這個叫觸寶的東西)鎚子據說總有國內最強大的語音識別(科大訊飛開發,忘記原話是怎麼說了),有段時間和朋友聊天想說的太多打字又太累,而且一個人在家,所以果斷打開這個:

當時覺得挺方便的,先說一下「為什麼使用語音輸入」
1.比一個字一個字打更快
2.獨處環境允許我把想說的全說出來
3.識別速度比較快
4.有的人可能會問,為什麼要識別轉換成文字?直接發語音不好嗎?我的想法是,每次都要去按那個小紅點旁邊的對話氣泡很煩,而且看不到聊天的上下文更煩(尤其在之後想要回顧聊天內容時,不得不一條一條收聽語音,無網路時還可能狗帶。)
5.最重要的:當我不方便打字的時候,直接語音識別很方便。

但是,儘管語音識別很大程度上可以解放我的雙手,好吧,至少一隻手。然而也不見得有多少人願意放棄鍵盤,比如我。

我不選擇持續使用語音輸入的原因是:

1.環境因素限制我說話,或者我的說話內容限制我使用語音輸入。
2.再強大的語音輸入也需要有一個更強大的詞庫,有時詞庫不給力,就會出現生僻用語,來自方言的日常用語,罵語,專業術語轉換不成功的現象。這樣的話,說到一半還要換手動輸入,挺麻煩的。
3.語音輸入的準確率還有待提高,這使得我每次說完都要再檢查一遍轉換後的文本,佔用了一定時間。
4.當我輸入大段的語音時,精確的轉換還會保留大量的語氣詞,是說話人的語言習慣導致,比如我的對話框里就有很多嗯,啊等等,說實話我後來看自己的聊天記錄,一句話里那麼多冗餘的語氣詞「觀感」並不是很好。
5.既然是體驗,可能還可以反饋一些更具體的?(更深井冰的233)譬如,觸寶的語音識別最後轉換成文字,一律會在句子末尾加一個句號。個人認為打字習慣與人的個性有一定聯繫,每一句話末尾都添加句號的陌生人會給我「很嚴肅,很嚴謹」的感受,而我不想給和我對話的人這種感受。
接上面一點,那就是語音輸入或許真的只適合在密友之間使用,因為只有在和熟人聊天時我們才不會那麼在意詞語使用,語法是否正確等等問題。
6.也許是最重要的一點:語音輸入沒法斗圖啊!!!!!!!!!!!!!!!!!!!!!!!!換句話說,現在的年輕人對錶情包的依賴程度很高,語音呼出表情包有待開發just a joke


好羞恥



我覺得還是用的少吧。今天試了一下覺得語音輸入準確性還是挺高的這段話就是用語音輸入輸入的。


說的是「知識」,容易聽成「姿勢」。所以不如一句話也不說,這樣是最好的。


以下是我用語音輸入寫出的輸入哦稍等一下啊稍等一下以下是我用語音輸入哦露入的一段話我現在在家裡我覺得語音輸入還是方便還是方便的然後然後語音輸入應該也是我們最終的一個輸入上的一個嗯就是一個未來吧因為畢竟這個不是需要過多的過多的移動你的手指或者說費更多的腦子當然這也有很多的弊端從我剛錄入的這一段話里就可以看到當我思考的時候我可以不把它打出來但是當我當我去說她的時候就會有很多就是思考的時候就會有很多就會很多不需要露露的文字我覺得如果是打字輸入比語音輸入的表達效率會很高然後呢還有一點就是還有一點那就是就是說有時候他的識別不是會很准然後剛剛我打完了以後就是六說完了以後危貶再次把它修訂一下個別方面哥哥個別方面還是值得鼓勵的但是在其他方面比如說語音的各十個的個人各方面的運用還是有一些還有可以看出來的那就是首先是標點符號不能錄入還有就是不能分段還有就是一個人的語言習慣會影響到其他人的閱讀閱讀感受現在可以看到危貶說還有嗯那個那個哦還有對就這個現在就可以看出來所以語音輸入可以用在某些特定的場合但是在某些特定場合還是不建議去使用它


推薦閱讀:

一個完整的交互設計流程是怎樣的?
請問一下香港理工大學交互設計研究生申請細節?
哪些產品的設計細節讓你感動?
手機頂欄有沒有必要顯示耳機插入的標誌?

TAG:用戶體驗 | 即時通訊IM | 輸入法 | 交互設計 | 語音 |