明明可以語音輸入,為什麼大家還會發語音消息?

明明可以發語音消息,哪有人傻到語音輸入?

本題已收錄至知乎圓桌:人工智慧 · 語言智能,更多「人工智慧」相關話題歡迎關注討論


我老闆曾經和我們聊過微信語音的問題。

他說,在微信直接發聲音其實是方便自己,麻煩別人。

因為聽的人要聽語音需要一個額外的步驟,一個人在群里發語音說話,一群人拿手機湊著聽。特別是在講工作的時候,用語音其實是非常不合適的。自己回聽也是很麻煩。

所以工作群里發語音的人,經常會給人一種不體貼的感覺(也許他真的很忙)。

當然朋友才開在開車的時候說點休閑的話,這完全沒什麼問題。

還有就是,說話的話速度最快是一分鐘400字,正常語速就是兩三百字。

但是閱讀的話一目十行,一分鐘我少說可以看看一千字。效率高。

有些人又會說那多麻煩,還要打字,我明明就很忙。

打字麻煩這完全用語音輸入文字就可以。我是語音輸入法的忠實的使用者。


現在語音輸入精準度今非昔比,挺好很准,比如搜狗的錯字真不多。即便輸入錯了,在手機里簡單的清潔修改一下就好。也不用選字用字,還是挺省心的。唯一的問題就是有時候我說出來的話不太通順轉化成文字有點小奇怪。

就像這樣。

還試了劉奶奶的榴槤牛奶...

黑化肥沒敢試。我自己都說不好。

PS順帶一提,這條答案就是百分百純用語音輸入的。不過有改就是了。


而且你應該也發現缺點,所有的語音標點符號很單一。


「。。。」

這樣基本發不出來。中英夾雜的也發不成。


假設有兩個資料庫:

資料庫一寫入代價是10,但是讀的代價是1。

資料庫二寫入代價是5,但是讀取代價也是5,對於某些極端場景下,讀取代價是100甚至讀不到。哦,資料庫二還不支持索引。

一:如果你更在意讀取場景的性能,或者考慮到極端的讀取場景,你會怎麼選?

二:如果寫如成功後,需要讀多次,或者有多個客戶端都需要讀,你又會怎麼選?


所以,最後我想說:

一:給你發語音,收到你文字回復後還繼續發語音的,可能是覺得你的時間不如他的寶貴,或者你在開會時也必須有條件戴個耳機。

二:群聊里頻繁發語音的都是**敏感詞非自動過濾**。


從2個方面來回答這個問題:

1、語音中包含的信息量要遠遠多於文本。

從內容上來講,語音消息和文本消息包含了相同的語言學內容。除此之外,語音消息還包含了以下的信息,這些信息都是文本所不具有的:


a)語音消息包含說話人信息。

從文本上看並不能確定消息的發送者是就是手機的擁有人。例如盜用賬號進行詐騙,從字面上我們難以確認是否是自己的熟人所發。當然信件可以通過字體來進行判斷寫字人,這是字跡鑒定,這裡不做過多討論。

通過語音我們是可以判斷出對方是否是我們的熟人。這個技術的學名叫做聲紋認證(Speaker recognition),其依據就是人的聲音和指紋一樣具有可辨別行。錄音作為呈堂證據也是這個原理。聲紋技術在人工智慧中也有提現,比如大家都說同樣的一句話「我想聽歌」,智能系統推薦出的歌曲卻不相同。其實現原理就是利用聲紋技術,識別出不同的說話人,然後依據個人的喜好,推薦不同的歌曲。


b)語音消息包含情感。

文字可以包含情感,通過文字表達喜怒哀樂很常見。但是相同的文字用不同的語氣讀出來表達的意義可能完全不同。前段時間關於華東師範大學中文系2012屆畢業生的一篇題為《網路會話中「呵呵」的功能研究》的論文引起熱議想必大家都還有印象。輕聲細語的說出來和粗獷的說出來顯然是不能相提並論的。

試看下面一段話:

「。·ˇ?ˇ·。)哼!都怪你們 (`?′) 也不哄哄人家(〃′o`)人家超想哭的,捶你胸口,大壞蛋!!!( ̄^ ̄)ゞ咩QAQ 捶你胸口 你好討厭!(=?ω?)?要抱抱嚶嚶嚶哼,人家拿小拳拳捶你胸口!!!(。· ︿·?。)大壞蛋,打死你(つд?)」

光從內容你來看你可能快要被感動,可真正說出來就未必了。可以自行搜索「大叔版小拳拳」。


c)語音消息包含人的健康狀況信息。

語音是通過聲帶振動,然後經過口腔、鼻腔甚至胸腔和額的共鳴最終發聲。不同的發聲技巧會形成不同的音色,進而形成不同的唱腔。每個人正常講話的方式通常是固定的,音色也固定,從而具有可鑒別性。如果生病導致鼻子堵塞或是嗓子腫脹,都會影響音色。因此關心你的人通常能夠通過你的聲音判斷你是否健康。


以上這些都是語音消息中所包含但文本消息中不具有的信息。

2、語音識別還沒到準確令人滿意的程度。

目前語音識別的水平看似已經不錯,手機輸入發的準確率已經蠻高了。但這些都是有前提條件,那就是「近講、安靜環境」。如果你走在嘈雜的馬路上,或是在喧鬧的集市中,性能就未必如你所想的那麼好了。其實從另一個方面來講,如果語音識別真的如此好的話或者你只關心說話內容時,那麼完全可以在微信中識別成文字查看內容。顯然結果並不總能讓人滿意。當然各家語音識別性能也有差距,這裡我們暫且不論。

關於語音識別的進展請移步這裡:https://www.zhihu.com/question/46829056


3、語音技術的未來

其實說了這麼多,最大的限制還是語音技術。這裡的語音技術包括語音識別,聲紋認證,情感分析等等。所以大多數場景下我們更習慣於在手機上點擊操作,而不是用語音來控制設備。或者控制設備的時候,更傾向於發送一條文本指令而不是一條語音指令。


技術的進步改變我們的生活方式這一點是毋庸置疑的。隨著語音技術的進步,相信語音會在很多場景下得到更好的應用。比如騰不出手的時候控制智能設備,比如同機器人的交流等等。


以上


利益相關,搜狗輸入法是一款搭載語音輸入功能的工具產品。


我們認為,從文字消息到語音消息,再到語音輸入,絕對是一個階梯式的進步過程。只不過語音輸入技術的普及和用戶習慣的改變都需要一點時間。


站在信息發送者的角度上講,發送語音消息的便利性毫無疑問是最高的。一分鐘時間,語速稍微快一點的人可以說400字,這麼大的信息量壓縮在60秒的語音消息里,當然非常高效省時。

但站在信息接收者的角度情況就不一樣了。如果我們收到的是一條400字的文字消息,閱讀時間可能只需要半分鐘甚至更短,但如果這是一條語音消息,就必須要花整整一分鐘的時間老老實實地聽著。


換句話說,發語音消息的人節省出來的時間,是以接收者的時間損耗為代價的。這就像寄給朋友一個快遞竟然選擇的是到付一樣,容易讓人變得有點小狂暴。而語音輸入的目的,就是為了讓發送方和接收方都最大限度地節約時間,大家好才是真的好。


目前來看,語音輸入沒有全面普及,主要是這樣兩個原因:


1、技術難度:口音、方言與複雜的輸入環境


目前,語音輸入確確實實是無法完全和純粹的語音消息拼速度的,以搜狗輸入法為例,即便是識別率已經達到97%,也仍然有出錯的可能,可能需要用戶做簡單的校對,這是我們國家多種多樣的方言口音和複雜的輸入環境導致的。當然,技術這個鍋是我們的,誰都不要搶。但是,我們對未來還是有信心,如果有一天語音輸入技術的識別率達到了99%甚至100%(我們相信這一天一定會到來),語音輸入一定會變得普遍起來。


2、用戶意識:有一部分人並不認為發語音消息是給人添麻煩


《奇葩說》第四季的一個辯題就是「不給別人添麻煩算不算一種美德」,對於「添麻煩」這件事的界定,蔡康永老師的說法很值得認同,那就是要通過我們的人際關係來定義「添麻煩」。一個房地產中介剛剛加了微信就發來一條60秒語音信息,顯然就超出了中介與客戶的人際關係,而如果發消息的是我們的父母,那愛怎麼發怎麼發,發多少條我們都聽著。


這個界定告訴我們,至少我們在發語音消息之前應該思考一下和對方的關係,畢竟語音消息是要多耽誤對方的時間的。我們要具備這樣的意識,免得讓人覺得我們不懂社交禮儀。


說到這裡我們發現,似乎真的有必要定義一下網路時代的社交禮儀了,這是以往我們從未有過的新課題。比如:


不隨便發語音消息;

不隨便過問網友的真名;

不輕易發「呵呵」「哦」這樣的消極消息;

不要問完「在不在」就杳無音訊,有事兒直說;

發現自己看不到某些人的朋友圈,不要追問,多從自己身上找原因;

……


歡迎大家繼續補充。


以上。


這個問題如果問在20年前,就相當於明明可以發電子郵件,為什麼還要發傳真?

語音輸入受到的場景制約因素是不言自明的,但如果養成了習慣,提高在手機上較長文字的輸入效率也是不容置疑的。問題是,我們怎麼成為心甘情願的先行者,得到它的好處,影響更多人,就像20年前首先使用Email一樣。

我有兩個tips給大家:

1)如果你在語音輸入時需要思考,不要擔心,停下來就是,想好了再說下一句,現在的語音輸入法都能夠幫助你處理這些合理的停頓,精確地加上標點符號。

2)不要擔心語音輸入引擎聽不清,用不著一本正經,拿腔拿調地說,感覺向對一個外國人說中文一樣。正確的姿勢是「耳語」(Whisper),你把手機當作閨蜜咬耳朵般說就行了,識別正確率不僅不會下降,反而會更加準確。不信你試試,打開語音輸入法,試著用耳語念這段:

「為什麼團隊協作軟體要搞打卡簽到這些破事,這特么跟協作有毛關係,有了透明度,有了基本的信任才能讓協作效率高起來,所以,我還是喜歡明道這款軟體。明道,明工作之道」。


因為喔的普通發不細很表尊


作為一個自大二之後基本不用語音消息的人,強答一下這個問題。

的確,很多人也說了語音消息的缺點,比如麻煩別人等等。但是我認為語音消息之所以還有很多人用的一個原因就是:單手操作和應急操作很方便。

有些妹子逛街,可能手裡拿著飲料什麼的,這個時候忽然家裡發了微信過來,她怎麼辦?還有一些人可能手裡在忙著做事情,看到有人詢問一些簡單的問題,為了省時間同時又能儘快回復,他該怎麼辦?包括有些人在下班路上,忽然有人發了一條微信過來,你是一邊走一邊回(或者乾脆站著)還是語音馬上回?

我覺得這些情況未必極為必須,但是也是很常見的需要,我自己曾經遇見過好幾次。的確,如果每次交流都語音語音,是很麻煩,但是偶爾的需求還是有的。所以,總是用語音當然不好,但是這個功能還是有需要的。

至於語音輸入,號稱輸入比手動輸入簡單,其實現在的技術還無法保證你說的每一句話都能100%精確識別,尤其是有一定背景音的情況下。我的手機輸入法是訊飛,雖然我基本不用語音輸入功能,但是不得不承認語音輸入已經做得很好了。可是即使如此,音譯精度還是會出問題,更別談微信自帶語言轉文字的逗逼能力了。

順便吐槽一下題主的問題和問題描述,看得我一愣一愣的。


我聊天一般還是以文字為主。
這應該算一種不麻煩人的道德方式:
你不能判斷對方能不能或者方不方便聽你的語音信息的時候,發文字消息比發語音消息更加友善。
做人的基本原則:不要輕易讓別人感覺到麻煩!!


不管你收還是發語音消息,你旁邊的人心裡想的是什麼你知道嗎?
比如你在地鐵上,比如你在電梯里,比如你在公交車上,比如你在路口等紅燈。
周圍的過客驚鴻一瞥,匆匆扭頭,瞬間小宇宙蓬勃而出,在他們背後形成四個大字:
MDZZ


大概瀏覽一下回答。發現,支持語音輸入的。喜歡看文字的。大部分已經工作了。而喜歡聽語音的。大部分還在上學。

所以說使用怎樣的輸入方式,和你生活使用語音的場景息息相關。如果你需要確切,準確的信息。你肯定比較傾向於,使用文字。如果你只是閑聊。那麼你可能考慮語音比較多。

順便說一下。訊飛語音輸入法現在支持多種方言輸入。所能包括的方言絕對超乎你的想像。識別速度也絕對超乎你的想像。科技正在進步。不要拒絕科技帶來的生活便利。


2011年5月,微信發布2.0版,上線了語音對講功能。一時間,微信把手機變成了對講機,在哈爾濱的街頭看見金髮碧眼高個子的外國人對著手機一頓嘰里呱啦,特別有趣。語音對講也幫微信邁上了一個新台階。

轉眼五年過去了,隨著微信工程師不斷攻堅,微信的功能越來越多越來越強大,強大到什麼程度呢?開始內測小程序的微信已隱隱發展為站在android和IOS肩膀上的新OS,雖然微信已經如此強大,但為微信發展立下汗馬功勞的語音對講,依舊是大多數微信用戶的喜愛。

五年來,語音對講依舊被微信用戶喜愛,是因為語音對講有很多優點:

①操作簡潔方便,手指按住說話,手指鬆開發送,手指上劃取消。如果神鵰大俠楊過穿越到我們這個時代,也會為語音對講這麼貼心的功能點贊。

②語音承載的信息量更多,能夠通過語調傳遞情緒,表達更立體的自己。

③語音對講更快捷,語速快的人,一分鐘可以說上三四百字,打字快的人,一分鐘打二百字已不容易,還得是在電腦上。

④語音對講不用擔心對方截屏。

但是,說得難聽一點,語音對講,其實是方便了自己,麻煩了別人:

①一條60s的語音,需要60s才能聽完,但如果把60s的語音轉換成文字,用不上30s就可以看完。

②語音的信息密度更高,而成年人的瞬間記憶力遠不如黑猩猩,收語音的人聽一條60s的語音,需要全神貫注調動記憶力,先把語音信息一一存儲到大腦,不然有可能聽到後邊忘記前邊。

③微信語音沒有進度條,如果語音中哪一塊沒聽清,還需要從頭再聽一遍。

④有很多場合(比如開會)不適合聽語音,但接收者卻不能在聽語音前預判這條語音消息的重要程度,從而選擇立即聽還是延後聽。

⑤靠近耳邊聽語音的同時不能回復對方,既不能回復對方文字,更不能回復對方語音;如果是外放或者用耳機聽,不能直接回復對方語音。

⑥微信的語音轉文字精準度還不夠高,如果語音發送者有口音,還需再聽一遍語音才能得到準確的信息,另外,語音轉文字時因為是全屏,所以也不能同時回復對方。

⑦總是湊耳邊聽語音傷耳朵,我上高中時用耳機聽英語聽多了,耳朵已有小小損傷。


為什麼不試試語音輸入呢?

語音輸入在速度上並不比語音對講慢多少,但大大提高了別人獲取信息的效率,用語音輸入既方便自己,也方便別人!

現在,主流輸入法的語音輸入精準度已高達95%以上,日常聊天甚至可以達到100%的準確率。除了輸入法,微信客戶端也自帶語音輸入功能,請注意,我說的是語音輸入,不是語音對講,也不是語音轉文字!


另外,使用語音輸入還可以糾正我們的發音,你那麼在意說英語的口音,為什麼就不在意說漢語的口音?說普通話也好,說方言(如粵語)也好,發音更標準既能展現自己良好的精神風貌,又能體現對別人的尊重。

除了糾正發音,使用語音輸入還能提高我們的口頭表達能力。我們在用語音對講時,會不自覺地加入「這個」、「那個」、「嗯」、「啊」這些沒意義的辭彙,接收者也會自動過濾這些無關的辭彙,但輸入法做不到,於是,我們在使用語音輸入時,就會下意識地強迫自己不要帶那些無用的辭彙,天長日久,不知不覺中,我們的口頭表達能力就提高了,我們在會議上發言時也不會一個勁地「嗯啊,這個,那個」的了,吭哧憋肚的自己一去不返,不好嗎?

最後,語音輸入還能提升我們的辭彙量,提升我們用詞的準確度。因為語音帶語氣和情緒,所以,一些簡單的辭彙也能玩出花樣表達不同的含義,如果我們痴迷於語音對講,我們必然沒有拓寬自己辭彙量的慾望。另外,讀書不認真也好,學藝不精也罷,每個人都可能記錯一些字詞和成語(或者記錯發音或者乾脆記錯詞),在語音對講時,影響並不大,語音接收者(尤其是熟悉的人)會在腦海中自動校正語音中的錯誤,但輸入法做不到,所以,為了讓輸入法能夠更準確地理解我們的語音,我們會強迫自己矯正,提升用詞的準確度。


PS:安卓版微信擁有夜間模式,當你在微信環境內進入公眾號圖文(或其他鏈接),長按,會出來個「夜間全屏閱讀」的選項,進入就是夜間模式了。


語音輸入還要等待識別結果,還要修改識別錯誤,多麻煩呀~


因為語音能吸引聲音控啊!

對好聽的聲音簡直抗拒不能!!!


為啥語音輸入用的人不多,看完這個你就明白了。百度視頻搜索_山東大哥和車載語音

因為識別率低,一旦出現錯誤,糾錯太麻煩。

但是因此依舊堅持發語音的,都TM是傻逼。


============以下是TM的吐槽=============

看一條消息最多需要兩秒,聽一條消息TM得半分鐘。
你那邊是省事了按了吼就行我這邊得跟個傻逼似的先解鎖再開微信從靜音模式調成正常然後點開再貼聽筒,
一句話的第一個詞還會因為切換播放模式重複兩遍,

動不動還因為錄音問題完全聽不懂你TM在說啥

再傻逼的設計師也會考慮到你打電話的時候聽筒離嘴巴有多遠,稍微費個大約兩秒鐘調整一下音量角度優化一下收話效果,牛逼點的還會加個降噪,

但是再牛逼的設計師也想不到你TM能把麥克風懟嘴上吼語音啊!

你TM能不能別把麥克風含在嘴裡說話!

還有你,離著電話八竿子遠開語音,你隔壁啪啪啪的聲音都比你說話聲音大好不好?我TM是收語音呢還是聽黃片呢?
動不動腦子啊?人類科技還沒發展到你TM從娘胎里說話我從地球另一端就能聽見的程度好不好?

更甭提某些傻逼剛剛還TM離著八竿子遠下一秒就把麥吃了的情況
嚇死爹有木有!
媽蛋老子沒心臟病的都得喘半天好不好!


還有那些所謂的感情黨

感你妹啊!
要感情打電話好不好!同樣是語音強一百倍好不好!
老子就TM的談個生意,什麼貨多少價,啥要求上次怎麼談的,好好好行行行這活幹不了有本事過來打死你個小兔崽子
老同學就TM約出來見見,幾號有空有誰去,我買單別TM跟我搶,去你媽的帶她幹嘛土豪我們做朋友吧
感你妹啊!
打情罵俏找你媳婦去別找我啊好不好!
半夜三更的出來個娘炮變聲嚇到你嫂子我得跪鍵盤的好不好!

要不是都在用老子早tm卸了。

啥時候出來個抵制語音消息聯盟老子第一個加入。
誰攔著我削誰。


如果對方是自己喜歡的人, 還是挺樂意接收語音的吧,畢竟還能聽到對方的聲音。


我簡單的假設你說的是微信。

如果我發語音,很簡單,按一下就好。
接的人可能會有一些麻煩,尤其是周圍不方便,又沒有耳機。
可是…………微信有自動轉文字功能,也很方便。

但是現在語音輸入法還不成熟,經常需要修改,而且標點也是一個問題。

但是我出差寫報告的時候,我太愛siri的自動聽寫了。沒有電腦的時候,就是救星。


我覺得你們都太矯情了。
不方便聽的時候告訴對方發文字不就行了。
很多時候是雙方都覺得語音方便的


他自己方便。


因為地方口音沒法像普通話一樣高的識別率。幾年前在外工作時候就用語音輸入,現在反而不敢用,因為回農村了,說不溜普通話了~~~


如果是跟朋友聊天的話,用語音親切很多,一方面是你能從聲音里聽出對方的情緒,一方面就是能普通話里夾著方言,當一個人獨處異鄉的時候聽到方言真的很開心。
有時候聽語音是挺麻煩的,但跟對方講一聲我現在不方便聽語音不就好了嗎?哪有這麼多戲啊一句話的事情。
我反正是挺喜歡別人給我發語音的。


推薦閱讀:

如何簡單形象又有趣地講解神經網路是什麼?
概率圖模型(PGM)有必要系統地學習一下嗎?

TAG:互聯網 | 人工智慧 | 機器學習 | 語音識別 | 語音輸入 |