未來語音技術或者語音智能助手的發展方向是什麼?

尤其是與移動互聯網還有手機廠商的匹配,蘋果這種自主研發siri的除外


首先必須要聲明一下啊,作為一名語音技術的研究人員,顯然非常不能接受有童鞋說的十年之內語音技術只能用於輸入法的說法,這不是要砸我飯碗么……好了好了,言歸正傳。

細看一下,題主似乎問了兩個有些區別的方向,一個是語音技術,另一個是語音助手。顯然,語音技術只是語音助手的入口和出口(語音識別和語音合成),而語音助手只是語音技術的某一具體應用,這兩者是不相同的

對於語音技術,可能大部分外人的理解還僅僅局限在語音識別上。事實上,當我給別人說起自己專業的時候,都是用「語音識別」(尷尬ing)。其實,語音技術還包括非常多實用的方向,比如說話人識別、語種識別、語音合成、音色轉換、語音增強等等。

語音技術能做什麼?想像一下,當你回到家說一句「芝麻開門,我是xxx」,門就為你打開;你也可以對家裡的電器說話,而它們(他們?)只接受你這個主人的控制,是不是有種真的當家做主人的感覺?而藉助於語種識別,不管你說的是漢語還是英語乃至阿拉伯語,你的機器都能準確地完成你交付的任務;至於音色轉換……當你想念一個美女或者帥哥的時候,你可以……咳咳……

圖1 幾種典型的語音處理技術

就語音技術而言,未來的發展方向是非常多樣的。舉個栗子,許多互聯網公司都在研究怎麼利用說話人識別來自動進行身份驗證,比如網銀付款時的輔助認證、金融公司的反欺詐黑名單,同時避免某些心懷不軌的人用錄音等方法冒充身份。所以你單看說話人識別,發展方向也是多方面的。有人可能覺得這個場景似乎科幻了,但是實際上這些技術里實用是一步之遙,像阿里等企業已經在嘗試相關技術了。顯然,單純談輸入法,也太小瞧我們大語音了吧。(對,我就是這麼不服氣)

不得不說,語音識別是現在最為耀眼、大家生活中接觸最多的語音技術。近些年來,語音識別技術突飛猛進(參見為什麼 Deep Learning 最先在語音識別和圖像處理領域取得突破? - 科研君的回答為什麼 Deep Learning 最先在語音識別和圖像處理領域取得突破?),自然地受到了廣大公眾的極大關注。畢竟,語音識別的進步代表著機器的聽力發展,是人工智慧的重要一步。回過頭看語音助手,也一定程度上搭上了語音識別的順風車吧?

再來聊聊語音助手。其實我感覺,「語音助手」這個詞還是有點過於狹義。如果我們仔細想想,所謂的「語音」,不過是作為人機交互的一種手段,「助手」更重要的是能幫你完成你想要完成的工作。假設你有一個聾啞人秘書,你每次都需要把要他做的工作寫在一張紙上,而他則能非常完美地將你考慮到的、沒考慮到的細節一絲不苟地完成,你能說他不是一個好秘書嗎?(懶癌患者表示不是……)

當然啦,我們之所以要一個助手就是為了更加輕鬆的生活,而這種輕鬆自然是要求輕鬆到底、解放雙手的。懶是人類進步的原動力嘛。所以,要想最大限度地發揮智能助手的潛能,語音接入終究是必不可少的。

作為語音識別、自然語音處理最完美的結合,我充分相信未來的語音助手有無法估量的廣闊前景。這肯定不是我學科自信心膨脹啦,而是一點小小的預測。當然,這預測也僅是我個人的預測,真正的世界中還需要面對無數的困難與挑戰。

現狀

先來看看目前最為著名的幾個語音助手。

1.
Siri

自然,Siri因為是第一款進入公眾視野的軟體,具有最高的知名度;

2.
Google
Now

谷歌的語音接入服務;

3.
Cortana

Cortana(小娜)我使用了一年,留下了極好的印象,以至於一直流連於wp平台(絕對是真愛)。順便一提,小娜和小冰是微軟分別主打語音識別和自然語音理解的兩大平台,感覺有點像我上面談到的「語音」和「助手」的概念;

4.
Echo

Echo準確來說是一款亞馬遜的語音交互硬體平台,在國外接入了許多服務,由於採用了麥克風陣列,語音識別正確率也得到了保證;

5.
VIV、出門問問……

而VIV是上個月剛剛發布的系統,也是我感覺最符合未來語音助手發展方向的作品。出門問問則是中文口語對話系統的優秀代表,口袋有米的同學可以買個他們的ticwatch試試。

除了這些知名系統之外,許多互聯網公司(如淘寶)也都有自己的「小助手」。

那麼問題來了:既然助手這麼多,可為什麼日常生活中我們沒用起來的樣子呢?答案你肯定知道,那就是「不夠好用」啊。

舉幾個我遇到過的場景:讓Siri發個簡訊,說了半分鐘,它說沒聽清,要我再說一次,我上次說得很累懂不懂;讓Cortana幫我查一下菜譜,它給我彈出來搜索頁面,看得我眼花繚亂,我還等著燒菜呢;想搜索一下路線,說完地址它告訴我沒有安裝相應的應用,請先下載……各種累覺不愛。

不可否認,語音助手的可用性比幾年前已經有了極大的提高,但是在很多時候,你仍然會被他的too young too simple傷害到。也正是這些不夠好用,使得許多語音助手停留在被調戲的層面上。你說,誰會調戲現實中的助手呢?

語音助手的發展方向?

不知道各位童鞋同不同意上面說到的那些問題和缺點。不管怎麼樣,你肯定也遇到過類似的困擾,久而久之就忘記了手機上還有一個語音助手的存在。而未來的發展方向,其實想來很簡單,就是如何解決語音識別、語義理解、操作執行等存在的問題。

從技術細節角度看,我們希望有更好的語音識別性能,特別是在雜訊環境下魯棒的語音識別性能,別一句話聽不懂讓我說十遍;我們希望自然語音理解能做得更加完善,從我隨意的口語中分析出我真正的需求,不要總是說「倫家聽不懂啦,能不能換一句」,說一次是賣萌,說十次我就當你是傻了。

從實際工程應用角度看,我覺得有兩個急切的需求,一個是可穿戴設備的交互;另一個是通用的應用程序入口

可穿戴設備:

可穿戴設備由於體積等原因的限制,僅能擁有非常局限的輸入輸出設備。比如智能手錶,雖然最新的Android Wear已經支持了鍵盤輸入,而看了下圖。。。為什麼我有種揪心的感覺……

圖2 在智能手錶上用屏幕錄入(圖片來自Engadget)

再比如VR、AR、MR、XXXR遍地蔓延的今天,你帶這個頭盔,怎麼輸入呢?貌似各個廠家都在推出控制手柄,而遇到網址等需要一個字母字母輸入的情況就嘿嘿嘿了。顯然,在這種應用場景下,內置一個語音助手勢必是最好的交互方式。而針對可穿戴設備,語音助手可以是高度定製化的,比如手環負責手環的問題,手錶負責手錶的問題、VR眼鏡負責VR眼鏡的問題。並不需要多麼複雜的語法分析等技術。當然,如果你想讓你的手錶回答所有問題,幫你做所有手機能做的事,那麼就需要看看下一個方向了。

通用應用程序入口:

簡單點說,就是現在VIV正在干或者說想乾的事情。如果你不知道什麼是VIV,我先摘一篇報道Siri之父再出山,Viv想要「吞併」整個互聯網。一句話來概括,VIV就是希望通過一個語音助手,解決所有現在你需要用APP去解決的問題。

圖3 智能助手VIV(圖片來自Engadget)

試想一個現在的場景:比如你要定酒店,你可能打開攜程搜索一下,決定一個比較好的航班;再打開去哪兒搜一下,對比一下攜程;如果去國外,我可能還會打開Booking,再和攜程、去哪兒對比一下。如果要定外賣,分別打開餓了么、美團、百度;要買東西,依次打開淘寶、京東,貨比三家……且不論做不同的工作需要不同的APP,就連做同一件事都可能需要瀏覽一眾的APP。VIV的終極目標是去APP化,只需要你一句話,就自動幫你找到網路上最好最適合你的選項,所有APP都不需要了。你說這樣的助手你用不用?

當然,這只是一個最美好的圖景,你首先就要問:作為一家互聯網企業,誰能放棄入口這麼重要的東西呢?就像這篇報道淘寶在下一個十年還是不是電商領域的王者?,讓出自己的資源,那豈不是自殺么?而VIV這樣的助手是想搶各位大佬的飯碗嗎?

不得不承認,這個難題需要整個行業共同努力去解決(是否真的能解決也是打上一個問號)。因此,在語音助手上,相比技術上的進步,行業生態環境才是真正的阻礙。就像下面有人說的,如果智能語音一旦和商業服務做到精準對接,勢必是殺手級的。畢竟,我們用語音助手是想方便地辦事,不是和他胡侃海聊瞎調戲的嘛。

總結一下,我心中語音助手的未來就在滿足可穿戴設備的需求和提供ubiquitous(無所不在)的服務之間。(除此之外,智能電話客服也是一個類似的應用場景,不知道和你們說的助手是不是一回事了。)

非常喜歡喬布斯的一句話:「至繁歸於至簡」。手機硬體是這樣,想必語音助手的未來也是這樣吧。為了達到至簡,還有很長的路要走。一個擁有所有APP功能的平台,想想還有點小激動呢。真心希望語音助手不要成為「21世紀的生物」(學生物的朋友們,真的沒有黑你們)。

【「科研君」公眾號初衷始終是希望聚集各專業一線科研人員和工作者,在進行科學研究的同時也作為知識的傳播者,利用自己的專業知識解釋和普及生活中的 一些現象和原理,展現科學有趣生動的一面。該公眾號由清華大學一群在校博士生髮起,目前參與的作者人數有10人,但我們感覺這遠遠不能覆蓋所以想科普的領域,並且由於空閑時間有限,導致我們只能每周發布一篇文章。我們期待更多的戰友加入,認識更多志同道合的人,每個人都是科研君,每個人都是知識的傳播者。我們期待大家的參與,想加入我們,進QQ群吧~:108141238】

【非常高興看到大家喜歡並贊同我們的回答。應許多知友的建議,最近我們開通了同名公眾號:PhDer,也會定期更新我們的文章,如果您不想錯過我們的每篇回答,歡迎掃碼關注~ 】

http://weixin.qq.com/r/5zsuNoHEZdwarcVV9271 (二維碼自動識別)


無屏化

語音助手會在越來越多沒有屏幕的設備上出現,或者說語音助手會朝著純語音(VUI)的交互方式發展。

首先解釋一下純語音交互。純語音交互指的是我們給語音助手表達命令、確認、打斷、糾錯等等信息交換的過程完全通過語音來進行,沒有點擊、滑動等交互。

我們先確認一點,屏幕作為我們現在和智能設備交互的主要渠道,它十分重要。我們也非常習慣這種交互方式。為了更好地和屏幕進行交互,我們發明了 GUI(圖形用戶界面),我們創造了各種各樣的交互,如:點擊、滑動、觸摸、長按等等。我們太習慣,太喜歡這種交互方式了。甚至看到 App 圖標上的小紅點就手痒痒,忍不住去點。

所以,當我們面對一個帶有語音助手的手機時候,我們會去使用使用語音助手么?太難了!!

Siri 從 07 年開始開發,10 年被蘋果收購,滿打滿算,十年了。十年後的今天,我們做用戶調研的時候發現,沒有一個受訪者每天使用 Siri ,或者更具體是,沒有一位受訪者是每星期都使用 Siri 的。

原因很簡單,屏幕上幾乎所有的設計都是在誘惑你去點擊、滑動或者完成更複雜的『手指交互』。

而使用語音助手要求在一個滿是 GUI 的頁面上去使用語音和屏幕進行交互,這樣的錯位讓用戶充滿了割裂感。這樣的割裂感是現在屏幕語音助手無法克服的障礙。

好比說,一個使用屏幕 VUI 的用戶在 VUI 上完成一個『任務』後,可能會去 GUI 上完成 1000 個『任務』。這樣的使用情景下,用戶無法形成 『 與設備對話 』的習慣。

那麼 無屏化設備 / 弱屏化設備 是最適合語音助手發展的平台,比如屏幕很小的手錶、手環。或者連屏幕都沒有的音響、家居助手、智能戒指等等...

這些平台的可交互性或許比屏幕低,但是這些平台的語音助手給用戶更多的沉浸感。自然地更容易養成『 與設備對話 』這樣的用戶習慣。

最近幾年來,符合這樣趨勢產品也越來越多了,比如Alexa、Nest、以及已經被放棄的Google glass 都屬於這類產品。

所以語音助手的無屏化將是趨勢之一。

信息去中心化

這寫到半途,我的一個好友評論說

其實主要還是因為語音助手不智能,或者說nlp做的不好...

這句話其實對了一半,『 不智能 』的確是現狀,但卻不僅僅是 NLP 這一個方面。而更多的是『 語音助手擁有信息的豐富程度 』。

Hound - Say It. Get it.Hound - Say It. Get it. 是一家語音助手的公司,他們的產品 demo 視頻非常精彩,如『 告訴我在西雅圖四星到五星的酒店,我想住三個晚上,費用是$150-$250 』這樣的長句。這樣的句子已經能被機器所能『 理解 』,那剩下的問題是如何向用戶提供這些信息?

還是上面的例子,如果需要『 知道 』符合這些條件的酒店信息,首先語音助手得有這些信息。有了信息之後你才能找到『 在西雅圖的 』、『四星到五星的』等等符合這些條件的。現在的做法是用 Yelp Api 或者其他的 Api 來獲取這些信息。那麼一個語音助手擁有多少信息很大程度上依賴於它集成了多少 Api,以及這些 Api 能提供信息的豐富程度。

酒店只是其中一個例子,機票、電影票、日程安排、打車等等所有的這些服務信息幾乎都源於『 非語音助手內 』

這樣的信息,我們稱為『 非中心信息 』。

回到我們關於『 智能 』的討論,如果今天你問一個語音助手『 幫我找一家酒店 』,回答『 不會 』,有時候並不是語音助手不能理解酒店這個詞,而是他們沒有接入相關的信息,沒有相關的信息可以提供,最後只能去 X 度搜一下。

『 非中心信息 』或者 『 非中心功能 』現在已經是語音助手的大趨勢了。Siri 開放 Api 允許部分開發者接入也是不得已的事情,因為它根本沒有你微信內、滴滴內的信息,只有開放自己的 Api ,才能為 Siri 獲得更多的『 非中心信息 』。更有甚者,像是 Api.ai 這樣提供 NLP 的平台直接以 SAAS 讓開發者來接入。

所以『 信息去中心化 』是語音助手的另外一個趨勢。

情感化的語音

大家的討論我都看了,很多人因為下面的情況而不使用語音助手:

當我在公共場合使用語音助手的時候,我感覺很尷尬。

這是真的,我們的用戶調研也充分表明這一點。這的確是很多人不使用語音助手的原因。

BUT WHY?

我們都見過這樣的場景,一節車廂裡面,總有人對著微信講話,發語音。想想,同樣是在公共場合暴露私密內容,為什麼他們不尷尬呢?或者說為什麼他們的尷尬更少一些?

對於這個問題,需要回想一開始我們為什麼要做語音助手?為什麼要用語音來交互?

首先語音相比於點擊屏幕,它更加地自然。小孩兒吃不飽會哭,痛了會哭。當我們開始生活的那一刻,我們已經在用聲音來和外界進行信息交互了,天然地『 知道 』用聲音來表達自己的需求。

另外語音代表著更快地速度。成年人口語表達 230 字/分鐘非常正常,在辯論隊的時候,千字三分三十秒 是標準。這樣的速度比絕大多數人打字的速度都快。因為語音輸入能帶來效率上巨大的提高,所以現在語音輸入慢慢佔據消費者市場。如果你仔細觀察的話,會發現現在幾乎每一家的輸入法上面都帶有語音輸入。帶來的效率提高是顯而易見的。

除此之外,最重要的是,語音是富信息

在人與人之間的對話中,我們能從別人的語音信息中知道,他是否在生氣、開心或者氣餒等等。因為語音中帶有音色、音量、速度、節奏等等信息。所以我們能夠從這些信息中了解到你的『 狀態 』。換句話說,語音天然帶有同理心

具有『 同理心 』的交互與點擊屏幕的區別在於,點擊屏幕是你給手機下一個指令,手機冰冷地完成你的需求。而語音交互則是讓你的手機更好了解你,讓你能和你的設備『 交流 』。

回到尷尬的問題,現在語音助手的尷尬在於『 它不懂你 』。

微信語音的時候另一方不會因為你沒有說中一個『 關鍵詞 』而不明白你的意思。屏幕對面的 TA 能分辨出你是生氣還是在傷心。所以你可以自由向 TA 表達自己的情緒,因為『 TA 懂你』所以你不會覺得尷尬。

但事情到了語音助手就不一樣了。我們用戶訪談的時候發現,很多用戶在和語音助手對話的時候,語氣和正常說話是很不一樣的。他們會壓低自己的聲音,會嘗試讓自己的聲音變得沒有感情,像機器人一樣說話。後來發現,這樣是為了最大程度地降低『 尷尬感 』。因為你無論用多豐富的情感和語音助手講話,這些情感都會被『 浪費 』,語音助手沒有處理這些『 情感 』的機制,只能處理語音中『 帶字的部分 』。當你不斷『 熱臉貼冷屁股 』的時候,不僅僅是你,所有的人都會替你尷尬。

尷尬來源於『 它不懂你 』 。

『 懂你 』只是開始,更重要部分是情感化的 TTS(語音播報)

情感化的 TTS ,意味著語音助手能夠根據你的狀態來對應地給你真正的『 反饋 』,這樣的『 反饋』 我們稱之為『 溝通 』。因為它能夠開心你所開心的、能夠對你的悲傷給予安慰。讓你真正感受到『 同理心 』

這時候『 尷尬感 』將不再存在。

評論中對 Her 、對語愛的需求,都是來源於我們對情感交流需求,而情感化的語音正是這些需求的起點。

所以情感化的語音助手是趨勢之一。


昨天看人民的名義,公安局局長逼著蔡成功複述一段文字,並且準備拿錄音去做比對。我還在說,這不就是text dependent 的說話人識別么?同樣的文字,識別說這段話的人究竟是誰。編劇不了解的是,現在的text independent 說話人識別技術,其實已經足夠先進,可以鑒別A說的任意一段語音,第二段內容完全不同的語音是不是同一個人。

這裡,就有一個最近比較熱門的方向,Spoofing Attack. 不確定怎麼翻譯,應該理解成,有個壞人去用各種機器,或者變聲偽裝成我的語音,希望騙過我的手機支付系統。手機支付系統需要做的就是,怎麼認清楚壞人!這是矛與盾的問題,現在怎麼做出更有欺騙性的聲音,怎麼識別出來,這兩方面技術都在發展。

語音界的頂會是Interspeech,近幾年都舉辦了類似的競賽。有一些有意思的方法出來。但是看了一些文章,準確率不是特別高。

講講應用,我覺得這個的應用是無限的,聲音是人挺明顯的生物特徵,值得好好利用。企業電話面試的時候,怎麼識別出來面試的人是不是申請者?手機支付的時候,怎麼識別出來是有人拿了錄音來偽裝,還是真人?特別是電話詐騙,怎麼知道電話那頭究竟是你的領導還是個騙子?

語音技術,不僅是從語音到文字的轉化,這個聽音識字的技術,已經達到了可以產業化的程度。到了產業化的,也就意味著科研進入穩定期。而說話人識別,偽裝與反偽裝,是有著巨大商業前景,還沒有被充分開發的領域。


誠如樓上各位所言,語音技術是個特別大的概念,當中最為大家熟知的是語音識別技術,單就這個來說,目前的發展方向,或者說最需要解決的問題的是噪音和口音的問題。因為對應到具體的使用場景中,大街上、汽車裡、商場、甚至是家裡,總是會有噪音的問題。我們總是習慣性的恨不得把麥克風塞到嘴裡說話,用盡量標準的普通話來迎合識別引擎,生怕會得不到想要的識別結果。這個是語音識別要真正融入到我們的生產和工作之前,必須要解決的問題。可喜的是目前已經有語音技術提供商在方言和麥克風陣列拾音降噪方面投入研究並有了比較不錯的效果。(還可參考訊飛輸入法在語音識別上所作出的成果 「識別一秒鐘,線下十年功」 -- 語音輸入如何一分鐘400字 - 知乎專欄)

對於智能語音助手,特別是手機上面的,我們認為目前最大的問題是語音理解的部分。語音識別只是語音助手的入口(目前來看也是最合適的入口),入口之後則是非常複雜的認知、理解甚至是推理,如果把語音識別本身比喻成人的耳朵,那麼語義理解就是人工智慧的核心——大腦。人工智慧有三個層次,分別是運算智能、感知智能和認知智能。其中,前兩個層面機器的能力已經超越人類,比如計算機下象棋超過了人類象棋大師,機器可以聽超聲波、看到紅外線等。目前,科大訊飛也已經在第二個層面感知智能(包括語音合成、語音評測、語音識別等)實現技術突破;認知智能已經成為當下人工智慧破局的著力點。目前很多手機廠商提供的手機語音助手大多還比較簡單,打電話問天氣等基礎問題還可以,問複雜一些問題,它就開始賣萌耍寶了,這也從一個側面說明真正的智能還需要更多的突破。

以上內容來自訊飛開放平台技術服務專家 汪艦


作為一個時常需要寫字的人,我對語音識別技術的關注是純用戶式的,滿心期待它越快速發展越好。對語音技術的判斷是,它終將走向內容,深度挖掘用戶的需求,和商業結合,在利益的驅動下才能快速發展。

從文字創作的角度考慮這個技術的應用,我剛好最近和公司的一位編劇討論試驗了一番現在比較火的語音識別輸入法和記錄,想看看這種文本輸入方式,會不會改變我們的語言習慣,會不會改變文字出來時的感覺。

然後還嘗試說寫了一小段文章。嘗試的結果是,真的會有區別,當然,目前來看,說寫的方式的確不如用腦直接手寫的語句流暢。而且,想法從腦海里直接傾瀉到指尖,與通過嘴唇說出,感覺真的是天差地別,似乎思索的時間的單位也不一樣了。而且,某些劇情或者想法直接手指敲出,與語音說出相比,後者似乎多了一些莫名的羞恥感(突然覺得莫名中二是怎麼回事?)。
但換另一種思路,所思轉換成了語音,再記錄成文字,也有另一種風味,特別是在劇本里呈現出來,也許更多了真實性,少了一分想像寫作的漂浮性。

目前對於編劇和文字創作者來說,它是一道配菜,有新鮮感,但是,想作為主菜,還是有些困難。

如果從這個角度談應用,也許這種語音識別技術還有很長的路要走,比如一些語氣詞的剔除,如何在聯想的基礎上作更好的語義選擇。又或者,多一些場景的選擇模式。就目前而言,語音識別技術的準確率應該已經不是什麼問題了吧,看到搜狗的老大王小川之前提到搜狗的語音識別準確率已經超過97%,而當時看了他那段二十分鐘的演講,當場轉化為文字,也是相當震撼的。

對我而言,平常用最多的場景,是在聊天中,或是小的材料記事中,我非常喜歡用搜狗的語音輸入法。但是目前的感覺,實用性是非常好的,但是在應用上,還沒有打通壁壘,比如微信就始終不給接入搜狗的語音識別,每次要跳出界面都會讓使用成本提高很多,有種各自為政的感覺。當這種技術擴展到各種平台,無縫接入,應該是接下來長時間需要做的工作吧。比如所有需要文本的情境,都能一鍵打通語音識別,手機電腦之外,其他智能平台的語音識別。

語音識別技術的未來,我覺得應該是言靈一般的存在。

提到這點,我總會想起很久以前看過的一部腐向日漫,具體的名字已經記不清楚了,只記得裡面的戰鬥並不是肢體的纏鬥,而是語言的形容。只要可以用語言描述出來的,都可以成為招式。就像以前我們在語言學課程上老師所說的,思想是通過語言確切形成的。所有不可被語言抓取的想法,都只是散亂的思緒,一旦它形成了語言,就具有了強大的能力。就好像言靈一般,一旦成為語言,就具有了力量,就變成了現實。

想不起來那部好早的漫畫了,所以就用了《夜櫻四重奏》的圖。我個人覺得,它甚至比圖像相關的技術更厲害,而這種技術一旦擴展到各種場景,將擁有無比巨大的力量。我個人堅信這點,可能與自己是文字工作者有關。

所以,語音識別能力技術發展的未來,在更多的聯想和擴展功能上,比如內容的深度挖掘,比如社交,比如更多場景的應用。也許是《黑鏡》《鋼鐵俠》中部分呈現的技術未來,我們的未來也許是一個語音交互全面呈現在各個場景的未來:通過聲音指令開始日常的工作,簡單的語音指令可以讓機器完成整套複雜的動作;雙手和雙眼被完全解放;而基於內容需要的語音識別,可以根據我們的語氣,語調,根據我們的慣性思考,呈現出更細膩的文本;語音和文字、圖片能夠更加自由的轉換,並根據場景的需要,呈現出理想的形態……

Javis真的太炸了···

這種浪漫式的思索,我覺得基於技術的發展,會有一步一步的發展,而這個發展,只要有錢景,只要有想像力,最後都會成為現實的。所以,關鍵在於這種應用在未來的盈利性如何。所以特意看了一下搜狗最近發布的財報,語音輸入的頻次在不斷提高,不知不覺間,搜狗已經成為了僅次於微信和QQ的第三大手機應用,
第三季度營收達11.1億元人民幣,同比增長9%,快於行業增速。

如果單單從語音技術和輸入法來看這種發展,就太淺顯,其實背後的增長,個人認為,是對於內容和用戶需求的深度探索,這才是最寶貴核心。其實說白了,所有的人工智慧,基於的仍然是對我們所思所想的具體呈現的探索,而從語言的語音入手,我覺得是好的入口。

一旦有了利益的驅動,相信語音識別在未來的應用,一定是多場景深入式的發展,它會全面擁抱我們的各種需求,竭力挖掘所有我們可想而又未呈現出的各種可能與願望。


在「人工智慧」被過度宣傳的這幾年,不少產品過度哄抬了自己的能力,導致用戶期望值過高,最終連及格也達不到。想想那些年我們調戲過的Siri,似乎可以做很多事情的樣子,可是除了被調戲,有多少人能準確說出它還能幹些啥?

一定要有功能性,滿足剛需

對於語音產品,我們非常看好以下場景:

智能硬體:非常看好傳統硬體的品類升級,比如智能耳機和智能音箱。又比如筆記本和電視上加上語音功能,可以想像的一個場景是,通過遙控器來控制電視機來選電視欄目或者電影效率遠遠低於直接語音輸入。

智能安防:簡單的說,可以給所有的攝像頭加上麥克風陣列,增加語音模塊。

智能醫療:語音在這個領域有諸多應用,一個例子是電子病歷,簡單的說就是醫生在診斷過程中語音輸入便可以直接形成病歷。另外一個例子是醫學檢測有些是通過聲音檢測來完成,那麼直接加上語音模塊既能完成交互又可以檢測,可以淘汰掉屏幕等交互方式。

教育:可以將麥克風陣列應用於多媒體教室,另外一個應用領域則是遠程家教。

智能玩具:具有語音交互功能的玩具更吸引孩子們的注意,但是考慮到玩具成本以及孩子的習慣,單麥識別演算法是當前比較適合的方案,例如360兒童機器人,360故事機等

汽車市場:在手和眼鏡都被佔據(no hands no eyes)條件下,語音是個最好的交互方式,汽車上的語音產品是兵家必爭之地。

語音將成為下一代智能設備重要的交互方式是一個確定的事情,隨著行業的進步,更優質的語音產品將會更低成本進入生活方方面面,為我們的生活和工作帶來更多便利。

智能語音服務需要解決的技術難點

那麼要滿足這些需求,一個智能語音服務需要克服三大技術難點:

第一是自然語音交互。想讓機器理解人的語義,需要將人類的自然語言變成程序講義,讓機器理解程序變為一個執行過程。機器必須先聽明白用戶在表達什麼,才能進行對話。

第二是知識的表示和推理。人類發送指令的時候,意義未必明確,目前機器的淺層次理解仍停留在搜索引擎。往往當用戶對機器發出「我要聽周杰倫」的指令時,它只是列舉周杰倫的歌單罷了。但知識的表示和推理是一套連續的驗證和推理過程。

在知識的表示和推理背後需要知識圖譜,我們可以將每個垂直領域的覆蓋看作是垂直知識的構建,但是並不是場景越多,規則就要越多,而是儘可能使用更抽象更通用的規則。

每個人的思維路徑是有差異的,同樣是選餐廳,有的人會優先考慮團購信息,有的人會優先考慮菜系。所以在面對人類的思維時,弱化規則,只在必要的節點處設置規則,這樣既能保證對話應用的任務導向性,又能給予對話足夠的靈活度。

第三是自動服務對接。訂餐、訂票、接音樂、接電視……此類服務需求量級巨大。僅音樂一項就有多少個軟體?網易、酷狗、QQ、蝦米……每一個軟體都是不同的介面,傳統的對接方式需要耗費大量人力。

自動方式能夠節省資源和時間,而做智能語音服務如果能夠開發程序實現讓機器自動讀取、選擇介面接入可以事半功倍。

多輪對話的重要性

語音助手為的就是在對話中完成服務,如果你想獲取信息,它能給你有效的信息,如果你想讓它幫你完成任務,它能高效準確地完成。

從這個角度,有很多場景需求需要多輪對話,並能準確地理解連續上下文才能最終達到用戶預期的服務。

但多輪對話並不是輪次越多越好,能不能通過對話的方式,幫助人獲取信息、完成任務,對話精準和服務精準才是終極目標。

強調生成模型

目前在自然語言理解領域裡要求大量訓練樣本的深度學習適用場景比較有限,他們更多的是使用小樣本的生成模型

自然語言理解領域的語義表示是有組合性,而推理的建模強調因果性,很多時候自然語言理解需要有目的、有計劃的有步驟的優化過程,而且強調步驟之間的邏輯關係,而現階段的深度學習更像是一個黑盒子,他只可解決自然語言的中的部分問題,特別當涉及到對話領域,上下文的理解時,深度學習的黑盒子就顯得局限很多。

目前比較適合的機器學習演算法是生成模型,但是生成模型需要針對問題去建模,其強調的是建模的重要性。利用此類方法建模,一般需先針對問題中的子問題進行「元模型」建模,然後通過有限的推理方法來組合成更大的模型,其推理過程體現的因果關係清晰可見,可以從結果反饋來追本溯源,逐步優化推理中的每個環節,即使在小樣本集上往往也能訓練出好的效果;而且生成模型推理過程中涉及的參數比較少,一般都對應具體的物理含義,具有很好的可解釋性。

遷移學習和增強學習

交互的目的是為了決策,而決策需要記憶和學習。

長期的記憶是用戶的個性化習慣或者用戶畫像的學習,短期的記憶則是對話中最小的可復用的單元,需要去捕捉,這也是建立在前面提到的多輪對話之上。

而在學習方面,遷移學習和增強學習很重要。

對於人來講,在特定場景學習到的知識,人類並不會選擇將其固著在唯一的場景中,知識的場景遷移能力使人在學習新知識時理解起來更加容易,掌握起來更加迅速,即使是從未接觸過的領域和場景,人類也能完成知識遷移。

比如找餐廳的任務,它可能需要地理位置知識、菜系、交通信息等。如果只是單項知識的簡單疊加,而不能認識到各領域知識之間的關係,缺乏知識的推理能力,那麼當面臨更為複雜的任務時就失效了。

從被動到主動

現在絕大部分的系統都是被動交互型,以現在非常流行的閑聊為例,其只能依賴於用戶說的話,根據之前大量對話實例的訓練,來生成一句似是而非的回答,以此消磨時間,抑或點燃情緒。

對話式決策系統一個非常重要的功能是需要對環境變換能做出感知,進而轉化為語言的表示,來和用戶進行主動交互。

如果用戶剛在家中通過語音助手找到了附近吃日料的A餐廳,走上車啟動車載系統,車載系統中的語音助手如果根據上下文位置變化及開車這一動作進行主動發問:「主人,請確認是否為您導航到A餐廳?」,這種情況下,系統的主動發問是一個非常智能的表現。

類似的主動服務可能是語音助手的一大競爭力。

從軟體到服務

在未來屏幕交互的方式不再是主流,屏幕進一步變小,甚至消失,取而代之是更接近人與人之間的交互方式,語音,動作,以及各種感測器的自動檢測,也因為如此,在不同場景下不同的智能設備得以出現,承載了一種或多種應用能力,軟體之間的邊界消失了。

曾經的軟體供應商退化成服務提供商,專註於提升其核心數據和演算法的質量,軟體的開發成本降到最低,但是其使用效率卻得到了極大提升,智能化得以極大體現,這是一個機器逐步模仿,並最終超越人類的時代。

---------------------------------------------

部分內容來自對 驀然認知CEO 戴帥湘 的採訪

戴帥湘是前百度主任架構師,曾長期擔任百度Query理解方向負責人,曾榮獲百度語義技術的最高獎。他在2010年提出「Query改寫模型」方案,提升了百度引擎的搜索相關技術,帶來大幅廣告收益;他擁有20多項專利技術,分布在自然語言處理、語義搜索、自動問題求解等多個領域。

--------------------------------------------

歡迎關注 @矽谷密探 ,掌握全球創新趨勢~


看到強答的真心覺得想笑... 實際上就一句話,把NLP做好.


利益相關,TMT第三方研究機構:慧辰資訊

人工智慧的核心兩個核心應用模式:

1、改變機器的交互方式,使得人機交互方式更加簡單、直接

2、改變服務的執行模式,由執行式服務向互動式服務轉變

所以,語音助手產品也是人工智慧時代的代表性產品,將是人工智慧+時代,互聯網應用的核心產品。

對於這類型而言,語音操作只是接受命令的形式,更重要是想做成一個個人助理。人人都希望有一個貼心的私人助理,幫忙處理各種雜事,是對於普通人來說,好「秘書」或者「管家」的成本低到不再是可望而不可即的時候才可以走進尋常百姓家。顯然,機器比人更容易實現。語音助手產品想讓人人都能擁有一個賈維斯。

隨著互聯網和智能+的發展,終極形態的個人助理產品的價值是一個超級入口。

首先,機器會收集和記錄個人及家庭數據,以提供有效服務。根據數據積累結果,即用戶的習慣,偏好,需求,機器才能恰當的為用戶選擇就餐餐廳、安排休閑活動、購買生活用品,提供各類服務。

其次,機器會將數據循環應用,動態優化服務。個人及家庭生活必然是動態變化的,而機器也將不斷累積用戶新發生的生活數據,並根據環境、個人及家庭生活狀態的變化,調整用戶的習慣、偏好和需求記錄,提供可以體驗到的「智能化」個人助理服務。

最後,機器將成為「掌控中心」,成為必需服務。當機器能夠根據用戶行程自主安排交通工具,還能根據用戶的位置、氣溫甚至身體情況控制家電工作,可以全方位安排用戶的生活,這個「助理」就成為人類連接萬物的關鍵節點,人類將從雜事和選擇中解放出來。未來,對於為人類生活提供服務的企業,業績的好壞將很大程度取決於這個「助理」的選擇。「個人助理」成為商家必爭的營銷渠道,商業變現也順理成章了。

個人助理的實現仍需數據的積累和演算法的突破

我們先來看看個人助手的實現步驟:

第一步是接受信息,有可能是用戶下達的命令,也有可能是「助理」根據用戶的行程安排,習慣或者其他監測數據,「發現」的用戶需求;

第二步根據分析搜索,「助理」將根據用戶的習慣、偏好,當時情況綜合分析,搜索最符合用戶需求的「服務」;

第三步是執行任務,直接向用戶推送服務,提醒行程,甚至直接完成關閉家電,叫車等任務。

然後就目前的條件而言,還有以下三大問題:

1)自然語言處理技術還不夠成熟。機器還很難理解「我討厭你」是表達不滿,還是情人間的嬉戲打鬧。機器仍不能順理成章地將語義理解與語境、情緒等結合,至於語言表達背後的暗喻、明褒暗貶等的理解,機器可能不會達到人類智慧的水平。

2)數據不完整。目前的數據最多是用戶互聯網使用行為數據。個人自然屬性數據、環境數據仍不完整。商家數據與個人數據無法做到充分關聯,不同的商家掌握相應渠道的數據,不同渠道之間的數據也尚未打通。另外,物聯網尚未普及,與個人生活相關的硬體應用數據還不能完整收集。基於以上問題,不難看出「個人助理」的五官還不夠靈敏,無法將諸如用戶健康數據、家庭環境,以及機票,行程等更多維度數據或者信息關聯到明確的具體用戶上。信息們大珠小珠落玉盤般散落在多處,「個人助理」完全沒辦法掌握使用者的實時動態,也就無法根據即使主動的「發現」用戶的需求。

3)自動推理演算法仍需突破。機器在分析用戶的需求和習慣時,數據來源不足,消費信息、偏好等數據的缺乏使得「助理」無法更深入了解自己的「主人」,此外,在分析搜索環節還需要「助理」的思考,推理和分析能力,能夠準確的分析出用戶的需求,這也需要人工智慧在自動推理等演算法的突破。由於之前階段的問題未能解決,也影響了之後階段技術的進一步發展。

相對而言,執行環節相對比較簡單,需要解決的不是數據和技術問題,而是完成溝通合作的任務。只需要與更多服務商展開服務,接入服務,以及與智能生活相關硬體的互聯互通,便能實現通過「助理」完成點餐,家居生活管理等任務了。

綜上,個人虛擬助手未來發展前景廣闊,但需要突破和解決的難題也不少。目前的瓶頸核心在基礎數據的採集、打通以及自然語言處理、自動推理等人工智慧演算法兩個層面。而且,個人虛擬助手除了自身發展突破,還需要基於物聯網和人工智慧技術的發展,尚需時日,有夢,還要努力去追。

——慧辰智能研究院:林仁翔

【公眾號:智能研究院,研究智能+,智能+研究,專註智能硬體、人工智慧、雲計算、商業智能及相關領域。歡迎大家關注】


賈維斯 是語音助手的終極目標


以下內容為奇點機智聯合創始人林德康教授在「鈦媒體」線上活動中的分享,剛好符合主題,分享給大家,歡迎更多交流探討。

林德康 奇點機智聯合創始人兼CTO

  • 國際計算語言學學會會士(ACL Fellow)
  • 加拿大Alberta大學計算機教授
  • 原Google研究院高級管理科學家,Google搜索問答系統創始人
  • 自然語言處理及理解領域共發表90餘篇論文,研究總計被引用超14000次
  • 曾任ACL2002程序委員會聯合主席、ACL2011大會主席、ACL2007北美分會執行委員

語音助手將成為下一代搜索的核心

2016年是人工智慧元年,智能語音技術作為人工智慧應用最成熟的技術之一,在智能助手、智能家居、智能車載、智能可穿戴領域有了迅猛發展。

(全球智能語音產業規模持續增長)

(中國智能語音產業規模持續增長)

據權威數據顯示,2016 年全球智能語音市場規模達 82.2億美元,同比增長 32.4%。中國智能語音產業市場規模也逐步擴大,2016年59.2 億元產業規模,同比增長47.1%,預計2017年產業規模將突破100億,同比增長69.8%,且增速顯著高於全球市場,約佔全球市場份額14%。

人工智慧也已被看作未來手機發展的重要方向之一,從蘋果iPhone的 Siri 到微軟Windows phone的Cortana,從谷歌Pixel的 Google Assistant到三星S8的 Bixby,從華為Mate 9內置的Alexa到HTC U11的DuerOS,現在幾乎每一款旗艦智能手機,都內置了一位「虛擬助手」。

語音識別技術的進步

在深度學習出現以後,語音識別從幾乎每一句都有錯誤到現在接近人類的水平,可以說有非常大的進步。語音助手也不再只是機械式地與用戶互動,而是能夠智能化的分析和感知用戶思想。現在的語音交互,與其他交互方式相比,具有三個優勢:

一是語音交互的速度快。斯坦福有一項研究表明,語音輸入的速度是鍵盤輸入的三倍。

二是語音界面是扁平化的。任何一個功能都可以依據指令直接到達。比如微信里的功能通常需要幾個甚至十幾個點擊才能完成,而用語音說一句就行了。

三是不需要學習。通常每個應用都是經過學習以後才會使用,但使用語音就可以省略學習的過程。

據市場研究公司Fivesight調查,約有72%的美國用戶已將語音助手作為對搜索引擎的補充,Siri已成為僅次谷歌之後的第二大移動「搜索引擎」。市場推動下,智能語音助手將成為下一代搜索的核心,以及新生態的核心。

語音交互+圖形界面是最好的組合

語音交互過程通常由三部分構成:第一步,把聲音轉成文字(語音識別);第二步,把文字轉換成意圖;第三步,把意圖變成可以執行的命令,調用各應用API或網頁來完成指令。也就是說,第三步捨棄了你手機里的APP和其原有界面,直接在語音助手上集成功能,如打車、外賣等。

那麼,對於一個語音助手開發者來說,前兩步,比的是AI團隊多強大,第三步,比的是你的BD團隊多強大。

現在的手機助手一般是用一個聊天界面跟後台服務對接,谷歌的手機助手就集成了谷歌里的問答、導航、本地搜索等多種服務。這個提供問答功能的系統就是我在谷歌的團隊做的網頁問答系統,你還可以問它天氣情況,它顯示的是華氏度,如果你問攝氏度是多少,它就會把同樣的答案用攝氏度回答出來。

但「對話框+後台服務「也有不盡人意的地方,比如連接後台服務是一個相當複雜的過程, 通常需要工程師去完成。還有在對話框里重現用戶體驗不是一件容易的事情。還經常做得不如原生應用好。再者語音助手和後台服務的經濟利益可能會有衝突。比如航班搜索,它只列出了航班和價格,但是如果需要下單就不在應用助手頁面里了。

(命令行界面:1D)

(圖形界面:2D)

(對話界面:1.5D)

在從前,命令行界面是很常見的界面,但現在的年輕人也許根本就沒見過,微軟DOS操作系統的命令行界面,因為只能在一行里輸入,所以我稱它是「一維」的,我們熟悉的圖形界面是「二維」的,而對話框界面退了半步是「1.5維」。

圖形界面具有很多的優點,比如語音輸入的速度比敲鍵盤要快得多,但是視覺能夠收到的信息要比聽到的信息快得多,所以最好的組合是把語音和圖形界面結合起來,在圖形界面上增加了一層語音交互,原有的圖形交互不僅可以繼續使用,在應用里的任何地方還可以用語音交互,這樣,就形成了一個立體「三維」界面。

語音助手「小不點」打造全新人機交互體驗

小不點與常見的手機助手有兩點主要的不同:

一是小不點不會將用戶局限在語音助手的對話框里。而 Siri、Google Assistant 等常見的語音助手,都是以應用程序界面的形式出現,即用戶與助手的交互鎖定在同一個對話框內。

這涉及到用戶體驗重構的問題。例如,當你在攜程 APP 上購買機票時,可以按照時間、價格等因素排序,也可以篩選只考慮某一航空公司的飛機。但想要在語音助手的對話框內實現這些功能非常困難,然而這些功能又恰好是用戶的需求所在。小不點的操作模式是直接將用戶帶入 APP 頁面,自然利用 APP 已經實現的功能模塊,不需要再對應用程序進行重構。

二是小不點代替用戶手指點擊界面,這繞開了語音助手對接應用程序 API 介面時所遇到的商務拓展難題。語音助手普遍需要一家一家地談合作夥伴。實際上,用戶用得越多的應用,越不願意給你開 API 。因為它不需要你的流量,而且它也不知道開了 API 之後會有什麼其他的影響。小不點繞開了 API 的限制,想要小不點「學會」使用某個 APP ,研發人員只需錄製這個 APP 相關功能使用時的點擊路徑即可。

目前,小不點已經「學會」一百多個 APP 的使用方法,而這其中只有百度地圖等少數幾個應用程序開放了允許第三方調用的 API 介面。有 API 可以調用的時候,我們當然會用,因為 API 的響應速度很快。比如百度提供了導航的API,我們就不必用模擬點擊來完成導航任務,而是直接調用API達到結果。

一旦遇到小不點目前還沒有實現的APP操作,其中的智能學習功能則可以發揮作用。當用戶激活學習功能後,只需按照平時的步驟操作,小不點會自動記錄,用戶日後再次下達指令後,自動完成所有操作和跳轉。目前,安卓應用商店有約 280 萬個應用,團隊無法靠蠻力記錄所有應用程序的所有操作路徑。因此,小不點自帶的「學習」功能,此時就派上了用場。

比如我想查手機上的流量,小不點幫我做的是在百度上搜索「查流量」,但「小不點」的好處是用戶可以教它從前不會做或做錯的事情,例如先教它查詢流量的過程,再對它說「查詢流量」就可以達到我的目的了。用戶教給小不點的命令馬上就可以使用,甚至可以分享給別人。我想很多人都體驗過給父母做技術支持是一件相當不容易的事情,如果很多人教給小不點同一個命令,我們就會把它加到公共庫里,這樣所有人都可以使用,小不點就會越用越好用,越用越懂你。


來回答語音智能助手的部分。

我認為以下幾個問題是所有智能助手(不僅僅針對VUI)一定要解決的,如果不解決則無法普及應用。所以未來VUI / CUI / XUI 助手的發展方向,可以從解決這些問題的角度來思考:

1. 多APP協作。

播放昨天小喬推薦給我的幾首歌。

首先,要在通訊錄(很可能要整合多個聊天app的通訊錄)中找到小喬是誰,結合昨天我在各聊天app的使用記錄,找到哪個小喬(如果重名)以及她推薦了什麼歌給我。然後,用系統中音樂類app來搜索這些歌,再播放出來。

VUI在協作上不是弱勢,相對於後面兩個問題,協作是比較容易實現的。從Viv Demo來看,它已經做到了類似的功能——可以用一句話完成諸如」給Adam轉賬20塊錢」的操作。對Viv真的很期待,希望真品上架後不要讓人幻滅。

2. 多任務並行。

多APP協作是利用多種資源滿足一個需求,而多任務並行是同時解決多個需求。

在助手研究」小喬到底發了什麼歌「的同時,我想到小喬住在上海,而我依稀記得上海下個月有個會議,可以順便去找小喬玩。於是我等不及助手完成播放音樂的任務,就追加說,」下月幾號我在上海來著?「可能還沒有等助手反應過來,我又想到,「上海這個季節穿什麼好呀?給我看一些最近的時尚街拍,順便把衣物的標價和品牌也查一下。」

我們現在也在做著類似的事情,打開N個tabs,M個windows,X個APPs,Y個devices。等待助手去完成任務的過程可以忍,但自己如泉涌的思緒不能及時表達,不可以忍。

3. 多層級用戶中斷。

GUI已經發展出豐富的中斷層級,可供用戶用來暫時或永久的停止一個功能:

最小化、暫停、取消、後退、從頭重來、後台運行、退出當前功能、退出OS。

VUI和CUI尚未形成同樣強大的中斷功能,但如果要給用戶足夠的信任感,這是必須做到的,尤其在多任務和多APP的情境下。

下面兩個經常被討論的問題,我並不認為是語音交互的阻礙(也不是VUI、CUI的阻礙):

1. 隱私。

  • 如果語音助手取代的是人類助手,那隱私問題是偽命題,因為它們會發生在所有的「助手」身上。不是說不需要關心和解決它,而是「語音」二字並沒有令現有的情況更糟糕。
  • 如果用語音交互實現目前人機交互的所有功能,我認為不現實,但這個不現實源於其他問題而非隱私。整個人機交互用純語音進行這個設想,本來就太自我設限了:GUI從來就不是純GUI(想想清空回收站為什麼那麼爽,Youtube也並不都是默片,Spotify老老實實地播放了歌曲而不是用圖文來描繪歌曲的樣子),設計VUI的時候,又何必拘泥於純VUI?
  • 還有一種可能性——用CUI來替代現在人機交互的所有界面。CUI ≠ VUI,但常常被混為一談。語音交互的隱私問題主要因為聲音傳播的3D性和穿透性3D性:可以把屏幕轉到他人眼睛看不到的角度再進行操作,但聲音指令如果想讓機器聽到,也很可能會讓同一空間的人類聽到;穿透性:屏幕可以被輕易遮住,但完全阻擋空氣的震動是非常困難的)。用CUI完全可以規避這個缺陷。如果我們擴大範圍討論CUI助手,那麼隱私也不構成阻礙,因為它至少和目前的GUI隱私性一樣,或者說,它就是一種形式的GUI。

2. 速度。

  • 很多人抱怨純語音交互太慢,現狀確實這樣,但速度問題很大一部分源於糟糕的設計。GUI用錯了,也很繁瑣低效。在《The Best Interface is No Interface》一書中Golden Krishna就列舉了大量這樣的例子(比如BMW一款開車門的APP需要13步解鎖車門,而傳統鑰匙只需要2步),並據此提倡創業者和設計師們(尤其是矽谷咖啡廳里畫著wireframe的那些人)不要將Mobile APP甚至不要將屏幕作為產品的默認媒介。
  • 另外一個速度的擔憂是語音作為信息輸出方式,天然具有順序性,因此要全面展現信息就很慢。比如,圖片搜索的時候一下展現10張縮略圖,用戶馬上可以判斷要哪個。但是如果是在10段語音中做選擇,就只能一段一段順序播放片段,再做選擇。但是,如果我們把信息的表現形式和交互方式分開考慮,就不需要這麼糾結了。正如在上一段隱私問題中提到的,GUI從來就不是純GUI。在VUI/CUI中信息展現的時候,我們可以繼續使用視覺信號呀。誰說語音交互的系統在確認了用戶意圖後,不能直接展示一幅畫,一篇文章,而非要將其轉換成聲音信號呢?

總結一下,問題/發展方向:多個app協作、多任務並行、多層級的中斷。


我就跟那些樂觀的人說一句,漢語不是英語,沒有一點語氣和聲調變化的語音助手沒人會願意用的,聽得難受,還不如用屏幕。

解決這個問題之前,語音最大的用途徑還真就是就是輸入法,如果智能系統再厲害一點就是小米電視4a發布會上的語音操控。語音交互短時間內沒有意義。


【 遍地開花的AI助手,代表著人機交互方式的未來 - 集智專欄】

無論人工智慧技術如何發展,只要人類還不願意直接讓機器統籌一切,就必然要涉及到如何進行交互的問題。從滑鼠到多點觸摸屏,人機交互模式在不斷地演化和進步。而來到人工智慧時代,我們終於可以脫離工具的範疇,來使用我們最熟悉的交互方式來控制設備——語言。

我們需要各種 ChatBot,需要足夠智能化的智能助手,這不僅是因為語言交互模式足夠便捷,更重要的,面對越來越多的物聯網設備和可穿戴設備,語言交流將會成為唯一的交互方案。而對於任何人工智慧產品,無論是自動駕駛汽車還是智能辦公設備,語音助手必定會成為重要甚至是不可替代的組成部分。

因此,沒有任何一家科技公司會忽視 AI 助手的技術和發展狀況。

各大公司所研究的AI助手

時代的領跑者

打造一個可用的、足夠智能化的 AI 助手是極其困難的,因為整個語言交互過程涉及到語音識別句子切割語義分析演算法處理以及語言反饋等種種複雜的過程,而且雖然我們現在擁有了足夠成熟的機器學習技術,但是我們還是難以一蹴而就地解決這些所有的問題。根據現在的人工智慧發展階段,研究AI助手有兩個要素不可或缺。

  • 足夠領先的NLP技術;
  • 擁有海量、優質的語言交流數據集。

這就是為什麼只有 Google、Apple 和 Amazon 走到了這個領域的前列。

Google Assistant 可能是現在最優秀的智能語音助手。這不僅僅表現在它能夠充分理解各種複雜的語言指令(包括多語言混雜的句子),而且能夠依託 Google 搜索引擎的海量知識庫給出足夠精確的回答。而更為關鍵的,Google 提出了一些很有建設性的方案來提高智能助手的表現。比如說「記憶」。

哆啦A夢曾用記憶麵包幫助大雄獲得進步

Google Assistant 中包含有對於上下文的記憶——而如果是在某個第三方 App 中使用,它還會採集到你在這個 App 中的某些信息。也就是說,Google 的智能助手可以完成類似於這樣的工作:你想去某個地方,然後就讓 Google 幫你打了輛車,然後你對 Google 說你餓了,Google 可以給出你位於目的地附近的推薦餐廳和特色菜。這樣的一套流程無疑更加自然,也更加智能化。

但由於 Google 對於 AI 助手的定義仍然偏重於解決實際問題,因此對於很多人來說,Google Assistant 並不是一個很好的聊天夥伴,而是經常冷冰冰的給出一些很死板的答案。

Apple 所帶來的 Siri 也許是現在最廣為人知的語音助手,但是大家對於 Siri 的普遍概念還僅僅是 iPhone 上的一個玩物。一直以來,由於 Apple 生態系統的封閉性,以及他們對於尖端技術的謹慎態度,大家對於 Siri 背後的技術都不甚了解。但隨著 Apple 漸漸開始向人工智慧領域貢獻資源,人們開始漸漸發現 Siri 中所使用的一些獨有的解決方案,包括不間斷地學慣用戶興趣和發音習慣、動態調整語音響應的敏感度等等。

雖然我們並不會經常聽到有關於 Amazon Alexa 的技術新聞,但這款來自於新任世界首富貝索斯的公司旗下的產品早已應用甚廣。依託於 Amazon 的開放態度以及其與電器製造商的良好關係,數以千計的智能家庭設備上早已內置了 Alexa,並依靠 Amazon 豐富的內容和產品庫為用戶提供各種服務。

挑戰與嘗試

很遺憾的是,我們並不能將微軟——這個 PC 時代的霸主旗下的相關產品列為第一梯隊,因為 PC 巨人在移動領域和家庭領域的布局可以說是完全失敗,這導致其在智能助手上的技術完全找不到合適的表達場景。Cortana 雖然有趣、好用、功能強大,但是對著電腦一個人傻傻地說話畢竟會讓人覺得很奇怪。但微軟在市場上的失利並不會影響到它在技術方面上的某些亮點,比如說他們使用 twitter 來建立智能聊天工具這樣的嘗試。

直到現在為止,大部分與智能助手相關的機器學習研究方向還都是限於有監督學習。具體一點就是研究人員要預先為用戶的表達意圖劃分出若干場景,不同場景下智能助手的處理方式並不相同。而微軟的這次嘗試很有意思,他們讓 AI 通過 twitter 這樣一個海量的語言資料庫去自動學習和掌握語言回答方式(這個 AI 名為 Tay)。這樣的嘗試是很有意義的,但是結果卻很讓人意外——很快 Tay 就變成了一個滿嘴髒話、並且充滿種族歧視態度的「怪胎」,並迅速被官方所關閉。這一現象很大程度上是因為 twitter 的語料庫根本算不上是多麼優質的數據集,近朱者赤近墨者黑這句話用在 AI 身上也完全合適。

有趣的是,Facebook 也搞過類似的實驗。小扎的實驗室曾經嘗試讓兩個 ChatBot 進行相互交流,以期它們能夠通過相互聯繫提高語言溝通效率。但是後來,同樣意想不到的事情出現了,兩個 ChatBot 開始用一些人類所無法理解的語言進行信息交換,天知道它們是不是在討論一些滅絕人類之類的話題。因此,這個項目也被迅速叫停。

兩個機器人之間的對話看上去非常恐怖

誠然,這種無監督學習的嘗試畢竟是好的,因為它代表了人工智慧真實的發展方向。但是,如果脫離人類控制,人工智慧的發展將可能存在危險的元素。越來越多的案例開始說明,鋼鐵俠馬斯克的「AI危機論」並不是危言聳聽。對於AI助手的研究,可能還需要更加謹慎一點才行。

很顯然地,這個領域內的攪局者越來越多。前不久,Yandex——俄羅斯的搜索霸主——發布了一個名為Alice的AI助手,這個智能助手最有意思的地方,就是它能夠讓用戶隨心所欲地交流任何事情,而不僅僅是回答指令。也就是說,Alice會更加人性化一點。據稱,他們的研究人員實現了一個基於神經網路的「chit-chat」引擎來完成這一切,而這一特性也會讓用戶覺得更加舒♂適。

而最新的,一家新的公司帶來了一款名為 TeleX AI 的號稱有革命性意義的 ChatBot。目前而言,這個 ChatBot 據稱還只能在 Telegram上來存儲和交換比特幣 (洗錢?),其他的技術優勢尚不清楚。但是毫無疑問,AI 助手在越來越多的領域中將會擔任更加重要的工作,甚至包括財務管理方面。

發展與想像

也許你還覺得使用語音來控制你的一切設備還比較遙遠,可事實是,你甚至都可以開發屬於你自己的聊天機器人了。包括 IBM 提供的 Watson 平台以及已經被 Google 收購的 api.ai(現已更名為 DialogFlow),科技巨頭們開始為普通開發者提供良好的智能助手搭建平台和機器學習環境,任何人都可以在自己的項目和產品中插入智能化的聊天工具,為用戶提供更為直觀便捷的服務。

Google提供的DialogFlow工具可以允許普通開發者迅速大家智能聊天機器人

而事實上,國內外關於智能助手已經有了越來越多的嘗試和發展,不少公司開始試圖探索語音聊天機器人在心理輔導抑鬱症治療以及老年人和殘障人士呵護項目上的潛力,而語音助手在語言情感以及人性化上都在漸漸提高。面對已經有國家授予機器人公民身份這一事實,我們已經可以充分暢想,像鋼鐵俠那樣呼喚賈維斯為自己處理一切事物的生活已經並不只是概念了。

拓展閱讀:

世上最大的不可描述網站也向AI和機器學習勢力低頭了!

以彼之道,還施彼身——使用機器學習來揪出作弊的玩家

不是人工智慧,是智能機器

官方微博:@景略集智

微信公眾號:jizhi-im

商務合作: @軍師

投稿轉載:kexiyang@jizhi.im

集智QQ群:557373801


受到的限制很多,目前也沒人能拿這個東西做出什麼令人眼前一亮的東西,這東西的發展還需要語言學家和科學家的結合,個人覺得方向很廣,根據各個行業的趨勢而定吧


個人認為還是要結合硬體和場景。手機由於私密性差、信息量少等原因使用率很低,車載、傢具會是更好的場景。

NLP工程師技術解讀:智能語音助理類產品的未來在哪裡? | 雷鋒網

這篇愚作也是自己的思考和總結


未來的智能語音一旦和商業服務做到精準對接,整個行業的形式將會徹底改變


來學習一下,我也對這個問題挺困惑的。


所謂的語音識別受到很多條件限制,而所謂的語義研究,倒是可以深挖,成為語音技術的發展方向


要想了解未來的技術,就要先了解他的歷史。這篇文章大概講了一下語音技術的發展,可以看一下http://mp.weixin.qq.com/s/cc7rWCWSVTjIjYmcfACIGg


謝邀

雖然不是研究這方面的,但是從個人的理解來說,除了手機本身的語音識別外,現在進入智能時代,人工智慧進入熱潮期,很多的智能設備都需要接入語音,進行智能音控。

大到智能安防、智能汽車行業,小到硬體產品,兒童玩具,不單單只是語音,這麼簡單,富有色彩,有互動,有情感成為大眾越來越追求的目標!

就拿下面的這份報告而言,不同的行業都會用到人工智慧,而跟其掛鉤的都會涉及到語音模塊,所以說人工智慧中語音識別是必不可少項

FMI飛馬網 | AI人工智慧:54份行業重磅報告匯總(附下載)

有完整版本,感興趣的可以在公眾號【飛馬會】中詢問下載方式,加小助手!


推薦閱讀:

語音識別技術中提取的聲音特徵的參數具體指什麼?
深度學習在語音識別方面主要的難題和困難是什麼?
從技術角度來看,中英文語音識別哪個更困難?
關於語音識別的研究方向?
Siri 是如何識別語義的?

TAG:語音識別 | 手機行業 | 語音助手 |