給你打電話的可能不是人!谷歌Duplex顛覆智能助手

給你打電話的可能不是人!谷歌Duplex顛覆智能助手

來自專欄 AI前線

本文由 「AI前線」原創(ID:ai-front),原文鏈接:給你打電話的可能不是人!谷歌Duplex顛覆智能助手

策劃 | Vincent

組稿 | Vincent,Natalie,Debra

編輯 | Natalie

AI 前線導讀:北京時間 2018 年 5 月 9 日,對於全球的科技媒體來說都將會是個忙碌的日子,不僅微軟 Build 2018 開發者大會第二天的議程在今天舉行,Google I/O 開發者大會同樣也在這一天拉開序幕。相比 Build 大會,Google 做的準備更加充分,黑科技層出不窮,最讓人印象深刻的莫過於已經進化到幾乎和真人一模一樣的 Google Assistant。

更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)打 Call!以假亂真的 Google Assistant 降臨!

先來回顧一下這讓人有些「瑟瑟發抖」的演示片段:

你真的能聽出來這位打電話預約的客人到底是不是人類嗎?

Google CEO Sundar Pichai 一再強調:這是真實的電話錄音!

接著,視頻演示了谷歌語音助手幫助主任預定美髮服務,包括時間、地點、預約服務內容等,語音助手都能根據說話人的講話做出比較自然的反應:

最後視頻顯示,語音助手順利幫助主人預約到了時間,整個過程非常順利。

接下來的另一段錄音視頻演示了語音助手在遇到複雜和未預料到的情況下如何做出反應。演示中說的是在原定預約時間需要 5 位客人才能預約,谷歌語音助手會貼心地問「等位時間需要多久」這種人類都有可能想不到的小細節,結果非常順利地約到了沒有客位限制的時間。

這波操作得到了台下觀眾的一片掌聲和會心微笑,看來大家對這個小助手是相當滿意了。

不過也有人開玩笑稱,這個助手不會冒充我打點電話吧?連電話也能替我打了,不想搭理的人打電話過來直接扔給語音助手,連應酬敷衍都省了,那還活著幹嘛?!玩笑歸玩笑,不得不承認 谷歌助手功能還是挺強大的——不過目前僅限在演示里,因為並沒有在現場實際操作,難道是怕現場出差錯?還是這種 666 操作的穩定性並不是特彆強,谷歌怕在全球人民面前出糗?Google Assistant 是不是真的這麼 666,有待大家用上這個功能之後再做評判。

背後的黑科技 Duplex

據官方介紹,Google Assistant 之所以能夠在電話中做到和真人幾乎一模一樣,背後還要依賴於這項被稱為 Google Duplex 的技術,這是一種用於通過電話進行自然對話以執行「真實世界」任務的新技術。該技術旨在完成特定任務,例如安排某些類型的約會。對於這樣的任務,系統使對話體驗儘可能地自然,使人們能夠正常對話,就像他們對另一個人講話一樣,而不是機器。

為了讓對話聽上去儘可能自然,Google 除了在聲音上下了功夫之外,更重要的是將自然語言理解的能力提升了不少。在自然的對話中,人們說話比機器說話時要快得多,經常聽不太清楚,所以語音識別更困難,而且會產生更高的單詞錯誤率。在電話通話中,問題更加嚴重,因為通常電話通話中背景噪音大,音質不佳。

在較長的談話中,相同的句子可以根據上下文具有非常不同的含義。例如,當預訂「Ok for 4」可以表示預訂時間或人數。通常情況下,相關的上下文可能會返回幾個句子,這個問題會因電話中增加的字錯誤率而變得複雜。

Duplex 的核心是專門為應對這些挑戰而設計的循環神經網路(RNN),使用 TensorFlow Extended(TFX)開發。為了獲得高精度,設計者們在匿名電話會話數據的語料庫上訓練 Duplex 的 RNN。該網路使用 Google 的自動語音識別(ASR)技術的輸出,以及來自音頻的功能、對話的歷史記錄、對話的參數(例如預約的所需服務或當前時間)等等。設計者為每項任務分別訓練理解模型,跨任務利用了共享語料庫。最後,使用 TFX 中的超參數優化來進一步改進模型。

傳入的聲音通過 ASR 系統進行處理,然後用上下文數據和其他輸入分析後生成響應文本,最後通過 TTS 系統朗讀響應文本。

正如我們在視頻中看到的那樣,Google Assistant 在對話過程中甚至還會發出:eh,well 等語氣助詞,這也是設計者們為了讓它更像人所做的精心設計,在系統處理信息的過程中,發出這樣的聲音會讓對方感覺更像是人在思考。

另外,Google 還重點強調了 延遲 的重要性。舉個例子,當人們說了一些簡單的話之後,例如「喂?」,他們所期待的是即時響應,這時候人們對於延遲更敏感。當檢測到需要低延遲時,Duplex 會使用更快的低置信度模型(例如語音識別或端點)。在極端情況下甚至不等待 RNN 返迴響應,而是使用更快的近似響應(通常會猶豫一下再做響應,就像一個人在沒有完全理解對方的情況下也會稍有遲疑)。這使 Google Assistant 在這些情況下的響應延遲小於 100 毫秒。有趣的是,在某些情況下,研究人員發現引入更多的延遲反而會讓對話變得更自然,例如在回答一個非常複雜的句子時。

基於 Google Duplex,用戶無需直接打電話,只需與 Google Assistant 進行交互,後面撥打電話的事情完全由 Google Assistant 在後台進行,用戶無需介入其中。 對於更喜歡發郵件和信息,一想到要打電話就緊張手抖的眾多社交恐懼症「患者」來說,感覺是一項重大福利呢……

根據官方的介紹,Duplex 配置在 Google Assistant 中,將會為用戶解決多種生活場景里的事務,現場演示的只是它很小的一部分功能。不過說到這裡,其實小編腦洞有些大開,想提出一些問題:

之前的智能助手都是用戶發出指令,智能助手執行,但是打電話、訂餐位之類的事情還是需要人來操作。然而經過 Google 這麼一來,人的作用似乎就更少了,只需要一句話,智能助手全幫你辦了,一旦交流中間出現什麼問題,這個責任該誰來負呢?

不過谷歌官方也重點說明,目前 Google Duplex 只能局限於某些封閉領域,只有當這些領域足夠狹窄才適合 Duplex 進行深入探索。Duplex 只有在這些領域經過深度訓練之後才能進行自然對話,它並不能進行更加廣泛的一般性對話。

Google Assistant 還有哪些神奇的新特性?

除了 Duplex 技術之外,在今天的 I/O 大會上,Google 也宣布了虛擬助手其它非常多的功能更新,其中有不少十分強大……

新的聲音

可能用戶已經聽膩了 Google Assistant 的標準聲音,這也是為什麼 Google 決定為它再增加 6 種不同的男聲和女聲。其中就有一種來自於曾經在《愛樂之城》里出演過的美國歌手約翰·傳奇 (John Legend)。

不過,厲害的並不是請來約翰·傳奇,而在於 Google 為 Assistant 生成新聲音的超高效率。

藉助 DeepMind 的深度神經網路模型 WaveNet,只用很少量的語料,輔以強大的計算,Google 就可以製作出和原始語料相似度極高的語音形象,用時從幾個月降低到了幾百小時。

更強大的多輪對話和多重任務處理能力

Google Assistant 副總裁 Scott Huffman 播了一段網上超火的一名老奶奶不太會使用 Google Home 智能音箱的影片,並指出使用者體驗還有很大的進步空間。之後他示範了新功能:Multiple Actions——增強智能語音助理與人類自然、多輪「對話」的能力。

過去跟 Google Assistant 對話,需要每一句前面都加一個喚醒詞 「Ok Google」。從今天開始這個設定終於退役了。除此之外,Google Assistant 還能理解一句話里表達的多個意思,一次性處理多重任務。

比如上圖這個例子中,用戶先詢問了勇士隊的比賽結果,然後詢問了勇士隊的下一場比賽,最後讓虛擬助手提醒他回家的時候找一下他的毛線衫,三次對話之間只在一開始加了一個喚醒詞。

對於人類來說,理解一個情境下連續的幾句話非常簡單,但在過去,別提多重任務,某些虛擬助手連一個簡單的任務都完成不了。如今,Google Assistant 看上去已經能夠很好地處理多重任務了。

Gmail 智能寫郵件 (Smart Compse)

你應該知道 Gmail、Inbox 支持智能回復,但過去只有「感謝」、「就這樣」之類的簡單回復。很快,Gmail 將獲得一個強大的智能寫郵件功能。就像搜索引擎的自動完成一樣,Gmail 也會根據你寫的上一個單詞自動建議下一個單詞,直到你把整個郵件都寫完……

聽起來有點玄乎,可以看看效果:

據介紹,Google Assistant 已經接入了全球範圍超過 5 億個設備,分為 5000 種不同的設備,車品牌就超過 40 個。

除了自然語言處理能力的改善之外,Google 將另一個改進的地方放在視覺的輔助——Visually Assistive,Google Assistant 產品經理主管 Lilian Rincon 舉例,例如你問星巴克咖啡店,手機就會同時展示出咖啡店菜單內容。

One More Thing

雖然官方文章里沒有明說,但是我們也猜得到,Google Assistant 水平的提升,離不開背後的訓練模型與基礎設備,如果不出意外,Google Assistant 很有可能採用了本次大會新發布的 TPU 3.0 進行訓練。

在正式介紹 TPU 3.0 之前,我們要先打個岔,聊聊 GPU 生產商英偉達最近的一個小動作。在 IO 大會開始前,英偉達突然爆出了一組最新型號 GPU V100 的數據:

  • 在訓練 ResNet-50 時,單個 V100 張量核心 GPU 可實現每秒 1,075 張圖像,相比上一代 Pascal GPU,性能提升 4 倍。
  • 一台配備 8 台 Tensor Core V100 的 DGX-1 伺服器可實現每秒 7,850 張圖像,幾乎是同一系統上每年 4,200 張圖像的 2 倍。
  • 由八台 Tensor Core V100 供電的單個 AWS P3 雲實例可在不到三個小時的時間內訓練 ResNet-50,比 TPU 實例快 3 倍。

如果沒有猜錯,英偉達對比的應該是上一代 TPU,即 2.0 版本。選在這個時候發布,想必英偉達也是動了些小心思的。可是,TPU 3.0 的發布,可能要讓英偉達的小心思落空了。

TPU 3.0 除了在性能上提升至上一代產品的 8 倍,Waymo 的 CEO 更是表示,在應用了新版本 TPU 的無人車訓練中,性能提升了 15 倍。 同時,這一代 TPU 還加入了液冷系統,基於新架構,可以執行更大、更複雜更準確的模型,並解決更困難的問題。目前 TensorFlow 是使用率最高的深度學習框架,特別是 Cloud TPU 商用之後,能夠吸引更多人來使用其服務。

昨天在微軟 Build 2018 開發者大會上,針對 FPGA 的 Project Brainwave(腦波計劃)也發布了預覽版,雖然在晶元領域稍有落後,不過可以看出,微軟也在奮力追趕。前不久,Facebook、阿里巴巴等企業也宣布了進軍晶元領域的計劃,下一個決勝的戰場是否會從晶元開始呢?

參考資料:

ai.googleblog.com/2018/

https://mp.weixin.qq.com/s/gG8mdlkOoN6VWpVI4i2R_A

devblogs.nvidia.com/ten

今日薦文

Build大會沒有了 Windows,微軟祭出哪些 AI殺手鐧?


專欄推薦

如果你對人工智慧感興趣,推薦關注《AI技術內參》。用一年時間,為你精講人工智慧國際頂級學術會議核心論文,系統剖析人工智慧核心技術,解讀技術發展前沿與最新研究成果,分享數據科學家以及數據科學團隊的養成秘笈。

新註冊用戶,立減30元。歡迎點擊圖片試讀。

向17W+AI愛好者、開發者和科學家,每周一節免費AI公開課,囊括上萬人的AI學習社群,提供最新AI領域技術資訊、一線業界實踐案例、搜羅整理業界技術分享乾貨、最新AI論文解讀。回復「AI前線」、「TF」等關鍵詞可獲取乾貨資料文檔。

如果你喜歡這篇文章,或希望看到更多類似優質報道,記得給我留言和點贊哦!

推薦閱讀:

【人工智慧】2017「智能製造」產業鏈研究報告!
【讀論文】Neural Turing Machine vs Differentiable Neural Computer
怎樣應對人工智慧帶來的倫理問題
數據科學、機器學習、人工智慧的區別到底是什麼?
人工智慧爆紅,能否成為聯想轉型的一支奇兵?

TAG:谷歌Google | 語音助手 | 人工智慧 |