Google的AI冒充你打電話，接你下茬兒，替你回郵件，你還活著幹嘛？

05-23

你是那種一打電話就緊張害羞，更喜歡發郵件和微信的人嗎？

如果是的話，恭喜你！人工智慧已經可以完美解決你的困擾了。

Google 的人工智慧助理 Google Assistant，最近學會了一項新技能：冒充真人給餐館、髮廊、酒店、咖啡館、電影院……給你能想到的所有各種消費場所打電話，幫你鎖定預約、查詢信息……

https://www.zhihu.com/video/977915998112743424

明明就是真人對不對！

這段電話的確是真的，而會話中的顧客一方，的確是由 Google Assistant 扮演的……

我們應該都聽過 Google Assistant 的聲音是什麼樣的。現在的這位是女聲，聲音的背後是一位真的女生（姓名未知），在 Google 的總部花了幾個月的錄製時間，才將虛擬助手訓練成現在的聲音。

在過去，Google Assistant，以及包括 Siri、Cortana、Alexa 在內的所有虛擬語音助手，都用的是一種標準的，近似於語言課上標準發音、語速等的發音方式。

然而人類在現實中說話，有著各種各樣的口音、語速，語調在不同字和詞上有輕有重，在思考跟不上說話的時候會用「嗯」、「那個」、「you know」「之類的填空詞。

這也是為什麼當和虛擬語音助手聊天時總感覺怪怪的，因為儘管你在心理上強迫自己將語音助手當成是人，他們給你的回復卻總是自信而標準。而這讓你下意識立刻察覺到他們不是人，繼而產生一種近似於「自說自話」的尷尬感。

在2018年Google開發者大會（ I/O）的主題演講中，Google CEO 頌達爾·皮柴 (Sundar Pichai) 表示，Google Assistant 部門的一個最重要的目標，就是讓用戶和虛擬助手的對話變得更加自然，就像和真人交流那樣。

注意到在剛才這通電話中，這一邊扮演顧客的 Google Assistant 在整個對話中多次出現了類似於真人的反應。

比如一開始，對面說出了「好的，請稍候一小會」，之後是短暫的沉默。對方雖然說出了一個請等候的祈使句，在正常的人際交流中，顧客這邊應該表示「好的」、「沒問題」之類的意思，但對於虛擬助手這種以完成指令和回答問題為主要工作的人工智慧而言，它沒有理由對這一句做出任何回復，然而它還是在稍等了大約一秒鐘後做出了一個「嗯哼」 (Mm-hmm) 的表達。

再比如，在通話接近尾聲的位置，對方多次給出了問句，而 Google Assistant 這邊儘管一直用的是陳述句來回答，卻都在句尾用了升調，和人類使用英文進行對話表達時的習慣極為相似……

再比如，在通話中間，對方告知中午 12 點左右沒有空，最近的是下午一點多。Google Assistant 的應變方式不是接受一點多，而是給了對方一個新的時間範圍，並最終完成了預約。

以假亂真的語音生成能力之外，即興是 Google Duplex 技術的另一個最主要的特色。在另一個案例中，這種即興能力得到了更加充分的展示：

首先，有經驗的朋友們大概已經聽出來了，對面這是個中餐館……餐館老闆的英文表達能力有限，並沒有嚴格符合標準的英語語法，但扮演顧客的虛擬助手還是能夠理解。

注意通話中間，餐館老闆告知「4個人不用定位，可以直接來」時，原則上虛擬助手到這裡就可以掛電話了，因為訂位的任務已經完成。然而它沒有掛掉，而是做出了一個堪稱優秀的即興追問：「通常等位時間有多久」。

如果之前就掛掉，這只是一個普通的通話而已，而這個即興的存在，在 Google CEO 頌達爾·皮柴 (Sundar Pichai) 看來，讓雙方之間交互得更「優雅」(gracefully) 了。

Duplex 的功能還不僅限於和對話。在完成一通電話之後，如果取得了結果，Google Assistant 會用通知提醒用戶，並在日曆上記錄事件。

皮柴表示，公司在自然語言理解，深度學習和語言轉文字上投入巨大，而 Duplex 對這三大技術融會貫通。「Duplex 還有很長的路要走，不是所有的電話都完美結束，但這項技術已經能夠理解對話的上下文，每句話所表達的細微的意義差別。」

不過，自然語言理解仍是一項非常高難度，在真實環境中面臨著巨大挑戰的技術。Duplex 在面對極其複雜的語句時，仍然有很大的壓力和錯誤率。還是在預約的場景下，在一個案例中，對方非常口語化地介紹了店在工作日和周末不同的營業時間，然後自己對同一句中之前的表述做了修改。

但皮柴還是對 Duplex 充滿信心，「如果最後能做好，這項技術將為商戶和顧客帶來極大的價值。」

除了 Duplex 技術之外，在今天的 I/O 大會上，Google 也宣布了虛擬助手其它非常多的功能更新，其中有不少十分強大……

1/ 新的聲音：可能用戶已經聽膩了 Google Assistant 的標準聲音，這也是為什麼 Google 決定為它再增加 6 種不同的男聲和女聲。其中就有一種來自於曾經在《愛樂之城》里出演過的美國歌手約翰·傳奇 (John Legend)。

不過，厲害的並不是請來約翰·傳奇，而在於 Google 為 Assistant 生成新聲音的效率有多高。

DeepMind 訓練出了一個深度神經網路模型 WaveNet，能夠高效地生成原始音頻。利用 WaveNet，只用很少量的語料，輔以強大的計算，Google 就可以製作出和原始語料相似度極高的語音形象，用時從幾個月降低到了幾百小時。

2/ 多輪對話能力進步：在過去，跟 Google Assistant 對話，需要每一句前面都加一個喚醒詞 "Ok Google"。從今天開始這個設定終於退役了，因為 Google Assistant 獲得了增強的多輪對話能力。不僅如此，它還能理解你是在跟它還是跟別人說話，不會尷尬地加入到聊天當中。

3/ 多重任務處理 (Multiple Actions)：自然語言交流的一個特點就是複雜性，一句話裡面可能同時表達多個意思。最直觀的例子，「請看一下今天的天氣發給安妮」、「今天紐約和奧斯丁的天氣怎麼樣」，或者「把廚房的燈和廁所的換氣關掉」。

只要記性不差，正常人都能完成，而且多半會下意識將它們看做是同一個任務。問題是在過去，別提多重任務，某些虛擬助手連一個簡單的任務都完成不了。

不過從今天開始，Google Assistant 將能夠一次性處理多重任務了。

4/ Gmail 智能寫郵件 (Smart Compse)：你應該知道 Gmail、Inbox 支持智能回復，但過去只有「感謝」、「就這樣」之類的簡單回復。很快，Gmail 就將獲得一個強大的智能寫郵件功能。就像搜索引擎的自動完成一樣，Gmail 也會根據你寫的上一個單詞自動建議下一個單詞，一直按 tab 鍵就好了，直到你把整個郵件都寫完……

聽起來挺扯淡的，但不妨看看效果：

5/ 推薦動作 (Suggested Actions)：跟 Google Photos 結合，基於人工智慧的一些貼心的小功能。比如推薦把合影分享給朋友；照片曝光不足時會建議增加曝光；檢測到拍照的內容是文件的話，會自動轉成掃描文檔；以及最棒的功能——上傳一張黑白或者褪色的老照片，自動增加顏色！

目前，Google Assistant 已經進入了超過 5 億台手機、汽車和智能家庭設備。到今年年底它將支持 30 種語言，進入 80 個國家市場。

在皮柴看來，Google Assistant 存在的意義是幫助所有的用戶，包括個人用戶、中小企業，四肢心智健全或者有不同殘疾的人，用人工智慧去改善他們的生活。

僅僅兩年前的 I/O，Google Assistant 才首次亮相。很難想像一個剛兩歲的新產品已經如此強大，影響和改變著用戶數字生活的方方面面。