如何看待新一代AI產品Viv的發布？

01-08

2016年5月9日上午，Siri創始人Dag Kittlaus展示了新一代AI助手Viv的demo。
新聞標題：Siri-creator shows off first public demo of Viv,『the intelligent interface for everything』
新聞視頻鏈接：最新一代智能虛擬助手 Viv 終於亮相，最終它會像空氣一樣無處不在
粗淺地閱讀了一下新聞，目前看來viv是這樣的：

①相較siri而言，提升了語義識別的準確率
②能夠自己創造程序，生成代碼（個人認為是通過構建意圖組合來完成深層次邏輯交互）
③第三方可以在其開放平台上進行開發

「The AI in most current generation systems like Siri, Echo and Cortana focuses on speaker independent word recognition and to some extent the intent of predefined words or phrases that have a hard coded connection to a domain expertise. 」

「Siri、小娜等語音助手只能識別單個的辭彙，或者是詞庫里已經有的專業片語、特定的短句，這些辭彙都需要手動code進資料庫，工作量非常繁複。」

Viv最大的特性據說是可以「自我編程」，這個詞我在另一個文章《StyleAI：機器如何懂時尚？》里見過，

「我們用的是一項近期有重大突破的技術，叫人工神經網路（Artificial Neural Network），更準確地說就是深度學習。基本上，我們創造了一台可以自我編程的機器，可以像人一樣去理解，看到一張圖的顏色、形狀、模式，而不僅僅是像素點。」

「自我編程」應該是一項可行的技術。參考Dag演示時候展示的語義分析流程圖，應該就是拓展了機器學習的層數，將一個複雜的語句逐級拆分成一個個True or False的指令，這樣就減少了很多信息不確定性。

看不出Viv和Siri相比有什麼革命性的不同，如 @筆墨角逐答案里看到的，Dag Kittlaus舉的例子Siri也能實現。語音助手類產品要想實現質的飛越，還是得依賴深度學習的發展吧。

蟹妖。

語音互動式下一個十年的人機交互方式，超過 50% 的人機交互會通過語音這種方式來完成。搖桿 —— 滑鼠鍵盤 —— 觸摸 —— 語音，新的人機交互方式往往會帶來新的商業模式、生態系統、產品類型，想想都有些激動呢。

進入正題，一個完整的語音交互應該是這樣的流程

現在大部分的語音產品 Siri, Google now（還包括各種 chat bots），完成的流程基本上是1，2，5 ，少部分有 1，2 ，4 ，5。根據 Dag Kittlaus 發布的信息來看，Viv 加強的是第 3 點，即意圖解構。那麼什麼是意圖解構呢？來看看 Dag Kittlaus 在發布會上舉的例子。

Question："Will it be warmer than 70 degrees near the Golden Gate Bridge, after 5 p.m., the day after tomorrow?"

Viv Answer: No, it won"t be that warm.

Siri: 並沒有回答是或者不是，Siri 把未來一周 San Francisco 的天氣預報給推送了過來。

所以可以看到差別了嗎？Siri 並不能理解用戶的問題，在識別的時候估計只識別了金門大橋（地理位置），溫度這些基本信息。顯然用戶的提問信里包含更多內容，是否高於 70°，金門大橋附近，下午5點，後天。意圖解構這一過程就是要拆分文本，然後把文本抽象成程序能理解的數據結構，比如是一個（時間，地點，變數1，條件1），這裡的變數可以指溫度、濕度、風力等等。

Dag Kittlaus 把這一流程稱為 dynamic program generation

When it understood the intent of the user, it generated this program

(圖片很不清楚)

Demo 上展示了一個例子，說明 Viv 是怎樣拆解一個意圖並且在 10 毫秒之內完成了這個有 44 個流程的問題。

而現在其他的語音平台，甚至包括現在最火的 Echo, 都不能完成這樣的自我拆解與編程。

這是 Amazon Echo 的一個語音交互流程，注意到 Alexa 的 Skills 了嗎？你可以把他理解成語音助手的一個技能或者能完成的一項工作，而這其中的每一個技能，都需要開發者去做一些訂製（當然已經比開發 App 簡單很多了）。這是 Alexa Skills Kit Voice Design Best Practices 的開發網頁，感興趣的可以去看看。也就是說，語音助手的每一項技能都需要有人去「教」他們才行。

然而 Viv 似乎解決或者簡化了這一流程，在開發者界面里開發者可以非常簡單的就給 Viv 添加一個技能或者完成一個新領域的工作。這裡有一個類似的專利

http://www.google.com/patents/US20140380263，Dynamically evolving cognitive architecture system based on third-party developers.

「Siri - Alexa,我現在要去（女朋友）（家），順便幫我找一下（在去她家的路上）有什麼好吃的（披薩)和(酒)，對了，我要還要(一束花)」

括弧括起來的是六個不同的領域，而現在的 Siri 和 Alexa 顯然做不到這些。但是 Viv 可以通過學習做到這些，比如本身已經有了買披薩這個技能包，那麼能擴展到酒、花這些領域去。

VIv 現在能做到的是，理解你說的東西

- 地理位置

- 時間

- 任務

- 對話

以及理解你本身

- 你是誰

- 你住哪裡

- 誰是你的朋友

- 你喜歡什麼

發布會上還說到，Viv 現在還沒有轉化成語音，只進行到了步驟 5 。而步驟 6 又是另外一個巨大的課題了，如何把文本轉化成體驗良好的語音，這個就跟現階段特別火的用戶體驗設計一樣。Alexa Skills Kit 上有非常多這樣的例子，摘一個給大家看看。

User: Alexa, start Trivia Challenge.
Do:Trivia Challenge. Here are your categories: 80』s Pop Songs, Potent Potables, or European History. Which one do you want?
Don"t:Trivia Challenge. You can choose from the following categories: 80』s Pop Songs, Potent Potables, or European History.

我在猜想未來一段時間甚至會出現語音交互設計師這樣個一個工種，這裡有非常多的規則需要完善，而國內甚至還沒做什麼像樣的研究，甚至連書都沒有。

而要說到一點就是雲端服務，APIs 開發才是未來的趨勢，遠比做一個產品要重要...

看著流程簡單，但是裡面每一點深挖下去仍然有大量的工作要做，不過還是十分期待。

Voice really is a natural and human way to interact with the world around you.

語音也是 AI 最好的載體。

還有一些其他相關的問題可以看這裡

智能音箱能否成為物聯網中的「超級產品」？ - 知乎用戶的回答

他是Siri本來的樣子，可惜蘋果不思進取，才有了viv，不管怎樣這是一代偉大的產品，這也是令國內Siri流們汗顏的產品，自然語言交互一個本應走出的一步讓viv走出來了。

目前看到的是兩點改變（由於還沒有對應的技術細節，暫時不敢說是革新）：

1.技術層面

自然語言的語意處理一直是一個高難度的問題。

現有的各種看似智能的對答系統，包括（早期的）siri在內，都是由人來設計各種語義規則，實現設定好的反應。

換句話說，它的製造工藝是這樣的：語言專家給出語法到語意的模型。計算機和數學專家把它描述成演算法。工程師實現它。

這是我們上初中高中學習英語的流程：背單詞，記語法，然後去做閱讀理解。

但是這不是人類自然的學習方式。最大的弊端很明顯：如果一句話不在語法書里，那麼立刻就抓瞎了。

說起來最近這些年很熱的CNN（卷積神經網路），或者籠統點叫機器學習深度學習之類的也好，則是在計算機視覺領域顛覆了原有的路徑，模擬人類用眼睛認知世界的過程：不斷地看，然後分辨出各種物體，找出某一類東西共同的特徵（比如，「四個輪子並且有閃亮的金屬外殼的」），最後總結一下，這類東西的抽象概念（「這個就是汽車了，恩，這個也是汽車」）。

CNN引爆了一系列視覺領域的大革命，但是自然語言處理方面，雖然也有類似的小玩意（比如能寫故事的程序，能寫詩的程序……之類的），卻還遠遠不夠。

這次的viv，從他們的自我吹噓上來看，應該是實現了類似神經網路的自我學習、總結的技能。

「The AI in most current generation systems like Siri, Echo and Cortana focuses on speaker independent word recognition and to some extent the intent of predefined words or phrases that have a hard coded connection to a domain expertise. 」
（直接引用上面答主的引文）

我不知道他們是不是真的做到了這一點，但如果真的可行，那麼無疑是一次很大的突破。卷積神經網路模擬了一個嬰兒用眼睛認識世界的過程，viv是不是找到了正確的路，讓計算機能夠模擬人類牙牙學語的過程呢？

還是那句話，如果他們做到了，那就是一次極大的突破。

不過我個人持一定的保留意見。也許他們在工程上整合得很好，做出了一個老百姓見所未見的新鮮玩意，但是技術上如果真的有開創性的突破，學術界應該不會這麼平靜吧。

2.商業模式層面

siri也好cortana也好，都是作為一個產品，或者說，一個獨立的形象出現。而它內部的運作也都是在小範圍合作商之間進行。

按照Kittlaus的說法，viv將會成為一個界面，也許不會有哪個APP叫做viv，也不會突然有一款手機集成了一個新的可供調戲的AI，而是突然間很多應用沒有了九宮格式的圖標，沒有了分層的功能模塊，也沒有了搜索欄，所有的應用打開時都是一個閃爍的錄音界面了……吧。

比如，你想要和女朋友一起看明天下午的美國隊長3？不需要執行「選擇電影-&>選擇美隊3-&>選擇影院-&>選擇時間-&>選擇座位"，你只需要告訴你的新應用，「我要看明天下午的美隊3，兩張票，離家近一點」。

或者更進一步，甚至，有可能沒有什麼應用了，viv成為你每天打開最多的應用，大家都把自己的服務（比如賣披薩，洗車，做美甲，年收益率14%的理財產品……：）註冊到viv對應的語意項目下，然後像現在大家刷百度排名一樣，拚命爭取在viv那邊有一個好的推薦優先順序。

不過這些也仍然需要它的確能夠實現它演示的這些能力，而這一點，我還是有點存疑的。畢竟演示的效果往往是實際使用的200%甚至更多，希望越大失望往往也就越大。

所以，一切都等到它真正走進我們的生活時，再判斷吧。

詳解三星AI語音平台：除了S8還想用電視接管你的家

據外媒（VentureBeat）報道，從家用電器到電視、電腦、平板，再到燈泡和智能手機，三星產品涵蓋了家庭的每個角落。韓國電子巨頭並不滿足於全家桶式的獨角戲，同時也在積極推動SmartThings平台，發展第三方智能連接設備。在建立智能家居的生態系統之後，下一步就是如何拉攏消費者的問題了。

「從更高的層面來說，你得考慮如何才能將語音技術變的更易使用，讓每個人都能擁抱這一技術。」三星電子映像顯示事業部執行副總裁Won Jin Lee在接受VentureBeat採訪時表示。他將「對話式、個性化和語境化的服務」視為對這一問題的解決方案。

「想法是創建一個全系統性的AI語音系統，並在我們所有的產品中應用它。」他說。去年三星以2.15億美元收購的虛擬助理公司Viv Labs便處在這一努力的核心位置。Won Jin Lee透露消費者將在今年的三星生態圈中看到更多搭載Viv Labs技術的產品。

Won Jin Lee並沒有就此談及更多細節。不過另一位公司發言人對記者稱，「三星已經開發了自家的語音識別技術，通過Viv平台能將處理後的用戶查詢連接到最能滿足其需求的服務。」

三星想要的並不僅僅是簡單粗暴地獲取新技術，然後一股腦兒地拋向消費者。相反，三星有更為謹慎和深淵的謀略。「你真的得去琢磨如何讓語音技術對用戶來說變得更友好和更易使用，使得每個人都能擁抱這一技術。」Lee解釋道。他著重強調了此一過程中的三個方面：服務必須如真人交談一般靈動。它能夠被個性化設置以提供定製信息。同時還要具備語境理解能力，能充分理解前後文含義。

「將AI引入消費者系統是一個非常有趣的過程，不僅對消費者帶來交互挑戰，新的交互智能亦提升了設備的複雜程度。」Gartner分析師布萊恩·布勞（Brian Blau）說。

從最初的有線電視訂閱到如今在線消費視頻，在過去的幾年中，用戶觀看內容的方式幾經改變。不過，雖然手段與形式千變萬化，其中有一點卻是自始自終不曾改變的：電視一直是家庭娛樂的中心樞紐。

同整個行業的廠家一樣，三星也不遺餘力地推廣更大（55寸、56寸）更高清（4K、5K、8k）的電視機來創造更多收益。電視戰略涉及到增強智能電視中樞的概念。三星在今年的CES 2017上推出一些類似谷歌Chromecast的新功能，讓用戶可以輕鬆將手機屏幕投射到大屏電視。三星還提供iOS和Android應用程序，讓你能夠通過語音和觸屏控制電視。三星稱這能夠「把電視遙控器提升到了一個新的水平。」

「我們的目標是幹掉遙控器。」他說，「其實從實用的角度來看，按鈕翻閱比語音控制要自然的多……既然能輕易通過按鈕來換台，語音控制的吸引力自然就沒那麼大了。所以我們也在處理很難的問題。」

目前三星已經開始在電視中使用AI來提供個性化內容。AI根據用戶的收看情況探測用戶喜好，然後提供特殊定製的音樂和體育節目。Lee暗示2017年會增加更多垂直領域，例如遊戲：「我們希望從眾多的遊戲來源中提供給你一個高度整合的內容視圖。」

外界猜測三星正在開發一款名為Bixby的AI助理。Bixby被認為是Galaxy設備語音助理「S Voice」的副產品。在此之外，三星推出自己的物聯網AI語音助理，同Google Home和Amazon Echo展開競爭也只是時間問題。

布勞預期Viv會進一步集成到三星無所不包的生態系統中。「最初它是基礎的聲控，但其複雜程度會隨時間的推移而增加。最終有可能成為三星消費設備的核心功能之一。」

Moor Insights＆Strategy公司首席分析師帕特里克·摩爾海德(Patrick Moorhead)看好三星的戰略。「大設想是讓所有的三星產品用上一個統一的AI平台，大大改善使用體驗。AI的表現依賴於其數據和演算法，而從各種家庭設備中全方位地收集數據又能反過來提升數據和演算法。」他說。「我期待著三星能用Viv將他們所有的產品和服務結合在一起。」

三星面向電視和手機的AI看似相互獨立，但分析師指出二者背後共享著Viv的技術。Galaxy S8將於本月晚些時候推出，屆時我們或將可以看到一些最前沿的創新。

「消費者已經為他們的科技神魂顛倒。智能手機無處不在，這些設備的消費者參與（engagement）也相當高。」布勞解釋。「廠商必須擴展功能以提升價值。AI語音助理直接以超人際的方式連接用戶與服務，能夠填補品牌和非人際互動之間的空隙。」

（英文來源/venturebeat 中文來源/網易科技編譯/孫文文）

2017年3月19日

siri升級了

啥時候能用上中文

雖然看起來dag kittlaus現在沒有將Viv如同Siri一樣託付給大公司的意思，但是我仍然希望Viv能夠與一款優秀的硬體深度整合。

親自測試，Siri不知道為什麼也做到了