KikaGO:一條數據線的AI之旅

李根 發自 Vegas

量子位 報道 | 公眾號 QbitAI

萬萬沒想到,一條數據線火了。

在2018 CES現場,這根線成為關注的熱點之一,它被華爾街日報評價「Best of CES 2018」,還拿到了智能家居、智能車載、智能應用軟體以及科技促進生活等4項2018 CES創新大獎。

不說你也猜到了。AI時代下,這肯定不會是一條普普通通的手機數據線。

那它有何不同之處?可以先看看這段網上流傳挺廣的視頻。

https://www.zhihu.com/video/936247286305013760

KikaGO

這個數據線,真名叫做KikaGO。

除了給手機充電,KikaGO還能以語音交互的方式,幫助用戶完成很多操作。包括接打電話、即時通信軟體的收發信息、導航以及播放音樂。

更為特別之處在於,KikaGO能在非常嘈雜的駕駛環境中,準確識別用戶的語音指令,而且通過聲紋識別技術,可以只聽令於自己的「主人」。

其實KikaGO不只是一個數據線,更是一個「全語音車載助手」。在CES現場,Kika對量子位表示,這個產品軟硬一體打磨的挑戰並不小。

KikaGO外觀

但從硬體上,KikaGO為什麼選擇這種方案?

最主要的原因還是車內噪音較大,駕駛環境下,手機與司機之間的距離約有50cm。要在這個距離與手機語音交互,需要比較大的聲音。

為了解決這個問題,KikaGO選擇在常見的數據充電線上,創造性的加裝了2個朝向相反的收音麥克風。因為要解決降噪的問題,至少需要兩路音頻信號。

數據線上還有一個晶元,用來進行信號轉換和增益。隨後,這些聲學信號傳送到手機端的KikaGO應用中,繼續完成語音識別、語義理解等程序。

用戶的指令,會被KikaGO進一步推送到第三方App中。據介紹,有了KikaGO的協助,司機在駕駛全程中,操作手機只需動嘴、不需動手。

KikaGO場景應用圖

如果你想試用KikaGO,還得英文好才行。但可能你不知道,Kika起源於中國。

這家全員都以英文名片示人的公司,目前公司在北京和矽谷設立雙總部,分別在印度和台北設立了研發中心。

Kika也不是一家剛創立的公司。早在2014年就推出了首款輸入法產品Kika Keyboard,還在2015年拿到了「Google Play頂尖開發者」稱號。

不過由於主打海外,國內用戶直接感知接觸有限。

目前,這家來自中國的公司在海外進入了140多個國家,支持173種語言,全球用戶數量達4億,月活6000多萬。

也就是說,Kika做的事情跟國內的搜狗類似。這或許能解釋Kika能夠推出KikaGO的原因,用戶、數據量、語音輸入、人機交互等等之前的儲備,都為現在做好了準備。

全語音解決方案

KikaGO背後到底有什麼技術挑戰?量子位從Kika CTO姚從磊博士口中獲得了答案。

首先最直接的挑戰是口音。與國內語音交互中的方言類似,英語場景也會面臨口音問題。姚從磊說,通行的解決方法是收集更大規模的口音數據,然後進行訓練優化模型,或者用更少的數據,但利用更多的深度神經網路,實現更好的效果。

在具體解決中,Kika兩條腿走路。一邊是靠數據底子,因為輸入法有強大的用戶基礎,打造了一個千萬量級的語音和文本數據集進行模型訓練;另一邊也在不斷優化技術,同時與約翰霍普金斯大學進行合作,既做半監督的語音聲學模型訓練,也把輸入法中的上下文信息理解應用到語言模型中,大幅提高語音識別的準確度。

其次還有理解。區別於文字輸入,語音交互中缺失了標點符號、emoji等反映人類情感的信息,於是容易造成理解偏差,甚至謬以千里。

在情感理解方面,Kika也做了兩手方案。

一手方案是構建情感數據集,涵蓋各種情緒表達,在用戶輸入語音和emoji系列之間找到聯繫,利用深度學習網路訓練,該數據集規模上接近億級,主要來自Kika用戶輸入的匿名化脫敏數據。

雖然也曾經嘗試過Twitter上的公開數據,但最後發現用戶場景和日常IM聊天還不盡相似,數據效果不算好。

另一手方案是通過技術功能完善用戶體驗。比如支持用戶用語音編輯、修正已經輸入內容,降低用戶使用語音輸入的門檻。

此外,軟硬體結合方面也有交叉整合帶來的問題。

比如數據線本身功能是充電,但作為語音方案硬體載體,還需要考慮數據信號傳輸方面的效果。

還有安卓手機如何通過充電口,完成充電線與App之間聲音信號流傳輸聯動,且不干擾其他App,個中問題也不少。

最後還有車型號本身,大車、小車、SUV等不同空間的車,對於收音效果可能都會有影響,如何做到不同空間距離的識別效果最佳,以及車速較快、開窗、車內音樂播放等場景下的降噪表現,都是一道道需要親自打磨測試才能解決的難題。

這也是Kika首次推出硬體相關產品,CTO姚從磊坦言:吃了不少苦頭,趟過了不少明坑暗坑。在軟體技術上準備好後,又經歷了6個月的時間打磨產品。

不過,從當前市場反饋來看,無論是CES 4項大獎的獎勵,還是社交媒體上用戶的刷屏反饋,不僅擊中了用戶痛點,也是種瓜得瓜。

實際上,對於Kika這樣的公司而言,生長壯大於移動互聯網浪潮中,現在又面臨大數據基礎上的AI機遇,進入新領域、誕生新物種,也屬於情理之中。

而且對於機器學習出身的姚從磊而言,深度學習為核心的AI革命,還提供了一種提升產品能力、完善產品體驗的方法,是一把得心應手的鎚子。

對於技術研發人員而言,可以通過問題(釘子)尋找,運用得力大鎚解決問題。

這位Kika CTO甚至將此稱為:AI思維。

AI思維

姚從磊舉例說,對於輸入法為代表的人機交互產品來說,核心標準是:全、准,快三個方面,這三大挑戰在深度學習革命之前並沒有解決得很好。

但如果基於AI技術,「全」方面可以通過多媒體內容庫中的索引、分析和推薦,用戶從輸入感知層面能感到詞庫更全;而「准」方面,識別和理解方面更是大幅度突破,是60分到90分的提升;「快」的問題上也能拋開傳統統計模型的缺點,對聯想詞的準確度有更精準的提升,甚至是數倍的提升。

除了核心產品本身的能力提升,姚從磊也在內部鼓勵團隊到產品線的全鏈條中尋找「釘子」,然後試著用AI這把得心應手的工具提升用戶體驗。

或者也能在核心發展AI引擎的主線上,不斷拓展邊界,推出之前沒機會嘗試的產品,比如當前推出的KikaGO.

姚從磊透露說,基於之前技術和數據的積累,現在Kika已經建立起了自己的AI技術庫,將圍繞輸入法引擎(Engine Alps)、語音引擎(Engine Appalachian),以及內容推薦引擎(Engine Andes)推出更多AI落地方案/產品。

Kika的AI技術庫

但也不是沒有挑戰,比如供不應求的AI人才。

不過這位Kika CTO回應說:並不是非常擔心,即便競爭激烈,但Kika在數據、技術提升方面的實力會日益彰顯,並且Kika也形成了吸引和培養AI人才的成熟機制。

「如果你的某一個技術提升就能讓數千萬人的生活更美好,想想就很激動人心。」

OMT

最後補充一句,這款拿了一堆獎的KikaGO,還沒有正式發售,連售價也沒有確定。而且主要的銷售市場也是海外並非國內。

TO B是一個更重要的方向,基於場景方面的考慮,KikaGO也在尋求更多的合作夥伴,也許未來Uber、Lyft的司機都會用上這款產品。

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態


推薦閱讀:

【線上直播】AI行業需要什麼樣的人才
人工智慧成未來資本領頭羊 是時候轉行了嗎?
拋棄iPhone X?揭露高端收入群體偏愛安卓手機的秘密!
數據那些概念(數據、信息、分析、挖掘、機器學習、大數據、AI)
無晶元不 AI !Synopsys :人工智慧時代機遇與挑戰並存

TAG:AI技術 | 人工智慧 | 語音助手 |