Rokid高鵬：人工智慧技術沒你想得那麼樂觀 | 愛分析訪談

04-20

2016年，人工智慧走過了有史以來最熱的一個年度，伴隨著「三高」——創業公司估值高、技術人才價格高、社會普遍關注度高，這一新興技術領域也引發了不少質疑，高估值背後是否存在泡沫？無論2B還是2C，技術是否成熟到臨近廣泛應用和普及的爆發點？接下來，整個市場會持續升溫還是趨於冷靜？

對於這些問題，創業者、投資人，以及學界、業界的研究者和觀察者們眾口不一。創業者奮戰在一線，對行業發展普遍樂觀，投資人爭相押注、布局賽道，看好前景的同時，也保持態度謹慎。那麼，對於從學界跨入業界，做了十多年前沿技術研究的AI創業者來說，對當前的人工智慧又作何理解呢？

近日，愛分析對Rokid北京A-Lab實驗室負責人高鵬進行了訪談，討論了當前以語音技術為代表的AI底層技術研發進展、存在問題，對通用智能、機器學習等技術的理解，以及2B、2C兩條線的商業化路徑及趨勢。愛分析節選其中精彩內容，與各位分享。

高鵬2008年畢業於中科院自動化所模式識別與智能系統專業，獲博士學位，主要研究人機語音交互技術。畢業後，他繼續留在中科院，從事語音應用技術研發。2015年初，高鵬加入Rokid，組建A-Lab，並擔任負責人，至今已有16年語音技術積累。

語音識別問題多，結合語義才能實現完美效果

愛分析：語音識別技術發展至今，你認為還存在哪些問題？

高鵬：語音識別的問題很多。

首先是遠場識別。

現在家庭環境的遠場識別，基本上最遠都是3-5米，Echo也差不多是這個距離。遠場識別是家庭環境裡面語音交互的一個必備工作，它需要一些特殊的演算法去做語音增強，然後削弱一些環境噪音，才能達到比較好的效果。

而且它本身存在物理極限，最遠也就是10米，再遠的話就得靠喊了。因為聲音信號和距離是以平方關係衰減。這是一個物理限制，加上家居環境中往往有噪音，而且會隔著門、隔著牆，聲音很難傳播。

所以只能採用別的方式去拾音，比如採用分體式設計，每個房間都裝一些麥克風用來拾音，AI就以一個虛擬的形式存在，這樣每個房間都可以實現自由的語音交互了。當然，這可能還比較遠。

其次是聲紋識別。

聲紋識別就是識別出是某一個人的聲音，而不是其他人。現在聲紋識別只能做到近講，比如電話、手機這種。遠講的話，至少在家居環境里，目前還沒有看到一個很成功的應用。因為遠場識別的所有問題也都是遠場聲紋識別的問題，加上距離不同，聲音變化很大，所以要識別出是某個人的聲音非常困難。

然後是聲源定位。

機器需要判斷，是這個方向上有人跟我講話，而不是旁邊一個方向，這是一個信號處理問題，在家居環境中非常典型。

比如，家裡放著電視，有人聊天，比較吵。你在某個地方叫一聲「若琪」，它得能在同時很吵的方向里找到有人叫它「若琪」。這需要機器做很多聲源分離和定位，來找到真正跟它交互的聲音。當然要做到準確分離，需要交互聲音和背景噪音存在一定的角度差，否則其實也很難分開。

最後是識別效果。

現在有些公司號稱機器的語音識別超過人類聽覺，那都是在比較理想的情況下，其實在真實的使用場景中，還是沒有辦法達到非常理想的效果。

因為語音識別是比較隔離的，相當於要把語音變成文字。對於機器來說，它並不理解這些字是什麼意思，它做的只是一個比較複雜的持續性信號分類工作。

加上在實際使用中，會存在很多干擾，比如方言、噪音、斷句、重複、語氣詞等各種情況，對於機器來說，要處理這些問題是很難的。當然方言這塊，訊飛經過多年的數據積累，已經能夠實現很好的效果，支持很多種方言。但是要處理其他一些情況，目前的效果還不是很理想。

要想達到非常理想的識別，還是需要全流程結合，結合語義來糾正它識別過程中的錯誤。就像我們人跟人交互的時候，很多時候周圍環境很吵，你也能聽懂什麼意思，是因為你是帶著常識和知識背景在聽，而電腦缺乏一個足夠的知識背景，它只能根據一些統計模型來調整識別。

所以，語音識別最終還是要跟後端語義理解相結合，才能實現比較理想的效果。現在是前半段的問題已經解決得不錯了，可以用了，但是離完美還很遠。

愛分析：語音識別技術的門檻有多高？

高鵬：語音識別技術非常複雜，涉及到語音信號處理、發音、語言學等很多東西，還有模式識別、語言模型、搜索等等，本身技術鏈條很長、技術門檻很高，所以人才稀缺。

國內主要就是四個地方在做，中科院自動化所和聲學所、中科大（以訊飛為代表）以及清華（以捷通華聲為代表）。這四個地方是國內培養語音技術人才的搖籃，現在一些有自主語音技術的創業公司，基本也都是這四個地方培養出來的人才。而其他一些創業公司可能就是直接使用訊飛、雲知聲、思必馳等公司的技術，因為對於沒有技術積累的創業公司來說，要自己做還是很難的。

服務型對話和自由聊天不是一回事

愛分析：服務型對話和自由式對話在技術實現方式上有什麼不同？

高鵬：技術上是完全不一樣的。

服務型對話有非常明確的目的，它能夠理解的範圍也是有限的。做得好的服務型對話，不會對用戶的說法有太多限制，用戶只要表達出意思，機器就能夠理解。但是這一點現在其實還很難做到。

很多人認為它其實就是關鍵詞自動回復，當然關鍵詞是最基礎的方法，但是因為用戶的語言變化非常大，包括語序、斷句、重複、語氣詞等等，這時候關鍵詞就很難起效，需要配合很多種方法來做。但是至少服務型對話目的很明確，就是要理解用戶意思，比如你要聽某個人某種類型的一首歌，目的很明確，只是表達方式不一樣。

而自由聊天剛好相反，它沒有明確目的，對於計算機來說就是沒有明確界限。人在對話過程中，是會基於一定的背景和知識儲備，但對於計算機來說，如果超出了限定範圍之外，它就不知道如何回復了。

事實上，聊天機器人做的是另外一件事情，它並不理解我們說什麼，但是它能保證每一句話都會回答。之所以能做到這一點，是因為它上網學習了成千上萬、規模從幾億到幾十億的對話，它會去找你問的話，有可能用什麼來回復，以及依據是什麼。

這個過程其實就是機器學習，但還只是淺層學習，因為它沒辦法真正理解你的意思，它只不過是找到了一個類似的、相關的內容，來進行一個模擬對話。所以聊天機器人更像是一個高級搜索，輸入一個問題，它給你一個它認為的回答。

愛分析：從技術上講，哪個更難一些？

高鵬：這種難度很難比較，因為它的方向不一樣。

固定語義理解的難點在於，用戶表達同一個語義的方式非常不一樣，你要能夠把它對應到你要的那種語義，而且要判斷它是不是這個語義；聊天機器人的問題是，你要有足夠大的語料，然後去設計一個搜索路徑或者過濾方法，然後才能夠得到一個比較好的相關結果。

總之，服務型對話需要更精確地理解你的話，但是範圍很小；而聊天機器人不需要精準理解你的話，但是範圍很大。

我們離通用智能還很遠

愛分析：如何看待通用智能？

高鵬：通用智能是一個學術界最前沿的研究問題。比如Deepmind就花費大量精力在做這件事情。他們要設計一套演算法或者一個模型，讓它能夠具有一些通用的推理能力或者交互能力。通用智能可以說是人工智慧的終極目標，如果真能做到的話，不考慮工程性問題，我們在電影里看到的虛擬AI就能夠實現了。

但是，要實現通用智能，需要克服很多難點。

首先就是知識的表示。

知識表示是非常困難的，因為人的大腦本身是一個黑盒子，它是經過很長的成長過程才能獲取到一些常識性東西。這個東西怎麼用計算機來表示呢？或者說怎麼讓計算機學到這些知識？這點很困難。

然後是推理和決策。

比如AlphaGo下棋很厲害，誰都下不過它。如果我們人類決定把19線改成21線，我們還可以照樣玩這個遊戲，但是電腦就不行了，因為它沒有學過。就算它從頭開始學習，它也沒有那麼多的數據，因為我們人類剛開始玩21線，之前沒有相關的數據積累。

機器只有等到我們把數據積累到一定程度，它才能夠去學習。也就是說，人類可以依靠知識背景和推理去學習全新的東西，但是機器還只能依靠歷史數據去學習。

所以現在最基本的問題都還沒有解決。我們現在所謂的AI都是非常淺層的，或者說都是很實用的、用來解決具體問題的AI，離通用智能還非常非常遠。

數據成本下降要靠技術進步

愛分析：創業公司如何解決數據缺乏問題？

高鵬：對於2B的創業公司，客戶會給他們提供數據，2C的公司就要自己去積累數據，或者前期需要直接去買一些現成的數據。當然，買數據的成本也非常高。

愛分析：數據成本什麼時候或者具備什麼條件會降下來？

高鵬：成本的下降更多的還是要依賴技術發展。之前我們用的是監督式學習，相當於每條數據都得告訴機器這個數據是什麼。慢慢的隨著演算法演進，可能就不需要那麼精確地告訴機器這個數據是什麼，只要告訴它大概是什麼，它會自己從裡面挑一些好的數據去學習，這樣就能減少對數據的依賴。

比如互聯網上有很多數據可以免費抓取，只要不用於商業目的，只用於自己的分析建模，這些數據都可以用來做訓練和學習。現在很多公司做自然語言理解，包括聊天機器人等，事實上門檻並沒有那麼高，先去網上免費抓取數據，然後寫一些演算法來分析這些數據，再從裡面抽取一些對自己有用的，就可以直接拿來用了。

但是如果要對這些數據做一些更精細的標註，比如標出一句話的主語是什麼、意圖是什麼，涉及的時間地點等都是什麼，哪個地方停頓、哪個詞語的詞性等等，這個成本就非常高了。

假如標註一句話要1塊錢，100萬句就要100萬。如果演算法不要求這麼精確的標註，比如粗篩選一下，數據就能達到建模要求了，可能只要花10萬塊錢，這樣成本就降下來了。當然這就要求建模方法能夠在對數據要求不那麼高的情況下也能做得非常好。

人工智慧+最先爆發，2C還要等兩年

愛分析：當前AI是否被炒得過熱？

高鵬：確實有一些，雖然技術確實比前幾年發展得好很多，但是還沒有到真正開天闢地、一下子實現很大突破的時候。

愛分析：如何看待當前的人工智慧大市場，包括2B和2C？

高鵬：其實我理解，我們要從兩個角度看人工智慧。

第一個角度，是人工智慧+，它要解決的問題是直接提高生產力。比如用人工智慧做醫療、大型節能控制、交通安防檢查等，這個是非常有市場的，可以直接提高原有效率，這塊會推翻現在很多行業的原有做法。

第二個角度，是人機交互，等於人和機器之間交互方式的改變，讓機器更加智能來為我們每個人服務。

前者是2B市場，後者是2C市場。2B市場容忍度會比較高，比如原來效率60%，加入AI以後，能提升到65%，它可以讓企業節省5%成本。但人機交互必須要達到95分甚至接近滿分，才算是好的，哪怕你很努力做到90分，消費者都是不買賬的，因為消費者的容忍度是非常低的。

現在是普通用戶對AI期望值很高，雖然我們技術也在努力，但是現在技術確實做不到那麼聰明、那麼準確。但是對於行業來說，只要能夠提高它的效率，就是一個好東西，他們都會用。

所以整體來看，B端市場的爆發一定先於C端市場。B端市場今年已經有了很明顯的趨勢，明年會繼續普及。但是C端市場，我認為還需要等到兩三年以後了。因為做產品不是一天兩天的事情，特別是硬體產品，一個產品周期長達一年多，除了產品，還要考慮體驗，還要打造品牌，還要考慮用戶接受度等等。

愛分析：人工智慧在醫療和節能控制領域有哪些典型應用？

高鵬：比如DeepMind就在做這兩塊。

醫療方面，有些疾病在癥狀顯現出來是很難發現的，而如果能提早發現，可以大大提高治癒的概率。他們所做的事情就是讓機器代替人看片子，或者檢查數據，來判斷一個人患某個疾病的概率。當然原理也是通過看大量的片子和數據學習出來的。

節能控制方面，一些大型企業需要龐大的伺服器，這些伺服器存在一個冷卻問題，傳統的冷卻措施都是靠人根據一些監測數據和經驗去調節管理，而DeepMind希望通過讓機器學習歷史數據，實現分析和預測，從而更高效地調節冷卻系統，節省電力成本。在實際測試中，他們的技術可以節電40%，這是相當大的一部分成本。

愛分析上線一周年，快來領取超級大禮包 →各位老鐵~今天愛分析上線一周年，請收下這份大禮包

愛分析是一家專註於創新企業研究和評價的互聯網投研平台。愛分析以企業價值為研究內核，以獨特的產品形態，對創新領域和標杆企業長期跟蹤調研，服務於企業決策者、從業者及投資者用戶群體。關注愛分析公眾號ifenxicom，及時獲取重要信息。

添加愛分析群小秘微信（ID：ifenxi502）即刻加入愛分析行業討論群。