CCAI人工智慧大會華山論劍的碎筆之一

01-29

是的，沒有錯別字，就是碎筆，碎片化筆記。
西元2016年8月份第26天和第27天這兩天，斷斷續續地參加了一年一屆的「中國人工智慧大會」。這個大會算是國內很頂級的大會了，常常要被演算法工程師們每天上三炷香的人幾乎都來了：
楊強、戴文淵、譚鐵牛、余凱、孫劍……
還有那些高富帥的CXO們：「出門問問」李志飛，雲知聲黃偉，商湯科技徐立，大疆李澤湘……

總之這個會，光喝湯都有營養，所以我專心喝了兩天的湯，乾貨一點沒吃。其實主要是因為家裡有事，所以兩個主旨演講時段我都錯過了，專心聆聽觀摩了分論壇的幾場論劍。
下面分別整理我的所見所感。

人工智慧驅動的人機交互論壇

這個論壇主要討論人工智慧的發展會對人機交互方式產生哪些革命性的變革。

自計算機誕生以來，人機交互方式發生了很多變化：從最早的鍵盤交互，到後來的GUI圖形界面交互，到今天的多點觸摸，以及，現在初現端倪未來可能成為主流的「自然語言&語音&手勢」交互。

其中，以「自然語言&語音&手勢」的人機交互方式，對人工智慧的要求很高，同時也驅動了學術界和產業界的為此協同發展，比如聊天機器人，語音識別，計算機視覺。

本論壇就是基於以上的背景，邀請了若干行業內的人士進行廣泛討論。

討論之前，每個嘉賓都有十分鐘的主旨發言，由於只有10分鐘，所有這些觀點大致可以分成以下兩個維度進行闡述：

1. 基於人工智慧的人機交互難點在哪？

2. 基於人工智慧的人機交互的商業模式如何？

一、基於人工智慧的人機交互難點在哪？

人機交互的人工智慧任務分為「感知」和「認知」兩個大的階段，感知就是捕捉原始信號，比如計算視覺、語音識別、NLP、手勢識別。這個過程是將物理世界的現象初步轉換成數字世界可計算的信號。

這一步目前在問題清晰定義的情形下已經能夠很好的解決了。其中孫劍博士去年的最新imagenet記錄是錯誤率降到4.94%，用了100多層的深度殘差網路。這對於實體識別、人臉識別等等應用都意義非凡。

但是感知智能真正的難點在於（來自雲知聲的黃偉）：

1. 語音識別在公共場合的嘈雜背景下如何做到高識別率

2. 在遠場識別中如何做到高識別率

3. 在非常規的溫度和濕度下如何保持感測器正常工作

而在「認知」方面，人工智慧更是有點吃力(來自微軟小冰的周明博士)：

1. 聊天機器人的對多輪對話的深層理解

2. 聊天機器人對我們聊天的意圖認知：閑聊？獲取信息？幫助決策？

二、基於人工智慧的人機交互的商業模式如何？

無一例外，這個論壇包括後面其他的論壇都在討論人工智慧的商業化問題。在這個論壇里，大家發表的觀點有：

來自雲知聲黃偉推斷的商業落地場景有（主要是從語音角度看的）：

1. 家居

2. 電視

3. 汽車

來自微軟的周明博士說，聊天機器人目前已經用在了：

1. 導購（京東）

2. 機器人大腦（robot brain）

3. 客服

來自百度IDL的林元慶提到百度的應用在：

1. 提供更好的深度學習平台

2. 更細粒度的圖像識別

3. 視頻分析

4. AR

5. 醫學圖像分析

余凱和孫劍各自還總結了一條高層次的商業化框架。余凱認為，人、機器、世界三者之間的關係是：

人與機器是「交互」關係
機器和世界是「索引」關係

孫劍認為技術產業化的路徑可以抽象為：

核心技術 --> 商業產品 --> 數據循環

此外，大家還圍繞幾個論題發表了各自見解。

第一個論題：生物識別技術是否已經成熟？

雖然這個問題是討論的生物識別技術是否已經成熟，大家略微有些跑題，並沒有特別針對生物識別技術。

余凱首先犀利地提出：

目前大家所為之瘋狂的評測結果（暗指ImageNet）都是基於靜態數據的，而我們任何實際應用面對的都是動態多變充滿雜訊的數據；而且，雖然大家都吹噓說現在計算機識別結果「超過人類」，但是超過人類實際上是一個很初級的標準，很多方面，計算機超過人類都易如反掌。

在這裡不得不贊一下余凱，恐怕這個問題也是很多人想說出來的。對余凱的問題，商湯科技的徐立認為：

應用場景有不同的等級，在某個應用下比人好，那就有必要用商業化力量使之大規模應用。
而實際應用中還有一個困難的事情是，計算機如何判斷自己什麼時候是錯的？因為計算機無論怎樣，都能計算出一個結果來，而人不一樣，拿不準的不說。

關於後一個困難，清華的馬少平教授曾經也在微博上提到過。

雲知聲黃偉認為：

在某些場景下，即使錯誤率在萬分之一以下，也是不可接受的，因為錯誤的代價很嚴重，比如關乎生命的識別。
單個感測器不靠譜，那就多個感測器並聯使用，可以顯著降低錯誤率。

第二個論題：語音聊天體驗不夠完美，誰之過？語音識別還是語義理解？

這是一個關於當下熱門的聊天機器人的論題，自然首當其衝地由來自微軟小冰的周明博士來發表觀點：

現在應該不是語音識別本身的問題了，主要在於以下難點：
1. 上下文場景複雜
2. 閑聊和認真回答如何自如切換
3. 聊天的方式不夠人性，太機械

雲知聲的黃偉補充了幾點：

目前的感測器還不是針對具體場景設計的，仍然還是通用設計的
低功耗和耐濕熱的還急需突破
語義理解達到一致性很難

建議我們還是階段性地解決這些問題，逐步往前推進。

第三個論題：現在人工智慧創業有些同質化，該如何差異化發展？

就這個問題，余凱的意思是：

首先我們創業者出發前就要思考創業的獨特性何在，只有這樣才能走得遠
另外，同質化也可以某些階段出現，比如行業早起，充滿競爭可以激起創業者的競爭慾望，有利於發展行業和教育市場。

（繼續閱讀系列之二）