要讓人工智慧有「靈氣」？得賦予它一雙聰慧的「眼睛」

01-25

編者按：上周，閱面科技創始人 & CEO 趙京雷做客深圳灣（公眾號 ID：shenzhenware）的「連線灣星人」活動，與各位小夥伴們討論了當下行業熱議的人工智慧以及機器視覺的相關問題。本文對趙京雷在該活動中的討論進行了編輯和整理。

關於趙京雷：上海交通大學人工智慧博士，曾任 WiseNut 演算法總監，阿里北京演算法研究中心負責人、高級演算法專家，專註人工智慧領域演算法研究超過15 年。

初衷：讓機器具有一雙聰慧的「眼睛」，朝更智能化的方向發展

在一次聚會中，趙京雷與朋友們討論了這麼一個問題：什麼樣的平台，會成為繼智能手機之後最有發展潛力的一個平台？大家普遍認為，人工智慧的發展既是必然的趨勢，同時也是也是不可或缺的技術。

而視覺將在人機交互中扮演著重要的角色，它能夠讓機器從被動接受命令到主動去感知世界，而就目前來看，計算機視覺的發展還處於比較前期的狀態。自從深度學習出現後，人工智慧領域迸發出了許多創業機會。然而，這些人工智慧產品中的大部分並不「智能」。

2015 年，趙京雷成立閱面科技（ReadSense），主攻計算機視覺和機器學習，讓機器具有一雙智慧的「眼睛」，朝更智能化的方向發展。

在趙京雷看來，只有賦予計算機視覺感知能力，像人一樣看到並主動理解周圍的世界，人工智慧才真正開始具有「靈氣」。「當我們期待人工智慧超越人類智能這個奇點的臨近，我們就必須讓計算機具備比人類更強大的視覺能力。而在這個最好的時代等待計算機視覺的將會是全新的挑戰」

內容：提供軟硬體一體化解決方案，幫助行業（智能家居、機器人、車載設備等）解決視覺問題

「現在的視覺演算法早已捨棄了底層的傳統方法，全都必須採用深度學習。在深度學習框架上，我們主要解決了檢測、追蹤和識別三塊，基於自主演算法的不斷優化，可以構建一系列諸如人臉情緒識別、手勢識別、人體識別以及場景感知演算法。」

視覺演算法前端運算的最終形式是視覺晶元，閱面科技正自主研發創新性視覺演算法，硬體模組及晶元，旨在做一套軟硬體一體化解決方案（包括軟體 SDK、嵌入式硬體模組以及視覺 sensor 等），幫助行業解決視覺問題，涵蓋智能機器人、智能家居、智能玩具和車載設備等。

做演算法出身的趙京雷坦言：「硬體和演算法產品的做法差別非常大，但在目前，要想真正的解決機器視覺的問題，必須要做硬體。而做硬體要考慮性能、功耗、價格和供應鏈以及與軟體演算法的整合優化等。幸虧團隊里有硬體產品經驗比較豐富的同事，解決起來相對沒那麼費勁。另外，我們也一直在加強硬體方面人才的積累。」在前期一年多的時間裡，團隊主要還是將精力放在底層演算法和數據上。

以往的智能解決方案一般都需要連接雲端，相應的，機器會容易因此出現響應速度慢等問題。而閱面的一體化解決方案運用深度學習技術以及海量的數據，可在脫離雲端的情況下，利用本地化演算法實現硬體嵌入。對於情緒識別這中必須得到實時反饋的服務，需要演算法前端化嵌入移動端來實現高效運行，雲端處理顯然不是最好的選擇。

而離線是否會影響機器的深度學習和大數據分析呢？趙京雷向我們解釋了其中的原理：在機器學習中，目前主流的演算法分為從大數據中去學習的訓練階段，和對新數據處理的預測階段。而不管演算法是運行在雲端還是本地，都要先從大數據中去習得能力。所以，不管是前端還是雲端，兩者的預測模型都需要有事先的部署，預測端代碼和離線的數據處理並沒有什麼關係。

技術：關於手勢識別、表情識別、建模的那些事

關於手勢識別如何解決多角度的問題，趙京雷表示：目前，手勢識別有 2D、3D 這兩種主流方案。除了 VR、AR 中一些需要精準捕捉手部關節運動的應用外，一般的手勢均可採用 2D 方案。另外，影響手勢多角度識別的關鍵在於手部檢測環節（就是從圖片中檢測出手勢）。

在以往，比起 2D 方案，3D 方案在手部檢測方面具有更大的優勢，而這種優勢已逐漸消失：2D 擁有更大的數據量，尤其適用於深度學習，在樣本量足夠大的情況下，深度學習有能力構建更高度精確的多角度手部檢測模型。

表情識別可謂是人臉識別中最大的難題，一方面，數據的不一致性，使得人類在某種情感上較難建立標準的定義；另一方面，對於人臉，計算機只能識別出一個情緒模型的置信值，這也是機器不能讀懂面部表情下潛在心情的緣由。

據趙京雷介紹，為了改善這一局面，目前也有人在嘗試這樣一種方法：通過多模態的輸入，比如結合體征特徵、聲音特徵等對情緒進行建模。但總體進展和實用性不大。

攝像頭在捕捉面孔信息時，難免會遇到因為遠距離而導致畫面模糊的問題。閱面科技也一直在加強處理這方面問題的技術，其中，表情識別是他們解決方案中很小的一部分。

趙京雷還表示，未來的視覺識別將是「無感」的，也就是不能要求被識別的目標擺 pose。受人體運動、角度等影響，攝像頭所捕捉到的圖像質量普遍偏低，在考慮實際的產品時，也必須考慮到這些問題。

趙京雷進一步說道，目前人工智慧最大瓶頸在模型本身，現在深度學習模型也只是對人腦的認知機制刻畫了一個皮毛，而對大腦認知結構的進一步認知（比如心理學和生物學），將會對 AI 帶來本質性的突破。

理解：「人工智慧」與「機器人」

到現在為止，相信許多人對「人工智慧」的概念還是了解得不夠清楚，甚至還會與「機器人」這個概念混淆。對人工智慧有多年研究經驗的趙京雷對「人工智慧」的存在形式做了一番解說：

「人工智慧」與「機器人」是兩個截然不同的概念，但在某種意義上，「人工智慧」可以等同於「機器人」。機器人是具備了部分人類或者生物認知能力的機器，但不一定是人形機器人。

另外，機器人不一定要有硬體載體，人工智慧演算法本身接入虛擬形象也可以成為某種意義上的機器人。未來的機器人可以有硬體載體，也可以是存在於 AR、VR 等場景的虛擬影像。

編輯：林億

題圖：電影『機器人 9 號』

● ● ●

下期「連線灣星人」活動預告：
「靈聚人工大腦可以立即改善當前智能硬體和機器人的窘境，而不是只著眼於遙遠未來的實驗室技術。」

經歷過多次創業，為何還會選擇在 40 歲創業做靈聚人工大腦？
在人工大腦和其它自然語音交互系統區別在哪？
為何選擇用 NAO 機器人作為硬體載體？
產品定位是商用級人工大腦，是否有考慮和家庭機器人合作？

靈聚科技今年 8 月剛剛拿了 A 輪卻還依然很低調，最近在發展什麼？人工大腦領域還能有什麼樣的創新和突破？

點擊此處或長按圖片中的二維碼，參與 9 月 8 日（周四）晚上的「連線灣星人」在線活動，和靈聚科技創始人張勝，聊聊人工大腦未來的發展前景和技術方向。

轉載、約稿、投稿、團隊報道請聯繫微信公眾號：shenzhenware（回復關鍵字）
推薦閱讀：

※【機器視覺】張氏法相機標定
※機器視覺、圖像處理、機器學習領域相關代碼和工程項目和數據集集合
※ADAS領域中，雷達和機器視覺各有什麼優劣，未來的趨勢是共存還是某個徹底勝出？
※海康威視研究院在計算機視覺、模式識別這方面的技術水平如何？

TAG:人工智能 | 机器人 | 机器视觉 |