機器視覺技術漫談系列之一：「機器視覺」超越人類了嗎？

08-14

4 人贊了文章

撰文：曹亮、責編：周之琪
轉載自多目慧眼

無論明與暗，無論光與影，也無論萬水千山還是滄海桑田，在我們的鏡頭裡都是數字與數據。讓機器睜開眼睛看世界……

（一）「機器視覺」是什麼？

對於「機器視覺」來說，可以給出一個比較寬泛的定義，一般可以理解為：通過機器設備中對外界三維尺寸能夠感知的技術裝備和手段，實現對外界物體或周圍環境空間尺寸、位置、紋理及運動狀態進行感知和測量，產生人眼可直接觀察的圖形和圖像，並且通過圖像識別演算法，解決關於圖形和圖像特定問題的機器系統及其所具有的對圖像處理的功能。

符合以上定義的機器視覺系統，包括流水線上通過圖像識別檢查產品外觀缺損、標籤印刷錯誤、電路板焊接質量缺陷的圖像識別系統；通過機器學習能夠在海量圖像中上找出指定物體的系統；各類智能交通設備上用於汽車車號讀出和測速的系統；以及各類安全監控設備上對於人臉進行自動識別的系統等等。

符合目前「機器視覺」定義的系統，一般具有以下幾個特徵：首先，系統對於外界需要具有感知能力，能夠自動生成人眼可直觀觀察的二維或三維圖像；其次，系統針對圖像必須具有一定的智能識別功能。只有符合以上兩個條件，才可以認為達到了機器視覺的基本要求。

（二）「機器視覺」已經超越人類？

目前，人工智慧概念火熱，特別是江蘇衛視「最強大腦」節目，機器視覺使用童年照片就能在眾多人群中挑選出照片上的已經長大成人的女孩，而且還區別出長相基本相同的雙胞胎，按一些人的說法，機器視覺已經全面戰勝和超越人類。

我們藉助望遠鏡可以看到遙遠的星河；藉助顯微鏡可以看到分子結構；通過百萬級數量圖片的比對，可以從監控中抓出隱藏的罪犯；在高速流水線上，每秒可以完成成百上千個標籤的檢查和驗證；在醫院裡可以找出隱藏在身體內的變異細胞……是啊，按照目前的某些機器視覺功能，人類怎能匹敵？

但仔細想一下，還是有些感覺不對。就拿「最強大腦」節目來說，如果再問一下，識別出的雙胞胎是男的還是女的？大概多大歲數？身高胖瘦幾何？是在跳舞還是唱歌？這些對於人的視覺能力來說，可以說完全不是問題，但對於參賽的那個機器視覺系統來說，估計很難達到。

因為，它只設計了「看臉」和「比臉」的程序和系統，其它能力在程序中無法全部涵蓋。要識別性別，需要一套識別性別的系統；要識別身高，需要另一套測量身高的系統；要識別年齡、識別動作，還需要編製另外的系統。而且，就拿人臉系統來說，還需要人站在固定的位置、需要輔助照明、需要臉部正面圖像等等……

所以說，目前的機器視覺在特定的場合和特定的任務方面，基本能夠達到甚至超過人類的視覺。但在視覺的智能化和自動化方面還有巨大差距，而且可以認為目前的機器視覺基本沒有類似生物視覺的智能特徵，無法和任何一個智慧生物的「視覺」相比。

我們認為在智能化方面現有的 「機器視覺」和生物視覺的差距主要表現在以下幾個方面：

現有視覺系統只能針對特定場景實現單一功能。
現有視覺系統的專業局限性和複雜性。現有的機器視覺系統，都需要有專業技術人員，進行專門的編程和系統設計。
現有視覺系統對於被攝物和環境有很強的相關性。
現有視覺系統一般都是基於二維圖像的視覺感知，基本不具備三維實時感知能力。
現有的圖像識別採用的機器學習方法，對於圖像的理解，還不具有智能生物的真正意義上的視覺感知和視覺理解能力。

基於以上分析，我們認為目前這樣的「機器視覺」應該是由人工智慧計算來實現的，一種視覺就對應一種特有的軟體和系統，完成一種固定的視覺任務，在演算法和數據層面無法實現各視覺系統在機器視覺上的統一。而且，對於圖像內容的理解方面，由於神經網路存在的黑箱性質，機器無法達到令人信服的對視覺的理解要求。

那麼這樣的機器視覺系統，是否只應該叫做「人工的機器視覺」？因為這樣的「人工的機器視覺」不具有通用性，不能讓機器自動產生對視覺的理解。

（三）是否存在「機器的機器視覺」呢？

那麼，是否存在「機器的機器視覺」呢？這樣的「機器的機器視覺」系統應該能夠克服以上問題，就象生物的眼睛一樣，能夠快速、直觀的獲得外界空間的各類視覺信息，實現所見即所得，成為真正意義上機器的眼睛。這樣的機器的眼睛應該具有一定的演算法通用特徵和被動測量特徵，能夠自動完成對外界和環境的認識和識別，就象生物視覺一樣，具有視覺上的智能。我們可以把它叫做「機器眼」。

所以相對應於上述寬泛的機器視覺定義來說，我們可以得出一個更加狹窄的定義，那就是「機器的機器視覺」或可稱之為「機器眼」。這種「機器眼」是一種能夠自主產生觀測結果、不需要人工的設計和干預、實現對外界的空間環境的直觀感知和判斷的機器視覺。

通常意義上的視覺「感知」，包括兩個組成部分，一個是「感覺」、另一個是「知道」。「感覺」是對環境和物體的大小、位置、紋理、運動狀態等視覺特徵進行測量並獲取這些視覺特徵的相關數據；「知道」是通過視覺數據，判斷出物體的各類屬性數據，並通過這樣的屬性數據的分類，採用人工智慧或者機器學習的手段，進一步得到被視物體的類別、名稱、空間位置、空間尺寸、表面紋理、以及運動狀態等等。

目前人工智慧正在向縱深方向發展，用機器可以理解的方式自動完成各類任務的具有通用特徵的「機器智能」正逐步向我們走來。在這個過程中，作為「機器智能」必備的且起決定作用的「機器的視覺」，必然成為技術發展的焦點和熱點，對於「機器的視覺系統」必然要由目前「人工的機器視覺系統」，發展到「機器的機器視覺系統」。所以我們認為，機器視覺的定義，應該是指最後的一種狹窄的機器視覺定義，就是「機器的機器視覺」，也就是「機器眼」。這樣的視覺更像機器擁有生物的眼睛一樣，能夠主動地對外界環境進行動態的跟蹤、測量和感知。

目前，對於機器人的聽覺，已經有了很深入的研究，對於語音的識別也具有了很高的準確率。對於服務機器人和擬人機器人，目前與外界的交互主要以語音為主。上述機器人系統以及無人機或無人汽車等需要機器視覺的無人自動系統，視覺方面主要是以激光測距或平面二維圖像的識別為主，三維感知功能很弱。這樣的視覺系統一般只針對特定場景使用，不能夠實現普遍性的機器視覺，達不到機器人的要求。因此對於機器智能來說，急需能夠具有普遍適用性的具有「機器的機器視覺」的「機器眼」。

從「機器視覺」到「機器的機器視覺」是一個人工智慧向人類智能進化的一步，但在目前的階段都處在「機器視覺階段」，那「機器的機器視覺」的目標是什麼？有什麼實現路徑呢？我們將在明天的推送中跟大家分享。

關注集智AI學園公眾號

獲取更多更有趣的AI教程吧！

搜索微信公眾號：swarmAI

集智AI學園QQ群：426390994

學園網站?

campus.swarma.org
推薦閱讀：

※[論文筆記] Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space
※CVPR2018 Visual Tracking 部分文章下載
※公開課總結：深度學習之視頻圖像壓縮
※[CVPR2018筆記]Deep Layer Aggregation
※機器視覺究竟有多牛？看看這些工業自動化的應用你就曉得了

TAG:計算機視覺 | 人工智慧 |