2016會是計算機視覺元年嗎？

01-30

最初，互聯網是為了傳輸文字而建立的，所以語義識別的技術早早就開始發展，至今已相當成熟。

如今，互聯網上的信息正變得越來越可視化，但相應的計算機視覺技術，由於各種原因，暫時還沒有跟上。

互聯網能夠識別文字，但它並不能真正地「看見東西」。

在 2016年，這樣的現狀有望發生改變。圖像識別和可視化搜索領域出現了重大進步，技術水平已接近成熟。多起大公司收購圖像識別領域創業團隊的新聞，有力地佐證了人們對此的極高期望。

讓我們一起來看看，這一領域的現狀到底如何，其未來又將走向何方？

技術層面：已經準備就緒

當媒體報道可視化搜索和圖像識別領域時，他們往往會挑選一些有趣的新聞。

比如說，推特上有一個叫「DroneSweetie」的機器人賬號，它能用基於谷歌的人工智慧，來辨識並描述無人機所看到的事物。它的描述既有非常細緻靠譜的（如「航空母艦夾板上，一架直升機正在轉動著螺旋槳」），也有讓人莫名喜感的（如「一隻綠藍白黑相間的孔雀與一個銀質盤子」）。

戳我查看 DroneSweetie 的更多推特

這很有趣，不過現有的技術水平已遠遠不止於此。

DroneSweetie 使用的 AI 因其自學成才、習得了辨識貓的能力而出名的。如今，它已能以前所未見的極高精確度，識別出照片和視頻中的事物，並展現出了非常接近人類水準的理解能力。

去年，一位藝術家使用類似的技術，直播了機器人在阿姆斯特丹街頭一邊行走，一邊識別所看到事物的情景。這告訴我們，現有的科技水平已經非常接近「讓機器人看見世界」了。是的，這台機器人仍然會犯一些錯；但它在絕大多數時候都能做出正確的判斷，這實在是讓人驚嘆不已。它甚至能夠給出像「一位男人拿著一隻夾在麵包中、撒了芥末和番茄醬的熱狗」這類 100%精確的描述。

微軟研究院深度學習專家李登（音譯）表示，機器學習領域的絕大多數技術創新都已實現。尤其值得指出的是，圖像識別軟體的準確率已經接近人類水準，出錯率低於 4.7%。

李登同時也表示，這一領域的提升空間已經比較小了。相比於追求技術上進步有限的微小創新，研究人員們應更專註於探索如何利用已有的技術，去解決現實世界中的問題。

可視化搜索和圖像識別領域的突破，將會極大地促進醫療影像、零售電商、無人駕駛甚至智慧城市等領域的發展。

「BlindTool」這款安卓應用就是一個很棒的例子。它能識別鏡頭前的事物，並用語音播報給視力障礙的人。正如一位參與測試的用戶所說，「手機成了我的眼睛。」

BlindTool應用演示 http://v.qq.com/page/z/t/2/z0189vaxbt2.html

圖像識別技術在垃圾筒中的應用，使得在智慧城市中，垃圾車可以分辨出哪些垃圾箱還沒滿、暫時不用清理，從而節省大筆時間，並減少二氧化碳的排放。

新加坡國家衛生研究所目前正在研發一款可以識別藥片的軟體。在日常生活中，病人和醫生時常會遇見一些沒有標明名稱或是標錯了名稱的藥片，這給他們帶去了許多麻煩。據統計，在新加坡，90%的 65 歲以上老人需要服用至少兩種藥片。分辨不清這些藥片有可能影響他們的健康，甚至造成死亡。

商業應用：巨頭虎視眈眈

許多科技巨頭都意識到了計算機視覺技術所帶來的巨大機遇。過去幾年裡，Facebook、Yahoo、Dropbox、Google、Pinterest 等公司都收購了不少圖像識別和深度學習領域的創業團隊。尤其值得一提的是，2015年6月，Facebook 宣布他們的演算法可以在 83%的情況下分辨出圖像中的人物是誰，即使他 / 她並沒有露出自己的臉。

較鮮為人知的是，除圖像識別之外，可視化搜索領域也出現了非常重要的巨大突破。圖像識別技術可以將圖像轉化為可讀信息（從圖像到文本），而可視化搜索技術則可以分辨出圖像中的物體，將其與類似的物體對上號（從圖像到圖像）。

去年夏天，Pinterest 就已添加了這一功能，允許用戶在 Pinterest 中上傳圖片，搜索併購買圖中所包含的商品。（演示gif較大，無法直接上傳，百度網盤鏈接戳我）

印度電子商務老大 Flipkart 也為消費者們提供了可視化搜索服務。他們所使用的 SaaS 通過對圖片中物品的顏色、樣式、輪廓、剪裁風格等進行分析，既能分辨出西方服飾，也能分辨出莎麗服等印度傳統服飾。

可以預見，出版商們也會越來越接受可視化搜索技術：他們坐擁數以噸計的視覺內容，卻在變現與盈利的壓力下掙扎。可視化搜索技術能讓他們更為直接地從內容中獲取營收（內容變得可以搜索後，讀者們就能更方便地找到併購買圖片中的商品），而不是靠插入令人厭惡的廣告過活。

視頻行業也是一樣。

在線視頻廣告是互聯網廣告中增長最快的形式。據預測，在線視頻廣告的數量在 2016年還會增加 22.5%。消費者們既厭倦了這些廣告，也厭倦了打開瀏覽器去搜索關鍵詞的繁瑣過程。有了可視化搜索技術之後，他們就能直接點擊視頻中相應的位置進行搜索，輕鬆找到自己感興趣的商品。

用戶層面：人人翹首以待

視頻識別技術在「第二塊屏幕」上的應用會非常有趣。據報道，87%的消費者在看電視 / 視頻時，會使用「第二塊屏幕」（即手機等移動設備），原因之一便是他們希望更多地了解自己看到的是什麼，以及如果可能的話，哪裡可以購買這些物品。

BravoTV 推出的「TheLookbook」功能就是一次試水。它能標記出熱播電視劇《女友離婚指南》中的潮品，並提供「購買」按鈕。

「經常有觀眾問我們，『演員穿的是什麼？』」 Bravo 母公司 NBC 中負責新興媒體的副總裁 Aimee Viles 說，「我們從中嗅到了巨大的商機。」

為 Lookbook 功能提供技術支持的，是一家名叫 The Take 的創業公司。他們先用人工識別出相應的物品，再用技術手段讓這一物品在視頻中變得可以點擊，並指向購買鏈接。想像一下，在不久的將來，這一過程將由圖像識別技術自動完成，完全不需人工介入——而消費者們也會非常容易地接受它，因為他們會更喜歡這種「渾然天成的原生植入廣告」，而不是令人厭煩的彈窗推送。

綜合評價：史上最大創新之一

終於，互聯網真的變成了一個可視化的網路。

每一秒，就有約 800 張照片被上傳到 Instagram；每一分鐘，就有約 300 小時視頻被上傳到 YouTube；每一天，就有約 3.5 億張圖片被上傳到 Facebook……

我們早已被過載的視覺信息淹沒，可卻仍然不停地創造著更多的視覺信息。這些視頻和圖片在互聯網上被逐漸埋沒，越來越難以尋找，越來越難被發現。

對此，Dropbox 研發副總裁 Aditya Agarwal 說道：「我們製造視覺信息的速度實在是增長得太快了。因此，在整理、聯繫、理解這些視覺信息的能力方面，出現了巨大的市場機會。」

圖片就是一個很好的例子。很多時候，我們對圖片的命名都非常混亂，更別提將其按照內容進行整理了。難怪 Joe Veix 將網上這些命名混亂的圖片稱作「孤獨的網路」——如果一張圖片的名字是「085772.jpeg」，或者一個視頻的名字叫做「5115d7.wmv」，那它很可能將永遠不被人知，它包含的信息也將永遠沉睡下去。

不久之後，這種狀況有望得到徹底解決，圖像識別、可視化搜索、人工智慧技術將能夠真正看到並理解「孤獨的網路」中的信息。而且我相信，這樣的巨大轉變很有可能從今年就將開始。可視化搜索技術在內容分類和信息檢索上的能力將達到人類水準，讓所有人都驚嘆不已！

而這又會是如何的一種體驗呢？

請允許我引用著名英國科幻作家 Arthur. C. Clarke 的一句名言：「任何足夠先進的科技，都與魔法無異。」

【備註】本文編譯自 The Next Web（原文地址戳我），譯者 Gavin Li ，原作者 Oliver Tan 是 Visenze 的聯合創始人兼 CEO。Visenze 是一家致力於為電子商務、圖書館、出版商等提供可視化搜索和圖像識別解決方案的新加坡初創公司，獲得了來自樂天、Walden International 和 UOB Venture Management 的 350 萬美元 A 輪投資。