2016會是計算機視覺元年嗎?
最初,互聯網是為了傳輸文字而建立的,所以語義識別的技術早早就開始發展,至今已相當成熟。
如今,互聯網上的信息正變得越來越可視化,但相應的計算機視覺技術,由於各種原因,暫時還沒有跟上。
互聯網能夠識別文字,但它並不能真正地 「看見東西」。
在 2016年,這樣的現狀有望發生改變。圖像識別和可視化搜索領域出現了重大進步,技術水平已接近成熟。多起大公司收購圖像識別領域創業團隊的新聞,有力地佐證了人們對此的極高期望。
讓我們一起來看看,這一領域的現狀到底如何,其未來又將走向何方?
技術層面:已經準備就緒
當媒體報道可視化搜索和圖像識別領域時,他們往往會挑選一些有趣的新聞。
比如說,推特上有一個叫 「DroneSweetie」 的機器人賬號,它能用基於谷歌的人工智慧,來辨識並描述無人機所看到的事物。它的描述既有非常細緻靠譜的(如 「航空母艦夾板上,一架直升機正在轉動著螺旋槳」),也有讓人莫名喜感的(如 「一隻綠藍白黑相間的孔雀與一個銀質盤子」)。
戳我 查看 DroneSweetie 的更多推特
這很有趣,不過現有的技術水平已遠遠不止於此。
DroneSweetie 使用的 AI 因其自學成才、習得了辨識貓的能力而出名的。如今,它已能以前所未見的極高精確度,識別出照片和視頻中的事物,並展現出了非常接近人類水準的理解能力。
去年,一位藝術家使用類似的技術,直播了機器人在阿姆斯特丹街頭一邊行走,一邊識別所看到事物的情景。這告訴我們,現有的科技水平已經非常接近 「讓機器人看見世界」 了。是的,這台機器人仍然會犯一些錯;但它在絕大多數時候都能做出正確的判斷,這實在是讓人驚嘆不已。它甚至能夠給出像 「一位男人拿著一隻夾在麵包中、撒了芥末和番茄醬的熱狗」 這類 100%精確的描述。
微軟研究院深度學習專家李登(音譯)表示,機器學習領域的絕大多數技術創新都已實現。尤其值得指出的是,圖像識別軟體的準確率已經接近人類水準,出錯率低於 4.7%。
李登同時也表示,這一領域的提升空間已經比較小了。相比於追求技術上進步有限的微小創新,研究人員們應更專註於探索如何利用已有的技術,去解決現實世界中的問題。
可視化搜索和圖像識別領域的突破,將會極大地促進醫療影像、零售電商、無人駕駛甚至智慧城市等領域的發展。
「BlindTool」 這款安卓應用就是一個很棒的例子。它能識別鏡頭前的事物,並用語音播報給視力障礙的人。正如一位參與測試的用戶所說,「手機成了我的眼睛。」
BlindTool應用演示 http://v.qq.com/page/z/t/2/z0189vaxbt2.html
圖像識別技術在垃圾筒中的應用,使得在智慧城市中,垃圾車可以分辨出哪些垃圾箱還沒滿、暫時不用清理,從而節省大筆時間,並減少二氧化碳的排放。
新加坡國家衛生研究所目前正在研發一款可以識別藥片的軟體。在日常生活中,病人和醫生時常會遇見一些沒有標明名稱或是標錯了名稱的藥片,這給他們帶去了許多麻煩。據統計,在新加坡,90%的 65 歲以上老人需要服用至少兩種藥片。分辨不清這些藥片有可能影響他們的健康,甚至造成死亡。
商業應用:巨頭虎視眈眈
許多科技巨頭都意識到了計算機視覺技術所帶來的巨大機遇。過去幾年裡,Facebook、Yahoo、Dropbox、Google、Pinterest 等公司都收購了不少圖像識別和深度學習領域的創業團隊。尤其值得一提的是,2015年6月,Facebook 宣布他們的演算法可以在 83%的情況下分辨出圖像中的人物是誰,即使他 / 她並沒有露出自己的臉。
較鮮為人知的是,除圖像識別之外,可視化搜索領域也出現了非常重要的巨大突破。圖像識別技術可以將圖像轉化為可讀信息(從圖像到文本),而可視化搜索技術則可以分辨出圖像中的物體,將其與類似的物體對上號(從圖像到圖像)。
去年夏天,Pinterest 就已添加了這一功能,允許用戶在 Pinterest 中上傳圖片,搜索併購買圖中所包含的商品。(演示gif較大,無法直接上傳,百度網盤鏈接 戳我 )
印度電子商務老大 Flipkart 也為消費者們提供了可視化搜索服務。他們所使用的 SaaS 通過對圖片中物品的顏色、樣式、輪廓、剪裁風格等進行分析,既能分辨出西方服飾,也能分辨出莎麗服等印度傳統服飾。
可以預見,出版商們也會越來越接受可視化搜索技術:他們坐擁數以噸計的視覺內容,卻在變現與盈利的壓力下掙扎。可視化搜索技術能讓他們更為直接地從內容中獲取營收(內容變得可以搜索後,讀者們就能更方便地找到併購買圖片中的商品),而不是靠插入令人厭惡的廣告過活。
視頻行業也是一樣。
在線視頻廣告是互聯網廣告中增長最快的形式。據預測,在線視頻廣告的數量在 2016年 還會增加 22.5%。消費者們既厭倦了這些廣告,也厭倦了打開瀏覽器去搜索關鍵詞的繁瑣過程。有了可視化搜索技術之後,他們就能直接點擊視頻中相應的位置進行搜索,輕鬆找到自己感興趣的商品。
用戶層面:人人翹首以待
視頻識別技術在 「第二塊屏幕」 上的應用會非常有趣。據報道,87%的消費者在看電視 / 視頻時,會使用 「第二塊屏幕」(即手機等移動設備),原因之一便是他們希望更多地了解自己看到的是什麼,以及如果可能的話,哪裡可以購買這些物品。
BravoTV 推出的 「TheLookbook」 功能就是一次試水。它能標記出熱播電視劇《女友離婚指南》中的潮品,並提供 「購買」 按鈕。
「經常有觀眾問我們,『演員穿的是什麼?』」 Bravo 母公司 NBC 中負責新興媒體的副總裁 Aimee Viles 說,「我們從中嗅到了巨大的商機。」
為 Lookbook 功能提供技術支持的,是一家名叫 The Take 的創業公司。他們先用人工識別出相應的物品,再用技術手段讓這一物品在視頻中變得可以點擊,並指向購買鏈接。想像一下,在不久的將來,這一過程將由圖像識別技術自動完成,完全不需人工介入——而消費者們也會非常容易地接受它,因為他們會更喜歡這種 「渾然天成的原生植入廣告」,而不是令人厭煩的彈窗推送。
綜合評價:史上最大創新之一
終於,互聯網真的變成了一個可視化的網路。
每一秒,就有約 800 張照片被上傳到 Instagram;每一分鐘,就有約 300 小時視頻被上傳到 YouTube;每一天,就有約 3.5 億張圖片被上傳到 Facebook……
我們早已被過載的視覺信息淹沒,可卻仍然不停地創造著更多的視覺信息。這些視頻和圖片在互聯網上被逐漸埋沒,越來越難以尋找,越來越難被發現。
對此,Dropbox 研發副總裁 Aditya Agarwal 說道:「我們製造視覺信息的速度實在是增長得太快了。因此,在整理、聯繫、理解這些視覺信息的能力方面,出現了巨大的市場機會。」
圖片就是一個很好的例子。很多時候,我們對圖片的命名都非常混亂,更別提將其按照內容進行整理了。難怪 Joe Veix 將網上這些命名混亂的圖片稱作 「孤獨的網路」——如果一張圖片的名字是 「085772.jpeg」,或者一個視頻的名字叫做 「5115d7.wmv」,那它很可能將永遠不被人知,它包含的信息也將永遠沉睡下去。
不久之後,這種狀況有望得到徹底解決,圖像識別、可視化搜索、人工智慧技術將能夠真正看到並理解 「孤獨的網路」 中的信息。而且我相信,這樣的巨大轉變很有可能從今年就將開始。可視化搜索技術在內容分類和信息檢索上的能力將達到人類水準,讓所有人都驚嘆不已!
而這又會是如何的一種體驗呢?
請允許我引用著名英國科幻作家 Arthur. C. Clarke 的一句名言:「任何足夠先進的科技,都與魔法無異。」
【備註】本文編譯自 The Next Web(原文地址 戳我),譯者 Gavin Li ,原作者 Oliver Tan 是 Visenze 的聯合創始人兼 CEO。Visenze 是一家致力於為電子商務、圖書館、出版商等提供可視化搜索和圖像識別解決方案的新加坡初創公司,獲得了來自樂天、Walden International 和 UOB Venture Management 的 350 萬美元 A 輪投資。
推薦閱讀:
※蘋果都沒實現的藍牙音頻分流,他們做到了 —— TEMPOW 的藍牙音頻魔術
※為什麼大部分人不相信華為偷工減料的事實?
※如何評價華為 Ascend P8?