使用三維信息優化搜索結果的嘗試
watchhhh搜索視頻
從數字唱片(音頻)、電影(視頻)、數碼攝影、街景掃描(圖像)、三維重建(三維),一直以來,人類都不斷試圖比特化、網路化、倒映我們的上帝創造出來的這個原子世界。並將他們有效的聯繫在一起,比如說你可以搜索一個名人,然後就能找到關於ta的照片、短片和文本介紹。例如幾年以前HereMaps就重構了許多大城市的三維數據。
儘管搜索引擎已經是必不可少的生活工具,但用文本信息的來找到我們想要的東西在很多的時候是卻不好用的,當我們聽到一首美妙曲子或是看到一副陌生的畫,卻不知道該如何找到它。往往不像是「米老鼠印花馬克杯」這種包含特定名稱、特點的關鍵詞,有時候我們很難用詞語來表達一個特定的形狀。說到底,我們無法用人類日常的交流用語,給它添加一個「描述」……
以圖片、視頻或是聲音作為搜索的「輸入」顯然是必不可少(像用SoundHound搜索聽到的歌就是個非常不錯的例子,筆者曾在酒店的廁所里用它搜到了一首特別好聽的曲子El Lugar DE Los Sentidos),而圖片識別在最近的幾年當中突飛猛進,一改過去非常難用的印象,都多虧了深度學習在近些年的重大突破。一些特定問題的識別:例如人臉識別,就像當年下象棋的深藍一樣已經大大超越了人類本身具有的能力。
然而,圖片畢竟是一個二維的東西,以二維的信息來搜索一個本身是三維的物體仍然有很多的問題:一個商品的圖片往往是特定的正視角,給你看到它的全貌,很多時候還去除了底色以便你可以非常清楚的看到它。但當我們在現實世界中,咖啡廳里人來人往,你只能匆匆走到桌邊去拍下你喜歡的餐椅,而不可能把它搬到一個空地上拍下理想的角度——服務員一定會過來試圖阻止你這麼做。包括電影、網路圖片上也是一樣角度千奇百怪,並且很有可能被一些別的什麼東西給擋住。總之很難了。
除了為搜索採用更加匹配、特定的演算法以外,特定的數據訓練看起來也非常重要,如前文《現實與虛擬之間》所說,我們的高保真三維重建正在採集大量的家居三維及RGB信息,畢竟從某種程度來說,如果我們有可能擁有一個物體的三維+材質信息,就可以知道在任何一種情況下它的二維照片是什麼樣的。
同時,並不是僅僅增加了除顏色以外的形狀數據就會從根本上解決這個問題,如何分割場景中的不同物體所做的場景理解需要我們的程序更加智能,現在的機器能聽見、看見,但並不理解這些信息也不知道該怎麼做。且不去討論人工智慧到底是如何的哲學定義,我們的程序和設備必須更加聰明的未來路上仍然任重道遠。如果說AI是一個必然的智能機體,像病毒那樣獨立於五界之外的另一種不是生物也不是非生物的形態,今天的ta就如同嗷嗷待哺的嬰兒在襁褓中。其它學科——也有可能一個物理或是生物上的重大突破給我們帶來了廉價的高性能計算設備或是高精度感測器,提供更多廣範圍的信息採集和別的什麼,使我們現在妄圖使用RGB信息解決的問題滑稽可笑也說不定。誰知道呢?天網早已啟動,我們再也回不去了。
-----------------------------------------掃一掃關注我們的公眾號------------------------------------推薦閱讀:
※[CVPR2018筆記]Semi-parametric Image Synthesis
※計算機視覺方面博客及代碼
※奧巴馬罵川普「笨蛋」的視頻火了,這又得「歸功」於AI
※讀Focal Loss
※傳統演算法和深度學習的結合和實踐,解讀與優化 deepfake
TAG:深度學習DeepLearning | 計算機視覺 |