雙目視覺感測器和神經網路能否逼近人眼視覺?
01-09
我們知道普通雙目感測器都是需要畸變校準的,比如張正友方法,但是雙目的深度信息並不很好。能否用雙目的圖片或者視頻,通過神經網路進行訓練?逼近人眼的狀態?
比如視察比較,是基於特徵點計算的,特徵點的匹配,是數學上的。並不能識別物。人眼可以很好的區分物,知道物的邊界。物的邊界反過來,又能更好的進行特徵點匹配。外行提問,不要笑。
謝邀。
給老龔叛逆者補充。當眼面一片黑,一片雪,低頭一片白牆,抬頭一片藍天的時候,人類會一臉萌比,得不到任何深度信息。同樣的,雙目相機提取不到feature,也得不到深度信息。這是在幾何原理上無解的事情。
同樣,人眼看到沙漠中遙遠的大樓時,一直朝大樓方向走,也會產生「我距離大樓很近了,再走幾步就到了」的錯覺,雙目也會有同樣的錯覺,因為視差不夠以至於不足以估計距離,這也是幾何原理上無解的事情。
以上都是人類肉眼的局限性,用雙目相機模仿人眼SLAM,在幾何原理上是有很多局限性無法克服的。
事實證明,在很多領域上,仿生學總會遇到瓶頸,多感測器融合(GPS+IMU+雙目相機+深度相機+LIDAR)+submap+loop closure optimization才是超越生物原理的正解。這方面已經有很多paper和產品了啊,照著來就行了。要實用化的話,雙目rgb sensor的主要問題是暗光環境下啥都看不見,不如就上紅外深度了。
雙目視覺感測器和神經網路逼近人眼視覺,難點是提高神經網路的性能。
雙目視覺所用感測器,不管是解析度、鏡頭、頻譜範圍,都可以遠遠超過人的雙眼。之所以最終表現不如人,主要原因是分析處理演算法上的進展,還沒有達到媲美人腦的程度。目前趁著深度學習的熱潮,應該會有不少突破,畢竟原理上人腦能做到的,計算機也可以做到。而且在速度、可重複性、耐力上,計算機的性能肯定是非人腦可比的。之前看到過很多基於深度學習的模型,比如3dShapeNet,或者BING+GP-LVM+ConvNet之類。
最近看到一個FusionNet,看上去應該很有效:本人主業不是深度學習所以不可能面面俱到。目前在業餘嘗試RGB-D相機的各種開源項目。不過可以樂觀地立一個flag,雙目視覺感測器超過人眼視早就做到了,神經網路超過人腦的覺,還在路上,但是也只是早晚的事情:-D有辦法middlebury的立體匹配演算法榜的前幾名里有CNN based匹配演算法視頻流的話有DTAM的cost volume方法,可以從視頻流里實時3維重建
二郎神就是由於雙目的人類的幻想。
感測器本身是能力有限的,動態範圍總是不理想不需要大動態範圍的應用中,也似乎不需要神度信息,例如大多數生產線的視覺應用還有一些,似乎需要深度信息,但是要求實現的精度有似乎過高,深度相機也麻爪反光、倒影等等也要命其實還有一方面,很多視覺應用中都是試圖求解出「硬」的、大一統的場景模型,而實際上我們的意識中,場景更可能是模糊的,軟的,局部的。設計範式不同吧
你的問題可以簡化為:神經網路能否逼近人的大腦。所以,我可以很肯定說,現在路還很遠。不過可以留意RCNN這一方面的,現在已經很大進步了
同尺寸過不了多久就可以秒殺人眼了吧
目前雙目產品效果不好的主要原因我覺得還是解析度不夠吧,我記得人眼中心區域的視細胞密度好像很高。如果解析度上去了、計算速度達到,那麼肯定是可以達到的。但是人眼效果其實並不好,很多時候也有看不清楚的時候,比如在一片雪地上幾乎看不出細小的凸起。應該還是要結合各種方法才好
創物主說 你們對力量一無所知 而且對神沒有敬畏之心
我們要的不是逼近人腦,而是要超越人腦。目前研究水平在很多方面已經超越人類的視覺識別能力了,甚至一些圖人識別不出來,但是機器能識別出來。雙目,N目(多目)都是為了超於人類的識別能力。技術和產品還是有一定差別的,很多技術幾十年前就有了,但是知道現在還沒生產出產品來。
推薦閱讀:
※如何快速學習 MATLAB BP 神經網路?
※神經網路訓練時對輸入有什麼特別的要求嗎?
※神經網路研究與應用這塊用python好還是matlab?
※訓練網路時為什麼會出現loss逐漸增大的情況?