轉角背後有什麼?揭秘隱藏空間的成像技術
來自專欄論智4 人贊了文章
來源:Quanta Magazine
編譯:Bing
2012年,計算機視覺科學家Antonio Torralba在西班牙海邊度假時發現,在他所住的賓館房間的牆上有著飄忽的影子,但卻沒找到影子的來源。最終,Torralba意識到,那面牆上斑駁的一塊區域根本不是某物的影子,而是窗外庭院微弱的倒置過來的一小部分影像。窗戶就像一個針孔攝像頭,構成了最簡單的相機結構,光線穿過其中,在另一端形成了倒置的圖像。最終的圖像在那片牆上很難辨認,但是這給了Torralba啟發:世界上遍布著人眼看不見的視覺信息。
他說:「我們沒有發現這些圖像,但它們每時每刻都在我們身邊。」
這次的經歷給讓他和同事Bill Freeman意識到這種「偶然的相機」無處不在,也許是窗戶、轉角、室內植物等其他能在環境中微妙地創造圖像的物體。這些圖像可能非常暗淡,有時用肉眼不易察覺。Freeman解釋道:「我們想找到能讓這些圖像顯現的方法。」
在兩人的第一篇論文中,Freeman和Torralba證明了,改變房間牆上的光線,僅用iPhone拍攝出的圖片,就能通過處理反應窗外風景變化。去年秋天,他們和同事發表文章稱,可以通過靠近轉角的地面照片,發現另一面正在移動的物體。今年夏天,他們證明可以通過拍攝一株室內植物的照片,對葉片的影子進行分析,對整個房間進行3D圖像的重建。或者他們可以將葉子變成一個「視覺麥克風」,增強它們的振動,聽清楚到底在說什麼。
這種通過觀察轉角推斷無法直接看到的信息,稱為「非視線成像(non-line-of-sight imaging)」。2016年,受之前研究的影響,美國國防高級研究計劃局(DARPA)發布了一項2700萬美元的REVEAL項目,為美國多個初創實驗室提供資金支持。從那之後,一些新技術和數學技巧讓非視線成像變得更加強大實用。
除了可以用于軍事和間諜行為,研究者還將這一技術用在自動駕駛汽車、機器人視覺、醫療影像、航空航天、太空探索、搜救任務等領域中。
Torralba說他們最初開始研究時並沒有什麼特殊的目的,他們只是想探索圖像的基本形式和照相機的成像,由此引出了對光線是如何在環境中起到作用的調查研究。他們從一種從未有過的角度觀察事情,心理學的研究表明:「人類很不擅長解讀陰影。也許其中一個原因是我們看到的並不是真正的陰影。最終,眼睛會放棄分辨它們到底是什麼。」
偶然生成的照相機
通常,光線會將我們視線之外的景觀打到牆面或其他物體表面上,再折射到我們的眼睛腫。但是為什麼這些影子都不太清楚呢?這是因為光線有很多不同的方向。
想要成像,對光線有著嚴格的要求,必須其中的一束要被人看到。這就是針孔攝像機的作用。Torralba和Freeman在2012年的發現中就提到,我們的生活環境中有很多會自然阻擋光線的物體或特徵,由此形成的微弱圖像能被計算機檢測到。
針孔攝像機的光圈越小,最終的成像就越清晰,因為被拍攝物體上中的每個點只有一束光在正確的方向上才能穿過攝像機的光圈,Torralba酒店中的那扇窗戶太大了,無法生成清晰的圖像。並且,他和Freeman知道,在一般情況下,偶然生成的針孔攝像機非常少見。但是他們發現,「反針孔攝像機(pinspeck)」能夠包含任意小的、被光線阻擋的物體,能在任意地方形成圖像。
假設現在你想透過窗戶縫拍攝房間內的牆壁照片。突然有人的胳膊擋住了視線,你看不到前方的物體。通過比較有遮擋和無遮擋時牆壁上光線的強度可以揭示該場景的信息。第一幀中打到牆上的光在下一幀上被胳膊阻擋。Freeman說,:「你可以還原被手臂遮擋的物體,如果你能看到擋住光線的物體,以及光線的來源,那麼就能讓針孔成像更完整。」
除了用針孔攝像機處理微小的變化,Freeman和他的同事們還將演算法用於檢測和填補微妙的顏色變化,例如人的臉色和表情的變化。如今,他們可以輕鬆捕捉到百分之一個像素上動作的變化,該方法的原理是將圖像用數學方法轉化成正弦波的圖形。重要的是,在轉化後的空間,信號並非充滿噪音因為正弦波圖表示的是多個像素的平均值。所以研究者可以檢測正弦波圖的位置變化,將其在轉換成數據。
現在,他們開始將這些技術結合,探索隱藏視覺信息。在去年十月,由Freeman的學生Katie Bouman主導的一項報告中表示,他們證明了建築物拐角可以用作照相機,生成拐角另一面粗糙的圖像。
正如針孔攝像機和pinspecks一樣,線條和轉角同樣限制了光線的通過。只用一部iPhone,Bouman和同伴們拍攝了建築物拐角的半影(penumbra):陰影區域受到轉角處隱藏區域的光線著涼,如果有人身穿紅色裙子走過,那麼裙子會在半影處投射少量紅色光線。肉眼雖然難以分辨,但是處理後卻清晰可見。
今年六月,Freeman和同事們在一間房間中重建了「光場」,從靠近牆的植物上投射光線,葉片猶如pinspeck攝像機,會遮擋住不同光線。將每片葉子的陰影與其餘部分進行對比,可以發現其中缺失的光線,從而重建隱藏場景的一部分圖像。考慮到視差,研究人員可以將這些圖像拼湊在一起。
光場方法比此前的偶然攝像機生成的圖像更清晰,因為之前的方法是建立在演算法之上。如今我們知道了室內植物的形狀,假設自然圖像是流暢清晰的,有助於生成清晰的圖像。Torralba說:「光場技術需要了解很多有關環境的信息,但最終也會反饋給你很多信息。」
散射光
雖然Freeman、Torralba和同事們發現了這樣特殊的成像方法,但MIT的另一位科學家,Ramesh Raskar提充了一種「主動成像」的方法,他利用昂貴特製的相機激光系統,能生成拐角處的高解析度圖像。
2012年,Raskar和他的團隊創造出一種技術,將激光脈衝打到牆上,一小部分光束就會彈到圍欄上。每次脈衝後的瞬間,他們都會用「條紋相機(streak camera)」以每秒數十億幀的速度記錄單個光子,檢測從牆壁反彈回來的光子。通過測量返回光子的飛行時間,研究人員就可以知道他們行進了多元,從而重建隱藏物體的三維幾何結構。其中一個重要的原則是你必須用激光對牆壁進行光柵掃描,建成三維圖像。Raskar說:「比如角落中有個人,到達它頭部、肩膀和膝蓋上的光線必須相同時間到達相機。你必須將所有信號組合起來解決所謂的逆問題,以重建隱藏的三維幾何。」
Raskar原始用於解決逆問題的演算法需要大量計算,但在三月,一個重要進步大大簡化了數學運算和計算成本。一篇發表在Nature上的論文對物體的3D重建提出了新的高效的標準。斯坦福大學的三位研究者——Matthew O』Toole、David Lindell和Gordon Wetzstein提出了一種強大的演算法,用相對便宜的SPAD相機就能解決這樣的逆問題。Raskar認為這項工作是「他最喜歡的論文之一」。
此前的演算法在程序細節上有些限制:研究人員通常選擇牆上不同位置的返回光子,而不是激光的指向,這樣他們的相機就可以避開激光返回的散射光。但是,通過將激光和相機指向幾乎相同的點,斯坦福大學的研究人員可以使射出和射入的光子映射出相同的「光錐」。每當光從表面散射時,他就會形成一個擴展的光子球體,隨著時間的推移,球體顯示出錐形。
自動駕駛汽車已經有LIDAR系統作為直接成像的工具,可以想像有一天,也可以用SPAD相機來觀察角落。在2012年的研討會中,Andreas Velten預測:「在不久的將來,這些感測器將會變成手持的形式。」
未來用途
Freeman研究小組的研究者已經開始結合被動和主動兩種方法了,博士後Christos Thrampoulidis表示在用激光主動成像時,用pinspeck相機在已知形狀的轉角處可以用於隱藏場景的重建,無需計算光子的返回時間等信息。
非視線成像可以在未來用於急救隊伍、消防和自動機器人。Velten正在和NASA合作,對月球表面的山洞進行成像。同時,Raskar和其團隊正研究如何閱讀合著的書籍的前幾頁內容,以及在大霧天氣看清前方。除了對音頻的重建,Freeman的運動放大演算法可能會用於健康和安全設備,或者監測微小的天文運動。
除此之外,隱私問題也是關注較多的話題。Freeman表示,當他開始自己的研究時,並沒有想將任何技術用于軍事和間諜行動。但是隨著時間過去,他認為科技可以用在多個領域的工具,如果你避免任何軍事用途,那麼也許永遠做不出有用的東西。即使在軍事中使用,它也可以幫助某人避免被人殺死。總的來說,了解事物的位置是一件好事。
但是,讓他緊張的並不是技術的潛力,而是發現隱藏在普通視野下的未被發現的東西。
推薦閱讀:
※從泛化性到Mode Collapse:關於GAN的一些思考
※《Scikit-Learn與TensorFlow機器學習實用指南》第3章 分類
※二-----決策樹的剪枝、連續值和預設值處理、類別不平衡處理、多分類問題
※採用牛頓法來最大化對數似然函數