標籤:

CVPR2018 | 新加坡國立大學論文:利用互補幾何模型改善運動分割

CVPR2018 | 新加坡國立大學論文:利用互補幾何模型改善運動分割

來自專欄 機器之心

選自arXiv,作者:徐迅等人,機器之心編譯。

許多現實世界的場景不能簡單地歸類為普通的或者退化的,同時對場景的運動分割也不能簡單地劃分為基礎矩陣方法和單應性矩陣方法。考慮到這些,新加坡國立大學提出了結合多種模型的多視角光譜聚類的框架。實驗表明該框架獲得最好的運動分割結果。此外,研究者還提出了一個改編自 KITTI 基準的數據集,它包括了許多傳統數據集所沒有的特徵。

許多幾何模型被用於運動分割問題,模擬不同種類的相機、場景以及運動。通常情況下,這類問題的基本模型通常是被認為適用於不同場景的,而這些場景是互不重疊的。例如,當這個基礎的運動是一種普通的運動時,人們一般使用基礎矩陣來模擬對極幾何 [16 , 23];而當場景里的運動退化成為平面內的運動或者一個純旋轉時,人們則通常選擇單應性矩陣 [6 , 18]。然而,事實上,現實世界場景里的動作不是那麼好劃分的:它們可以是一個近似退化的場景,例如一個幾乎卻不完全是平面的場景,或者一個以旋轉為主的運動同時兼有非零平移的運動。在這樣的情景下,選用模型時如果採用了錯誤的分類,會給後續的子空間劃分造成困難。

舉個例子,眾所周知,在具有主平面的場景中找到屬於退化結構(主平面)的內點是簡單的,但是可能導致基礎矩陣的精確度非常低。大部分處於退化結構之外的內點會丟失,並且在很多情況下, 這種有錯誤的基礎矩陣會選取異常值(例如:從其他動作組當中選取點)。由於這並不是一個單純的平面場景,單純地使用單應性矩陣也可能無法將所有的內點組合到一起,導致子空間的過度分割。

從運動分割相關文獻的角度來看,對於許多模型來說,由於缺少 Hopkins155 基準 [31] 中提及的透視效應,通常都會迴避使用基礎矩陣。然而,這種方法中的退化導致的數值難題是否無法解決仍是未知的。並且,也沒有人研究過其中得到的親和矩陣(affinity matrix)到底是如何不適用於子空間劃分的:僅僅由於退化還是存在別的影響因素?考慮現實生活中的許多應用(例如自動駕駛),在這些應用里透視效應是十分常見的,因此我們應該對基礎矩陣(或單應性矩陣)用作運動分割模型的適應性有更深的了解。

事實上,研究者認為,事情不只是這麼簡單。舉個例子,如果我們對寬視野場景運用基礎矩陣,如同 KITTI 基準 [9] 中提到的一樣,會比運用單應性矩陣得到更好的結果嗎?我們暫時還沒有理由相信結果將會是這種情況,因為通過比較,基於仿射模型的許多演算法仍然能勝過那些基於擁有更大視野的單個 Hopkins 序列中基礎矩陣的演算法(儘管公認差不多)。其實,從用於測試現實世界場景中運動分割的 KITTI 序列得到的結果來看,其再次體現了基於單應性方法的優點。自然而然地,有人就會問,除了退化之外,是什麼因素對基礎矩陣方法產生了不好的影響?而且為什麼單應性矩陣方法在處理廣視角場景時能保持它自己的特點?什麼時候它才會失去基礎矩陣的幾何精確性?

在這章節的餘下部分里,我們將會簡要的探討單應性矩陣(H)和基礎矩陣(F)作為幾何模型應用於運動分割的適應性。之後我們將會將 H 和 F 的親和矩陣相應地表示為 KH 和 KF。

H 的成功原因

前面的段落已經提及了親和矩陣 KH 可能沒有很高的集群內聚力的事實(由於相同剛體運動的不同平面間缺乏強的親和性),所以可能導致人們對其是否適用運動分割任務表示懷疑。在 Hopkins155 數據集中,這並不是最重要的問題,因為大部分的場景擁有小的視野,並且場景足夠遙遠以至於可以被近似於一個平面;由於基於仿射子空間或單應性矩陣的各種方法得到的良好結果,這些近似被證明行之有效。最近的基於單應性的方法 [18] 稱得到了目前最好的實驗結果,平均誤差為 0.83%。考慮到實際存在的一些有不可忽略透視效應的 Hopkins 序列,這個低誤差的結果是值得關注的;同時,相比已經提出的一些原因,這種現象應該還有更好的解釋。

上述成功可以歸因為由單應性假設過程產生的許多平面切片;這些切片並不一定是場景中的真實物理平面(例如 圖 1(a-b) 中的切片),但只要這些虛擬的平面屬於同一個剛體運動,它們顯然是可用單應性矩陣擬合的。這些場景的切片在多個真實平面的點之間建立了強大的關聯,並得到了一個相對更少過度切割的親和矩陣 KH。如果場景中只包含緊湊的物體或者分段光滑的結構,那麼這種關聯足以將一個剛性運動的各個表面綁定在一起。然而,在現實世界場景中,當上述情況不能滿足的時候,我們懷疑這種關聯可能不合適。圖 1(c) 展示了一個包含了細長物體(紅綠燈)和道路標誌的背景。顯而易見,在這個場景下,當像往常一樣構造虛擬的平面切片時,得到的關聯性相比之前提到的是要小的多(大部分的切片不能同時地將這兩種元素的大分割塊連接起來,不像圖 1(a-b) 中的那樣)。

圖 1:單應性變換的切片效果圖。(a-b) 紅色的點表示假設的內點。所有的點都分布在一個用黃色標示的虛擬平面上(立方體的一個切片)。(c) 虛擬的平面用三角形以及同色的內點標示。

F 的問題

除了相關文獻提及的經典結構中已為人熟知的退化問題之外,研究者認為用於運動分割問題的基礎矩陣方法還有一個問題,那就是這個模型實際上是一個囊括了各種情況的模型,它包括了所有類型的場景運動情況。這種複雜模型為後面的聚類以及模型選擇任務帶來的風險是顯而易見的。該模型過於豐富的特徵集合使其很容易的捕捉到不同剛體運動之間的任何關聯性。因此,相比較為簡單的模型,例如單應性變換,它更容易導致不同剛體運動的子空間重疊。然而,這裡還有一些其他的問題。作為一個幾何上正確的模型(單應性模型很難與之相比),F 是不是提供了為找到最佳視野的最大範圍呢?那麼 F 應該捕捉多少正確信息呢?我們可能需要在正確的方向上作一些微調,來恢復 KF 應有的表現。從這個角度來看,即使處理一個沒有退化的普通場景時,我們仍然有一個繼續使用單應性模型的重要理由——得到之前沒能得出的 KF。

推薦的解決方案

很不幸的是,我們不得不承認,很多現實世界場景不能被歸入一個剛好吻合的類中,例如一個普通的或是退化的場景運動,因此不能通過諸如 H 或 F 之類的任何單一模型來完美解決。本文還討論了基本矩陣方法的一些缺陷,並且推測儘管得到的 KF 可能不符合任何已有定義的聚類,但是如果我們巧妙地利用來自諸如 H 這類較簡單模型的信息,KF 的全部潛力或許會被挖掘出來。考慮到這些,研究者提出了結合上述多種模型的多視角光譜聚類框架。由於還沒有確定的關於這類模型性能的指標,作者評估了一些現有的結合性的方案。通過評估,其結果保證了該研究不是特定結合性方案的特例。就像之後將要展示的那樣,通過使用改進的 KF,基礎矩陣方法的表現將會有顯著的提升。當然,我們不應該誇大這種基本矩陣方法的潛在價值。當場景包含了大量的退化的時候,比如真實世界場景,使用結合多視角的方法更容易得到最好的結果。也就是說,我們應當尋找同時考慮了改進的 KF 和改進的 KH 的共同光譜嵌入。

總而言之,本文貢獻如下:首先,本文討論了單應性矩陣和基礎矩陣作為運動分割問題幾何模型的一些優缺點。然後作者提出了使用親和矩陣的融合作為處理現實世界效應的手段,而這些效應通常難以用純粹的單應性或者基礎矩陣建模。最後,作者對現有的運動分割數據進行了廣泛的測試,基於這些數據該模型獲得了當前最好的實驗效果;作者還提出了一個改編自 KITTI 基準的更加現實和具有挑戰性的數據集,它包括現實世界的一些效應例如強烈透視和強前向平移,這些都是傳統數據集所沒有的。

表 1:Hopkins155、Hopkins12、MTPV62 以及 KT3DMoSeg 數據集的運動分割分類誤差(%)結果。?表現最好的模型(RPCA+ALC5 是和 ALC[26] 對應的)。??性能最佳模型的表現和擁有正確動作數量的序列相對應。『?』 意味著還沒有測試數據或者沒有可使用的開源代碼。

圖 2:獨立序列分類誤差以及 KT3DMoSeg 基準對參數的敏感性。

圖 3:KT3DMoSeg 場景序列的運動分割舉例

論文:Motion Segmentation by Exploiting Complementary Geometric Models(利用互補幾何模型的運動分割)

論文地址: arxiv.org/abs/1804.0214

許多現實世界的場景不能簡單的被歸類為普通的或者退化的;在這種情況之下,在處理運動分割問題按二分法選擇利用基礎矩陣或者單應性矩陣時,錯誤的選擇會造成困難。即使是處理一般的運動場景,使用基礎矩陣方法作為模型來處理運動分割問題仍然有其弊端,這些我們在文中都提到了。基礎矩陣方法的全部潛力只有當我們小心地利用較為簡單的單應性模型的信息時才能實現。考慮到這些,我們提出了一個結合了多種模型的多視角光譜聚類的框架。通過對現有的運動分割數據進行了廣泛的測試,我們獲得了最好的實驗結果;我們還提出了一個改編自 KITTI 基準的更加現實和具有挑戰性的數據集,它包括了現實世界的一些效應例如強烈透視和強前向平移,這些都是傳統數據集所沒有的。


推薦閱讀:

人工智慧 | AlphaGo的「大腦」中到底藏了些什麼?
對話曠視唐文斌:首筆機器人收購背後,AI落地進入價值閉環時代
機器學習能診斷病情,還能預測患者出院後的情況?
這是一份優美的信息圖,吳恩達點贊的deeplearning.ai課程總結
阿里全面進軍IoT,語音將是人與IoT最自然的交互方式

TAG:CVPR | 人工智慧 |