MIT 用 AI 實現自動摳圖，輕鬆打造效果驚艷的特效電影

08-26

選自 MIT

作者：Adam Conner-Simons

機器之心編譯

來自 MIT CSAIL 的研究人員開發了一種精細程度遠超傳統語義分割方法的「語義軟分割」技術，連頭髮都能清晰地在分割掩碼中呈現。在對比實驗中，他們的結果遠遠優於 PSPNet、Mask R-CNN、spectral matting 等基準。這項技術對於電影行業的 CGI 技術具有重大意義，精細的分割掩碼能很好地分離圖像中的前景和背景，只要滑鼠一點，就能輕易地改變前景、背景的種類。也就是說，像《變形金剛》《復仇者聯盟》《奇幻森林》中的大部分電影特效將可以完全自動化地生成。

隨著電影越來越關注 CGI，電影製作人必須更加擅長「合成」，即將前景和背景圖像融合，比如將演員放在飛機或行星上，或者放在電影《黑豹》里瓦坎達這樣的虛構世界中。

讓這些圖像看起來真實並不容易。編輯必須捕捉前景和背景之間微妙的美學過渡，這對於頭髮這種複雜精細的材料來說尤其困難，因為人們已經習慣了它的樣子。

麻省理工學院計算機科學與人工智慧實驗室（MIT CSAIL）的訪問研究員 Yagiz Aksoy 說：「這些圖像的棘手之處在於，並非每個像素都只屬於一個物體。很多情況下，你很難確定哪些像素屬於背景，哪些屬於特定的人。」

AI-assisted Image Editing_騰訊視頻

除了那些經驗最豐富的編輯，對其他人來說要把這些細節都處理好是一件乏味、耗時且非常困難的事情。但是在一篇新論文中，Aksoy 和他在 MIT CSAIL 的同事展示了一種方法，使用機器學習來自動化照片編輯過程中的多個步驟，並且稱這種方法也可用於運動圖像。

該方法允許他們自動將輸入圖像分解成一組不同的層，這些層被層之間的一系列「軟過渡」分隔開。

該系統被稱為「語義軟分割」（semantic soft segmentation，SSS），它分析原始圖像的紋理和顏色，並將其與神經網路收集的圖像中物體的實際信息相結合。

Aksoy 說，「一旦計算出這些軟分割，用戶就不必手動改變過渡或對圖像特定層的外觀進行單獨修改。」他上周在溫哥華的計算機圖形學會議 SIGGRAPH 上展示了這篇論文。「手動編輯任務，如替換背景和調整顏色，將會變得更加容易。」

不過要說明的一點是，SSS 目前專註於靜態圖像。但是該團隊表示，不久以後將它用於視頻也是可以的，這將推動其在電影製作中的應用。

Aksoy 表示，該方法不需要專業編輯花幾分鐘時間逐個幀、逐個像素地調整圖像，而是使處理過程更簡單、快速，以便非專業用戶也可以更容易地進行圖像編輯。他們期望，編輯只需點擊一下滑鼠，就能組合圖像，創造那些成熟、真實的幻想世界。

他還表示，SSS 的目前版本可用於社交平台，如 Instagram 和 Snapchat，以使其過濾器更加真實，特別是用於改變自拍背景或模擬特定類型的相機時。未來，研究人員計劃將計算圖像所需時間從幾分鐘縮短到幾秒鐘，並通過提高系統匹配顏色和處理光照、陰影等問題的能力使圖像變得更加逼真。

論文：Semantic Soft Segmentation

論文鏈接：http://cfg.mit.edu/sites/cfg.mit.edu/files/sss_3.pdf

摘要：對圖像區域之間的軟過渡進行準確表徵對於高品質圖像編輯及合成至關重要。生成此類表徵的現有技術很大程度上依賴於技術嫻熟的視覺藝術家，因為執行此類精確目標選擇是一項繁冗的任務。本研究介紹了語義軟分割——一組與圖像中語義有意義的區域相對應的層，它們在不同對象之間有準確的軟過渡。我們利用光譜分割角度來處理這個問題，並提出了一種圖結構，其包含圖像的紋理和顏色特徵以及神經網路生成的高級語義信息。軟分割是通過精心構建的拉普拉斯矩陣的特徵分解完全自動生成的。使用我們的語義軟分割，原本複雜的圖像編輯任務可以毫不費力地完成。

圖 1：我們提出了一種方法，通過將高層次和低層次的圖像特徵融合在一個圖結構中來自動生成軟分割，即表示語義上有意義的區域以及它們之間軟過渡的層。語義軟分割使用為每個分割部分分配純色的方法實現可視化，它們可用作目標圖像編輯任務的掩碼，所選圖層可在圖層顏色評估之後用於合成。原始圖像來自 [Lin et al. 2014]（左上、右下）、Death to the Stock Photo（右上）、Y. Aksoy（左下）。

圖 2：對於輸入圖像，我們生成像素級的超維語義特徵向量，並利用紋理和語義信息定義一張圖。構建該圖的目的是使對應的拉普拉斯矩陣及其特徵向量能夠揭示語義對象和對象之間的軟過渡（soft transition）。我們使用特徵向量創建初步的軟分割集，並結合它們獲取具備語義含義的分割。最後，我們細化軟分割，使之可用於目標圖像編輯任務。圖源：[Lin et al. 2014]，編輯結果的背景來自 Flickr 用戶 rumpleteaser。

圖 9、10：我們展示了我們的結果以及 Zhao et al. [2017] (PSPNet)、He et al. [2017] (Mask R-CNN) 和光譜摳圖（spectral matting）[Levin et al. 2008b] 的結果。分割結果在灰度圖像上重疊展示，方便圍繞分割邊界進行更好的評估。注意：PSPNet 和 Mask R-CNN 在物體邊界方面不夠準確，而光譜摳圖的軟分割結果超出了對象邊界。圖源：[Lin et al. 2014]。

圖 11：利用輸入圖像（a）和特徵向量（b），我們的方法生成了 matte，見（c）。我們展示了具備不同未知區域寬度的 trimap，它們通過 PSPNet [Zhao et al. 2017] (d) 或 Mask R-CNN [He et al. 2017] (e) 的語義分割方法生成，無法可靠地提供前景和背景區域，對使用信息流摳圖（information-flow matting）[Aksoy et al. 2017a] 生成的結果造成負面影響。在底部示例中，PSPNet trimap 是通過選擇與對象對應的單個類別（左）或所有類別而生成的。我們還提供利用結果（f）生成的 trimap 的摳圖結果，展示了在給出準確 trimap 的情況下摳圖演算法的性能。圖源： [Lin et al. 2014]。

方法

我們的目標是從輸入圖像自動生成軟分割，也就是將場景中的目標分解成多個層進行表徵，包括透明度和軟過渡。每個層的每個像素由一個不透明度α∈[0,1] 增強，α=0 表示全透明，α=1 表示完全不透明，中間值表示部分不透明的程度。和該領域的其它研究（如 [Aksoy et al. 2017b; Singaraju and Vidal 2011]）一樣，我們使用了一個加性的圖像構造模型：

即我們將輸入的 RGB 像素表達為每個層 i 的像素之和，這些層由對應的α值加權。我們還把每個像素的多個α值的和限制為 1，以表示完整的不透明輸入圖像。

我們的方法使用了與光譜摳圖相同的形式，也就是將軟分割任務形式化為特徵值估計問題 [Levin et al. 2008b]。該方法的核心是構建拉普拉斯矩陣 L 來表徵圖像中每對像素屬於同一個分割的可能性。儘管光譜摳圖僅使用了低級局部顏色信息來構建矩陣，我們描述了如何通過非局部線索和高級語義信息來增強這一方法。原始的方法也描述了如何利用稀疏化來從 L 的特徵值來創建層，我們的研究表明，該原始技術的放寬限制的版本可以獲得更佳的結果。圖 2 展示了我們的方法的概覽。

圖 5：輸入圖像（a）、語義特徵（b），與對應本文提出的拉普拉斯矩陣（c，頂行）以及（光譜摳圖中使用的）摳圖拉普拉斯矩陣（d，底行）的最小特徵值的幾個特徵向量。綠色表示特徵向量的正值，紅色表示負值。我們的拉普拉斯矩陣很清晰地揭示了特徵向量中的語義邊界，而摳圖拉普拉斯矩陣的特徵向量延伸到了語義邊界之外，如圖虛線框中所示。圖源：[Lin et al. 2014]。

圖 6：輸入圖像（a），像素級稀疏化之前的軟分割結果（b），像素級稀疏化之後的軟分割結果（c）。顏色編碼的分割部分使用單個阿爾法通道來展示，阿爾法通道對應前景物體。最後一步清理因特徵向量表達能力有限而造成的雜亂阿爾法值，同時維持軟過渡。底部示例展示了使用常數 0.9 作為稀疏化參數 γ 的稀疏化結果（d），而我們使用空間變化的 γ_p 在過渡區域進行鬆弛的稀疏化操作。其效果見嵌套小圖，我們的結果（c）保持了頭髮周圍的軟過渡，而常數變數（d）導致了過度稀疏的結果。圖源：[Lin et al. 2014]。

圖 7：輸入圖像和計算出的語義特徵（左），具備很多層的初始估計軟分割（中），grouping 後的中間軟分割結果（右）。通過為每個分割部分指定一個純色來可視化軟分割結果。注意這些結果會隨著鬆弛的稀疏化（relaxed sparsification）進行進一步細化。圖源：[Lin et al. 2014]。

參考地址：

https://www.csail.mit.edu/news/ai-cgi

來源:CDA數據分析師

本文版權歸原作者所有，內容為作者個人觀點，轉載目的在於傳遞更多信息，如涉及作品內容、版權等問題，可聯繫本站刪除，謝謝。