ACM MM 2018:基於多粒度監督的圖像語義物體協同標註

ACM MM 2018:基於多粒度監督的圖像語義物體協同標註

來自專欄 PaperWeekly7 人贊了文章

作者丨張立石、付程晗、李甲

學校丨北京航空航天大學

研究方向丨計算機視覺

介紹

本文概述了被 2018 年 10 月 ACM Multimedia 會議錄用為 Oral 的論文:Collaborative Annotation of Semantic Objects in Images with Multi-granularity Supervisions。在此論文中,北京航空航天大學碩士研究生張立石、付程晗及其導師李甲,提出了一種基於多粒度監督的圖像語義物體協同標註的方法,實現了在幾乎不影響標註精確度的前提下,減少了人工標註的時間。

論文 | Collaborative Annotation of Semantic Objects in Images with Multi-granularity Supervisions

鏈接 | paperweekly.site/papers

源碼 | ACM MM 2018

主頁 | cvteam.net/

背景

在過去 10 年,大規模圖像數據集大大推動了計算機視覺技術的發展。這些數據集中的圖片被一個或多個標籤標註,用於描繪圖片中主要對象的語義類別。在最新的應用,比如自動駕駛,機器人導航,視覺問題回答等,僅有圖像級標籤是不夠的,這些應用需要像素級的語義對象:圖像中的對象是什麼、在哪裡。

計算機視覺領域對像素級標註語義對象的需求越來越強烈,但是像素級的標註是冗餘乏味的,需要耗費大量的人力資源。因此,為了將現有圖像級標籤的數據集轉化為像素級標註的數據集,在標註精確度不受影響的前提下,減少人工標註時間是很有必要的。

機器和人協同標註的方法已經被研究多年,基於協同策略,現有的方法被分為兩類:Agent-decisionHuman-decision。Agent-decision 就是首先標註者進行粗略的標註,然後機器進行自動修正。這些標註結果很少作為 ground-truth。Human-decision 就是首先讓機器自動生成粗略的標註結果,然後標註者進行手工精細修正,這些標註結果是可以作為 ground-truth。顯然,機器標註結果越好,人工修正的時間越短。但是 Human-decision 方法中缺點就是,機器初始化是靜態的,需要預定義或預先訓練參數,這就意味著會反覆的犯同樣的錯誤即使分割同一個語義對象。

因此,很多協同標註方式都是通過利用機器的參與減少人工標註時間,但是仍然存在一些問題,鑒於此本文提出了一種智能協同標註工具 Colt:在人機交互標註的過程中不斷學習,使得機器的標註越來越好,人工參與越來越少。

思路

本論文的總體思路是首先利用機器自動生成初始標註結果,人工修正,隨著人工修正的結果越多,機器進行學習可以進行機器自動修正,進一步減少人工修正。整體框架圖如圖 1 所示。

圖1. 論文整體框架

機器自動化

機器自動化標註主要利用稀疏編碼的思想,對待標註圖像進行編碼,編碼長度的大小就意味屬於前景物體的可能性大小,選擇一個閾值分離前背景就能得到自動化標註結果。對於機器初始化標註,作者首先構建了兩個字典:強字典、弱字典,將這兩個字典作為稀疏編碼圖像的碼錶。

字典構建

首先根據每一類圖像的語義標籤計算語義相似性,然後根據圖像特徵計算每類圖像之間的視覺相似性,聯合得到每類圖像之間的總相似性。選擇相似性大於 0.95 的類別作為當前類別的稀疏編碼字典。有像素級標註圖像類別的特徵的作為強字典,沒有像素級標註圖像類別特徵的作為弱字典。

稀疏編碼

編碼對象是用 MCG 演算法對圖像提取出來的排在前 200 的圖像 proposal。由於圖像的解析度和像素密度很高,作者為減少人工點擊次數,藉助超像素塊進行操作。作者把 proposal 編碼長度映射到超像素塊並歸一化得到每個超像素塊的屬於前景的可能性值,選擇大於 0.4 的作為前景,剩下的作為背景,得到機器初始化結果。

人工修正

根據機器初始化結果,標註者進行修正:如果前後背景錯誤直接點擊左鍵,如果邊緣分割錯誤,首先點擊右鍵進行分裂成更小的超像素塊,然後點擊左鍵。在人工修正的過程,機器會自動保存點擊超像素塊的 3 鄰域特徵用於後續的機器自動修正。

機器自動修正

選擇在閾值 0.4 上下 0.15 範圍內的超像素塊,用人工修正保存的超像素塊 3 鄰域特徵進行稀疏編碼,得到這些超像素塊的編碼長度,歸一化選擇大於 0.95 的超像素塊進行前景背景在初始化基礎上進行反轉。得到機器自動修正結果。隨著人工標註的結果越多,機器能學的越精確,自動化修正結果會更好。

實驗

本文選取了 40 個圖像類別。在 ImageNet 數據集 1000 類中並且和 MSCOCO 有相同標籤的 10 個類別、在 ImageNet 數據集 1000 類中並且和MSCOCO有不同標籤的 10 個類別、不在 ImageNet 數據集 1000 類中並且和 MSCOCO 有相同標籤的 10 個類別,不在 ImageNet 數據集 1000 類中並且和 MSCOCO 有不同標籤的 10 個類別。

作者選擇 10 個年齡在 20-28 周歲之間的標註者進行標註,每個標註者用 LabelMe 進行標註 4 個圖像類別。得到 LabelMe 的標註結果,作為本文的 ground-truth。

為了比較作者方法的自動分割結果,作者和當前自動分割處於領先水平的兩個方法:DeepMask 和 SharpMask 進行比較。發現這兩個方法的結果都明顯低於 Colt 的初始化結果。具體結果見圖 2。

圖2. 自動化對比結果

為了比較最終標註結果,作者選擇另外 10 個年齡在 20-28 之間的標註者用 Colt 進行標註,和 LabelMe 的標註結果計算 F-measure,最終平均結果是 91.21。並比較了 Top5 和 Bottom5,具體結果見圖 3。標註對比結果見圖 4。

圖3. 最終標註結果

圖4. 標註對比結果

作者還做了機器自動修正結果對比實驗,發現機器自動修正是有效的,結果見圖 5。

圖5. 自動修正結果

但是 Colt 還是有一些缺陷,尤其是邊界超像素分割得不夠好,失敗的標註結果見圖 6 。

圖6. 失敗結果

總結

與當前能作為 Ground-Truth 的人工標註方法 LabelMe 的標註結果相比,作者標註工具 collaborative tool (Colt) 的標註結果 f-measure 值能夠達到 91.21%,同時作者的標註工具能節約 50% 的人工標註時間。實驗結果表明在兼顧精確度的情況下還能大大的減少標註時間。

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

加入社區:paperweek.ly

微信公眾號:PaperWeekly

新浪微博:@PaperWeekly


推薦閱讀:

TAG:計算機視覺 | 機器學習 | 深度學習DeepLearning |