利用Mask R-CNN2Go實現人體動態捕捉| Facebook AI | 解讀技術

更多AI資訊,關註:九三智能控

Facebook的智能攝像頭團隊一直致力於研究各種計算機視覺技術,並進行工具開發以便人們加以應用。比如,應用實時「風格遷移」技術,可以將你的照片或視頻渲染成梵高風格。或者應用實時面部捕捉技術,對你的照片進行美顏,甚至直接用化身(比如卡通形象)替換你的頭像。更進一步,如果能用化身(Avatar)對你整個身體進行替代會怎樣呢?

要想用替身替換你的整個身體,需要能夠實時的探測和跟蹤你的身體運動。這是一個非常有挑戰性的問題,因為需要不斷的識別姿勢和動作的變化。一個人可能在走路或者跑步,又或者他可能穿著一件長外套或鞋子。此外,還可能經常被障礙物遮擋。以上這些問題都大大增加了建立可靠的人體跟蹤系統的難度。

要想用替身替換你的整個身體,需要能夠實時的探測和跟蹤你的身體運動。這是一個非常有挑戰性的問題,因為需要不斷的識別姿勢和動作的變化。一個人可能在走路或者跑步,又或者他可能穿著一件長外套或鞋子。此外,還可能經常被障礙物遮擋。以上這些問題都大大增加了建立可靠的人體跟蹤系統的難度。身體姿勢控制遊戲或者對對象身份進行反識別(de-identify)。

我們的人體識別和分割模型是基於Mask R-CNN架構建立的。Mask R-CNN是一種結構簡單、靈活性高的通用架構,可以用來進行物體識別和分割。該演算法可以高效的從圖片中識別出物體,並對物體進行關鍵點匹配以及邊界劃分。Mask R-CNN架構獲得了ICCV2017最佳論文。為了將Mask R-CNN架構 應用於智能移動設備,Facebook智能攝像頭、FAIR和AML等團隊的研究者和工程師一同開發了高效、輕量級化的Mask R-CNN2Go模型。

Mask R-CNN2Go模型主要包含以下5個主要特點。

  1. Trunk模型包含多個卷積層,可以識別圖像的深度特徵。
  2. 候選區域生成網路(Regio Proposal network)先通過對輸入圖像的數層卷積得到一個特徵圖像,然後在特徵圖像上生成不同大小和不同長寬比的矩形框(錨點)。然後用ROI-Align層從物體邊界框中提取特徵,並傳送給頭部檢測層(detection head)。

3. 頭部檢測層(detection head)包含一系列卷積層、池化層(pooling)和全連接層。對於每個候選區域,頭部檢測層都會判斷其中物體是否是人類。該層還會進一步對區域坐標進行優化,並對鄰近的候選區域進行非極大值抑制(non-max suppression)處理,從而形成最終的人體區域邊框。

4. 利用第2層RIO-Align層從人體區域邊框中繼續提取特徵,並輸入到關鍵點層(key point head)和分割層(segmentation head)。

5. 關鍵點層和分割層有著相似的結構,它通過預設的人體關鍵點來生成人體替代模型。然後,一個單獨的最大掃略層用來生成最終的人體坐標。

適用於移動設備的輕量化模型

相比於GPU伺服器,移動設備(手機)只有有限的算力和存儲空間。傳統的Mask R-CNN模型建立在ResNet基礎上,該模型對於移動手機來說規模太大,且運行太緩慢。為了解決這個問題,我們開發了一種非常高效的模型框架,非常適用於移動手機。

我們應用了多種方法來縮減模型的規模,比如優化卷積層的數量和寬度(這些是計算過程中最耗時間的部分)。為了確保有足夠大的感受野(receptive field),我們將 1×1, 3×3 和 5×5三種不同區域尺寸(kernel size)進行組合應用。權重衰減演算法(Weight Pruning)也被用來縮減模型的規模。最終,我們獲得一個只有幾兆大小且非常精確的新模型。

模塊化設計改善計算速度

為了能在移動設備上實時的運行深度學習演算法,我們結合NNPack、SNPE、和Metal等方法改進了我們的核心框架Caffe2,在移動設備上的CPU庫和GPU庫(包含NNPack、SNPE、和Metal演算法)上顯著的提升了計算能力。這些改進都是基於模塊化設計,沒有改動基本模型的定義。最終,通過獲得了輕量化的模型以及高效的計算能力,又避免了潛在的不相容性。

Facebook AI研究中心(FAIR)最近公布了Mask R-CNN研發平台(Detectron)。同時,我們還對Caffe2系統的(GenerateProposalsOp, BBoxTransformOp, BoxWithNMSLimit,and RoIAlignOp)的使用安裝進行了開源,並提供必要的模型版本代碼供社區使用。

下一步是什麼?

為移動設備開發計算機視覺模型是一項很有挑戰的工作。應用於移動設備上的模型必須要規模小、速度快、準確率高,同時不需要很大的存儲要求。我們將繼續探索新型的建模框架,從而引申出更多高效的模型。此外,我們還將研究更適用於移動手機的GPU和DSP的模型,這樣的模型將更加省電。


微信群&商業合作:

  • 加入微信群:不定期分享資料,拓展行業人脈請在公眾號留言:「微信號+名字+研究領域/專業/學校/公司」,我們將很快與您聯繫。
  • 投稿(無稿費)請發郵件至:158354995@qq.com
  • 商業合作請註明事宜哦

weixin.qq.com/r/AC91bd- (二維碼自動識別)


推薦閱讀:

Rocket Training: 一種提升輕量網路性能的訓練方法
brox近期論文
3D卷積神經網路Note01
讀Focal Loss
深度學習的「警察」與「小偷」

TAG:機器學習 | 計算機視覺 | Facebook |