【論文整理】CVPR2018 人體姿態相關

【論文整理】CVPR2018 人體姿態相關

來自專欄程序媛的小世界http://openaccess.thecvf.com/CVPR2018.py?

openaccess.thecvf.com

1.手勢

  • First-Person Hand Action Benchmark With RGB-D Videos and 3D Hand Pose Annotations

「第一人稱手動行動基準與RGB-D視頻和3D手勢姿勢注釋」數據:RGB-D視頻序列 45個日常手部類別,超過100K幀, 涉及幾種手部中的26個不同物體使用6D物體,3D手勢識別

  • Depth-Based 3D Hand Pose Estimation: From Current Achievements to Future Goals

「基於深度的3D手勢估計:從當前成果到未來目標」任務:單幀3D姿態估計,3D手部追蹤,對象交互過程中的手部姿態估計實驗:分析不同CNN結構在手形,聯合可視性,視點和銜接分布方面的表現結論:1)孤立的3D手姿態估計在[70,120]度的視點範圍內實現了較低的平均誤差(10mm), 但對於極端視角而言,這遠遠沒有解決; 2)3D體積表現優於2D CNN,更好地捕捉深度數據的空間結構; 3)鑒別方法仍然難以推廣到看不見的手形; 4)雖然聯合遮擋對大多數方法提出了挑戰, 但結構約束的顯式建模可以顯著縮小可見和閉塞關節上的誤差之間的差距。

  • Dense 3D Regression for Hand Pose Estimation

「手姿勢估計的密集3D回歸」思想:單個深度幀進行3D手勢估計,用於密集像素估計方法:1)分解姿態參數 = 2D熱圖 + 3D熱圖 + 單位3D方向矢量場 2)端對端訓練(多任務網路級聯進行估計) = 2D/3D聯合熱圖 + 3D聯合偏移 3) 像素方式的估計可以直接轉化為投票方案。 4) 使用均值漂移的變體來匯總局部投票, 並明確地處理全局3D估計, 以逐像素方式進行2D和3D估計。效果:MSRA和NYU hand數據集,ICVL hand數據集

  • Gesture Recognition: Focus on the Hands

「手勢識別:專註於手」創新:空間通道集中於手部,通道稀疏網路進行融合效果更好。效果:ChaLearn IsoGD數據集的性能67.71%提高到82.07%, NVIDIA數據集的性能從83.8%提高到91.28%。

  • Hand PointNet: 3D Hand Pose Estimation Using Point Sets

「手點網路:使用點集的3D手姿態估計」輸入:歸一化的點雲;輸出:精確地回歸3D手部姿態的低維表示創新點:不使用CNN,而是模擬手可見表面的三維點雲以進行姿態回歸 設計指尖細化網路, 直接將估計的指尖位置的相鄰點作為輸入來細化指尖位置。

  • Cross-Modal Deep Variational Hand Pose Estimation

「跨模態深變分手姿態估計」方法:通過生成的深度神經網路來學習由跨模態訓練的潛在空間表示的統計手模型。創新:1)目標函數 = VAE框架的變分下界,跨模態KL散度,後向重建目標 多模態空間 = RGB圖像,2D關鍵點檢測,3D手形配置 2)半監督估計RGB圖像的3D手勢 3)不需要改變圖像深度,效果良好可與論文比較 4)模型是完全生成的,可以在不同的模式下合成一致的手對配置

  • Augmented Skeleton Space Transfer for Depth-Based Hand Pose Estimation

「基於深度的手勢估計的增強骨架空間轉移」思想:1)不使用深度圖合成數據,使用骨架圖合成數據; 2)使用骨架圖生成深度圖 3)生成對抗網路->手姿的手姿識別器(HPD) 4)手形成生成器(HPG)+ 3D手姿勢估計器(HPE)配合訓練

  • GANerated Hands for Real-Time 3D Hand Tracking From Monocular RGB

「GANerated Hands用於從單目RGB實時3D手部追蹤」貢獻:解決單目RGB序列的實時3D手部跟蹤方法:1)卷積神經網路 + 運動學3D手模型 2)CNN:基於幾何一致的圖像到圖像平移網路的合成生成訓練數據的新方法 3)將合成圖像轉換為「真實」圖像的神經網路, 使得如此生成的圖像遵循與真實世界手圖像相同的統計分布。 為了訓練這個翻譯網路, 我們將對抗性損失和循環一致性損失與幾何一致性損失相結合, 以便在翻譯過程中保留幾何特性(例如手勢)

2.姿態估計和預測 Estimation/Predict

2.1 人體姿勢

  • Learning to Estimate 3D Human Pose and Shape From a Single Color Image

「學習從單色圖像估計3D人體姿態和形狀」方法:1)端到端框架內引入參數化統計人體形狀模型(SMPL) ->獲得非常詳細的三維網格結果, ->同時僅需要估計少量參數, ->使其對直接網路預測更為友好 2)從2D關鍵點和掩模才能可靠地預測這些參數 3)根據估計的參數生成3D網格,並使用3D每頂點損耗為曲面顯式優化。 4)採用可微分渲染器將3D網格投影到圖像上, 通過優化投影與2D注釋(即2D關鍵點或掩模)的一致性, 可以進一步細化網路。

  • Recognizing Human Actions as the Evolution of Pose Estimation Maps

「將人為行為視為姿態估計圖的演化」思想:姿態估計圖 = 熱圖的演變(概率圖)+ 估計的2D人體姿態的演變(身體形狀和身體姿勢的變化)熱圖:熱圖的稀疏性質 ->開發了空間等級彙集以將熱圖的演變作為一個體形演化圖像進行聚合。姿態圖:身體形態演化圖像不能區分身體部位 ->設計身體引導採樣來將姿勢的演變作為身體姿態演化圖像進行聚合。匯總:通過深度卷積神經網路來預測兩種圖像之間的互補特性以預測動作標籤。數據:NTU RGB + D,UTD-MHAD和PennAction數據集

  • Human Pose Estimation With Parsing Induced Learner

「解析誘導學習者的人體姿態估計」方法:解析誘導學習器 = 解析編碼器+姿態模型參數適配器 一起學習預測姿態模型的動態參數以提取互補的有用特徵以用於更精確的姿態估計。效能:基準LIP和擴展PASCAL-Person-Part

  • Monocular 3D Pose and Shape Estimation of Multiple People in Natural Scenes - The Importance of Multiple Scene Constraints

「自然場景中多人的單眼三維姿態和形狀估計 - 多場景約束的重要性」方法:1)推斷2D和3D姿態,多個人的形狀, 依靠模型和圖像層面的詳細語義表示,指導使用前饋和反饋組件進行組合優化 2)自動地整合場景約束,包括地平面支持和多人同時佔用的體積 3)通過最優地解決時間人員分配問題並施加相干時間姿態和運動重建, 同時保持圖像對準,將單個圖像模型擴展為視頻保真度。效果:1)解決時間人員分配問題並施加相干時間姿態和運動重建, 同時保持圖像對準保真度,將單個圖像模型擴展到視頻。 2)方法應用於具有多個人的圖像, 嚴重的遮擋和在具有挑戰性的自然場景中捕獲的不同背景, 並獲得良好的感知質量結果

  • Jointly Optimize Data Augmentation and Network Training: Adversarial Data Augmentation in Human Pose Estimation

「聯合優化數據增強和網路訓練:人體姿態估計中的敵對數據增強」思想:隨機數據增強避免訓練深度模型過度擬合方法:生成器(例如增強網路), 通過在線生成硬性示例來與競爭對手(如目標網路)競爭。 該生成器探索鑒別器的弱點,而鑒別器從硬增強學習以獲得更好的性能。 獎勵/懲罰策略也被提出用於有效的聯合訓練。

  • V2V-PoseNet: Voxel-to-Voxel Prediction Network for Accurate 3D Hand and Human Pose Estimation From a Single Depth Map

「V2V-PoseNet:用於從單一深度圖準確估計3D手和人體姿態的體素 - 體素預測網路」思想:採用2D深度圖並直接對關鍵點(如手或人體關節)的3D坐標進行回歸傳統:1)將深度圖視為2D圖像 2)缺點:通過從3D空間投影到2D空間來扭曲實際物體的形狀。 這迫使網路執行透視失真不變估計 3)缺點:從2D圖像直接回歸3D坐標是非常非線性的映射,這在學習過程中造成困難。方法:1)將3D手和人體姿勢估計問題從單個深度圖轉換為使用3D體素化網格, 估計每個關鍵點的每體素可能性的體素 - 體素預測。 2)將模型設計為3D CNN,可在實時運行時提供準確的估計值。

  • PoseTrack: A Benchmark for Human Pose Estimation and Tracking

「PoseTrack:人體姿態估計和跟蹤的基準」傳統:1)很難在具有多人的逼真視頻上表現良好, 2)經常不能輸出隨著時間推移一致的身體姿態軌跡。方法:1)單幀多人姿態估計, 2)視頻中的多人姿態估計, 3)多人連接跟蹤。

  • Cascaded Pyramid Network for Multi-Person Pose Estimation

「級聯金字塔網路用於多人姿態估計」問題:閉塞的關鍵點,不可見的關鍵點和複雜的背景階段:1)GlobalNet是一個功能金字塔網路, 可以成功定位眼睛和手等「簡單」關鍵點, 但可能無法精確識別被遮擋或不可見的關鍵點。 2)RefineNettries通過整合來自Global-Net的所有級別的特徵 表示以及在線硬關鍵點採礦損失來明確處理「硬」關鍵點。方法:為了解決多人姿勢估計問題, 採用自頂向下的管線首先基於檢測器生成一組人類邊界框, 然後用CPN在每個人體邊界框中進行關鍵點定位。效果:COCO 60.5->73.0/72.1

  • Ordinal Depth Supervision for 3D Human Pose Estimation

「三維人體姿態估計的序貫深度監督"創新:1)人體關節序數深度提供的較弱監督信號 2)流行的深度標註來擴充流行的LSP和MPII數據集

  • Through-Wall Human Pose Estimation Using Radio Signals

「使用無線電信號的穿牆人體姿態估計」場景:通過牆壁和遮擋進行精確的人體姿態估計。 利用WiFi頻率中的無線信號穿越牆壁並反射人體的事實。思想:深度神經網路方法來分析這種無線電信號以估計2D姿勢創新:跨模態監督 1)訓練:同步的無線和視覺輸入,從視頻流中提取姿勢信息 2)訓練完成:網路僅使用無線信號進行姿態估計視頻:http://rfpose.csail.mit.edu

  • Learning Monocular 3D Human Pose Estimation From Multi-View Images

「從多視圖圖像學習單眼3D人體姿態估計」方法:1)多個視圖來替換大多數注釋,訓練系統預測所有視圖中的相同姿勢。 2)監督損失預測一小組標記圖像中的正確姿勢, 並用正則化術語來懲罰初始預測中的偏移。 3)提出了一種與人體姿勢一起估計相機姿態的方法, 該方法可讓我們利用多視圖素材難以校準的情況, 例如,用於平移或移動手持相機。效果:帶有旋轉攝像頭和專業滑雪運動的全新Ski數據集

2.2 其他姿勢

  • Detect-and-Track: Efficient Pose Estimation in Videos

「檢測和跟蹤:視頻中的高效姿態估計」

  • Feature Mapping for Learning Fast and Accurate 3D Pose Inference From Synthetic Images

「用於學習的特徵映射從合成圖像學習快速且準確的3D姿勢推斷」

  • DensePose: Dense Human Pose Estimation in the Wild

」密集人體:野外人體姿勢估計「

  • 3D Human Pose Estimation in the Wild by Adversarial Learning

「對抗性學習在野外的人體姿態估計」

  • 3D Pose Estimation and 3D Model Retrieval for Objects in the Wild

「野外物體的三維姿態估計與三維模型檢索」

  • RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews From Unsupervised Viewpoints

「RotationNet:使用來自無監督視點的多視圖的聯合對象分類和姿態估計」

  • 2D/3D Pose Estimation and Action Recognition Using Multitask Deep Learning

「使用多任務深度學習的2D / 3D姿態估計和動作識別」

  • Learning Pose Specific Representations by Predicting Different Views

「通過預測不同視角來學習姿勢的具體表現」

  • Real-Time Seamless Single Shot 6D Object Pose Prediction

「實時無縫單射6D對象姿態預測」

  • Multi-View Consistency as Supervisory Signal for Learning Shape and Pose Prediction

「多視圖一致性作為學習形狀和姿態預測的監督信號」

3.與姿態相關的其他任務

3.1 合成 Synthesis

  • Multistage Adversarial Losses for Pose-Based Human Image Synthesis

「基於姿態的人體圖像合成的多級對抗損失」

  • Synthesizing Images of Humans in Unseen Poses

「在看不見的姿勢中合成人類的圖像」

  • Unsupervised Person Image Synthesis in Arbitrary Poses

「任意姿勢下的無監督人體圖像合成」

  • End-to-End Recovery of Human Shape and Pose

「人體形態和姿勢的端對端恢復」

  • Deformable GANs for Pose-Based Human Image Generation

「用於基於姿勢的人類圖像生成的可變形GAN」

3.2 相機機位 Camera

  • GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose

「GeoNet:密集深度的無監督學習,光流和相機姿勢」

  • Hybrid Camera Pose Estimation

「混合相機姿勢估計」

  • Camera Pose Estimation With Unknown Principal Point

「帶有未知主要點的相機姿態估計」

3.3 人臉 Face

  • Super-FAN: Integrated Facial Landmark Localization and Super-Resolution of Real-World Low Resolution Faces in Arbitrary Poses With GANs

「Super-FAN:集成的人臉地標定位和任意姿勢下的真實世界低解析度人臉的超解析度」

  • Disentangling 3D Pose in a Dendritic CNN for Unconstrained 2D Face Alignment

「在無限制2D面對準的樹突狀CNN中解構三維姿態」

  • Joint Pose and Expression Modeling for Facial Expression Recognition

「面部表情識別的聯合姿態和表情建模」

  • Towards Pose Invariant Face Recognition in the Wild

「面向野外姿態不變的人臉識別」

  • Pose-Robust Face Recognition via Deep Residual Equivariant Mapping

「基於深度殘差等變映射的姿態魯棒人臉識別」

  • UV-GAN: Adversarial Facial UV Map Completion for Pose-Invariant Face Recognition

「UV-GAN:用於姿態不變臉部識別的對抗面部UV映射完成」

  • Pose-Guided Photorealistic Face Rotation

「姿勢指導真實感臉部旋轉」

  • Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

「全部捕獲:用於追蹤面部,手部和身體的3D變形模型」

3.4 其他

  • Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

「通過姿態引導知識轉移進行弱監督和半監督人體部位解析」

  • A Certifiably Globally Optimal Solution to the Non-Minimal Relative Pose Problem

「非最小相對姿態問題的一個可證明的全局最優解」

  • Fight Ill-Posedness With Ill-Posedness: Single-Shot Variational Depth Super-Resolution From Shading

「以不適當的姿態應對不適應:來自陰影的單發變分深度超解析度」

  • Factoring Shape, Pose, and Layout From the 2D Image of a 3D Scene

「從3D場景的2D圖像中分解形狀,姿態和布局」

  • A Pose-Sensitive Embedding for Person Re-Identification With Expanded Cross Neighborhood Re-Ranking

「擴展交叉鄰居重新排序的人員重新識別的姿態敏感嵌入「

  • Improving Occlusion and Hard Negative Handling for Single-Stage Pedestrian Detectors

」改善單級行人檢測器的遮擋和硬性負面處理「

  • End-to-End Learning of Keypoint Detector and Descriptor for Pose Invariant 3D Matching

」針對姿態不變三維匹配的關鍵點檢測器和描述符的端到端學習「

  • Non-Blind Deblurring: Handling Kernel Uncertainty With CNNs

「非盲去模糊:用CNN處理內核不確定性」

  • Pose Transferrable Person Re-Identification

「姿態可移動的人員重新識別」

  • LSTM Pose Machines

「LSTM姿勢機器」

  • MX-LSTM: Mixing Tracklets and Vislets to Jointly Forecast Trajectories and Head Poses

「MX-LSTM:混合Tracklets和Vislets來共同預測軌跡和頭部姿勢」

  • PoseFlow: A Deep Motion Representation for Understanding Human Behaviors in Videos

」PoseFlow:用於理解視頻中人類行為的深層運動表示「

  • PoTion: Pose MoTion Representation for Action Recognition

」主題:構成動作識別的MoTion表示「

  • Analysis of Hand Segmentation in the Wild

」野生動物手部分割分析「

推薦閱讀:

如何撰寫和發表SCI
【趣度】史上最奇葩論文,你知道多少?
基層醫生髮 SCI 論文只要做到這 6 點
如何避免論文寫作時的自嗨?寫出優質的論文其實也是有套路的!

TAG:姿態 | CVPR | 學術論文 | 論文 | 期刊論文 |