[計算機視覺論文速遞] 2018-04-28
通知:這篇文章有6篇論文速遞信息,涉及視覺跟蹤、Zero-shot Learning、GAN等方向(含2篇CVPR論文)
[1]《View Extrapolation of Human Body from a Single Image》
CVPR 2018
Abstract:我們研究如何從單個圖像合成人體的新視圖。儘管最近基於深度學習的方法對於剛性物體很適用,但它們通常在大型關節的物體(如人體)上失敗。現有方法的核心步驟是將可觀察的視圖與CNN的新視圖相匹配;然而,人體豐富的發音模式使得CNN很難記憶和插入數據。為了解決這個問題,我們提出了一種新的基於深度學習的pipeline,明確地估計和利用underlying人體的幾何形狀。我們的pipeline是一個形狀估計網路和一個圖像生成網路的組合,並且在介面處應用透視變換來生成像素值傳輸的正向流。我們的設計能夠將數據變化的空間分解出來,並使每一步的學習變得更容易。經驗上,我們表明姿態變化對象的性能可以大大提高。我們的方法也可應用於3D感測器捕獲的實際數據,並且我們的方法生成的流可用於生成高解析度的高質量結果。
arXiv:https://arxiv.org/abs/1804.04213
視覺跟蹤
[2]《VITAL: Visual Tracking via Adversarial Learning》
CVPR 2018
Abstract:Tracking-by-detection框架由兩個階段組成,即在第一階段在目標對象周圍drawing樣本,並在第二階段將每個樣本分類為目標對象或將其分類為背景。使用深度分類網路的現有跟蹤器的性能受到兩方面的限制。首先,每幀中的正樣本在空間上是高度重疊的,它們不能捕捉到豐富的外觀變化。其次,正面和負面樣本之間存在極端的class失衡。本文介紹了通過對抗學習(adversarial learning)解決這兩個問題的VITAL演算法。為了增加正樣本,我們使用生成網路隨機生成掩模,將其應用於自適應丟失輸入特徵以捕捉各種外觀變化。通過使用對抗學習(adversarial learning),我們的網路可以識別在長時間跨度上保持目標對象最穩健特徵的mask。另外,為了處理類別失衡的問題,我們提出了一個高階的代價(cost)敏感性損失來減少簡單負樣本的影響,以便於訓練分類網路。在基準數據集上的大量實驗表明,所提出的跟蹤器是state-of-the-art。
arXiv:https://arxiv.org/abs/1804.04273
註:還有對抗學習(adversarial learning),簡直太秀了
Zero-shot
[3]《A Large-scale Attribute Dataset for Zero-shot Learning》
Abstract:Zero-Shot Learning (ZSL) has attracted huge research attention over the past few years; it aims to learn the new concepts that have never been seen before. In classical ZSL algorithms, attributes are introduced as the intermediate semantic representation to realize the knowledge transfer from seen classes to unseen classes. Previous ZSL algorithms are tested on several benchmark datasets annotated with attributes. However, these datasets are defective in terms of the image distribution and attribute diversity. In addition, we argue that the "co-occurrence bias problem" of existing datasets, which is caused by the biased co-occurrence of objects, significantly hinders models from correctly learning the concept. To overcome these problems, we propose a Large-scale Attribute Dataset (LAD). Our dataset has 78,017 images of 5 super-classes, 230 classes. The image number of LAD is larger than the sum of the four most popular attribute datasets. 359 attributes of visual, semantic and subjective properties are defined and annotated in instance-level. We analyze our dataset by conducting both supervised learning and zero-shot learning tasks. Seven state-of-the-art ZSL algorithms are tested on this new dataset. The experimental results reveal the challenge of implementing zero-shot learning on our dataset.
arXiv:https://arxiv.org/abs/1804.04314
註:這裡搬原文很舒服,裡面英文單詞看著容易理解(絕不是俺偷懶)
Home Actions數據集
[4]《STAIR Actions: A Video Dataset of Everyday Home Actions》
Abstact:介紹一種新的用於人類行為識別的大型視頻數據集,稱為STAIR Actions。 STAIR行動包含100個類別的行為標籤,代表細緻的日常家庭行為,因此它可以應用於各種家庭任務的研究,如護理,關懷和安全。 在STAIR操作中,每個視頻都有一個動作標籤。 此外,對於每個行動類別,大約有1,000個視頻是從YouTube獲得的或由眾包工作者製作的。 每個視頻的持續時間大多是五到六秒。 視頻總數為102,462。 我們解釋了我們如何構建STAIR操作並顯示STAIR操作與現有數據集進行人類操作識別相比較的特點。 三種主要動作識別模型的實驗表明,STAIR Actions可以訓練大型模型並獲得良好的性能。
arXiv:https://arxiv.org/abs/1804.04326
datasets:https://actions.stair.center/
註:NB且新奇的數據集
GAN
[5]《MelanoGANs: High Resolution Skin Lesion Synthesis with GANs》
Abstract:生成對抗網路(GANs)已成功用於合成逼真的人臉圖像,風景甚至醫學圖像。不幸的是,它們通常需要大量的訓練數據集,而這些數據集在醫學領域通常很少見,而且據我們所知,GAN僅以相當低的解析度應用於醫學圖像合成。然而,許多最先進的機器學習模型都使用高解析度數據,因為這些數據具有不可或缺的重要信息。在這項工作中,我們嘗試使用GANs生成逼真的高解析度皮膚損傷圖像,僅使用2000個樣本的小型訓練數據集。數據的性質使我們可以直接比較生成的樣本和真實數據集的圖像統計數據。我們在數量和質量上比較了DCGAN和LAPGAN等最先進的GAN體系結構,並對後者進行了256x256px解析度圖像生成任務的修改。我們的調查顯示,我們可以用所有模型逼近真實的數據分布,但是在視覺上評估樣本真實性,多樣性和工件時,我們注意到主要差異。在一組關於皮膚損傷分類的用例實驗中,我們進一步表明,我們可以藉助合成的高解析度黑素瘤樣本成功解決嚴重的類失衡問題。
arXiv:https://arxiv.org/abs/1804.04338
人員計數
[6]《Benchmark data and method for real-time people counting in cluttered scenes using depth sensors》
Abstract:實時自動統計人員在安全,安全和物流方面有著廣泛的應用。然而,目前還沒有針對這個問題的基準方法的大規模公共數據集。為填補這一空白,我們推出了第一個真實世界的RGB-D人數統計數據集(PCDS),其中包含正常和混亂條件下在公交車入口處錄製的4,500多個視頻。我們還提出了一種有效的方法,可以單獨使用深度視頻來計算真實世界混亂場景中的人物。所提出的方法從深度視頻幀計算點雲,並將其重新投影到地平面上以對深度信息進行歸一化。分析得到的深度圖像以識別潛在的人頭。使用3D人體模型對人體頭部提議進行了精心設計。跟蹤連續視頻流的每個幀中的提議以追蹤它們的軌跡。軌跡再次被改進以確定可靠的計數。人們最終通過累積離開現場的頭部軌跡來計數。為了實現有效的頭部和軌跡識別,我們還提出了兩種不同的複合特徵。對PCDS進行全面評估表明,我們的整體技術能夠在1.7 GHz處理器上以45 fps的高精度對凌亂場景中的人員進行計數。
arXiv:https://arxiv.org/abs/1804.04339
往期精彩回顧
你現在應該閱讀的7本最好的深度學習書籍
【重磅】基於深度學習的目標檢測演算法綜述
【重磅】卷積神經網路為什麼能稱霸計算機視覺領域?
-------我是可愛的分割線-------
若喜歡Amusi推送的文章,請掃描下方二維碼關注CVer公眾號!
http://weixin.qq.com/r/NioZAUbEpRvarQJi938k (二維碼自動識別)
-------我還是可愛的分割線-------
喜歡CVer的文章,記得點贊哦!
推薦閱讀:
TAG:機器學習 | 深度學習DeepLearning | 計算機視覺 |