想訓練動作識別模型?這裡有六個數據源供你參考
來自專欄人工智慧從入門到逆天殺神(FutureAI)9 人贊了文章
動作識別是計算機視覺領域一個很重要課題。想開發自己模型的你,是不是在想用什麼數據集呢?這裡收集了六個來源,各有自己的特色,你可以根據自己的需求,來選擇一個或多個數據集來驗證和訓練你的模型。
1.Google AVA DataSet
https://research.google.com/ava/index.html
AVA數據集在430個15分鐘的視頻剪輯中密集地標註了80個原子視覺,其中動作在空間和時間上進行了本地化,產生了1.58M個動作標籤,且每個被標記的人都有多個標籤的同時存在。
AVA數據集來源很簡單,谷歌有YouTube啊!谷歌收集了大量多樣化的視頻內容,視頻里有不同國籍的專業演員。每個視頻分析其中15分鐘的剪輯片段,並這個片段均勻分割成300個不重疊小片段,每一段3秒鐘,這種採樣策略保留了動作序列的時間順序。
雖然還沒實驗過,但憑藉個人的信仰,我高喊:谷歌出品,必屬精品。相比之下,後面的數據集真的顯得很『實驗室出品』了。
2.中山大學的iSEE實驗室的SYSU-ACTION Dataset:
iSEE_Sun Yat-Sen University(SYSU)
數據是通過RGBD相機採集的。有480個視頻剪輯,12 個HOI activity classes,並發布了特徵提取的代碼。可以說是有點方便了。
3. NTU RGB+D Action Recognition Dataset
Rapid-Rich Object Search (ROSE) Lab
這個數據集是新加坡南洋理工大學博雲搜索實驗室建立的。NTU RGB+D動作識別數據集包含56,880個示例動作,內容有 RGB 視頻, 深度圖序列, 3D 骨骼數據, 對於每個示例還有紅外成像視頻。
詳細的介紹可以參考:https://github.com/shahroudy/NTURGB-D
不過和其他數據集不一樣,雖然這個數據集也是免費使用,但你需要在官網提交使用申請,保證只做學術使用,不做商業使用。
4. UTKinect-Action3D Dataset.
http://cvrc.ece.utexas.edu/KinectDatasets/HOJ3D.html
德克薩斯州大學奧斯汀分校建立的數據集。包含了十種動作,三個channels: RGB, 深度,和 骨骼關節的位置
5. 石溪大學的SBU Kinect Interaction Dataset
SBU Kinect Interaction Dataset
和前面的數據集不一樣,這個數據集的數據主要是兩個人交互(不好意思錄屏把滑鼠錄進去了)數據通過微軟的Kinect感測器收集(3.3 gb),含有八種兩人互動動作:靠近,離開,推動,踢,拳打, 擁抱 ,握手,交換物品。
6. Berkeley Multimodal Human Action Database (MHAD)
.
http://tele-immersion.citris-uc.org/berkeley_mhad
大名鼎鼎的伯克利分校的數據集。特點是多模式,連動作表演者的年齡都做了選擇,可以說是非常用心了。
包含的動作很多:
甚至文件格式都多樣:
根據筆者看論文的經驗,這個數據集還是被很多論文作為benchmark的。
References:
[1] https://research.google.com/ava/index.html
[2] ProjectJOULE
[3]https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Shahroudy_NTU_RGBD_A_CVPR_2016_paper.pdf
[4] http://cvrc.ece.utexas.edu/Publications/Xia_HAU3D12.pdf
[5]Two-person Interaction Detection Using Body-Pose Features and Multiple Instance Learning
[6] Berkeley MHAD | Teleimmersion Lab
推薦閱讀:
TAG:計算機視覺 | 目標識別 | 深度學習DeepLearning |