數據集大全：25個深度學習的開放數據集

04-19

介紹

深度學習的關鍵是訓練。無論是從圖像處理到語音識別，每個問題都有其獨特的細微差別和方法。

但是，你可以從哪裡獲得這些數據？現在你看到的很多研究論文都使用專有數據集，而這些數據集通常不會向公眾發布。如果你想學習並應用你新掌握的技能，數據就成為一個問題。

在本文中，我們列出了一些高質量的數據集，每個深度學習愛好者都可以使用並改善改進他們模型的性能。 擁有這些數據集將使你成為一名更好的數據科學家，並且你將從中獲得無可估量的價值。我們還收錄了具有最新技術（SOTA）結果的論文，供你瀏覽並改進你的模型。

如何使用這些數據集？

首先要做的事——下載這些數據集，這些數據集的規模很大！所以請確保你有一個快速的互聯網連接。

數據集分為三類——圖像處理、自然語言處理和音頻/語音處理。

讓我們開始我們的數據集之旅吧！

圖像數據集

1.MNIST

MNIST是最受歡迎的深度學習數據集之一，這是一個手寫數字數據集，包含一組60,000個示例的訓練集和一個包含10,000個示例的測試集。這是一個很好的資料庫，用於在實際數據中嘗試學習技術和深度識別模式，同時可以在數據預處理中花費最少的時間和精力。

大小： 50 MB

記錄數量： 70,000張圖片被分成了10個組。

SOTA： Capsules之間的動態路由。

2.MS-COCO

COCO是一個大型的、豐富的物體檢測，分割和字幕數據集。它有幾個特點：

· 對象分割；

· 在上下文中可識別；

· 超像素分割；

· 330K圖像（> 200K標記）；

· 150萬個對象實例；

· 80個對象類別；

· 91個類別；

· 每張圖片5個字幕；

· 有關鍵點的250,000人；

大小：25 GB（壓縮）

記錄數量： 330K圖像、80個對象類別、每幅圖像有5個標籤、25萬個關鍵點。

SOTA：Mask R-CNN

3.ImageNet

ImageNet是根據WordNet層次結構組織的圖像數據集。WordNet包含大約100,000個單詞，ImageNet平均提供了大約1000個圖像來說明每個單詞。

大小：150GB

記錄數量：總圖像是大約是1,500,000，每個都有多個邊界框和相應的類標籤。

SOTA：深度神經網路的聚合殘差變換。

4.Open Images數據集

該數據集是一個包含近900萬個圖像URL的數據集，這些圖像跨越了數千個類的圖像級標籤邊框並且進行了注釋。該數據集包含9,011,219張圖像的訓練集，41,260張圖像的驗證集以及125,436張圖像的測試集。

大小：500 GB（壓縮）

記錄數量：9,011,219張超過5k標籤的圖像

SOTA：Resnet 101圖像分類模型（在V2數據上訓練）：模型檢查點，檢查點自述文件，推理代碼。

5.VisualQA

VQA是一個包含相關圖像的開放式問題的數據集，這些問題需要理解視野和語言。這個數據集的一些有趣的特點是：

· 265,016張圖片（COCO和抽象場景）；

· 每張圖片至少有3個問題（平均5.4個問題）；

· 每個問題有10個基本事實答案；

· 每個問題有3個似乎合理（但可能不正確）的答案；

· 自動評估指標。

大小：25 GB（壓縮）

記錄數量：265,016張圖片，每張圖片至少3個問題，每個問題10個基本事實答案。

SOTA：視覺問答的技巧和訣竅：從2017年的挑戰中學習

6.街景房屋號碼（SVHN）

這是用於開發對象檢測演算法的真實世界的圖像數據集，它需要最少的數據預處理。它與本列表中提到的MNIST數據集類似，但具有更多標籤數據（超過600,000個圖像），這些數據是從谷歌街景中查看的房屋號碼中收集的。

大小：2.5 GB

記錄數量：6,30,420張圖片被分布在10個類中。

SOTA：虛擬對抗訓練的分布平滑

7.CIFAR-10

該數據集是圖像分類的另一個數據集，它由10個類的60,000個圖像組成（每個類在上面的圖像中表示為一行）。總共有50,000個訓練圖像和10,000個測試圖像。數據集分為6個部分：5個訓練批次和1個測試批次，每批有10,000個圖像。

大小：170 MB

記錄數量：60,000張圖片被分為10個類。

SOTA：ShakeDrop正則化

8.Fashion--MNIST

Fashion-MNIST包含60,000個訓練圖像和10,000個測試圖像，它是一個類似MNIST的時尚產品資料庫。開發人員認為MNIST已被過度使用，因此他們將其作為該數據集的直接替代品。每張圖片都以灰度顯示，並與10個類別的標籤相關聯。

大小：30 MB。

記錄數量：70,000張圖片被分為10個類。

SOTA：隨機擦除數據增強

自然語言處理

9.IMDB評論

這是電影愛好者的夢幻數據集，它意味著二元情感分類，並具有比此領域以前的任何數據集更多的數據。除了訓練和測試評估示例之外，還有更多未標記的數據供你使用。原始文本和預處理的單詞格式包也包括在內。

大小：80 MB。

記錄數量： 25,000個電影評論訓練，25,000個測試

SOTA：學習結構化文本表示

10.二十個新聞組（Twenty Newsgroups）

顧名思義，該數據集包含有關新聞組的信息。為了管理這個數據集，從20個不同的新聞組中獲取了1000篇Usenet文章。這些文章具有典型特徵，如主題行，簽名和引號。

大小：20 MB

記錄數量：來自20個新聞組的20,000條消息。

SOTA：用於文本分類的非常深的卷積網路，

11.Sentiment140

Sentiment140是一個可用於情感分析的數據集。它是一個流行的數據集，它能讓你的NLP旅程更加完美。情緒已經從數據中預先刪除，最終的數據集具有以下6個特徵：

· 推文的極性（polarity of the tweet）。

· 推文的ID。

· 推文的日期。

· 查詢。

· 推文的文本。

大小：80 MB（壓縮）。

記錄數量：160,000條推文。

SOTA：評估最先進的情感數據集的最新情緒模型

12.WordNet

在上面的ImageNet數據集中提到，WordNet是一個包含英文synsets的大型資料庫。Synsets是同義片語，每個描述不同的概念。WordNet的結構使其成為NLP非常有用的工具。

大小：10 MB

記錄數量：通過少量「概念關係」將117,000個同義詞集與其他同義詞集相關聯。

SOTA：Wordnet：現狀和前景

13.Yelp評論

這是Yelp為了學習目的而發布的一個開放數據集。它由數百萬用戶評論，商業屬性和來自多個大都市地區的超過20萬張照片組成。這是一個非常常用的全球NLP挑戰數據集。

大小：2.66 GB JSON，2.9 GB SQL和7.5 GB照片（全部壓縮）

記錄數：5,200,000條評論，174,000條商業屬性，20萬張照片。

SOTA：細心卷積(Attentive Convolution)

14.維基百科語料庫

該數據集是維基百科全文的集合。它包含來自400多萬篇文章的將近19億字。這個強大的NLP數據集你可以通過單詞，短語或段落本身的一部分進行搜索。

大小：20 MB。

記錄數：4,400,000篇文章，19億字。

SOTA：打破Softmax Bottelneck：高級RNN語言模型

15.博客作者身份語料庫

此數據集包含從數千名博主收集的博客帖子，並且已從http://blogger.com收集。每個博客都作為一個單獨的文件提供，每個博客至少包含200次常用英語單詞。

大小：300 MB

記錄數：681,288個帖子，超過1.4億字。

SOTA：用於大規模作者歸屬的字元級和多通道卷積神經網路

16.歐洲語言的機器翻譯數據集

該數據集包含四種歐洲語言的訓練數據，它存在的任務是改進當前的翻譯方法。你訓練以下任何語言對：

· 法語——英語；

· 西班牙語——英語；

· 德語——英語；

· 捷克語——英語。

大小：15 GB

記錄數量：約30,000,000個句子及其翻譯。

SOTA：Attention就是你所需要的

音頻/語音數據集

17.免費口語數字數據集

此列表中的另一項是由MNIST數據集啟發！這是為了解決識別音頻樣本中的口頭數字的任務而創建的。這是一個開放的數據集，所以希望隨著人們繼續貢獻更多樣本，它會不斷增長。目前，它包含以下特點：

· 3個揚聲器；

· 1500個錄音（每個揚聲器每個數字50個）；

· 英語發音；

大小：10 MB。

記錄數量：1500個音頻樣本。

SOTA：使用採樣級CNN架構的基於原始波形的音頻分類

18.免費音樂檔案（FMA）

FMA是音樂分析的數據集，該數據集由full-length和HQ音頻、預先計算的特徵以及音軌和用戶級元數據組成。它是一個開放數據集，用於評估MIR中的幾個任務。以下是數據集連同其包含的csv文件列表：

· tracks.csv：106,574首曲目的每首曲目元數據，如ID，標題，藝術家，流派，標籤和播放次數。

· genres.csv：163種風格的ID與他們的名字和父母（用於推斷流派層次和頂級流派）。

· features.csv：用librosa提取的共同特徵。

· echonest.csv：由Echonest （現在的 Spotify）為13,129首音軌的子集提供的音頻功能。

大小：1000 GB

記錄數量：約100,000 tracks

SOTA：學習從音頻中識別音樂風格

19.舞廳（Ballroom）

該數據集包含舞廳跳舞音頻文件，以真實音頻格式提供了許多舞蹈風格的一些特徵摘錄。以下是數據集的一些特徵：

· 實例總數：698；

· 持續時間：約30秒；

· 總持續時間：約20940秒；

大小： 14GB（壓縮）

記錄數量：約700個音頻樣本

SOTA：考慮到不同類型音樂風格的多模型方法來打敗追蹤

20.百萬歌曲數據集

在百萬歌曲數據集是音頻功能和元數據的一百萬當代流行音樂曲目可自由可用的集合。其目的是：

· 鼓勵對擴大到商業規模的演算法進行研究；

· 為評估研究提供參考數據集；

· 作為使用API創建大型數據集的捷徑（例如Echo Nest的）；

· 幫助新研究人員在MIR領域開始工作；

數據集的核心是一百萬首歌曲的特徵分析和元數據。該數據集不包含任何音頻，只包含派生的功能。示例音頻可以通過使用哥倫比亞大學提供的代碼從7digital等服務中獲取。

大小： 280 GB

記錄數量：一百萬首歌曲！

SOTA：百萬歌曲數據集挑戰推薦系統的初步研究

21.LibriSpeech

該數據集是包含大約1000小時的英語語音的大型語料庫。這些數據來自LibriVox項目的有聲讀物。它已被分割並正確對齊，如果你正在尋找一個起點，請查看已準備好的聲學模型，這些模型在kaldi-asr.org和語言模型上進行了訓練，適合評估，網址為：http://www.openslr.org/11/。

大小：60 GB

記錄數： 1000小時的演講。

SOTA：基於信件的語音識別與門控通信

22.VoxCeleb

VoxCeleb是一個大型的說話人識別數據集。它包含約1,200名來自YouTube視頻的約10萬個話語，數據大部分是性別平衡的（男性佔55％）。名人跨越不同的口音，職業和年齡，開發和測試集之間沒有重疊。對於隔離和識別哪個超級巨星來說，這是一個有趣的用例。

大小： 150 MB

記錄數： 1,251位名人的100,000條話語。

SOTA：VoxCeleb：一個大型說話人識別數據集

數據集的問題實踐

23.Twitter情緒分析

仇恨以種族主義和性別歧視為形式的言論已成為麻煩，重要的是將這類推文與其他人分開。在這個實踐問題中，我們提供既有正常又有仇恨推文的Twitter數據。你作為數據科學家的任務是確定推文是仇恨推文，哪些不是。

大小： 3 MB。

記錄數量： 31,962條推文。

24.印度演員的年齡檢測

對於任何深度學習愛好者來說，這是一個令人著迷的挑戰。該數據集包含數千個印度演員的圖像，你的任務是確定他們的年齡。所有圖像都是手動選擇的，並從視頻幀中剪切，導致尺度，姿勢，表情，照度，年齡，解析度，遮擋和化妝的高度可變性。

大小： 48 MB（壓縮）。

記錄數：訓練集中的19,906幅圖像和測試集中的6636幅圖像。

SOTA：深入學習 - 解決年齡檢測問題

25.城市聲音分類

這個數據集包含超過8000個來自10個不同城市聲音摘錄。這個實踐問題旨在向你介紹常見分類方案中的音頻處理。

大小：訓練集 - 3 GB（壓縮），測試集 - 2 GB（壓縮）

記錄數： 來自10個城市的8732個聲音標註的聲音片段（<= 4s）

以上就是我們今天介紹的25個深度學習的開放數據集，如果你覺得有用，請及時轉發給你身邊的人！

本文由@阿里云云棲社區組織翻譯。

原文鏈接

文章原標題《25 Open Datasets for Deep Learning Every Data Scientist Must Work With》

作者：Pranav Dar

譯者：虎說八道審校：袁虎。

文章為簡譯，更為詳細的內容，請查看原文文章

更多技術乾貨敬請關注云棲社區知乎機構號：阿里云云棲社區 - 知乎