最好用的 AI 開源數據集(涵蓋計算機視覺、NLP、語音等 6 大類)
文按計算機視覺、自然語言處理、語音識別、地理空間數據等人工智慧的子領域分類,精心整理,每個數據集均附有下載鏈接,是做 AI 研究不容錯過資源。
今天,構造 AI 或機器學習系統比以往任何時候都更加容易。我們有許多開源的最前沿的工具,如 TesorFlow,Torch,Spark 等,也有 AWS、Google Cloud 以及其他雲服務提供商提供的大量計算力,這意味著你可以悠哉地一邊喝著咖啡一邊用 laptop 訓練模型。雖然不算人工智慧這列火車的車頭,但 AI 革命的幕後英雄是數據——得益於各大研究機構和企業的辛苦工作,我們有機會獲取大量有標籤和注釋的數據。這些研究機構和企業也認識到,數據的民主化是加速 AI 發展的一個必要步驟。然而,大多數包含機器學習或 AI 的產品都嚴重依賴非公開的專有數據集。因此,很難判定哪些公開數據集有用。
重要的是,在數據集上表現得性能良好並不能保證機器學習系統在真實的產品場景中表現良好。許多搞 AI 的人忘記了構建新 AI 解決方案或開發產品的最難的部分不是 AI 本身或者演算法,而是數據的收集和標記。標準數據集可以用於驗證模型,或作為構建更加定製化的解決方案的一個好的起點。
以下是我們精心收集的一些非常好的開放數據集,也是做 AI 研究不容錯過的數據集。
計算機視覺
- 【學術、經典、陳舊】MNIST:最常用的完整性檢查數據集,圖像大小為25x25的B&W手寫數字,但在 MNIST 上性能良好,並不意味著模型本身很好。
地址:MNIST in CSV
- 【經典、陳舊】CIFAR 10 & CIFAR 100:32x32的彩色圖像數據集,雖然已經不常用,但也可以用作完整性檢查。
地址:Computer Science~kriz/cifar.html
- 【有用、學術、經典】ImageNet:新演算法實際上使用的圖像數據集,很多圖像 API 公司從其 REST 介面獲取標籤,這些標籤被懷疑與 ImageNet 的下一級 WordNet 的 1000 個類很相似。
地址:ImageNet
- LSUN:用於場景理解和多任務輔助(房間布局估計,顯著性預測等)。
地址:Large-scale Scene Understanding Challenge
- 【學術】PASCAL VOC:一個通用的圖像分割/分類數據集,對構建真實圖像的注釋用處不是特別大,但對於基線很有用。
地址:The PASCAL Visual Object Classes Homepage
- 【學術】SVHN:數據來源於 Google 街景視圖中的房屋數量,可以用作野外的周期性 MNIST。
地址:The Street View House Numbers (SVHN) Dataset
- MS COCO:一個通用的圖像理解/字幕數據集。
地址:Common Objects in Context
- 【有用】Visual Genome:非常詳細的視覺知識數據集,包含約100K圖像的深字母。
地址:VisualGenome
- 【有用、學術、經典、陳舊】Labeled Faces in the Wild:使用名稱標識符標記的面部區域數據集,常用於訓練面部識別系統。
地址:LFW Face Database : Main
自然語言處理
- 【有用、學術】Text Classification Datasets:一個文本分類數據集,包含8個可用於文本分類的子數據集,樣本大小從120K到3.6M,問題範圍從2級到14級,數據來源於 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
地址:http://t.cn/RJDVxr4
- 【有用、學術】WikiText:由 Salesforce MetaMind 設計的大型語言建模語料庫,來源於維基百科文章。
地址:Sina Visitor System
- 【有用】Question Pairs:第一個來源於 Quora 的包含重複/語義相似性標籤的數據集。
地址:First Quora Dataset Release: Question Pairs
- 【有用、學術】SQuAD:斯坦福大學的問答數據集,廣泛用於問題回答和閱讀理解,其中每個問題和答案都是文本片段的形式。
地址:https://rajpurkar.github.io/SQuAD-explorer/
- CMU Q/A Dataset:人工生成的問題/答案對,難度評級來自維基百科文章。
地址:Carnegie Mellon School of Computer Science~ark/QA-data/
- 【有用】Maluuba Datasets:用於狀態性的自然語言理解研究的人工製作的精細數據集。
地址:Datasets - Maluuba
- 【有用、學術】Billion Words:一個大型、通用的語言建模數據集,常用於如 word2vec 或 Glove 的分散式詞語表徵。
地址:1 Billion Word Language Model Benchmark
- 【有用、學術】Common Crawl:Petabyte 級規模的網路爬行數據集,常用於學習詞嵌入。
地址:Want to use our data?
- 【學術、經典】bAbi:來自 FAIR 的閱讀理解和問答應答數據集。
地址:https://research.fb.com/projects/babi/
- 【學術】The Children』s Book Test:從古登堡計劃的童書中提取的(問題+上下文,答案)的基線,該數據集對問題回答、閱讀理解和模擬陳述有用。
地址:https://research.fb.com/projects/babi/
- 【學術、經典、陳舊】Stanford Sentiment Treebank:一個標準情感數據集,數據集中每個句子解析樹的每個節點都有精細的情感注釋。
地址:Deeply Moving: Deep Learning for Sentiment Analysis
- 【經典、陳舊】20 Newsgroups:一個文本分類的經典數據集,通常用於純分類或作為任何 IR/索引演算法的基準。
地址:Apache2 Ubuntu Default Page: It works~jason/20Newsgroups/
- 【經典、陳舊】Reuters:一個較舊,完全基於分類的新聞文本數據集,常用於教程。
地址:Reuters-21578 Text Categorization Collection Data Set
- 【經典、陳舊】IMDB:一個比較舊,規模也相對較小的二院情感分類數據集。
地址:Stanford Artificial Intelligence Laboratory |~amaas/data/sentiment/
- 【經典、陳舊】UCI』s Spambase:這是一個年代較久遠的、經典的垃圾電子郵件數據集,來源是著名的 UCI 機器學習庫。由於該數據集在設計細節上的獨特之處,可以用作學習個性化垃圾郵件過濾的一個有趣的基線。
地址:Spambase Data Set
語音
大多數語音識別數據集是專有的,因為這些數據對於創建該數據集的公司來說具有很大價值。因此,這部分的可用公開數據集多數比較陳舊。
- 【學術、陳舊】2000 HUB5 English:僅包含英語的語音數據集,百度最近的論文《深度語音:擴展端對端語音識別》使用的是這個數據集。
地址:2000 HUB5 English Evaluation Transcripts
- 【學術】LibriSpeech:包含文本和語音的有聲讀物數據集,由近500小時的多人朗讀的清晰音頻組成,且包含書籍的章節結構。
地址:openslr.org
- 【有用、學術】VoxForge:帶口音的語音清潔數據集,對測試模型在不同重音或語調下的魯棒性非常有用。
地址:Free Speech... Recognition (Linux, Windows and Mac)
- 【學術、經典、陳舊】TIMIT:英文語音識別數據集。
地址:TIMIT Acoustic-Phonetic Continuous Speech Corpus
- 【有用】CHIME:包含環境噪音的語音識別挑戰賽數據集。該數據集包含真實、模擬和清潔的語音錄音,具體來說,包括4個揚聲器在4個有噪音環境下進行的將近9000次錄音,模擬數據是將多個環境組合及在無噪音環境下記錄的數據。
地址:The 4th CHiME Speech Separation and Recognition Challenge
- TED-LIUM:TED Talk 的音頻數據集,包含1495個TED演講的錄音及全文的文字稿。
地址:Laboratoire dInformatique de lUniversité du Maine
推薦和排序系統
- 【經典、陳舊】Netflix Challenge:第一個主要的 Kaggle 挑戰賽數據集,但由於隱私問題,只有非正式的數據集提供。
地址:Netflix Prize: Home
- 【有用、學術、經典】MovieLens:多種大小的電影評論數據,通常用於基線協同過濾。
地址:MovieLens
- Million Song Dataset:Kaggle 上的大型、元數據豐富的開源數據集,對混合推薦系統有用。
地址:Million Song Dataset Challenge
- 【有用】Last.fm:可訪問底層社交網路及其他元數據的音樂推薦數據集,這些元數據對混合系統很有用。
地址:HetRec 2011
網路和圖表
- 【學術】Amazon Co-Purchasing and Amazon Reviews:亞馬遜網站的「買了該產品的用戶也買了......」板塊的數據,以及相關產品的亞馬遜評論數據。適合用於推薦系統。
地址:Amazon co-purchasing network metadata
- Friendster Social Network Dataset:包含103,750,348個 Friendster 用戶的好友列表的匿名數據集。
地址:https://archive.org/details/friendster-dataset-201107
地理空間數據
- 【有用、經典】OpenStreetMap:免費許可的全球矢量數據集,包含美國人口普查局的 TIGER數據。
地址:Planet.osm - OpenStreetMap Wiki
- 【有用】Landsat8:衛星拍攝的地球表面照片數據,每隔幾周更新一次。
地址:Landsat 8 | Landsat Missions
- 【有用】NEXRAD:多普勒雷達掃描的美國大氣環境數據。
地址:National Climatic Data Center
結語:
人們常常以為在一個數據集上解決了問題就等同於得到好的產品了。但在使用這些數據集作為驗證或概念證明時,不要忘記用更新、更接近現實的數據來測試產品的功能,從而能夠作出改進。一個成功的以數據作為驅動力的企業通常能夠從他們收集新的、專有的數據的能力中獲益,進而提升競爭力。
------------------
作者: 新智元
公眾號: 新智元
出處:【資源】最好用的 AI 開源數據集 Top 39:計算機視覺、NLP、語音等 6 大類
大家也可以加小編微信:tszhihu (備註:Python),拉大家到 Python愛好者社區 微信群,可以跟各位老師互相交流。謝謝。第一時間獲取視頻更新動態。
推薦閱讀:
※Batch normalization和Instance normalization的對比?
※有哪些好看的CNN模型畫法?
※如何比較PixelCNN與DCGAN兩種Image generation方法?
※[DL-架構-ResNet系] 007 SENet
※從編程實現角度學習Faster R-CNN(附極簡實現)