24個終極數據科學項目(可免費獲取資源)

24個終極數據科學項目(可免費獲取資源)

來自專欄我是程序員

摘要:本文精選了24個數據科學項目,並囊括了各個領域和各種不同大小的數據集。另外,所有的數據集都是開源、可免費獲取的。

數據科學項目為你在這個領域的深入研究提供了一個基礎。通過實際應用,你不僅可以學習數據科學,也能夠寫在簡歷中提升你的資歷。在這上邊花費的時間越多,你學到的知識就越多。

本文精選了24個數據科學項目,並囊括了各個領域和各種不同大小的數據集。另外,所有的數據集都是開源、可免費獲取的。

初級——這部分的數據集很容易處理,使用基礎的回歸/分類演算法就可以處理這些數據集。並且,這些數據集有足夠的教程供你學習。

中級——略微有點難度。包含了需要使用有點難度的模式識別技能來處理的大中型數據集。另外,特徵工程在這裡可以發揮作用了。

高級——包括神經網路、深度學習、推薦系統及高維數據等。

初級

1.Iris Data數據集(花的類別識別)

Iris Data Set可能是模式識別領域學習分類技術最基本入門級的數據集,適合初學者。該數據集裡面包含了150行4列個數據。

問題: 根據已有特徵預測花的類別。

資源:數據集 | 教程

2.Loan Prediction 數據集(貸款預測)

它是保險領域最常引用的一個數據集。利用這個數據集,你可以充分體驗到如何處理保險公司的數據,包括會遇到哪些挑戰、需要什麼策略、哪些變數會影響結果等。這是一個分類問題,數據集包含615行13列個數據。

問題: 預測一個貸款是否能夠被批准。

資源:href="datahack.analyticsvidhya.com">數據集 | 教程

3. Bigmart Sales 數據集(零售業銷售)

零售業是另一個充分利用數據分析優化商業流程的行業。我們可以利用數據科學對商品的放置、庫存管理、定製供應、商品捆綁等任務進行巧妙的處理。該數據集包含了商店的交易數據,是一個回歸問題,共包含8523行12列個數據。

問題:預測銷量。

資源:數據集 | 教程

4.Boston Housing 數據集(波士頓房屋)

這是另一個模式識別領域較為常見的數據集,來自於波士頓的房地產業,是一個回歸問題,數據集有506行14列個數據。這個數據集並不大,你可以嘗試使用任何技術,而不用擔心筆記本的內存不夠。

問題:預測業主擁有房屋數量的中間值。

資源:數據集 | 教程

5. Time Series Analysis數據集(時間序列分析)

時間序列是數據科學中最常用的技術之一,具有廣泛的應用:預測天氣預報、預測銷售額、分析逐年趨勢等。該數據集特定於時間序列,這裡面臨的挑戰是預測交通方式。

問題:預測新的交通工具的交通。

資源:數據集 | 教程

6. Wine Quality數據集(酒質量)

這是初學者最常用的數據集之一,分成了2個數據集。在這個數據集上可以同時執行回歸和分類任務——異常值檢測、特徵選擇和不平衡數據。該數據集有4898行和12列個數據。

問題:預測酒的質量。

資源:數據集 | 教程

7.Turkiye Student Evaluation 數據集(學生課程評估)

該數據集基於學生填寫不同課程的評估表,擁有不同的屬性,包括出勤率、難度、分數等,是一個無監督學習問題。該數據集有5820行33列個數據。

問題:使用分類和聚類解決問題。

資源:數據集 | 教程

8.Heights and Weights 數據集(身高體重預測)

這是一個相當直接的回歸問題,非常適合新手。該數據集有25,000行3列(索引、高度和權重)個數據。

問題:預測一個人的身高或體重。

資源:數據集 | 教程

中級

1. Black Friday數據集(黑色星期五)

這是一個包含零售商店記錄的銷售交易的經典數據集,可以擴展特徵工程的技能,並從每天的購物經驗中對其進行理解,是一個回歸問題。該數據集有550,069行12列個數據。

問題:預測購買力。

教程:數據集 | 教程

2. Human Activity Recognition 數據集(人類活動識別)

該數據集通過帶有嵌入式慣性感測器的智能手收集了30個實驗者的記錄,可用於分類問題。數據集有10,299行561列個數據。

問題:預測人類活動的類別。

資源:數據集 | 教程

3. Text Mining數據集(文本挖掘)

該數據集最初來自於2007年Siam文本挖掘競賽,包括描述某些發生故障的航班的航空安全報告,是一個多分類和高維度問題。該數據集有21,519行30,438列個數據。

問題:根據文本標籤對文本進行分類。

資源:數據集 | 教程

4. Trip History數據集(旅行歷史)

此數據集來自美國的共享自行車服務。該數據集需要使用專業的數據處理技術,該數據集種的數據是從2010年第四季度開始按季度記錄的。每個文件有7列是一個分類問題。

問題:預測用戶的類別。

資源:數據集 | 教程

5. Million Song數據集(預測歌曲發行時間)

你知道數據科學現在也用於娛樂行業嗎?這個數據集提出了一個回歸任務,由515,345個觀察值和90個變數組成。但是,這僅僅是原始資料庫(約一百萬首歌曲)中的一小部分。

問題:預測歌曲的發行時間。

資源:數據集 | 教程

6.Census Income數據集(預測人口收入)

這是一個經典的不平衡分類機器學習問題。現在,機器學習廣泛應用於正被廣泛用於解決不平衡問題,如癌症檢測、欺詐檢測等。該數據集有48,842行14列個數據。

問題:預測美國人的收入水平。

資源:數據集 | 教程

7. Movie Lens數據集(電影推薦系統)

用於構建推薦系統,該數據集是數據科學行業中最受歡迎的「數據集」之一,有不同大小的數據集。這裡有一個較小的數據集,包含4,000部電影,6000個用戶的100萬個收視率。

問題:為用戶推薦電影。

資源:數據集 | 教程

8. Twitter Classification數據集(預測推文)

Twitter數據已成為情感分析不可分割的一部分。該數據集大小為3MB,包含31,962條推文。

問題:預測哪些推文是令人討厭的,哪些不是。

資源:數據集 | 教程

高級

1.識別數字的數據集

用於研究、分析和識別圖像中的元素,這就是使用相機識別面部的技術,屬於數字識別問題。該數據集有28,000個28*28大小的圖像,總計31MB。

問題:從圖像中識別數字。

資源:數據集 | 教程

2.城市聲音分類

該項目旨在介紹常用的音頻分類問題。該數據集由10個類別(包含來自8,732個城市聲音的記錄)組成。

問題:對音頻進行分類。

資源:數據集 | 教程

3. Vox名人數據集

音頻處理正迅速成為深度學習的重要領域,因此這是另一個具有挑戰性的問題。此數據集收集了大型演講者的演講,並從YouTube中提取的名人的講話。對於語音識別來說,這是一個很有趣的項目。該數據集包含1,251位名人發表的100,000條言論。

問題:找出聲音屬於哪個名人。

資源:數據集 | 教程

4. ImageNet數據集

ImageNet提供了各種各樣的問題,包括對象檢測、定位、分類和屏幕分析。 所有的圖像都是免費的,你可以搜索任何類型的圖像來構建項目。截至目前,該數據集擁有超過1500萬張圖片,大小超過140GB。

問題:要解決的問題會受下載圖像的類型影響。

資源:數據集 | 教程

5.芝加哥犯罪數據集

現在,每個數據科學家都希望能夠處理大型數據集,是一個多分類問題。該數據集在本地提供了處理大型數據集所需的實踐經驗。問題很簡單,但數據管理是關鍵!這個數據集有6,000,000個觀測值。

問題:預測犯罪類型。

資源:數據集 | 教程

6.印度演員年齡檢測

對於任何深度學習愛好者來說,這是一個令人著迷的挑戰。該數據集包含數千個印度演員的圖像,用來預測其年齡。所有圖像都是人工手動從視頻幀中選取的,這就導致了尺度、姿勢、表情、照明、年齡、解析度、遮擋和化妝等的高度可變性。訓練集中有19,906幅圖像,測試集中有6,636幅圖像。

問題:預測演員的年齡。

資源:數據集 | 教程

7.推薦引擎數據集

這是一項高級推薦系統挑戰賽。在這個項目中,你會得到以前解決的程序和數據,以及解決特定問題的時間。作為一名數據科學家,你構建的模型將協助在線評委決定向用戶推薦的下一級問題。

問題:根據用戶的當前狀態,預測解決問題所需要的時間。

資源:資料庫

8. VisualQA數據集

VisualQA是一個包含圖像的開放式問題數據集。這些問題需要理解計算機視覺和語言,這些問題有一個自動評估指標。數據集包含265,016張圖片,每張圖片3個問題,且每個問題有10個標記好的答案。

問題:使用深度學習回答有關圖像的開放式問題。

資源:數據集 | 教程

總結

在上面列出的24個數據集中,你應該首先找到與自身技能相匹配的數據集進行實踐和練習。比如說,假如你是一位初學者,請先從初級數據集開始實踐,而不是直接從高級數據集開始練習。

以上為譯文。由阿里云云棲社區組織翻譯。

譯文鏈接

文章原標題《24 Ultimate Data Science Projects To Boost Your Knowledge and Skills (& can be accessed freely)》

譯者:Mags,審校:袁虎。

文章為簡譯,更為詳細的內容,請查看原文

更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎

本文為雲棲社區原創內容,未經允許不得轉載。


推薦閱讀:

你真的了解人工智慧嗎?——聊聊AI的碰壁和冬天
中國目前取得了較大的成就,面向未來,我們該怎麼做?
想像一下未來的我們在吃什麼?這裡有一本書會告訴你
如果發明了時光機,可能改變過去的事嗎?
盤點2017中國互聯網界十大事件|下篇

TAG:數據挖掘 | 科技 | 數據科學 |