邁向職業的第一步:24個終極數據科學項目

邁向職業的第一步:24個終極數據科學項目

來自專欄論智15 人贊了文章

來源:Analytics Vidhya

編譯:Bot

編者按:現如今,數據科學在全球範圍內被各大公司看重,由此產生的數據科學家也成了未來最有前景的工作崗位之一。對於想要走上這條職業道路的新人,除了高校內的日常學習,實踐優質數據科學項目也是一種很好的方法——我們不僅能通過應用學習知識,還能用項目豐富簡歷,幫助招聘人員評估自己的水平和潛力。

*本文最初發佈於2016年10月26日,並於2018年5月30日進行更新,新版本包含一些較新的數據集。如鏈接有誤,請留言指出,謝謝~

在閱讀本文前,可能你已經做過一些數據科學項目,解決了一些問題,但這些實踐真的能反映你本人的真實水平嗎?別人能從你的實踐中推敲出些什麼?

本文提供了24個來自不同領域的數據科學項目,如果屏幕前的你有志於學習巧妙地處理大數據,它們將使你受益匪淺,並讓你在回想付出的大把光陰時覺得物超所值。文中列明的所有數據集都是開放的,讀者可以自由訪問(未測試是否需要翻牆)。

為了方便不同基礎的讀者快速找到適合自己的項目,這裡我們把它們分成3類:

  1. 初級。該類所包含的數據集易於使用,而且不需要複雜的數據科學技術——換句話說,你幾乎可以用回歸和分類解決所有問題。此外,這些數據集已經有很多非常成熟的開放教程,本文會列出部分教程幫助初學者慢慢學習。
  2. 中級。這個類包含的數據集較上一類更具挑戰性,它由中大型數據集組成,需要實踐者具備一定的模式識別技巧。當然,如果你熟悉特徵工程(feature engineering),那它們的難度就大大降低了,因此這些項目適合嘗試機器學習。
  3. 高級。這個類適合已經熟練掌握神經網路、深度學習、推薦系統等高階知識的人。它提供高維數據集,命題更考驗實踐者的創造性。對數據科學家來說,他們的工作和代碼必須充滿創造力。

目錄

初級

  1. 鳶尾花卉數據集
  2. 貸款預測數據集
  3. 大型商場銷售數據
  4. 波士頓住房數據集
  5. 時間序列分析數據集
  6. 葡萄酒質量數據集
  7. 土耳其學生評估數據集
  8. 身高體重數據集

中級

  1. 「黑五」數據集
  2. 人類活動識別數據集
  3. 文本挖掘數據集
  4. 旅行歷史數據
  5. 百萬歌曲數據集
  6. 人口普查收入數據集
  7. 電影評分數據集
  8. twitter分類數據集

高級

  1. 數據識別數據集
  2. 城市聲音分類
  3. Vox名人數據集
  4. ImageNet數據集
  5. 芝加哥犯罪數據集
  6. 印度演員年齡檢測數據集
  7. 推薦引擎數據集
  8. VisualQA數據集

初級

1.鳶尾花卉數據集(Iris Data Set)

這可能是分類文獻中最常見、最簡單、資源最多的數據集。1936年,英國統計學家和生物學家Ronald Fisher在論文中首次整理出這個數據集,並用它來介紹線性判別式分析。時至今日,如果初學者要入門數據科學,鳶尾花卉數據集無疑是他們學習分類最好的起點。數據集很小,只有150個數據點和4個特徵。

問題:根據已知特徵預測鳶尾花的類別。

開始:獲取數據集 | 中文教程

2.貸款預測數據集(Loan Prediction Dataset)

在所有行業中,金融保險領域擁有數據分析和數據科學最大的應用場景,貸款預測也是很多初學者一開始接觸的問題。這個數據集是從保險公司處獲取的數據,包括面臨哪些挑戰、使用了哪些策略、哪些變數會影響結果等。它是一個分類法問題,數據集很小,只有615個數據點和13個特徵。

問題:預測申請貸款能否成果。

開始:獲取數據集 | 英文教程 | 中文進階

3.大型商場銷售數據(Bigmart Sales Data Set)

零售業會廣泛用數據分析優化業務流程,比如在商品擺放、庫存管理、定製報價、捆綁銷售中用到數據科學。顧名思義,這個數據集包含一個商場的交易記錄。它是一個回歸問題,數據集包含8523個數據點,共12個變數。

問題:預測商場銷售情況。

開始:獲取數據集 | 英文教程 | 中文教程

4.波士頓住房數據集(Boston Housing Data Set)

這是模式識別資料中又一常見的流行數據集。它包含美國人口普查局收集的有關波士頓馬薩諸塞州的住房信息,適合被用來做回歸問題。這個數據集非常小,只有506個數據點和14個特徵,在筆記本上也能實現。

問題:預測自住房房價的中位數。

開始:獲取數據集 | 中文教程

5.時間序列分析數據集(Time Series Analysis Dataset)

時間序列是數據科學中最常用的技術之一,它的應用非常廣泛,比如天氣預報、銷售預測、分析同比趨勢等。這個數據集是用時間序列為某一路段的交通情況建模。

問題:用交通模型預測交通情況。

開始:獲取數據集 | 英文教程 |中文競賽

6.葡萄酒質量數據集(Wine Quality Dataset)

這個數據集是最受初學者喜愛的數據集之一,它由兩部分組成,既可以分類,也可以回歸。同時,它考差了實踐者的基礎知識水平,會涉及異常值檢測、特徵選擇和不平衡數據等問題。數據點一共有4898個,特徵12個。

問題:預測葡萄酒品質。

開始:獲取數據集 | 論智教程【1】 | 論智教程【2】

7.土耳其學生評估數據集(Turkiye Student Evaluation Dataset)

這個數據集包含來自安卡拉(土耳其)Gazi大學的學生提供的總共5820個評估分數,有33個特徵,如出勤率和難度。這是一個無監督學習問題。

問題:用分類和聚類處理數據。

開始:獲取數據集 | 英文教程

8.身高體重數據集(Heights and Weights Dataset)

這是個很直接的回歸問題,數據集包含25,000個數據點和3個特徵(序號、身高、體重)。

問題:預測一個人的身高和體重。

開始:獲取數據集 | 英文教程

中級

1.「黑五」數據集(Black Friday Dataset)

這個數據集包含「黑色星期五」時美國零售商的銷售交易數據。這是一個經典數據集,通過它,實踐者可以加深自己對各種分析知識的掌握程度,並從多種購物行為中預測消費者的日常生活狀況。它常被用作回歸問題的數據來源,包含550,069個數據點和12個特徵。

問題:預測交易額。

開始:獲取數據集 | 英文教程

2.人類活動識別數據集(Human Activity Recognition Dataset)

這個數據集建立在30名受試者日常生活活動(ADL)的記錄基礎上,這些人都佩戴使用嵌入式慣性感測器的智能手機,年齡分布在19-48歲。同樣的,這是個多分類問題,數據集包含10,299個數據點和561個特徵,記錄的人類活動有六種:步行、上樓梯、下樓梯、坐、站、躺。

問題:預測人類的活動類別。

開始:獲取數據集 | 英文教程

3.文本挖掘數據集(Text Mining Dataset)

這個數據集最初來自2007年舉行的Siam文本挖掘競賽,數據包括航空安全報告,即描述某些航班曾發生的問題。它涉及多分類問題和高維數據,共有21,519個數據點和30,438個特徵。

問題:根據文檔的標籤對文檔進行分類

開始:獲取數據集| 英文教程

4.旅行歷史數據集(Trip History Dataset)

這個數據集由美國共享單車公司Capital Bikeshare貢獻,記錄了從2010年第四季度到現在的自行車行駛路線。這是一個分類問題,要求實踐者必須事先進行數據預處理(data munging),每個文件(按季度)包含7個特徵。

問題:預測用戶職業。

開始:獲取數據集 | 英文教程

5.百萬歌曲數據集(Million Song Dataset)

數據科學在娛樂行業也有用武之地。考慮到百萬是個令人害怕的數量級,下面地址的數據集只是原數據集的一個子集,由515,345個觀察值和90個變數組成。這是個回歸問題。

問題:預測歌曲的發行年份。

開始:獲取數據集 | 英文教程

6.人口普查收入數據集(Census Income Dataset)

現如今機器學習正被廣泛用於解決不平衡的問題,如癌症檢測,欺詐檢測等。這是一個非常經典的機器學習問題,能反應美國居民收入的基本情況,包含48,842個數據點和14個特徵向量。

問題:預測美國居民的收入水平。

開始:獲取數據集 | 英文教程 | 項目分析

7.電影評分數據集(Movie Lens Dataset)

如果實踐者想嘗試推薦系統,這個數據集會是個很好的練手材料,它也是數據科學行業中最受歡迎的數據集之一。它包含6000名用戶對4000部電影的100萬個評論,同樣的,這是一個子集。

問題:向用戶推薦新電影。

開始:獲取數據集 | 英文教程

8.twitter分類數據集(Twitter Classification Dataset)

使用Twitter數據已成為情感分析問題不可分割的一部分,如果實踐者想在這方面有所建樹,那麼這個數據集可以作為一個基礎嘗試。該數據集大小為3MB,包含31,962條推文。

問題:分類「仇恨」推文。

開始:獲取數據集 | GitHub教程

高級

1.數據識別數據集(Identify your Digits Dataset)

現在,自動數字識別受到廣泛關注,深度學習技術的成熟也使在圖像數據進行對象識別成為可能。該數據集允許實踐者研究、分析和識別圖像中的元素,這同樣也是人臉識別等其他識別系統的過程。數據集有28,000個28×28大小的圖像,總計31MB。

問題:識別圖像中的數字。

開始:獲取數據集地址:datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

MNIST教程:github.com/argszero/tensorflow_cn/blob/master/tensorflow.org/tutorials/mnist/beginners/index.md

2.城市聲音分類(Urban Sound Classification)

這個數據集旨在讓實踐者熟悉分類場景中的音頻處理。

問題:從音頻中分類聲音類型。

開始:獲取數據集地址:datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

英文教程:www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

3.Vox名人數據集(Vox Celebrity Dataset)

音頻處理正迅速成為深度學習的重要領域,因此這是另一個具有挑戰性的問題。這個數據集包含從YouTube視頻中截取的1,251位名人的100,000條話語,55%的發言者為男性,演講者涵蓋各種不同的種族、口音、職業和年齡。對語音識別愛好者來說,它是個有趣的例子。

問題:識別聲音所屬者。

開始:獲取數據集地址:www.robots.ox.ac.uk/~vgg/data/voxceleb/

英文教程:www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf

4.ImageNet數據集

ImageNet提供了各種各樣的問題,包括對象檢測、定位和分類等,所有的圖像都是免費的。實踐者可以搜索任何類型的圖像並圍繞它構建項目。截至目前,它擁有超過1500萬張圖片,大小140GB。

問題:你自己想解決的問題。

開始:獲取數據集地址:image-net.org/download-imageurls

中文教程:blog.csdn.net/LK274857347/article/details/53514364

5.芝加哥犯罪數據集(Chicago Crime Dataset)

雖然大家都知道數據越多,模型性能越好,但大型公開數據集到現在仍是寥寥。這個數據集實踐者提供了在本地機器上處理大型數據集所需的機會,問題很簡單,重要的是處理大數據的經驗。它有6百萬個觀察值,是個多分類問題。

問題:預測犯罪類型。

開始:獲取數據集地址:data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2

英文教程:nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf

6.印度演員年齡檢測數據集(Age Detection of Indian Actors Dataset)

雖然沒有范冰冰,但這個數據集包含數千張印度演員的圖像,所有圖像都是從視頻的每一幀中手動截取的,這意味著人物大小、姿勢、表情、明暗度、年齡、解析度、遮擋和化妝與否都是高度變化的。訓練集中有19,906個圖像,測試集中有6,636個圖像。

問題:預測演員的年齡。

開始:獲取數據集地址:datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

英文教程:datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

7.推薦引擎數據集(Recommendation Engine Dataset)

這是一項高級推薦系統挑戰。在這個實踐問題中,實踐者會得到程序員們提交的系統問題和解決方案,以及他們解決該特定問題所花費的時間。

問題:根據用戶當前狀態預測解決問題所需的時間。

開始:獲取數據集地址:datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/

8.VisualQA數據集

VisualQA是一個包含有關圖像的開放式問題的數據集。這些問題需要一部分計算機視覺知識,它有一個自動評估指標。數據集包含265,016張圖片,每張圖片3個問題,每個問題有10個真值答案。

問題:用深度學習回答有關圖像的開放式問題。

開始:獲取數據集地址:www.visualqa.org/

相關論文:arxiv.org/abs/1708.02711

小結

以上就是我們推薦的24個數據科學項目,如果你是初學者,請盡量從初級問題開始,盡量剋制住自己的好奇心,扎紮實實打好基礎,專註於逐步取得進步。

一旦你完成了2-3個任務,你就可以把文檔上傳到GitHub,並在簡歷中豐富自己的經歷。無論是國內還是國外,招聘人員在招技術人員時都會去看GitHub,這樣的記錄會讓你的水平更為可信。


推薦閱讀:

2.4 一些常見的連續分布
一篇文章搞懂什麼是聚類和PCA
吳恩達新書《Machine Learning Yearning》中7個實用建議
多目標追蹤-初步調研
面向機器學習的特徵工程 六、降維:用 PCA 壓縮數據集

TAG:數據科學 | 數據分析 | 機器學習 |