邁向職業的第一步:24個終極數據科學項目
來自專欄論智15 人贊了文章
來源:Analytics Vidhya
編譯:Bot
編者按:現如今,數據科學在全球範圍內被各大公司看重,由此產生的數據科學家也成了未來最有前景的工作崗位之一。對於想要走上這條職業道路的新人,除了高校內的日常學習,實踐優質數據科學項目也是一種很好的方法——我們不僅能通過應用學習知識,還能用項目豐富簡歷,幫助招聘人員評估自己的水平和潛力。
*本文最初發佈於2016年10月26日,並於2018年5月30日進行更新,新版本包含一些較新的數據集。如鏈接有誤,請留言指出,謝謝~
在閱讀本文前,可能你已經做過一些數據科學項目,解決了一些問題,但這些實踐真的能反映你本人的真實水平嗎?別人能從你的實踐中推敲出些什麼?
本文提供了24個來自不同領域的數據科學項目,如果屏幕前的你有志於學習巧妙地處理大數據,它們將使你受益匪淺,並讓你在回想付出的大把光陰時覺得物超所值。文中列明的所有數據集都是開放的,讀者可以自由訪問(未測試是否需要翻牆)。
為了方便不同基礎的讀者快速找到適合自己的項目,這裡我們把它們分成3類:
- 初級。該類所包含的數據集易於使用,而且不需要複雜的數據科學技術——換句話說,你幾乎可以用回歸和分類解決所有問題。此外,這些數據集已經有很多非常成熟的開放教程,本文會列出部分教程幫助初學者慢慢學習。
- 中級。這個類包含的數據集較上一類更具挑戰性,它由中大型數據集組成,需要實踐者具備一定的模式識別技巧。當然,如果你熟悉特徵工程(feature engineering),那它們的難度就大大降低了,因此這些項目適合嘗試機器學習。
- 高級。這個類適合已經熟練掌握神經網路、深度學習、推薦系統等高階知識的人。它提供高維數據集,命題更考驗實踐者的創造性。對數據科學家來說,他們的工作和代碼必須充滿創造力。
目錄
初級
- 鳶尾花卉數據集
- 貸款預測數據集
- 大型商場銷售數據
- 波士頓住房數據集
- 時間序列分析數據集
- 葡萄酒質量數據集
- 土耳其學生評估數據集
- 身高體重數據集
中級
- 「黑五」數據集
- 人類活動識別數據集
- 文本挖掘數據集
- 旅行歷史數據
- 百萬歌曲數據集
- 人口普查收入數據集
- 電影評分數據集
- twitter分類數據集
高級
- 數據識別數據集
- 城市聲音分類
- Vox名人數據集
- ImageNet數據集
- 芝加哥犯罪數據集
- 印度演員年齡檢測數據集
- 推薦引擎數據集
- VisualQA數據集
初級
1.鳶尾花卉數據集(Iris Data Set)
這可能是分類文獻中最常見、最簡單、資源最多的數據集。1936年,英國統計學家和生物學家Ronald Fisher在論文中首次整理出這個數據集,並用它來介紹線性判別式分析。時至今日,如果初學者要入門數據科學,鳶尾花卉數據集無疑是他們學習分類最好的起點。數據集很小,只有150個數據點和4個特徵。
問題:根據已知特徵預測鳶尾花的類別。
開始:獲取數據集 | 中文教程
2.貸款預測數據集(Loan Prediction Dataset)
在所有行業中,金融保險領域擁有數據分析和數據科學最大的應用場景,貸款預測也是很多初學者一開始接觸的問題。這個數據集是從保險公司處獲取的數據,包括面臨哪些挑戰、使用了哪些策略、哪些變數會影響結果等。它是一個分類法問題,數據集很小,只有615個數據點和13個特徵。
問題:預測申請貸款能否成果。
開始:獲取數據集 | 英文教程 | 中文進階
3.大型商場銷售數據(Bigmart Sales Data Set)
零售業會廣泛用數據分析優化業務流程,比如在商品擺放、庫存管理、定製報價、捆綁銷售中用到數據科學。顧名思義,這個數據集包含一個商場的交易記錄。它是一個回歸問題,數據集包含8523個數據點,共12個變數。
問題:預測商場銷售情況。
開始:獲取數據集 | 英文教程 | 中文教程
4.波士頓住房數據集(Boston Housing Data Set)
這是模式識別資料中又一常見的流行數據集。它包含美國人口普查局收集的有關波士頓馬薩諸塞州的住房信息,適合被用來做回歸問題。這個數據集非常小,只有506個數據點和14個特徵,在筆記本上也能實現。
問題:預測自住房房價的中位數。
開始:獲取數據集 | 中文教程
5.時間序列分析數據集(Time Series Analysis Dataset)
時間序列是數據科學中最常用的技術之一,它的應用非常廣泛,比如天氣預報、銷售預測、分析同比趨勢等。這個數據集是用時間序列為某一路段的交通情況建模。
問題:用交通模型預測交通情況。
開始:獲取數據集 | 英文教程 |中文競賽
6.葡萄酒質量數據集(Wine Quality Dataset)
這個數據集是最受初學者喜愛的數據集之一,它由兩部分組成,既可以分類,也可以回歸。同時,它考差了實踐者的基礎知識水平,會涉及異常值檢測、特徵選擇和不平衡數據等問題。數據點一共有4898個,特徵12個。
問題:預測葡萄酒品質。
開始:獲取數據集 | 論智教程【1】 | 論智教程【2】
7.土耳其學生評估數據集(Turkiye Student Evaluation Dataset)
這個數據集包含來自安卡拉(土耳其)Gazi大學的學生提供的總共5820個評估分數,有33個特徵,如出勤率和難度。這是一個無監督學習問題。
問題:用分類和聚類處理數據。
開始:獲取數據集 | 英文教程
8.身高體重數據集(Heights and Weights Dataset)
這是個很直接的回歸問題,數據集包含25,000個數據點和3個特徵(序號、身高、體重)。
問題:預測一個人的身高和體重。
開始:獲取數據集 | 英文教程
中級
1.「黑五」數據集(Black Friday Dataset)
這個數據集包含「黑色星期五」時美國零售商的銷售交易數據。這是一個經典數據集,通過它,實踐者可以加深自己對各種分析知識的掌握程度,並從多種購物行為中預測消費者的日常生活狀況。它常被用作回歸問題的數據來源,包含550,069個數據點和12個特徵。
問題:預測交易額。
開始:獲取數據集 | 英文教程
2.人類活動識別數據集(Human Activity Recognition Dataset)
這個數據集建立在30名受試者日常生活活動(ADL)的記錄基礎上,這些人都佩戴使用嵌入式慣性感測器的智能手機,年齡分布在19-48歲。同樣的,這是個多分類問題,數據集包含10,299個數據點和561個特徵,記錄的人類活動有六種:步行、上樓梯、下樓梯、坐、站、躺。
問題:預測人類的活動類別。
開始:獲取數據集 | 英文教程
3.文本挖掘數據集(Text Mining Dataset)
這個數據集最初來自2007年舉行的Siam文本挖掘競賽,數據包括航空安全報告,即描述某些航班曾發生的問題。它涉及多分類問題和高維數據,共有21,519個數據點和30,438個特徵。
問題:根據文檔的標籤對文檔進行分類
開始:獲取數據集| 英文教程
4.旅行歷史數據集(Trip History Dataset)
這個數據集由美國共享單車公司Capital Bikeshare貢獻,記錄了從2010年第四季度到現在的自行車行駛路線。這是一個分類問題,要求實踐者必須事先進行數據預處理(data munging),每個文件(按季度)包含7個特徵。
問題:預測用戶職業。
開始:獲取數據集 | 英文教程
5.百萬歌曲數據集(Million Song Dataset)
數據科學在娛樂行業也有用武之地。考慮到百萬是個令人害怕的數量級,下面地址的數據集只是原數據集的一個子集,由515,345個觀察值和90個變數組成。這是個回歸問題。
問題:預測歌曲的發行年份。
開始:獲取數據集 | 英文教程
6.人口普查收入數據集(Census Income Dataset)
現如今機器學習正被廣泛用於解決不平衡的問題,如癌症檢測,欺詐檢測等。這是一個非常經典的機器學習問題,能反應美國居民收入的基本情況,包含48,842個數據點和14個特徵向量。
問題:預測美國居民的收入水平。
開始:獲取數據集 | 英文教程 | 項目分析
7.電影評分數據集(Movie Lens Dataset)
如果實踐者想嘗試推薦系統,這個數據集會是個很好的練手材料,它也是數據科學行業中最受歡迎的數據集之一。它包含6000名用戶對4000部電影的100萬個評論,同樣的,這是一個子集。
問題:向用戶推薦新電影。
開始:獲取數據集 | 英文教程
8.twitter分類數據集(Twitter Classification Dataset)
使用Twitter數據已成為情感分析問題不可分割的一部分,如果實踐者想在這方面有所建樹,那麼這個數據集可以作為一個基礎嘗試。該數據集大小為3MB,包含31,962條推文。
問題:分類「仇恨」推文。
開始:獲取數據集 | GitHub教程
高級
1.數據識別數據集(Identify your Digits Dataset)
現在,自動數字識別受到廣泛關注,深度學習技術的成熟也使在圖像數據進行對象識別成為可能。該數據集允許實踐者研究、分析和識別圖像中的元素,這同樣也是人臉識別等其他識別系統的過程。數據集有28,000個28×28大小的圖像,總計31MB。
問題:識別圖像中的數字。
開始:獲取數據集地址:datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/
MNIST教程:github.com/argszero/tensorflow_cn/blob/master/tensorflow.org/tutorials/mnist/beginners/index.md
2.城市聲音分類(Urban Sound Classification)
這個數據集旨在讓實踐者熟悉分類場景中的音頻處理。
問題:從音頻中分類聲音類型。
開始:獲取數據集地址:datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
英文教程:www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/
3.Vox名人數據集(Vox Celebrity Dataset)
音頻處理正迅速成為深度學習的重要領域,因此這是另一個具有挑戰性的問題。這個數據集包含從YouTube視頻中截取的1,251位名人的100,000條話語,55%的發言者為男性,演講者涵蓋各種不同的種族、口音、職業和年齡。對語音識別愛好者來說,它是個有趣的例子。
問題:識別聲音所屬者。
開始:獲取數據集地址:www.robots.ox.ac.uk/~vgg/data/voxceleb/
英文教程:www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
4.ImageNet數據集
ImageNet提供了各種各樣的問題,包括對象檢測、定位和分類等,所有的圖像都是免費的。實踐者可以搜索任何類型的圖像並圍繞它構建項目。截至目前,它擁有超過1500萬張圖片,大小140GB。
問題:你自己想解決的問題。
開始:獲取數據集地址:image-net.org/download-imageurls
中文教程:blog.csdn.net/LK274857347/article/details/53514364
5.芝加哥犯罪數據集(Chicago Crime Dataset)
雖然大家都知道數據越多,模型性能越好,但大型公開數據集到現在仍是寥寥。這個數據集實踐者提供了在本地機器上處理大型數據集所需的機會,問題很簡單,重要的是處理大數據的經驗。它有6百萬個觀察值,是個多分類問題。
問題:預測犯罪類型。
開始:獲取數據集地址:data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2
英文教程:nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
6.印度演員年齡檢測數據集(Age Detection of Indian Actors Dataset)
雖然沒有范冰冰,但這個數據集包含數千張印度演員的圖像,所有圖像都是從視頻的每一幀中手動截取的,這意味著人物大小、姿勢、表情、明暗度、年齡、解析度、遮擋和化妝與否都是高度變化的。訓練集中有19,906個圖像,測試集中有6,636個圖像。
問題:預測演員的年齡。
開始:獲取數據集地址:datahack.analyticsvidhya.com/contest/practice-problem-age-detection/
英文教程:datahack.analyticsvidhya.com/contest/practice-problem-age-detection/
7.推薦引擎數據集(Recommendation Engine Dataset)
這是一項高級推薦系統挑戰。在這個實踐問題中,實踐者會得到程序員們提交的系統問題和解決方案,以及他們解決該特定問題所花費的時間。
問題:根據用戶當前狀態預測解決問題所需的時間。
開始:獲取數據集地址:datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/
8.VisualQA數據集
VisualQA是一個包含有關圖像的開放式問題的數據集。這些問題需要一部分計算機視覺知識,它有一個自動評估指標。數據集包含265,016張圖片,每張圖片3個問題,每個問題有10個真值答案。
問題:用深度學習回答有關圖像的開放式問題。
開始:獲取數據集地址:www.visualqa.org/
相關論文:arxiv.org/abs/1708.02711
小結
以上就是我們推薦的24個數據科學項目,如果你是初學者,請盡量從初級問題開始,盡量剋制住自己的好奇心,扎紮實實打好基礎,專註於逐步取得進步。
一旦你完成了2-3個任務,你就可以把文檔上傳到GitHub,並在簡歷中豐富自己的經歷。無論是國內還是國外,招聘人員在招技術人員時都會去看GitHub,這樣的記錄會讓你的水平更為可信。
推薦閱讀:
※2.4 一些常見的連續分布
※一篇文章搞懂什麼是聚類和PCA
※吳恩達新書《Machine Learning Yearning》中7個實用建議
※多目標追蹤-初步調研
※面向機器學習的特徵工程 六、降維:用 PCA 壓縮數據集