【譯Py】2018年,這5個數據科學項目能幫你找到工作

【譯Py】2018年,這5個數據科學項目能幫你找到工作

來自專欄大數據分析挖掘34 人贊了文章

作者:呆鳥 Python愛好者社區專欄作者,未經容許,禁止轉載

簡書專欄:jianshu.com/u/be48b04ec

堅持學習Python和English兩門語言,致力於讓讀譯文就像讀中文的呆鳥

標籤:數據預處理、數據科學、數據可視化、招聘、Jupyter、機器學習

原文作者:John Sullivan,數據科學博客DataOptimal的創始人,可以通過 @DataOptimal在Twitter上與他聯繫。

原文地址:5 Data Science Projects That Will Get You Hired in 2018

看了不少天善智能[1]的視頻課,讀了一堆數據科學的書,下一步你打算怎麼辦

找個數據科學的工作不容易,不過我有個好主意能幫你找工作,這就是打造你自己的作品集,利用作品集展示你學到的技能,讓未來的老闆知道你有多大本事。

你可以把這5個數據科學項目放到作品集里,以此說明自己的能力:

  1. 數據清洗

數據科學家往往要耗費高達80%的時間來清理新項目的數據,這是數據科學團隊最大的痛點。如果能告訴他們你擁有豐富的數據清理經驗,你的價值馬上就能體現出來了。現在,找一些需要清理的數據集,創建一個數據清洗項目,開始數據清理吧。

Data Cleaning

用Python的話,Pandas絕對是首選,如果用的是R,可以使用dplyr這個包。記得要表現出以下幾項技能:

  • 導入數據;
  • 合併多個數據集;
  • 檢測缺失值;
  • 檢測異常值;
  • 插入缺失值;
  • 數據質量驗證。
  1. 探索性數據分析

數據科學的另一項重要工作是探索性數據分析(EDA,Exploratory Data Analysis ),它是提出問題、使用可視化方法研究問題的過程。探索性數據分析可以讓分析師通過數據得出結論,進而影響業務決策。這項工作可以是通過客戶細分得出洞察結果,也可以是分析季節因素對銷售趨勢的影響。一般來說,探索性數據分析會帶來一些讓人意想不到的發現。

鍵冬同學的PyEcharts-柱形圖

鍵冬同學的PyEcharts-地圖

鍵冬同學的PyEcharts-詞雲圖

Python用戶可以使用Pandas和Matplotlib(譯註:強烈推薦國內用戶使用鍵冬同學的PyEcharts,互動式的可視化圖,非常好用!)這兩個庫進行探索性數據分析。R用戶可以使用ggplot2這個包,也非常實用。探索性數據分析這個項目要展示出如下幾方面的技能:

  • 能夠提出探索性的問題;
  • 能夠識別趨勢;
  • 能夠識別變數的共變性(covariation);
  • 能夠使用可視化(散點圖、直方圖,箱須圖等)有效地溝通分析結果。
  1. 互動式數據可視化

互動式數據可視化包括使用Dashboard這樣的工具。數據科學團隊和終端業務用戶都喜歡使用這些工具。數據科學團隊可以使用Dashboard進行協作,一起開展數據分析工作。更重要的是,Dashboard為終端業務用戶提供了互動式的工具,讓他們把精力放在戰略目標上,而不用關注過多的技術細節。很多時候,數據科學團隊提交給用戶的可交付成果都是以Dashboard這種形式體現的。

Python用戶可以使用Bokeh和Plotly,這兩個庫都是編製Dashboard的利器。R用戶則必選RStudio的Shiny包。Dashboard的項目一定要突出以下這些重要的技能。

  • 列出客戶需求相關的指標;
  • 提取有用的特徵;
  • 使用有邏輯的布局,比如易於瀏覽的「F模式」;
  • 創建最優的刷新率;
  • 生成報告或其它自動化的操作。
  1. 機器學習

機器學習項目是你的作品集里另一項非常重要的內容。在你關掉這篇文章,開始構建深度學習項目前,不要著急,咱們先花一分鐘的時間回顧點兒基礎概念,就算要建立一個特別複雜的機器學習模型,也得先從基礎做起。我建議從線性回歸邏輯斯蒂回歸做起,和高管溝通時,解釋這些模型也會相對容易一點。這個項目的重點應該是突出項目對業務的影響,比如客戶流失、欺詐監測,或貸款拖欠這些內容。提醒一下,別再用預測鳶尾花類型這樣的例子了,最好找些實用的數據項目。

Python用戶可以用 Scikit-learn這個機器學習庫,R用戶可以使用Caret這個包。機器學習項目要傳達給讀者你具有以下技能:

  • 能夠說明選擇某個機器學習模型的原因;
  • 能夠避免過擬合,將數據分割為訓練集與測試集(K折交叉驗證);
  • 能夠選擇正確的評估指標(AUC~Area Under Curve, 調整R方~Adj-R2, 混淆矩陣~confusion matrix);
  • 能夠開展特徵工程與選擇的能力;
  • 能夠進行超參數調優。
  1. 溝通

溝通對於數據科學的重要性比你想的要大得多,能否有效地溝通、交流數據分析結果是區分牛X數據科學家和普通數據科學家的標準。不管你做的模型多花哨,如果不能給同事或客戶講清楚,不能讓他們理解,就沒人會買你的賬。幻燈片和筆記是超強大的溝通工具,你可以嘗試把機器學習項目改造成幻燈片,還可以使用Jupyter Notebook或RMarkdown輔助溝通。

記住,首先要搞清楚目標受眾是誰,給公司高管做彙報和給機器學習專家做演講完全是兩碼事兒。注意要突出以下這些能力:

  • 搞清楚你的目標受眾是誰;
  • 展示可視化圖;
  • 幻燈片要清爽,不要塞進去太多信息;
  • 陳述流程一定要流暢;
  • 結合業務影響(比如減少成本、增加收入)說明分析結果。

使用Jupyter Notebook或RMarkdown文件記錄項目,也可以使用免費的Github Pages將Markdown文件轉化為靜態網頁。

完成上述五個項目,把它們加到你的作品集里,找工作時,把你的作品集展示給面試官,就能把他們都給震了。

保持積極的心態,不斷實踐各種數據科學項目,你就能在數據科學這條道路上不斷前進,最終找到一條屬於自己的路,並在這個領域佔據一席之地。順祝馬到成功,高薪在手!


推薦閱讀:

如何高效入門數據科學?
力薦學習數據科學的大本營——網站DataCamp
面向數據科學的 Anaconda Python 入門
聚類演算法第三篇-層次聚類演算法Chameleon
比預測未來更重要的,是改變未來 | 數據科學公開課

TAG:數據科學 | 大數據分析 | 機器學習 |