【譯Py】2018年,這5個數據科學項目能幫你找到工作
來自專欄大數據分析挖掘34 人贊了文章
作者:呆鳥 Python愛好者社區專欄作者,未經容許,禁止轉載
簡書專欄:https://www.jianshu.com/u/be48b04ecc3e堅持學習Python和English兩門語言,致力於讓讀譯文就像讀中文的呆鳥標籤:數據預處理、數據科學、數據可視化、招聘、Jupyter、機器學習原文作者:John Sullivan,數據科學博客DataOptimal的創始人,可以通過 @DataOptimal在Twitter上與他聯繫。原文地址:5 Data Science Projects That Will Get You Hired in 2018
- 數據清洗
數據科學家往往要耗費高達80%的時間來清理新項目的數據,這是數據科學團隊最大的痛點。如果能告訴他們你擁有豐富的數據清理經驗,你的價值馬上就能體現出來了。現在,找一些需要清理的數據集,創建一個數據清洗項目,開始數據清理吧。
Data Cleaning用Python的話,Pandas絕對是首選,如果用的是R,可以使用dplyr這個包。記得要表現出以下幾項技能:
- 導入數據;
- 合併多個數據集;
- 檢測缺失值;
- 檢測異常值;
- 插入缺失值;
- 數據質量驗證。
- 探索性數據分析
數據科學的另一項重要工作是探索性數據分析(EDA,Exploratory Data Analysis ),它是提出問題、使用可視化方法研究問題的過程。探索性數據分析可以讓分析師通過數據得出結論,進而影響業務決策。這項工作可以是通過客戶細分得出洞察結果,也可以是分析季節因素對銷售趨勢的影響。一般來說,探索性數據分析會帶來一些讓人意想不到的發現。
鍵冬同學的PyEcharts-柱形圖鍵冬同學的PyEcharts-地圖- 能夠提出探索性的問題;
- 能夠識別趨勢;
- 能夠識別變數的共變性(covariation);
- 能夠使用可視化(散點圖、直方圖,箱須圖等)有效地溝通分析結果。
- 互動式數據可視化
互動式數據可視化包括使用Dashboard這樣的工具。數據科學團隊和終端業務用戶都喜歡使用這些工具。數據科學團隊可以使用Dashboard進行協作,一起開展數據分析工作。更重要的是,Dashboard為終端業務用戶提供了互動式的工具,讓他們把精力放在戰略目標上,而不用關注過多的技術細節。很多時候,數據科學團隊提交給用戶的可交付成果都是以Dashboard這種形式體現的。
- 列出客戶需求相關的指標;
- 提取有用的特徵;
- 使用有邏輯的布局,比如易於瀏覽的「F模式」;
- 創建最優的刷新率;
- 生成報告或其它自動化的操作。
- 機器學習
機器學習項目是你的作品集里另一項非常重要的內容。在你關掉這篇文章,開始構建深度學習項目前,不要著急,咱們先花一分鐘的時間回顧點兒基礎概念,就算要建立一個特別複雜的機器學習模型,也得先從基礎做起。我建議從線性回歸與邏輯斯蒂回歸做起,和高管溝通時,解釋這些模型也會相對容易一點。這個項目的重點應該是突出項目對業務的影響,比如客戶流失、欺詐監測,或貸款拖欠這些內容。提醒一下,別再用預測鳶尾花類型這樣的例子了,最好找些實用的數據項目。
Python用戶可以用 Scikit-learn這個機器學習庫,R用戶可以使用Caret這個包。機器學習項目要傳達給讀者你具有以下技能:- 能夠說明選擇某個機器學習模型的原因;
- 能夠避免過擬合,將數據分割為訓練集與測試集(K折交叉驗證);
- 能夠選擇正確的評估指標(AUC~Area Under Curve, 調整R方~Adj-R2, 混淆矩陣~confusion matrix);
- 能夠開展特徵工程與選擇的能力;
- 能夠進行超參數調優。
- 溝通
溝通對於數據科學的重要性比你想的要大得多,能否有效地溝通、交流數據分析結果是區分牛X數據科學家和普通數據科學家的標準。不管你做的模型多花哨,如果不能給同事或客戶講清楚,不能讓他們理解,就沒人會買你的賬。幻燈片和筆記是超強大的溝通工具,你可以嘗試把機器學習項目改造成幻燈片,還可以使用Jupyter Notebook或RMarkdown輔助溝通。
- 搞清楚你的目標受眾是誰;
- 展示可視化圖;
- 幻燈片要清爽,不要塞進去太多信息;
- 陳述流程一定要流暢;
- 結合業務影響(比如減少成本、增加收入)說明分析結果。
使用Jupyter Notebook或RMarkdown文件記錄項目,也可以使用免費的Github Pages將Markdown文件轉化為靜態網頁。
完成上述五個項目,把它們加到你的作品集里,找工作時,把你的作品集展示給面試官,就能把他們都給震了。 保持積極的心態,不斷實踐各種數據科學項目,你就能在數據科學這條道路上不斷前進,最終找到一條屬於自己的路,並在這個領域佔據一席之地。順祝馬到成功,高薪在手!推薦閱讀:
※如何高效入門數據科學?
※力薦學習數據科學的大本營——網站DataCamp
※面向數據科學的 Anaconda Python 入門
※聚類演算法第三篇-層次聚類演算法Chameleon
※比預測未來更重要的,是改變未來 | 數據科學公開課