數據科學家如何找到心儀的工作?
本文是「打造數據科學的作品集」的第四篇,全文大約 9800 字,讀完大約需要 17 分鐘。如果你喜歡並希望及時獲取本系列的最新文章,可以訂閱我們。
作者:Vik Paruchuri,譯者:趙喧典,校對:EarlGrey,出品:PythonTG 翻譯組/編程派
在本系列中,我們已經討論了如何用數據講故事,如何打造一個完整的機器學習項目,以及如何搭建一個數據科學博客。而本文,我們將回過頭來,重點討論如何創建高大上的數據科學作品集。我們將討論什麼技能是僱主希望看到的,以及如何創建一份作品集以有效地展示所有的技能。我們將舉例說明作品集中的項目應該如何呈現,並給你一些起步的建議。
讀完這篇文章之後,你應該能夠理解為什麼要創建數據科學作品集,以及具體的方法。
僱主想要什麼
僱主招人時,想要的是那些能為企業創造價值的人。這通常意味著,應聘者需要掌握能為企業帶來收入和機遇的技能。而作為數據科學家,可以通過以下 4 種方式為企業創造價值:
- 對原始數據的敏銳洞察,並向他人展示。
- 例子:分析廣告點擊率,會發現面向 18 到 21 周歲人群的廣告比面向 21 到 25 周歲人群的廣告帶來的成本收益高得多——企業據此調整它的廣告投入,這就創造了商業價值。
- 構建能為客戶帶去直接價值的系統。
- 例子:Facebook 的一位數據科學家通過優化新聞流為用戶展現更好的結果——這導致更多人訂閱新聞流,意味著更多的廣告訂閱,這就為 Facebook 帶來直接收入。
- 構建能為公司其他人帶去直接價值的系統
- 例子:編寫腳本自動地從 3 個資料庫提取數據並聚合,為他人進行分析通過乾淨的數據集——通過提高他人的工作效率,這也創造了價值。
- 與公司其他人分享專業知識
- 例子:與產品經理討論如何實現用到機器學習演算法的功能——通過防止不切實際的時間表和半成品,這也創造了價值。
毋庸置疑的是,當僱主考核應聘者時,他們會考核應聘者是否具備上述四項技能的一項或多項(根據公司和崗位不同,可能需要應聘者同時具備多項技能)。為了向企業證明你能在上述所列 4 個領域能幫到企業,你需要展示自身具備以下技能:
- 溝通能力
- 與他人協作能力
- 技術能力
- 數據推斷能力
- 主觀能動性
一個面面俱到的作品集應該足以展示你在上述各方面的技能,並且對他人而言是易審視的——作品集中的每一項都應該具備豐富的文檔,清晰明了,這樣,招聘經理才能快速地對你的作品集進行評估。
為什麼要打造作品集
如果你擁有頂尖學府的機器學習或相關領域的學位,獲得數據科學相關的工作會相對容易。因為頂尖學府的聲譽以及專業對口的事實,僱主相信你能為企業創造價值。但如果你沒有來自頂尖學府的相關學位,你就不得不為自己建立這份信任。
這樣說吧:對於僱主而言,需求的崗位有多達 200 份的申請。假設 HR 總共花 10 小時過濾申請以確定電話面試哪些人。這意味著平均每個申請只有 3 分鐘的評估時間。開始時,HR 不相信你能為企業創造價值,而你有 3 分鐘的時間來建立他們對你的這份信任,進而為自己創造電話面試的機會。
數據科學的一大特徵是,你在自己的項目中所做的工作,和你被錄用之後所做的工作幾乎一樣。作為數據科學家,在 Lending Club 分析信貸數據,可能與分析他們發布的匿名貸款數據有很大的相似之處。
Lending Club 匿名數據的前幾行
建立 HR 對你的信任,最重要的就是證明你能做他們需要你做的工作。對於數據科學而言,這就需要我們創建一套項目作品集。項目越「真實」,HR 越相信你將是企業的有用之人,你獲得電話面試的機會就越大。
數據科學作品集需要包含哪些內容
既然我們知道了需要一個作品集,我們就需要弄清楚它需要包含哪些內容。至少,你應該在 GitHub 或你的博客上有一些項目,代碼是可見的,並配有良好的文檔。HR 越是容易找到這些項目,他們就越容易對你的技能進行評估。每個項目都應該儘可能配有良好的文檔,用 README 文件說明如何進行設置,並介紹數據的特點。
GitHub 上一個組織良好的項目
我們將討論一些應該放入作品集的項目類型。建議每種類型都有多個項目,尤其是與你希望從事的崗位相關的項目類型。比方說,如果你申請的崗位需要大量機器學習的知識技能,那麼多創建一些用到機器學習的項目會很有幫助。另一方面,如果你申請的是分析師的崗位,那麼數據清理和數據呈現項目就更關鍵了。
數據清理項目
數據清理項目向 HR 展示了你能夠提取不同的數據集並加以利用。數據清理是數據科學家做的最多的工作,因此,它是需要展示的關鍵技能。這類項目涉及提取雜亂數據,然後清理,並做分析。數據清理項目證明了你的數據推理能力,以及你將多個數據源的數據提取整合為單個數據集的能力。數據清理是所有數據科學家工作的重要部分,展示你已經具備該項能力將是一大優勢。
你將需要把原始數據清理成易於分析的形式。要做到這一點,你需要:
- 找一個雜亂的數據集
- 可以在 data.gev,/r/datasets,或 Kaggle DataSets 上找找看
- 不要挑清理後的數據——挑選有多個數據文件,並且數據有細微差別的那種。
- 如果可以,找一些附加數據集——比如說,如果你下載了一個航班的數據集,那麼通過谷歌是否可以找到一些相關的,可與之結合的數據集?
- 嘗試去挑一些你個人感興趣的——這樣,你將完成一個更好的最終項目。
- 選一個可用數據作答的問題
- 探索數據
- 發現有趣的探索角度
- 清理數據
- 如果有多個數據文件,將它們整合到一起
- 確保你希望進行探索的角度,在數據層面是可實現的
- 做一些基礎分析
- 嘗試著回答你起初選擇的問題
- 展示結果
- 建議用 Jupyter Notebook 或 R Markdown 進行數據清理和分析
- 確保代碼和邏輯是可理解的,儘可能多地使用注釋和 Markdown 單元格闡明過程
- 將項目上傳到 GitHub
- 由於許可的問題,不是總能將原始數據一併提交到 Git 倉庫,因此你至少要描述一下原始數據,並說明出處。
本系列的第一篇文章在第一部分介紹了如何一步步創建一個完整的數據清理項目。你可以在這裡查看。
部分紐約市學校數據的數據字典
如果你在尋找一個好的數據集上有困難,以下是一些例子:
- 美國航班數據
- 紐約市地鐵旋轉門數據
- 足球數據
紐約市地鐵,人來人往
如果你想要一些靈感,以下是一些優秀的數據清理項目的例子:
- Twitter 數據分析
- Airbnb 數據清理
數據呈現項目
數據呈現項目展現了你對數據的洞察力,從數據中提取洞見並用數據說話的能力。用數據講故事對商業價值有巨大影響,因此,這將是你簡歷的重要組成部分。這個項目涉及提取一組數據,並用數據呈現一個令人信服的結論。例如,你可以利用航班數據說明某些機場存在顯著的航班延遲現象,而這也許可以通過改變航線改善。
一個優秀的數據呈現項目會用到大量的可視化,並能一步步地引導讀者了解分析結果。以下是創建一個優秀的數據呈現項目的參考步驟:
- 找一個有趣的數據集
- 可以在 data.gev,r/datasets,或 Kaggle DataSets 上找找看
- 挑一個與近期發生的事件有關的內容,以引起讀者的興趣
- 嘗試去挑一些你個人感興趣的——這樣,你將完成一個更好的最終項目。
- 從不同角度探索數據
- 探索數據
- 從數據中找出有趣的相關性
- 創建圖表並一步步展示你的發現
- 詳細記錄這個引人注目的過程
- 從所有的探索中挑選一個最有趣的角度
- 記錄從原始數據到最終發現的探索過程
- 創建令人信服的圖表
- 就探索過程中每一步的思考,進行充分闡述,也可以對代碼進行解釋
- 就每一步的結果,做豐富的分析,以清晰地告訴讀者
- 告訴讀者你在分析數據過程中的所思所想
- 展示結果
- 建議用 Jupyter Notebook 或 R Markdown 進行數據分析
- 確保代碼和邏輯是可理解的,儘可能多地使用注釋和 Markdown 單元闡明過程
- 將項目上傳到 GitHub
本系列的第一篇文章的第二部分,已經介紹了如何一步一步讓數據發聲。你可以在這裡查看。
按街區 SAT 成績劃分的紐約市地圖
如果你在尋找一個好的數據集上有困難,這裡有一些例子:
- Lending club 的貸款數據
- FiveThirtyEight 的數據集
- Hacker new 的數據
如果你想要一些靈感,以下是一些優秀的數據呈現項目的例子:
- Hip-hop 與美國總統候選人特朗普
- 紐約市計程車與優步數據分析
- 跟蹤研究 NBA 球員的運動
提及 2016 年美國總統大選候選人的歌詞(圖片來自以上第一個項目)
端到端項目
到目前為止,我們已經介紹了涉及探索性數據清理和分析的項目。這些項目能讓 HR 更好地認識到你對數據的洞察力以及呈現數據的能力。然而,它們並不足以展示你的創建面向客戶的系統的能力。面向客戶的系統涉及高性能的代碼,這意味著系統可以使用不同數據,運行多次,產生不同輸出。舉個例子,一個可以對股市進行預測的系統——每天早上,它會自動下載最新的股市數據,然後據此預測當天哪些股票會走紅。
為了展現我們能夠創建業務系統,我們需要創建一個端到端的項目。端到端的項目接收並處理數據,然後產生輸出。通常,這些輸出都是機器學習演算法的結果,但也可以是其他輸出,比如符合某一標準的行總數。
這裡的關鍵是,要讓系統能靈活地處理新的數據(比如股市數據),並具有高性能。此外,使代碼易於安裝設置與運行也很重要。以下是創建一個優秀的端到端項目的參考步驟:
- 找一個有趣的話題
- 我們不會僅處理一個單一的靜態數據集,因此,你需要定一個話題
- 該話題下應該有公開的、經常更新的數據
- 以下是一些例子:
- 天氣
- NBA 遊戲
- 航班
- 電價
- 導入並解析多個數據集
- 在你的能力範圍內,下載儘可能多的數據
- 閱讀理解數據
- 找出你所期望的預測內容
- 創建預測
- 計算所需的特徵
- 構建訓練和測試數據
- 做出預測
- 整理代碼並配上文檔
- 將代碼分解為多個文件
- 在項目中添加一個 REAME 文件,闡述如何安裝和運行該項目
- 添加內聯文檔
- 使代碼能輕鬆地從命令行運行
- 上傳項目到 GitHub
本系列的第三篇文章中已經介紹了如何一步一步創建端到端的機器學習項目。你可以在這裡查看。
如果你在定一個好的話題上有困難,以下是一些例子:
- 歷史上的 S&P 500 數據
- 流式 Twitter 數據
S&P 500 數據
如果你想要一些靈感,以下是一些優秀的端到端項目例子:
- 股票價格預測
- 自動音樂生成器
說明性文章
理解並解釋複雜的數據科學概念很重要,比如機器學習的演算法。這可以讓 HR 認識到,你善於向公司內的其他人或客戶解釋複雜的概念。這也是數據科學作品集的關鍵點,因為它是現實世界中數據科學工作的重要部分。這同時還展示了你對概念及其工作原理有深入的理解,而不是僅僅停留在語法層面。深入的理解有助於你更好地判斷並做出更好的選擇,以及向他人介紹你的工作。
為了寫一篇說明性的文章,我們首先需要挑一個數據科學的話題,然後撰寫博客。這篇文章需要帶領讀者從一無所知到對概念有一個清晰的了解。而寫文章的關鍵是,使用樸實的、簡單的的語言——你寫得越專業,HR 就越難知道你是真懂還是裝懂。
寫說明性文章的幾個重要的步驟是:挑一個你熟悉的話題,帶領讀者理解概念,然後利用最終的概念做一些有趣的事。以下是一些的參考步驟:
- 找一個你熟悉的或想要去學習的概念
- 機器學習的演算法,比如 k-nearest neighbors (最近鄰居法) 就是一個可選的例子
- 統計學的概念,也是不錯的選擇
- 確保這個概念有一些精妙之處值得挖掘
- 確保你真的理解了這個概念,並且解釋起來並不複雜
- 挑一個數據集輔助解釋
- 比方說,如果你選擇對 k-nearest nerghbors 進行闡述,你可以藉助 NBA 的數據(尋找球路相似的球員)
- 列一個文章的大綱
- 假設讀者完全不了解你將闡述的概念
- 將概念分解成幾個部分
- 比如,k-nearest neighbors,可以分解為:
- 利用相似性進行預測
- 相似度量
- 歐式距離
- 利用 k = 1 進行匹配
- 利用 k > 1 進行匹配
- 比如,k-nearest neighbors,可以分解為:
- 撰寫文章
- 用直白的語言進行清晰的描述
- 圍繞一個中心點寫
- 試著找一個非技術人員讀一讀這篇文章,看看他們的反應
- 分享文章
- 最好發布到你自己的博客
- 如果沒有博客,就上傳到 GitHub
如果你在找一個好的概念上有困難,以下是一些例子:
- k-平均演算法
- 矩陣乘法
- 卡方檢驗
k-平均演算法的可視化
如果你想要一些靈感,下面是一些比較好的說明性文章的例子:
- 線性回歸
- 自然語言處理
- 樸素貝葉斯
- k-nearest neighbors
可選的作品集構件
雖然上傳至 GitHub 和博客的項目很關鍵,但是添加一些其他的組件也會很有幫助,比如 Quora 上的回答、演講以及數據科學競賽的結果。這些通常是 HR 第二關心的,但它們也是突出和證明你能力的一種很好的方式。
演講
演講是一種幫助教導他人的有效方式,它還能夠向 HR 證明你對某個話題已經熟悉到足以為人師的地步。它可以幫助 HR 認識你的溝通與演說能力。這些技能與作品集的其他部分在一定程度上會有重疊,但仍然是很好的證明。
最常見的演講地點是當地的 Meetup。Meetup 上的演講都是圍繞具體主題展開的,比如 「Python」,或者「利用 D3 進行數據可視化」。
要做好演講,以下是幾個值得參考的步驟:
- 找一個你從事過的項目或熟悉的概念
- 最好先看一看作品集中的項目和博客文章
- 無論你最終挑了什麼,它應該與聚會的主題是一致的
- 分解項目,並用幻燈片演示
- 你需要將項目進行分解,並用一系列幻燈片進行演示
- 每張幻燈片上的文字說明盡量少
- 多練習幾次演講
- 正式演講
- 將幻燈片上傳到 GitHub 或你的博客
如果你需要一些靈感,以下是一些優秀的演講例子:
- 計算統計學
- Scikit-learn vs Spark for ML pipelines
- NHL(國家冰球聯盟) 點球分析
數據科學競賽
數據科學競賽涉及用大量數據訓練最精確的機器學習模型。因此參加競賽是很好的學習方式。從 HR 的視角來看,數據科學競賽可以證明你的技術能力(如果你做得夠好的話),你的主動性(如果你確實付出了很多努力)以及你的協作能力(如果你是與他人合作參賽的)。這同樣與作品集的其他項目有重疊,但它也是突出你能力的第二種方式。
大多數數據科學競賽都由 Kaggle 和 DrivenData舉辦。
要參加(以上的)的數據科學競賽,你只需要在相應的網站上註冊,然後就可以開始了!你可以從這裡開始一項競賽,你也可以在這裡找到一些教程。
Kaggle 上一項賽事的排行榜
小結
現在,你對於要在作品集中展示哪些能力,以及如何打造作品集,應該有了一個清晰的概念。現在就可以行動起來了!
如果你已經有一份簡歷,想秀一下,請在評論區告訴我們!
本系列其他譯文:
- 打造數據科學作品集:用數據講故事
- 打造數據科學作品集:搭建一個數據科學博客
- 打造數據科學作品集:從機器學習項目開始
點此查看原文鏈接
推薦閱讀: