Data Science 這麼火,你還不知道它能幹嘛?
作者背景:曾在百度做過大數據實習生,幫助平台做演算法優化。在北京麥肯錫兼職 Analyst,幫助客戶在定價方面做數據分析工作。暑假作為一名 Financial Markets Advisory 在 Blackrock Solutions 實習 。實習以後接到了 Return Offer,在 2 月入職做 Analyst。
數據科學專業對口的工作職位有哪些?
與 Data Science 相關的職位可能有很多種不同的叫法,不同公司根據不同的背景,有以下叫法:
Data Scientist:科技公司中用的比較多,很多要求 PhD 的學歷。
Data Analyst:金融業用的比較多。
Risk Manager / Risk Management:金融公司里用的比較多。
Business Analyst:與 Data Analyst 類似,但更加註重商業,技術方面的要求相對較低。
Data Engineer:一般是科技公司採用這個職位,偏向 CS 專業,需要負責數據存儲、實時處理的工作,對系統、programming 的要求更多。
Statistician:如 Google。偏向統計,要求較為深入地理解概率統計。
Statistic Scientist:如亞馬遜。
Research Scientist:與 Data Analyst 相關。
擇業時,有哪些公司可以選擇?
各行各業都在利用大數據來解決問題,所以有很多公司有相關職位。
科技公司:Twitter,Microsoft,BAT,搜狗,美團,滴滴
金融公司:Capital One(從建立之初就開始用一些數據方法進行風險控制等方面的工作),高盛,Blackrock,Hedge Fund
諮詢公司:Polunteer(幫助美國政府部門解決反恐、審查等工作),麥肯錫,IBM(傳統諮詢公司也慢慢轉向 data 方向)
專門做數據分析平台的公司:Kotara,Hotten,Databreaks
其他公司:Horizon(電信),Comecrack(傳媒),消費品公司,醫療公司
數據科學的主要工作?
分為四部分:歸納問題、準備探索數據、模型訓練檢驗調整、報告和產品。
1. 歸納問題
客戶給公司的任務,或者頭頭給分析師的任務,不是一個具體的任務(用 xx 模型來做 xx 數據),而是一個具體的商業問題。比如,上個季度為什麼盈利下降了。這就是一個歸納問題的環節,需要有專業知識幫助我們找到方向。
2. 準備探索數據
歸納問題結束之後,會產生很多假設,這就需要尋找數據驗證假設。
尋找數據一般是竭盡所能,比如收入不好與市場推廣有關,就會去尋找廣告商的數據。
尋找數據以後,要檢查數據質量,是否有異動、缺失等等。數據質量能夠決定模型的準確率。所以花在「清洗整理」數據上的時間要佔到總時間的 60% 甚至更多,有時候也需要跟客戶進行交流。
檢查完質量以後,做一些探索性分析。
3. 模型訓練檢驗調整
先確定模型基本類型(回歸、聚類等),選取比較合適的模型進行搭建,用 test 對模型進行檢驗。檢驗的同時再去尋找模型最優的參數配置,對模型進行預測,如果預測結果很好的話,建模過程就結束了。
4. 報告和產品
在諮詢公司中,模型做完以後,會和客戶進行交流,看是否符合實際。在科技公司中,模型往往會發展成一個產品。放在公司平台上測試,或者發布到網上。
面試準備
Data scientist 需要具備的能力:
1. Hacking skills(programming skills);
2. Math and statistics knowledge;
3. Sustained expertise。
硬實力方面
數學方面的知識在各大公司,如 Google,相關職位的面試中很喜歡被提及,主要集中在概率論的基礎理論,比如獨立分布,隨機數等等。
有一道題供大家思考,現有一個隨機數生成器,等概率生成 1~4 四個數字。問如何改進生成五個數字。這是一道與概率、工程學相關的題。
在統計方面涉及比較多的是 ABtest 實驗設計理論。這個問題在做過 research 以後才會更加了解。比如要做一個藥物測試,測試其效果,就會涉及一個大樣本雙盲測試。大家就需要了解其前提假設與操作。
模型方面的內容是重頭戲,問的比較多的是回歸分析和機器學習。根據職位不同,問的也有可能不同。比如給一個回歸模型,係數應該如何計算,T 檢驗是什麼之類的問題。再比如,加權回歸,Principle Component Regression。
除了回歸分析,很多公司也會問關於機器學習的模型。主要會集中在問 Classification,比如 Logistic Regression 、FBM、Tree model。各自有什麼特點,適合於哪些情景等,也會展開問。比如問 Tree model 下三個模型的異同點,解決的問題,適合用在怎樣的數據上面,包括模型的評價,術語。
很多公司要求你有一定的編程能力。希望大家在準備時刷一些 lecal 的中低難度的題,高難度的不需要。C++,Python,Java 等語言一般都可以用,但是推薦用 Python 和 Java,尤其是 Python,因為 Python 在數據挖掘方面運用的很多,對熟悉語法有幫助。也有公司會問 Pascal 和 R 語言的問題。
軟實力方面
如果想去金融、諮詢行業工作,一定要注重提升軟實力。
要注意三點。
第一,熟悉自己的簡歷。在面試的一開始都會要求過簡歷,或者說一下自己 highlight 的地方。建議要熟悉自己簡歷的內容。推薦一個回答問題的 SAR 結構,就是 Situation-Action-Result 結構,按照這個清晰的條理來展現自己。
第二,準備一段非常好的團隊合作的經歷。這在科技公司中可能要求不高,但是在金融、諮詢公司是很看重團隊合作的,要求你有一定的 leadership。一定要體現你在團隊出現問題的時候能冷靜面對,積極溝通的能力。
第三,在面試之前研究一下公司及所在行業。準備一些聊天的話題,面試官可能把你從一個房間帶到另一個房間的路上,聊一些比較好玩的而不是老生常談的話題,這對氣氛、心態有很大的幫助。
問答
1. 網上信息太多,如何構建自己的 Data 信息庫?
上網搜索職位要求,查看哪些東西被要求的頻率是最高的。比如 machine learning,R 語言這些要求比較高。可以去 Coursera 上看公開課。邊做邊學效率更高。
2. 進一流公司學 Data 是不是更有優勢?
是,現在公司都在往 data 方向走。
3. Data science,BA 有什麼區別?
在就業方面,差別都不是很大。只是三方面技能側重不太一樣,BA 更加側重於 expertise 技能。
4. 申請 Master 時,更看重什麼?GPA?科研?還是實習?
這是看學校的。BA 喜歡你有比較高的英語分數,Data 更加註重技術,因此也要求你的 GPA 要高,本科修的課程要偏理工科一些。一般來說,項目偏就業的話,實習越多越好。
5. 對數字不敏感的適合學 Data Science 嗎?
沒有適合不適合一說。
6. 學習 Data Science 需要學習哪些方面的理論?
線性代數、概率論、機器學習。
7. 推薦幾個鍛煉數據分析的能力的方法?
第一,參加美國數學建模大賽,可以很好的鍛煉數據分析能力。
第二,上網學習,網上有 project 或是網課,這是很好的鍛煉機會。
第三,可以常去 Google、GitHub 里尋找資源。
我創建了一個關於國外名校申請的經歷分享的專欄:
國外名校申請經驗我們會在該專欄持續更新海外各大名校的申請經驗,棕櫚大道的 3000+ 導師原創乾貨分享,如果你也想留學,或者正在申請,那麼快來關注吧。
你要走的路,學姐學長們替你探過啦!留學方面的問題需要諮詢可以直接添加微信 palmdrivezhihu 詳談。
推薦閱讀:
※數據分析師必備技能-python(numpy入門)
※kaggle項目:IMDB電影數據分析
※分析競爭力,數字時代的差異化競爭優勢
※大部分機器學習數據分析第一個kaggle項目
※Kaggle競賽--泰坦尼克號生存預測