FB, Uber, Airbnb等數據崗面試分析集錦
分析了數百個數據科學面試之後,我們學到了什麼
這份分析數百個數據科學面試的帖子最初是發表在Springboard平台上。Springboard平台致力於讓世界上每一個人都可以接受到高質量的教育。
總體介紹
世界上最頂尖的數據科學團隊正在對全世界最讓人興奮的數據集進行令人難以置信的分析。
Google比20世紀的科研人員擁有更多關於人類利益 的數據,Uber每天無瑕疵地調整著超過100萬次的行程的路線和定價。通過機器學習和人工智慧,頂級數據科學團隊正在改變我們獲得和處理數據的方式。他們提出的具有可行性的深刻見解影響了百萬人的生活。
如果我們能夠提取這些頂級數據科學團隊的面試過程的共同特徵以讓你掌握面試技巧, 那會有什麼不同呢?如果我們能夠羅列各個團隊面試過程中的差異以讓你覺得這些團隊的面試是一門有規律可循的科學,而不是一門藝術,那會有什麼不同呢?
在Springboard, 我們教授數據科學技能。許多同學因為想開始他們的數據科學的職業生涯,所以來上我們的課程。為了幫助我們的學生在這個領域得到一份理想的工作,我們編輯了數據科學工作指南和數據科學面試指南。我們一直對頂級數據科學團隊開展的工作非常著迷,我們也致力於幫助我們畢業的學生了解如何進入這些團隊。
在之前,沒有人嘗試彙集這些公司的面試過程的數據來幫助你們擊敗數據科學面試 。我們試圖去改變這一點。
我們選取了擁有世界級的數學科學團隊的公司, 並從Glassdoor上的這些公司的數據科學面試問題的開源數據著手。
從這個帖子你可以了解到頂級數據科學團隊的面試是什麼樣的,以及如何加入他們的團隊。這個帖子彙集了所有你可以從Google,nAirbnb, Facebook, Uber和其他公司的面試過程學到的知識。
我們了解到的
因為我們想要了解頂級數據科學團隊的面試過程是怎麼樣的,以及如何準備這些面試,所以我們開始這項分析。我們把了解到的信息總結為具有可行性的六個要點。
第一:調查,調查,調查。花時間去了解每個組織的數據科學團隊正在開展的工作,這使你可以在面試過程中做得更多,也更好地和未來的同事交流。你會被問到很多情境問題,以及與公司當前工作相關的產品的問題。例如有關LinkedIn上的你可能認識的人的推薦系統的問題,或者如何把Uber司機與乘客匹配的問題。
第二:準備四類數據科學問題:統計和概率問題,編程問題,商業思維問題以及公司文化和工作崗位的適應問題。
第三:練習統計建模/推理,學習如何描述機器學習的概念,在一定的時間約束下,用 SQL,R和Python進行基礎操作和高級操作 。數據科學面試過程在不同公司之間都是非常標準化的:電話面試,筆試,然後公司現場面試。你需要確保面試和那些有時限的作業都能順利進行。在一定時間限制下練習使用SQL,R和Python,因為很多在家裡完成的筆試任務的目的都是用非常少的時間來測試你對這些語言的熟悉程度;如果你沒有準備好,這些情況都會讓你措手不及。 同時,對這些公司來說,展現你能快速思考Hadoop這些框架的能力是讓人印象深刻的。但也不要忘記最基礎的知識!有時候,公司會以基本的統計問題以測試你的工作能力。
第四,得到內部推薦機會。在我們調查的九個公司裡面,四個公司(Google,nUber, Facebook, Airbnb)把內部推薦當成面試邀請的第一來源。總體來說,內部推薦是面試邀請的第二來源。這說明你需要認識公司里的人,並讓他們推薦你,而不是只是網上申請。
第五,準備你的故事。你會被非常詳細地問到你過去的工作。做好把過往經歷和工作描述的儘可能詳細的準備,從你用過那些工具,到為什麼你做出不同的決定。準備好一個連貫的故事來告訴面試官你曾經做過哪些驚艷的事情來提高你過往公司的業務結果。
第六,準備打一次長期的拉鋸戰。整個面試過程可能花幾個月來進行幾輪不同測試。確保你準備好了漫長的等待過程。
除了以上的六點,我們認為數據科學面試過程是一個複雜的怪獸,需要我們用精確的行動和無數的練習來打敗。
數據科學面試問題種類
在Glassdoor平台上554個採訪者提供的真實的數據科學面試問題中,我們發現了一個數據科學團隊面試技能的寶庫。最多的問題種類包括如下:
第一類:統計問題
統計和概率往往是數據科學面試中的「主食「。這些問題的目的是測試你的思維和你如何在有不確定性下進行推理。這是一個數據科學家需要掌握的基本技能。
這一篇文章可以幫助你了解一些統計和概率的問題:How Bayes Theorem,nProbability, Logic and Data Intersect
這本書可以幫助你了解一些統計和概率問題: Think Stats, Probability and Statistics for Programmers
這是一門有互動性的課程,可以幫助你了解一些統計和概率問題: Probability and statistics with KhanAcademy
第二類:編程問題
如果統計和概率是數據科學面試中的「主食「,那編程問題就會是「配菜「。數據科學需要大規模處理數據,這需要編輯程序來自動處理所要求的大量的工作。
這是一篇可以幫你解決編程問題的文章:Data sciencensexiness: Your guide to Python and R, and which one is best
這是一本可以幫你解決編程問題的書:Cracking the Programming Interview這是這是一門Datacamp的課,幫你解決編程問題:Intro to Python for Data Science
第三類:商業思維和案例研究
第三個數據科學面試板塊是:解釋你的研究結果,說明你的研究發現可以如何驅動商業行為和結果 。這些問題測試了你對觀察到的商業行為的原因的思考。
這裡有一篇文章,以幫助你解決商業思維和案例研究問題:Tips for Data Scientists: Think Like a BusinessnExecutive
這裡有一本書,以幫助你解決商業思維和案例研究問題:Data Science fornBusiness
這裡是一個互動課程,以幫助你解決商業思維和案例研究問題:Data Analytics for Business
第四類:文化/角色適合問題
第四類問題主要集中在您是否能夠適應招聘機構的角色和文化。對待這種行為問題的方法是誠實地表達你的期望。
頂級數據科學團隊如何面試?
我們決定更深入地了解一些我們認為可以高度代表不同行業的數據科學團隊-- 從Google到LinkedIn。在Glassdoor上有大量的數據科學團隊面試的評論。這些評論允許我們能夠深入探討他們的面試過程。
根據Glassdoor的受訪者反饋,在面試過程中, Google面試的難度最大,而摩根大通的難度最小。谷歌面試的挑戰不僅在於問題的數量,還有面試官的數量。在113個Glassdoor的受訪者的樣本中,44%的人通過網申拿到面試,大約33%的人通過內部推薦拿到面試機會。因為我們知道得到內部推薦有很高的障礙性,所以這是為什麼大多數人選擇網申。這個事情同時也也說明了內部推薦的重要性。擁有最高的積極反饋的公司是Google。大約60%的受訪者說他們擁有積極的面試經歷。對比之下,Yelp和JP Morgan擁有0積極回饋,儘管我們這兩個公司只有9個面試評論樣本。
我們發現我們之前的使用內部推薦渠道獲得面試的學生比通過網申的學生多出八倍。Facebook的面試時怎樣的?
幾乎大多數面試過程是積極的, 49%的受訪者表示他們有一個愉快的面試經歷,只有23%的受訪者認為他們沒有。大多數候選者是通過當前員工或招聘官推薦的。在1-5的比例中,整個Google的面試過程的難度被評定為比平均水平高一點:3.4分。其中5分代表最高難度。
面試過程包括一輪電話面試,一輪在家裡完成的數據知識筆試,一輪屏幕共享的SQL的筆試和一輪公司現場面試。公司現場面試要求和團隊中的每個人都進行一次1對1的面試。在整個面試過程的前期,問題多集中於SQL, 之後多集中於機器學習和建立Facebook的廣告模型。開放性的場景問題多數是關於產品管理和數據科學,包括問題如怎麼設計一個具體的Facebook的屬性。根據描述,面試等待過程平均長達3個月,所以不用驚訝你需要花一段時間等待下一輪的結果。Facebook數據科學團隊正在開展的工作:研究團隊分享了他們目前正在做的工作:包括關於推動新的周期的研究,和人們如何在社交網路上互動的深度分析。Uber的面試時怎樣的?
Uber數據科學面試有些負面反饋,有61%的評論者說他們沒有一個開心的經驗。大量參加面試的人都是通過網上申請,與通過內部推薦獲得面試的人數相同(35%)。面試過程的難度被評定為3.1。
面試過程是標準化的:一輪電話面試,一輪2個小時的限制的筆試(分為SQL分析和一些操作簡單資料庫並回答的開放式問題),然後一輪現場面試—混合了技術問題和行為問題。
技術問題圍繞Uber的產品:你會被要求處理泊松分布,時間序列分析,以及用演算法讓駕駛員接受預訂等問題。 Uber的數據科學團隊專註於優化一個乘客與駕駛員之間快速和省時的互動。他們的面試也是根據這個工作需求設計的。Uber的數據科學團隊正在做什麼:這篇文章是Emi Wang,一位Uber當前的員工介紹的Uber數據科學團隊的日常工作。他們的工作在編寫代碼,做業務分析和為新項目創建模型中交替,包括通過Geosurge調整供應和需求;Geosurge是Uber動態定價的內部系統。LinkedIn的面試是怎樣過的?
Linkedin的面試經歷積極反饋是消極反饋的兩倍。很多候選者是通過網申獲得面試邀請,所以可以試一試自己的運氣!整個Linkedin的面試過程的難度被評定為比平均水平低一點:2.8分。
一位領英的招聘官說,面試過程包括一輪與招聘官的電話面試,一輪與團隊領導的電話面試,然後一個現場面試。大多數候選者會收到一個長達3到4個小時的在家裡完成的數據科學作業。Linkedin的面試問題大多圍繞你對Linkedin產品的興趣,例如如何推測員工的工資,或者如何從事一些已經建立好的屬性(你可能認識的人)。Linkedin團隊非常看重Python和機器學習,儘管這部分知識會出現在面試的後期。前期還是多通過SQL和數據挖掘的問題來淘汰部分不合格的候選者。Linkedin數據科學團隊正在開展的工作:前Linkedin產品數據科學主管Daniel Tunkelang大概描述了每個人在團隊裡面的角色,以及團隊在2012年的主要工作:包括更新社交圈,使其與用戶更加相關,並更能代表用戶的職位頭銜。Twitter的面試是怎樣的?
Twitter的面試經歷反饋有45%為中立,27%為積極,27%為消極。大多數申請者是通過網申拿到面試機會。Twitter的面試難度被評定為3.5,所以準備好要接受挑戰。
受訪者認為面試結果回復得非常快,但是這個面試過程還是非常長的。首先是一輪網上的編程筆試,然後是兩輪電話面試,一個關於編程,一個關於統計推理。之後公司現場面試包括兩個Skype面試,一個關於數據科學,一個關於編程。
編程問題都是非常經典的軟體工程的面試問題,但是Twitter的數據科學面試多數集中在開放性題目和與Twitter現在的工作相關的問題。候選者被測試到A/B測試的相關知識,同時他們用http://collabedit.com平台來做遠程的編程筆試。一個候選者說他收到了很多白板問題 來測試他的機器學習理論和演算法設計等知識。Twitter數據科學團隊正在開展的工作:這篇文章是一個在Twitter工作了兩年的數據科學家分享的個人經歷。文章記錄了部分工作:包括研究為什麼某些國家有更高的多個Twitter帳戶的比率和可能涉及的因素,以及有多少用戶有資格獲得不同的通知類型。Airbnb的面試是怎樣的?
36%的Airbnb面試經歷是積極,27%是負面的。大多數面試邀請都是來自員工推薦:這一點看出Airbnb對他們內部推薦系統有強烈的權衡。面試的難度評分為3.5分。
面試過程的有少數公開的詳細描述的數據,其中最有參考價值的是由Airbnb的數據分析主管公開的。他描述了先通過電話面試過濾部分申請者,之後是基本的數據筆試,之後是內部數據破解,然後是四次面試。這四次面試主要側重於文化適應和與業務夥伴溝通的能力。
Glassdoor上的評論證實了整個面試過程是恰當的。在家裡完成的數據筆試主要側重點在於A/B測試和結果的顯著性。之後的公司內部的數據測試主要側重於統計建模。儘管測試非常基礎,但是給的時間非常少,所以你必須非常熟悉Python和R以便於能在極短的時間內最好地完成測試。Airbnb數據科學團隊和別的數據團隊不同的一點是,他們非常關心候選者對Airbnb產品的想法以及過往的使用經歷,所以務必準備好一些關於Airbnb應用程序使用體驗的問題和你對產品的想法。
Airbnb數據科學團隊正在開展的工作:部分資料描述了數據團隊如何在Airbnb整個團隊中實現數據驅動型文化。
Yelp的面試是怎樣的?
大多數人在通過網上申請得到Yelp的面試邀請。 面試過程的難度被評為略高於平均水平,為3.3分。
整個面試的過程如下:一輪限時的網上數據筆試,一輪電話面試,最後是一輪現場面試 – 分別與4個人面對面的面試。
Yelp的企業文化相當開放,員工自豪地分享他們使用的不同的工具,這一點和谷歌相似。 Yelp數據科學面試問題是相當標準化的。
Yelp數據科學團隊正在開展的工作:其中一個是團隊如何用深度學習對餐廳圖像進行分類,以區別它們是食物的圖像還是餐廳的內外部裝飾的圖像 。Google的面試是怎樣的?
大多數Google面試經歷都是積極的,60%的受訪者反饋了積極的體驗。 員工推薦是獲得面試的最佳方式,50%的受訪者聲稱這是他們的獲得面試的途徑。 面試過程同時也被評為是所有面試中最難的:難度等級為3.7。
最開始是一輪集中於技術的電話面試,然後是一輪高強度的現場面試—分別與谷歌的幾個當前員工進行長達一個小時的面試。 電話面試混合了基本的計算機科學問題和統計問題,重點集中於R/SQL 。現場面試問題側重於如何切割數據。Google的數據科學團隊正在開展工作:這篇「非官方」的Google數據科學博客分享了團隊正在開展的大量項目,包括如何成為Google數據科學團隊一員的初級課程。
J.P. Morgan的面試是怎樣的?
摩根大通的候選人主要來自校園招聘,網上申請和招聘官招聘。 面試難度低於平均水平:為2.7分 。
這個過程開始於一輪30分鐘電話面試,其次是與招聘經理和一個團隊內的高層管理者的視頻面試,最後是與幾個人面對面的面試。 摩根大通的面試主要側重於金融知識以及機器學習。 他們還強調與業務團隊的溝通,要求候選人向非技術團隊成員解釋什麼是線性回歸。摩根大通的數據科學團隊正在開展工作:摩根大通使用Hadoop獲取大量的客戶和交易數據,並將其與社交媒體提及的內容結合起來,從而獲得對他們所服務的客戶的完整認識。數據科學的世界擁有巨大的潛力,大多數公司希望利用他們的數據產生的洞察力來助於他們在21世紀的經濟前沿進行競爭。 通過我們的分析,我們希望你能夠將這些知識轉化為可操作性的行動,打造你的數據科學職業生涯,並打破加入頂級數據科學團隊的壁壘!n
原文作者:Roger Huang
翻譯:Kristin Chen
編輯:Ruifeng Wang
推薦閱讀: