數據科學家的離職潮背後,有怎樣的扎心真相?

數據科學家的離職潮背後,有怎樣的扎心真相?

來自專欄 DT財經

文/Jonny Brooks

提到數據科學家,大多數人的印象一定是「精通演算法」、「全棧開發能力」、「行業理解獨到」、「領導力超群」......

但事實上,這群全能的獨角獸也有著自己的職業焦慮。今天這位來自英國的數據俠,即將撲滅我們心中對這個職業「憧憬的小火苗」,談談現實中的數據科學家。

本文轉自公眾號大數據文摘(ID:BigDataDigest)

在你的印象中數據科學是21世紀最性感的工作,他不僅能夠帶來滿意的薪酬,而且領域內大量高技能的「極客」 會幫你享受到思想碰撞的樂趣。

但英國《金融時報》的一篇文章中提到:「數據科學家每周花1-2個小時尋找新工作。」此外,文章還指出「在要找新工作的程序員的列表中,機器學習專家們以14.3%的比例名列第一。數據科學家們緊隨其後,為13.2%。」這些數據是從對Stack Overflow 上的64000名程序員的問卷調查中來的。

那麼,為什麼有這麼多的數據科學家在尋找新的工作呢?

在享受這份職業帶來的激情與滿足之餘,總有一些消極的方面在給你潑冷水。希望下文這些扎心的真相,希望不要把你心中的熱火撲滅~

設計期望和現實不符

(圖片說明:期望與現實的對比)

大數據就像青少年的性愛:每個人都在談論它,沒有人真正知道如何去做,每個人都認為其他人正在做,所以每個人都聲稱自己在做。

——丹?艾瑞里

這句至理名言十分恰當的描述了初級數據科學家進入數據科學領域的初衷——每個人都不想讓自己脫離群體。另外想用酷炫到爆的機器學習演算法解決複雜問題,從而對企業產生巨大的影響,也是入坑數據科學的另一重要原因。

你或許認為你能從高超的技能中充分感覺到自我價值的實現。然而,事實往往並非如此。

期望與現實不符是許多數據科學家離開的根本原因。其中原委無法一一列舉。

每個公司的情況都不盡相同。但許多公司僱傭數據科學家的時候都沒有做好準備從人工智慧中獲取價值的準備,這就導致了人工智慧的冷啟動問題。

加之如果這些公司沒有高級的或者資深的數據從業人員「撐場面」,那就不可避免的會出現讓雙方都處在失望和不愉快的境地。數據科學家們想要編寫機器學習演算法來創造有價值信息,但卻做不到。

因為他們的第一項工作是整理數據基礎結構或創建分析報告。然後公司會因無法看到可觀的價值而感到失望。而這一切都會導致數據科學家們對他們現狀的不滿。

Robert Chang曾給初級數據科學家提供了一個非常有見地的建議:

你的雄心與你的團隊所選擇的方向是否一致是非常重要的。如果不一致,那麼你就需要找到那些最適合你的項目、團隊和公司。

這句話強調了僱主和數據科學家之間的雙向關係。如果公司與數據科學家的目標不一致,那麼數據科學家另擇新主就只是時間問題。

數據科學家們感到失望的另一個原因是他們曾經相信我能夠對世界各地的人們產生巨大的影響,而不是僅僅在公司內部。實際上,如果公司的核心業務不是機器學習,你所做的數據科學很可能只會帶來小幅的增量收益。

政治統治最高

數據科學最困難,而且是不得不面對問題是:政治。

當我早上6點起床去學習支持向量機(Support Vector Machines)的時候,我想:「這真的很難!但是,嘿,至少我會變得對我未來的老闆很有價值!」如果我能得到DeLorean時間機器,我就會回到過去,並對自己說「胡說八道!」

如果你真的認為了解大量的機器學習演算法會使你成為最有價值的數據科學家,那麼回到我的第一個觀點:期望與現實不符。

事實是,在商業中最具影響力的人需要對你有不錯的印象。這可能意味著你必須經常做一些從資料庫中獲取數據的簡單項目,來使正確的人對你有正確的認知。

是的,這些工作令人很沮喪。但是,必不可少。

你想上天

希望能夠成為取悅所有人的數據科學家,意味著將成為分析專家,去做報告的人,同時還是資料庫專家。但是這往往偏離了數據科學家的含義。

不僅僅是非技術高管對你的技能有太多的假設,技術部門的其他同事也會假定你知道所有與數據相關的東西。你熟悉Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、R、Scala、Tensorflow、A/B測試、NLP,以及任何與機器學習和數據相關內容。

順便說一句,如果你看到一個崗位對上面這些都有要求,請保持遠離。因為這說明這家公司不知道自己的數據策略是什麼,他們會隨便招人,因為貌似任何懂數據的人都可以解決他們所有的問題。

但它不止於此。既然你懂得這些技術,而且顯然又可以拿到所有的數據,別人就會期望你在極短的時間內回答所有的問題。

嘗試在可控範圍內交底你的短板,你並不會真的得到輕視。而作為一個沒有什麼行業經驗的初級數據科學家,你擔心人們會輕視你。

在一個孤立的團隊中工作

我們看到的成功的數據產品,往往具有設計巧妙且具有智能功能的用戶界面。最重要的是,它至少會有一種有用的輸出使得用戶可以通過它來解決一個相關的問題。

現在的問題是,如果一個數據科學家只學習如何編寫和執行機器學習演算法,那麼他們就只能是一個成功的項目,一個有價值的產品的團隊的一小部分(儘管是必要的)。這意味著孤立工作的數據科學團隊將難以提供價值!

儘管如此,許多公司仍然有數據科學團隊提出自己的項目並編寫代碼來嘗試解決問題。在某些情況下,這可能是有價值的。例如,如果公司需要的只是每季度一張靜態的電子表格,那麼它確實可以提供一些價值。

可另一方面,如果目標是為網站構建的優化提供明智的建議,那麼這將涉及到許多不同的技能,而這對於絕大多數的數據科學家來說是不可能的(只有真正的數據科學獨角獸才能解決這個問題)。

因此,如果項目由一個孤立的數據科學團隊承擔,它很可能會失敗。

因此,要想成為一名數據科學的業界翹楚,僅僅在Kaggle競賽中做得很好並完成一些在線課程是不夠的。尋找一個與你的目標大方向一致的公司,應該是你在尋找能滿足你需求的數據科學工作時的一個關鍵指標。但是,你可能仍然需要調整自己對從事數據科學的期望。

我希望我沒有把你從這條路上拉下來。

你是怎麼應對工作中這些沮喪時刻的?歡迎在文末留言告訴DT君。

註:內容僅為作者觀點,不代表DT財經立場。

編譯 | 張馨月、黃文暢、蔣寶尚

題圖 | 站酷海洛

數據俠門派

本文數據俠Jonny Brooks,博士生在讀,熱愛機器學習演算法,希望之後能夠成為一名數據科學家。

推薦閱讀:

知乎問題標籤預測開放數據集上線啦
生成式模型VS判別式模型淺析
基於深度學習的文本分類
初探機器學習檢測 PHP Webshell

TAG:數據分析 | 機器學習 | 數據科學家 |