5年數據科學家熬成Senior,在想啥呢?

[本文內容從知乎答案總結而來:從事數據分析(數據挖掘)的工作已經一段時間的你(1年,2~3年,5年,8年),現在是一種怎樣的狀態? - 彭河森的回答 - 知乎 ]

我從2012年博士畢業,入職亞馬遜西雅圖總部。當時大數據這樣的概念剛剛興起,Hadoop的使用都還是陽春白雪。那個時候我成為亞馬遜最年輕的機器學習研究員+數據科學家,算是一個大新聞了。到現在已經5年了,如果算上2010年在谷歌實習,現在也有7年了吧。眼睜睜看著數據科學家這個頭銜從炙手可熱的香餑餑淪陷成為了人盡可夫的行業,真是感慨萬千。

大多的東西已經總結準備寫在《實時機器學習實戰》這本書裡面了,預計2017年8月出版,就提出幾個大點說一下哈:

1 當年的戰友去哪兒了?

細細數來當年和我同時入職亞馬遜的數據科學家主要有三個出路:

1) 轉純程序員(50%左右):數據科學家的價值體現其實非常曲折,有些時候做的心累了,就直接轉純程序員了。中間牛逼無敵的大有人在,因為程序員的選擇面很寬,所以不乏薪資比我多兩三倍的牛人~

2)轉PM(40%左右):數據科學家免不了忽悠,忽悠多了失去了自己,有的就變成了會寫SQL的產品經理。

3)變成全棧數據科學家(10%左右):能在數據科學方面混到很多年的,大多都最後變成了全棧科學家,我現在就在這條路上走。全棧化的好處是前面可以通程序員、系統構架,後面可以通管理層,大侃價值觀,對全局把控強了之後,做的東西更容易落地。壞處是頭髮白的特別多。

經驗:數據科學家這個職位可能就像是諮詢公司一樣,不是特別適合終身職業的。雖然早期入行可能非常風光,但是長期看來,價值的落地、測量比較困難,可能需要從長計議,找好下一步。

1 機器學習技術方面

模型是平的,很容易獲得。經驗是曲折的,必須耗費無數血汗去獲得。這點不管對於做研究還是做業務都是如此。模型方面,現在不外乎五大生態系統:

  1. Python + Scikit Learn,最適合生產環境和數據研究混用
  2. Spark + MLLib
  3. Java + Weka
  4. TensorFlow等深度學習生態
  5. 微軟等內部重造輪子生態

上面五種生態除了最後一個,其實都非常容易入門,有基本的數學、統計知識,看看github源代碼,鼓搗鼓搗基本上都是可以出東西的。但是具體參數怎麼調,這些都是費力不一定討好的地方,具體出多少成果,完全要看自己的具體領域和上下游情況。

另外,系統工具方面近幾年發展真是突飛猛進。現在入行的小朋友們福氣太好了,遙想我們剛剛開始工作的時候,做個數據透視表還要用R敲敲打打,現在直接上Elasticsearch + Logstash + Kibana (ELK) ,分分鐘幾下就出來的事情。Docker, Kubernetes都非常好用,連續部署的速度和門檻都比以前大大降低了。

經驗:Docker出現以後,如果一件課題的代碼超過了2000行,就說明你做錯了。

2 管理方面

很丟人的還沒爬到管理崗,大家可以盡情的鄙視我。從亞馬遜騙走了一個程序媛當老婆,中間談戀愛結婚生子,現在小孩總算上幼兒園了,希望這方面可以鍛煉一下。

經驗:要跟對好的、有上升機會的老闆/部門,跟著老闆走升的比較快。大數據看似是一個很火的領域,但是真的有上升機會的部門其實不多,例如做risk和預測的部門,往往一直都比較苦逼,只有在出問題的時候大家才會想到你。

其他的?

馬上要去一家小創業公司當數據科學家,現在當然我是非常一刻賽艇的,畢竟能夠利用自己的全棧實力獨當一面的做事了,嗯,願一切給力。


推薦閱讀:

TAG:互联网 | 机器学习 | 大数据 |