標籤:

雖然是BSO但是還算是我的DS提高路程

今天剛據了某司210k pkg,請容我難得的公開得瑟一下。

本文只是一些散亂的個人DS提高心得,不喜歡常見的網上灌水文的朋友我完全理解,可以跳過本文。

重點是:

不停學習,不停學習,不停學習

這個非常非常非常重要。在工作中學習固然很好,但是極少工作會完全覆蓋,甚至大部分覆蓋DS重要技能。因此期望在工作中就能各方面提高的朋友還是要重新調整期望(如果你在google deep mind 這種地方請當我沒說,請收下我的膝蓋)。

工作中至少有50%是在學習domain knowledge。這些知識說重要非常重要,因為它們會決定你在公司的發展。說不重要也不重要,如果你換了個工作可能一文不值。所以你需要花大量時間伸出你學習的觸手。

再說一遍,DS不是Data analysis,你需要大量的,不停更新的知識。

學的東西不要局限於理論知識,ML知識20年前就放緩了發展步伐,近20年來發展的都是應用,這些應用包含了大量程序的實現,所以學習各種語言,函數包也非常重要。從小白到具有一定知識的DS,我的路線是:

Python (R) 框架 -> pandas/numpy -> sklearn pipeline -> 其他各種library -> 數據結構和演算法 -> code performance!

比如我一年前刷的演算法題會在某司的面試中問道,比如我心血來潮看的numpy底層實現方法也被問道,比如很早前看的bayesian inference會在前一次跳槽時候的某次面試中問道(面試官提到了一本我很喜歡的書,我表示很喜歡它的內容結構和習題,然後就勾搭上了,當然我確實是做了習題的……)我自己看了一邊的scala讓我在工作中有了機會,等等。老話說的好,技多不壓身。

永遠不要只關注紅火的東西。DS是被opensource撐起來的,一定要關注各種opensource環境,甚至有些可能註定消亡的project,說不定提供了一個很好的思路。不要對所有問題都提出大數據的解決方案。大數據這個名詞本身被用來忽悠人,請參考消除對大數據的錯誤認識。雖然SQL不能解決所有問題,但是工作中經常把NoSQL作為第一層介面,structured data作為pipeline之前最後的介面。畢竟structured data是最容易處理的結構。另外這裡我想推廣一下我司的opensource project之一: UptakeOpenSource/uptasticsearch 一個非常簡單好用的elasticsearch庫。

自己培養project的感覺。去實現你的idea!哪怕不算是純DS。github是個好東西,提出你的想法,開始著手寫code,在寫的過程中你就會知道什麼是難點,什麼地方有意思,怎麼跟別人collaborate,這些東西不是光分析產品前途就能學到的。我做了好多根本沒什麼用的webapp project然後再工作中被promote成OKR。另外github是DS的簡歷之一!

面經請看這裡 Citadel Data Scientist 面經

推薦閱讀:

消除對數據科學家的錯誤認識
聚類演算法第一篇-概覽
聚類演算法第二篇-層次聚類演算法Birch
從微積分和線性代數角度看線性最小二乘原理

TAG:數據科學 |