雖然是BSO但是還算是我的DS提高路程

02-12

今天剛據了某司210k pkg，請容我難得的公開得瑟一下。

本文只是一些散亂的個人DS提高心得，不喜歡常見的網上灌水文的朋友我完全理解，可以跳過本文。

重點是：

不停學習，不停學習，不停學習

這個非常非常非常重要。在工作中學習固然很好，但是極少工作會完全覆蓋，甚至大部分覆蓋DS重要技能。因此期望在工作中就能各方面提高的朋友還是要重新調整期望（如果你在google deep mind 這種地方請當我沒說，請收下我的膝蓋）。

工作中至少有50%是在學習domain knowledge。這些知識說重要非常重要，因為它們會決定你在公司的發展。說不重要也不重要，如果你換了個工作可能一文不值。所以你需要花大量時間伸出你學習的觸手。

再說一遍，DS不是Data analysis，你需要大量的，不停更新的知識。

學的東西不要局限於理論知識，ML知識20年前就放緩了發展步伐，近20年來發展的都是應用，這些應用包含了大量程序的實現，所以學習各種語言，函數包也非常重要。從小白到具有一定知識的DS，我的路線是：

Python (R) 框架 -> pandas/numpy -> sklearn pipeline -> 其他各種library -> 數據結構和演算法 -> code performance!

比如我一年前刷的演算法題會在某司的面試中問道，比如我心血來潮看的numpy底層實現方法也被問道，比如很早前看的bayesian inference會在前一次跳槽時候的某次面試中問道（面試官提到了一本我很喜歡的書，我表示很喜歡它的內容結構和習題，然後就勾搭上了，當然我確實是做了習題的……）我自己看了一邊的scala讓我在工作中有了機會，等等。老話說的好，技多不壓身。

永遠不要只關注紅火的東西。DS是被opensource撐起來的，一定要關注各種opensource環境，甚至有些可能註定消亡的project，說不定提供了一個很好的思路。不要對所有問題都提出大數據的解決方案。大數據這個名詞本身被用來忽悠人，請參考消除對大數據的錯誤認識。雖然SQL不能解決所有問題，但是工作中經常把NoSQL作為第一層介面，structured data作為pipeline之前最後的介面。畢竟structured data是最容易處理的結構。另外這裡我想推廣一下我司的opensource project之一： UptakeOpenSource/uptasticsearch 一個非常簡單好用的elasticsearch庫。

自己培養project的感覺。去實現你的idea！哪怕不算是純DS。github是個好東西，提出你的想法，開始著手寫code，在寫的過程中你就會知道什麼是難點，什麼地方有意思，怎麼跟別人collaborate，這些東西不是光分析產品前途就能學到的。我做了好多根本沒什麼用的webapp project然後再工作中被promote成OKR。另外github是DS的簡歷之一！

面經請看這裡 Citadel Data Scientist 面經