什麼是最重要的事?

前些天一個年輕人發了我一條私信。大概意思是,從普通學校ME專業畢業的他想成為一個優秀的數據分析師,而不是一個簡單的爬表俠。我大概簡單的問了一些問題(比如如何對付反爬蟲?什麼是regular expression,這玩意的意義和好處在哪裡,能不能用re現場寫一個比較簡單的filter?)以後發現他並沒有,至少目前沒有成為一個數據工程師的能力。基礎知識顯得也比較薄弱。不過,這個提問倒是讓我思考了不少問題。

年輕人大抵願意去做的是看起來非常炫酷的data scientist或者data engineer,但是少有願意去做一些dirty work,messy work比如做數據清洗這種繁瑣枯燥的活的。我也忽然想起當年最開始做半導體開發的那些日子。半導體沒有摸到;倒是天天和玻璃在打交道。從洗玻璃,切玻璃,磨玻璃;做開發的入門其實就是做這些事。

比如,什麼才是最重要的事情?什麼才是最重要的能力?

重要的事情和重要的能力有很多。但是其中一樣,一定是非常重要的。那便是,願意去做dirty work乃至messy work的能力。偉大始於平凡,細節最見功夫。整個數據行業最勞神費力的data cleaning,反而才是數據處理的最大頭,也是最值得用心其間的手藝。能處理好數據,後面的東西自然也就不那麼難了。如當年拿黃都靈一役即打開了通向亞平寧半島的大門。

願意做dirty work的能力,是相當重要的能力。

關山萬里總需行。是為記。

推薦閱讀:

數據分析師的職業規劃
Records for Pandas(1): Basic function and property of Series
pandas(一) 數據結構
數據分析第一關:初入數據之門

TAG:數據挖掘入門 |