數據科學家的自我修養

編者按:謹以此文向著名統計學家、中國人民大學統計學院教授吳喜之教授致敬!

正文:

繼雲計算之後,大數據已然成為IT行業的熱點。《哈佛商業評論》更是宣稱「數據科學家」是二十一世紀最性感的職業。所謂性感,既代表著難以名狀的誘惑,又說明了大家都不知道它乾的是什麼。這裡我不想重複什麼是大數據,什麼是數據科學,而是直接從數據科學家這樣一個神秘的群體開始讓大家對大數據和數據科學有個基本的認識。

認識數據科學家

「數據科學家」是舶來語,翻譯自英文「Data scientist」,用來描述「一些能綜合運用編程和統計技術的人,致力於通過各種方式讓將數據更發揮作用」的一個群體。數據科學家是一個頭銜,而不是職位。狹義上「數據科學家」是有一定影響力的數據科學和人工智慧專家。如圖中的神經網路之父Geoffrey Hinton 、神經網路專家Yann以及大名鼎鼎的吳恩達。

廣義上數據科學家是一個泛指,類似於「網紅」,在國內我們聽到的數據分析師、數據挖掘工程師、演算法工程師和大數據工程師也都可以被稱為「數據科學家」。

毫無疑問,這是一個自帶光環、高大上的群體,如果你有志於成為他們的一員,可以從以下這麼幾個方向開始。

明確學習目標

首先你要有自己職業規劃,知道數據分析和大數據是做什麼的、能解決什麼問題,給自己定一個小目標。一個有經驗的數據科學家:最少要有2到3年工作經驗,而工作經驗體現在運用數據科學處理各種商業問題的能力上,同時需要具備以下技能:

  • 一流的分析技巧:探索凌亂的數據集並提取洞察的能力;
  • 在SQL運用能力方面是一名內行;
  • 能很好的掌握假設檢驗、分配、回歸分析和貝葉斯方法;
  • 有與商業方面的機器學習經驗;
  • 對於Python語言和Jupyter環境有經驗;
  • 對於pandas、numpy、sk-learn和NLTK有一定操作經驗;
  • 具備寫編寫Latex格式文檔的能力;
  • 在統計學,運籌學,經濟學,計算機科學,或其它相關領域具有本科或碩士學歷。

未來數據分析是一種工具,在金融、互聯網、電子商務、公共服務、醫療健康等領域非常廣泛,職位上面偏業務的有數據分析師、數據產品經理、數據規劃師等職位,偏技術的有大數據工程師、大數據架構師、演算法工程師等職位。

◆數據分析師:業務線,負責通過數據分析手段發現和分析業務問題,為決策作支持。

◆數據挖掘工程師:偏技術線,負責通過建立模型、演算法、預測等提供一些通用的解決方案,當然也有針對某業務的。

◆數據工程師:技術線,負責搭建倉庫搭建、數據的存儲、處理、計算處理、報表開發等。

吳喜之語錄:

如果你擅長數學,有很清晰的邏輯思維能力,有技能組合,就可能當上數據科學家。相比專長於任何特定編程語言,泛型變成技巧更重要。真正適合幹這一行的人,會在業餘時間裡編程序、分析數據。

學好數學相關課程

數學是學科之王,物理、化學的終極領域就是數學。工業革命的首先是科學技術的革命,數學在其中扮演了非常重要的作用,17世紀的英國、18世紀的法國、德國,19世紀的俄國和美國,無一例外是數學強國。數學科學分析和研究的對象就是業務和數據的關係,而數據在脫離了上下文的時候就是數字,要處理數據必須運用大量的軟體工具和數學知識。

如果你還在學校,最重要任務就是打好數學基礎,學好高等數學、線性代數、概率與數理統計、數值分析、多元分析、泛函分析等相關課程。數學是一門基礎學科,需要長時間的學習和知識積累,而且數學課程離開學校是沒地方補的,數據分析的其他能力(如編程)可以通過其他渠道學習。

吳喜之語錄:

統計學對課程基礎的要求比較高,沒有辦法速成。單純的編程比較容易學。

多關注領域知識(Domainknowlage)

學習一門技術要和行業靠攏,沒有行業背景的技術如空中樓閣。大數據是技術工具,最終的應用需要深入理解業務企業的業務場景和商業模式,甚至有人說不懂業務就不要談大數據,可見領域知識的重要性。近幾年在頂尖科學雜誌《Nature》與《Science》上發表的大數據文章都是來自行業專家,而並非計算機專家,這從另外一個方面反映了業務知識的重要性。在PPV課課堂上有一個案例是《電力系統偷漏電分析》,在這個案例中,如果你不了解工廠的生產規律是無法進行特徵提取的,更不要說建立有效的數學模型。

吳喜之語錄:

最根本的就是領域知識,你必須了解領域知識,你才能夠知道該怎麼做。如果你僅僅是一個乾巴巴的統計學家,你不了解統計,你可以做很多荒謬的事,不了解實際問題。

掌握泛編程能力

先看一份國外的調查報告《O』Reilly關於數據科學職位薪酬研究》,研究的983個樣本來自45個國家以及美國45個州的不同行業。通過本次調查的64個問題,研究了數據科學家、分析師與工程師所要使用的工具,工作涉及的任務以及薪酬的內容。

調查結果發現包括:

1. Python和Spark是對薪水貢獻最大的兩大工具。

2. 在那些寫代碼的人中,寫代碼最多的人最高。

3. SQL,Excel,R和Python是最常用的工具。

4. 參加會議越多,賺得更多。

5. 做同樣的事情,女人比男人的工資少。

6. 使用工具方面薪資差別最顯著在於,那些主要使用Excel,SQL和少量關閉源工具的人員以及使用更多開源工具並花費更多時間編碼的人員之間。

7. R用於各個部門:即使是那些不編程太多或者使用很多開源工具的人,也會使用R.

8. 年輕的一批大量使用Python的數據科學家、數據分析師比起原來使用大量各種工具的人,獲得的薪水更高。

簡單的可以理解為數據科學家這個職位寫代碼越多工資越高。

那麼對於沒有編程基礎和計算機背景的同學而言,是不是就無法從事數據科學了呢?也不盡然,藉助於腳本語言或類腳本語言(SQL/R/matlab/各種shell),你只要掌握了演算法抽象的邏輯和原理,也可以很好的使用這些工具進行數據處理和數據分析。

所謂的泛編程也稱之為泛化編程或者泛型編程,原本的意思是指編程過程中忽略數據類型,只關注演算法抽象的一種編程方法。借用這種思路,類似SQL/R/matlab這樣的類腳本語言其實都可以理解泛編程工具。也就是說,你即使不是一個程序員,也需要掌握如何對演算法進行抽象,如何用計算機工具進行數據處理,而SQl/R/Matlab以及各種shell語言為廣大的非計算機領域的同學從事數據科學提供了更適合他們的計算機工具,這一點對沒有編程基礎的業務數據分析師、統計分析師而言顯的尤為重要。

吳喜之語錄:

計算機科學,不是一兩個盜版傻瓜軟體點滑鼠就是計算機科學了。還加上網路漫遊能力和泛型編程能力,我說的這個泛型編程能力是計算機編程理念。

嘗試跨界

跳出學科界線,嘗試跨界學習,關注人文、經濟、心理學、運籌學這些領域,今年的諾貝爾經濟學獎得主理查德·塞勒1967年獲凱斯西儲大學學士學位,1970和1974年分獲羅徹斯特大學文學碩士學位和哲學博士學位,而他後來研究的領域和他的專業卻沒有直接關係,事實上他專註的是心理學、經濟學等交叉學科的研究,並最終獲得了成功,說他是跨界之王一點也不為過。

優秀的數據科學家是一些能綜合運用編程和統計技術的人,他們致力於通過各種方式讓將數據更發揮作用,他們通常橫跨數學、計算機、人工智慧等多個領域。你需要學好統計學和機器學習相關課程,並嘗試去了解兩種文化之間的差異。

吳喜之語錄:

你離得越遠看得越清楚,站得越高了解的全局越好。整個統計學界的問題太多,所以就需要改造。把它從數學假定主導的思維方式改造過來,從模型驅動改變成數據驅動或問題驅動,機器學習是實現這種改造的一個最佳方式。

要有批判性思維

我們都是有偏見的,雖然我們希望我們不是。我們在民族、種族、性別、年齡、階層等方面有著不同的三觀,要防止把偏見注入到演算法中,這種情況在做模型假設以及在為訓練數據打標籤時都有可能發生。

舉個例子:美國新聞機構「人民(propublica)調查了一個稱為「累犯風險「的演算法。這個演算法在佛羅里達州的寫著期間被法官採用。伯綱德,左邊的那個黑人,10分中得了滿分;右邊迪倫,10分中得了3分。10分代表高風險,3分代表低風險,他們都因為持有毒品而被帶進了監獄,他們都有犯罪記錄,但迪倫曾有一個重罪,而伯納德沒有。打分結果和實際情況是存在偏差的,這是由於人的偏見導入的。

思維的不足和偏差,一直是數據分析實踐中錯誤和問題的重要來源之一。為此,你必須保持警惕,尤其是你的分析結果將成為沖裁和判斷真相的重要依據時。

吳喜之語錄:

要有基於數據的批判性思維,而不是基於主觀經驗、權威或者是局部的知識,也不是迎合取寵式的思維。 科學意味著沒有權威,不要迷信那些權威,中國人喜歡崇拜權威。任何科學研究的目的是基於數據,顛覆舊的理論,這樣才能往前進,所以你必須要有科學精神。

快速的自學能力

大數據時代的知識,沒有像印刷時代對知識結構視為必須具備的「基礎」知識,知識是非線性的,可以自由組合、切割,處於一種分散和遊離的狀態。未來,你必須具備快速自學和捕捉知識的能力,從一個「知識儲備,學以致用」的過程,向「知識構建,用時再學」的過程轉變,學習將是一個持續的,乃至終身學習的過程。為此你需要具備一種快速而靈活的學習方式。

著名統計學家、中國人民大學統計學院吳喜之教授在授課之餘仍然堅持寫代碼和調試程序,作為青年一代應以他為榜樣,不斷從知識海洋中探索和學習。

寫在最後:

如果你想入行,可以先看一下這幾篇文章:

了解自己的興趣和特長看下《與大數據相關的工作職位有哪些?》這篇文章。

了解數據科學家入門途徑可以看下《學習機器學習首要條件不是數學而是數據分析》。

了解數據科學家需要學習的數學知識可以看下《學習機器學習需要具備怎樣的數學水平》這篇文章。

推薦兩門吳老先生的著作,第一本適合入門,第二本適合研究生和進階學習:

1、《統計學:從數據到結論》

2、《複雜數據統計方法基於R的應用》

End

原創作品,未經授權嚴禁轉載


推薦閱讀:

機器學習入門必備的13張「小抄」(附下載)
edX課程預告:To Be a Data Scientist
Kaggle入門手冊

TAG:数据科学 | 数据科学家 |