Statisticians和Data Scientist到底是怎麼聯繫在一起的?

統計PhD 入學快半年了,一直在做一些生物統計方向的研究,但經常耳濡目染看到大家談論Big Data,也偶爾看一看linkedin之類的招聘Data Scientist 廣告,看到業界對Hadoop之類的軟體很看重,也經常Youtube會蹦出來一些讓我付費的Hadoop網課廣告,自己試著在網上聽了幾節印度口音比較重的課草草了解了一點點,但也是雲里霧裡。

其實一直都覺得自己的PhD課題自己很感興趣,也有很多可以做的方向,但也對業界做的東西很有興趣,比如AlphaGo的出現,作為圍棋發燒友真的是感覺AI的強大。也看過一點。

再就是看了一看業界大牛的publication list,Publications 感覺滿屏也是熟悉的各種名詞,EM,Bayesian,Dirichlet等等,看看內容也覺得是蠻複雜但也不是完全看天書,為什麼總覺得自己每天算算MLE,折騰一下生存分析的模型,用R做一點有的沒的coding這麼弱,與主流脫節。雖然還是挺喜歡但有種莫名的與主流脫節的危機感。

總感覺好像作為一個統計博士,感覺data science和我有點遠,我們學過的一些處理方法比如random forest,cluster,association rule等等是不是也可以叫大數據的處理方法呢,能不能麻煩各位給一個比較籠統的介紹,不求多深入的做專家,但希望也能了解一下拋開論文外的世界。這些東西到底是怎麼應用到業界的,我總是沒太多辦法把這些演算法和AI聯繫起來,底下po了兩張Quora上類似的問題的答案,還是想請教一下說母語的專家能不能系統的幫忙給點指導性概念。

PS: 如果不是那麼懂演算法,像Java,C等等也只是上過本科一門課的背景,常年用R,Matlab,SAS。但還算了解一點統計和概率,那麼這個時代里我的價值是什麼

謝謝大家了!


瀉藥。 Data Scientist現在火的不行,很多物理學、生物學的博士都轉行做數據了,你是Statistic PhD,天然的優勢要好好把握。

喜歡演算法就折騰演算法,喜歡工程就折騰編程,總有一合你。


多學點類似的課程就會發現,其實很大一部分所謂的「大數據」演算法,都是一些經典統計學方法在大數據量背景下的延伸。主要的挑戰在於你如何在有限的main memory下高效地處理問題,並且保證盡量小的誤差,所以才會需要藉助Hadoop,spark這些工具。工業界做這一部分工作的data scientist更偏向data engineer或者是software engineer。

還有一類data scientist個人認為就是statistician,專註於statistical inference,experimental design之類的事情,比如Google的Quantitative analyst。

題主可以根據自己的興趣深挖一個方向,然後了解另一個方向的大體內容,就對成為一個不錯的data scientist很有幫助了。


Statistics, Data Science, Machine Learning, AI 是一些經常出現在一起、經常被混用但實際上有所區別的幾個名詞:

在這裡面,我們先把AI摘出來。AI是一個歷史悠久且極其寬泛的領域,目前AI界主流的Deep Learning、Reinforcement Learning之類的只是作為目前最熱門的AI的分支----Machine Learning的框架中提出的方法。從AI全局去看,這只是其中的一個部分。我覺得題主提到的AI其實更接近Machine Learning的範疇。

Machine Learning是一個處於statistics和computer science之間的領域。作為statistician對裡面的名詞感到熟悉是很正常的,因為大多數的Machine Learning都具有數學理論的支持,而這些數學理論很多是來自於統計學的,比如LDA、圖模型。當然也有一些演算法的理論被劃歸到Theoretical Computer Science裡面,用的工具有PAC學習理論一類的。

Machine Learning和Statistics的區別在於,前者更在意東西work不work,而統計學則要搞清楚為什麼work。有很多像Deep Learning這樣在實際應用中效果很好但理論支持不足的東西,就在Machine Learning領域很受歡迎,在stats領域就比較受冷落。在stats里做deep learning的人,更傾向於用統計的模型與解釋Machine Learning的演算法,比如Dropout as Bayesian Approximation這種工作。反過來,像EM、Bayesian這些工具,通常在Machine Learning的演算法設計里起到一些指導作用,比如VAE就借鑒了Bayesian的常用工具Variantional Inference。

Data Science這個概念更多的指的是應用和data有關的技術解決問題的方法統稱,具體而言基本就是指使用stats與ml技術來解決問題。一般非純科技背景的公司會傾向於在自己的招聘需求里用data science而不是machine learning或statistics來描述自己需要的人才,但大家用的還是stats和ml的工具。在實際應用中,由於存在解釋性的問題(讓沒有專業背景的客戶明白你的模型),其實很多高級的stats工具和machine learning工具都不會用到,更多的就是各種regression,然後random forest、clustering等等。而且很多時候,問題的平靜往往並不來自模型,而是比如數據預處理或者怎麼寫代碼和設計模塊這些方面,就要求從業者具有一些工程方面的能力。並且工業界因為真的會處理很大的數據,所以很看重一個演算法是不是scalable,以及怎麼快速運行,因此像hadoop和spark這類分散式平台也用的很多。

最後對於題主的問題:如果你將來想要去業界工作,那麼平時應該多積累一些實際處理數據的經驗,多練練coding;如果你對AI或者說machine learning感興趣,可以看看你們cs系有沒有開這方面的課然後修一修,課上一般都會講常見演算法的理論基礎,自然就可以和你的統計知識聯繫上了。


Statistician和Data Scientist很多時候可以劃等號,很多公司同樣的崗位,有的叫Statistician,有的叫Data Scientist。我想題主想問的更多的是:在Biostats/Stats里學到的基本的large sample theory, survival analysis等理論和方法似乎和現實需求的大數據處理有些差距,並覺得這些差距難以彌補。

我想說,某些程度上來說,我贊成題主的觀點。在學校學習的課程,每個學校都有基礎性質的Monte Carlo, Large Sample, Multivariate, Survival。不管老師如何,這些課程總會佔據你最多的時間。比如雖然Alan Agresti這樣的大牛在我們學校,但是他offer的也只是基礎性課程。但如果說高級課程就要看各個學校的老師的專長不同了。統計這門大學科,或者生物統計這門大學科里,你畢業的時候做的論文一定和你的同學不一樣,所以想一想,每個老師的專長也不一樣,因此offer的高級課程也不一樣。比如我們學校的統計老師有Stochastic Approximation Monte Carlo (SAMC)的大牛,這個方法我的了解是最新的超越模擬退火演算法來解決「一筆畫」問題的的演算法。所以他offer SAMC的課程。有的老師專長於Machine Learning或者是Stochastic Processing Networks,他就offer 相應的課程。所以某種程度上來說,我贊成題主的觀點,能夠在業界前沿使用的方法並不一定能在phd階段接觸到,或者學習完。

另一方面,畢業論文話題的選擇,研究的方向更多的是要自己發掘。只有看到一個領域前方空曠,這個領域才是值得投入的。也就意味著這條路上沒有太多的人可以幫助你。這時候你需要紮實的數理基礎和對物理的了解。這些知識對於高級內容的自學是很有幫助的。很多時候我們不一定要成為每個方法都懂的大牛,我想對大部分方法有所了解,真正在某一個小的領域有所擅長,就已經能讓自己成為不會被輕易替代的人了。

關於編程,R如果能不用package自己寫代碼,我相信C對你來說也不會太難。會有人學CS的minor,但我個人覺得偏離了我們擅長的領域。說到底,術業有專攻,我們雖然知道學數理的,學物理的,學CS的都會在某些方面比我們的理解更深刻,所以我們能做的就是放大我們的專長,我們和他們不一樣在於,我們是解決現實問題Methodologist,對於實驗的設計,方法,解釋都是專長,我們可以hire 數理的人證明我們提出的公式,hire CS的人給我們編程。生活中,企業里我們能夠建立模型,優化結構的地方很多。例如在淘寶上給每個個人用戶推薦哪些「你可能感興趣的商品」,在嘀嘀打車中優化共乘的乘客和線路的選擇。我們就像橋樑,連接著艱深的演算法和現實的運用,我們understand both,我想這也是statistician/data scientist最獨特和閃光的價值所在 : )


謝邀。

類似牛頓經典低速物理學與愛因斯坦高速相對論的區別。

舉例說聚類演算法。在數據集小的情況下,數據之間的correlation比較明確,random correlation也很少。聚類效率高,效果明顯。

在大數據下,如何進行分散式,多線程聚類,如何消除random correlation的影響,這是研究的重點。

量變引起質變。

關於統計學與數據分析,我認為還是基礎與應用的關係。


前者是在理解數據背後的邏輯(如:數據服從獨立同分布)基礎上用模型驅動(如:做線性回歸),後者是在對數據不(甚)了解的基礎上做數據驅動模型(如:神經網路中參數根據data不斷改變)。


後者要會做ppt


研究對象都是數據


推薦閱讀:

如何在 R 中高效快捷地處理大量數據?
截至 2014 年 7 月初,魅族 MX3 的銷量有多少?
如何看待2015年中國育齡婦女總和生育率僅為1.047?
如果一個女生說,她集齊了十二個星座的前男友,我們應該如何估計她前男友的數量?
鄉鎮衛生院是法人單位還是產業活動單位?

TAG:Hadoop | 統計 | 大數據 |