什麼是好的數據科學家?
一個數據科學家是性感職業的報道說:數據科學家就是採用科學方法、運用數據挖掘工具尋找新的數據洞察的工程師。
個人從事數據演算法相關工作,一些個人見解如下:
數據科學家工作可以包括3個方面:
1、對歷史數據的處理平台搭建:具體就是公司的基礎數據平台建設和各產品線各業務線的所有metrics指標數據監控
這個數據平台,即包括歷史數據的抽取理解和指標表現匯總和展示,更重要的是能提供下面第2、3中的演算法、數據挖掘、用戶行為分析的基礎數據支持和運算能力支撐
2、對歷史數據的分析挖掘:具體包括各種各樣的產品線的業務分析、用戶行為分析與挖掘,為產品完善、用戶劃分,用戶挽留、產品問題等等問題,提供接地氣的、有執行價值的以數據為基礎的分析挖掘結果和建議。
如果建議能執行到產品中(一定要爭取作出這種可執行的分析挖掘結果),則還要持續跟蹤後續產品數據、用戶數據變化和原因,從而形成良性循環
3、基於歷史數據做演算法預測未來xxx,舉例說來,就是各種演算法的工作,例如推薦系統,內容分類,用戶屬性預測等等。
這部分工作更多地是融入到具體產品線和業務線中去,解決實際產品和服務中的實際需求。
最後,爭取成為一名優秀的數據科學家。共勉。15:42一張圖說明問題。
歡迎關注大數據留學申請公眾號: dsjlxsq看到這個問題,怒答。首先題主這一定義的出處參見:
」數據科學家就是採用科學方法、運用數據挖掘工具尋找新的數據洞察的工程師「
我對這個問題的討論得從如下問題開始。
(一)什麼是科學?什麼是工程?什麼是科學家?什麼是工程師?看不下去了,對不對?你會覺得,需要從這麼基本的問題開始討論嗎?需要,太需要了!
為什麼要討論科學與工程,科學家與工程師的關係與區別呢?首先,讓我們先把以上概念做語義上的分析。
「數據科學家就是(採用科學方法、運用數據挖掘工具尋找新的數據洞察的)工程師。」
粗體「數據科學家」是主語,「工程師」是(賓語,or 表語?,whatever)。括弧括起來的成分是定語,用來描述數據科學家使用的方法(科學方法,這定義,好吧),所用工具(數據挖掘的工具),以及工作的目的(尋找新的數據洞察)。如果我們把定語去掉,那麼這個定語就是:
「數據科學家就是工程師。」 好吧。。。。。
從概念上講,「數據科學家」中的「科學家」才是這個稱謂的最終屬性,「數據」最多只能算一個定詞,用來限定這個科學家從事的領域。這也就是說,從字面上講,數據科學家是科學家的一個子集,所以它具備科學家的一切屬性,也決定了它與其他頭銜(如,數據工程師,數據分析師,數據架構師,資料庫分析員或管理員,等等)的區別。
所以你馬上會問,那科學家與工程師的聯繫與區別在哪呢?對此問題,這裡不做展開,請移步:
[知乎] 工程師和科學家的思維方式有什麼重要區別?
[Quora] What is science?
[Quora] What is Engineering?
[Quora] How does engineering research differ from pure science research?
我個人的理解,科學家與工程師最本質的區別是,
科學家是以問題為導向的,而工程師是以結果為導向的。具體說來,科學家的研究或者工作,是起於想要回答問題,認識真理,探究世界。而工程師的工作是起於要完成某個任務,實現某個目標,達到某個效果。
由此,關於「什麼是好的數據科學家」,我給出的第一個標準是:
標準一:一個好的數據科學家一定是有強烈的好奇心的,是open-minded,是經常問為什麼的。這是一個科學家基本的素養。
面對紛繁複雜模糊不清的事物,數據科學家要有好奇心去探究事物規律。同時,他們要能夠準確的描述事物規律,並將此轉化定義為一個清晰的科學問題。要達到這一步,需要他們具備以下能力:
標準二:一個好的數據科學家一定需要對所從事的應用領域的專業知識有清晰的認識。他們了解該領域的專業術語,科學問題;他們具備很強的領域背景。同時,他們一定具備紮實的數學與統計建模能力。
如果說以上兩個標準適用於對所有的科學家的評價。那麼,接下來我們討論,那些被成為數據科學家的人,應該具備哪些特定的素質或技能。要弄清什麼是好的數據科學家,當然要首先對數據科學家有一個清晰的定義。
(二)什麼是數據科學家?
關於這個問題,@Han Hsiao在回答「如何成為一名數據科學家」中做了很詳細的總結。對此不再重複。Quora上對此問題也有很好的總結,可以參考。
在已有的關於數據科學家的各種定義中,我個人傾向於如下陳述:
「A data scientist is someone who is better at statistics than any software engineer and better at software engineering than any statistician.」
簡言之,數據科學家是會寫程序處理大數據的統計學家,是統計學家與工程師的綜合體。如果要分角色比重,我個人認為,一個好的數據科學家首先必須是一個好的統計學家。統計學家的成分至少要佔80%。因為
「If you』re analyzing data, you』re doing statistics. You can call it data science or informatics or analytics or whatever, but it』s still statistics.」
畢竟,統計學家就是從紛繁複雜模糊不清的事物中認識規律,描述問題,構建假設,正確地設計實驗或模擬,科學地收集分析數據,最後驗證假設,進行統計推斷的科學家。
所以,我給出的標準三是:
標準三:一個好的數據科學家一定是一個好的統計學家。她/他具有很強的統計學功底與statistial sense (原諒一時不知如何貼切地轉換為中文)。同時,她/他具有紮實的編程能力,能夠很流暢地進行基於大數據的數據建模分析。
標準三基本包含了一個好的數據科學家需要的skill set。或者參考下圖。
Source: The Data Science Venn Diagram或者從數據科學的涵蓋範圍看,如下圖:Source: http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html
(三)如何成為好的數據科學家?知乎問題「如何成為一名數據科學家」有很好的討論。不做展開。
關於課程學習方面,我的簡易版的解決方案:
1. 練內功 - 學統計
2. 工欲善其事,必先利其器 - 學編程以及演算法, R, python, Java, C++, etc;
3. 大數據相關: Hadoop, MapReduce, Distributed and parallel computing, Algorithm, Database, NoSQL
4. 其他,如visualization之類
另外附上一份課程學習列表:[Data Science] Wanna be a data scientist? You can learn by yourself !!!
(四)個人經歷談為什麼「好的數據科學家一定是好的統計學家」首先來點背景。我本科學習工業工程,基本上跟運籌優化打交道。來美國讀PhD也是讀的此專業,在實驗室做的基本是數據挖掘與優化結合的研究。具體來講,我們會運用數據挖掘的各種演算法對工業系統進行數據建模,然後基於此做優化與控制。我們當時研究中面對的數據量達到GB級別,比如,500+的變數,每秒一個record,連續記錄五年。數據建模部分,基本就依賴於數據挖掘的演算法,boosting tree,random forest, Neural network之類,基本沒有統計學分析,最多就在做feature selection的時候算一下變數之間的相關性矩陣。優化部分,基本上就依賴於各種智能計算的演算法。
實話說,我們的模型可以達到很高的精度。基於此的優化結果也很鼓舞人心。每次項目大組會我們給sponsor報告時,人家各種驚嘆,哇,你們的模型好fancy呀,你們的模型精度好高啊,你們優化的結果好promising啊!哇,我們要是用你們的方法,一年可以節省好多錢啊!!!!
但是!!但是,他們也總是好奇地問一句:why?Why is that?Why do you change that controllable variable that way? 剛開始的時候,每次presentation到這個環節,我心裡就感覺成千上萬的草泥馬在一路狂奔。尼瑪哪那麼多why啊???我們結果這麼好,幫你們省那麼多錢,哪那麼多話。我不知道why! 我可以很理直氣壯地在心裡嘀咕,so what, who cares!!!
可是,等多做幾次presentation,人家多問幾次why都答不上來的時候。自己就會開始反思了。為什麼?特別地,如果優化得出來的結果跟大家的常識接近,那倒還好,如果優化結果推薦的系統控制方法與預期的common sense不吻合,麻煩就大了。因為這樣更沒法自圓其說了。
我後來反思我們的research,發現就像很多計算機演算法,我們這一整套流程其實就是提供了一個封裝好的黑箱。你給我一堆數據,我可以反饋給你優化方案。至於為什麼,你別問我,我也不知道。我不知道神經網路模型的輸出為什麼會如此,由此我也不知道優化結果為什麼是那樣。我也不需要知道,因為我們關心的——如同現在業界的很多項目一樣——是模型的預測精度。只要精度可靠,基於此做優化也是可以接受的。
慢慢地,當你自己都沒法說服自己為什麼優化結果為什麼如此時,你會開始心虛的,會開始懷疑你整個的research methodology是不是可靠的。
後來,由於以上原因外加其他各種客觀原因,我在工業工程讀完了Master後就轉到了生物統計系讀PhD了。從開始接觸統計課程開始,我很明顯感覺這個學科與工程的區別:統計是為了回答」為什麼「。從建模的第一步起,就要牢記,模型的精度不是衡量模型好壞唯一的指標,還有模型的parsimony, interpretability,generalizability. 而這些指標存在的原因,就是為了是模型可以回答」為什麼「。而一年半的統計科研項目經歷與之前一年半的工程研究經歷確實大不一樣。做統計項目,我們一直在問」為什麼「,在回答」為什麼「。這種訓練也讓我越發明白,作為一個科學家,我們研究的最終目的都是在回答為什麼。
世間萬物,因果循環。天要下雨,你要打傘;屋子外面溫度升高了,屋子裡面的空調溫度設置就得調低。任何事物(或者說科學)從來都不是——「上帝說,要有光,就有了光」。
之前看舍恩伯格介紹大數據的書——《大數據時代》。很多觀點都已忘卻,唯獨一點記憶猶新。大意是,隨著大數據的興起,對因果性的研究將讓位於相關性的研究。他說,隨著海量數據的手機,超級計算機的興起。我們將不再關注於因果分析,而是利用計算機對大數據的分析提取事物之間的相關性。
我當時讀到此,本能地產生了焦慮。如果哪一天,我們放棄詢問因果,只是訴求相關性,那麼計算機就完全可以代替人類思考了。執著於問」為什麼「,是人類的本性,它從根本上決定了人與動物,與電腦的區別,也決定人腦不可能被超級計算機所取代。而這,是我們的幸運!因為我們是我們自己的主宰,我們不會屈從於計算機。
所以,我想說的是,在大數據蓬勃興起的時代,在數據科學家被炒作得如日中天的時代,只要我們還在執著於探究事物因果關係,還會本能地不斷問為什麼,未來真正的數據科學家必將是屬於統計學家的。畢竟,「數據科學家」前面「數據」這個定語,決定了統計學家在所有科學家中的優勢。誰讓「Statistics is the science of data」呢。
一言以蔽之,一個好的數據科學家,一定是一個好的統計學家。只是,在大數據時代這個背景下,他必須同時具備適用於大數據的收集,整理,和分析的能力。這是這個時代對統計學家提出的新的要求與挑戰。
(五)其他還記得九十年代互聯網時代興起的時候回國創業的那幫人嗎,李彥宏,楊致遠,張朝陽?你當然記得。因為他們的公司都已經成為中國互聯網的巨頭。歷史總是驚人相似,浪潮也是一波接著一波。如今,大數據時代興起,對於我們這些有志於從事大數據的年輕人來說,這又意味著什麼呢?
我在此斷言,再過十年或二十年,中國一定會有一批大數據公司興起。那時候,你也將目睹另一個馬雲,李彥宏。他們一定是現在大數據領域的從業者。他們一定正在某個角落開始了自己艱難的創業。已經是事實的是,美國這邊的大數據創業公司如雨後春筍,遍地開花。
"這是最好的時代,也是最壞的時代" 。最後,我們會發現,這個時代與那個時代是那麼驚人地相似。能有幸見證並參與這樣一個時代,是我們的幸運。
感謝這個時代,我們正趕上風雲際會時。
拓展閱讀推薦:
[1] [The Era of Big Data] Must-read articles about Big Data
[2] [Data Science] Short histories of big data, data science, and Information Technology (IT)
[3] [TED] How data will transform business
可以參考這個:(來源:What is a data scientist? 14 definitions of a data scientist! ? Big Data Made Simple)
Data scientist is a person who has the knowledge and skills to conduct sophisticated and systematic analyses of data. A data scientist extracts insights from data sets for product development, and evaluates and identifies strategic opportunities.
Other popular definitions:
1. "There"s a joke running around on Twitter that the definition of a data scientist is "a data analyst who lives in California," -- Malcolm Chisholm
2. "A data scientist is that unique blend of skills that can both unlock the insights of data and tell a fantastic story via the data," -- DJ Patil
3. "Data scientists are involved with gathering data, massaging it into a tractable form, making it tell its story, and presenting that story to others," -- Mike Loukides
4. 「A data scientist is a rare hybrid, a computer scientist with the programming abilities to build software to scrape, combine, and manage data from a variety of sources and a statistician who knows how to derive insights from the information within. S/he combines the skills to create new prototypes with the creativity and thoroughness to ask and answer the deepest questions about the data and what secrets it holds,」 -- Jake Porway
5. Data scientists are 「analytically-minded, statistically and mathematically sophisticated data engineers who can infer insights into business and other complex systems out of large quantities of data,」 -- Steve Hillion
6. "A data scientist is someone who blends, math, algorithms, and an understanding of human behavior with the ability to hack systems together to get answers to interesting human questions from data," --Hilary Mason
7. Data scientist is a "change agent." "A data scientists is part digital trendspotter and part storyteller stitching various pieces of information together." -- Anjul Bhambhri
8. "The definition of 「data scientist」 could be broadened to cover almost everyone who works with data in an organization. At the most basic level, you are a data scientist if you have the analytical skills and the tools to 『get』 data, manipulate it and make decisions with it." -- Pat Hanrahan
9. "By definition all scientists are data scientists. In my opinion, they are half hacker, half analyst, they use data to build products and find insights. It』s Columbus meet Columbo – starry eyed explorers and skeptical detectives." -- Monica Rogati.
10. "A data scientist is someone who can obtain, scrub, explore, model and interpret data, blending hacking, statistics and machine learning. Data scientists not only are adept at working with data, but appreciate data itself as a first-class product." -- Daniel Tunkelang
11. An ideal data scientist is 「someone who has the both the engineering skills to acquire and manage large data sets, and also has the statistician』s skills to extract value from the large data sets and present that data to a large audience.」 -- John Rauser
12. Data scientist is "someone who can bridge the raw data and the analysis - and make it accessible. It"s a democratising role; by bringing the data to the people, you make the world just a little bit better," --Simon Rogers
13. "A data scientist is an engineer who employs the scientific method and applies data-discovery tools to find new insights in data. The scientific method—the formulation of a hypothesis, the testing, the careful design of experiments, the verification by others—is something they take from their knowledge of statistics and their training in scientific disciplines. The application (and tweaking) of tools comes from their engineering, or more specifically, computer science and programming background. The best data scientists are product and process innovators and sometimes, developers of new data-discovery tools," -- Gil Press
14. "A data scientist represents an evolution from the business or data analyst role. The formal training is similar, with a solid foundation typically in computer science and applications, modeling, statistics, analytics and math. What sets the data scientist apart is strong business acumen, coupled with the ability to communicate findings to both business and IT leaders in a way that can influence how an organization approaches a business challenge. Good data scientists will not just address business problems, they will pick the right problems that have the most value to the organization," -- IBM researchers
個人理解好的數據分析專家首先要做到深刻理解業務,然後去慢慢輔助提升業務,最後是通過數據洞察來驅動業務,開拓新的業務領域。切忌唯數據而數據。
常識,好奇心,想像力
「數據科學」一詞,應該是很早就已經存在,但是隨著數據時代的到來,數據轉化帶來的價值,例如,提供精準搜尋結果,定位廣告,精準商品推薦,把數據科學家推到了前所未有的高度。
好的數據科學家,應該具備一定的技能,如Hadoop或Mahout等工具,精通處理大數據的平行技術或機器學習知識,數據挖掘和數據可視化都要有所了解。
還要有一定的資質,比如說溝通能力,重要要有好奇心,這樣才會自我驅動,先了解下,Hadoop是什麼,主要有哪幾部分組成和Hadoop的影響力? - 大數據 多智時代
抬頭能做架構:平視能做業務:低頭能碼代碼,數據科學家必學課程:用戶3770845573_新浪博客
推薦閱讀:
※怎麼學慣用 R 語言進行數據挖掘?
※Python 是一門適合做數據挖掘的語言嗎?
※隨機森林是否需要後剪枝?sklearn為什麼沒有實現這個功能,是否有人實現了這個功能?
※聚類與分類有什麼區別?
※數據挖掘SPSS,Python,《機器學習實戰》先學什麼好?