數據科學家 (Data Scientist) 的核心技能是什麼?


謝邀。

看到這個題目我是很汗顏的,畢竟我就是個寫 SQL 的,只不過湊巧碰上了數據科學家這個職位大擴招的年代,哪懂什麼核心技能。。。

數據科學家這個職業的定義有點廣泛。同樣叫數據科學家,在不同行業不同公司乾的活可能是很不一樣的。

有的偏機器學習、建模,有的偏數據分析。有的叫數據科學家,乾的很多事情跟軟體工程師(SWE)很類似。有的偏產品,風格短平快。有的偏長期研究,看的是一兩年甚至更久的效果。

身為一個行業新人,這裡就偏產品、數據分析類的數據科學家(或者說叫數據分析師)來討論一下,需要的核心技能是什麼,拋磚引玉。

做數據分析的最目的,那就是通數據分析來引導產品改的能力。

任何方面的技能,歸根結底都需要為這個目的服務。

舉個假想的例子:現在知乎想增加用戶黏度,讓每個用戶每天花更多的時間,看更多的回答。

可以是
1.
寫個 SQL 看看過往哪些內容被瀏覽得最多,用戶參與度最高,然後把這些內容推送給新用戶,簡單粗暴。

2.
做一個用戶畫像,找出來那些花的時間多的用戶都有什麼特點,花的時間少的用戶又有什麼特點,然後對症下藥。

3.
做一個先進到沒朋友的機器學習、深度學習、好好學習的模型,然後每天給用戶推送
TA 最喜歡的內容,以至於用戶覺得知乎簡直就是自己的貼心管家,刷得停不下來。

至於具體用什麼辦法,不同公司不同產品不同時期的側重點是會不一樣的。

比如說在產品初期,項目經理說我們要給用戶推送一些內容,問數據科學家有什麼方案。然後你說我要花一年時間搭建一個
ABC 系統使用 XYZ 演算法做一個功能的自動推薦系統,保證每個用戶都滿意。
項目經理扭頭就跑,因為等這個系統做出來,競爭對手「者也」都上市了。

反之,如果產品已經做了一段時間了,也不少競爭對手做類似的事情,數據科學家卻還停留在一些初級的敲敲打打,那說不定哪天就被競爭對手甩在身後了。

如果真的要核心技能的,我得是不停學、思考、獨立解決問題的能力。

至於具體到數據科學家需要什麼技能,網上有很多討論,長長的單子保證看得人酸爽,欲罷不能。

比如說 Quora:
數據科學家需要會哪些軟體和技能?
https://www.quora.com/What-are-some-software-and-skills-that-every-data-scientist-should-know

成為 Google 或者 Facebook 的數據科學家需要哪些技能?
https://www.quora.com/What-skills-do-I-need-to-be-a-data-scientist-at-Google-or-Facebook

時下最牛逼的數據科學家的技能是什麼?
https://www.quora.com/What-are-the-most-valuable-skills-to-learn-for-a-data-scientist-now

沒有博士學位,我怎麼成為一名數據科學家?
https://www.quora.com/How-do-I-become-a-data-scientist-without-a-PhD

很多人可能看過這個圖,Drew Conway 提出來的這個圖(The Data Science Venn Diagram)

更新的版本(The New Data Scientist Venn Diagram):


以及各種變種(google: data scientist skills venn diagram):

這些圖看得人都眼花繚亂了,還有一些圖關於數據科學家的技能樹的。
比如說:現代數據科學家(http://www.marketingdistillery.com/wp-content/uploads/2014/11/mds_f-723x1024.png)


(為了擴大隊伍里女性同胞的比例,我專門找了個一個女性卡通形象版本的。)

如說 Udacity 的迷宮版軟廣(Data Science Archives),又叫通往死亡之路。

正所技多不身,鬼多不床。

但是不管什麼技能也好,核心技能也好,都不要忘了最初的目的:改進產品。


我在這個職位工作了剛好三年(也許數據分析師是一個更準確的職稱),每年選擇一個不同的側重點來提高自己的技能。如果一定要列出核心技能的話,可以總結成以下三個:提出理解問題的框架,從不同的角度回答問題,以一種辯證的態度理性接受數據並作出結論。

(1) 能夠從模糊的概念里準確的描述問題,提出一個理解問題的框架。

對於一個剛剛入門的新人來說,也許你遇到的很多問題都是比較清晰的。比如說,在接下來這一年哪個國家最有用戶增長的潛力;平板電腦用戶的時間最多投入在什麼地方。可是,隨著你技能的深入,你會越來越多的接觸更模糊的問題,甚至有時候會覺得問題本身太虛,無從下手。比如說,我們可以開始大力推廣這個新產品了嗎?如何去衡量我們是否做到了成功?

這時候,第一要點就是能夠把問題拆成幾個具體的小問題。對於「我們可以開始大力推廣這個新產品了嗎?」這個問題,我們可能想知道:產品質量本身達到了預設的標準了嗎?產品前期用戶最重要的使用特點是什麼,是一個可以推廣的特點嗎?如果我們大力推廣產品並且獲得X用戶,幾個月後還會剩下多少用戶呢?

(2) 能夠從不同的角度提出回答問題的方法,並且有取捨。

也許沒有一個方法是百分百正確或者可以百分百給出問題答案的,但是一個好的數據分析師,能夠給出不同維度的數據,總結出其中的故事,給出可能性最高的答案。

繼續剛才的例子,產品前期用戶最重要的使用特點是什麼?是一個可以推廣的特點嗎?

除了去看用戶對這個產品的使用數據,你也許還想看一下用戶在其他同類競爭產品裡面的使用數據,也許還想看一些市場數據來確定市場大小以及市場需求,也許還想看一下用戶本身的屬性(年齡,學歷,性別,居住地或者主要社交圈),也許還想看一下用戶使用產品之後的變化...

可以看的事情非常多,也很容易迷失在無窮無盡的曲線中。可是,哪些才是最重要的呢?

(3) 相信直覺,但是不能盲目相信;數據分析之前敢於提出自己的猜測,但是客觀的接受數據提出的各種可能性,並且理性的選擇最可能的結果。

我遇到過很多為了講故事而故意拼湊起來的數據分析,這種情況下總是會很生氣。你如果已經確定了產品A會比產品B更好,那為什麼還要千方百計去用數據來證明這一點呢?數據分析的目標是讓你理性的比較A和B,幫助你做出正確的選擇,而不是讓你肯定自己的猜想,說服他人跟著你走。後者只是數據分析的一種結果而已。



核心技能是翻譯。

將業務問題翻譯為數據驅動的演算法可實現問題。

所以做為data scientist的你,要能夠理解具體業務,發現具體業務中的問題;能夠針對這些問題,設計出基於演算法的解決方案;能夠明確指出這些解決方案中需要什麼數據支持,如何獲得這些數據;能夠判斷數據的質量和演算法的可靠性;能夠在組織內推動這一解決方案的實現;能夠清楚地知道這一解決方案的局限性在哪裡。


可能我守舊一些,我認為做前沿科研的才能稱為科學家。使用現有技術(包括一些應用研究)去解決實際問題的職位應該稱為工程師、分析師之類。我不是貶低後者,兩者同樣重要,只是工作性質不同。


前面的人回答的都蠻好的,能夠很好地解答數據科學家的需要學習的技能、解決問題的抽象能力、進行數據分析、Debug能力等等。

我試著從另一個角度上來解答這個問題:

從本質上出發,當我們把Data Scientist作為一個名詞來看待的時候,我們首先應該關注的是Scientist這個主體,那麼,這個問題可以分解成兩層,一個是:什麼是Scientist?一個是:什麼是Data下的Scientist?我嘗試著在回答第一個問題的基礎上聯繫兩者。(我會在括弧內說明Data下的Scientist)

一般而言,如果說到Scientist的話,大家可能想到的是誰?我首先想到的是牛頓、居里夫人、愛因斯坦等等牛人,他們這群人有什麼樣的特點或者說出眾的地方讓我們稱為科學家?我們所說的科學是什麼?

笛卡爾曾說過:知識好比是大樹,哲學是樹根,科學則是樹枝。哲學是是對基本和普遍之問題的研究。其按其詞源有「愛智慧」之意。那麼科學則是哲學下的一個子集,對未知現象的本質性探索。那麼,大家都應該都大體知道科學怎樣執行?高中進行物理實驗、化學實驗等等,其實都是模仿牛人科學家的科學步驟進行實驗並得到真理。步驟如下:

1.觀察自然現象 (了解數據)

沒有什麼是憑空而來的,牛頓看到蘋果砸下才能去推算萬有引力定律,可能你想說愛因斯坦,他也是站在一堆堆牛人科學家的論文基礎上的「大膽」假設,他在那幾年當一名普普通通會計員的日子裡,閱讀了大量的文獻,看到了別的科學家總結的一些現象的報告,嘗試著去假設一個真理(數據分布),這個是歸納於第二個步驟。

2.假設(設計模型)

我們看到的現象為什麼產生?(數據來源),它的機制是什麼,需要怎麼去驗證?

3.實驗驗證(訓練與測試)

如果說假設存在,那麼執行某個動作,會發生什麼?我們從理論回歸到現實,看現實給我們理論的回饋是什麼?

4.循環(不斷驗證)

如果3失敗了,我們就需要進行重新假設和重新實驗驗證?這段歷程是艱辛的,也是飽受質疑的。

5.跳出循環/總結(總結歸納)

如果驗證成功,即使重複下失敗,我們也可以得到一些真理,這就需要總結下來,產生價值/留給其他人(愛因斯坦讀其他人報告)。

總結一: 科學家的核心技能依次是:抽象思維-&>假設思維-&>設計實驗-&>動手能力-&>總結能力

雖然我按順序排列了,但其實這幾個能力並沒有哪個更重要,哪個略微不重要的區別,有時候多個人分別擅長這裡面的不同能力也是非常不錯的。其實我們也知道,愛因斯坦的假設基本也是由其他人所完成的實驗的,最後才證明他的偉大。

回到應用到數據Data下面, 我已經在括弧裡面給出了一些映射,但我覺得,目前的Data指的實際上是,在信息技術時代下,我們通過一些感測器(手機裡面也是)、程序監控所看到的數據,包括運維日誌、使用記錄、信息狀態等等,累計起來(數學中的求和公式),其實指的是現在很火的 大數據 概念。

而Data Scientist要解決的問題往往也是 業務(能夠產生價值)的問題。例如:廣告中預測點擊率、保險中預測客戶的風險值、貸款業務中判斷客戶會不會按期還款等等。在這個情景下:

總結二: 數據科學家的核心技能依次是:業務問題抽象思維-&>假設內在模型思維-&>訓練並測試模型能力-&>工程化能力-&>展示與講解能力。

這裡面個個能力對應的學習技能在前面幾位優秀答主都回答得相當不錯,值得注意的是,每個能力都很重要,缺一不可,也不一定非要集中在某一個人身上才叫做數據科學家,擁有一兩個能力成為「半」數據科學家也是可以的,很多都是慢慢成長的,沒有任何成功是一蹴而就。

按我建議是:掌握並鞏固已經擁有的能力,在此基礎上,學會與其他技能的人才合作或者慢慢攀升學習其他技能。

希望對題主和過路的看客有所幫助!


對數據有極端敏銳的直覺,對數據背後的本質有天才般的認知。
對業務、問題、理論知識擁有科學家一般的洞察力和深入的理解。


Qiang Yang 老師曾經說過:【對數據非常敏感的人,我們要把他們供起來。】
Chih-Jen Lin 老師曾經說過:【『Feature engineering往往比model selection重要。】

作為一名data scientist,可能需要很多技能:data management, statistic,machine learning,coding,visualization等等;每種技能展開來說,又有五花八門的工具和知識需要學習,頗有寫full stack的味道。

但是data scientist之所以為data scientist,而僅僅是programmer或者statistician,正是因為它的名字里同時有datascientist兩個單詞。

data:data scientist的所有工作都是data motivated的。不管掌握的知識和技能多麼眼花繚亂,最終都是要回歸到數據上去的。因此對數據的敏感程度直接決定了你將會如何使用手頭的工具和知識,最終影響到conclusion的質量。庖丁解牛,之所以遊刃有餘,在於其【目無全牛】,每一刀下去都及其精準,而不在其用的是牛刀還是電鋸;同樣的,上個月有幸聽取Chih-Jen Lin老師的講座:Machine Learning on big data,全程不過Linear Regression和Linear SVM兩個模型,但在他手裡卻能解各種複雜的、非線性模型解決不了的問題,其功底在於feature engineering,在於洞察big data背後的本質,進而化為己用,最後不管在準確度、性能、穩定性上都高出同行的其他工作。因此對數據及其深入的了解和極端敏感的直覺,是data scientist的首要核心技能。

scientist: data scientist的另外一個區別於其他類似職業的特性就是深入。且不管scientist這種叫法是否合適,但是被稱作scientist的人必須永遠是走在cutting-edge的人才,同時也必須是對問題、數據、方法、結論都有著深入理解的人,而不僅僅是停留在數據、現象、問題的表面,否則就變成了機械、簡單、重複的統計分析。因此,data scientist作為交叉學科人才,並不僅僅要求你擁有七十二般武藝,更需要你在關鍵的領域擁有對知識全面而深入的理解,看問題的角度需要獨到犀利。除此之外,你還要像一名真正的scientist一樣,擁有強烈的探索欲、好奇心、行動力。

現在,人人都在說大數據時代來了,中關村大大小小的咖啡廳里都在談論著big data,到底什麼才是big data?big data不是單純的大數據,不是幾千幾萬的數據變成了千萬、上億的數據。還原論的反對者告訴我們,簡單個體的重複累加,產生的不只是量的變化,更是質的飛躍。數據量從幾千幾萬編程幾千萬幾億,改變的也不僅僅是量,更是數據本質的改變。

大數據真正代表的是複雜數據,而非單純的大量數據。

對數據有極端敏銳的直覺,對數據背後的本質有天才般的認知、對業務、問題、理論知識擁有科學家一般的洞察力和深入的理解,這兩種能力,正是探索複雜數據所必備的;更一般地說,數據科學家不管掌握什麼樣的技能,最後一定要落到解決複雜數據所帶來的問題,就一定不會錯。這樣的能力也是任何程序員、工程師、設計師、各種分析師所沒有的,That is what makes you irreplaceable。


更詳細回答,參見:(點贊也請移步那邊)
想學數據分析需要學哪些課程? - Ruobing Shen 的回答

簡單的說,核心技能是數學建模,如何把一個實際大數據的問題轉化成數學模型然後編程求解。原理和基礎都在數學這邊。
線性代數(矩陣表示和運算)是基礎中的基礎,微積分(求導,極限);
數據處理當然需要編程了,因此C/C++/Python任選一門,數據結構可以學學,只是讓你編程更順手,但是編程不是數據處理的核心。
Mid-level的課程,概率論+統計(很多數據分析基於統計模型),線性規劃+凸優化(統計到最後也還是求解一個優化問題,當然也有純優化模型不用統計模型的)
再高階的課程,就是些研究生的課程了,就比較specific了,可以看你做的項目再選擇選修,比如:Probabilistic Graphical Models, Nolinear Programming, Integer Programming, Machine Learning(其實機器學習,學的都是一些統計和優化,或許可以把它放在Mid-level那),圖像處理,deep learning, 神經網路,等等等等。

學到Mid-level,然後做幾個實際項目,就能上手咯。要讀Phd搞科研,才上高階的。
至於書,沒有特別推薦的,但是建議看英文原版。或者,直接翻牆Youtube看視頻課程,很多國際知名教授都很無私地把自己上課的視頻放在youtube上免費學習。

比如,海德堡HCI 的Fred,圖像處理課程:
https://www.youtube.com/playlist?list=PLuRaSnb3n4kSgSV35vTPDRBH81YgnF3Dd

然後,就可以著手做項目了,最經典的regression,clustering, outlier detection,看幾篇paper學習幾種不同的模型和演算法,對一個現實問題,從拿到問題,分析問題,數學建模,編程實現,可視化,一套做下來,對項目整個流程有所了解。

完了你就有項目經驗了,恭喜可以找工作了。有名校畢業證會是很好的敲門磚,沒有的話,多積累項目經驗。

關於我對最優化理論在諮詢行業的應用,參見

Data Science/Analytics 出身,可以在諮詢行業做些什麼? - Ruobing Shen 的回答

最好按照慣例廣告一波:

歐洲、北美、全球留學及數據科學深度私人定製諮詢,從此DIY - Ruobing Shen的文章 - 知乎專欄


教育科技方向,主攻教育數據挖掘(Education Data Mining, 簡稱EDM),跟的導師是這方面大牛(Ryan Baker),說一下感想:

  1. 要牛真的很牛:
    多牛呢,就是那種你一輩子都覺得趕不上人家的那種。計算機,統計,教育三個領域任何一個都可以秒殺我。導師CMU計算機背景,現哥大教育學院Associate Professor,2014年兩周update 1篇paper;另一個例子是我們實驗室里的Luc Paquette,本科computer science專業,9歲開始學編程,博士5年一直研究的就是EDM。所謂大牛,就是那群跟著這個領域一起快速成長的,前沿問題要麼是快速跟進要不就是他們引領的,行業內"任何"與自己研究相關的東西都多多少少知曉一些。當這個領域還沒出現的時候,他們已經積累了5年,當他們開始從事這個領域5年後,這個領域因他們而有價值。
  2. 再牛也有不擅長的:
    不知道其他領域怎麼樣,以我導為例,80%的時間用Excel和Rapidminer(類似SPSS一樣只需要滑鼠點擊拖拽就能用的分析工具)。一定要用編程的話是Java,大家都在用的R和python目測是不知道怎麼用的。似乎乍一想似乎難以接受。但想想他核心價值是什麼。是通過數據分析去檢測學生的各種學習狀態(off-task, boring, frustration, gaming the system, etc),並且找到有效提高學習效果的教學法。教育的數據撐死10G大小,對於一個研究來說100mb不算小了。所以很多東西,夠用就行,發現不夠的時候再學唄。
  3. 值得懂的東西太多:
    - data: 核心應該是數據各種處理方法,個人實戰覺得三點比較重要:數據太大,只能編程解決問題,R, Python, Java,SQL,matlab任何一種我都在Job Description上面見到過;數據太亂,data cleaning就很重要了,我才不會告訴你我一個學期都在clean data呢;常用統計學理論machine learning, 這塊我也是半吊子,平時夠用的水平,不亂說話。
    - scientist: 核心應該是對數據的敏銳度和辨識度。敏銳度是看到一堆數據怎麼找到規律。辨識度是指識別一個用數據推導出來的結論真的靠譜么。不知道大家怎麼看,在不保證足夠嚴謹的前提下,感覺只要有數據,想要啥結論就可以調出啥結論。敏銳度是去發現規律,辨識度就是去證實證偽這些發現的過程。整體而言是個思維模式的提高
    - education: 核心應該是你所處領域的專業知識。做教育數據分析,的總得懂一點心理學,教學法,認知學吧?如果是做金融數據分析,通脹是啥都不知道應該是不可以的吧......(也就舉個栗子,我也不懂金融);如果是做市場的數據分析,用戶購買行為的特點......(還是舉個栗子,我也不懂市場)。前面說的data和scientist這兩塊,有點像當老師的講課和學生管理技巧,但如果你對化學這個專業一無所知,再會講課也講不了化學課。另一個更重要的,就是當你對化學一無所知的時候,就說明你對這個不感興趣,工作上面的滿足感也會降低。
    - other: 核心應該是如何與其他人溝通。這就涉及data visualization, 表達溝通能能力,擼ppt的能力,了解自己工作相關部門職責,agile development,等等。
  4. 學當data scientist是個碎片化的過程:
    很多東西第一眼看根本不懂好嘛!!Coursera上面講big data and education的課所有視頻我至少反反覆復看了3,4遍,10遍的都有T_T。剛入門那會兒真的能聽懂50%就不錯了,看到第二遍的時候一般能懂70%就可以了。過一段時間又會忘了,反反覆複復習,有的還會結合新學的東西理解的更深。
    這還只是其中一門課,如果是programming, 統計學之類的..... 我才不會告訴你一年半前學的python擱置到現在才又重新弄起...... udacity的statistic課也是斷斷續續的。很多時候,學習也是一個尋找自我價值,尋找意義的過程,找不到學習的理由停一停,換一換口味也無妨吧。

說那麼多其實是想給相當data scientist的人打氣的,尤其是education data mining :D !! 本人本科高分子材料,編程基礎也就html和大學計算機的水平,離data scientist還很遙遠。畢業之後教了兩年書作為過渡。入這行才9個多月,運氣好暑期找到了EDM相關實習。所以只要是有一定基礎,肯花時間去鑽研個兩年,肯定能在自己細分領域的data scientist有好成果的。

有的東西可能說的不全面甚至不準確,歡迎留言討論。


給 @唐學偉的那張Metromap添加原文鏈接http://nirvacana.com/thoughts/becoming-a-data-scientist/。其中主要列舉了以下10個技能

  1. Fundamentals
  2. Statistics
  3. Programming
  4. Machine Learning
  5. Text Mining / Natural Language Processing
  6. Data Visualization
  7. Big Data
  8. Data Ingestion
  9. Data Munging
  10. Toolbox

個人感覺這份map主要偏自然語言文本處理的,所以比較強調data acquisition一些技能。如果是做圖像和語言處理的話,可能不太需要。Toolbox根據project而議吧,只是列出大致方向。Quora已經出個FAQ合集了 http://www.quora.com/What-is-the-Data-Science-topic-FAQ

另:其實非技術性的social的技能很重要。各種community要參加關注

圖片來源:http://www.quora.com/What-are-the-key-skills-of-a-data-scientist


要不我查查:

數據科學家是指能採用科學方法、運用數據挖掘工具對複雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識,並能尋找新的數據洞察的工程師或專家(不同於統計學家或分析師)。
一個優秀的數據科學家需要具備的素質有:懂數據採集、懂數學演算法、懂數學軟體、懂數據分析、懂預測分析、懂市場應用、懂決策分析等。
中文名
數據科學家
外文名
Data scientistl

沒看出點啥,懂點數據,都想說人人都是數據科學家了;可是對科學家一直都是有敬畏精神的。

看看下面的:

科學家(Scientist)這個職業給它下的定義是:對真實自然及未知生命、環境、現象及其相關現象統一性的數字化重現與認識、探索、實踐、定義的專業類別貢獻者。
凡可以稱之為科學家的都是一些實幹的人,如:英國物理學家牛頓、居里夫人,美籍科學家愛因斯坦和中國的農學家袁隆平,還有黑洞之王霍金等。
中文名
科學家
外文名
Scientist

看出點啥了?


難道不是調參嗎?


了解業務 解決問題


似乎看到了很多應該算作是data analyst的核心技能。個人認為一個data SCIENTIST應該每天都處在日益加劇的機器學習演算法深度和hands on建模coding難度的矛盾里。

越是在機器學習的演算法層面推進,其背後的系統建設的難度也就加大了。所以科學家的核心技能應該是演算法的expertise以及極強的hands on能力,而不是Google一下看看如何用一個scikit learn API。採集數據?SQL?Excel?我一定是個假的數據科學家 lol


核心技能是時刻謹記自己只是個工程師


先上張圖

  • data scientist有很多技能需要學習,但最根本的是要有洞察力,能夠看出數據的本質原因,找到問題根本,不被問題表象所迷惑。類比程序員,有點像找bug的能力


a CS PhD knowing statistics or a statistics PhD good at programming...This is what I was told.


SQL + Excel

你可能會用hadoop, hive, pig, storm, spark, 但是最後都逃脫不了sql的魔掌。

你可能會用R (ggplot, RHadoop, lattice) , Python (scikit-learn, pandas, pylearn2, theano) 但是還是逃脫不了excel的魔爪。娃哈哈


大數據科學家的核心技能有多個方面,在文章的末尾,我會梳理下需要核心技能框架供大家參考。下面,我重點談談要成為數據科學家的最核心的技能是要掌握好大數據應用技術,掌握好大數據基礎平台的構建和大數據產品化、服務化的價值變現框架以及大數據商業化的總體思路。

當前大數據已經深入人心,各行各業都在談論大數據,都想抓住大數據這個新興產業的機會,傳統企業也想利用大數據進行企業的轉型升級。一個個的大數據項目像雨後春筍般被立項動工,懷著領導極大的期望熱火朝天的幹起來。可是,當領導們發現投入了大量的人力財力物力,但最終結果不理想、沒有實際結果產出的時候,他們就開始心灰意冷,懷疑起大數據是不是真像人們說的這樣有價值?領導們心裡就會認為,大數據其實就是大家跟風炒作,只是一個泡沫而異?事實上,真的是這樣的嗎?我想一定不是的,大數據絕對不存在泡沫(關於這一點,大家可以參考我的「大數據人的職業生涯規劃」 這個小講,有詳細充分的把這個問題論述清楚),大數據是真真正正的具有非常大的企業應用價值的。那這樣說,老闆的問題出在哪裡呢?我認為,大數據項目之所以失敗、之所以沒能達到老闆的預期,主要責任在於這個公司的大數據科學家,是他的能力水平不夠,導致老闆對大數據喪失信心。而社會上,正是存在千千萬萬不合格的但又處於企業核心關鍵位置的大數據科學家,才讓一個個大數據項目發揮不出真正的價值來,導致當前大家對大數據所存在的社會困惑,更以至於大家都認為大數據存在泡沫。以下是我對大數據科學家培養的一些小小的建設性意見,給更多想成為未來大數據科學家的同學一個學習框架,如果大家能因此從中獲益,未來成為一個真正的能為企業創造巨大價值的大數據科學家,我深感榮幸!

一個大數據科學家,要做好大數據工作,真正發揮大數據的價值。需要掌握三方面的應用能力,一是大數據基礎平台的建設能力;二是大數據產品化、服務化的包裝能力;三是大數據產品和服務轉化為商業價值的商業化能力。三個方面,缺一不可。如果只懂得大數據平台建設能力,那麼他只是一個大數據架構師;如果只懂得大數據產品化、服務化能力,那麼他也只是一個數據產品經理;如果只懂得大數據商業化能力,那麼他只是一個好的大數據銷售經理。具備以上單一能力的人,社會上還是非常多的,具備雙重能力的人,也還不少。一個具備大數據平台建設能力,又可實現大數據產品化的人,不能稱之為數據科學家,這一類人能力不錯,可把數據和產品玩得非常溜,企業有時候招到這類人認為已經招對人了,挺高興的。如果這個人作為一個架構師或者高級產品經理或者是一個大數據部門經理,我覺得可以勝任的。但一旦把這個人擺在大數據總監或者更高層的位置上的話,會是不勝任的,因為從商業角度來說,這一類人只會搭積木,不了解數據商業化,更不懂得生意的本質,有時候會是災難性的,會直接導致大數據項目的失敗。下面,我們分別講講這三個方面,都有哪些具體的要求。

大數據平台構建:需要掌握大數據基礎平台架構能力、企業大數據門戶建設能力、大數據應用系統集成能力。由於每個企業業務繁多,企業數據日常只存放在各個業務資料庫中,當運營、產品、分析等人員需要用到數據的時候,就需要訪問多個資料庫來獲取,並且,這些數據是雜亂無章的,各種格式都存在,為了拿到需要的數據,也許需要分析人員花上好幾個小時甚至幾天的時間,使用起來非常的很不方便。另外,數據是企業日常運營過程中,經常使用的資產,獲取數據的低效率直接影響到企業的經營效率,從而影響到企業在激烈的商場中的競爭力。在競爭激烈的商場中,每家企業都追求比別人快一秒,這就需要數據科學家們,幫助企業搭建好完善的大數據基礎平台,讓獲取數據變得容易、簡單、高效。當然,這一步也是大數據產品化、服務化的基礎。說了這麼多,我們該怎樣構建企業大數據基礎平台呢?由於我們這是一個大數據職業生涯系列的分享,涉及具體技術方法方面我們將會在大數據應用系列的「企業大數據戰略及價值變現」這個小講中詳細的分享,歡迎大家參加。在這裡,我只講兩點需要特別特別注意的地方:

1)把握實施的節奏和策略。通常在企業B輪之後,就要上大數據平台了。如果本身背景比較雄厚的,早期規模都比較大,有實力的話,越早做越好。但是,要非常注意實施策略,大數據是投入大,短期產出小的項目,如果不懂得實施策略,必然會失敗。怎樣的策略呢?先做好大數據平台架構,規劃好主題模型和層次模型,進行模塊化、框架式設計,然後根據最靠近業務、最靠近營收為準則,去判斷優先實施哪個模塊哪個應用,以期望馬上帶來經濟效益。這一點非常之重要,直接決定了這家企業大數據項目後期還能不能繼續玩下去的根本。這也是我在給企業做大數據解決方案時候,最核心關注點。

2)關注大數據3個平台間的聯動協同效應。是哪三個平台呢?我們前面已經說到,不知大家有沒有留意。大數據基礎平台、大數據門戶(也即大數據分析平台,含用戶畫像)、大數據業務應用系統(如風控系統、個性化推薦系統等)。雖然他們三者之間存在依賴關係,比如大數據分析平台的數據從大數據基礎平台出,個性化推薦系統所用到的用戶畫像從大數據分析平台過來,但我們千萬不要先做完成一個平台再去做另一個平台。我們一定要聯動協同,要同時進行,要小步快跑,快節奏的出效果。那麼,我們怎麼聯動呢?我還是舉一個例子來說明。就說個性化推薦系統吧,我們可以先專心推薦系統最重要的模塊-用戶畫像這個模塊的研發,像產品知識庫、推薦引擎等,可以以最簡單的方式,甚至半人工方式來完成,集中精力完成用戶畫像這個模塊。同時,兼顧大數據分析平台中用戶畫像的框架、大數據基礎平台中用戶主題模型框架來實施,當我們把推薦系統的用戶畫像模塊研發出來的時候,我們也已經把大數據基礎平台的用戶主題模型和大數據分析平台的用戶畫像分析做出來了,一箭三雕,非常之高效。這就是聯動協同效應。

大數據產品化: 需要掌握大數據產品化、數據應用化能力以及數據驅動業務增長技術能力。數據產品化,是企業大數據項目的重要且核心的內容。數據能不能提煉成產品或者服務,進行產品化、服務化轉變,直接影響到數據變現能不能成功,從而影響到企業整體的變現、貨幣化能力。貨幣化能力又直接影響到企業的估值高低。關於這方面例子的企業,社會上非常之多,在這裡也不好直接說出來,大家可以自己想想有哪些企業用戶基數非常之大,但多年一直在虧損的,不管是國企還是民企,這一類企業數據變現是不成功的或者是根本沒有進行數據變現的,導致貨幣化困難、盈利能力弱。這是什麼原因呢?核心還是人才,缺乏一個真正的大數據科學家,缺乏能把數據變成產品或者服務的人。有很多企業數據非常多,但是就是不能充分利用起來,不能充分發揮數據的價值,原因就是缺乏這樣一位大數據科學家。 既然數據產品化服務化是這麼重要,我們日常有哪些常用數據產品化、服務化方法呢?方法非常之多,但總結起來就那麼幾類,要成為一個數據科學家,那是必須要掌握的。

1)精準營銷和個性化推薦系統。非常之常見,幾乎每家有一定規模的企業都會做的大數據產品項目。它們是通過推送用戶喜歡的產品或者服務給用戶來獲得價值收益的。大家平時在淘寶上買東西,看到的「猜你喜歡」或者是「買了**可能你還想買**」等模塊就是典型的個性化推薦系統的產品。個性化推薦系統,商業效果非常顯著,產出也比較好衡量,只需要看應用了這個產品後,相同的業務營收比不使用該推薦系統提升多少就可以看出來了。關於個性化推薦系統是一個什麼東西,有哪些構成,實現原理是怎樣的,等等技術或具體產品問題,我們會在大數據應用系列分享的「如何利用大數據做個性化推薦」小講中,詳細的給大家分享,歡迎大家參加。

2)搜索平台、廣告服務平台。顯然,這兩個主要是通過廣告來創收的。大凡有一定用戶量的線上平台,基本都會通過廣告來獲得收益,這是各家企業普遍的最重要的變現手段。廣告商業模式多種多樣,有購買搜索關鍵詞的,也有搜索競價排名的,有購買黃金展位的,也有閃屏直接推送的,等等。商業模式多種多樣,但都脫不了其是將目標產品或者服務通過廣告位推送給恰當的人群,要不是曝光、要不點擊、要不購買等來獲取收益的。例子大家都知道啦,百度的主營業務就是靠廣告收入。

3)風控模型產品和服務。這塊在金融或者電商等互聯網企業應用得比較廣泛。是企業業務發展的重要支柱。風控可以帶來兩個方面的收益。對內,通過風控,識別欺詐和騙貸,降低由於欺詐帶來的放貸本金的損失,其實就是收益。對外,可以直接輸出風控服務能力,直接的產生營收。這方面的例子太多了,社會上做風控服務的大數據公司,不低於一百家,都是靠輸出風控數據服務來賺錢的。至於風控有哪些可以賺錢的產品和服務,以及風控的技術模型等一些問題,我們留到大數據應用系列分享的「如何利用大數據做好大數據風控」這一小講中,再詳細的給大家分享,歡迎大家參加。

4)大數據信息產品或解決方案服務。這一類企業也非常多,有提供會員服務的,有提供APP使用的,有提供SAAS雲服務的,等等,大大小小的提供大數據工具或者信息產品服務的企業不低於一千家。舉個例子,萬德資訊就是通過大數據手段,收集各種有價值信息進行整理加工後,提供給用戶的。關於這一類企業,在這裡我就不詳細討論了。因為實在是太零散了,各家企業五花八門。

大數據商業化:需要掌握數據商業化能力,數據價值變現能力,需要培養有強烈的商業敏感度的習慣。作為一個數據科學家,搭建好大數據基礎平台,做好數據的產品化、服務化,還是遠遠不夠的。企業生存就是為了積累數據,未來企業融資是靠數據,企業的上市估值更是靠數據。所以,我們所做的一切都是為了數據。可是,有數據還是非常不夠的,做出好的數據,也許一時能忽悠住投資人,忽悠住工作的同事,但是不能長期忽悠投資人,你有多少多少用戶量、交易流水多少多少個億,那都沒用的。長期來看一定是靠盈利的,是要為投資人創造收益的。企業的商業化是否成功,在很大程度上特別是對於一些本身是做大數據的公司來說,都是要靠大數據去驅動做數據化變現的。常用的一些方法有:

1)賣流量。通過大數據精準營銷或者設計一些數據產品比如個性化推薦來支持廣告的精準投放和產品的銷售以及交叉銷售等。這一類非常常見,我想不講大家應該也能明白。如果不明白的,可以看看淘寶網的一些廣告位和商品的推薦位,就會清楚了。

2)賣服務。現在很多大數據公司,通過把自己的核心能力包裝成一整套解決方案,提供給客戶。比如,大數據風控公司,提供大數據風控雲服務,把自己擁有的數據加上自身的建模能力優勢包裝成解決方案,提供給客戶。

3)賣產品。通過把數據產品化,比如,淘寶上特別多的提供各種分析結果給淘寶店家的數據產品。

4)賣數據。貴陽的國家大數據交易平台,其實就是在做這個事情。在互聯網金融領域,直接賣數據也是各大數據公司非常之常見的一種營收模式。

關於大數據商業化變現還有非常多的方法,這就需要數據科學家在日常工作管理中,做好歸納總結,創新思維,創造出各種各樣的數據商業化模式來。

以上就是我關於成為大數據科學家需要掌握的大數據應用技術的詳細論述,希望大家能靈活掌握好這個應用框架,不斷創新思路,更企業帶來實實在在的商業價值。但是要真正成為一個大數據科學家,僅僅掌握大數據應用技術還是遠遠不夠的,以下是我梳理的大數據科學家的核心能力框架,共包含5點,其中第2點 「成為大數據科學家需要具備大數據應用技術」就是我們前文所論述的。另外4點內容,我會在「大數據人的數據科學家之路」小講中進行詳細的分享,歡迎大家來參加。

(1)成為大數據科學家需要掌握大數據基礎科學技術

大數據技術:分散式大規模數據處理技術和工具,如hadoop、spark生態系統技術

數據挖掘技術:掌握常用的數據挖掘演算法模型、機器學習演算法、深度學習、人工智慧技術

數據採集技術:掌握數據採集的常用技術框架和工具

數據可視化技術:掌握數據可視化方法和技術及工具

(2)成為大數據科學家需要具備大數據應用技術

大數據平台構建:大數據架構能力、離線和實時分散式計算環境的建設

大數據產品化: 數據產品化、數據應用能力,數據驅動業務增長等技術

大數據商業化:數據商業化能力,數據價值變現能力,有強烈的商業敏感度

(3)成為大數據科學家需要具備大數據實戰能力

最好是大數據的各個工作崗位都曾經做過一遍,熟悉數據產品、數據分析、數據挖掘、

數據轉換清洗處理、數據採集、數據可視化等技術,能夠通盤的指揮大夥作戰。

要成為大數據科學家那就必須具備10年以上的大數據行業實踐經歷,當然啦,

特別厲害的人, 這個時間可以縮短再縮短。

(4)成為大數據科學家需要具備大數據戰略、產業化思維

大數據戰略:大數據平台戰略、人才戰略、時機戰略、選型戰略、管理戰略、決策戰略等

大數據思維:增長思維、動態思維、歷史思維、顛覆思維等

大數據行業視野:站在行業的視角,掌控各行各業的大數據動態情況

大數據產業的引領者: 具備大數據產業塑造能力,是產業的引領者

(5)成為大數據科學家需要具備一定的科研能力

需要具備專利論文能力,最好是能夠著書立說。各大大數據公司,

都有專利論文的要求的,作為企業數據最高領導者,必然需要具備專利敏感性。

以上是我對如何成為大數據科學家的幾點拙見,歡迎大家拍磚指正,歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 、 「數據分析師-從零入門到精通」、「大數據人的數據科學家之路」。


我一直以為搞理論物理和數學的才能叫科學家~~~


推薦閱讀:

機器學習的演算法和普通《演算法導論》里的演算法有什麼本質上的異同?
大數據在電力行業的應用前景有哪些?
大數據一體機的實質是什麼?大數據分析領域這種一體機真的有市場嗎?
如何成為一名數據科學家?

TAG:人工智慧 | 數據挖掘 | 機器學習 | 大數據 |