職業規劃:Data Scientist(數據科學家) 和 Software Developer,如何選擇?
小碩畢業,工作兩年,有大牛或經驗人士能不能幫忙提點一下,Data Scientist(數據科學家) 和 Software Developer哪個職位好一下,迷茫了。。。
我不知道中國的情況是怎樣,但我可以談談美國的情況。大家心目中的軟體工作師和數據科學家的職責是有分別的,但那個分界可能不是很清楚。
軟體工程師是一個存在多年的職業,工作也有規範,如編寫代碼,要用OOP,要寫Unit Test,當然要除蟲了,懂得version control,要deploy??分工也細。
可是數據科學家是相對較新的行業,但具體來說,要處理大量數據,當中包括很多如格式、錯誤資料、語言等要處理,這往往花掉了一半的精力;然後要從數據中找出訊息或知識,當中涉及不少數學、統計模型,或者機器學習的方法,可見數學能力是一個重要要求。另外也要有商業觸覺,要多看新聞。
由於數據科學家需要編程,所以他做的東西也有和軟體工程師重迭。我的職銜是軟體工程師,但做起來像研究員,其實是數據科學家的工作。
數據科學家的工作不太規範。Harlan Harris, Sean Murphy, Marck Vaisman在去年寫的《Analyzing the Analyzers》提到一個圖如下:
當中的Data Developer相當於Software Developer,和Data Researcher(即Data Scientist)有點不同。但注意的是,時代還在改變,這行業還沒穩定,這種圖形會繼續改變。
另參:What is a data scientist? 14 definitions of a data scientist! ? Big Data Made SimpleData scientist is a person who has the knowledge and skills to conduct sophisticated and systematic analyses of data. A data scientist extracts insights from data sets for product development, and evaluates and identifies strategic opportunities.
Other popular definitions:1. "There"s a joke running around on Twitter that the definition of a data scientist is "a data analyst who lives in California," -- Malcolm Chisholm2. "A data scientist is that unique blend of skills that can both unlock the insights of data and tell a fantastic story via the data," -- DJ Patil3. "Data scientists are involved with gathering data, massaging it into a tractable form, making it tell its story, and presenting that story to others," -- Mike Loukides4. 「A data scientist is a rare hybrid, a computer scientist with the programming abilities to build software to scrape, combine, and manage data from a variety of sources and a statistician who knows how to derive insights from the information within. S/he combines the skills to create new prototypes with the creativity and thoroughness to ask and answer the deepest questions about the data and what secrets it holds,」 -- Jake Porway
5. Data scientists are 「analytically-minded, statistically and mathematically sophisticated data engineers who can infer insights into business and other complex systems out of large quantities of data,」 -- Steve Hillion6. "A data scientist is someone who blends, math, algorithms, and an understanding of human behavior with the ability to hack systems together to get answers to interesting human questions from data," --Hilary Mason7. Data scientist is a "change agent." "A data scientists is part digital trendspotter and part storyteller stitching various pieces of information together." -- Anjul Bhambhri8. "The definition of 「data scientist」 could be broadened to cover almost everyone who works with data in an organization. At the most basic level, you are a data scientist if you have the analytical skills and the tools to 『get』 data, manipulate it and make decisions with it." -- Pat Hanrahan9. "By definition all scientists are data scientists. In my opinion, they are half hacker, half analyst, they use data to build products and find insights. It』s Columbus meet Columbo – starry eyed explorers and skeptical detectives." -- Monica Rogati.10. "A data scientist is someone who can obtain, scrub, explore, model and interpret data, blending hacking, statistics and machine learning. Data scientists not only are adept at working with data, but appreciate data itself as a first-class product." -- Daniel Tunkelang11. An ideal data scientist is 「someone who has the both the engineering skills to acquire and manage large data sets, and also has the statistician』s skills to extract value from the large data sets and present that data to a large audience.」 -- John Rauser12. Data scientist is "someone who can bridge the raw data and the analysis - and make it accessible. It"s a democratising role; by bringing the data to the people, you make the world just a little bit better," --Simon Rogers13. "A data scientist is an engineer who employs the scientific method and applies data-discovery tools to find new insights in data. The scientific method—the formulation of a hypothesis, the testing, the careful design of experiments, the verification by others—is something they take from their knowledge of statistics and their training in scientific disciplines. The application (and tweaking) of tools comes from their engineering, or more specifically, computer science and programming background. The best data scientists are product and process innovators and sometimes, developers of new data-discovery tools," -- Gil Press14. "A data scientist represents an evolution from the business or data analyst role. The formal training is similar, with a solid foundation typically in computer science and applications, modeling, statistics, analytics and math. What sets the data scientist apart is strong business acumen, coupled with the ability to communicate findings to both business and IT leaders in a way that can influence how an organization approaches a business challenge. Good data scientists will not just address business problems, they will pick the right problems that have the most value to the organization," -- IBM researchers
我的回答肯定很有局限性,僅供參考。
現在很多職位都叫data scientist,其中有一部分會搞很多sql,就是以前的statistician。這種職位我覺得好處是看的數據比較多,對business接觸的比較多。也可以轉client facing的崗位。喜歡跟人打交道的話,先做data analyst,再轉business analyst也不錯。如果就喜歡數據,那就一直分析數據唄,可能越做越偏統計。
有些工作建模的時間比較多,看論文,推公式都需要。這種工作可能碩士畢業有點不太夠。我覺得碩士畢業比較難直接做一些非常建模尤其是customize 模型的事情。
舉個例子啊。有十萬個用戶,已知每個用戶在過去一年什麼時間點看到了什麼廣告,廣告分五十類,最終有三千人買了東西。另外有一個對照組,十萬人,沒有看過任何這五十種廣告,但可能看過其他廣告。有兩千人買了東西。現在問每種廣告的影響力可不可以量化。如果手裡有一定的廣告預算,應該怎麼投入到這五十種廣告里。
這個項目,需要有個產品經理,有個賣這套東西的人,有個建模的,還要有兩個analyst,還要有個管理這個建模人員和analyst的後台boss。後台boss和產品經理最終負責給客戶解釋為什麼咱們的結果make sense,為什麼你的錢花得值。產品經理還要負責很多協調性的工作。
諮詢業做數據分析的牛人,要不然就是特別有商業嗅覺,知道什麼項目好賣,什麼東西有人關心,什麼能賺錢,要不然就是數學建模特別牛,項目定了,很快能做個大家都滿意的模型。
綜上,你還是看你自己的愛好。你要是喜歡我說的這種職業路線,那就去做唄。
剛開始掙得沒有碼工多,干幾年其實跟碼工掙得可能也差不多。本人在矽谷工作多年。見過很多同事由數據科學家轉為software engineer。只要會寫所需要的語言,在一個大公司里換組或者跳槽還是很容易的。相反,如果software想轉data,就稍微困難一些。因為data不只是需要會coding,還需要建模的思維、分析數據的思維,而思維這種東西沒有一兩年的實戰經驗是培養不出來的。
這兩個職位根本不是並列的關係,不存在看看標題就可以知道怎樣選擇兩個崗位,剛畢業根本沒有資格擔任數據科學家,如果企業設置數據科學家這個崗位來招聘畢業生或者工作就那麼幾年的人的話,其實只是企業的騙人的把戲,利用這個當前數據科學家這個噱頭來吸引眼球。關於數據科學家方面的內容及一些核心技能素質要求,請大家參考下我以前的一篇文章,希望以後就不要把數據科學家和普通的數據工程師混為一談,貽笑大方。
以下是文章內容,供大家參考:
大數據科學家的核心技能有多個方面,在文章的末尾,我會梳理下需要核心技能框架供大家參考。下面,我重點談談要成為數據科學家的最核心的技能是要掌握好大數據應用技術,掌握好大數據基礎平台的構建和大數據產品化、服務化的價值變現框架以及大數據商業化的總體思路。
當前大數據已經深入人心,各行各業都在談論大數據,都想抓住大數據這個新興產業的機會,傳統企業也想利用大數據進行企業的轉型升級。一個個的大數據項目像雨後春筍般被立項動工,懷著領導極大的期望熱火朝天的幹起來。可是,當領導們發現投入了大量的人力財力物力,但最終結果不理想、沒有實際結果產出的時候,他們就開始心灰意冷,懷疑起大數據是不是真像人們說的這樣有價值?領導們心裡就會認為,大數據其實就是大家跟風炒作,只是一個泡沫而異?事實上,真的是這樣的嗎?我想一定不是的,大數據絕對不存在泡沫(關於這一點,大家可以參考我的「大數據人的職業生涯規劃」 這個小講,有詳細充分的把這個問題論述清楚),大數據是真真正正的具有非常大的企業應用價值的。那這樣說,老闆的問題出在哪裡呢?我認為,大數據項目之所以失敗、之所以沒能達到老闆的預期,主要責任在於這個公司的大數據科學家,是他的能力水平不夠,導致老闆對大數據喪失信心。而社會上,正是存在千千萬萬不合格的但又處於企業核心關鍵位置的大數據科學家,才讓一個個大數據項目發揮不出真正的價值來,導致當前大家對大數據所存在的社會困惑,更以至於大家都認為大數據存在泡沫。以下是我對大數據科學家培養的一些小小的建設性意見,給更多想成為未來大數據科學家的同學一個學習框架,如果大家能因此從中獲益,未來成為一個真正的能為企業創造巨大價值的大數據科學家,我深感榮幸!
一個大數據科學家,要做好大數據工作,真正發揮大數據的價值。需要掌握三方面的應用能力,一是大數據基礎平台的建設能力;二是大數據產品化、服務化的包裝能力;三是大數據產品和服務轉化為商業價值的商業化能力。三個方面,缺一不可。如果只懂得大數據平台建設能力,那麼他只是一個大數據架構師;如果只懂得大數據產品化、服務化能力,那麼他也只是一個數據產品經理;如果只懂得大數據商業化能力,那麼他只是一個好的大數據銷售經理。具備以上單一能力的人,社會上還是非常多的,具備雙重能力的人,也還不少。一個具備大數據平台建設能力,又可實現大數據產品化的人,不能稱之為數據科學家,這一類人能力不錯,可把數據和產品玩得非常溜,企業有時候招到這類人認為已經招對人了,挺高興的。如果這個人作為一個架構師或者高級產品經理或者是一個大數據部門經理,我覺得可以勝任的。但一旦把這個人擺在大數據總監或者更高層的位置上的話,會是不勝任的,因為從商業角度來說,這一類人只會搭積木,不了解數據商業化,更不懂得生意的本質,有時候會是災難性的,會直接導致大數據項目的失敗。下面,我們分別講講這三個方面,都有哪些具體的要求。
大數據平台構建:需要掌握大數據基礎平台架構能力、企業大數據門戶建設能力、大數據應用系統集成能力。由於每個企業業務繁多,企業數據日常只存放在各個業務資料庫中,當運營、產品、分析等人員需要用到數據的時候,就需要訪問多個資料庫來獲取,並且,這些數據是雜亂無章的,各種格式都存在,為了拿到需要的數據,也許需要分析人員花上好幾個小時甚至幾天的時間,使用起來非常的很不方便。另外,數據是企業日常運營過程中,經常使用的資產,獲取數據的低效率直接影響到企業的經營效率,從而影響到企業在激烈的商場中的競爭力。在競爭激烈的商場中,每家企業都追求比別人快一秒,這就需要數據科學家們,幫助企業搭建好完善的大數據基礎平台,讓獲取數據變得容易、簡單、高效。當然,這一步也是大數據產品化、服務化的基礎。說了這麼多,我們該怎樣構建企業大數據基礎平台呢?由於我們這是一個大數據職業生涯系列的分享,涉及具體技術方法方面我們將會在大數據應用系列的「企業大數據戰略及價值變現」這個小講中詳細的分享,歡迎大家參加。在這裡,我只講兩點需要特別特別注意的地方:
1)把握實施的節奏和策略。通常在企業B輪之後,就要上大數據平台了。如果本身背景比較雄厚的,早期規模都比較大,有實力的話,越早做越好。但是,要非常注意實施策略,大數據是投入大,短期產出小的項目,如果不懂得實施策略,必然會失敗。怎樣的策略呢?先做好大數據平台架構,規劃好主題模型和層次模型,進行模塊化、框架式設計,然後根據最靠近業務、最靠近營收為準則,去判斷優先實施哪個模塊哪個應用,以期望馬上帶來經濟效益。這一點非常之重要,直接決定了這家企業大數據項目後期還能不能繼續玩下去的根本。這也是我在給企業做大數據解決方案時候,最核心關注點。
2)關注大數據3個平台間的聯動協同效應。是哪三個平台呢?我們前面已經說到,不知大家有沒有留意。大數據基礎平台、大數據門戶(也即大數據分析平台,含用戶畫像)、大數據業務應用系統(如風控系統、個性化推薦系統等)。雖然他們三者之間存在依賴關係,比如大數據分析平台的數據從大數據基礎平台出,個性化推薦系統所用到的用戶畫像從大數據分析平台過來,但我們千萬不要先做完成一個平台再去做另一個平台。我們一定要聯動協同,要同時進行,要小步快跑,快節奏的出效果。那麼,我們怎麼聯動呢?我還是舉一個例子來說明。就說個性化推薦系統吧,我們可以先專心推薦系統最重要的模塊-用戶畫像這個模塊的研發,像產品知識庫、推薦引擎等,可以以最簡單的方式,甚至半人工方式來完成,集中精力完成用戶畫像這個模塊。同時,兼顧大數據分析平台中用戶畫像的框架、大數據基礎平台中用戶主題模型框架來實施,當我們把推薦系統的用戶畫像模塊研發出來的時候,我們也已經把大數據基礎平台的用戶主題模型和大數據分析平台的用戶畫像分析做出來了,一箭三雕,非常之高效。這就是聯動協同效應。
大數據產品化: 需要掌握大數據產品化、數據應用化能力以及數據驅動業務增長技術能力。數據產品化,是企業大數據項目的重要且核心的內容。數據能不能提煉成產品或者服務,進行產品化、服務化轉變,直接影響到數據變現能不能成功,從而影響到企業整體的變現、貨幣化能力。貨幣化能力又直接影響到企業的估值高低。關於這方面例子的企業,社會上非常之多,在這裡也不好直接說出來,大家可以自己想想有哪些企業用戶基數非常之大,但多年一直在虧損的,不管是國企還是民企,這一類企業數據變現是不成功的或者是根本沒有進行數據變現的,導致貨幣化困難、盈利能力弱。這是什麼原因呢?核心還是人才,缺乏一個真正的大數據科學家,缺乏能把數據變成產品或者服務的人。有很多企業數據非常多,但是就是不能充分利用起來,不能充分發揮數據的價值,原因就是缺乏這樣一位大數據科學家。 既然數據產品化服務化是這麼重要,我們日常有哪些常用數據產品化、服務化方法呢?方法非常之多,但總結起來就那麼幾類,要成為一個數據科學家,那是必須要掌握的。
1)精準營銷和個性化推薦系統。非常之常見,幾乎每家有一定規模的企業都會做的大數據產品項目。它們是通過推送用戶喜歡的產品或者服務給用戶來獲得價值收益的。大家平時在淘寶上買東西,看到的「猜你喜歡」或者是「買了**可能你還想買**」等模塊就是典型的個性化推薦系統的產品。個性化推薦系統,商業效果非常顯著,產出也比較好衡量,只需要看應用了這個產品後,相同的業務營收比不使用該推薦系統提升多少就可以看出來了。關於個性化推薦系統是一個什麼東西,有哪些構成,實現原理是怎樣的,等等技術或具體產品問題,我們會在大數據應用系列分享的「如何利用大數據做個性化推薦」小講中,詳細的給大家分享,歡迎大家參加。
2)搜索平台、廣告服務平台。顯然,這兩個主要是通過廣告來創收的。大凡有一定用戶量的線上平台,基本都會通過廣告來獲得收益,這是各家企業普遍的最重要的變現手段。廣告商業模式多種多樣,有購買搜索關鍵詞的,也有搜索競價排名的,有購買黃金展位的,也有閃屏直接推送的,等等。商業模式多種多樣,但都脫不了其是將目標產品或者服務通過廣告位推送給恰當的人群,要不是曝光、要不點擊、要不購買等來獲取收益的。例子大家都知道啦,百度的主營業務就是靠廣告收入。
3)風控模型產品和服務。這塊在金融或者電商等互聯網企業應用得比較廣泛。是企業業務發展的重要支柱。風控可以帶來兩個方面的收益。對內,通過風控,識別欺詐和騙貸,降低由於欺詐帶來的放貸本金的損失,其實就是收益。對外,可以直接輸出風控服務能力,直接的產生營收。這方面的例子太多了,社會上做風控服務的大數據公司,不低於一百家,都是靠輸出風控數據服務來賺錢的。至於風控有哪些可以賺錢的產品和服務,以及風控的技術模型等一些問題,我們留到大數據應用系列分享的「如何利用大數據做好大數據風控」這一小講中,再詳細的給大家分享,歡迎大家參加。
4)大數據信息產品或解決方案服務。這一類企業也非常多,有提供會員服務的,有提供APP使用的,有提供SAAS雲服務的,等等,大大小小的提供大數據工具或者信息產品服務的企業不低於一千家。舉個例子,萬德資訊就是通過大數據手段,收集各種有價值信息進行整理加工後,提供給用戶的。關於這一類企業,在這裡我就不詳細討論了。因為實在是太零散了,各家企業五花八門。
大數據商業化:需要掌握數據商業化能力,數據價值變現能力,需要培養有強烈的商業敏感度的習慣。作為一個數據科學家,搭建好大數據基礎平台,做好數據的產品化、服務化,還是遠遠不夠的。企業生存就是為了積累數據,未來企業融資是靠數據,企業的上市估值更是靠數據。所以,我們所做的一切都是為了數據。可是,有數據還是非常不夠的,做出好的數據,也許一時能忽悠住投資人,忽悠住工作的同事,但是不能長期忽悠投資人,你有多少多少用戶量、交易流水多少多少個億,那都沒用的。長期來看一定是靠盈利的,是要為投資人創造收益的。企業的商業化是否成功,在很大程度上特別是對於一些本身是做大數據的公司來說,都是要靠大數據去驅動做數據化變現的。常用的一些方法有:
1)賣流量。通過大數據精準營銷或者設計一些數據產品比如個性化推薦來支持廣告的精準投放和產品的銷售以及交叉銷售等。這一類非常常見,我想不講大家應該也能明白。如果不明白的,可以看看淘寶網的一些廣告位和商品的推薦位,就會清楚了。
2)賣服務。現在很多大數據公司,通過把自己的核心能力包裝成一整套解決方案,提供給客戶。比如,大數據風控公司,提供大數據風控雲服務,把自己擁有的數據加上自身的建模能力優勢包裝成解決方案,提供給客戶。
3)賣產品。通過把數據產品化,比如,淘寶上特別多的提供各種分析結果給淘寶店家的數據產品。
4)賣數據。貴陽的國家大數據交易平台,其實就是在做這個事情。在互聯網金融領域,直接賣數據也是各大數據公司非常之常見的一種營收模式。
關於大數據商業化變現還有非常多的方法,這就需要數據科學家在日常工作管理中,做好歸納總結,創新思維,創造出各種各樣的數據商業化模式來。
以上就是我關於成為大數據科學家需要掌握的大數據應用技術的詳細論述,希望大家能靈活掌握好這個應用框架,不斷創新思路,更企業帶來實實在在的商業價值。但是要真正成為一個大數據科學家,僅僅掌握大數據應用技術還是遠遠不夠的,以下是我梳理的大數據科學家的核心能力框架,共包含5點,其中第2點 「成為大數據科學家需要具備大數據應用技術」就是我們前文所論述的。另外4點內容,我會在「大數據人的數據科學家之路」小講中進行詳細的分享,歡迎大家來參加。
(1)成為大數據科學家需要掌握大數據基礎科學技術
大數據技術:分散式大規模數據處理技術和工具,如hadoop、spark生態系統技術
數據挖掘技術:掌握常用的數據挖掘演算法模型、機器學習演算法、深度學習、人工智慧技術
數據採集技術:掌握數據採集的常用技術框架和工具
數據可視化技術:掌握數據可視化方法和技術及工具
(2)成為大數據科學家需要具備大數據應用技術
大數據平台構建:大數據架構能力、離線和實時分散式計算環境的建設
大數據產品化: 數據產品化、數據應用能力,數據驅動業務增長等技術
大數據商業化:數據商業化能力,數據價值變現能力,有強烈的商業敏感度
(3)成為大數據科學家需要具備大數據實戰能力
最好是大數據的各個工作崗位都曾經做過一遍,熟悉數據產品、數據分析、數據挖掘、
數據轉換清洗處理、數據採集、數據可視化等技術,能夠通盤的指揮大夥作戰。
要成為大數據科學家那就必須具備10年以上的大數據行業實踐經歷,當然啦,
特別厲害的人, 這個時間可以縮短再縮短。
(4)成為大數據科學家需要具備大數據戰略、產業化思維
大數據戰略:大數據平台戰略、人才戰略、時機戰略、選型戰略、管理戰略、決策戰略等
大數據思維:增長思維、動態思維、歷史思維、顛覆思維等
大數據行業視野:站在行業的視角,掌控各行各業的大數據動態情況
大數據產業的引領者: 具備大數據產業塑造能力,是產業的引領者
(5)成為大數據科學家需要具備一定的科研能力
需要具備專利論文能力,最好是能夠著書立說。各大大數據公司,
都有專利論文的要求的,作為企業數據最高領導者,必然需要具備專利敏感性。
以上是我對如何成為大數據科學家的幾點拙見,歡迎大家拍磚指正,歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 、 「數據分析師-從零入門到精通」、「大數據人的數據科學家之路」。
數據科學家炒得很火,我覺得的本質的區別應該是價值的區別,開發主要在於創造出沒有的事務,而數據本質上仍然是分析現有的數據。開發就像樂高,數據貌似沒有如此大的吸引力。
收入一樣不如選SE
數據科學家現在很火,很多傳統公司都招,可是萬一過兩年他們發現數據驅動沒什麼卵用,那你的職業生涯也就到頭了。
而SE的需求肯定比數據科學家大你給出的個人信息太少。什麼專業的小碩?數據科學家和軟體工程師必備先修課程修了多少門,分數多少?碩士論文方向?兩年工作有做過側重於這兩個發展方向的什麼項目嗎?
推薦閱讀:
※如何快速入行數據分析師?
※App的數據分析怎麼做?
※數據分析師的成長之路?
※做用戶研究如何系統學習數據分析?
※自學數據分析需要看哪些書(從初級到高級)的?