請問下從事數據科學需要哪些計算機方面知識?

題主是信息與計算科學(數學)專業的大一新生,想問一下我除了需要掌握計算機語言外還要掌握哪些計算機方面的知識,才足以從事數據科學方面的工作


謝邀。

1 數學基礎,數據科學的基礎,某種程度上說比你code還重要

2 邏輯思維能力,形成邏輯分析的習慣

3 解決問題的能力,這個很重要,因為數據科學領域太多新的東西,技術迭代變化也快,所以需要有快速適應的能力。


請參考我這篇文章,比較全面的介紹了數據科學或者要成為數據科學家需要掌握的知識。

大數據科學家的核心技能有多個方面,在文章的末尾,我會梳理下需要核心技能框架供大家參考。下面,我重點談談要成為數據科學家的最核心的技能是要掌握好大數據應用技術,掌握好大數據基礎平台的構建和大數據產品化、服務化的價值變現框架以及大數據商業化的總體思路。

當前大數據已經深入人心,各行各業都在談論大數據,都想抓住大數據這個新興產業的機會,傳統企業也想利用大數據進行企業的轉型升級。一個個的大數據項目像雨後春筍般被立項動工,懷著領導極大的期望熱火朝天的幹起來。可是,當領導們發現投入了大量的人力財力物力,但最終結果不理想、沒有實際結果產出的時候,他們就開始心灰意冷,懷疑起大數據是不是真像人們說的這樣有價值?領導們心裡就會認為,大數據其實就是大家跟風炒作,只是一個泡沫而異?事實上,真的是這樣的嗎?我想一定不是的,大數據絕對不存在泡沫(關於這一點,大家可以參考我的「大數據人的職業生涯規劃」 這個小講,有詳細充分的把這個問題論述清楚),大數據是真真正正的具有非常大的企業應用價值的。那這樣說,老闆的問題出在哪裡呢?我認為,大數據項目之所以失敗、之所以沒能達到老闆的預期,主要責任在於這個公司的大數據科學家,是他的能力水平不夠,導致老闆對大數據喪失信心。而社會上,正是存在千千萬萬不合格的但又處於企業核心關鍵位置的大數據科學家,才讓一個個大數據項目發揮不出真正的價值來,導致當前大家對大數據所存在的社會困惑,更以至於大家都認為大數據存在泡沫。以下是我對大數據科學家培養的一些小小的建設性意見,給更多想成為未來大數據科學家的同學一個學習框架,如果大家能因此從中獲益,未來成為一個真正的能為企業創造巨大價值的大數據科學家,我深感榮幸!

一個大數據科學家,要做好大數據工作,真正發揮大數據的價值。需要掌握三方面的應用能力,一是大數據基礎平台的建設能力;二是大數據產品化、服務化的包裝能力;三是大數據產品和服務轉化為商業價值的商業化能力。三個方面,缺一不可。如果只懂得大數據平台建設能力,那麼他只是一個大數據架構師;如果只懂得大數據產品化、服務化能力,那麼他也只是一個數據產品經理;如果只懂得大數據商業化能力,那麼他只是一個好的大數據銷售經理。具備以上單一能力的人,社會上還是非常多的,具備雙重能力的人,也還不少。一個具備大數據平台建設能力,又可實現大數據產品化的人,不能稱之為數據科學家,這一類人能力不錯,可把數據和產品玩得非常溜,企業有時候招到這類人認為已經招對人了,挺高興的。如果這個人作為一個架構師或者高級產品經理或者是一個大數據部門經理,我覺得可以勝任的。但一旦把這個人擺在大數據總監或者更高層的位置上的話,會是不勝任的,因為從商業角度來說,這一類人只會搭積木,不了解數據商業化,更不懂得生意的本質,有時候會是災難性的,會直接導致大數據項目的失敗。下面,我們分別講講這三個方面,都有哪些具體的要求。

大數據平台構建:需要掌握大數據基礎平台架構能力、企業大數據門戶建設能力、大數據應用系統集成能力。由於每個企業業務繁多,企業數據日常只存放在各個業務資料庫中,當運營、產品、分析等人員需要用到數據的時候,就需要訪問多個資料庫來獲取,並且,這些數據是雜亂無章的,各種格式都存在,為了拿到需要的數據,也許需要分析人員花上好幾個小時甚至幾天的時間,使用起來非常的很不方便。另外,數據是企業日常運營過程中,經常使用的資產,獲取數據的低效率直接影響到企業的經營效率,從而影響到企業在激烈的商場中的競爭力。在競爭激烈的商場中,每家企業都追求比別人快一秒,這就需要數據科學家們,幫助企業搭建好完善的大數據基礎平台,讓獲取數據變得容易、簡單、高效。當然,這一步也是大數據產品化、服務化的基礎。說了這麼多,我們該怎樣構建企業大數據基礎平台呢?由於我們這是一個大數據職業生涯系列的分享,涉及具體技術方法方面我們將會在大數據應用系列的「企業大數據戰略及價值變現」這個小講中詳細的分享,歡迎大家參加。在這裡,我只講兩點需要特別特別注意的地方:

1)把握實施的節奏和策略。通常在企業B輪之後,就要上大數據平台了。如果本身背景比較雄厚的,早期規模都比較大,有實力的話,越早做越好。但是,要非常注意實施策略,大數據是投入大,短期產出小的項目,如果不懂得實施策略,必然會失敗。怎樣的策略呢?先做好大數據平台架構,規劃好主題模型和層次模型,進行模塊化、框架式設計,然後根據最靠近業務、最靠近營收為準則,去判斷優先實施哪個模塊哪個應用,以期望馬上帶來經濟效益。這一點非常之重要,直接決定了這家企業大數據項目後期還能不能繼續玩下去的根本。這也是我在給企業做大數據解決方案時候,最核心關注點。

2)關注大數據3個平台間的聯動協同效應。是哪三個平台呢?我們前面已經說到,不知大家有沒有留意。大數據基礎平台、大數據門戶(也即大數據分析平台,含用戶畫像)、大數據業務應用系統(如風控系統、個性化推薦系統等)。雖然他們三者之間存在依賴關係,比如大數據分析平台的數據從大數據基礎平台出,個性化推薦系統所用到的用戶畫像從大數據分析平台過來,但我們千萬不要先做完成一個平台再去做另一個平台。我們一定要聯動協同,要同時進行,要小步快跑,快節奏的出效果。那麼,我們怎麼聯動呢?我還是舉一個例子來說明。就說個性化推薦系統吧,我們可以先專心推薦系統最重要的模塊-用戶畫像這個模塊的研發,像產品知識庫、推薦引擎等,可以以最簡單的方式,甚至半人工方式來完成,集中精力完成用戶畫像這個模塊。同時,兼顧大數據分析平台中用戶畫像的框架、大數據基礎平台中用戶主題模型框架來實施,當我們把推薦系統的用戶畫像模塊研發出來的時候,我們也已經把大數據基礎平台的用戶主題模型和大數據分析平台的用戶畫像分析做出來了,一箭三雕,非常之高效。這就是聯動協同效應。

大數據產品化: 需要掌握大數據產品化、數據應用化能力以及數據驅動業務增長技術能力。數據產品化,是企業大數據項目的重要且核心的內容。數據能不能提煉成產品或者服務,進行產品化、服務化轉變,直接影響到數據變現能不能成功,從而影響到企業整體的變現、貨幣化能力。貨幣化能力又直接影響到企業的估值高低。關於這方面例子的企業,社會上非常之多,在這裡也不好直接說出來,大家可以自己想想有哪些企業用戶基數非常之大,但多年一直在虧損的,不管是國企還是民企,這一類企業數據變現是不成功的或者是根本沒有進行數據變現的,導致貨幣化困難、盈利能力弱。這是什麼原因呢?核心還是人才,缺乏一個真正的大數據科學家,缺乏能把數據變成產品或者服務的人。有很多企業數據非常多,但是就是不能充分利用起來,不能充分發揮數據的價值,原因就是缺乏這樣一位大數據科學家。 既然數據產品化服務化是這麼重要,我們日常有哪些常用數據產品化、服務化方法呢?方法非常之多,但總結起來就那麼幾類,要成為一個數據科學家,那是必須要掌握的。

1)精準營銷和個性化推薦系統。非常之常見,幾乎每家有一定規模的企業都會做的大數據產品項目。它們是通過推送用戶喜歡的產品或者服務給用戶來獲得價值收益的。大家平時在淘寶上買東西,看到的「猜你喜歡」或者是「買了**可能你還想買**」等模塊就是典型的個性化推薦系統的產品。個性化推薦系統,商業效果非常顯著,產出也比較好衡量,只需要看應用了這個產品後,相同的業務營收比不使用該推薦系統提升多少就可以看出來了。關於個性化推薦系統是一個什麼東西,有哪些構成,實現原理是怎樣的,等等技術或具體產品問題,我們會在大數據應用系列分享的「如何利用大數據做個性化推薦」小講中,詳細的給大家分享,歡迎大家參加。

2)搜索平台、廣告服務平台。顯然,這兩個主要是通過廣告來創收的。大凡有一定用戶量的線上平台,基本都會通過廣告來獲得收益,這是各家企業普遍的最重要的變現手段。廣告商業模式多種多樣,有購買搜索關鍵詞的,也有搜索競價排名的,有購買黃金展位的,也有閃屏直接推送的,等等。商業模式多種多樣,但都脫不了其是將目標產品或者服務通過廣告位推送給恰當的人群,要不是曝光、要不點擊、要不購買等來獲取收益的。例子大家都知道啦,百度的主營業務就是靠廣告收入。

3)風控模型產品和服務。這塊在金融或者電商等互聯網企業應用得比較廣泛。是企業業務發展的重要支柱。風控可以帶來兩個方面的收益。對內,通過風控,識別欺詐和騙貸,降低由於欺詐帶來的放貸本金的損失,其實就是收益。對外,可以直接輸出風控服務能力,直接的產生營收。這方面的例子太多了,社會上做風控服務的大數據公司,不低於一百家,都是靠輸出風控數據服務來賺錢的。至於風控有哪些可以賺錢的產品和服務,以及風控的技術模型等一些問題,我們留到大數據應用系列分享的「如何利用大數據做好大數據風控」這一小講中,再詳細的給大家分享,歡迎大家參加。

4)大數據信息產品或解決方案服務。這一類企業也非常多,有提供會員服務的,有提供APP使用的,有提供SAAS雲服務的,等等,大大小小的提供大數據工具或者信息產品服務的企業不低於一千家。舉個例子,萬德資訊就是通過大數據手段,收集各種有價值信息進行整理加工後,提供給用戶的。關於這一類企業,在這裡我就不詳細討論了。因為實在是太零散了,各家企業五花八門。

大數據商業化:需要掌握數據商業化能力,數據價值變現能力,需要培養有強烈的商業敏感度的習慣。作為一個數據科學家,搭建好大數據基礎平台,做好數據的產品化、服務化,還是遠遠不夠的。企業生存就是為了積累數據,未來企業融資是靠數據,企業的上市估值更是靠數據。所以,我們所做的一切都是為了數據。可是,有數據還是非常不夠的,做出好的數據,也許一時能忽悠住投資人,忽悠住工作的同事,但是不能長期忽悠投資人,你有多少多少用戶量、交易流水多少多少個億,那都沒用的。長期來看一定是靠盈利的,是要為投資人創造收益的。企業的商業化是否成功,在很大程度上特別是對於一些本身是做大數據的公司來說,都是要靠大數據去驅動做數據化變現的。常用的一些方法有:

1)賣流量。通過大數據精準營銷或者設計一些數據產品比如個性化推薦來支持廣告的精準投放和產品的銷售以及交叉銷售等。這一類非常常見,我想不講大家應該也能明白。如果不明白的,可以看看淘寶網的一些廣告位和商品的推薦位,就會清楚了。

2)賣服務。現在很多大數據公司,通過把自己的核心能力包裝成一整套解決方案,提供給客戶。比如,大數據風控公司,提供大數據風控雲服務,把自己擁有的數據加上自身的建模能力優勢包裝成解決方案,提供給客戶。

3)賣產品。通過把數據產品化,比如,淘寶上特別多的提供各種分析結果給淘寶店家的數據產品。

4)賣數據。貴陽的國家大數據交易平台,其實就是在做這個事情。在互聯網金融領域,直接賣數據也是各大數據公司非常之常見的一種營收模式。

關於大數據商業化變現還有非常多的方法,這就需要數據科學家在日常工作管理中,做好歸納總結,創新思維,創造出各種各樣的數據商業化模式來。

以上就是我關於成為大數據科學家需要掌握的大數據應用技術的詳細論述,希望大家能靈活掌握好這個應用框架,不斷創新思路,更企業帶來實實在在的商業價值。但是要真正成為一個大數據科學家,僅僅掌握大數據應用技術還是遠遠不夠的,以下是我梳理的大數據科學家的核心能力框架,共包含5點,其中第2點 「成為大數據科學家需要具備大數據應用技術」就是我們前文所論述的。另外4點內容,我會在「大數據人的數據科學家之路」小講中進行詳細的分享,歡迎大家來參加。

(1)成為大數據科學家需要掌握大數據基礎科學技術

大數據技術:分散式大規模數據處理技術和工具,如hadoop、spark生態系統技術

數據挖掘技術:掌握常用的數據挖掘演算法模型、機器學習演算法、深度學習、人工智慧技術

數據採集技術:掌握數據採集的常用技術框架和工具

數據可視化技術:掌握數據可視化方法和技術及工具

(2)成為大數據科學家需要具備大數據應用技術

大數據平台構建:大數據架構能力、離線和實時分散式計算環境的建設

大數據產品化: 數據產品化、數據應用能力,數據驅動業務增長等技術

大數據商業化:數據商業化能力,數據價值變現能力,有強烈的商業敏感度

(3)成為大數據科學家需要具備大數據實戰能力

最好是大數據的各個工作崗位都曾經做過一遍,熟悉數據產品、數據分析、數據挖掘、

數據轉換清洗處理、數據採集、數據可視化等技術,能夠通盤的指揮大夥作戰。

要成為大數據科學家那就必須具備10年以上的大數據行業實踐經歷,當然啦,

特別厲害的人, 這個時間可以縮短再縮短。

(4)成為大數據科學家需要具備大數據戰略、產業化思維

大數據戰略:大數據平台戰略、人才戰略、時機戰略、選型戰略、管理戰略、決策戰略等

大數據思維:增長思維、動態思維、歷史思維、顛覆思維等

大數據行業視野:站在行業的視角,掌控各行各業的大數據動態情況

大數據產業的引領者: 具備大數據產業塑造能力,是產業的引領者

(5)成為大數據科學家需要具備一定的科研能力

需要具備專利論文能力,最好是能夠著書立說。各大大數據公司,

都有專利論文的要求的,作為企業數據最高領導者,必然需要具備專利敏感性。

以上是我對如何成為大數據科學家的幾點拙見,歡迎大家拍磚指正,歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 、 「數據分析師-從零入門到精通」、「大數據人的數據科學家之路」。


會一門編程語言的話基本就沒什麼了,頂多來一些演算法數據結構、資料庫這些。畢竟數據挖掘演算法、第三方框架什麼的都不是計算機知識哈~


推薦閱讀:

回歸分析有哪些令人驚嘆的應用?
jupyter notebook 可以做哪些事情?
国外学data science也就是大数据这种专业回国是不是不好找工作?
數據分析師和數據科學家有何區別?
數據科學(Data Science/Analytics)出身,可以在諮詢行業做些什麼?

TAG:數據挖掘 | 信息技術IT | 數據分析 | IT行業 | 數據科學家 |