」數據咖「的自我修鍊

不管你是剛進入大學讀CS,夢想著畢業後進入機器學習領域;抑或是剛踏入社會,從事著數據分析工作的小職員,你是否曾45度角仰望星空,夢想著有朝一日在數據這條路上走上人生巔峰?不管你的夢想是進入CMU或是MIT讀博,還是加入Facebook或者Google做數據科學家,抑或是進入本土的BAT,從事數據挖掘,拿年薪百萬,在你遙遠的夢想那一端,已經有一些先行者,也就是數據界的「咖」,在遠處朝你招手。

人生經歷上,他們已經征服了星辰大海,已經載入歷史篇章;財富上,他們早已年薪數百萬。這些人,就像海上的燈塔,就像夜裡的燭光,指引你的方向,在你累了困了時,一想起他們,會虎軀一振,滿血復活。那麼現在,就讓我們來數一下數據界的「咖」。

如果你出生於倫敦,有一個在香港當醫生的父親【天賦+10

拿到卡內基梅隆大學計算機學士學位【內力+20】

拿到麻省理工大學碩士學位【內力+20】

拿到加州大學伯克利分校的博士學位【內力+30】

在斯坦福大學工作近10年【攻擊+50】

加入Google的Xlab,合作建立全球最大的神經網路「谷歌大腦」【獲得武器-屠龍刀,攻擊+80,名譽+100】

加入百度,擔任百度公司首席科學家【習得技能-百度全家桶、假藥,攻擊+1000,名譽-1000】

那麼,你會成為

吳恩達

如果你在巴黎第六大學獲得計算機博士學位【內力+30】

隨後去了加拿大多倫多大學讀博士後【內力+30】

然後去貝爾實驗室工作超過20年【攻擊+80】

發明卷積神經網路演算法【獲得武器-倚天劍,攻擊+80,名譽+80】

而後被扎克伯格邀請擔任Facebook人工智慧實驗室負責人【攻擊+100,名譽+100】

還被聘請為紐約大學終身教授【防禦+50】

Yann LeCun

如果你在加拿大多倫多大學獲得碩士學位【內力+20】

畢業後在AIG(美國國籍集團)工作一直到副總裁【攻擊+80】

然後在Kaggle競賽多次獲得亞軍並取得世界排名第一的座次【習得技能-降龍十八掌,攻擊+80,名譽+50】

最後去DataRobot公司擔任首席產品官【攻擊+80】

那麼,你會成為

Owen Zhang

如果你畢業於北京大學,獲得天體物理學學士學位【內力+15】

在馬里蘭大學分別獲得計算機科學碩士和博士學位【內力+30】

後在加拿大排名第三的滑鐵盧大學任教6年【攻擊+40】

帶領團隊連續獲得兩屆ACM國際數據挖掘競賽冠軍【習得技能-左右互搏,攻擊+60,名譽+20】

應邀去華為擔任諾亞方舟實驗室主任【攻擊+80,名譽+20】

同時受聘為香港科技大學計算機與工程系教授【防禦+40】

那麼,你會成為

楊強

如果你在南京大學獲得本科學位【內力+10】

隨後在德國慕尼黑大學獲得計算機博士學位【內力+20】

歷任西門子公司數據挖掘部門資深研究員,NEC公司美國研究院深度學習方向部門主管【攻擊+70】

入選「龍星計劃」,作為傑出旅美華人在清華大學和中科院計算所開設「機器學習」課程【防禦+20,名譽+20】

加入百度公司,組建深度學習研究院IDL,並說服好友Andrew Ng加入【習得技能-百度全家桶、假藥,攻擊+1000,名譽-1000】

而後離職百度創業【習得技能-回頭是岸,名譽+50】

那麼,你會成為

余凱

如果你又是在南京大學讀書,分別獲得計算機學士、碩士和博士學位【內力+25】

留校任教數十載,並在南京大學創建機器學習與數據挖掘研究所【名譽+15】

一生得獎無數,包括中國IT十年傑出青年、微軟青年教授獎、中國計算機學會會士、ACM傑出科學家等【名譽+10】

最重要的是成為數據界的「奶牛」,培養出近10名機器學習領域的博士生、20餘名碩士生【習得技能-變身奶牛,名譽+20】

那麼,你會成為

周志華

如果你畢業於清華大學取得物理學、生物學本科學位【內力+20】

然後遠赴美國新澤西州立大學取得生物博士學位【內力+15】

接著憤而改學計算機,取得新澤西州立大學碩士學位【內力-10】

而後如魚得水,到加州大學伯克利分校拿到計算機博士學位【內力+20】

畢業後在卡耐基梅隆大學任計算機系副教授,專研統計學習與遺傳基因結合的研究【攻擊+30】

在頂級期刊發表超過200篇論文,獲美國國家科學基金會事業獎、美國空軍青年學者獎等無數【攻擊+20,名譽+10】

每天只睡4-5個小時,其他時間都用來科研【習得技能-金剛不壞之身,防禦+50】

那麼,你會成為

邢波

在大數據的浪潮之下,想要乘風破浪,即使不能成為武林高手,至少也在江湖上覓得一席地位,那麼除了天生骨骼清奇,對數據有強大的興趣和求知慾外,必須在以下四方面有所積累:

一、數據咖成長之《內力篇》

內力者,由內而發之力也。內力充沛,拳擊能破石,腳踢能穿空。

在這裡,內力指學歷。跟數據最相關的專業包括:計算機、數學、統計學,次相關的如其他的理科專業或者經濟學專業。知識是相通的,在一個學識領域能有所成並一直讀到碩士,接觸數據相關知識能夠觸類旁通。

當然即使專業對口,還必須對數據最相關的學科領域有所專研,數據相關學科包括

資料庫理論知識【內力+20】

Java/C++/Python/JavaScript/R 等編程語言【內力+20】

高等數學【內力+15】

概率統計【內力+20】

線性代數【內力+10】

演算法知識【內力+15】

等等,根據未來希望從事的數據相關職業會有所偏向。如從事數據架構相關工程師崗位,計算機方面學科是重點;數據挖掘的話,數學相關學科是重點;數據分析或者數據產品的話,數學和計算機知識要兼顧;數據可視化的話,除了計算機知識外,可以兼修一些藝術類學科 (≥◇≤)

二、數據咖成長之《武學篇》

習武者,莫不苦讀武學典籍,少林有《易筋經》,武當有《太極拳》,若運氣砸頭覓得《葵花寶典》,武林大拿指日可待。

在這裡,武學指數據相關的演算法知識。對我自己來說,演算法仍在學習中,因此慎言。但演算法對於數據相關職業特別是數據挖掘來說重要性是不言而喻的,以下是我能想到的入門演算法:

因子分析【武學+10】

線性回歸【武學+10】

邏輯回歸【武學+20】

決策樹【武學+10】

聚類分析【武學+10】

神經網路【武學+20】

樸素貝葉斯【武學+10】

支持向量機【武學+10】

每一種演算法都能往下深挖發現無數的變形,企業里每一種數據挖掘場景如推薦系統、用戶畫像、搜索等都包含不只一種演算法。

演算法就像武林秘籍,皆為武林高手集畢生精力所著,讀之能功力大增,習之能觸類旁通,甚至自創自己的武學。

三、數據咖成長之《威望篇》

威望從何處來,千軍萬馬中得來,有威望者,號令江湖,莫敢不從。

這裡威望指工作閱歷。在有成熟的數據應用場景的企業工作,能更好地在實踐中應用自己的理論知識,同時從具體業務需求出發,補全自己缺失的知識。

國內成熟的公司,除了眾所周知的BAT,還有京東、美團、亞馬遜等電商和O2O公司,這些互聯網企業有龐大的用戶數據,有很好的技術積累,重視工程師,並且很早就用數據監督和指導業務。當然其他行業比如銀行、券商、信用卡中心等也非常成熟。能在這些企業獲得實習或者工作機會,能大大地開拓眼界,並能很好地為你的職業發展鋪路。

百度、阿里巴巴、騰訊等工作經驗【威望+30】

國外名校、985等學歷背景【威望+30】

Kaggle、ACM等競賽獲獎經驗【威望+20】

各種頂級期刊發表論文【威望+20】

四、數據咖成長之《兵器篇》

神兵利器,如虎添翼,倚天在手,天下我有。

在這裡,兵器指處理分析數據的工具。在金融和生物醫學領域,喜歡用Oracle、SAS等;互聯網領域,喜歡用Hadoop、Spark、Java、Python、Scala、MySQL;科研領域,喜歡用Matlab、R等,還有大眾普適的Excel。不管是什麼工具,適合自己的才是最好的。

工具對於數據分析來說必不可少,工具還必須有搭配,也就是一門資料庫工具加上一門數據分析工具,如MySQL+Python、Spark+Scala等。一門用來存儲數據提取數據,一門用來處理數據分析數據,兩者失其一則不達。

SQL語言【兵器+20】

Hadoop、Spark等大數據平台【兵器+30】

Java、Scala、Python等編程語言【兵器+30】

Excel、SPSS、Matlab等軟體【兵器+20】

有人就有江湖,數據科學的江湖是數據咖的,也是你的,想要成為數據咖,你要在內力、武學、威望、兵器方面不斷提升,我們期待更多的江湖故事和傳奇人物!

步入江湖,先從數據咖學堂開始!

PPV課專供稿,未經允許禁止轉載


推薦閱讀:

機器學習之前,讓「大熊貓」先嘗一嘗數據的味道
數據分析的魅力和坑
數據化管理在餐飲業中的應用
如何用大數據軟體分析金融數據,目前哪個領域最有分析價值,以及發展方向?
有了這些數據指標,讓活動「運營」起來!

TAG:数据科学家 | 数据分析 |