數學系學生向數據分析師發展所需培養的硬技能?

我是數學系學生,未來想向數據分析師發展,需要學會哪些軟體:如SPSS、SAS、MATLAB、EXCEL、C++、SQL等,需要學哪些呢?需要精學哪些專業課程:如數值分析、概率統計、泛函分析等,有哪幾門是特別重要的呢?

希望您能幫我做一個較為具體的規劃(側重於學習軟體/專業課的先後順序)

我具體想做的行業是金融(這是因為我個人感覺證券啊期貨啊很高大上的樣子,其實具體是什麼我也不太清楚,就是一種無緣無故的行業崇拜吧)或者商業(可能形容的不太具體...就是有點像阿里巴巴的數據分析師,通過分析成交數據預測你喜好的品牌等等),這兩個行業哪個的未來發展情況會更好一些?我看到網上的招聘很多都是後者的招聘,而前者(金融業的數據分析師)招聘得很少,故有此問。從事金融業或商業,我需要看些什麼書來補充該行業所需知識?

如果只是本科畢業,能否勝任數據分析師的工作(假設所需的軟體知識已經具備)?繼續讀研會不會更好?哪些學校(國內外)在數據挖掘這塊比較強大?(我是中大的學生)


謝邀。

首先你要明確自己的方向:是要做更偏向於業務分析(包括金融、電商、互聯網等等)的數據分析師,還是要做更偏向於技術的數據挖掘工程師。你可以把這兩個方向看成遊戲里的轉職分支(本來想寫嚴肅一點但還是沒忍住=。= 不過該嚴肅的地方我會嚴肅的,不會誤導你),前者是聖騎後者是托姆勇士(答主你夠了=。=)。鑒於我不了解你的個人情況,因此把兩者都列一下,你可以做參考:

數據分析師(聖騎,精髓是知識面的廣泛性和快速學習的能力,本人走這個路線)

基礎屬性(知識體系):力量(統計學相關內容),敏捷(幹活快,反應快,總是慢半拍的分析師不好混……),體力(真的是得有個好身體=。=分析師很累的),智力(不說了……),感知(業務理解能力,快速學習能力),魅力(溝通協調能力);

擅長武器(分析工具):釘頭錘(EXCEL,泛用性高,日常問題70%以上能解決掉),盾牌(SQL,有最好沒有也成,用雙手武器唄=。=),長劍(SPSS/SAS,一把也成兩把也成,但你總得有一把),大劍(R,用好了理論上講可以代替之前的所有工具,不會用也能幹活),等等(matlab,state,python,都可以學學,尤其是python,學會之後抓取和清洗數據);

擅長防具(其他工具):重甲(PPT,這是立身之本);

職業能力(軟實力,雖然題主說的是硬實力但是聖騎路線實在是需要靠軟實力吃飯啊):聖光(靠展現邏輯和各種數據可視化晃瞎聽眾的眼,給己方撐腰),交涉(讓工程師幫你取數據,串分析的邏輯線講故事忽悠聽眾,跟客戶鬥智斗勇,都得靠一張嘴),等等。

數據挖掘工程師(托姆勇士,你要專精某些武器了,還得會造會修理,簡單來說就是寫代碼……曾想轉這個職業但失敗了的人捂臉飄過……)

基礎屬性(知識體系):力量(數學基礎,統計學基礎,演算法基礎,以上都得懂原理),敏捷(也要快),體力(這個要寫代碼,更要好身體),智力(同上),感知(技術知識學習能力,需求理解能力),魅力(溝通能力差點也問題不算太大,可以走純技術路線,當然有更好);

擅長武器(挖掘工具):這個要看你想練什麼,常用幾種武器:大斧(Python,能解決的問題多),大劍(R,解決問題犀利),戰錘(Hadoop,都挖掘工程師了怎麼著也得挖掘大數據吧,GB起步的那種),等等(這部分我用過的少,可能說的不全,不過以上這三種比較常見,據說有用C語言做數據挖掘的,只能膜拜);

擅長防具(其他工具):有沒有都行,你穿個重甲(PPT)也成,穿個中甲(process等可視化工具)也成,穿個輕甲(信息圖)也成,不穿護甲多拿幾件武器也成(=。=);

職業能力(這可是硬實力):製造武器(建模,工具化,寫代碼,寫演算法),修復武器(改進模型,改進工具,改進代碼,改進演算法=。=),等等。

以上是不嚴肅的部分(其實也挺嚴肅的啊,乾貨不少了=。=),以下說點嚴肅的,順便回答你另外幾個問題:

1、本科畢業能不能做數據分析師?

能做,而且兩個路線都能走,進市場研究(諮詢公司,廣告公司)和互聯網(阿里等)行業不難,但進銀行極其困難(銀行是典型的學歷論行業,研究生以下想進入難上加難,而且去小銀行沒有意義,數據太少),本科畢業的話真對金融業感興趣,可以考慮外包公司(Teradata,華勝天成這種給金融業做數據挖掘外包的,不過基本都要托姆……啊呸,數據挖掘工程師);

2、看什麼書來補行業知識?

行業知識對數據分析師更重要一些,說有多重要都不為過。具體看什麼書,請用知乎搜索(不是不告訴你,主要是我給你推薦也不權威=。=可以看看各行業大牛知友的推薦);

3、考研有用么?國內外有什麼學校做數據挖掘好?

考研對數據挖掘工程師的作用更大一些(數學基礎更好,演算法更紮實),對數據分析師意義一般(分析師是靠項目經驗喂出來的,我自己就是本科,發現這個路線對經驗的需求實在是高,有學歷沒經驗(兩年以下)的人市場需求比較少,多數公司都要求三年以上經驗了);

至於學校這事……能肯定告訴你的就是,國外學校理念和演算法先進,但是回國不太好使(漢字語義分析卡死無數外國英雄好漢);國內學校本地化比較好。

再提醒題主一下:方向一定要先定好,兩個方向雖然都研究數據,但是需要的能力差別還是不小的,萬一加錯點了不太好改(=。=)。

最後祝題主能在這個外人看上去枯燥和神秘的領域找到自己的樂趣(學習和工作的時候沒有樂趣真的撐不下去的……)。


說說自己的想法,我是數學系的學生,現在一家大數據創業公司實習,也會去國外讀datascience。

我的情況應該和你比較接近了,在大一大二的時候學院還沒有分專業,那時候最傾向的也是數理金融方向,和你一樣,對行業不了解,但是就是有種莫名的行業崇拜。但後來還是因為要出國的原因選擇了統計,現在想起來真是有些盲目啊,不過現在我慶幸當初做了這個決定。

前面的答案給出了數據分析,統計領域常用的軟體,語言,R,SQL,python,SPSS,Excel之類,但我並不建議把這些看成一項項求職技能去掌握,會跟不上未來行業發展的變化。原因在於數據科學的發展和更新速度太快。就像馬雲說的「這是一個變化的年代,當很多人還沒有搞懂PC互聯網的時候,移動互聯網來了,當很多人還沒弄懂移動互聯網,大數據來了。」也許幾年後就會變成「大數據還沒弄懂,XXX來了。」

近兩年以mapreduce,Hadoop很火,各個以大數據為名的公司都要搞,當很多業內專家開始買書,上課了解什麼是分散式計算平台的時候,Google已經宣布將棄用mapreduce,轉而研發新的文件是新的分散式文件式分布系統Caffeine。當很多人還在糾結R,python,matlab什麼工具的可視化效果更好的時候,新的工具一次次地讓人眼前一亮,如果有興趣,看看Tableau,看看ployly,看看qlikview。新的工具已經能讓毫無專業背景的人輕而易舉的做到 R python之類做不到的事情。當很多人還以為想像著傳統的數據分析行業就是扒數據分析數據的時候,看看一大批的data entrepreneur 都在用在什麼樣的方式玩數據:

The Platform for Big Data and the Leading Solution for Apache Hadoop in the Enterprise

Mode - Get your insights together

BigML is Machine Learning for everyone

Flurry

Data Solutions

當然我不是在勸你把spss sql 之流看成過眼雲煙一帶而過,本科階段是你最重要的積累資本的時候,你在整個一生中只有在這段時間裡才能專心做一件事情:學習。別人是規劃不了你的未來的。


同上,你首先要確認自己喜歡的行業和目標職業:金融行業 or IT行業 or 電子商務等,不同的行業對數據分析的要求差距很大,主要表現在行業知識、軟體應用等等。另一個是目標職業,不同的目標職業定位,需要的技能加點組合方式也完全不同,比如大數據、數據分析、數據挖掘,對編程語言的要求就不是一個等級的。根據你的描述,你更傾向於數據分析,而不是數據挖掘或者機器學習之類,因此,在下面的回答中,均以數據分析為基準。

1、軟體工具

數據分析最常用的工具,是Excel——任何行業都要用到,我個人認為Excel甚至是其他統計軟體的基礎。此外,在kdnuggets上有個投票,最近幾年,R語言排行第一,其次就是Python和SQL及類SQL。我的理解是,不同的行業要求是不一樣的,比如在金融行業,一般都是採用非常成熟的SAS來做數據分析和挖掘,而在金融建模中還是傾向於matlab。在國內,很多中小企業,都是Excel和盜版的spss。在電子商務互聯網方面,R語言和sql都是很重要的。此外,excel和sql是可以短時間學會的,而對於R語言和SAS這種有語言味道的工具,需要學習的時間會比較長。

2、哪幾門課,特別重要

一般而言,數據分析用不到那麼高深的泛函分析,但是,如果你會了更好。對我而言,對重要的課程是概率統計類課程。這類課程是基礎中的基礎,重要性再怎麼強調也不為過。基礎好了,之後如果想涉及機器學習或者數據挖掘演算法研究,都可以很快的適應和學習。這些課程中,蘊含的思想,更是值得揣摩和深思。對不確定性的認識和對問題的辯證思考,這是數據分析師不可或缺的。

3、學習規劃

這個真心不敢隨便規劃。每個人的性格是不一樣的,專註的方向點和興趣點也不一樣。關於金融行業的行業知識學習,我不太清楚,畢竟我沒有在金融做過,只是打過點交道。對於數據分析課程,基礎的課程就是概率論與統計,如果你覺得需要延伸,建議你去coursera上選一些課程,比如霍普金斯大學的數據分析課程等等——這方面課程還是蠻多的。關於coursera或者edx等學習平台,不再贅述。

4、行業前景

目前不是互聯網金融了嗎?雖然都是對用戶的分析、對商業的分析,但是其實最終都會落到對這個世界的理解,對人性的理解。

5、行業讀物

金融行業,不太熟,只是學過金融學,聽前輩說,有太多東西要學習了。這個找相關前輩諮詢吧。

6、本科以及考研,院校

本科當然可以勝任數據分析了,數據分析對統計要求還是有的,但是數學系本科足夠了。但是,你要是做數據挖掘或者機器學習方面的話,對學歷要求還是比較高的。數據分析師,對工作經驗要求比較高。讀研與否,要看自己的權衡了。院校的話,中山大學不是挺好的嘛,此外,在統計方面,人民大學和廈門大學都是很強悍的。

非常同意@陳丹奕 的觀點,要選好自己的行業和目標方向,只有方向確定了,後面的各種問題才會顯得相對比較容易。而在選方向時,需要對各個方面有個基本的認知,這是一個很繁瑣的信息收集和認知的過程。


好多問題,不知道如何回答,就隨想隨答吧。

好的工具(這裡特指軟體吧)可以提高效率,實現你的想法和目標;但牢固的知識體系+應用思想才是根本。用matlab實現k聚類只需要 clusters = kmean(data, k),似乎很簡單。但你能說出kmeans的特點、聚類過程么?kemans的缺點是啥?kmeans如何改進?kmeans似乎有一堆缺點,但為啥很多聚類演算法還是以kmeans為基礎?這些都需要積累,才能了解。會用工具,只知其然而不知其所以然,是有很多壞處的。例如現在工作需要,正研究譜聚類。譜聚類能聚類任何形狀,似乎是現代化的聚類方法。但1、它的相似度怎麼計算才合理,這才是最基礎和核心的,它將問題拋給了我們。2、通過相似度矩陣降維。如果特徵記錄n=1萬,要計算n^2/2 遍相似度,還要n=1w的矩陣求特徵值和特徵向量,這運算量可以直接應用到現實中么?

你永遠可以勝任這份工作,只要你可以不斷學習,解決工作中遇到的問題。你也永遠不勝任這份工作,因為工作中總會遇到新的問題,新的挑戰,暫時無法解決。

讀研的問題,就無法回答了,因為不是數學專業出身。大學也沒想過讀研=。=


個人建議SQL和SASS要熟練。


數據分析師,如何提高求職命中率?(碩士畢業半年,之前從事的是軟體開發)!

如何選擇公司?行業的話,如果是IT,那就最好了,不過其他也ok,現在是經驗積累階段,但我想到一個平台比較大的公司工作和學習!


如果以後主要通過這些工具提煉出分析結果,那麼就是偏業務型的,需要到行業中實踐。

如果以後僅僅是通過工具給別人做數據整理、挖掘、作圖,那就學那些人推薦的軟體。

工作10年的感受,做機器能做的工作都不值錢;而只有人能做的工作才值錢。

比如一個公司遇到困境,通過軟體和計算機是無法發現問題的,真正能發現並解決問題的還得是人,而且是有思想和見地的人。


我是大四二本學校畢業生,讀的統計學,歸在數學系。個人感覺如果你有機會讀研,就讀研把。因為本科出來知識學的還太少,如果專門嚮往數據分析數據挖掘這一塊走的話,除了掌握SPSS sas 的一些常用分析軟體的方法外,其實更多的要結合你的公司的業務知識。另一方面,這一塊屬於技術類別了,本科出去一般都是從初級數據錄入員開始做,讓你了解公司業務。如果想進一步提升到分析階段,除了你專業只是夠硬外,還得會根據你理論分析出來的東西再和公司結合,說白了你得有能力給出相關報告和建議。我是選擇考研,現在成績沒出,不過這期間有去投簡歷面試,以上是按我個人情況的一些看的


推薦閱讀:

請各位大牛推薦幾本關於「Python 數據挖掘」方面的書??
職業規劃:Data Scientist(數據科學家) 和 Software Developer,如何選擇?
如何快速入行數據分析師?
App的數據分析怎麼做?

TAG:數學 | 數據分析 | 數據分析師 |