想從事數據分析工作,學什麼軟體或語言最好?
做一般的數據分析,很多工具都可以。例如R, Python, Matlab等等。不過就社區規模和質量與學習成本與前景,最好學R,如果想更偏向於General purpose programming,最好還要學Python或者近年來發展迅猛的F#,個人推薦F#,函數式編程是未來的大勢所趨,況且F#有神奇的Type Provider,可以方便地調用R, Java,很快PythonProvider和MatlabProvider也會發布了,這樣就把幾大社區的資源都整合在一起了。
如果做大規模數據分析,當然要懂資料庫的東西,可以學SQL,用SQLite, MySQL等等來操作關係型數據。如果想做大數據,可以學Hadoop, Hive以及Storm等等,基於大數據平台做數據分析應該沒有必要了解太多技術細節,知道如何操作非關係數據,以及實時數據即可。
當然,都掌握最好。
======= 2014-01-28 補充 =======看看用R做量化交易研究產生的繪圖:
關鍵在於,可以大批量的按照程序自動產生:
下面是一個例子,研究不同的nonparametric kernel對於不同分布、不同樣本大小、採用不同bandwidth selection method估計出來的density與真實density誤差大小比較,採用ggplot2繪圖產生:
而繪製該圖的代碼卻非常簡單:
ggplot(data=test.result,aes(x=kernel,y=made,fill=kernel))+
geom_boxplot()+
facet_grid(sample~size+bw,scales="free_y")+
ggtitle("Kernel estimation errors under different settings")+
scale_x_discrete(breaks=NULL)+
theme(legend.position="top",legend.direction="horizontal")
「從事數據分析工作,需要學什麼軟體或語言最好」是跟你工作的性質有關的,同時也是分階段的,在今日頭條看到篇不錯的文章,粘過來供大家參詳:
這些數據分析語言和工具,該如何選用?
----------------------------------------------------------------------------------------------------------------------------------
從事數據分析一定要選一門編程語言和工具,技多不壓身嘛。
數據分析的工具有很多,按功能和側重點來分有統計工具、可視化工具等等。
應用最廣的也是最常被提到的,無非是Excel、SAS、Python、R等等。那麼,這麼多工具是否都要學?都適用於什麼情況?又應該如何使用呢?
Excel
EXCEL是其中最簡單的,倒不是容易而是人人都會。但如果是用來分析的話,圖表只是基礎,還要學會使用透視圖以及VBA函數。Excel的功能其實非常強大,尤其是通過學習VBA,幾乎能解決所有的問題,但成本就高了,而且Excel的數據處理量並不是很大,幾十萬而已,大數據量還要另尋方法。
SPSS
SPSS最初是社會科學統計軟體,如果剛入門數據分析,懂點SPSS事非常有好處的,當然前提是要懂SQL。SPSS得使用對人的能力要求不高,編程模塊很少使用,通常用於科學、市場之類的調研,在院校中使用較多。
有了以上的基礎之後,可能就需要精通一門統計分析軟體。
近幾年的互聯網潮,R語言流行起來了,在互聯網行業運用較多。R語言是開源的,學習起來並不容易,需要一個長期的過程。
SPSS剛剛有提到,適用於市場研究,上手較快。如果會編程的話,功能還是蠻強大的。
SAS一般是金融行業應用較廣,特別是銀行業和醫學統計,包括一些製造業也很多。銀行業通常會用SAS來做統計,數據挖掘也會用到,價格昂貴,學起來比較難,建議網上尋找一些課程和教材來學。
所以打擊愛可以針對自己的行業和實際情況來做選擇,以上列舉的只是大致情況。
Python
PythonR的比較
以上就是各種數據分析工具和語言的介紹,其次還要掌握一些第三方工具,這些工具一般偏業務化應用,可視化數據展示類偏多,所以在技術上沒有太多要求,不過SQL需要掌握。
Tableau
多次介紹過的一款可視化工具,可視化方面應該是做得最不錯的工具了,偏前端分析。不懂python不懂R的可以試試。有點貴,土豪們加油!
Qlikview
相對tableau有點丑,不要噴,畢竟人家走數據處理路線,作為BI產品,數據處理速度還是不錯的,取個數不至於像tableau慢。兩者像互補兄弟,各有優勢,但都一樣貴,哈哈!所以對數據處理要求較高的話,建議嘗試。
FineBI
國內的可視化軟體,bi工具。無功無過,重在穩定和應用,國內有一定市場,企業應用挺廣。有一定數據分析基礎的同學,應該說很快就能上手,免費版無限用!
還有一些D3之類的chart軟體這裡由於篇幅就不介紹了,主要偏應用,在工作中使用還是蠻廣的。
總體來將,每個工具各有優勢,但最關鍵的還是對於業務的熟悉度,沒有遠離和思路,任何工具都用不起來,所以在做數據分析時,一定要紮根學習業務和數據建模方法,工具不是萬能的!
---------------------------------------------------------------------------------------------------------------------------------
這位達人已經為大家分享的很詳細了,只不過後邊省略了很多其他優秀可視化工具。近幾年國內同類的可視化工具也是不錯的選擇(主要是便宜、伺服器在境內、技術支持是中國的好溝通)
永洪BI
號稱3步完成分析報告:Step1:連接數據;Step2 :編輯報告;Step3 :分析與操作;
「鏑數」
號稱三分鐘內把數據變成好看又好用的圖表的可視化平台。
數據觀
號稱實現自助式的數據連接,自助式的數據處理,自助式的數據可視化,自助式的數據協作。
還有上面提到的BDP都還不錯,側重有些不同。
貼一篇仿照著之前玩攝影的時候看過的《鏡頭七武器》寫的《數據分析之七武器》
***注意這裡寫的偏重於對商業分析師的要求,而非數據挖掘工程師。這二者基本上是數據分析這一職業類型的兩個高級轉職分支(類似於法師和術士的關係。。。?)。對數據挖掘工程師的技術要求不太一樣(他們肯定會有JAVA和Hadoop)。
- 長生劍——Excel
劍是優雅的代名詞,是風度翩翩的君子所愛之物,佩帶一把長生劍,練得一套好劍譜,可以以最優雅的方式擊倒對手。這正如微軟出品的Excel。據我所知,玩Excel的高手們主要集中在金融領域,帶高富帥光環的金融男配上長生劍,引來的不只是目光和尖叫,更讓你的加班費噌噌上漲。當然,劍也是難用的,會vlookup和pivot table的是初級劍客,會規劃求解的是中級劍客,會VBA的是高級劍客,而本人見過的絕頂劍客玩起Excel是從來不用滑鼠的。Excel幾乎是每個人接觸數據開始所用的第一款軟體,擁有最美觀的界面,最完善的生態,同時又能用macro編程,各種插件已經足以解決大多數傳統企業需要解決的問題,把玩價值不亞於任何一款新型軟體。Excel是比爾蓋茨最引以為傲的產品,是每一個數據分析師心中的上等之劍,同時也是長生之劍(至今依然被廣泛使用)
- 碧玉刀——WEKA
刀是綠林好漢的最愛,是最容易上手也是最爽快的武器,一刀在手,神擋殺神佛擋殺佛,乃以一當百之不二選擇,要問什麼軟體用起來最爽快?我的回答當屬WEKA,各種model通殺,銳不可當,同時卻又不失靈活性,模型的各種參數一個不少,他的圖形界面雖然不算美觀卻是非常簡潔易用,然而當你知道這款軟體是免費的時候,就算你現在用不到,相信你會毫不猶豫去下載下來放在電腦里。它的另一個好處是,它是用JAVA實現的,所以運算非常快,激爽。
- 孔雀翎——SPSS/SAS
孔雀翎是極其小巧的,卻又是殺傷力巨大的暗器,一旦用起來得心應手,那將殺人於無形,這正如SPSS/SAS,只有圖形界面的SPSS,看上去毫不起眼,而且缺陷巨大;SAS能寫一些語句,但是在技術達人看來那些其實都是偽裝成代碼的參數,這麼容易就出結果的軟體似乎不符合那些技術控們的口味。然而,一旦你掌握了統計方法的精髓,你會發現這兩款軟體的威力是巨大的。有時候簡單的跑個回歸或者聚類,實在是沒必要寫什麼代碼,click-click省時省力,將你從繁瑣的勞動中解放出來,它..實在是最了不起的暗器!
- 多情環——R
環是渾圓的,是綜合能力最平均的兵器,R可能靈活性不如Python,簡潔性不及SAS,速度沒有JAVA快,然而R的綜合能力是最平均的。你可以說R是一種語言,但是它又是互動式的。R的軟體界面看上去平淡無奇,然而各種獨一無二的package,讓他可machine learning,可Bayes statistics,可network science,同時它的ggplot2做出的漂亮的visualization也是令人難忘的,更為神奇的是,它還能移植部分其他軟體的功能,去找找package吧,你會發現RJava,RWeka,RSQL等奇葩的存在。。。如此迷離而多情的開源軟體,你一定要試試!
- 離別鉤——Python
鉤是高手的玩物,雖然能力全面,用起來卻不容易,Python,飽受爭議,卻依然是高手的夢寐之物,它的鉤子,就在於它的代碼太簡潔,以至於你總是懷疑自己是不是在寫偽代碼。實際上,它使你能夠專註於解決問題而不是去搞明白語言本身,正是這個特性把它抬上了神壇,成為數據挖掘領域最不朽的傳奇。文本挖掘是Python遠超其他幾種武器的一大法寶,現行的的庫能幫你做到你想到的幾乎任何事。不管別人怎麼看,至少所有會寫Python的數據分析師都覺得自己很酷。
- 霸王槍——SQL
槍是效率最高的,既可以英雄單挑,也能在亂軍中殺出一條血路,不管是Microsoft出的,還是Oracle出的,本質上都是一樣的。SQL是處理大型關係型資料庫的霸主,其地位至今無人可以代替。不想每次在不同的Excel表格里做同樣的工作?一條簡單的SQL查詢語句就可以幫你搞定。如果你見識過excel里vlookup的強大,那麼當你用一句接近於英語的SQL語句實現同樣功能的時候,此時的心情,可想而知。SQL,它的能力..實在是霸王級別的。然而在這個大數據時代下,SQL的生存空間開始受到擠壓...MongoDB等新生力量似乎已經成為了市場最火熱的NoSQL,是geek玩家捧上天的神器。讓人不禁感嘆,廉頗老矣,尚能飯否?
- 拳頭——Powerpoint
武林宗師根本不需要武器,拳頭就可以橫掃一切,稱霸天下。而Powerpoint,毫無疑問就是分析高手的拳頭。最好的Powerpoint通常會出現在諮詢公司和蘋果的產品發布會。請不要鄙視PPT達人,要向他們學習。當你作為在一個國際團隊里的中國人,做了絕大部分dirty work而外國人只需要光彩照人地上台present的時候,就會明白我說這句話的用意。PPT不是僅僅讓你看起來懂得很多、做得很好這麼簡單,它能幫你理清思路,逼你重新審視你的整個邏輯。對於有些分析師來說,presentation是天下最難的事情,然而對於宗師喬布斯來說,這不是問題,一次精彩的presentation,足以讓後人銘記一生。
--------歡迎關注微信公眾號:大數據留學申請(dsjlxsq),我會分享一些最新的大數據留學項目的信息和行業信息。
羅列一下工作中數據分析工作會遇到的軟體以及學習方法。
對於入門小白,建議從excel工具入手—打好報表基礎
- 學習Excel也是一個循序漸進的過程
- 基礎的:簡單的表格數據處理列印、查詢、篩選、排序
- 函數和公式:常用函數、高級數據計算、數組公式、多維引用、function
- 可視化圖表:圖形圖示展示、高級圖表、圖表插件
- 數據透視表、VBA程序開發
按照我習慣的方法,先過一遍基礎,知道什麼是什麼,然後找幾個case練習。多逛逛excelhome論壇,平常多思考如何用excel來解決問題,善用插件,還有記得保存。
函數和數據透視表是兩個重點,結合業務場景來學習,可參考《誰說菜鳥不會數據分析》。
製作數據模板必須掌握的excel函數
日期函數:day,month,year,date,today,weekday,weeknum。日期函數是做分析模板的必備,可以用日期函數來控制數據的展示,查詢指定時間段的數據。
數學函數:product,rand,randbetween,round,sum,sumif,sumifs,sumproduct
統計函數:large,small,max,min,median,mode,rank,count,countif,countifs,average,averageif,averageifs。統計函數在數據分析中具有舉足輕重的作用,求平均值,最大值,中位數,眾位數都用得到。
查找和引用函數:choose,match,index,indirect,column,row,vlookup,hlookup,lookup,offset,getpivotdata。這幾個函數的作用不用多說,特別是vlookup,不會這個函數基本上複雜報表寸步難行。
文本函數:find,search,text,value,concatenate,left,right,mid,len。這幾個函數多半用在數據整理階段使用。
邏輯函數:and,or,false,true,if,iferror
(以上學會,基本能秒殺90%的辦公室白領。)
李啟方 - 知乎怎麼培養數據分析的能力? - 知乎專欄
報表工具—FineReport
客觀來講,FineReport是操作簡單卻功能極其強大的工具,但入門容易,升級難,要想達到高手的境界,還是需要幾個月的學習的。
FineReport的知識層次如下,每一個層次又有很多級別。
- 操作:FineReport的使用技巧,按照大功能可分為數據表、圖表、參數查詢、數據填報、移動端、平台搭建、定時調度、部署集成。
- 擴展:FineReport外圍但非常相關,主要是底層的數據處理,需要掌握的有資料庫知識SQL語言、ETL等,前端的一些實現開發,需要掌握的是JS
- 開發:FineReport支持各類插件,不滿足的功能可以自己開發定製,需要掌握java
帆軟 - 知乎
如何學習finereport ?
下一步注重分析挖掘—兩大語言
R語言
1.夯實基礎編程語句。這一部分主要是R的最基礎部分的學習,包括數據管理(向量、矩陣、數據框、字元串等的操作等)、數學計算與常見函數、數組與矩陣操作的常用函數、邏輯運算、流程式控制制語句(if, else, while, for 等)
2.掌握基礎統計模型與分析方法
3.學會運用可視化工具,主要是學習ggplot2包
4.高級R進階:掌握一些牛掰的package
文兄 - 知乎如何高效地學好 R? - 知乎
Python
傳送門:
怎麼用最短時間高效而踏實地學習 Python?編程零基礎應當如何開始學習 Python ?
數據軟體相關:從事數據分析方面的工作必備的工具是什麼。
(1)數據分析報告類:Microsoft Office軟體等,如果連excel表格基本的處理操作都不會,連PPT報告都不會做,那可能離數據分析的崗位還差的很遠。現在的數據呈現不再單單只是表格的形式,而是更多需要以可視化圖表去展示你的數據結果,因此數據可視化分析軟體就不能少,BDP個人版、ECharts等這些必備的,好看的數據圖表是很有必要的,工具就看你自己怎麼選了
(數據圖表來自上述的BDP個人版)
(2)專業數據分析軟體:Office並不是全部,要從在數據分析方面做的比較好,你必須會用(至少要了解)一些比較常用的專業數據分析軟體工具,比如SPSS、SAS、Matlab等等,這些軟體可以很好地幫助我們完成專業性的演算法或模型分析,還有高級的python、R等。
(3)資料庫:hive、hadoop、impala等資料庫相關的知識可以學習;
(4)輔助工具:比如思維導圖軟體(如MindManager、MindNode Pro等)也可以很好地幫助我們整理分析思路。
工具只是數據分析的一部分,最重要的是要:理論知識+軟體工具+數據思維=數據分析基礎,最後要把這些數據分析基礎運用到實際的工作業務中,好好理解業務邏輯,真正用數據分析驅動網站運營、業務管理,真正發揮數據的價值。
數據分析,是從事哪些行業的數據分析?很多傳統行業,數據量不大,直接Excel就搞定。
而互聯網行業,基本上很少招專門的數據分析師,大部分都是招會Python的程序員。
要是說真正的大數據,基本上就是C++和Java的天下,這基本上和數據分析沒多少關係。
我覺得題主不是統計學專業的學生,甚至不是數學系的,很可能也不是計算機系的,較大可能是信息管理這種雜七雜八,摸不著頭腦的院系的。
沒有好的數學和統計功底,R語言根本就不應該去學,很多東西你根本不懂。
而且R語言也是一個極其奇葩的語言,上層的統計函數很豐富,下層的生態極其爛,譬如R語言與mongo的交互,從mongo里取出數據轉換成dataframe極其低效。所以很多時候需要靠Python處理好數據,然後再交由R語言計算。
大部分公司是不會招一個不是統計學專業,也沒有業界經驗的人去當數據分析師的。但是很多公司願意招一些Python程序員來做數據分析的工作。
所以,學Python吧,會Python,找不到數據分析的工作,你還可以找其他方面的工作。
另外,數據分析很無聊的,在很多公司也是比較邊緣的部門,掙的錢既沒有做實際產品的人多,也沒有市場部門的人多。
工作這種事,大部分都沒有那麼讓人興奮的,在一個你感興趣的行業就夠了。
工作真正讓人興奮的,是成就,是金錢獎勵,是升職,不是某一項特定的職業內容
就數據分析本身來說,你需要找一個有眾多現成的機器學習(或者叫數據挖掘、模式識別……)演算法庫/演算法實現的工具,這樣能省掉你大量的「造車輪」的成本,「要站在巨人的肩膀上」。
這樣的工具,有且只有一個,那就是R。可以不誇張的說,只要是一個稍有名氣的機器學習演算法,在R上都有實現庫,直接拿來用即可。(如果你在R上都找不到庫,那你有極高概率找不到任何庫。)
R還有一個好處,就是繪圖方便。繪圖可以用於彙報,也可以用於分析問題。這個看你的需求,很多時候會非常非常有用……
比如,一段文本要拿到任何模型里去分析,你不太可能原封不動的把文本本身丟進去吧?比如PLSA/LDA這樣的基於bag of words的方法,你就首先要提取出bag of words出來才行。又比如,一段語音,進來是時間域上的信號,你能拿來直接分析嗎?可以,但是祝你好運。首先你要把原始數據進行特徵提取才行,也就是變成頻域上的數據。
這些數據處理工作雖然不起眼,但根據個人經驗,起碼佔了數據分析工作的一半以上,對於某些領域,甚至佔了80%以上。
所以編程能力也是必不可少的……
&<新增編輯的部分&>
最近看到一個不錯的網站,學習數據分析本身也好,
相關的語言也好都可以用,就是要求英語夠好。
Udacity
這個學習網站裡面有大量的免費課程 棒得不要不要的
---------------------------
不知道LZ是想從事哪個部分的數據分析。
不過如果是關於網站,APP的話,建議基礎的編程語言要學會。
具體為:html、CSS、JavaScript。
關於如果很好地學習Html和CSS,
國內首推各個程序猿的最愛 W3School 可以幫你迅速熟悉各個Html的code用法。
網站地址是:w3school 在線教程
其次,英語好的話又肯交錢學習的話,超級推薦下面這個Code School。
https://www.codeschool.com/
Code School的最大好處就是:不僅有練習題,而且可以針對不懂的地方循環看視頻。
這樣即使是女孩紙也會覺得編程什麼的小菜一碟~
最後JavaScript...還沒學...等我學了之後回來改...
別的有知道好的學習網站的歡迎推薦~
此外,上面也有人說要學會R語言。
R語言是在你處理數據比較大的基礎之上才需要。
所以如果就是一般的網站分析,會用Excel統計就ok了。
最後,關於使用什麼樣子的軟體進行回答。
首推:Google Analytics。
其次:Adobe Analytics。
Adobe的要求比較高,而且還需要組合Adobe其他軟體一起用,
難度較大,可以先從GA入手,再視情況學習AA。
*但是喜歡AA的人一般會鄙視GA...
最後,分析競品的話還有兩個軟體推薦,這兩個軟體根本不需要學,
直接用就好。
一個是Similar Web, 是用來分析網站流量的。
另外一個叫做eMark+,這個是針對日本地區的...不知道國內有沒有相似的軟體。不過這個可以比較準確地看出用戶屬性的傾向。
基本上學會了上面的那些東西,去甲方乙方都不是問題了~
希望對LZ有幫助~
--------
最近入手了《深入淺出》HtmlCSS的那本和統計的那本。
*統計那本也是知友給我的,表示感謝。
我自己是R/Python的深度用戶 這裡果斷推薦R/Python R的ggplot2做的圖太炫麗了
Python, 特別是numpy和panda模塊。
Octave
Matlab
R
其實精通哪個都可以
excel-sql-SAS/r/python-scala/java
excel
R腦殘粉
引用自己寫的博客里的一段:
作為一個analyst,最最最最最最最基礎的是要會excel,起碼你得會vlookup、pivot table,這兩個都不會也就不用當analyst了。然後你得會SQL、Macro,再然後是R/SAS/SPSS/Python/JAVA/PHP/HTML,和這一條線平行的是數據可視化,比如Excel(你們表鄙視他,人家做圖表很牛的,做的難看是你自己的問題)、Tableau、Qlikview,當然,你要是會Photoshop和Illustrator就更好了(恩,我在變相誇我自己)。總結起來,analyst的工具箱里應該包括Advanced Excel(VBA) + 資料庫(SQL/Access) + 一門以上編程語言 + 一種以上數據分析軟體 + 一種以上行業相關軟體(製造業可以是SAP,互聯網可能是Google Analytics) + 一種以上數據可視化軟體。這些是硬實力,沒有這些,或者沒有熟練掌握這些,你無法有效的展開工作。我剛進Tesla的時候不太會寫SQL,那時候花一整天時間抓耳撓腮才寫得出的Query現在估計幾分鐘就完事了,那麼節約下來的大半天時間我就可以去做別的事了。我一般用processing,這個軟體比較適合初學程序的非開發背景人員,可視化數據編輯軟體的話我強烈推薦大家用Tableau 8.1(一般人我不告訴他),不過這款軟體就是有點貴,rmb差不多大幾千了,真心好用,我之前辛辛苦苦用processing寫的代碼,Tableau點幾下就搞定了。
數據來源:爬取2017年9月6日拉勾網下關鍵詞「數據分析」中的450條招聘信息
從圖表中可以看出,在招聘要求中出現次數Top5的數據分析工具依次是,R語言,SQL,Excel,Python語言和SAS
原文鏈接:數據分析招聘狀況分析
覺得有幫助就點個讚唄~
偏 CS 的話學 Python, 最好再接觸一下 Spark;偏統計就是 R 為主,SAS 在特定領域(banking, Bio)很流行。
MATLAB 學界用得多,業界很少用;Julia 目前還沒普及開來;SPSS 這類滑鼠流的軟體工作需要現學就可以。
另外,可視化也有必要搞一下,Tableau, Shiny (Python 有個類似的叫 Bokeh), D3.js 等等。這是我從Insight Data Science收到的推薦。應該是個很好的入門教程。
原文帶鏈接:大數據分析入門必讀教程
Python: Python has become the standard programming language for data science at almost all mentor companies, so the more you can do to practice coding in Python, the better. As a data scientist, you"ll use python to write scripts that take your data set (in whatever format it happens to be in) and get it into a format that you can work with. Once you have your data cleaned, you"ll store it in a SQL database,.
Action Item: Complete Google』s Python Class. Insight Fellows from previous sessions have raved about this course and it should only take a few days to complete.
MySQL: Scientists working in academia often just store data in text files, but in industry a database is almost always used to store data because of the increased performance, amongst other reasons. MySQL is one of the most often used databases in industry.
Action Item: Work through Tutorials 1-6 on the SQLzoo website. Feel free to explore the website to be able to complete questions in the tutorials. As a bonus, if you feel comfortable with the SQL on the SQLzoo website, try to work through the SQL homework questions on the Databases course on Coursera.
Data Analysis using Python: Now that you have gotten your data into MySQL using your Python coding skills, you can start doing data analysis to find meaningful insights in the data or to make predictions. Up to a few years ago the R statistical programming language was the best way to do this (and continues to be one of the best, if you"re already proficient in R). However, in the past couple of years, Python, with it"s various libraries like SciPy, Numpy, Pandas, iPython and matplotlib, have made it the tool of choice for data scientists.
Action Item: Watch Wes Mckinney』s video of how to use pandas in Python for data analysis. Follow along with his examples using the data and ipython notebooks found here. For a quick introduction to pandas, check the 10-minutes to pandas tutorial. Wes McKinney wrote the book Python for Data Analysis, and you may want to order it to use as a reference book.
Machine Learning: Having an understanding of the most common machine learning techniques and experience using them is becoming a must-have for many data science teams. You could spend years studying the entire field, of course, but even having basic exposure at the level of an introductory class will get you most of the way toward being able to speak intelligently about the topic, knowing when to use a specific algorithm for a given problem and being able to start working with a given machine learning technique to build your project.
Action Item: Take Andrew Ng"s machine learning course on Coursera. This is widely viewed in industry and by Insight Fellows as the best introduction and overview to machine learning that exists today. Insight Fellows from previous sessions found it very helpful to take summary notes while going through the course and attempting the exercises in Python.
Computer Science Fundamentals: Data scientists don"t deal much with the fundamentals of computer science (CS) and most of your interviews to be a data scientist will focus on topics that correspond to doing data science (ie: the topics above). However, for better or worse, a part of the interview process at each company will include coding interviews. In weeks 5 and 6 of Insight, Fellows spend a lot of time doing CS coding exercises in preparation for these types of interviews. In particular, the two (and pretty much the only two) topics you"ll need to understand (at a CS 101 level) are algorithms and data structures.
Action Item: Code the examples in Problem Solving with Algorithms and Data Structures in Python. In particular, become familiar with stacks, queues, linked lists, merge sort, quick sort, and searching and hashing. If you prefer to learn by watching lectures, check out the MIT Introduction to Algorithms course. Bonus: For each algorithm or data structure you learn about, try to program it from scratch in python, from memory. Many Fellows have also found Leetcode to also be useful in the interview prep for their CS section.
Daily Reading: Here are some of the primary news sources read by people in tech. We highly recommend starting to skim some of these news sources on a daily basis:
Hacker News
Techmeme
Here』s a list of data scientists to follow on Twitter
Data Science Weekly newsletter
每個公司對數據分析工作的定位不一樣,像我們公司最看重的是你用數據分析的技巧去服務於各種各樣的業務需求,偏業務線條多一些,對技能的核心要求包括以下幾點(但不局限):
1、精通EXCEL,熟練使用SQL,如果懂其他更多的工具越多越好;
2、寫PPT報告、WORD報告,甚至信息化長圖等,越專業越好;
3、喜歡鑽研,對行業有獨到的見解,自學習能力強;
4、有較強的文字把控能力或者說有一定的文案技巧,精於邏輯推導,數據結論的包裝;
5、善於溝通和表達,能非常清晰的表達觀點,把數據語言描繪成更通俗易懂的語言;
6、熟悉業務,這點也可以後學習,只要你學習速度足夠快。
當然,如果想了解更多,可以多看看各大數據公司的數據分析師的招聘崗位要求,這樣你就更明白了,技多不壓身,這裡我發一下我們以前的招聘要求:
- 通信、計算機、統計學、應用數學、市場營銷等相關專業本科及以上學歷;
- 對互聯網業務有深刻認識,2年以上通信行業或數據分析相關工作經驗;
- 熟練使用各類數據分析工具及交付材料製作工具,包括但不限於:Office、SAS、SQL、Spss、R、流程圖等相關工具;
- 具備優秀的寫作能力及良好的文檔記錄習慣,能協助運營經理完成分析報告的編寫。
- 具備較強的數據分析能力和項目執行力,能夠根據項目工作分配,保質保量的完成任務。
- 擁有良好的客戶服務意識,對大數據分析行業有著濃厚的興趣
- 較強的溝通能力,積極向上,較強的應變能力、敏銳的觀察力和良好的判斷力;
- 有較強的創新能力和學習能力;
- 很強的責任心、敬業度、團隊協作能力。
其實,現在隨著大數據概念的普及,數據分析相關的工作崗位也逐漸多起來了,而從學軟體或語言的角度出發,更多的是一些偏技術性的工種了,如什麼數據科學家、數據研究員、數據工程師等等。
希望對您有所幫助!
以下按入門到精通順序:
1.Excel
2.mysql
3.R
4.GA
5.Python
6.hadoop
推薦閱讀:
※想做 Python 聊天機器人,有什麼好用的中文分詞、數據挖掘、AI方面的 Python 庫或者開源項目推薦?
※診脈驗孕,有沒有可能用數字化的方法驗證可靠性?一定要來個挑戰賽么?
※如何用Python3寫一段將Excel數據導入SQL資料庫?
※轉行數據分析,如何寫簡歷通過的機會最大?
※數據挖掘、機器學習領域有哪些知名的期刊或會議?
TAG:互聯網 | 數據挖掘 | GoogleAnalytics | 數據分析 | 互聯網數據分析 |