我想學大數據分析,但是0基礎,求前輩老師指點?
以前做醫藥銷售,現在跨行想入IT大數據分析,以現在這個發展請給我一點建議
我也是藥學人,目前從事數據相關工作,雖然從事的你拋出的大數據概念應該相去甚遠(正如目前匿名用戶回答的,大數據不僅僅是一個詞能表達清楚的,等你來了再談數據之大好了),但那是目標,希望我們都會在路上。
基於我們可能有很類似的藥學經歷,我也講講這轉行一年多的經歷及學習過程,儘管每個人的路肯定都不會一樣,但或許你也能有所收穫,或者就告訴你"我一大齡青年都可能行,你很有戲",也不錯噢。
回答之前,推薦下 @桑文鋒 回答下面的《如何成為數據分析師》系列文章,值得仔細閱讀,真的很棒,也曾有幸聽過他講課,收穫頗多,我們公司目前正用他們SensorsData(簡稱SD)的產品,是能讓人感受數據魅力的產品。另外,推薦一下我覺得與SD一樣棒的GrowingIO,我很喜歡他們的創始人 @張溪夢 Simon的故事,由一個醫生到LinkedIn的數據總監再到現在的GrowingIO,他的故事曾在一段時間內給了我極大的激勵,建議可以去搜索了解下,有時候,路標的作用還是不可估量的;GrowingIO的這本互聯網增長的第一本數據分析手冊 一定要去讀一讀,不難,但很實用,入門就可以讀,可以提前感受數據分析的魅力(裡面的知識用於不同工具[如 SD] 同樣適用的),只是它更偏向於數據分析,把太多的數據處理的東西都包裝到產品裡面去了。提到GrowingIO,他們另一個合伙人 @葉玎玎 我也很喜歡,他主持的播客Teahour強烈推薦,雖是技術播客,但我覺得很棒,可惜不怎麼更新了。
廢話完了,上我的經歷啦
----------分割-------------
簡介
3年前畢業 –醫藥公司 –產品宣傳(去科室或各種會議上講授產品的那種,你肯定懂~)
1.8年前 –移動醫療 –項目管理
1.2年前 –移動醫療 –數據分析
遇貴人 –感恩
1年多前,遇到現在的老闆 @孫文亮,到現在我都覺得這是我目前職場中遇到的最重要的人,是他在我沒有任何基礎的時候收留了我,讓我內部轉崗進入了這個行業。也是他在我這段成長的過程中給了我許多關鍵點上的指導,有時,解決問題就真的只需要在那核心處有那麼一個人,一句話,就解開了。我很幸運,也很感激,是這樣的轉折讓我發現數據的美好,從此有了數據作戀人。
堅持尋找很重要,不要輕言放棄
我想不是每一個藥學人,都會像我這般幸運,但要相信只要堅持尋找,在路上不斷的補充知識,一定是可以找到的。
2年前,放棄了升職的機會,我也要選擇進入移動醫療,雖然一開始,我是希望做產品的,那時去逛產品論壇,看完《人人都是產品經理》《結網》《失控》《PMBOK指南》等書籍,練習Azure,Sketch等可能用到的工具,甚至還研究些Java(水平僅限for循環),那時只為一個入場的門票,產品也好,項目也罷;
我想你也一定做得到,機會是不會辜負一個努力的人的。你既然有做數據的目標,那麼也就不用分散精力,可集中的學習數據分析相關的知識即可。以我見老闆們面試的大部分來我們這求職的數據分析師水準來看,你努力一點,三個月達到同等水準應該不是什麼難題,當然,要是問我的建議,那就是:一定要更努力一點,只要那樣你才有機會進大一點的公司,因為數據大小很重要,眼界很重要,老闆最重要,謹記,共勉。
學習經歷
----------
第一階段:SQL 報表製作 分析報告
-------------------------------------------
SQL語言
看過的書籍:《漫畫資料庫》《漫畫統計學入門》
假設將數據分析分作八個曾是[標準報表,即席查詢,多維分析,警報,統計分析,預報,建模,優化產品]幾個層次的話,那麼使用SQL語言進行數據處理可以是每一個層次的基礎。所以作為數據分析師,SQL語言的撰寫基本上是必備的,你在各大數據分析師的招聘中均能看到,這是一門入門極其簡單的非過程化語言,大部分數據分析師用到大多是查詢和計算的功能,所以不用擔心太難。
竊以為以下幾點入門階段還算重要:
- 看點集合論的知識,為今後更好的區分集合邏輯和程序中過程邏輯的不同做點準備
- 多理解表,沒事多看看行、列;多想想Excel中的表,其實沒有什麼區別,你在Excel中怎麼操作的,轉換下思維
- 有餘力的話,看點關係代數,為之後深入理解關係型資料庫(RDBMS)放個前哨
我初學SQL的經歷很簡單:
- 看我前面看過的2本漫畫書
- 看網上以下的這些知識(我當時用過的,就沒幫你做篩選啦),覺得有難度的內容,放過即可,以後再學
- 不斷練習(如果沒有機會練習的話,自己在電腦上裝個MySQL,實在不行我可以把我搭在家裡電腦上的MySQL開放給你練習下)
Understand SQL Syntax
十步理解MySQLmysql 複製表數據,表結構的3種方法MySQL show指令合集聚集索引 非聚集索引添加刪除索引語法
Mysql刪除多表及多表記錄sql語句畫圖解釋SQL join語句批量更新多條記錄的不同值How to make multiple updates using a single query in MySQLER圖--數據建模與數據字典MySQL的最佳索引攻略欄位類型與合理選擇欄位類型數據中設計中的範式與反範式表的垂直拆分和水平拆分MySQL查詢執行路徑Mysql體系結構及sql執行過程總結
Mysql Select查詢執行流程介紹及實例Merge Join vs. Hash Join vs. Nested Loop淺談SQL Server中的三種物理連接操作B-樹和B+樹的應用:數據搜索和資料庫索引B-treeB+tree(易於理解)深入資料庫索引背後演算法及數據結構Delete,Update連表(left join)刪除MySQL存儲過程詳解 mysql 存儲過程自定義存儲過程和函數(詳解了存儲過程和函數)MySQL Explain詳解MySQL Explain Syntax
Explain語法(詳細解釋各個欄位內容)MySQL性能分析工具profileMySQL Sending data導致查詢很慢的問題詳細分析各種常規狀態(要多讀手冊)mysql show processlist命令 詳解詳解慢查詢Mysql資料庫中的EXISTS和NOT EXISTSmysql in和exists性能比較和使用快速計算Distinct CountVariables用戶變數介紹
MySQL變數使用筆記系列文章:點此進入(值得反覆研讀)[MySQL FAQ]系列 — 什麼情況下會用到臨時表[MySQL FAQ]系列 — processlist中哪些狀態要引起關注[MySQL FAQ]系列 — EXPLAIN結果中哪些信息要引起關注利用 index、explain和profile優化mysql資料庫查詢小結MySQL性能優化的最佳21條經驗MySQL性能優化的最佳21條經驗 - Leo"s DBA blog - 博客頻道 - CSDN.NETMySql之增刪改查總結MySQL資料庫優化技巧MySQL索引原理及慢查詢優化
報表展示我們公司由於使用的BirtReport,這個做基本的報表展示的話,不是很難,但要用好了,感覺細節很是很多的。這個過程我也感覺自己是稀里糊塗的過來的,直到後來才補充了些數據可視化的知識,所以在初學階段好像也沒什麼特別建議,唯一要提的是:要是你把SQL寫好了,簡單的報表實現是容易的,所以核心又歸結到SQL上了。這個步驟我不知道有沒有好的辦法,我想的是:暫時不用練習,應該也無傷大雅;
如果一定要練習,我只能想到以下:
- 先找一個工作,不求多好,公司會有工具,還有同事帶會好許多
- 或者裝一個單機版的Tableau 或其他類似工具,用測試數據自己摸索摸索。(Tableau我用得不好,僅介紹)
- 我可以提供下我家裡裝得Caravel,但這個可能需要對多維數據立方有些了解
- 對了,或者你也可以用BirtReport,自己連個資料庫就好了
分析報告
個人感覺分析報告主要用於解釋過往數據,為之後的決策提供參考依據。感覺決策分析在我們日常生活本就一直不斷發生著,我想很多招聘中提到的數據意識、數據敏感度啊什麼的,就是能思考數據與現實之間的關係,然後做點行為指導。我初學的時候,分析報告寫的不是很好,感覺有些像寫論文,總想寫個嚴謹范。後來,才更歸於簡潔,多用常見的模型,AARRR,對比分析等等,簡單又有效。
這部分的我想的是:
- 多看(看網上的分析報告、照貓畫虎)
- 多思考(把網上的機器貓拆了,自己組裝成老虎)
第二階段:資料庫 python 統計基礎
--------------------------------------------
資料庫
用過的書:《高性能MySQL (豆瓣)》《七周七資料庫 (豆瓣)》《Beginning Database Design》《資料庫系統概論(第5版) (豆瓣)》《NoSQL實踐指南 (豆瓣)》
作為數據分析師,我總覺得是應該對資料庫有稍微深入一點的了解的。特別是關係型資料庫的理解,這些基礎知識能讓你運行SQL的效率和別人不一樣,你寫SQL的時候,腦海中不會再只是一個集合計算過程,而是一行一行表中的數據,如何和另一個表中的數據進行交、並操作,中間是否會走索引,怎麼走索引,大約計算量會有多大,都會有一個清晰的認識。以MySQL為例,你可能能下意識反應出,在不同的存儲引擎下,整個計算過程會怎麼走。所以,如果你入門了,還是推薦補點資料庫基礎。
不同資料庫系統之間的對比,我覺得更多應該是作為自己喜歡的一個東西去學,其實,我也不知道這東西有多重要,但有用,比如我司曾經就選擇過MongoDB存儲日誌數據,用做分析型資料庫,導致後來這部分完全出不來,只能部分導出,部分廢棄。當現在對鍵值資料庫,文檔資料庫,列族資料庫,列式資料庫等不同NoSQL資料庫有些了解之後,就不會這樣選擇了。如果我們不是用了SensorsData,我覺得我會建議搭一個http://Druid.io,當然聽說SD用的也是列式的vertica,但我總覺得他們實現的很漂亮,就很好奇是怎麼做到的。
python
用過的書:《Python基礎教程》《Learn python the hard way》《編寫可讀性代碼的藝術》《Flask Web Development》《代碼之髓》《Python for data analysis》
我感覺做數據還是要會個語言的好,網上有許多關於數據分析師應該選擇R還是Python,你可以多去看看,然後根據自己的喜歡選擇一種即可。但我個人傾向於python,因為除了做數據處理之後,還可以用作開發許多其他好玩的東西,有些時候在工作中也比較實用。比如,我現在就用python腳本接SD的數據,也用flask實現一些簡單的服務等。更重要的是,在後面想學點機器學習知識的時候,它的用處是很大的。
統計基礎
用過的書:《行為科學統計精要 (豆瓣)》《應用回歸分析 (豆瓣)》《All of Statistics》(學習中)
之前我也確實由於統計基礎薄弱,做過很多很傻的事情,有一段時間,我總跟老闆說,我要對資料庫的數據進行抽樣分析,然後根據樣本做統計推斷。老闆說我對樣本的概念理解就不對,我當時還不以為然呢。直到我認認真真看完統計精要那本書,才發現自己當時是有多傻,我都有了總體了,幹嘛還去抽樣吶,我有病,還好吃藥了。所以,向你強烈推薦這本書噢。
第三階段:數學 機器學習 各種基礎
----------------------------------------
用的書:《機器學習 (豆瓣)》《Introduction to Linear Algebra, Fourth Edition》《Introduction to Machine Learning with Python》(在讀)《微積分和數學分析引論 (豆瓣)》《數學指南 (豆瓣)》(參考書)
我自己是在第二階段基礎未打牢的時候,就開始摸索了第三階段,這應該算是一個不太好的行為,自己目前的進展也很緩慢,很多地方,所以不建議這麼快躍進。我也是跌跌撞撞的學習著Coursera上Andrew NJ的那個經典課程。
我就在我的這裡啦…等你噢
第四階段:待續
------------------
注意事項:
- 集中精力(以我為戒)
- 雖然我看上去學了也學了不少知識,但第二階段的實踐做的就已經很少了,所以現在仍然會有那種只看得懂表面的感覺;建議你若要學,就一個一個內容學得更精一些
- 時間要分配好,這一年裡,我浪費了大量的時間在學一些不太實用的東西上,容易被一些東西吸引,比如我給自己裝一個Confluence就耗費了半個月,中間一點都不懂的瞎玩Docker、Git各種,現在也不太懂,總之分心了,反而不如把時間多花在數據可視化等跟數據有關的內容上
- 記住一個詞:數據
- 這點深有體會,這一年估計有寫10w行SQL,所以自我感覺就不錯,而python可能不到1w行,用起來就很澀
- 不要放過數學基礎的練習,很多東西,看懂了和會不會用是兩碼事,我只能說這個我也很痛苦,勤查工具書中
- 《暗時間 (豆瓣)》強烈推薦 @劉未鵬 (可以說改變了我的學習方法,比以前好學多了,很感謝作者,也感謝老闆的推薦)
- 《怎樣解題 (豆瓣)》強烈推薦 暗時間裡推薦的書,整個都可以讀
- 《黑客與畫家 (豆瓣)》有意思
- 吳軍老師系列的書
- 《大數據時代 (豆瓣)》
- ........
後記:我自己也是剛上路的初學者,希望一起努力吧~ 加油~
還是要從基礎知識學起,可以看看我這篇文章《如何成為數據分析師》https://zhuanlan.zhihu.com/p/23068739?refer=sangwf
「大數據」後面請不要加「分析」, 大數據就是大數據,數據分析就是分析, 這根本就是兩回事兒,這就跟非得把「數來寶」說成「大數來寶」一個意思。
更多的解釋請參見我下面的這條回答:http://www.zhihu.com/question/20935297/answer/132521001貼一點學習資源吧~~網站
- 人大經濟論壇 經管之家(原經濟論壇)-國內最大的經濟、管理、金融、統計在線教育和諮詢網站
- 中國統計網 數據分析與數據挖掘從這開始
- 統計之都 統計之都 (Capital of Statistics)
- 數據挖掘論壇
- 網站數據分析 網站數據分析 | 通過網站分析與數據分析實現網站優化
- 網站分析在中國 網站分析在中國
- 藍鯨的網站分析筆記 藍鯨的網站分析筆記 - 記錄網站分析實踐,分享Google Analytics應用與技巧
- 統計家園 統計家園|www.stathome.cn-----spss軟體破解下載,excel教程,amos下載,sas教程下載,R語言,統計軟體R
- 數據熊貓論壇 商業數據分析論壇_數據分析學習交流-數據熊貓社區 - Powered by Discuz!
書籍
- 深入淺出數據分析
- 啤酒與尿布
- 數據之美
- 數學之美
- SciPy and NumPy
- Python for Data Analysis
- Bad Data Handbook
- 集體智慧編程
- Machine Learning in Action
- Building Machine Learning Systems with Python
- 數據挖掘導論
- Machine Learning for Hackers
- Data Science for Business
在線課程
- Intro to Hadoop and MapReduce
- 維克托?邁爾?舍恩伯格的大數據時代
- 普林斯頓大學Statistics One 統計學基礎,假設檢驗,ANOVA,線性回歸等等(統計學入門)
- 斯坦福大學Statistics learning 基本的有監督學習介紹,回歸,分類,聚類,樹,SVM,K-means clustering等等(機器學習入門)
- 斯坦福大學的Machine Learning
- 約翰霍普金斯大學 Statistical Inference Practical Machine Learning Regression Models
- 萊斯大學的An Introduction to Interactive Programming in Python
- 華盛頓大學的High Performance Scientific Computing
- 約翰霍普金斯大學的R Programming
- Udacity上的Intro to Hadoop and MapReduce
- IBM 的大數據大學上的Hadoop,雲計算
- 密歇根大學的Introduction to Public Speaking 講演,演示
- coursera上約翰霍普金斯大學的數據科學專業課程 data science
- 學堂網收集的數據科學課程
說句政治不正確的話。
如果是誠心求教,請本著盡量少麻煩別人的原則。先自己把基礎知識學個大概。
正確的提問方式是:「我在學習某某學科,有哪些基礎知識,在做什麼的時候遇到了什麼問題,我做了以下事情,期待結果為x, 但得到了y. 查了哪些資料,但仍不理解,請指點」
入門要人指點,無非是怕踩坑。
自己怕踩坑就要麻煩別人,是很不對的。小數據都沒搞清楚搞什麼大數據
先想找到數據在哪兒,說不定你理解的「大數據」在碼農看來毛都不是。
你理解的「大數據分析」只是一個收入和發展前途很好的崗位,但是實際的「大數據分析」,需要至少一個應用數學或IT相關專業的碩士學位甚至是博士學位我本人就是從事數據分析工作。想實話告訴你的是沒有那麼簡單,就數據分析師來說也分外好幾檔,對於頂級的諮詢公司來說,其實頂尖的國內外大學已經成為了必不可少的敲門磚。我在南京大學學了四年統計,在卡耐基梅隆修的數據分析碩士,就體驗而言其實是一個技術含量極高的行業,也很實用,遠非在知乎上一問一答所能說請的。
我覺得更現實的選擇是大數據工程師,利用Hadoop, Spark等開源項目處理大數據,等做好了再轉數據分析吧。先進入這個行業再說。
建議開診所、或者醫療器械銷售。大數據現在非常熱門,阿貓阿狗都想搭上這班車。但隔行如隔山,大數據需要在大學數年專業的學習,不是幾天學點皮毛就行的。不要浮躁,不要好高騖遠。
推薦閱讀:
※為什麼說只預測結果不分析原因的是大數據技術,和人工智慧沒關係?
※城市發展帶來的大數據?大數據對城市發展的預測作用?
※啥事情都大數據的年代,旅遊有啥大數據?
TAG:大數據分析 |