回顧與展望轉行數據科學路上的點點滴滴(2016-2018)
大家好,我叫王大偉,熱愛數據科學。
轉行之前的迷茫
這個故事很長,請自備花生米和瓜子,故事要從2016年9月說起,那時候我大四,差一名保研成功,也就是說得考研才能讀研究生。
當時也沒想過轉行,還在讀我的過程裝備與控制專業(在華理,大家都稱這個專業為化機,也就是化工機械)
當時據我所了解到的,華理的化機其實也是全國排名前幾名的,這個專業比華理好的,一般比較認可的有天大,浙大,西交大,清華等
一開始考慮考浙大,畢竟比較近,學校也很好,但當我看到之前幾年的複試線在370-385的時候,一周後就放棄了,我害怕再一次的失敗,我只想一戰成功
於是,我想了想考本校也不錯,並聯繫了我現在的導師,當時還問過專碩是否能讀博,現在想想當時真是太天真了,讀博是不可能讀的。
之後就投入了瘋狂複習的節奏中,每天和幾個小夥伴一起複習,也就不覺得多累,再說華理還是很好考的,畢竟我考的專碩。
當時大部分情況就是保研同學過著豬一樣的生活,考研同學過著狗一樣的生活。
初步接觸Python
考研12月結束,通過了初試複試,來到了大四下學期,當時只有畢業設計和畢業論文要做。
閑來無事,除了打打遊戲,本科時候比較喜歡數學建模,當時聽得比較多的是大數據,機器學習,自己看了看,感覺和數學建模還是有相似的地方,就覺得學習一下。
當時朋友推薦學R語言,我就買了本薛毅老師的黃皮書《統計建模與R語言》,發現這個R語言比Matlab用起來舒服很多,但是剛看不久之後,朋友告訴我有個叫Python的編程語言,挺推薦的,我當時也不知道用什麼學習資料比較好,就看網上的爆款入門基礎書,Python基礎教程(第2版·修訂版)。
買來之後發現他是用Python2版本寫的,看到第六章就出現魔法參數了,當時看的不是很明白,就沒繼續看下去,對於一個有c語言基礎的我,並不覺得這本書適合新手入門,之後看了一寫零碎的視頻,如小甲魚的(挺幽默,不過入門部分學完直接去寫飛機大戰了,醉了。。),聽說廖雪峰老師博客的很不錯,看了看,還是挺難的,說實話,覺得他寫的比較正經(相比於詼諧幽默風格的小甲魚),每當看到評論區的大牛蒂花之秀,我學了幾章就放棄了,可能是我當時學習方法態度不太對吧。之後買過一本國外的head first in Python 和head first in 數據分析,國外的書就比較輕鬆幽默,寫的不像國內很多書很理論,他們配上故事情景和大量插圖,我學的津津有味。
有個好老師很重要
在偶然間,群里有人發了天善智能的信息,當時抱著看看的態度,點開看到天善智能是一家主打線上教育的網站,當時有一門Python數據分析與挖掘正在打折銷售,我購買之後,跟著韋瑋老師一起學,從入門基礎,到網路爬蟲,再到數據分析挖掘,韋瑋老師講課通俗易懂,我很是喜歡,對數據科學越發沉迷。學完了這一系列課程,有種我已經很厲害的假象,並且當天善的2017SVIP推出時,我立刻就報名了。已經2016的12月底了,由於研一下學期課不多,想去實習,朋友推薦了一家數據類公司(名字不方便透露),當時約了年後很早就來面試,於是,我寒假又補了很多課。
積累不夠,處處受挫
過完年,興沖衝去面試實習,實習面試前後面了兩輪,面試的是數據分析崗位,當面試官拿著我的簡歷看的時候,問我學機械為何想做數據,問了很多計算機專業基礎的問題,比如進程與線程的區別,紅黑樹,研究生數學建模比賽,前面一個面試官表面上還是對我挺滿意的,之後的面試官問的最後一個問題是,給我一張紙,讓我寫一下堆排序,我當時比較崩潰,堆排序只是在演算法導論上看過,建立堆什麼的,讓我現場寫還是完成不了的,我當時詢問能不能寫個冒泡排序,他說ok,我慢慢寫完,也不知道有多少語法錯誤。離開的時候就知道已經涼涼了。之後又面試過兩家,其中一家問了決策樹應用,超長字元串合併,當問到我竟然連數據倉庫都不了解時候,我就知道我又涼涼了,還有一家是做量化的,當了解到我技術沒學多久,讓我明年再來試試。那天面試完就去了天善智能梁哥這裡,聊了一會,梁哥問我是否要來實習,我說好啊,他說之後需要的話會聯繫我,並送了我一本數據實踐之美,把我送到了浦電路地鐵站。
2017,神經兮兮(雙押*2)
當時可能也是比較"倔強",瘋狂投了十幾份簡歷,有3~4家讓我去面試,其中有一家是做股票的,讓我先完成一個任務,去雪球網抓一些股票數據,當時我用fiddler抓包完成了,他邀請我之後去面試。當天晚上,梁哥打電話給我,問我是否能來實習,我說好啊,然後婉拒了所有面試邀約。
3月初在天善開始實習,做的主要是運營的工作,閑時學學Python和數據科學,從零開始做Python愛好者社區公眾號,現在已經有接近7w粉絲了。
之前在天善實習的黃成兄弟在工作上給了我很多幫助,在天善收穫了很多,做過活動策劃,寫過軟文,給課程學員答疑,在社區答疑,每次都會有不同的收穫。從梁哥鼓勵我寫文章,到現在已經自發在博客上寫了89篇文章,每次寫文章既是對學習的總結記錄也是對後來者的分享。
在2017,認識了祥哥,加入了數據取經團(公眾號:數據取經團),認識了一群小夥伴,我們一起寫文章分享,平時開開遠程會議,為了提前融入工作的環境,在你們2017找工作的過程中,更加感受到技術和項目的重要性,數據分析數據挖掘崗位對數據挖掘演算法,數理統計,SQL,數據結構演算法都有很多考察。
在學習方面:
在SQL方面,SQL是數據分析者必須會的技能,當時學的是慕課網上的SQL入門,然後學習了《SQL必知必會》(封面是旅行青蛙變種模樣),最後在牛客網刷了60+題(現在已經忘得差不多了),明年校招前還要複習一遍。
在網路爬蟲方面,學習了一些天善的課程,看過幾本書,比較熟練之後,在西安給學員內訓了兩天,之後在上海天善給學員(20+人)也內訓了兩天。當然爬蟲只是獲取數據的一種方法。
在數據分析挖掘方面,系統學習了天善丘老師的數據科學課程,說實話,這在數據科學課程中見過的講課最好的老師,全程沒有多餘的話,思路條理非常清楚,從數據獲取,數據清洗,數據集成到數據建模一整套下來,對數據科學有了更深入理解,在學完課程之後,我寫了一篇Python對上海二手房的數據分析,當時數據可視化學的並不太好,直到之後學習了pandas的繪圖和順祥哥的文章之後,稍微好一些了(和R的繪圖還是不能比的),一時興起從kaggle上找到數據寫了葡萄酒數據分析和紐約皇后區的數據分析。
在機器學習方面,視頻看的不多,看了數據挖掘導論(很多機器學習演算法和數據挖掘演算法相似)+西瓜書+統計學習方法,這三本吃透的話理論上比較完善了,之後上手代碼,有自己造輪子的機器學習實戰也有sklearn官方文檔,現階段還在學習中,提高編程能力。
在coding方面:報名了PAT,改用c和c++刷題,最近也在寫Python數據結構演算法連載,將c和c++的解題轉為Python解題,這對我也是一大挑戰(不考慮Python的運行內存和時間,重點是演算法和實現),之後準備刷leetcode,校招很多筆試題都有編程大題。
之後會寫一篇看過的書的感悟與評價。
比較開心的事
在2017,為了分享學習Python的歷程,為了讓後人少走彎路,寫了Python從零開始連載,入門部分已經寫完,也有視頻微課,已經4000+人學習啦,因為連載文風清奇,獲得不少好評(我臉皮厚),之後給Python進階連載開了個頭,Python數據分析(kaggle)開了個頭、Python數據結構演算法刷題開了個頭、什麼都想寫。。
為了彌補轉行的知識缺失,在2017年參加了國家軟考,拿下了初級程序員和中級軟體設計,證書本身對我用處不大,但這個過程讓我對計算機基礎知識有了更深入了解。
壓力很大,動力很足
之前還有玩遊戲,最近全卸載了,要做著機械導師的任務,一邊實習,一邊學習,時間很緊迫,基本沒有娛樂(除了躺床玩一會手機,在群里聊聊天放鬆一下),每天基本都在學習新知識,壓力很大,動力很足,畢竟距離校招只有半年了。
2018學習計劃
1. 年後去找一份實習,最好能接觸到一些項目,這也是目前我比較缺失的,有內推請大佬們聯繫我啊~
2. 把資料庫工程師考下來,因為涉及到SQL,邊考邊學。
3. 文章繼續保持更新輸出。
4. 在天善開新的微課和系統學習課程,每一次的分享都是對自己的鍛煉。
5. 保持不斷學習的熱情。
對轉行者的建議
1. 了解清楚你即將去的行業,是否真的感興趣,畢竟可能要做一輩子相關工作。
2. 數據科學沒有想像的簡單,需要在理論和coding上花大力氣,你是否想清楚了。
3. IT從業人員普遍薪資較高,但背後是不斷學習和可能長時間的加班,髮際線雖然後移,但你的技術在進步。
3. 數據科學前景會逐漸滲入各行各業。
看到這裡,你的瓜子花生米吃完了么?
作者:王大偉 Python愛好者社區唯一小編,請勿轉載,謝謝。
博客專欄:王大偉-一個數據分析菜鳥配套視頻教程:1小時破冰入門Python https://edu.hellobi.com/course/234公眾號:Python愛好者社區(微信ID:python_shequ),關注,查看更多連載內容。
推薦閱讀:
※Python · 元類(Meta Class)及其應用
※模塊&包---import時發生的那些事
※馬哥培訓,無恥的抄襲。
※編程界有哪些不懂編程的人也能聽得懂的笑話?