一個化學工程師的數據科學之旅
來自專欄論智24 人贊了文章
作者:Rosebud Anwuri
編譯:weakish
很多人問過我從化學工程轉向數據科學的經歷。我是如何做到的?我是什麼時候轉向的?我為什麼要這麼做?我覺得今天(2018年1月6日)是一個回答這些問題的合適日子,因為這是我第一次參加編程課程的3周年紀念日。我希望分享自己的故事能夠提供一些我是如何轉職數據科學家的見解,並鼓勵有志於此的人熱烈地追尋他們的激情。
我和數據科學的第一次接觸來自一本和數據科學無關的書
2014年3月,我碰巧讀到Charles Duhigg寫的一本書《習慣的力量:為什麼我們這樣生活,那樣工作》。其中有一個章節《組織的習慣》,Charles提到有一個大型零售商使用女顧客的購買數據預測她懷孕的幾率。簡單來說,我深受震撼,想要知道更多。
我到處搜索這樣的巫術叫什麼名字。幾個月之後,在我的朋友的幫助下,我找到了和我在《習慣的力量》中讀到的非常相似的東西,它叫做商業分析(Business Analytics)。
對我而言,這一發現是一個臨界點。當時正是我在大學的最後一年,剛結束在一家石油天然氣公司的實習。我在那裡的經歷讓我對化學工程這一職業感到厭煩,因為我覺得那不適合我。意識到這一點之後,我對新的挑戰和轉換職業持開放態度。商業分析看起來很合適。
我基於Quora問答創建了自己的數據科學學習路線
2014年我從大學畢業了,開始參加全國青年服務團(NYSC)。在NYSC期間,我從推特上得知了Quora,並且開始喜歡上這個問答平台。
萬一你很好奇,NYSC是奈及利亞為期一年的強制計劃,你被分配到外地,以政府工作人員、教師等身份服務。
在Quora上,我發現商業分析有很多名字,其中一個是數據科學。我同時找到了一個非常有幫助的回答:如何成為數據科學家?
這個Quora回答幫助我形成了我的數據科學學習路線。
我在一年之內完成了15門關於數據科學的MOOC
我主要通過線上課程學習數據科學,而沒有使用書本(我試過)。所有的課程是免費的(因為我不在乎證書),當課程不是免費的時候(比如Coursera),我得到了100%的補助。
我在線上課程上踩過很多坑,所以如果你正尋找一份如何入門數據科學的鬆散指南,我會為你減去一些壓力,集中精力學習值得學習的課程。
1. 學習編程
這是我學習路線的第一步,也是最嚇人的一步。它很嚇人因為我沒有計算機科學背景,我唯一一次在大學裡接觸編程的經歷讓我對編程深惡痛絕。然而,這次我覺得自己時間充裕,沒什麼可以失去的,所以我參加了Codecademy的Learn Python(學習Python)課程。
當時,這個課程對我來說很難,我對很多東西毫無頭緒。我曾經花費兩周時間嘗試搞定一個while循環,我也不知道文件I/O是什麼意思。完全靠暴力硬幹,我完成了這門課程。
這是我第一次完成一門線上課程(之前我多次嘗試過線上課程)。這給了我一些堅持學習的信心。
2. 學習核心數據科學
很多人問我為什麼選擇R而不是Python。這完全是出於巧合,我剛開始學習數據科學時,參加了edX上MIT的一門The Analytics Edge(分析學的優勢)課程,這門課程使用R語言。
這門為期十周的課程使用案例研究的方式教授數據科學的不同方面,從機器學習到可視化到優化。這門課程要求很高,收益也很大。這門驚艷的課程讓我更偏愛R。這門課程為我打下了堅實的基礎,我有時仍然會查閱自己在2015年做的筆記。
3. 其他有幫助的課程
2015年底,我在Coursera上參加了杜克大學的一門課程:Data Visualization and Communication with Tableau(基於Tableau的數據可視化和交流)。我很喜歡這門課程。這門為期五周的課程為我打下了堅實的Tableau基礎。導師超棒,是我碰到過的最好的老師。
我接著學習了Managing Big Data with MySQL(基於MySQL處理大數據),同樣是在Coursera上,同樣來自杜克大學。而且,這門為期四周的課程的老師正是Tableau課程的老師!這門課程同時教授MySQL和Teradata。
另外還有兩門edX上的課程值得一提,分別是來自UC伯克利的Introduction to BigData with Apache Spark(使用Apache Spark入門大數據)和來自微軟的Excel for Data Analysis and Visualization(用於數據分析和可視化的Excel)。
我是如何開始寫博客的——真正的學習自此開始
如果你讀過很多關於如何成為更好的軟體工程師/數據科學家/設計師/等等的Quora回答或文章,你會看到一條反覆出現的建議:做個人項目以深化你的技能集。我在2015年試過幾次,但是沒能做出什麼合理的東西,因為,坦率地說,我還沒有準備好。
在2016年,我放慢了線上課程的學習,因為90%的課程內容差不多,同時假定你是一個初學者,所以線上課程變得有點重複了。當時我覺得是時候基於博客開始進行個人項目了。寫作部分不成問題,因為我在高中寫過不少。我的問題在於連貫性和創造性。我的創造性是否足夠做出有趣的項目呢?並且連貫地進行?你永遠不會知道的,除非你嘗試了,對吧?因此我在2016年6月開啟了我的博客The Art and Science of Data(數據的藝術和科學)。寫博客讓我的學習呈指數級提升。
我在一個月里寫了兩篇文章,接著中斷了一年
我的第一篇博客文章是Predicting The English Premier League Standings(預測英超戰績),發佈於2016年9月。第二篇是What Twitter Feels about Network Providers in Niger(推特對奈及利亞網路供應商感覺如何),發佈於2016年10月。收到的正面反饋的數量絕對讓我震驚。我達成了1500閱讀,兩篇文章下都有很多反饋。我第一次對自己的技能感到自信。
這段經歷告訴我,創造性並不是你或者有、或者沒有的某種天賦。創造性來自於經驗和對自身技術的自信。
接著我的博客中斷了一年。有很多原因:
- 我在2016年12月嘗試撰寫一篇博文,結果寫得很亂。我之後整理了一下,用在The ABC-XYZ of Data Science工作坊中。
- 後來,我遇到了「數據科學家的阻礙」。沒什麼創意,想不到什麼有用或有趣的東西。
- 我的博客和大部分數據科學博客有點不一樣,我的博客涉及大量研究和迭代。這也使得我的發布周期比其他博客要長很多。
- 工作比較累人,我的熱情有所下降,更多地在電視機前消磨時光。
在朋友的幫助下,我最終在2017年6月想到了一個選題: A Data Driven Guide to Becoming a Consistent Billionaire。
在文章發表的三天之內,它的閱讀量高達30000。到處都可以看到這篇文章。一小部分網站抄襲了這篇文章,不過我不在乎。我的文章的質量已經好到被抄襲了。
目前為止取得的少量成績
除了之前提到的A Data Driven Guide to Becoming a Consistent Billionaire累積達成了40000閱讀之外,2017年對我而言是一個有趣的年份。第一次,我在之前三年所花的努力正接受驗證。
- 基於Tableau可視化, 我贏得了聯合國數據可視化競賽。
- 我受邀在奈及利亞舉辦的斯坦福的數據科學中的女性會議上講話。
- 2018年我將和奈及利亞以及海外的開發者有大量協作。
- 我在2017年11月幫忙辦了一次工作坊,主題為機器學習和數據科學中的女性。
坦率地說,我自己都有點驚訝自己可以走得這麼遠。我記得自己在筆記本上寫過「Rosebud,你永遠不會足夠好,能做到這些」,但我確實做到了。我仍然需要學習很多東西,但是我對自己目前的進展懷抱感激之情。
給你的建議
我自己也不是專家,不過下面是一些確實幫到我的東西。
- 別害怕放棄某些行不通的東西。直到2016年我才徹底放棄在石油天然氣方面的夢想,儘管我早知道我對此缺乏激情。
- 別害怕被稱為瘋子。 不知道有多少次人們委婉地和不那麼委婉地告訴我,我離開化學工程是瘋了,特別是當數據科學在奈及利亞相對較新的時期。這曾經給我造成困擾,但現在我只會一笑置之。
- 閱讀。閱讀。閱讀。引我進入這一領域的書和數據科學毫無關係。閱讀拓展了你可能性的範圍。
- 熱愛學習。每年設定學習目標,堅持使用最適合自己的媒介(書/音頻/視頻/課堂)。
- 總是全力以赴,展示出最好的一面。 展示的工作儘可能做到最好。它會為你發聲。我今天得到的99%的機會來自我的博客。
- 最重要的,你不是一座孤島。擁有親密的支持關係,這將告訴你真相,儘管有時真相可能比較傷人。你將因此變得更好。
好運??
推薦閱讀:
※利用R語言繪製世界航班路線圖
※numpy的高緯數組轉置方法transpose()
※數據分析師值得交的5類朋友
※Python協同過濾演算法入門(1)相似度計算篇
※坐擁百億級數據的劉濤 如何窺探數據背後的深意