從0開始,Data Scientist之路 1

0. 應該會寫一個系列,記錄自己從一個Data Science 零基礎小白成長為Data Scientist( hope so)的經歷。

主要以流水賬為主,記錄自己學習及準備的過程。所以語言或幼稚、或傲慢、或混亂、或晦澀,還請諒解。 各種觀點(尤其涉及政治、種族等)如有冒犯,還請海涵。

當然,也會分享一些在Berkeley上的DS相關的課程,討論,會議,講座及感想。

1.零基礎背景聲明 及 咋就從地理學走上了Data Science

1.1本科畢業於武漢大學遙感信息工程學院,專業是遙感科學與技術,攝影測量學方向。學過一些基礎的編程語言、資料庫、數據結構等課程。做過一些遙感圖像的監督/非監督分類,模式識別,航空攝影測量及近景攝影測量的三維重建相關的課堂作業。

1.2碩士畢業於武漢大學水利水電學院,專業是水文學與水資源管理。碩士期間技能樹有點兒點偏了,走娛樂路線被體重限制了。改走地攤兒成功勵志作家路線,勵志雞湯寫不過別人。遂申請出國。

1.3博士就讀於UC Berkeley,地理系,目前第二年。導師Laurel 14年拿了Moore基金會(就是摩爾定律那個Gorden Moore)的Data-Driven Research Funding和NSF Career的funding。 頭兩年拿的是導師NSF Career給的Fellowship,本應該做河道中植被對泥沙沉降影響的研究,但一直在做資訊理論和大數據相關的research(其實主要是泥沙實驗的大水缸一直生產不出來,感謝生產力低下的美帝!)。如果按照之前和導師計劃的4年畢業,我需要在這學期完成PhD Qualify Exam,也就是說基本需要定下方向了,於是放棄泥沙的方向,轉為生態系統中大數據的研究和應用(開心!)。遂從這個學期起正式準備QE考試,也從頭開始系統學習Data Science的一些內容。

2. 2017 Spring 選課

肯定會去上的是CS289A Machine Learning 和 CS286A Database Management。

有可能會去上的是STAT 205B Probability Theory

有空會去旁聽的是

Statistical Methods for Data Science;

Foundation of Data Science

Intro to Probability and Statistics

Concepts of Probability

Principles & Techniques of Data Science

Concepts of Statistics

Intro to Statistics.

第一周大概率會shopping around,然後選2-3節重點旁聽。

會在Cousera上選1-2門課刷一下。

3.開始聯繫Qualify Exam Committee Members

系外導師聯繫了一位做機器學習、大數據的教授,她也做很多遙感數據的分析,背景和未來規劃還算match,希望能邀請到。

Berkeley 2016 Fall之前入學的PhD (我是2015Fall入學,末班車...)可以將自己本專業的博士研究方向與統計及計算機研究結合,拿到一個Designated Emphasis的副學位,學位證書上會是PhD in Geography and emphasis in Communication,Computation and Statistics。

Enroll這個項目的前提是QE committee里有一位這個項目的Faculty,也正是我想邀請的導師。

4. 拜讀了部分數據科學標籤下的高贊文章,收集了下各位大神提及的部分書目。

讀過後會細緻分類下,暫時只根據推薦評價分為入門級(現在可以開始看)及專業級(以後細分後才會涉及)。

Berkeley 2017 Spring 的 Machine Learning的Reading List是

《The element of Statistical Learning》和《An Introduction to Statistical Learning》

如有侵權,煩請告知,即刻修改。

入門級:

《機器學習》

《數學之美》

《集體智慧編程》

《機器學習實戰》

《數據挖掘導論》

《統計學習方法》

《赤裸裸的統計學》

《統計數字會撒謊》

《線性代數》

《統計學》

《Practical Data Science with R》

《Agile Data Science》

《Doing Data Science》

《Head First Data Analysis》

《Head First Statistics》

《Beautiful Data》

《The Black Swan》

《Predictive Analysis》

《Machine Learning in Action》

《Building Machine Learning System with Python》

《Machine Learning for Hackers》

《The element of Statistical Learning》

《Machine Learning》

《Pattern Recognition and Machine Learning》

《Bayesian Reasoning and Machine Learning》

《SciPy and NumPy》

《Python for Data Analysis》

《Bad Data Handbook》

專業級:

《Introduction to Semi-Supervised Learning》

《Learning to Rank for Information Retrieval》

《Learning to Rank for Information Retrieval and Natural Language Processing》

《Graphical Models, Exponential Families, and Variational Inference》

《Natural language Processing with Python》

《Probabilistic Graphical Models》

《Convex Optimization》

《推薦系統實踐》

推薦閱讀:

劍走偏鋒——交互設計轉HCI PhD申請總結
我為什麼要出國讀PhD
讀純數學phd的人要有多熱愛數學與科研?

TAG:大数据 | 数据科学 | 北美PhD |