數據分析學習階段性回顧和總結
我們的回顧主要分兩部分,一個是社群內的,一個是社群外的。
1 社群內學習回顧
1.1 前五關知識點總結
已經有學員比較好的進行了總結,比如@鋼小伙的這篇文章:實踐知識點總結及回顧 - 知乎專欄,在此我就借用他的圖對前五關的框架做一個梳理。
總體框架:
- 第一關:數據分析實踐年度計劃 - 知乎專欄
- 第二關:R語言數據結構入門實踐筆記 - 知乎專欄
- 第三關:R語言簡單數據處理與分析聽課及實踐筆記 - 知乎專欄
- 第四關:第4講:複雜數據處理和分析聽課及實踐筆記 - 知乎專欄,大數據分析作業-Hadley Wickham論文翻譯:合併-分組應用-平滑:一種大數據可視化的框架 - 知乎專欄,大數據分析作業-怎麼從導演及演員判斷電影值不值得看? - 知乎專欄
- 第五關:隨機森林--二元分類的利器之Kaggle初體驗Titanic: Machine Learning from Disaster
1.2 《R語言實戰》複習筆記
除此之外,一個偶然的念想,開始記錄《R語言實戰》筆記,從第五章開始到前不久的第十六章,鏈接如下:
《R語言實戰》第一部分第五章複習筆記 - 知乎專欄《R語言實戰》第二部分第六章複習筆記 - 知乎專欄
《R語言實戰》第二部分第七章複習筆記 - 知乎專欄《R語言實戰》第三部分第八章-回歸複習筆記 - 知乎專欄《R語言實戰》第三部分第九章-方差分析複習筆記 - 知乎專欄《R語言實戰》第三部分第十章-功效分析學習筆記 - 知乎專欄《R語言實戰》第三部分第十一章-中級繪圖學習筆記 - 知乎專欄
《R語言實戰》第三部分第十二章-重抽樣與自助法學習筆記 - 知乎專欄《R語言實戰》第四部分第十三章-廣義線性模型學習筆記 - 知乎專欄《R語言實戰》第四部分第十四章-主成分分析和因子分析學習筆記 - 知乎專欄《R語言實戰》第四部分第十五章-時間序列學習筆記(I) - 知乎專欄
《R語言實戰》第四部分第十五章-時間序列學習筆記(II) - 知乎專欄《R語言實戰》第四部分第十六章-聚類分析學習筆記 - 知乎專欄這個系列筆記一定會按照節奏完成,但是前面四章的我不確定還會不會補全。
1.3 MySQL答題記錄
第五關的主要內容是MySQL。對MySQL還是相對熟悉的,在加入社群之前就在Ubuntu、Mac系統上分別安裝配置過並結合Java語言對資料庫的操作順便了解了一些基本的語句。本次主要記錄了在SELECT names/zh - SQLZOO網站上答題情況,具體鏈接就不一一羅列了。
2 社群外學習回顧
這部分內容主要是社群以外的,主要兩個方面,簡單敘述一下:
- 主要是通讀了幾本書,一個是《SQL必知必會》並敲了一遍裡面的SQL代碼,另外是《赤裸裸的統計學》,對統計學在日程生活中的應用加深了理解;
- 在courera上選了吳恩達 Machine Learning入門課程:Machine Learning | Coursera,跟了8個星期,五月份停了幾次課,目前正在趕,爭取6月底完成。
其它零星的複習了一些之前本科時候的教材,比如《概率論與數理統計》以及《線性代數》,只要是學習過程中遇到問題,就想辦法找資料把它解決掉。
此外,還在值乎上第一次被人提問,詳細回答可以參考這篇文章:如何用R語言計算形態坐標矩陣的質心距離? - 知乎專欄
3 專欄文章分析
大的方面,目前個人有粉絲300多名,專欄有200多人關注。
收穫點贊最多的是這篇複習筆記:
《R語言實戰》第四部分第十四章-主成分分析和因子分析學習筆記 - 知乎專欄截止目前一共44個,這篇文章發出去以後也是我漲粉最快的一段時間,短短三天內漲了100多個粉絲,原因我目前不太確定,也許主成分分析和因子分析這兩個方法在數據分析中運用比較多。
收到主動評論是這篇翻譯:
大數據分析作業-Hadley Wickham論文翻譯:合併-分組應用-平滑:一種大數據可視化的框架 - 知乎專欄截止目前一共有4個人主動評論(另外有15個贊,點贊數名列所有文章第三)。這篇翻譯是我耗費精力最大,同時也是收穫最大的文章。它再一次驗證了一切一開始看似不可能的事情只要你開始了總有一天會被你啃下來的。
4 短期激勵
事實上5月份意料之外的事情實際上已經給了我一個長期的激勵:收到了一個滿意的offer。這個offer雖然不直接與數據分析相關,但是它卻證明了我這一段時間以來方法論的正確,某種層面上,正如李笑來老師所言,在他的字典里沒有「堅持」二字。而現在的我,在驗證了我的方法論以後,短期激勵已經也毫無意義。
這個世界變化很快,用知識和學習能力來應對她的變化。
推薦閱讀:
※三十而立,何為立,為何立!!!
※動輒數百TB級數據的分析平台 海量並發無壓力
※數據分析探索之旅(二):R 的基本操作與數據結構
※如何假裝成一個頂級的數據分析師?