回頭望，來時路－R語言學習實踐階段回顧

05-01

從開始學習R語言，到今天，已經過去5個多月了，從最初的新鮮，到後來的初探R語言的神奇，到如今竟然已經到達第五關了。

感謝猴子老師搭建的學習平台和學習闖關模式，回頭想想，如果當時沒有參加《從零學會大數據核心：數據分析》系列課程，恐怕現在R語言已經與我形同陌路了。

這5個多月，我學習了什麼？

總體框架

各關學習內容：

第一關：

第二關：

第三關和第四關

第五關

各關實踐和輸出如下：

第一關：訂學習計劃：大數據社群數據分析實踐計劃。這關明確學習目的，和訂立學習計劃。

第二關：以一種獨立的姿態開始R語言之旅

主要是《R語言實戰》的第一二章的學習。在敲代碼中不斷地碰壁，不斷地遇到「Error」的提示，也只能硬著頭皮往前（後來發現，硬著頭皮往前是學習中的常態）。解決之道主要是通過網路搜索答案和自己在代碼框中「折騰」。這一關，主要是熟悉了R語言的一些基本操作，還看不到R語言能做出的成果

第三關：循序漸進的Ｒ語言第二程

這一關還是繼續《R語言實戰》的學習，第三和第四章的學習就需要拿例子還做練習了，和第一關一樣，用書中的代碼，但常常還是碰到問題，於是又請教高手，又查閱網路。這次發現了百度和谷歌搜索信息結果的差別，同一個搜索關鍵詞，谷歌中的搜索結果明顯就更有用，最終幫我解決了問題。這關練習是有輸出圖形的，雖然還初級。但是可定製的因素非常多，以此看出，R語言在不同人手中，呈現的結果差別可以是大得驚人的。這點和office中的作圖是有很大區別的，office中的數據圖繪製圖形化界面，但樣式相對來說較少。

第四關：

泰坦尼克事件探秘

HADLEY WICKHAM <R for Data Science>13.1~13.3

在Kaggle上見到了世界各地的數據分析高手的比拼，實戰作業就是以戲劇化的泰坦尼克事件做練習，以train樣本預測test樣本中各人的存亡結果。開始是一頭霧水，同樣是在網路上找範例，跟著一步步地敲代碼，從當時的傳說中推導可能的存亡規律，再到數據中印證，再去預測，再優化條件，再預測，從最初的Kaggle排名6000+躍升至3000+。

第五關：SQL學習

這一關學習SQL，書本是《深入淺出SQL》，不象前幾關學習二章內容，因為是學習一本書，因此這是學習時間最長的一關，但也是不可或缺的一步，因為SQL是打下R語言和資料庫連接的一關。

同時這關還對泰坦尼克事件預測做了進一步優化，當完成文章在知乎上提交後，很悲催的，竟然消失了。不過優化內容花了很長時間，也是跟著一位大牛的預測一步步做的練習。意義就在於反覆地練習，熟悉R語言的預測語句，揣摩預測形成的各判斷如何落實為一個個語句。經過這次優化，Kaggle排名上升到2000+。

專欄文章分析

應社群要求，第一關就開始將每一次的學習回顧和作業發布在知乎上，同時部分文章我也在簡書上發表了。（這裡吐個槽，有一篇知乎文章莫名其妙地消失了，之前和之後都沒有知乎通知，最近在知乎上寫的文章提交後也莫名消失了，投訴後沒有任何迴音，非常沒有安全感。）

目前可見的知乎主頁的訪問數是264次，簡書上三篇文章的閱讀量是197次，點贊數和評論不多，基本上是鼓勵為主。從簡書上可以看出單篇文章閱讀量，最大的是第三關：《循序漸進的Ｒ語言第二程》。閱讀量主要跟標題有關，入門的文章看來吸引力不大，而「第二程」可能給出的信息是進階的程度，因此引來了更多的閱讀量。

反思

R語言學習中最有收穫的還是在有明確目標的實踐中，從第三關開始，我們就有具體的案例著手練習，所有的書上的知識點要變成可用的語句，才能出來想要的結果。這個過程中會不斷地學，不斷地用，然後再回去學。

R語言學習的周期還是不短的，目前學習還只是入門，希望之後用更多的實踐去倒逼輸入，數據分析能力不斷升級！

感謝@猴子老師以及各位學友！