回頭望,來時路-R語言學習實踐階段回顧
從開始學習R語言,到今天,已經過去5個多月了,從最初的新鮮,到後來的初探R語言的神奇,到如今竟然已經到達第五關了。
感謝猴子老師搭建的學習平台和學習闖關模式,回頭想想,如果當時沒有參加《從零學會大數據核心:數據分析》系列課程,恐怕現在R語言已經與我形同陌路了。
這5個多月,我學習了什麼?
總體框架
各關學習內容:
第一關:
第二關:
第三關和第四關
第五關
各關實踐和輸出如下:
第一關:訂學習計劃:大數據社群數據分析實踐計劃。這關明確學習目的,和訂立學習計劃。
第二關:以一種獨立的姿態開始R語言之旅
主要是《R語言實戰》的第一二章的學習。在敲代碼中不斷地碰壁,不斷地遇到「Error」的提示,也只能硬著頭皮往前(後來發現,硬著頭皮往前是學習中的常態)。解決之道主要是通過網路搜索答案和自己在代碼框中「折騰」。這一關,主要是熟悉了R語言的一些基本操作,還看不到R語言能做出的成果
第三關:循序漸進的R語言第二程
這一關還是繼續《R語言實戰》的學習,第三和第四章的學習就需要拿例子還做練習了,和第一關一樣,用書中的代碼,但常常還是碰到問題,於是又請教高手,又查閱網路。這次發現了百度和谷歌搜索信息結果的差別,同一個搜索關鍵詞,谷歌中的搜索結果明顯就更有用,最終幫我解決了問題。這關練習是有輸出圖形的,雖然還初級。但是可定製的因素非常多,以此看出,R語言在不同人手中,呈現的結果差別可以是大得驚人的。這點和office中的作圖是有很大區別的,office中的數據圖繪製圖形化界面,但樣式相對來說較少。
第四關:
泰坦尼克事件探秘
HADLEY WICKHAM <R for Data Science>13.1~13.3
在Kaggle上見到了世界各地的數據分析高手的比拼,實戰作業就是以戲劇化的泰坦尼克事件做練習,以train樣本預測test樣本中各人的存亡結果。開始是一頭霧水,同樣是在網路上找範例,跟著一步步地敲代碼,從當時的傳說中推導可能的存亡規律,再到數據中印證,再去預測,再優化條件,再預測,從最初的Kaggle排名6000+躍升至3000+。
第五關:SQL學習
這一關學習SQL,書本是《深入淺出SQL》,不象前幾關學習二章內容,因為是學習一本書,因此這是學習時間最長的一關,但也是不可或缺的一步,因為SQL是打下R語言和資料庫連接的一關。
同時這關還對泰坦尼克事件預測做了進一步優化,當完成文章在知乎上提交後,很悲催的,竟然消失了。不過優化內容花了很長時間,也是跟著一位大牛的預測一步步做的練習。意義就在於反覆地練習,熟悉R語言的預測語句,揣摩預測形成的各判斷如何落實為一個個語句。經過這次優化,Kaggle排名上升到2000+。
專欄文章分析
應社群要求,第一關就開始將每一次的學習回顧和作業發布在知乎上,同時部分文章我也在簡書上發表了。(這裡吐個槽,有一篇知乎文章莫名其妙地消失了,之前和之後都沒有知乎通知,最近在知乎上寫的文章提交後也莫名消失了,投訴後沒有任何迴音,非常沒有安全感。)
目前可見的知乎主頁的訪問數是264次,簡書上三篇文章的閱讀量是197次,點贊數和評論不多,基本上是鼓勵為主。從簡書上可以看出單篇文章閱讀量,最大的是第三關:《循序漸進的R語言第二程》。閱讀量主要跟標題有關,入門的文章看來吸引力不大,而「第二程」可能給出的信息是進階的程度,因此引來了更多的閱讀量。
反思
R語言學習中最有收穫的還是在有明確目標的實踐中,從第三關開始,我們就有具體的案例著手練習,所有的書上的知識點要變成可用的語句,才能出來想要的結果。這個過程中會不斷地學,不斷地用,然後再回去學。
R語言學習的周期還是不短的,目前學習還只是入門,希望之後用更多的實踐去倒逼輸入,數據分析能力不斷升級!
感謝@猴子 老師以及各位學友!
推薦閱讀:
※MaxCompoute禁止Full Scan功能開放
※汪玉凱:大數據政府治理仍需突破五大障礙
※移動互聯網大數據匯總,雞年我們都幹了點啥?
※陳書悅:如果你不用數據說話,數據就會替你說話
※我想給老闆打造一個互聯網數據分析大屏!