標籤:

大數據分析第四關學習筆記

  第四關的學習,進度明顯放慢,一方面從要求預習的內容上看,內容多、難度加大,另一方面也是畏難情緒作祟,為自身的拖延症尋找借口。這一時期的學習簡要總結如下:

一、 按照要求預習第五章、學習dplyr和ggplot2、看電影、聽猴子老師的live,開始的時候有些不知所措;

二、 學習第五章的內容,並敲了書中的代碼,感覺與老師live中的四個板塊的內容關聯不大;

三、 聽猴子老師的live,第一遍根本沒聽明白,一頭霧水。聽課心得,邊聽邊看圖邊思考,第一遍聽完後,再看dplyr和ggplot2,第三遍的時候開始實踐,敲代碼。儘管有源代碼,還是堅持自己敲代碼,可能有些笨,卻容易理解和記住。

四、 理解dplyr中的篩選: filter()、排列: arrange()、選擇: select()、匯總summarise()、分組group_by(),看明白並理解了ggplot2的圖層概念,老師live中的例子就容易領會了。

五、 編寫業務模塊有些生澀,理解之後,需要在今後的實踐中形成自己的模塊分類管理。

六、 本關的學習,先做學習筆記,再完成翻譯及實踐作業

七、 要點、重點還是要做筆記,查找起來才方便。

第二個模塊 數據處理dplyr、ggplot2(航班分析)

第三個模塊 編寫業務模塊

  將功能相似的代碼進行模塊化,然後進行分類標註、存放,便於以後查找、修改、調用。

R中的模塊分類:

視圖模塊(view):存放繪製圖形的代碼;

業務邏輯模塊(service):存放用於業務處理比如計算、比較的代碼;

數據層模塊(db):存放數據框,矩陣等的代碼;

公關模塊(util):放項目中要用到的第三方的包;

公共數據(data):項目中用到的常用數據,excel等;

日誌模塊(log):放數據處理的日誌

數據結果輸出模塊(output):處理形成的表,圖等

第四個模塊 調試代碼

  這個模塊很容易理解:編譯代碼,出現提示錯誤的信息,找到出現的文件打下斷點,按下source按鈕,找出錯誤。

  學習了猴子老師的例子之後,以後再遇到報錯時,容易找到原因。

  第四關live中四個板塊的學習,開始還是很擔心,經過預習、查找、學習、實踐、思考、改進,差不多用時一個月。學完之後,收穫的不僅僅是R語言的知識,更是一份信心。接下來完成一篇翻譯及實踐。努力、努力、再努力!


推薦閱讀:

大數據發展的三重門
地震運用大數據預測可能性
ClickHouse Beijing Meetup-數據分析領域的黑馬-ClickHouse-新浪-高鵬
物聯網時代借大數據洞察消費行為
《大數據導論》讀書筆記——Chapter 6

TAG:大數據分析 |