Spark 學習資源

Spark 學習資源

來自專欄萌新的學習日記13 人贊了文章

SQL

  • 入門課程:codecademy.com/learn/le
  • 入門資料:w3school.com.cn/sql/
  • 實踐:mysqltutorial.org/

入門階段,跟著敲一遍就好。實踐部分建議把 basic 的過一遍。

Spark

  • 官網:Spark Overview,需要注意的是選擇哪個版本,一般就選最新的吧
  • Spark repo:apache/spark,官方倉庫,配合上面的講解,敲一遍下來,主要是examples/src/main/scala/org/apache/spark/examples/這個目錄下的例子
  • 博客:Jacek Laskowski,大佬給我推薦的

Scala

  • A Tour of Scala 這個比較基礎
  • Scala Exercises 這個內容還是挺多的,到現在還沒敲完

基本上把上面兩個網站擼完,Scala就差不多了。scala還是和Python挺像的。

為什麼要學Scala,因為不想用Python去寫Spark

怎麼學

首先需要掌握的就是SQL語法和Scala語法,然後就跟著官網案例去敲代碼,了解RDDs,DataFrame、Datasets的基本操作。如果公司有實際項目,跟著過一遍,就會好很多,我現在就處於這個階段,歡迎和我交流。

我會把學習Spark的過程都放在這個repo里:learning-spark

推薦閱讀:

舊版spark(1.6) 將rdd動態轉為dataframe
spark連接hive
如何將pyspark的rdd數據類型轉化為DataFrame
python操作hive實戰
請教一下,Spark Streaming怎麼實時讀取Redis的數據?

TAG:Spark | 學習 | 大數據 |