Spark 學習資源
09-25
Spark 學習資源
來自專欄萌新的學習日記13 人贊了文章
SQL
- 入門課程:https://www.codecademy.com/learn/learn-sql
- 入門資料:http://www.w3school.com.cn/sql/
- 實踐:http://www.mysqltutorial.org/
入門階段,跟著敲一遍就好。實踐部分建議把 basic 的過一遍。
Spark
- 官網:Spark Overview,需要注意的是選擇哪個版本,一般就選最新的吧
- Spark repo:apache/spark,官方倉庫,配合上面的講解,敲一遍下來,主要是
examples/src/main/scala/org/apache/spark/examples/
這個目錄下的例子 - 博客:Jacek Laskowski,大佬給我推薦的
Scala
- A Tour of Scala 這個比較基礎
- Scala Exercises 這個內容還是挺多的,到現在還沒敲完
基本上把上面兩個網站擼完,Scala就差不多了。scala還是和Python挺像的。
為什麼要學Scala,因為不想用Python去寫Spark
怎麼學
首先需要掌握的就是SQL語法和Scala語法,然後就跟著官網案例去敲代碼,了解RDDs,DataFrame、Datasets的基本操作。如果公司有實際項目,跟著過一遍,就會好很多,我現在就處於這個階段,歡迎和我交流。
我會把學習Spark的過程都放在這個repo里:learning-spark
推薦閱讀:
※舊版spark(1.6) 將rdd動態轉為dataframe
※spark連接hive
※如何將pyspark的rdd數據類型轉化為DataFrame
※python操作hive實戰
※請教一下,Spark Streaming怎麼實時讀取Redis的數據?