哪裡有spark2.x的乾貨?
感謝關注天善智能,走好數據之路↑↑↑
歡迎關注天善智能,我們是專註於商業智能BI,大數據,數據分析領域的垂直社區,學習,問答、求職一站式搞定!
每周2-3場免費數據領域公開課,每月線下活動,歡迎關注!
推薦一個天善學院的免費課程,,看下能不能幫到您。
玩轉大數據分析!Spark2.X+Python 精華實戰課程(免費)https://edu.hellobi.com/course/215
課程背景:
本套課程策劃非常實用,集合了Python及最新版Spark一起來分析大數據,日常數據分析使用的語言最多的是R或者Python,但是這樣的腳本語言先天只能在一台機器上發展,不適合分析大數據,因此需要其他大數據軟體來處理,一般的大數據軟體如HADOOP等又不太熟悉。而Spark是由Scala編寫,也推出Pyspark,讓熟悉Python者能夠輕易熟悉操作大數據。
本課程也有更全面的付費課程,戳:https://edu.hellobi.com/course/222
課程特色:
手把手實戰教學大數據分析, 結合 Python 以及最新的 Spark 2.x 從0開始掌握大數據.適合:數據分析師,數據科學家,對大數據分析有興趣的同學.
講師介紹:
Bryan
投身於大數據處理分析超過五年,曾任職美國上市公司資料科學家,同時也是SparkTW創始人之一.
曾任職於程序化廣告,雲端服務以及電信公司
課前準備:
硬體配置
CPU: 4 core 以上
RAM: 8 G 以上
作業系統
CentOS 7.0 +
基礎知識
Bash 基本操作
Python 基本操作
SQL 基本操作
Docker or VM
軟體版本
Spark 2.0+
Python 3.5+
課程大綱:
1、大數據時代
1.1什麼是大數據
1.2大數據與生活
1.3大數據下的分析工具
2、大數據的瑞士刀- Spark
2.1Hadoop與生態系
2.2Spark vs Hadoop
2.3Spark 核心概念
2.4Pyspark 基本操作
2.5SQL in Spark
2.6Spark 與機器學習
3、Spark 實戰環境設定
3.1一分鐘建立 Spark 環境
3.2建立Hadoop 集群
3.3安裝與設定 Spark 集群
3.4安裝與設定 Hive
3.5打造互動式 Spark 環境
4、活用 Pyspark
4.1Python 語法複習
4.2用 Pyspark 建立第一個Spark RDD
4.3RDD 的操作與觀察
4.4RDD 與 Map Reduce
4.5共享變數
4.6RDD 運算實例
4.7撰寫第一隻 Spark 程序
4.8遞交你的 Spark 程序
5、Spark ETL 實戰
5.1認識資料單元格式
5.2觀察資料
5.3選擇,篩選與聚合
5.4儲存數據
5.5用 Spark 建立 SQL Server
6、Spark 與分散式機器學習
6.1認識數據格式
6.2描述統計
6.3資料清理與變形
6.4認識 pipiline
6.5羅吉斯回歸原理與應用
6.6判定樹原理與應用
6.7建立預測模型
推薦閱讀:
※如何用Docker成為更高效的數據科學家?
※全球 TOP 互聯網公司及學術界人工智慧方向薪資、高薪的攬才計劃有哪些?
※央行某副行長說移動支付太集中,有風險,要引進外資,你怎麼看?
※物聯網、雲計算、大數據、人工智慧怎麼區分,又有何關係?
※大數據逃離北上廣,大家怎麼看?