大數據經典學習路線(及供參考)之 一
1.Linux基礎和分散式集群技術
學完此階段可掌握的核心能力:
熟練使用Linux,熟練安裝Linux上的軟體,了解熟悉負載均衡、高可靠等集群相關概念,搭建互聯網高並發、高可靠的服務架構;
學完此階段可解決的現實問題:
搭建負載均衡、高可靠的伺服器集群,可以增大網站的並發訪問量,保證服務不間斷地對外服務;
學完此階段可擁有的市場價值:
具備初級程序員必要具備的Linux伺服器運維能力。
1.內容介紹:
在大數據領域,使用最多的操作系統就是Linux系列,並且幾乎都是分散式集群。該課程為大數據的基礎課程,主要介紹Linux操作系統、Linux常用命令、Linux常用軟體安裝、Linux網路、防火牆、Shell編程等。
2.案例:搭建互聯網高並發、高可靠的服務架構。
2.離線計算系統課程階段
1. 離線計算系統課程階段
HADOOP核心技術框架
學完此階段可掌握的核心能力:
1、通過對大數據技術產生的背景和行業應用案例了解hadoop的作用;2、掌握hadoop底層分散式文件系統HDFS的原理、操作和應用開發;3、掌握MAPREDUCE分散式運算系統的工作原理和分散式分析應用開發;4、掌握HIVE數據倉庫工具的工作原理及應用開發。
學完此階段可解決的現實問題:
1、熟練搭建海量數據離線計算平台;2、根據具體業務場景設計、實現海量數據存儲方案;3、根據具體數據分析需求實現基於mapreduce的分散式運算程序;
學完此階段可擁有的市場價值:
具備企業數據部初級應用開發人員的能力
1.1 HADOOP快速入門
1.1.1 hadoop知識背景
什麼是hadoop、hadoop產生背景、hadoop在大數據云計算中的位置和關係、國內hadoop的就業情況分析及課程大綱介紹
國內外hadoop應用案例介紹
分散式系統概述、hadoop生態圈及各組成部分的簡介
1.1.2 HIVE快速入門
hive基本介紹、hive的使用、數據倉庫基本知識
1.1.3 數據分析流程案例
web點擊流日誌數據挖掘的需求分析、數據來源、處理流程、數據分析結果導出、數據展現
1.1.4 hadoop數據分析系統集群搭建
集群簡介、伺服器介紹、網路環境設置、伺服器系統環境設置、JDK環境安裝、hadoop集群安裝部署、集群啟動、集群狀態測試
HIVE的配置安裝、HIVE啟動、HIVE使用測試
1.2 HDFS詳解
1.2.1 HDFS的概念和特性
什麼是分散式文件系統、HDFS的設計目標、HDFS與其他分散式存儲系統的優劣勢比較、HDFS的適用場景
1.2.2 HDFS的shell操作
HDFS命令行客戶端啟動、HDFS命令行客戶端的基本操作、命令行客戶端支持的常用命令、常用參數介紹
1.2.3 HDFS的工作機制
HDFS系統的模塊架構、HDFS寫數據流程、HDFS讀數據流程
NAMENODE工作機制、元數據存儲機制、元數據手動查看、元數據checkpoint機制、NAMENODE故障恢復、DATANODE工作機制、DATANODE動態增減、全局數據負載均衡
1.2.4 HDFS的java應用開發
搭建開發環境、獲取api中的客戶端對象、HDFS的java客戶端所具備的常用功能、HDFS客戶端對文件的常用操作實現、利用HDFS的JAVA客戶端開發數據採集和存儲系統
1.3 MAPREDUCE詳解
1.3.1 MAPREDUCE快速上手
為什麼需要MAPREDUCE、MAPREDUCE程序運行演示、MAPREDUCE編程示例及編程規範、MAPREDUCE程序運行模式、MAPREDUCE程序調試debug的幾種方式
1.3.2 MAPREDUCE程序的運行機制
MAPREDUCE程序運行流程解析、MAPTASK並發數的決定機制、MAPREDUCE中的combiner組件應用、MAPREDUCE中的序列化框架及應用、MAPREDUCE中的排序、MAPREDUCE中的自定義分區實現、MAPREDUCE的shuffle機制、MAPREDUCE利用數據壓縮進行優化、MAPREDUCE程序與YARN之間的關係、MAPREDUCE參數優化
通過以上各組件的詳解,深刻理解MAPREDUCE的核心運行機制,從而具備靈活應對各種複雜應用場景的能力
MAPREDUCE實戰編程案例:通過一個實戰案例來熟悉複雜MAPREDUCE程序的開發。該程序是從nginx伺服器產生的訪問伺服器中計算出每個訪客的訪問次數及每次訪問的時長。原始數據樣例如下:
通過一系列的MAPREDUCE程序——清洗、過濾、訪問次數及時間分析,最終計算出需求所要的結果,用於支撐頁面展現:
1.4 HIVE增強
1.4.1 HIVE基本概念
HIVE應用場景、HIVE內部架構、HIVE與hadoop的關係、HIVE與傳統資料庫對比、HIVE的數據存儲機制、HIVE的運算執行機制
1.4.2 HIVE基本操作
HIVE中的DDL操作、HIVE中的DML操作、在HIVE中如何實現高效的JOIN查詢、HIVE的內置函數應用、HIVE shell的高級使用方式、HIVE常用參數配置、HIVE自定義函數和TRANSFORM的使用技巧、HIVE UDF開發實例
1.4.3 HIVE高級應用
HIVE執行過程分析及優化策略、HIVE在實戰中的最佳實踐案例、HIVE優化分類詳解、HIVE實戰案例--數據ETL、HIVE實戰案例--用戶訪問時長統計
HIVE實戰案例--級聯求和報表實例:
離線數據挖掘系統
學完此階段可掌握的核心能力:
1、通過對數據倉庫知識的加強初步掌握數據倉庫的核心概念和設計流程;2、通過對HADOOP生態圈關鍵輔助工具的學習掌握hadoop分析系統的整合能力;3、通過電商系統點擊流日誌數據挖掘系統實戰項目,掌握hadoop離線數據挖掘系統從數據採集、入庫、分析及報表展現的整套流程
學完此階段可解決的現實問題:
1、可根據企業具體場景設計海量數據分析系統的通用架構2、根據具體場景的特點有針對性地調整數據分析各環節的技術選型;3、根據具體需求搭建起整套離線數據分析系統;4、簡單數據倉庫模型的設計和架構5、各環節具體功能模塊的開發實現
學完此階段可擁有的市場價值:
具備企業數據部中高級應用開發和初級架構師能力
歡迎加群:784789432,進來交流學習,裡面有更全面的學習方法以及學習資料
推薦閱讀:
※HDFS-文件讀寫流程
※怎麼才能用數據實現商業價值?
※今日數據行業日報(2017.4.5)
※大數據可視化應用領域探析
※艾媒報告 | 2018中國大數據「殺熟」網民態度行為調查報告