大數據經典學習路線（及供參考）之一

05-27

大數據經典學習路線（及供參考）之一

1.Linux基礎和分散式集群技術

學完此階段可掌握的核心能力：

熟練使用Linux，熟練安裝Linux上的軟體，了解熟悉負載均衡、高可靠等集群相關概念，搭建互聯網高並發、高可靠的服務架構；

學完此階段可解決的現實問題：

搭建負載均衡、高可靠的伺服器集群，可以增大網站的並發訪問量，保證服務不間斷地對外服務；

學完此階段可擁有的市場價值：

具備初級程序員必要具備的Linux伺服器運維能力。

1.內容介紹：

在大數據領域，使用最多的操作系統就是Linux系列，並且幾乎都是分散式集群。該課程為大數據的基礎課程，主要介紹Linux操作系統、Linux常用命令、Linux常用軟體安裝、Linux網路、防火牆、Shell編程等。

2.案例：搭建互聯網高並發、高可靠的服務架構。

2.離線計算系統課程階段

1. 離線計算系統課程階段

HADOOP核心技術框架

學完此階段可掌握的核心能力：

1、通過對大數據技術產生的背景和行業應用案例了解hadoop的作用；2、掌握hadoop底層分散式文件系統HDFS的原理、操作和應用開發；3、掌握MAPREDUCE分散式運算系統的工作原理和分散式分析應用開發；4、掌握HIVE數據倉庫工具的工作原理及應用開發。

學完此階段可解決的現實問題：

1、熟練搭建海量數據離線計算平台；2、根據具體業務場景設計、實現海量數據存儲方案；3、根據具體數據分析需求實現基於mapreduce的分散式運算程序；

學完此階段可擁有的市場價值：

具備企業數據部初級應用開發人員的能力

1.1 HADOOP快速入門

1.1.1 hadoop知識背景

什麼是hadoop、hadoop產生背景、hadoop在大數據云計算中的位置和關係、國內hadoop的就業情況分析及課程大綱介紹

國內外hadoop應用案例介紹

分散式系統概述、hadoop生態圈及各組成部分的簡介

1.1.2 HIVE快速入門

hive基本介紹、hive的使用、數據倉庫基本知識

1.1.3 數據分析流程案例

web點擊流日誌數據挖掘的需求分析、數據來源、處理流程、數據分析結果導出、數據展現

1.1.4 hadoop數據分析系統集群搭建

集群簡介、伺服器介紹、網路環境設置、伺服器系統環境設置、JDK環境安裝、hadoop集群安裝部署、集群啟動、集群狀態測試

HIVE的配置安裝、HIVE啟動、HIVE使用測試

1.2 HDFS詳解

1.2.1 HDFS的概念和特性

什麼是分散式文件系統、HDFS的設計目標、HDFS與其他分散式存儲系統的優劣勢比較、HDFS的適用場景

1.2.2 HDFS的shell操作

HDFS命令行客戶端啟動、HDFS命令行客戶端的基本操作、命令行客戶端支持的常用命令、常用參數介紹

1.2.3 HDFS的工作機制

HDFS系統的模塊架構、HDFS寫數據流程、HDFS讀數據流程

NAMENODE工作機制、元數據存儲機制、元數據手動查看、元數據checkpoint機制、NAMENODE故障恢復、DATANODE工作機制、DATANODE動態增減、全局數據負載均衡

1.2.4 HDFS的java應用開發

搭建開發環境、獲取api中的客戶端對象、HDFS的java客戶端所具備的常用功能、HDFS客戶端對文件的常用操作實現、利用HDFS的JAVA客戶端開發數據採集和存儲系統

1.3 MAPREDUCE詳解

1.3.1 MAPREDUCE快速上手

為什麼需要MAPREDUCE、MAPREDUCE程序運行演示、MAPREDUCE編程示例及編程規範、MAPREDUCE程序運行模式、MAPREDUCE程序調試debug的幾種方式

1.3.2 MAPREDUCE程序的運行機制

MAPREDUCE程序運行流程解析、MAPTASK並發數的決定機制、MAPREDUCE中的combiner組件應用、MAPREDUCE中的序列化框架及應用、MAPREDUCE中的排序、MAPREDUCE中的自定義分區實現、MAPREDUCE的shuffle機制、MAPREDUCE利用數據壓縮進行優化、MAPREDUCE程序與YARN之間的關係、MAPREDUCE參數優化

通過以上各組件的詳解，深刻理解MAPREDUCE的核心運行機制，從而具備靈活應對各種複雜應用場景的能力