大數據經典學習路線(及供參考)之 二
2.1 數據倉庫增強
2.1.1 數據倉庫及數據模型入門
什麼是數據倉庫、數據倉庫的意義、數據倉庫核心概念、數據倉庫的體系結構
2.1.2 數據倉庫設計
建立數據倉庫的步驟、數據的抽取、數據的轉換、數據的載入、什麼是數據模型、數據模型的常見類型、如何設計數據模型、如何選擇數據建模的架構
典型數據模型——星型建模實例
2.1.3 數據倉庫建模樣例
業務建模、領域建模、邏輯建模、物理建模
web點擊流日誌分析系統數據倉庫設計實戰:
通過對數據特點和業務需求的分析,關係梳理,設計出一個主題明確、層次合理的數據模型
2.2 離線輔助系統
2.2.1 數據採集系統
數據採集概念介紹
FLUME日誌採集框架介紹、FLUME工作機制、FLUME核心組件、FLUME參數配置說明、FLUME採集nginx日誌實戰案例
2.2.2 任務調度系統
任務調度系統概念介紹、常用任務調度工具比較、OOZIE介紹、OOZIE核心概念、OOZIE的配置說明、OOIZE實現mapreduce/hive等任務調度實戰案例
2.2.3 數據導出
數據導出概念介紹、SQOOP基礎知識、SQOOP原理及配置說明、SQOOP數據導入實戰、SQOOP數據導出實戰、SQOOP批量作業操作
2.3 web點擊流日誌分析系統實戰項目
2.3.1 項目介紹
1. 在PC時代,營銷的核心是購買,在移動互聯網時代,其核心是如何實現用戶個性化互動,對用戶傳播更為精準化的內容,而實現這一核心的基礎就是對數據的管理和分析——數據驅動型商業模型。
2. 各類互聯網服務產品(如網站、APP)都可以通過前端技術獲取用戶的詳細行為數據(如訪問的頁面,點擊的區域、登陸的頻次、註冊行為、購買的行為等),將這些點擊流日誌數據與後台商業數據綜合起來,就可以挖掘對公司運營決策意義非凡的商業價值。
3. 本項目則是一個用大數據技術平台實現的點擊流日誌分析數據挖掘系統,項目內容涵蓋一個典型數據挖掘系統中,包括需求分析、數據採集、數據存儲管理、數據清洗、數據倉庫設計、ETL、業務模型統計分析、數據可視化的全部流程。
2.3.2 需求分析
什麼是點擊流日誌、點擊流日誌的商業價值、點擊流日誌分析需求
業務模型指標體系設計——流量分析、來源分析、受訪分析、訪客分析、轉化率分析
2.3.3 系統設計及開發
1. 系統架構設計
2. 數據採集設計及開發——數據格式、數據內容分析、數據生成規律、採集系統技術選型解析、FLUME採集系統實現
3. 數據存儲設計及開發——存儲技術選型、存儲業務流程解析、存儲目錄規劃及文件命名規則、小文件合併實現
4. 數據統計設計及開發——數據預處理、數據載入、原始數據表的創建、數據入庫、數據ETL
5. 報表統計設計——數據模型設計、事實表設計、維度表梳理
6. 業務指標設計及開發——PV統計(時間維度、終端維度、地域維度)、來訪次數統計(時間維度、地域維度、終端維度)、獨立訪客統計(時間維度、終端維度、地域維度)、受訪頁面統計(時間維度、欄目維度)、頁面熱點圖、轉化率分析、來源關鍵詞分析、來源搜索引擎分析、來源廣告推廣分析
2.3.4 任務調度系統設計實現
任務調度單元實現、各環節任務運行頻次及依賴關係梳理、工作流設計及實現、工作流定義配置上傳部署、工作流啟動即狀態監控
2.3.5 數據可視化——結果報表展現
1. hive分析結果使用sqoop導出到msyql資料庫
2. 報表展現系統技術選型:
後台使用spingmvc + spring + mybatis
前端頁面使用全靜態非同步刷新技術Jquery + Echarts
3. web展現程序架構搭建,使用maven構建項目工程
4. web展現程序頁面設計開發:原型頁面設計、js代碼開發
5. 最終實現以下數據可視化效果:
(1)流量概況可視化效果:
(2)來源地域分析可視化效果:
(3)來源類型分析可視化效果:
推薦閱讀:
※雨沐田:數據分析有哪些步驟呢?
※優秀的數據分析師是解決方案提供者
※寧海大數據創新體驗中心進入試運行階段
※零基礎小白學習大數據技術必知的學習路線
※雨沐田:PowerPivot分析用戶購買行為之思路準備