大數據進階,你現在處於哪些階段
大數據大綱:2018年度規劃
入門級
1.為什麼要學習大數據?2.怎麼入門?3.組件安裝部署 3.1 原始安裝 3.2 hdp或cdh安裝 3.3 高手提升:伺服器規劃4.進入各組件的服務 hdfs命令 hbase-shell spark-shell impala-shell hive zkCli.sh5.tpc-ds基準測試
初級
1.啟動任務2.分析日誌-查找問題3.mapreduce是怎麼運行的4.通過api訪問各個組件並做數據操作 4.1 hdfs文件系統操作 4.2 連接hive 4.3 連接hbase 4.4 連接spark
中級
1.序列化2.壓縮3.HA4.配置優化原理5.DAG6.map與reduce 6.1藉助scala來學習map與reduce
高級
1.大數據組件適應場景2.map或reduce任務對應的資源狀態 2.1 申請、分配、釋放、等待3.規劃框架圖4.常規使用培訓
架構師
1.組件自身的設計原理 1.1 各開源的論文或原理2.跟蹤組件的bug3.快速定位問題4.規範日常操作 4.1 規避日常操作導致的問題 4.2 日常使用培訓5.跟蹤新的技術發展方向 5.1 引進新的框架評 5.2 估新技術的風險
入門,真的不難,你只要想懂sql語法,然後...花時間安裝部署一下,再通過命令操作一下,知道日誌存放在哪裡?這個階段,最要突然的是,通過日誌分析,找出問題的能力。這個能力就是要不斷的積累問題的原因,再記錄下來。
另一個快速過初級的方法:就是去看別人發生的問題,變為自己的問題。每個組件其實也就那麼些問題,你如果每個能收集50個問題的原因與解決方法,那恭喜你,已經到了中級的水平。
最難的其實是怎麼度過 中級 的階段,這個時間你才有機會來施展自己的想法,當然最後一步,架構師也是很難的,到這一步之後,基本上就沒有辦法停留的。
如果你不進步,就會跟不上,只有不斷的學習學習學習......這就是大數據架構師們的痛苦。你真的想好了,要走這條路嗎?
推薦閱讀:
※Scala快速入門系列:聲明變數、控制結構與函數、常用數組操作
※[譯] 解密 Uber 數據團隊的基礎數據架構優化之路
※spark spark.yarn.executor.memoryOverhead 太小錯誤?
※Spark里的DAG是怎麼回事?