大數據架構師技能
02-12
一、大數據通用處理平台
- Spark
- Hadoop
二、分散式存儲
HDFS
三、資源調度
Yarn
Mesos
四、機器學習工具
- Spark Mlib
- TensorFlow (Google系)
- Amazon Machine Learning
- DMTK (微軟分散式機器學習工具)
五、數據分析/數據倉庫(SQL類)
- Pig
- Hive
- Spark SQL,
- Spark DataFrame
- Impala
- Phoenix
- ELK
- ElasticSearch
- Logstash
- Kibana
六、消息隊列
- Kafka(純日誌類,大吞吐量)
- RocketMQ
- ZeroMQ
- ActiveMQ
- RabbitMQ
七、流式計算
- Storm/JStorm
- Spark Streaming
- Flink
八、日誌收集
- Scribe
- Flume
九、編程語言
- Java
- Scala
- Python
- R
- Ruby
十、數據分析挖掘
- MATLAB
- SPSS
- SAS
十一、數據可視化
- R
- D3.js
- ECharts
- Excle
- Python
十二、機器學習
機器學習基礎
- 聚類
- 時間序列
- 推薦系統
- 回歸分析
- 文本挖掘
- 決策樹
- 支持向量機
- 貝葉斯分類
- 神經網路
機器學習工具
- Mahout
- Spark Mlib
- TensorFlow (Google 系)
- Amazon Machine Learning
- DMTK (微軟分散式機器學習工具)
十三、演算法
一致性
- paxos
- raft
- gossip
數據結構
- 棧,隊列,鏈表
- 散列表
- 二叉樹,紅黑樹,B樹
- 圖
常用演算法
1.排序
插入排序
桶排序
堆排序
2.快速排序
3,最大子數組
4.最長公共子序列
5.最小生成樹
最短路徑
6.矩陣的存儲和運算
十四、雲計算
雲服務
- SaaS
- PaaS
- IaaS
- Openstack
- Docker
推薦閱讀: