大數據架構師技能

一、大數據通用處理平台

  1. Spark
  2. Hadoop

二、分散式存儲

HDFS

三、資源調度

Yarn

Mesos

四、機器學習工具

  1. Spark Mlib
  2. TensorFlow (Google系)
  3. Amazon Machine Learning
  4. DMTK (微軟分散式機器學習工具)

五、數據分析/數據倉庫(SQL類)

  1. Pig
  2. Hive
  3. Spark SQL,
  4. Spark DataFrame
  5. Impala
  6. Phoenix
  7. ELK
  8. ElasticSearch
  9. Logstash
  10. Kibana

六、消息隊列

  1. Kafka(純日誌類,大吞吐量)
  2. RocketMQ
  3. ZeroMQ
  4. ActiveMQ
  5. RabbitMQ

七、流式計算

  1. Storm/JStorm
  2. Spark Streaming
  3. Flink

八、日誌收集

  1. Scribe
  2. Flume

九、編程語言

  1. Java
  2. Scala
  3. Python
  4. R
  5. Ruby

十、數據分析挖掘

  1. MATLAB
  2. SPSS
  3. SAS

十一、數據可視化

  1. R
  2. D3.js
  3. ECharts
  4. Excle
  5. Python

十二、機器學習

機器學習基礎

  1. 聚類
  2. 時間序列
  3. 推薦系統
  4. 回歸分析
  5. 文本挖掘
  6. 決策樹
  7. 支持向量機
  8. 貝葉斯分類
  9. 神經網路

機器學習工具

  1. Mahout
  2. Spark Mlib
  3. TensorFlow (Google 系)
  4. Amazon Machine Learning
  5. DMTK (微軟分散式機器學習工具)

十三、演算法

一致性

  1. paxos
  2. raft
  3. gossip

數據結構

  1. 棧,隊列,鏈表
  2. 散列表
  3. 二叉樹,紅黑樹,B樹

常用演算法

1.排序

插入排序

桶排序

堆排序

2.快速排序

3,最大子數組

4.最長公共子序列

5.最小生成樹

最短路徑

6.矩陣的存儲和運算

十四、雲計算

雲服務

  1. SaaS
  2. PaaS
  3. IaaS
  4. Openstack
  5. Docker

推薦閱讀:

TAG:大數據 | 架構師 |