學習大數據要從哪些知識點開始著手?
如題,本人是剛畢業工作不久的java碼農,本身也是自學開發的,對於比較前沿的東西挺感興趣的,有木有大神可以指點一下?
學習大數據目前主要三個平台hadoop,storm,spark
比如學hadoop,從哪兒開始學首先要根據你的基本情況而定,如果你就一小白,沒有任何開發基礎,也沒有學過任何開發語言,那就必須先從基礎java開始學起(大數據支持很多開發語言,但企業用的最多的還是JAVA),接下來學習數據結構、關係型資料庫、linux系統操作,夯實基礎之後,再進入大數據的學習,例如:hadoop離線分析、Storm實時計算、spark內存計算的學習,學習體系可以按照如下:
第一階段
CORE JAVA (加**的需重點熟練掌握,其他掌握)
Java基礎**
數據類型
運算符、循環
演算法
順序結構程序設計
程序結構
數組及多維數組
面向對象**
構造方法、控制符、封裝
繼承**
多態**
抽象類、介面**
常用類
集合Collection、list**
HashSet、TreeSet、Collection
集合類Map**
異常
File
文件/流**
數據流和對象流**
線程(理解即可)
網路通信(理解即可)
第二階段
數據結構
關係型資料庫
Linux系統操作
Linux操作系統概述
安裝Linux操作系統
圖形界面操作基礎
Linux字元界面基礎
字元界面操作進階
用戶、組群和許可權管理
文件系統管理
軟體包管理與系統備份
Linux網路配置
(主要掌握Linux操作系統的理論基礎和伺服器配置實踐知識,同時通過大量實驗,著重培養學生的動手能力。使學生了解Linux操作系統在行業中的重要地位和廣泛的使用範圍。在學習Linux的基礎上,加深對伺服器操作系統的認識和實踐配置能力。加深對計算機網路基礎知識的理解,並在實踐中加以應用。掌握Linux操作系統的安裝、命令行操作、用戶管理、磁碟管理、文件系統管理、軟體包管理、進程管理、系統監測和系統故障排除。掌握Linux操作系統的網路配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服務的配置與管理。為更深一步學習其它網路操作系統和軟體系統開發奠定堅實的基礎。與此同時,如果大家有時間把javaweb及框架學習一番,會讓你的大數據學習更自由一些)
重點掌握:
常見演算法
資料庫表設計
SQL語句
Linux常見命令
第三階段
Hadoop階段
離線分析階段
實時計算階段
重點掌握:
Hadoop基礎
HDFS
MapReduce
分散式集群
Hive
Hbase
Sqoop
Pig
Storm實時數據處理平台
Spark平台
若之前沒有項目經驗或JAVA基礎,掌握了第一階段進入企業,不足以立即上手做項目,企業需再花時間與成本培養;
第二階段掌握紮實以後,進入企業就可以跟著做項目了,跟著一大幫人做項目倒也不用太擔心自己能不能應付的來,當然薪資不能有太高的要求;
前兩個階段都服務於第三階段的學習,除了熟練掌握這些知識以外,重點需要找些相應的項目去做,不管項目大小做過與沒有相差很多的哦!掌握紮實後可直接面對企業就業,薪資待遇較高!
----------------------以上課程大綱是本人結合西普學院培訓課程及項目經驗總結修改的,供參考----------------------------------------
謝邀!一張圖讓你看懂在大數據行業中8個至關重要的崗位需要掌握哪些知識和技能,圖片是我們獨家製作,侵權必究!需要轉載請申請授權。如果有關注大數據的朋友,歡迎加我微信:idacker
http://weixin.qq.com/r/JUjbw8TE1JmrrYCg9x03 (二維碼自動識別)
把100G的數字人體活動起來就是最終目標了吧
給你四個關鍵字:數據可視化,ETL,數據挖掘,機器學習
數據時代的到來,也推動了數據行業的發展,包括企業使用數據獲取價值,促使了大量人員從事於數據的學習,學習大數據需要掌握基礎知識,接下從我的角度,為大家做個簡要的闡述。
大數據基礎,主要包括大數據概念、影響、應用、產業、大數據與雲計算、物聯網的關係。
技術就複雜一點了,主要包含:
1.大數據處理架構Hadoop:Hadoop的特性、Hadoop生態系統、Hadoop的安裝與使用;
2.大數據關鍵技術技術:數據採集、數據存儲與管理、數據處理與分析、數據隱私與安全;
3.大數據處理計算模式:批處理計算、流計算、圖計算、查詢分析計算
數據的核心技術就是獲取數據價值,獲取數據前提是,先要有數據,這就牽涉數據挖掘了,數掘挖掘的流程是什麼,主要分為哪幾步? - 大數據 多智時代
第一階段linux+搜索+hadoop體系
Linux基礎→shell編程→高並發架構→hadoop體系→HDFS→mapreduce→hbase→zookeeper→hive→lucene搜索→solr/solrcloud→elasticsearch分散式搜索→CM+CDH集群管理→impala→oozie→flume→sqoop
第二階段機器學習
R語言→mahout
第三階段storm流式計算
kafka→storm→redis
第四階段spark內存計算
scala編程→spark core→spark sql→spark streaming→spark mllib→spark graphx→項目實戰四→python機器學習→spark python編程
第五階段雲計算平台
docker→kvm→openstack雲計算
當然每個階段找一些合適的項目練手是必須的, 可以鞏固相關知識點,了解其作用及相關的應用問題等等。 歡迎討論交流。
推薦閱讀:
※AI、VR、AR、大數據、雲計算、區塊鏈,哪些更有前景,哪些只是泡沫?
※一句話說出你對雲計算的理解?
※根據時間生成手機令牌密碼的原理是什麼?
※《球狀閃電》里提到的在電腦上裝一個插件就能分擔大型計算的一小部分在現實中有實例嗎?這是雲計算嗎?
※2016 AWS Re:Invent 大會上,AWS又發布了哪些讓人驚艷的創新?