請問有哪些關於大數據以及hadoop好的學習課程?
視頻,書籍,博客都可以的,拜謝回答的朋友!
Coursera上有一門UCSD開設的Big Data的專項課程
總共分五個課程,第一節大數據導論主要介紹的是大數據,hadoop是啥,有什麼作用等等背景。
第二節是Map Reduce,HDFS,Spark等等的設計框架,實現機制等等,每一周後面還會有一個在虛擬機上用hadoop完成的小作業。比較初級的map reduce任務等等。
第三節是HBase Hive PIG等等更細一點的設計框架,實現機制,也都有對應的小作業。
第四節是big data在機器學習里的應用。
第五節還沒有開課。
每節課程都是4周,如果只是為了完成課程內容的話還是比較簡單的,但是覆蓋的範圍挺廣的,這個課程適合作為引導去深入的了解big data,不會教你怎麼去搭環境等等具體的問題,主要是講原理的,搭配官方文檔和其他更細緻的資料服用更佳。反正對我這種沒有工程實踐的學生來說對了解big data 幫助很大。關於Hadoop官方文檔是最重要的----------------------------------Hadoop: the definitive guideHadoop in action
這兩本書還不錯
----------------------------------http://allthingshadoop.com視頻推薦吳超的hadoop,北風的中華石杉的spark,其他小的組件自己看看就行了
書籍方面:
hadoop方面:
《hadoop權威指南》
《Hadoop權威指南:大數據的存儲與分析(第4版)》([美]湯姆,懷特(Tom,White))【摘要 書評 試讀】- 京東圖書
三本技術內幕:common和yarn,mapreduce,其中mapreduce有點老可以不看。
京東商品搜索
《mapreduce 設計模式》
《MapReduce設計模式》([美]Donald Miner,Adam Shook)【摘要 書評 試讀】- 京東圖書
這本書看懂了就懂了hive是怎麼運行的了,對hive調優非常有幫助。
hadoop方面主要就推薦上面這四本。
後面是不太推薦的
《Hadoop實戰(第2版)》(陸嘉恆)【摘要 書評 試讀】- 京東圖書
這本書東抄襲湊的感覺,還有一本國外的hadoop實戰,好像郵電出版社的,內容太老沒必要看了。
Hadoop YARN權威指南 計算機與互聯網 書箱|63939
這本書實際上並不配做權威指南四個大字。
spark方面:(王家林的書都是垃圾,千萬別買)
《Spark快速大數據分析》([美]卡勞(Holden Karau),[美]肯維尼斯科(Andy Konwinski),[美]溫德爾(Patrick Wendell),[加]扎哈里亞(Matei Zaharia))【摘要 書評 試讀】- 京東圖書
這本書入門不錯,推薦
《深入理解Spark:核心思想與源碼分析》(耿嘉安)【摘要 書評 試讀】- 京東圖書
這本是剖析源碼的,需要耐心讀,作者還是很用心寫的。
Spark MLlib機器學習:演算法、源碼及實戰詳解
這本是講sparkml源碼的,可能貼代碼太多,被罵很多,但是內容還可以的,另外作者在煉數成金有視頻可以搭配學習。
《Spark機器學習》([南非]彭特里思(Nick Pentreath))【摘要 書評 試讀】- 京東圖書
spark機器學習的入門書籍
【Spark機器學習】正版 Spark高級數據分析 Spark數據處理基礎 Spark書
cloudera的人寫的,內容還可以,也是講機器學習的,偏重案例和sparkml的使用。
【預訂】High Performance Spark: Best Practices
這本書似乎還沒有中文版,正在看,寫的不錯,推薦一下
上面就是個人認為spark寫的比較好的書,下面是不推薦的:
Apache Spark源碼剖析 這本書內容太少,不夠全面不夠深入。
還有就是王家林的若干本垃圾貼圖湊頁數的書。
zookeeper:
《從Paxos到Zookeeper分散式一致性原理與實踐》(倪超)【摘要 書評 試讀】- 京東圖書
一本足夠了
storm:
《Storm技術內幕與大數據實踐》(陳敏敏,王新春,黃奉線)【摘要 書評 試讀】- 京東圖書
《Storm源碼分析》(李明,王曉鵬)電子書下載、在線閱讀、內容簡介、評論 - 京東電子書頻道
這兩本不錯
正版書籍 Storm企業級應用:實戰、運維和調優 機械工業出版社
這本書不好
hbase:
《HBase實戰》([美]Nick Dimiduk,[美]Amandeep Khurana)【摘要 書評 試讀】- 京東圖書
這本書不錯,小象學院老大翻譯的,適合入門
《「十二五」國家重點圖書出版規劃項目:HBase權威指南》([美]Lars George)【摘要 書評 試讀】- 京東圖書
權威指南系列一般都值得信賴,只是內容有點老了,不過值得一看,這兩本足夠了。
還有一些hive,impala,flume,sqoop,kafka這些組件感覺就看看官網文檔差不多了。上面的推薦的和不推薦的都是看過,或者正在看的,基本上我都買了紙質版,就先寫這麼多,後面買了新書再補充。
一般還是得看官方文檔了 Hadoop 相關的公開課、視頻教程、視頻課程 最近看的一個公開課網站
YoyaProgrammer 這個微信上有spark的講解,很詳盡,你可以看看。我想知道有質量的視頻教程有沒有啊?
一、大數據處理技術-基於Hadoop/Yarn的實戰(含Spark、Storm和Docker應用介紹 )
本課程從大數據技術以及Hadoop/Yarn實戰的角度,結合理論和實踐,全方位地介紹Hadoop/Yarn這一高性能處理大數據工具的開發技巧。本課程涉及的主題包括:Hadoop/Yarn分散式文件系統DFS;MapReduce的的工作機制、類型和格式;如何構建和管理Hadoop/Yarn集群;Pig Latin語言的使用技巧;Hive數據倉庫工具介紹;HBase和Zookeeper工具的使用和管理;開源數據採集工具sqoop。
本課程教學過程中還提供了案例分析來幫助學員了解如何用Hadoop/Yarn系列工具來解決具體的問題,並介紹了從大數據中挖掘出有價值的信息的關鍵。
第一講 雲計算及大數據處理技術介紹
第二講 Google的關鍵技術
第三講 Hadoop系統及HDFS
第四講 MapReduce計算模型設計
第五講 Pig 數據流處理工具
第六講 雲數據倉庫Hive
第七講 HBase和NoSQL
第八講 數據抽取工具Sqoop
第九講 Hadoop與其他雲數據處理技術的融合
二、大數據實時處理–基於Spark的大數據實時處理及應用技術
課程中結合實例,介紹圖工具GraphX如何發現社交網路中的人際關係,大數據挖掘工具MLlib如何進行商品聚類和電影推薦,以及Streaming流挖掘工具,並探討了Spark與Docker等雲環境下新技術的結合,分析了其應用前景。
本課程教學過程中還提供了案例分析來幫助學員了解如何用Spark實時大數據工具來解決業界的問題,並介紹了Spark生產環境搭建的相關知識。
第一講 Spark大數據實時處理技術
第二講 Spark安裝配置及監控
第三講 Scala編程語言使用概述
第四講 Spark分散式計算框架
第五講 Spark內部工作機制詳解
第六講 Spark數據讀取與存儲
第七講 Spark通信模塊和容錯機制
第八講 SQL On Spark
第九講 Spark流數據處理工具Streaming
第十講 Spark中的大數據挖掘工具MLlib
第十一講 Spark大規模圖處理工具GraphX
第十二講 Spark與其他大數據技術的融合與應用
三、Storm大數據流式處理技術
本課程從大數據流式處理技術以及Storm實戰的角度,理論和實踐相結合,全方位地介紹Storm大數據流式處理工具的原理和內核。以案例分析的方式來幫助學員了解如何用BDAS系列工具來解決具體的問題,並介紹了從大數據中挖掘出有價值的信息的關鍵。
第一講 Storm大數據處理介紹
第二講 Storm配置和容錯機制
第三講 Storm可靠性及消息傳輸
第四講 Storm拓撲及流分組
第五講 Spout和Bolt詳解
第六講 分散式DPRC
第七講 Storm事務拓撲
第八講 Storm中的Trident
第九講 Trident的狀態
第十講 Storm企業應用
四、大數據分散式存儲系統
在大數據時代,很多企業的數據都是逐步積累的,這就要求存儲系統有很好的橫向擴展能力;而要對傳統存儲設備進行橫向擴展,會帶來很高的成本,但是分散式存儲卻能夠比較好的解決這樣的問題。
第一講 分散式存儲系統概述
第二講 大數據集(超大文件)存儲
第三講 海量小文件存儲
第四講 分散式存儲技術發展新動向和趨勢
五、大數據前沿技術分析與應用
大數據相關技術最近幾年出現了井噴的趨勢,眾多技術紛紛出現,典型的系統包括Hadoop、Spark、Flume、Scribe、Kafka、Storm、Mahout、MLlib、Docker等,涵蓋網路數據爬取、日誌採集、分散式消息訂閱、大數據分析挖掘等方面,涉及離線批處理、實時處理、流式處理等多種處理方式。這些技術解決不同的應用需求,涉及面廣,技術要求高,交叉知識範圍廣,知識內容更新頻繁,要理清其中的關係,從中發現最適合本機構的技術,成為了目前各機構技術專家的一個難點。
第一講 大數據技術基礎
第二講 批處理大數據平台Hadoop
第三講 實時大數據平台Spark
第四講 流式大數據平台Storm
第五講 Python網路爬蟲
第六講 大數據日誌採集工具Flume
第七講 分散式消息訂閱工具Kafka
第八講 NoSQL雲數據處理工具
第九講 大數據中的SQL工具
第十講 大數據分析挖掘工具
第十一講 資源虛擬化工具Docker
第十二講 大數據技術展望
六、數據倉庫與數據挖掘(結合SPSS和WEKA)
本課程重在突出數據倉庫與數據挖掘決策支持的本質,介紹數據挖掘的各種方法、技術實現手段,通過對實例的深入剖析解釋它們的原理。
第一講 數據倉庫原理及聯機分析技術介紹
第二講 數據倉庫設計與開發
第三講 基於數據倉庫的決策支持系統
第四講 數據倉庫案例剖析
第五講 數據挖掘與知識發現
第六講 關聯分析演算法及其案例
第七講 聚類分析演算法及其案例
第八講 其它數據挖掘演算法介紹
七、Python和R數據挖掘技術-基於Python和R語言的數據挖掘和統計分析技術
本課程將對基於Python和R語言進行數據處理、數據探索的基本方法,利用R語言實現模型選擇、Logistic回歸及決策樹演算法,以及貝葉斯演算法及支持向量機、神經網路等演算法原理及實現進行講解。
第一講 數據挖掘,Python和R簡介
第二講 數據的導入與導出
第三講 數據可視化展現
第四講 決策樹與隨機森林
第五講 回歸分析
第六講 聚類分析
第七講 離群點檢測
第八講 時間序列分析
第九講 關聯規則
第十講 社交網路分析
八、大數據分析挖掘-基於Hadoop/Mahout/MLlib的大數據挖掘(含Spark、Storm和Docker應用介紹 )
本課程從大數據挖掘分析技術實戰的角度,結合理論和實踐,全方位地介紹Mahout和 MLlib等大數據挖掘工具的開發技巧。本課程涉及的主題包括:大數據挖掘及其背景,Mahout和 MLlib大數據挖掘工具,推薦系統及電影推薦案例,分類技術及聚類分析,以及與流挖掘和Docker技術的結合,分析了大數據挖掘前景分析。
本課程教學過程中還提供了案例分析來幫助學員了解如何用Mahout和 MLlib挖掘工具來解決具體的問題,並介紹了從大數據中挖掘出有價值的信息的關鍵。
第一講 大數據挖掘及其背景
第二講 MapReduce/DAG計算模式
第三講 雲挖掘工具Mahout/MLib
第四講 推薦系統及其應用開發
第五講 分類技術及其應用
第六講 聚類技術及其應用
第七講 關聯規則和相似項發現
第八講 流數據挖掘相關技術
第九講 雲環境下大數據挖掘應用
九、Spark大數據挖掘工具MLlib實戰(機器學習)
本課程主要講解Spark MLlib,Spark MLlib是一種高效、快速、可擴展的分散式計算框架,實現了常用的機器學習,如:聚類、分類、回歸等演算法。講解各個演算法的理論、詳細展示Spark源碼實現,最後均會通過實例進行解析實戰,幫助大家真正從理論到實踐全面掌握Spark MLlib分散式機器學習和大數據挖掘方法。
第一講 Spark大數據實時處理技術
第二講 Spark安裝配置及監控
第三講 Scala編程語言和分散式計算模型
第四講 Spark MLlib線性回歸和邏輯回歸演算法
第五講 Spark MLlib貝葉斯分類演算法
第六講 Spark MLlib決策樹演算法
第七講 Spark MLlib聚類演算法
第八講 Spark MLlib關聯規則演算法
第九講 Spark MLlib個性化推薦演算法
第十講 Spark MLlib神經網路演算法
十、Python語言基礎及數據分析技術
Python語法簡潔清晰,Python具有豐富和強大的庫。能夠把用其他語言製作的各種模塊(尤其是C/C++)很輕鬆地聯結在一起。 Python包括一套完整的數據處理、計算和製圖軟體系統;簡便而強大的編程語言:可操縱數據的輸入和輸入,可實現分支、循環,用戶可自定義功能。
本課程將對基於Python語言進行數據處理、數據探索的基本方法,並對Python語言演算法原理及實現進行講解。
第一講 基礎知識
第二講 Python數據結構
第三講 選擇與循環
第四講 字元串與正則表達式
第五講 函數設計與使用
第六講 面向對象程序設計
第七講 文件操作
第八講GUI編程
第九講 資料庫編程
第十講 科學計算與可視化
第十一講 大數據處理
十一、大數據可視化技術與應用
本課程立足於可視化的本質問題,從設計的角度講述數據可視化技術,而非可視化實現演算法
課程通過演繹可視化設計的基本流程、常用工具和方法,加上針對典型數據類型可視化方法的案例分析,以啟發學員思考,達到以更加豐富的可視化方法,運用各種交互設計手段進行可視化分析與探索,深入挖掘自身現有業務數據價值的目的。
第一講 數據可視化概述
第二講 可視化設計基礎
第三講 可視化編碼基礎
第四講 地理空間數據可視化方法
第五講 時變數據可視化方法
第六講 關係數據可視化方法
第七講 高維數據可視化方法
第八講 文本數據可視化方法
第九講 可視化交互設計方法
十二、雲計算與大數據處理技術
本課程分別從多個角度分析在面對海量數據處理的困難時,不同的應用體系是如何解決問題並獲得成功的。研究這些已有的體系不是目的,而是希望學員能夠通過學習這些解決問題的方法和思路,通過歸納整理深入理解,再根據自己所面對的領域特徵,形成解決具體實際問題的方案。通過本課程學習,希望推動國內雲計算項目開發上升到一個新水平。
第一講 雲計算的概念與現狀
第二講 從Google雲計算體系,理解海量數據處理的方法
第三講 從Hadoop雲計算項目,進一步研究雲數據處理方法
第四講 從Windows Azure,理解平台即服務的本質
第五講 從Amazon雲計算,討論如何提供雲服務
第六講 實施雲計算的關鍵點:安全策略
第七講 當前數據中心如何向雲計算環境轉變?
第八講 基礎設施即服務(IaaS)關鍵實現技術
第九講 軟體即服務(SaaS)關鍵實現技術
MapR Academy 有一些基礎的課程
推薦閱讀:
※哪裡有 hadoop 教程下載?
※做好機器學習,數學要學到什麼程度?
※如何連續執行兩段MapReduce?
※MooseFS和Hadoop兩個分散式文件系統各有什麼優缺點?
※既然Spark比Hadoop性能好很多,Hadoop未來發展方向是什麼?