hadoop學習路線,希望各位幫幫忙?
馬上要讀研了,老實說我壓力很大,老師的方向是大數據方面的以前沒接觸過,老師說要hadoop,可能會涉及到修改源碼的情況,我大學期間沒接觸過java,當然基本的c++啥的都是學過的,有一定編程開發基礎,想問問各位對於沒接觸過java的我來說有沒有學習hadoop的路線圖,最好是從java到hadoop一路下來的書籍推薦,真的謝謝各位了!
關Hadoop學習小編特地找到了阿里大數據專家封神(阿里封神談hadoop學習之路-博客-雲棲社區-阿里雲)以下是其對於Hadoop學習之路的一些見解:
Hadoop是一個由Apache基金會所開發的開源分散式系統基礎架構。用戶可以在不了解分散式底層細節的情況下,開發分散式程序,充分利用集群的威力進行高速運算和存儲。Hadoop得以在大數據處理應用中廣泛應用得益於其自身在數據提取、變形和載入(ETL)方面上的天然優勢。Hadoop的分散式架構,將大數據處理引擎儘可能的靠近存儲。
為了幫助大家進一步了解Hadoop,雲棲社區組織翻譯了GitHub Awesome Hadoop 資源,涵蓋Hadoop中常見的庫與工具、存儲方式、資料庫,以及相關的書籍、網站等資源。
Hadoop學習資源集合-博客-雲棲社區-阿里雲
---------------------修改--------------------13年的時候懷著一腔熱血進入大學,電氣工程及其自動化專業(對電很感興趣),但在大二的一次課程實習中獲知周圍大部分人都是在電網行業有關係的人家的孩子,回來後個人感覺很無賴。墮落了半個月左右後開始思索我的未來在哪兒?至於為什麼要思索我的未來呢?我要證明自己的實力呀!哎,石化述說吧!是因為沒有爹拼呀!!!!有人就有一些質疑:還可以考研究生呀!還可以去企業呀!……說實話,我所在的學校屬於三流二本,軟硬體條件都不好,而去在天朝王國有些事情你得知道遊戲規則怎麼玩,不然你是怎麼死的都不知道。隨著時間的向後推移,心裡有了些消極的態度吧!對電力技術有些厭倦了,開始步入探索的道路,我在想:如果要考研究生,什麼專業出路比較大些呢?由於當時的對電力反感的情緒的影響,直接就把電力排除了,思來想去就計算機吧!如果走計算機硬體要補的東西就多了,而且硬體中分支區別小;最終選擇了軟體,在此時,我看了一本《大數據預測》,增加我的數據分析的嚮往和能通過數據獲取隱藏之中的秘密的那種興奮感。當然選擇計算機行業的原因之一是,在這個行業目前還是能力為主,其次是做實驗很方便,有個電腦和網路就可以滿足大部分要求了。
言歸正傳
回答題主問題:1、Hadoop是用java寫出來的分散式流處理系統,包含了數據存儲,數據處理,新式NOSQL資料庫系統......。所以javase-java基礎的能力還是要的(我就是javase開始的,現在在補javaee方面的知識,到了javaee階段就得學習java的設計模式了,關於java模式的書推薦-《Data Structures and Algorithms in Java》),關於java的書我看過5-6本吧,個人就覺得《java編程思想》(把java之中的思想進行剖析,這樣有助於增加你理解的深度)和《java核心卷I》寫得很好,其他的我就不推薦了,《java核心卷II》是javaee用的書,你可以去網上找javase的視頻看,加上以上2本書的輔助效果應該是不錯的。視頻此處不給出了,還有imooc網上面有java視頻。最好把javaee的XML學一下,這樣就能明白Hadoop的配置文件是怎麼回事了!2、Hadoop為了降低使用門檻,還可以使用其他語言對其進行操作,其中sql最為典型,所以sql的學習就很有必要了,推薦imooc網上的mysql視頻和oracle視頻就夠了(學習sql基本操作就可以了當然有時間自行安排深入一點的課程),至於關於sql語言的書籍就不推薦了,因為它的操作命令是死的,記住就夠了,不是sql資料庫運維工程師沒有必要,而且sql的操作都是固定的格式,其中sql的查詢語句尤為重要;
3、由於Hadoop是運行在unix系統上,有人會問為什麼嗎?那是因為Linux伺服器是首選,Linux的伺服器穩定性高,是不用關機的(不然你晚上怎麼玩知乎,微博…),安裝在Mac上也是可以的,不用關機,還不會卡,不過你捨得讓你漂亮的Mac跑Hadoop嗎?反正我是捨不得的。當然可能要問為什麼不用win系統?回想一下pc卡頓怎麼辦?重啟唄!想被win的卡頓玩瘋你,你可以開發一個來玩玩。所以Linux的基本操作自然也少不了,還是推薦imooc網的Linux課程,老師幽默風趣,而且講解很清楚。書籍同樣不推薦了,因為不是Linux開發人員和Linux系統運維工程師,真心沒必要。
4、終於要寫完了,最後Hadoop方面的書籍:《Hadoop權威指南》、《Hadoop技術詳解》是給想深入了解Hadoop細節的朋友、《hbase權威指南》、《數學之美》--真的很推薦此書,吳軍博士把很多Google存在過的技術難題講得簡單明了,看了之後你就自己會去看概率論相關知識、《奇點臨近》--對未來的展望,很有必要看一下,行業變化在瞬息之間。
覺得可以就點個讚唄!提供一些基礎資料:
本人有關hadoop學習的技術博客,歡迎拍磚http://blog.csdn.net/liushahe2012本人github上的小程序用例,求star
Hadoop案例之年份溫度排序:https://github.com/liushahe2012/hadoop_yearTemperatureHadoop案例之單表關聯輸出祖孫關係:liushahe2012/hadoop_SingleTableJoinhadoop_wordCount:liushahe2012/hadoop_wordCountHadoop案例之倒排索引:liushahe2012/Hadoop_InvertedIndex
Hadoop案例之二度人脈與好友推薦:liushahe2012/Hadoop_Deg2friendHadoop案例之基於物品的協同過濾演算法ItemCF:liushahe2012/Hadoop_ItemCFHadoop案例之自定義分片策略解決大量小文件問題:liushahe2012/Hadoop_MuiltiSmallFileCombineApplicationMaster的簡化版,演示了YARN服務庫和事件庫的使用方法:liushahe2012/Hadoop_SimpleApplicationMasterHadoop源碼解析之RPC協議:liushahe2012/Hadoop_RPCDemo可以參考我的github:realguoshuai/hadoop_study
上面有自己在學習過程中總結的hadoop思維導圖筆記,每周六都會更新,喜歡了點個star就行
自己以前了解過一下,不精通。
建議直接視頻先過一遍
hadoop spark bhive 等先過一遍
scala要清楚
感覺大數據學好很難,一不小心,就淪為只會調用api了
推薦閱讀:
※php-cgi和php-fpm有什麼關係?
※項目做到什麼程度才可以進入Apache Incubator(Apache孵化器)?
※如何看待2016年4月26日晚,中國互聯網被Struts2漏洞血洗?
※怎樣正確做 Web 應用的壓力測試?
※如何在生產伺服器上部署 Node.js 應用?