《Hadoop權威指南》書摘-初識Hadoop
08-11
《Hadoop權威指南》書摘-初識Hadoop
來自專欄 Ghost Stories1 人贊了文章
Table of Contents
- 數據!數據!
- 數據儲存和分析
- 查詢所有數據
- 不僅僅是批處理
- 相較其他系統的優勢
- Hadoop發展簡史
轉載請註明出處:
http://wangnan.tech
簡書:http://www.jianshu.com/u/244399b1d776
知乎:Ghost Stories
數據!數據!
我們生活在一個數據爆炸的時代,我們必須想辦法好好的的儲存和分析這些數據
數據儲存和分析
- 解決硬體故障:使用副本
- 解決從無數個硬碟中讀取數據到一起去分析:MapReduce編程模型
hadoop是什麼?簡而言之,hadoop為我們提供了一個可靠且可擴展的儲存和分析平台
查詢所有數據
MapReduce是一個批量查詢處理器,能夠在合理的時間範圍內處理針對整個數據集的動態查詢
不僅僅是批處理
MapReduce更適合那種沒有用戶在現場等待查詢結果的離線使用場景
Hadoop的發展已經超越了批處理本身,實際上,名詞」Hadoop」有時被用於指代一個更大的,多項目組成的生態系統,產生了一些可以與hadoop協同工作的處理模式,比如互動式SQL、迭代處理、流處理、搜索,項目例子:Hbase、YARN、Hive、Spark、Storm、Solr
相較其他系統的優勢
- 關係型資料庫
- 網格計算
- Hadoop盡量在計算節點上儲存數據,以實現數據的本地快速訪問
- MapReduce任務之間是彼此獨立的,框架能夠檢測到失敗的任務並重新再正常的機器上執行,任務的執行順序也無關緊要
- 志願計算
MapReduce有三大設計目標:
- 為只需短短几分鐘或幾小時就可以完成的作業提供服務
- 運行於同一個內部有高速網路連接的數據中心內
- 數據中心內的計算機都是可靠的、專門的硬體
Hadoop發展簡史
- Hadoop是lucene創始人Doug Cutting創建的
- 起源於開源網路搜索引擎Apache Nutch
- 關於Hadoop名字的來歷,Doug這樣解釋:這個名字是我的孩子給他的毛絨象玩家取的,我的命名標準就是好拼讀,含義寬泛,不會用於其他地方,小朋友是這方面的高手,Googo!就是他們起的
- 2008年成為Apache頂級項目
- 目前Hadoop被主流企業廣泛使用,在工業界,Hadoop已經是公認的大數據通用和分析平台
推薦閱讀:
※Map Reduce和流處理
※MIT 6.824學習指南(1)
※基於Alluxio的HDFS多集群統一入口的實現
※mapreduce shuffle細節