標籤:

《Hadoop權威指南》書摘-初識Hadoop

《Hadoop權威指南》書摘-初識Hadoop

來自專欄 Ghost Stories1 人贊了文章

Table of Contents

  1. 數據!數據!
  2. 數據儲存和分析
  3. 查詢所有數據
  4. 不僅僅是批處理
  5. 相較其他系統的優勢
  6. Hadoop發展簡史

轉載請註明出處:

http://wangnan.tech

簡書:jianshu.com/u/244399b1d

知乎:Ghost Stories

數據!數據!

我們生活在一個數據爆炸的時代,我們必須想辦法好好的的儲存和分析這些數據

數據儲存和分析

  1. 解決硬體故障:使用副本
  2. 解決從無數個硬碟中讀取數據到一起去分析:MapReduce編程模型

hadoop是什麼?簡而言之,hadoop為我們提供了一個可靠且可擴展的儲存和分析平台

查詢所有數據

MapReduce是一個批量查詢處理器,能夠在合理的時間範圍內處理針對整個數據集的動態查詢

不僅僅是批處理

MapReduce更適合那種沒有用戶在現場等待查詢結果的離線使用場景

Hadoop的發展已經超越了批處理本身,實際上,名詞」Hadoop」有時被用於指代一個更大的,多項目組成的生態系統,產生了一些可以與hadoop協同工作的處理模式,比如互動式SQL、迭代處理、流處理、搜索,項目例子:Hbase、YARN、Hive、Spark、Storm、Solr

相較其他系統的優勢

  1. 關係型資料庫

  1. 網格計算
  • Hadoop盡量在計算節點上儲存數據,以實現數據的本地快速訪問
  • MapReduce任務之間是彼此獨立的,框架能夠檢測到失敗的任務並重新再正常的機器上執行,任務的執行順序也無關緊要
  1. 志願計算

    MapReduce有三大設計目標:

  • 為只需短短几分鐘或幾小時就可以完成的作業提供服務
  • 運行於同一個內部有高速網路連接的數據中心內
  • 數據中心內的計算機都是可靠的、專門的硬體

Hadoop發展簡史

  • Hadoop是lucene創始人Doug Cutting創建的
  • 起源於開源網路搜索引擎Apache Nutch
  • 關於Hadoop名字的來歷,Doug這樣解釋:這個名字是我的孩子給他的毛絨象玩家取的,我的命名標準就是好拼讀,含義寬泛,不會用於其他地方,小朋友是這方面的高手,Googo!就是他們起的
  • 2008年成為Apache頂級項目
  • 目前Hadoop被主流企業廣泛使用,在工業界,Hadoop已經是公認的大數據通用和分析平台

推薦閱讀:

Map Reduce和流處理
MIT 6.824學習指南(1)
基於Alluxio的HDFS多集群統一入口的實現
mapreduce shuffle細節

TAG:Hadoop | MapReduce |