生產環境下cloudera的cdh版本更受歡迎,但是貌似cloudera對於YARN的開發力度不是很突出,所以在apache與cdh版本選擇的時候,大家是怎麼考慮的?

主要關注生產環境下的運維成本,期待更多人加入討論,更希望有對cdh有運維經驗的人來分享分享


果斷CDH。

數據工程師應該更關注應用而不是環境本身。

據我了解幾家前20的互聯網公司也是Cloudera的用戶。

話說行業分工也越來越細,Hadoop肯定會往基礎組件的方向發展,如果不是希望深入做Hadoop運維的話,就不用折騰原生的了。


因為前一份工作,我曾經在一個八節點的測試集群上安裝並使用過CDH,MapR,和Apache的版本。

我的答案是CDH。

必須要說CDH用起來最省時省力。自動探測host,選擇版本,配置簡單,幾乎是傻瓜式一鍵安裝。

MapR方便程度就稍微差一些,但是仍然比Apache要方便很多。但是MapR版本有一個致命的缺點,它用的不是Hadoop的HDFS而是他們自己實現的MapRFS。導致了Hadoop生態系統中所有涉及到文件系統操作的系統都需要使用MapR的發行版。為了兼容MapRFS,源碼都被改過。可以到MapR的github賬戶上看到。

Apache的話就真心需要專職運維人員去管理了。需要使用一些集群管理配置工具了。手動絕對累死。

你所說的CDH沒有對yarn的開發力度不大我覺得這個倒不用太擔心。CDH會定期根據Apache開源的最新穩定版本發布相應的CDH版本,所以不存在版本落後最新版很多的情況。而且我記得CDH現在加入了parcel管理,可以非常簡單方便地切換hadoop版本而不需要重新安裝集群。這個功能誘惑力太大了。另外CDH對於超過50個節點的集群就要開始收費了。這個是需要考慮的問題。


cloudera的cdh版本在部署大量的集群節點時效率高很多,穩定性感覺也比原生版本好。


在ubuntu 的wiki里看到因為cloudera由於方便安裝,有75%新手選擇。網上沒有找到這兩個組織發行hadoop的比較。不過cloudera貌似基於apache hadoop做bug fix 發布的。

CHD是一個公司發布的,但很多國內小公司都採用。大公司還是自己搞apache的比較好。


說實話,真覺得hortonworks的好,三種版本都玩過,還是更喜歡hortonworks,初學者喜歡用cdh,因為更省事一些吧。


CDH 免費版本的功能限制有點多

http://www.cloudera.com/content/dam/www/static/documents/datasheets/cloudera-enterprise-datasheet.pdf


CDH5.X版本已經取消了50個節點的限制。


推薦閱讀:

ArcGIS 有什麼奇技淫巧?
大數據實驗手冊怎麼自己搭環境?
為什麼有的hadoop課程會講授python?
為什麼很多公司的大數據相關業務都基於 Hadoop 方案?
請問有哪些關於大數據以及hadoop好的學習課程?

TAG:Hadoop | 版本選擇 | cloudera | 大數據運維 |