在Hadoop 和Spark之間如何取捨?


謝邀,這個問題題主沒有說清楚場景呀。

我們首先得明白Hadoop和Spark的區別及聯繫。

Hadoop主要由HDFS + YARN + MapReduce三個核心組件組成,HDFS是一個文件系統,負責分散式存儲;YARN是Hadoop自帶的一個通用的資源管理框架,用來對跑在集群上的Application進行資源分配及管理;MapReduce是一個分散式計算框架,跑在YARN上,配合HDFS用來做分散式數據計算。

Spark是一個分散式計算框架,相當於MapReduce的改進版,支持基於內存的迭代計算,大多數情況下Spark要搭配Hadoop來處理HDFS上的數據。

由此來看,如果題主僅僅用來做海量數據存儲,無疑只能選Hadoop了,Hadoop的HDFS可以看作是業內的分散式存儲標準了,而Spark只能用來跑計算無法取代Hadoop。

如果涉及到HDFS上的數據處理,那麼Hadoop + Spark是最佳選擇。相比MapReduce,使用Spark處理數據不僅可以得到10倍以上的性能提升,而且Spark的RDD相關API豐富且支持SQL對數據做處理(此外還支持python 、R),MapReduce在開發上簡直弱爆了。


spark 中小規模大數據 1~12T

hadoop 大數據 》12T


個人認為Spark。比起Hadoop, Spark避免了頻繁的數據讀寫,也不用專門把演算法改寫成mapreduce的形式,掌握好RDD的操作就好。Spark還有專門的Python介面,上手比較快。當然,基於Hadoop搭建Spark環境,直接調用hadoop的cluster manager還是很舒服的。


謝邀。二者各有所長,矛盾不大。大組織都用,小企業看具體需求。再次祭出網易猛獁大數據平台架構圖:

更具體的分析,可以參考這個問題:與 Hadoop 對比,如何看待 Spark 技術?


Hadoop負責存儲,spark負責計算,通常會整合在一起


Hadoop三大件。HDFS、yarn、MapReduce。大數據量存儲用HDFS。計算的話,資源差、少的話用MapReduce。資源充足或者計算效率要求高用Spark。


謝邀,題目問題描述不是很清楚,兩者無需取捨,看具體需求。


確實跟場景有關,我個人對MapReduce的理解比較一般。

但你要說取捨,一個看場景,一個我個人比較認為,就目前來說,Spark很多時候代替不了Hadoop,而是可以代替MapReduce。

愚見,僅供參考,當然相信Spark的組件會越來越豐富強大。


其實這個對比維度不是很好,應該對此mapreduce和spark,如果只是用來做離線的統計分析,對速度要求不高的話可以使用mapreduce,或者直接使用hive,如果涉及到機器學習的話,可以使用spark,還有就是spark處理數據量特別大的時候,直接拿開源的spark會有問題,所以像百度這種大公司會基於開源的進行改動,如果是從學習大數據的角度的話,還是先學mapreduce,hdfs,hbase,Yarn,再學spark,畢竟這些是大數據最初的組件,對理解大數據分散式系統很有幫助


對比維度不對,hadoop裡面有MapReduce, HDFS和Yarn。Spark只是個計算框架,比較對象應該是MapReduce。

Spark寫分散式計算任務從代碼上看確實更加簡潔,表達能力更強,但凡寫過純MapReduce的應該都有體會,基於內存的計算和DAG式的任務調度方式也另其擁有不錯的性能。

然而,傳說中hadoop3.0的MapReduce比Spark還快10倍?


沒有必要取捨,這兩者完全可以共存。

應該說,spark從來是把hadoop的hdfs作為自己的重要數據源來考慮的。而spark的集群方式運行,包括了on mesos,standalone和on yarn 3種方式,yarn就是hadoop的資源管理和調度系統。

非要比,spark能對比的就是mapreduce。都是計算框架。這個沒什麼好說的,誰用誰知道,spark的性能和表達能力比mr好太多了。


這個主要 看項目的需要,不能 單一的說spark與hadoop哪個就比較好


當然是看需求場景,沒有上下文無法評價。

而且spark只是對hadoop的map reduce有一定的替代關係,一般還是會用到hadoop的hdfs和yarn的,不存在取此舍彼的關係,大數據是個大生態,好多組件都可以,也應該組合起來用的,要在實踐中去體會。


我覺得這種大數據分析的工具,應該由研發人員自己決定,如果領導直接決定用哪個工具,研發人員指定心裡不舒服,IT蝦米網中就有如何選擇大數據工具相關的內容。


推薦閱讀:

Erasure Code編碼大文件的問題?
八斗學院到底怎麼樣 ?
2017 年國內房價是漲了還是跌了?
大數據方面核心技術有哪些?
大眾眼中的大數據是怎樣的?

TAG:Hadoop | 大數據 | Spark |