MapReduce和Spark主要解決哪些方面的問題？

01-04

希望能具體點，實際大應用的例子？具體怎麼應用的？
主要不是原理角度，是實際案例角度？

簡單的說就是問題可以劃分成若干單元，每個單元的計算互不相關，單元計算結果可以在可以承受的時間內合成為總結果的計算。再說直白一點：所有分治模型都可交由hadoop解決。可以說spark是功能更全面的hadoop，支持一些諸如filter、group之類的操作，但是原本思想仍是map reduce，差別不太大。

map reduce確切的說是兩步操作：map操作和reduce操作。具體執行的時候其實是語言無關的，只要你能按照其標準輸入輸出，哪怕用brainfu*k寫的代碼，能獨立運行都可以。當然hadoop在java上有框架介面，spark直接構建在scala上會更加方便開發，但是實際上完全可以用任意語言做map reduce。

舉個幾乎每個教程都會談到的例子：單詞出現次數統計。如果只有很少的文本，這個統計基本上就是劃分單詞，統計次數而已，單機上寫個循環就能解決。但是如果文本量超TB甚至更多，單機的效率自然吃不消。但是我們可以把這超長文本劃分為若干段，每一段就MB量級，分配給一個計算節點，那麼每段對於一個分散式計算節點而言計算量就可以接受了。

mapper部分是一個結算節點用的處理程序，用標準輸入輸出流接收數據和輸出處理結果。對於單詞統計，它輸入的內容自然是一段文章，輸出的內容則是這段文章中的單詞統計結果。顯然節點之間所做的工作僅與送給此節點的數據有關，而與其它節點的數據或結果無關。例如對於文字「I love hadoop」，這個mapper可以給出如下輸出：

I 1

love 1

hadoop 1

reducer則是負責收集數據的。它通過標準流輸入輸出，輸入格式等同於mapper的輸出格式。hadoop會把所有mapper的結果簡單拼接一下然後全扔給reducer（根據配置不同，可能拼接時會有排序）。

reducer所做的工作則是將這些內容合成出最終結果。

比如兩段文本「I love hadoop」，以及「I love you」，分配給mapper處理，會得到兩個輸出

-------

I 1

love 1

hadoop 1

-------

I 1

love 1

you 1

然後reducer拿到的輸出則是拼在一起的結果

I 1

love 1

hadoop 1

I 1

love 1

you 1

reducer進行處理合併，最終結果大概是

I 2

love 2

hadoop 1

you 1

而hadoop或者spark框架的存在，使得你可以寫好mapper和reducer，然後告訴框架你的數據在哪兒，怎麼劃分之類的配置，框架自動將需要的工作分配給實際上的計算節點，自動連接的mapper和reducer的輸入輸出，然後得到計算結果。其中你並不需要考慮多機通訊、狀態監測之類的問題，只需要寫好與本地單機運算沒什麼差別的簡單程序就好。

因此對統計、學習、數學運算（迭代），求最優解之類的問題，都可以適用於map reduce。

謝邀。

在過去，處理大量數據或計算時，我們會依頼一部超級電腦，因為他有快速的計算器和大量的容量。但這不是一般人可以負擔，而且現在的數據量是超級電腦也無法處理的，故人們便要想一個系統出來讓人們可以很方便同時用多部電腦（無論是家用電腦或超級電腦與否）做計算和保存。另外，即使我們有一個高速的中央處理器，但在硬碟讀寫數據的速度卻是硬傷，所以如果有多部電腦同時做讀寫，那可省下不少時間。

MapReduce就是來解決這問題的。現在很多公司都用Hadoop或Spark，這些都是用MapReduce模式做計算的。當我們有很多數據，要建模時，Hadoop可行使分散式計算，如Google計算PageRank、廣告公司計算Bayes模型、數據搜索如在一千部電腦內的硬碟中尋找有史以來最高的氣溫??

Hadoop是用Java寫的。我相信很多有經驗數據科學家都很喜歡用R或Python建模，然後用Java或C++實現，這是無可厚非的，因為用Python一類的語言建模很有效率，當我們不知道要用什麼模型和演算法時，我們一定要快速驗證。但問題是，當我們知道什麼演算法可行，卻又要用另一工具實現時，那就有點費時失事。而且Python用Hadoop是很麻煩的，人們很少用Python做分散式計算，所以我們用Scala（一個JVM語言），而這跟Python一樣可以interactive programming，又是函數式編程（處理數據方便），卻又行在JVM上。而對應的MapReduce工具就是Spark。用Spark，數據科學家可即時測試不同的模型，而測試可在MapReduce的架構下進行，而且可以interactive programming，就像Python或MATLAB一樣。

一台機器算不過來

很好

分布到多台機器吧

我擦

怎麼搞啊？

我只會寫pi的計算程序啊

怎麼讓幾台機器協同計算啊？！

hadoopmr和spark就是這麼個框架

你專心寫核心計算代碼

其它的它來搞定

mapreduce和spark都是分散式計算框架，相對於傳統分散式計算來說，兩者給程序員提供了方便的分散式計算環境，我們不需要考慮底層怎麼並行計算，怎麼協調同步，怎麼容錯，我們只需考慮我們的業務就可以完成分散式計算。

而兩者的側重點也不同，mr適合批處理，對時效性要求不高的離線計算等等，因為它在計算的時候會將計算中間結果溢寫到磁碟上，io消耗比較大，而spark是基於內存的計算框架，直接在內存中完成計算，從這點來說它的計算速度是很好的，spark有很多模塊比如實時計算，圖計算，sparkSQL等等，從編程上來說如果用Scala會非常方便。

上述說明並不意味著spark完全優於Mr，只是兩者側重點不同，在大數據生態中對於計算引擎的選擇要考慮多方面因素，比如資源消耗，計算性能，穩定性，計算場景等。

map reduce 解決的是並行的問題。。。hadoop spark storm 是幾個軟體幫我們把這個事情做得更方便、高效和robust。。。

個人認為這個問題的答案還是抽象點好。。。如果題主非想看栗子的話前些天我倒恰好在知乎上看到過一個。。。hadoop「去哪兒網」面試題,計算20140510這天去哪兒旅行App的訂單有多少來自單程搜索，有多少來自往返搜索? - Hadoop

從 MR 和 spark 解決的問題來說吧。

1. disk io 密集問題的分散式求解

2. 自動容錯，解放了人類生產力

如果沒有這個系統，會很累很累的

spark 是對 MR 的升級，兩者本質上是一致的。