Spark里的DAG是怎麼回事？

01-21

DagScheduler原理？清晰解釋下？

沒看代碼，無責任預估:

不就是作業拓撲嗎？每一個操作生成一個rdd，rdd之間連一條邊，最後這些rdd和他們之間的邊組成一個有向無環圖，就是這個dag。

不只是spark，現在很多計算引擎都是dag模型的，例如tez就是mr的dag改進。

在Spark作業調度系統中，調度的前提是判斷多個作業任務的依賴關係，這些作業任務之間可能存在因果的依賴關係，也就是說有些任務必須先獲得執行，然後相關的依賴任務才能執行，但是任務之間顯然不應出現任何直接或間接的循環依賴關係，所以本質上這種關係適合用DAG表示。

DAGscheduler簡單來說就是負責任務的邏輯調度，負責將作業拆分成不同階段的具有依賴關係的多批任務。

DAGscheduler最重要的任務之一就是計算作業和任務的依賴關係，制定調度邏輯。

參考：《Spark大數據處理技術》

spark中rdd經過若干次transform操作，由於transform操作是lazy的，因此，當rdd進行action操作時，rdd間的轉換關係也會被提交上去，得到rdd內部的依賴關係，進而根據依賴，劃分出不同的stage。DAG是有向無環圖，一般用來描述任務之間的先後關係，spark中的DAG就是rdd內部的轉換關係，這些轉換關係會被轉換成依賴關係，進而被劃分成不同階段，從而描繪出任務的先後順序。去年年底看了1.0.2的源碼，手邊沒有當時的筆記，可能存在不準確的地方。

----------

我回學校翻翻筆記，再修改答案吧，幫你邀請一下大牛

就是有方向，沒有環，的一個圖。。。

樓上諸位回答的很詳細了，Spark之所以outperform Hadoop的關鍵有二：DAG scheduler和intermediate data in memory。Hadoop用的是AG而不是DAG。一個DAG可以包含多個AG。DAG除了可以提升scheduler效率之外，它同時是Spark Fault tolerance機制-Lineage 追溯的基礎。這些細節在Matei的那篇關於RDD的paper裡面講得非常清楚（樓上有提過）。

spark的DagScheduler負責將job劃分成Stage，Stage的劃分依據就是ShuffleDependency。spark一共兩種Stage，一種是ShuffleMapStage，一種ResultStage。每個job可以有多個或者0個ShuffleMapStage，但是有且只有一個ResultStage。然後根據Stage的依賴關係生成對應的tasks，再然後通過TaskScheduler對tasks進行調度並通知對應的Executor執行。

DAG 好處很多，很多系統都是DAG，tf，mxnet

rdd們串起來了，形成了一個有向無環圖。