矽谷之路38:深入淺出Spark(三)什麼是Standalone

查看完整視頻:http://www.bittiger.io/classes

Spark有四種基本運行方式:

今天來講講前兩個:Local Mode,在本地運行一個實例;和Standalone Mode,自己管理自己的集群。

  • Local Mode:

如下圖所示,這台機器有8核,我們可以用—master local[12]啟動Spark local模式,12代表12個task,Spark會啟動一個JVM來運行程序(Executer)。

  • Standalone Mode:

當我們使用多台機器,而又不想用YARN等進行集群管理的時候,我們就可以採用Standalone模式。我們可以看到有一個機器成為Master來管理這個集群,並且每個機器會啟動一個Worker,Worker使用Executer來執行任務。Worker會在Master註冊,從而Master可以調度每個Worder的資源。現在RDD可以分布在不同的機器上,並且根據每個機器的處理能力不同,會分配不同數量的task。

如果只有一個Master,這個Master一旦掛了怎麼辦呢?所以還有備用的Master,他們通過Zookeeper來進行管理實現高可用性(High Availablity) 。

本文整理作者:Mengying Tian,查看完整視頻:http://www.bittiger.io/classes

更多內容,請訪問:BitTiger.io, 掃描下面二維碼,關注微信公眾賬號「論碼農的自我修養」

推薦閱讀:

數據科學家必知必會的7款Python工具,你會幾個?
大數據分析美國大選——Twitter數據情感分析
Rust 重構 Spark 框架需要做哪些準備工作?
國內哪些互聯網公司在用mesos,哪些互聯網公司在用yarn,兩者前景如何?
Spark里的DAG是怎麼回事?

TAG:Spark | 任务管理器 |