計算機論文精選-20180802

08-17

計算機論文精選-20180802

來自專欄計算機論文精選9 人贊了文章

Apollo: Scalable and Coordinated Scheduling for Cloud-Scale Computing【OSDI』14】

隨著雲計算的不斷發展，對於集群的作業調度能力要求越來越高，以微軟當時的並行計算的生產環境為例，每個集群有超過2萬台伺服器，有成千上萬個用戶每天都向集群提交作業，對調度器來說每秒能達到數萬個調度請求，並且提交的作業也是多種多樣的。在這樣的場景下，調度器必須能達到以下三點：（1）在上萬台伺服器規模的集群中，每秒要能達到數萬次調度；（2）在不同的用戶和群體之間，要保持公平的資源共享；（3）在進行調度決策時，要考慮到數據的局部性、作業的特點和伺服器的負載等因素，並儘可能地減少作業延遲，提高集群資源的利用率。

在這樣的背景下，本文提出了Apollo，它採用了分散式框架和共享集群狀態的方式讓每個調度器都擁有全局視角。Apollo的主要特性為以下幾點：Apollo採用分散式和鬆散協調的調度框架；Apollo將每個任務的完成時間最小化，它通過估計模型來對每一個提交的作業的任務完成時間進行預估，模型中同時考慮數據的局部性、伺服器負載和其他各種因素，並可以根據這些因素進行加權決策，估計模型還可以通過以往類似作業的運行信息來對時間估計進行進一步的細化;每個調度器都擁有整個集群的信息，供其進行調度決策；Apollo提供了一系列的校正機制，集群中可能會出現作業運行時間估計不準確、作業衝突、運行時一些不正常的行為等意外狀況，Apollo提供的校正機制可以在集群運行時動態的對其進行調整；Apollo引入了機會調度（opportunistic scheduling），它將作業分成了兩類，常規作業（regular tasks）和機會作業（opportunistic tasks），保證常規作業的低延遲的同時使用機會作業來提高集群的利用率，並引入了基於token的機制來管理容量並通過限制常規任務的總數來避免集群的負載過高。

更多內容請關注微信公眾號「論文精選」以及微信小程序「SkimPaper」，每天準時為您推薦體系結構、分散式系統、人工智慧等相關領域優秀論文解讀。同時也歡迎大家積極投稿，分享您讀到的優秀論文。