MaxCompute 中的Code Generation技術簡介
前言
在《資料庫系統中的Code Generation技術介紹》中,我們簡單介紹了一下Code Generation技術及其在大規模OLAP系統,特別是大規模分散式OLAP系統中的重要性。MaxCompute採用了Code Generation技術來提高計算效率。在MaxCompute2.0中,我們又引入了基於LLVM的JIT(Just In Time) Code Generation技術。結合向量化的執行引擎,基於SIMD技術的執行效率優化等方式,較之MaxCompute 1.0,MaxCompute 2.0在性能方便有了較大的提升,具體可以參照《MaxCompute2.0性能評測:更強大、更高效之上的更快速》。
MaxCompute 1.0中的Code Generation
如上圖,MaxCompute 1.0採用了靜態的Code Generation技術,工作主要在MaxCompute控制集群中名為「Executor」的角色上完成。其流程如下:
- 用戶的SQL語句在Executor上經過Parsing和Optimization之後,生成對應的查詢計劃。
- Executor上的Code Generation模塊將查詢計劃翻譯成一個名為「mapred.cpp」的C++源文件。如上圖所示,查詢計劃中的每一個Task(就是MaxCompute作業中的一個Stage)會被翻譯成C++中的一個Class, 而所有的處理邏輯被生成到該Class的Process()方法當中。
- Executor調用g++將「mapred.cpp」編譯成一個動態庫,並將其下發到計算集群中的每一個Worker上。
- 被調度起來的Worker會Load該動態庫,調用相應的Process()方法以完成計算邏輯。
可以看到,利用Code Generation技術,對於每一個SQL來說執行時代碼都是經過定製的,因此執行效率較傳統的Volcano Model更好。但是,其中也有一些問題。
- g++ 編譯還是比較消耗CPU/內存的,特別是當優化選項開到O2以上的時候。特別是用戶SQL比較複雜的情況下(有些SQL在SELECT語句中有多達上千個表達式,或者表達式的嵌套計算特別深入),生成的C++源文件也比較大,編譯更加耗時。在實際生產中,我們見過編譯耗時數十秒,消耗上G內存的情況。
- 生成的動態庫在控制集群和計算集群之間傳輸也會有帶來一定的網路開銷。因為這個動態庫的與SQL邏輯緊密相關的,因此無法復用,因此每個SQL都會經歷編譯,下發的過程,在任務提交比較頻繁的情況下,控制集群的穩定性會收到一定挑戰。
- 因為較高的編譯時開銷,這種Code Generation的方式在處理複雜的語句加中小數據規模查詢的場景,比如service mode下,overhead太大。
MaxCompute 2.0中的Code Generation
MaxCompute 2.0採用了基於LLVM的JIT Code Generation技術。所謂JIT,就是程序在運行期間根據需要動態生成相應的機器指令。這樣,整個Code Generation的工作由控制集群移交到了真正執行計算邏輯的計算集群各個Worker上。其流程如下:
- 和MaxCompute 1.0中一樣,用戶的SQL語句在Executor上經過Parsing和Optimization之後,生成對應的查詢計劃。
- 查詢計劃直接被發送到計算集群各個Worker上。
- MaxCompute 2.0執行引擎的Code Generation模塊Load查詢計劃,並利用LLVM C++ API生成相應的機器碼。Code Generation模塊返回一個函數指針作為調用的入口。
- Worker通過調用Code Generation模塊返回的函數指針以完成計算邏輯。
與MaxCompute 1.0相比,MaxCompute 2.0中Code Generation速度有明顯提升。在1.0中,一個SQL的平均Code Generation耗時大概在2-3s左右,這個時間在2.0中被縮短到100 - 200ms。因為在2.0中Code Generation都在計算集群的Worker上完成,因此相對來說減輕了控制集群的壓力,有助於MaxCompute控制集群的穩定性。此外,因為MaxCompute 2.0的執行引擎是復用的(不因為SQL不同而不一樣),因此無需像1.0中一樣,在控制集群與計算集群之間傳輸動態庫,降低了控制集群與計算機群之間的網路負載。
後續工作
目前,MaxCompute 2.0 的執行引擎還是以Volcano Model為基礎。只是在Volcano Model中各個運算元之間以Batch模式傳遞數據,並且以列式執行的方式提高執行速度。基於LLVM的JIT Code Generation現在主要用在表達式計算,Streamline等熱點部分。之後,我們準備嘗試Full Stage的Code Generation, 類似http://www.hyper-db.com/。 有興趣的同學可以看看這個:http://www.vldb.org/pvldb/vol4/p539-neumann.pdf。 附件中的PDF結合了《資料庫系統中的Code Generation技術介紹》和本文的部分內容,有興趣的同學可以作為參考。http://www.vldb.org/pvldb/vol4/p539-neumann.pdf
本來選自阿里雲大數據產品專家「隱林」,擅長MaxCompute、機器學習、分散式、可視化、人工智慧等大數據領域。
推薦閱讀:
※從幫助特朗普勝選的公司CA談起,看中國大數據行業
※這家大數據公司,竟是英國脫歐與特朗普當選的背後功臣
※Facebook信息泄露事件影響重大引發大思考
※數據產品經理之道
※定位大數據分析平台,Kyligence憑開源優勢謀全球業務擴張
TAG:大數據 |