如何評價阿里雲的飛天?


謝邀!

反覆看了幾遍,確實完全沒看懂,只是隱隱感覺,作為同業者,胸前的紅領巾更鮮艷了


看到有這麼多小夥伴關注飛天系統,小編感到很欣慰。分享一篇阿里雲首席架構師的文章,其中有唐洪對飛天的介紹,感興趣的小夥伴可以詳細讀一讀:阿里雲首席架構師唐洪:擁抱開源的雲端更具生命力

他在文中說到:

我們來看一下 Apsara的發展歷史。2009年初我們開始研發這個雲計算的底層操作系統,當時稱它為飛天(Apsara);2010年8月27日,飛天成為了阿里巴巴集團內部的雲基礎設施,在這個雲基礎設施之上我們開始支持一些業務應用,包括全網搜索,網路郵箱,還有圖片儲存和微貸支付(當時該業務還在阿里巴巴集團下,現在已經單獨拆分為螞蟻金服集團)。

第三部分, 2013年8月15日,我們發布了飛天集群5K項目,為什麼叫5K呢,因為就是要突破集群中五千台伺服器這個技術瓶頸,這也讓阿里巴巴成為國內第一個獨立研發和擁有大規模通用計算集群平台的公司。因為在2009年的時候,當時我們知道Google的單伺服器集群管理的最大節點數大約是5000。所以這就是為什麼我們覺得需要設定5K這麼一個非常具有挑戰性的目標,就是在技術上,我們的計算集群至少要做到5000個節點的量級。最開始我們計劃是在2010年年底達到這個目標,但是事實證明實現過程比我們想像的難的多,直到三年後我們才真的實現了。

那麼在實現這個目標的一段時間之後,我們設定的新的技術里程碑就是,除了要掌握這種基礎技術之外,我們的系統還應該比其他系統做的更好。所以在2015年的Sort Benchmark排序競賽上, 阿里雲用不到7分鐘(377秒)就完成了100TB的數據排序,這在當時打破了世界紀錄。

那麼問題來了,現在阿里雲究竟是什麼樣的一個規模和狀態?我們到底做了哪些技術上的創新?下圖我們看到的是一個規模迅速擴張的阿里雲基礎設施分布圖,它是什麼樣的呢?首先,我們數據中心是按照地域來組織,尤其是在具體地區裡邊有這樣一個網路,我們管它叫做Transfer network轉移網路。另外,還有一個骨幹網路,這是一個數據中心之間的網路,我們怎麼樣和用戶,用戶如何和我們數據中心進行連接的這樣一個骨幹網。

今天的阿里雲數據中心可用地區全球分布,在大陸我們有6個地區,華北區3個,華南區1個,還有華東區兩個,此外我們還有11個海外地區,分布在北美、歐洲和東南亞等地;另外我們有超過600個PoP節點,總共20TB/s的帶寬處理能力。下面這張幻燈片顯示出我們阿里飛天超大規模雲計算操作系統的架構圖,最底層的就是我們各個地區的數據中心。

在數據中心之上我們還有四個紅框標準出來的模塊,這些是構建分散式系統的最基礎的組件,比如說分散式協同,還有安全管理,日誌收集、監控、預警、追蹤、診斷等等都在這一層。在這層之上,我們有兩大系統,其中一個叫做盤古,負責存儲管理,另一個叫伏羲,負責分散式的資源管理。實際上通過這兩大管理系統,所有的數據中心裡的計算、存儲和網路等資源都可以作為統一的資源,進行調度、管理和存儲等操作。在右面還有一個叫天基,負責基礎設施管理和服務管理,大家可以看到,這是飛天系統里非常底層但也是非常重要的一部分,因為它實際上上面連接應用層,下面管理最底層的數據中心等硬體設備。所以它的重要性就是負責服務部署,擴展及伺服器監控等,比如一些伺服器有問題的時候,可以迅速找到並馬上關掉它,然後下線分離它並把它單獨處理。

然後,在這個紅色的基礎設施管理和資源管理層之上,就是我們的租戶管理系統,主要有認證,還有授權、監控和計費等功能。在這之上,則是打包好的各種應用系統服務和調用,包括四大類:計算、存儲、資料庫和網路;另外還有各種中間件、服務協同及Serverless 計算等;此外我們還提供一些高級的服務功能,包括各種數據智能化服務,比如BI、AI和機器學習等,另外還有一些安全的服務。再上邊那些橘黃框里的功能,實際上是提供數據交互服務的,比如說數據遷移,資料庫同步,還有內容分發(CDN),還有高速通道,這是構建混合雲的核心組件,能夠讓租戶的自有機房和他們在雲上的虛擬私網打通 。

最後,大家可以把最上面綠色的那部分看作雲的應用層,我們管它叫做「雲市場」。我們把這個Apsara稱作為一個超大規模的雲計算操作系統,之所以叫做操作系統的原因就是,實際上Apsara和一個單機的PC操作系統其實是很相似的。 最底層都是硬體,紅的那層對應的是內核,在內核之上,今天所有的PC都是多用戶的,有賬戶管理模塊。 所有的這些藍色的雲服務對應於一個PC操作系統的系統調用、系統服務和原生應用。最後大多數的現代的操作系統,都有一個應用(Apps)商店。

接下來,我想簡單地介紹一下阿里雲飛天操作系統Apsara的設計亮點。首先,Apsara的目標是建立一個通用型的計算平台,在這個平台上各種不同的應用和關鍵應用都可以跑起來,無論是低延遲任務還是批處理任務,我們需要這麼一個混合型的計算平台來運行所有的這些應用。第二,在2013年達到5K目標後,我們並沒有止步,今天Apsara Cluster集群管理超過1w個節點,超過上百PB的存儲,以及10萬CPU核心。在整個的Apsara的設計過程中,我們從設計上就確保系統不會出現單點故障,且保證高於99.95%的服務可用性。另外,Apsara所有的數據存儲都是默認三重備份,其中數據可用性達到10個9的水平,另外Apsara系統所有的監控、診斷和部署都是完全分散式的。最後,飛天安全管理嵌入在飛天內核最底層,並且使用基於權能的安全管理框架,真正有效實施「最小化許可權」原理。我們管它叫做最低TCB(可信基),通過基於最小可信基原則,我們構建一個安全的系統 。

我想對5K再展開說一下 。大家知道在這個世界上並沒有那麼多的商業化集群系統能夠達到5K規模的。所以這個規模對於阿里雲來說是非常重要的。另外在阿里巴巴集團內部,因為有了5K,Apsara在規模上第一次超過了Hadoop集群,所以我們決定將內部更多原先放在Hadoop平台上進行的數據處理統一到飛天平台上面,這就是「登月計劃」,將阿里巴巴所有的核心業務的數據處理遷移到Apsara平台上面運行。2014年7月1號MaxCompute正式對外開放,這是一個基於Apsara計算能力的平台,這也標誌著阿里巴巴成為世界上第一家對外公開提供5K處理能力的公司。很多公司可能有這樣一個計算能力,但從來沒有把它當作公共服務開放給社會。

另外,5K能力的對外提供公共服務,以及對這種技術的掌控,帶來的影響力超出了我們的想像,我給大家一個例子。在MaxCompute正式發布之前我們舉辦了一個天池大賽,賽題主要是將阿里巴巴真實業務場景數據通過脫敏後提供出來,讓參賽隊伍來預測未來產品的銷量。這次天池數據大賽居然吸引超過7000個來自全球各地的團隊參加,甚至其中351個團隊是來自於中國大陸以外。而這樣的比賽在其他會議上也有,比如KDD上也曾舉辦過,但參賽隊伍數量遠低於此,這是非常令人驚喜的。

接下來這一頁PPT,可以顯示出我們產品系列的全面性。因為時間原因,我就不細說了。


飛天當初也是bug重重 畢竟是從底層一行行c++壘起來的海量代碼 集團內部很多人一直唱衰飛天 提到飛天皺眉頭 所以才有了雲梯一(Hadoop)和雲梯二(飛天)並行開發上生產的情況 飛天能做下來很重要就是博士的堅持和力推 強推飛天給阿里金融用 這比用成熟社區的hadoop難多了 bug也多 阿里金融(螞蟻金服前身)的人怨聲載道 中途也有一些同學放棄離職 記得當時內網上有同學說感覺自己剛畢業就能做砸一個十億的項目也是挺屌的 可也是在一聲聲的抱怨中飛天的bug被撞出來 被解決 之前飛天各個模塊之間的耦合性非常大 比如伏羲release新版本 可能導致整個飛天不可用 所以測試的同學是很辛苦的 要對不同版本的模塊組合分別做集測 壓測 性能測 飛天有今天不容易 打磨如此大規模的代碼需要耐心和恆心 09年的飛天到今天已經7歲了

我一直很喜歡阿雲的對聯 今天看來確實很貼切

代碼成就萬事基積沙填海

夢想總在凌雲意意氣風發

祝願阿雲越來越好


作為一個雲計算愛好者....我把百度來的資料給你拼了一份-------拿走不謝。

飛天(Apsara)是由阿里雲自主研發、服務全球的超大規模通用計算操作系統。

它可以將遍布全球的百萬級伺服器連成一台超級計算機,以在線公共服務的方式為社會提供計算能力。

從PC互聯網到移動互聯網到萬物互聯網,互聯網成為世界新的基礎設施。飛天希望解決人類計算的規模、效率和安全問題。飛天的革命性在於將雲計算的三個方向整合起來:提供足夠強大的計算能力,提供通用的計算能力,提供普惠的計算能力。

l 飛天管理著互聯網規模的基礎設施。最底層是遍布全球的幾十個數據中心,數百個PoP節點。飛天所管理的這些物理基礎設施還在不斷擴張。

l ? 飛天內核跑在每個數據中心裏面,它負責統一管理數據中心內的通用伺服器集群,調度集群的計算、存儲資源,支撐分散式應用的部署和執行,並自動進行故障恢復和數據冗餘。

l ? 安全管理根植在飛天內核最底層。飛天內核提供的授權機制,能夠有效實現「最小許可權原則(Principle of least privilege)」。同時,還建立了自主可控的全棧安全體系。

l ? 監控報警診斷是飛天內核的最基本能力之一。飛天內核對上層應用提供了非常詳細的、無間斷的監控數據和系統事件採集,能夠回溯到發生問題的那一刻現場,幫助工程師找到問題的根源。

l ? 在基礎公共模塊之上,有兩個最核心的服務,一個叫盤古,一個叫伏羲。盤古是存儲管理服務,伏羲是資源調度服務,飛天內核之上應用的存儲和資源的分配都是由盤古和伏羲管理。

l ? 在基礎公共模塊邊上,還有一個服務,叫做天基。意思是「飛天的基礎」。天基是飛天的自動化運維服務,負責飛天各個子系統的部署、升級、擴容以及故障遷移。

l ? 飛天核心服務分為:計算、存儲、資料庫、網路。

l ? 為了幫助開發者便捷地構建雲上應用,飛天提供了豐富的連接、編排服務,將這些核心服務方便地連接和組織起來,包括:通知、隊列、資源編排、分散式事務管理等等。

l ? 飛天接入層包括數據傳輸服務,資料庫同步服務,CDN內容分發以及混合雲高速通道等服務。

l ? 飛天最頂層是阿里雲打造的軟體交易與交付第一平台------雲市場。它如同雲計算的「App Store」,用戶可在阿里雲官網一鍵開通「軟體+雲計算資源」。雲市場上架在售商品幾千個,支持鏡像、容器、編排、API、SaaS、服務、下載等類型的軟體與服務接入。

l ? 飛天有一個全球統一的賬號體系。靈活的認證授權機制讓雲上資源可以安全靈活地在租戶內或租戶間共享。

l ? 七年實踐,飛天已經建立一個完善的雲產品體系。同時還能提供互聯網級別的租戶管理和業務支撐服務。

飛天操作系統的核心競爭力和核心能力

l 自主可控:對雲計算底層技術體系的把控力,自主研發,自己解決核心問題。

l 調度能力:10K(單集群1萬台伺服器)的任務分散式部署和監控。

l 數據能力:EB(10億GB)級的大數據存儲和分析能力。

l 安全能力:為中國35%的網站提供防禦。

l 大規模實踐:經受雙11、12306春運購票等極限並發場景挑戰。

l 開放的生態:兼容大多數生態軟體和硬體,比如CLoudfudry、Docker、
Hadoop。

飛天操作系統解決的問題

l 算得起:客戶的計算成本問題,即開即用,零capex,零基礎運維人員投入,計算資源彈性擴展,降低opex

l 算得快:客戶的計算規模瓶頸問題,以及客戶應用的實時性問題

l 算得准:客戶應用的數據智能問題,讓小客戶具備和大公司一樣的數據智能的能力

l 高可用:客戶應用的業務連續性問題,客戶的服務可以部署在多個region,並支持靈活多樣的數據同步機制,打造高可用系統

l 安全性:安全管理根植在飛天內核最底層,還建立了自主可控的全棧安全體系

l API經濟:讓開源產品、ISV、SI、和雲SP能夠有效協同為客戶提供服務


不說系統,這篇文章簡直可以用狗P不通來形容。

要介紹一個技術,首先要介紹它要解決什麼問題。文章一開始貌似要說計算體量大的問題,結果莫名其妙地去扯NP Complete的背包問題和非對稱加密,搞得讀者還以為阿里去研究量子計算了。

其次,作為一篇介紹系統的文章,重點就是說明白和以往技術比有何異同。作為一個雲作業系統,重點就要比較資源管理系統和Borg, Mesos, YARN比有何優勢,計算框架和Spark, Flink比有何優勢,容器和Docker比有何優勢,存儲系統和Colossus比有何優勢。讀完這篇文章後除了知道飛天支持5000台以上機器外一無所知。

以後這種毫無信息量的文章就不要拿出來現眼了,簡直把開發人員的臉都丟光了。


不嚴謹的給女朋友解釋了一下這個飛天是幹啥的。

操作系統的操作系統。

比如你的電腦,一套硬體,上面運行這一套操作系統,就是Mac OS。

你打開的每一個軟體,微信、瀏覽器、記事本,還有你們公司開發的Saas系統……都運行在操作系統之上。

雲服務是啥呢?就是不賣一個硬體給你了,而是直接賣一個正在運行的操作系統服務給你。你就像用自己的電腦的系統一樣,在這個操作系統上運行你的程序。

那這個雲服務也要有一個系統來支持,讓賣出去的操作系統一個個都運行在這個系統上。而且這個系統不是運行在一個硬體上的,而是運行在全球各地很多個硬體連成的網上的。

這個技術沒有開源的,阿里是國內第一個做的,所以就完全自主設計的。很低層的東西,考驗哲學功底,相當於要建立起一套正確的規則,讓一切運行在這之上的事物都能正確的運轉。

這個就是那天說的,王堅博士,他做的哲學理念層面的架構設計。


阿里的技術品牌宣傳做的非常到位。


飛天和Hadoop是用來搭建分散式伺服器的。

我們的計算機性能歸根結底還是取決於計算能力,你買的i7,高端顯卡都是為了獲得更強的計算能力,更快的計算速度。

同樣解壓一個60G的遊戲,在7代i7的機子上要5分鐘,而i3的機子可能要半小時。這就是計算力的差距。

對於阿里這樣的公司,他們旗下的淘寶天貓需要的計算力可不是一台機子能解決的。你回想一下雙十一的瘋狂,就能理解,阿里的伺服器壓力必然是個天文數字。

這種情況下,一台機器的運算力不足以解決巨大的運算需求,怎麼辦?不難想到,可以用多台機器來合力計算。

那麼就會出現很多問題,諸如,怎麼分配任務?合力的機器之間怎麼配合?如果某個機器意外當機了,怎麼才能讓同組的其它機器不受影響?

這些問題在小規模集群里解決起來就已經很難了。用小學生寫作業來類比,老師布置任務,小學生寫,第二天早上組長收作業,把沒交作業的人記下來,老師判作業,批評不交作業的同學。還存在可能性,某個不交作業的同學和組長關係好,組長沒有記他,老師要有辦法察覺。

可見,管理只有七八人的小集群,也決不是一件輕鬆的事情。

那麼13年就能管理分布於世界各地的5000台機器的飛天究竟多強呢?

沒辦法衡量!我無法評價一個抬頭望不見腰的巨人究竟長多高。


老夫認為任何不用代碼或公式說話的技術分享都是耍流氓


暫時還沒發現他的實在意義,你說他解決堵車吧,有空看看杭州地圖實時路況,該紅的還是紅,你說他在這方面發展,還沒徹底解決問題,在我看來,沒解決就是沒解決。但說句真心話,堵車後你能快速根據路況調整疏通,我已經很滿意了。


我今天晚上在雲棲社區有一個直播,介紹飛天的底層存儲-盤古,盤古:阿里雲飛天分散式存儲系統實踐,希望能幫助大家從一個側面了解飛天。


反正就是搞了個大多數人都不懂的操作系統,可能很牛逼吧,但是我不懂。我只知道現在阿里雲該宕機還是宕機,對於我來說並沒有什麼影響。我只是希望我的伺服器能保質保量地為我服務,而不是你們想盡各種辦法超售。

所以,說到底,這東西牛逼,有啥用?


阿里雲一步一個腳印,越走越牛。


推薦閱讀:

阿里雲發布的量子分身Me2有可能實現嗎?
你需要了解的未來技術趨勢——Serverless怎樣改變未來架構?
如何看待阿里雲CDN降價對行業帶來的影響?
同樣是雲存儲的又拍雲和七牛,為什麼價格差那麼大?
阿里雲的大數據平台「數加」厲害在哪裡?

TAG:雲計算 | 阿里巴巴集團 | 阿里雲 | 阿里云云棲社區 |