走過第六個雙11,雙11阿里雲技術負責人楊旭說:大考亦從容
楊旭,花名楊曦,這是他的第六個雙11。
從2012年開始,阿里雲通過雲計算技術為天貓雙11提供計算服務。
3年前,楊旭開始作為雙11阿里雲技術負責人,負責搭建全球最大的混合雲結構,把 「雙11」的電商業務和技術場景在阿里雲上實現,並保障這個混合雲在雙11當天能夠滿足全球客戶的購物需求。
11月11日晚上零點整,海量峰值如期而至,項目室里的每一個人都屏息靜氣的看著陡增的峰值。
幾個小時以後,第一波峰值順利度過,項目室里又恢復了喧鬧。
「每一年的雙11,都是一次趕考。」楊旭一邊喝可樂,一邊與記者聊了起來。
充分準備是成功的關鍵
阿里雲的技術支持,早在一年前就開始準備了。去年12月中旬左右,楊旭就籌備召開了阿里巴巴的2017的雙11策劃會,制定了工作目標,詳細到每個單元的產品和技術方案的驗證。通過多次測試,以及全鏈路的壓測,確保所有的方案和實施都能滿足雙11的業務需要。
在楊旭看來,這其中的每一項工作都關係到今年雙11的阿里雲表現,每一項工作都是一道考題。「特別是下半年壓測的時候,只有那麼幾次機會,如果不成功可能要影響整個雙11的項目結果,壓力大的時候,經常半夜睡不著覺,夢裡都在記錄解決方案。」
有一次遇到一個業務問題沒解決,擔心影響到雙11的交易成功率,整個團隊基本一個星期通宵處理問題,優化升級系統。楊旭說,為了支持這個項目,團隊很多同事也都犧牲很大。壓測期間,網路業務線抽調的一位同事整整48小時沒有睡覺,等解決完問題回家,才想起2天前準備給妻子過生日的蛋糕,還藏在卧室的衣櫃里,打開櫃門一看,蛋糕早已融化。有時候問題緊急,還常常請相關業務的同事半夜從家裡來現場支持。「阿里雲的雙11團隊,這是一隻鐵軍」,楊旭感慨的說。
從2012年的最小單元驗證開始,阿里雲不斷迭代優化,2017年,已經成長為「應用+存儲+緩存+資料庫+網路」的全業務上雲的混合雲解決方案,可以有效應對處理雙11這樣的脈衝計算。
雲化架構使多個數據中心像一台計算機一樣來管理,可以跨多個不同的平台來調度業務發展所需的資源,構建混合雲以極低成本拿到伺服器,通過混合部署大幅提升資源利用率,支撐系統容量。在今年雙11,阿里交易峰值再創新高達到32.5W筆/秒,這背後是靠雲化架構在支撐,得以真正實現彈性資源平滑復用、任務靈活混合部署。
有了阿里雲的保駕護航,楊旭表示,距離雙11的成功更近了一步。
談笑間方顯大將風範
早在今年9月底,楊旭就帶領隊伍進了阿里巴巴西溪園區的作戰室。11月9日晚上20點,在1號樓,阿里雲的雙11項目正式拉開帷幕。
在頂層的作戰室里,楊旭帶領著這個位於全球各地,共百餘人的隊伍,在雙11的24小時內保障了視頻雲、圖片雲、電商雲、金融雲、物流雲的正常運轉。
累了,團隊的同事就找個凳子,或者按摩椅睡上1-2個小時,這個時候,業務部門的就會有負責這塊工作的其他同事頂上,保證雙11期間阿里雲上所有業務都有人實時盯守。
「所有人都有人輪換,只有我是10號晚上八點進去,11號凌晨才能出來。」楊旭笑著告訴記者。「這不僅僅是阿里雲的項目,更是阿里巴巴的項目,還是全國人民,甚至全球人民的狂歡購物節,不能出一點差錯。」。
阿里雲的能力雖然讓楊旭信心十足,但今年的大考,又比往年更不容易。
零點將至,雖然有些疲憊,但楊旭似乎越來越有信心,甚至成為了項目室情緒的調動者。
「大家雙11的購物車都裝滿了嗎?」楊旭的這個問題,讓項目室里七嘴八舌起來。
一切似乎盡在掌握中,直到零點將至,氛圍開始變得嚴肅起來。
零點時分,大促正式開始,不斷的有人在小聲報出各個指標。
「水位正常!」
「資源正常!」
「核心鏈路暢通!」
這是最緊張的時刻,然而楊旭告訴記者。
「養兵千日,用兵一時,這個時候我是最放心的人。」
2017年天貓雙11購物狂歡節開場僅11秒交易就額破億,3分鐘突破100億,6分鐘超200億,24小時後成交額定格於1682億元。今年交易峰值32.5萬/秒,支付峰值25.6萬/秒,比去年增長超1.1倍,再次刷新全球紀錄。
在持續高壓力衝擊下,整個雙11期間阿里雲表現堅如磐石,各項技術指標也再次刷新世界紀錄。直播支撐了4000萬用戶觀看晚會,CDN提供了80T的訪問加速帶寬,混合雲提供了將近100萬的彈性計算資源調度,存儲提供了340P的圖片存儲和2.3萬億的文件,物流雲全天支撐訂單流轉8億+,ApsaraDB資料庫最高QPS達到554萬,HTTPDNS在承載上千億次日解析量的同時保持了平均10ms以下的低響應延遲……
這一串串華麗數字的背後,作為整個天貓商家的基石,阿里雲是如何保障在零點洪峰來臨時候穩定、安全和順暢?
楊旭認為,優秀的產品和技術是阿里雲制勝的法寶,舉幾個例子:
直播技術:窄帶高清2.0技術,用戶觀看質量上以360P帶寬可以達到480P清晰度,480P帶寬可以達到720P清晰度,同樣清晰度下帶寬節約30%,H.265相當比H.264為用戶節約30%帶寬。
計算能力:通過對虛擬化技術的優化,讓極限情況下虛擬機的計算能力和物理機保持一致,後續阿里雲將進一步挖掘產品的計算能力。阿里雲還推出了神龍伺服器,通過異構計算徹底將虛擬化損耗降為0。
實例存儲:通過結合SPDK+DPDK減少IO訪問路徑,可以將單機的IOPS提高到210w,滿足大計算、重IO的高端用戶場景。
CloudDBA產品:通過自動化,自助化小白診斷,實現物流雲等商家的全覆蓋,實現事務分析,TOP SQL,SQL Review,死鎖分析等全場景自動化,無論是給客戶,還是給阿里雲自己都節約成本,提升用戶體驗。
大數據:線下推出感知零售產品,通過數據化向智能化的轉變,讓數據也有情感,提升新零售的轉化率。
用最好的技術回饋社會
阿里雲的技術每年都在突飛猛進的發展,即便作為一名資深技術人員,楊旭每年也會被新的技術、新的產品所深深震驚,比如今年雙11阿里雲部署的網路產品,使用的規模非常大,對性能的支持力度很大,這在全球也是領先的水平。
「馬總說過,雙11是鍛煉技術的。我們雲上的技術方案,新技術的嘗試,新的產品都會先自己驗證,然後再給客戶用。特別是通過全球唯一的雙11這種極端環境對新技術壓測,還有每年多次大型活動和項目的錘鍊,讓我們的產品和技術都有最好的保證,然後我們會沉澱下來,放在公有雲上再提供給客戶使用。」 楊旭時刻謹記,在阿里巴巴客戶永遠是第一位的。
阿里雲的雙11混合雲架構,是全球最大的混合雲架構,具備極致的彈性調度管控能力,楊旭認為,這套成功的經驗可以快速滿足公司國際化戰略對全球資源部署的調度。
在楊旭看來,雲計算不是簡單的物理機虛擬化,更是一種計算和服務能力的體現,目前雲上的產品大多是阿里雲內部精華技術的沉澱,希望大家以一種開放的心態來用擁抱雲計算,大膽嘗試使用新技術,一定有意想不到的收穫
正是因為每個團隊在這幾個月里默默的努力和不放過每一個細節,才讓今年雙11變成史上最輕鬆的雙11。
「我們不僅完美的支撐的阿里巴巴的主戰場,也可以驕傲的說我們用最完美的技術支撐了全社會的狂歡,我們阿里雲客戶的狂歡!今年的雙11,非常完美」。在11月12日凌晨2點的阿里巴巴西溪園區,連續值守52小時後,楊旭順利完成了今年雙11混合雲的接入和保障任務,他揉著雙眼,輕鬆地笑著說。
技術擴展著商業的邊界,商業的效率,創造著生活的美好前行,雙11的技術能力,終將化為未來社會的常態。以阿里云為代表的雲計算行業,也已是社會的基礎設施,正如所有的超級工程一樣,一個個工程師們的努力,將異想天開的想像力變成了現實。這樣的故事在過去的一百年,兩百年,一千年,兩千年間不斷發生,才讓人類得以創造出任何生命都未曾創造出的奇蹟,這個奇蹟被人們稱為:文明。
原文
更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎
推薦閱讀:
※【逐雲】阿里巴巴通用計算平台負責人關濤:讓計算平台成為阿里的「水電煤」
※Spring Cloud在國內中小型公司能用起來嗎?
※iOS架構設計之」冗餘性」思考
※大的golang工程都是怎麼從0開始構建的,代碼又是怎麼組織的?
※哪些互聯網公司在使用領域驅動設計?
TAG:架构 |