標籤:

「刺激的」2017雙11 阿里安全工程師首度揭秘智能風控平台MTEE3

「太刺激了,太刺激了!如果那個48%真出問題,整個安全部的雙11就可能是3.25!」知命推了推眼鏡,語速明顯快了一些。伴隨著肢體語言,知命表現出來的是程序員解除了重大Bug時的那種興奮與激動。

用這部IMDB評分最高的電影向阿里安全的工程師致敬

MTEE3是什麼?那個48%又是什麼鬼?

知命,阿里安全業務安全產品技術高級專家,智能風控平台MTEE3的技術負責人。這一切,他向我們和盤托出。

MTEE3,性能、智能雙重加持

MTEE3的中文名稱叫業務安全智能風控平台,最後面的3代表這是全新一代的3.0系統。這套系統的功用是為阿里經濟體的各類核心業務提供賬號安全、黃牛刷單、活動反作弊、內容安全、人機識別等幾十種風險的防護與保障。據悉,在2017天貓雙11當天,MTEE3處理了超過300億次的業務風險掃描,掃描峰值超過200萬次/秒,這組數據在全球來看也是獨一無二的,同時也證明了系統的性能非常強悍。

為了便於我們更了解,知命先做了業務安全的概念普及。

「MTEE3是業務層的安全防控平台。」知命向筆者解釋道。據知命介紹,從業務層來看,傳統的安全威脅,如盜號、垃圾賬號(通過機器批量申請的帳號)等,對於網站的正常運營是有影響的。黑灰產利用這些賬號來搶紅包、薅羊毛。

「防羊毛黨,我們叫營銷反作弊;還有就是黃牛黨,我們的平台有很多熱銷產品,比如酒水、手機等;還有識別機器行為的人機防控;還有就是內容方面的防控。這些都是在網路層以上的,我們叫業務安全。」知命說。

據介紹,阿里的業務安全,基於大數據實時分析建模技術,通過每個用戶行為背後數千個數據指標的實時計算,利用規則引擎、模型引擎、關係網路、團伙分析、設備畫像、語義分析、機器視覺等技術對風險進行快速有效的防控,而運行的平台就叫MTEE3。MTEE3上部署了大量的規則和模型,為阿里經濟體多個業務提供防護。「我們將用戶的行為稱為『事件』,比如用戶的註冊、登錄、修改基礎信息、聊天、下單、支付、發貨、收貨、評價等等,每個行為點上我們都會去進行防控。」知命告訴筆者,正是因為進行全鏈路的防控,所以MTEE3能夠「輕易地」識別出惡意賬號等。

MTEE3的「輕易地」還包含了其毫秒級的響應能力,今年雙11,MTEE3將下單環節的風險掃描控制在10毫秒左右,用戶幾乎無感知。

綜上所述,MTEE3的性能是非常強大的,但除此之外,它還具備了智能的特性。對此,知命也進行了詳細的解釋。

對於正常的用戶、機器賬號,抑或是黃牛,MTEE3會分析很多的變數(指標),然後綜合進行判斷。這些變數有多個維度,這些維度包括有賬號、設備、環境、內容以及用戶的行為等。

「MTEE3對這些信息進行實時的計算和分析,而且這個過程需要在極短的時間內完成。」知命說。

知命表示,MTEE3都是基於信息流的計算,它並不是將所有的數據保存下來,然後再通過資料庫去查詢,因為這樣效率會非常低。阿里安全的工程師賦予MTEE3的是一邊計算一邊存儲的模式,經過計算後,得出結論,然後將結果返回給交易,最後再存下來。「MTEE3其實具備的是流式計算的能力。」知命說。

知命告訴筆者,基於規則和模型的安全防控,基本上歷年都在用。而今年安全策略中心團隊在雙11智能化上的突破,是全新啟用了決策天平,利用機器學習演算法進行智能化決策,並在雙11中使用,首戰告捷。決策天平綜合考慮風險防控、用戶體驗、商業考量等多方面因素,利用全局尋優演算法計算當前最優解,並考慮到風險分布的變化,利用強化學習對最優解進行修正,產出下一時刻的風險處置決策,通過系統自動化執行決策,同時利用實時計算做到了秒級的決策方案更新。決策天平打造了未來風控模式的雛形。

「刺激的」2017雙11

對於知命和他的團隊來說,2017年的雙11是相當「刺激」的。

首先,他們要解決性能的問題。如果只是簡單地疊加資源,比如增加伺服器數量,這個問題看上去似乎也不是那麼的難。然而,事實卻是,知命面對的是資源的增長只有那麼一點點,但要求的指標,比如交易峰值,卻是要比去年雙11翻倍。

這個問題怎麼解?

阿里安全的工程師對計算引擎進行了完全重寫方式的改造,目的就是讓它算得更快,性能提升100%有餘;同時,對策略體系的部署進行優化;而與其他安全防護層,比如網路層,進行實時聯動,提升整體的效率。

另外,2017雙11,安全策略中心團隊和產品技術團隊一起針對策略體系也進行了重構改造,建立起層次化、體系化的策略架構,去除策略孤島,規則和機器學習模型有機組合,築起全新的防控大壩,提升對風險的覆蓋率和精準度。

知命告訴筆者,由於補貼方案到最後兩天都還會有變更,因此相應的策略、模型和規則等都會產生實時的變化,同時,黑產從哪裡來,這個也無法確定。這三方面的「不確定」,讓阿里安全的技術團隊承受著極大的壓力。

然而,知命和他的團隊還是提出了解決方案。「由於這些不確定性,所以我們今年決定要容忍一些變化。特別是計算引擎,我們希望在策略變化的前提下,系統的性能是能保證的,資源消耗要在同一量級,而不是說線性增長。」知命說。據介紹,MTEE3項目團隊做了相當多的工作,比如,將規則引擎、模型引擎進行重構改造,特別是規則引擎全部重寫。經過改造之後,MTEE3的性能成倍增長。

「我們做這個項目,雙11是個重要的節點,但並不是只為了它,更是要為未來做準備,是為了策略的重構做升級。計算引擎一直在運行,運行過程中進行升級,相當於是給飛行中的飛機換引擎,這是相當大的挑戰。」知命說。

實際上,MTEE3是2017年3月份才上線的。但是,到618的時候並沒有被應用,而99酒水節才是真正意義上的實戰檢驗。而這次之後,就是雙11了。

我們非常好奇,雙11前夕,知命和他的團隊是怎樣的狀態和節奏?

11月8日,MTEE3接到最後一個需求變更。這個時間點,原本是不再允許接受新的需求變更了,但經過各個Leader的綜合判斷,這個變更必須進行。

11月9日晚上十點的時候,知命和小夥伴們還在反覆地測試MTEE3。到了11月10日早上七點,反覆測試多輪,所有功能點終於全部驗證完畢。

一切看上去似乎風平浪靜。

然而,早11月10日零點的時候,又發現了一個「大問題」。「安全策略工程師發現:下單場景下,安全防控策略存在48%的防控攔截失敗?最大的挑戰在於阿里安全的工程師不確定究竟是所有策略出了問題,還是只有一條策略是這樣。但此時,距離2017雙11已經不足24小時。」知命說。

「本來大戰前1天是希望大家休息一下了,但還是趕緊把所有人叫起,排查這個問題。」知命說,「最後搞到11月10日凌晨三點多,幸好最終查證是虛驚一場。這個是真的非常刺激!」

MTEE3保護著上億的資金,如果雙11當天,這48%攔截失敗,後果無法想像。「今年跟以前不一樣,今年是前期的準備壓力特別大。特別是那個48%,太刺激了,太刺激了。如果這個沒防住,整個安全部的雙11就可能是3.25!」知命說。

直到11月10日晚上,知命還在和策略中心團隊對焦重點防控人群的問題,而最終敲定具體的策略已經是當晚八點多鐘。

但真正到了11月11日零點的時候,負責MTEE3系統的工程師反而放鬆下來。「去年,我們整整待了36個小時,加上跨境,一共是38個小時。今年,待到晚上2點多,很多同學就已經可以回去睡覺了。」知命淡淡地說到。

原文

更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎


推薦閱讀:

《2017中國開發者調查報告》重磅發布!代碼譜寫傳奇,深度揭秘中國開發者現狀!
我國在協作型機器人安全方面有哪些法律規定?
在家時發現有人在撬自己家門時應該如何應對?
如何正確看待警察這個職業?
阿里雲發布首款全球智能互聯的網路產品——雲骨幹網

TAG:安全 | 性能 |