標籤:

阿里巴巴大數據之路-日誌採集

01、阿里巴巴的日誌採集體系方案包括兩大體系:

  • Aplus.JS是Web端( 基於瀏覽器)日誌採集技術方案;
  • UserTrack是APP端(無線客戶端)日誌採集技術方案。

02、瀏覽器的頁面日誌採集(Aplus.JS)

  • 頁面瀏覽(展現)日誌採集

顧名思義,頁面瀏覽日誌是指當一個頁面被瀏覽器載入呈現時採集的日誌。此類日誌是最基礎的互聯網日誌,也是目前所有互聯網產品的兩大基本指標:頁面瀏覽量(Page View,PV)和訪客數(UniqueVisitors,UV)的統計基礎。

在HTML文檔內植入日誌採集腳本的動作可以業務伺服器在響應業務請求時動態執行,也可以在開發頁面時由開發人員手動植入。在阿里巴巴,這兩種方式均有採用,其中自動方式的佔比較高。

  • 頁面交互日誌採集

當頁面載入和渲染完成之後,用戶可以在頁面上執行各類操作。隨著互聯網前端技術的不斷發展,用戶可在瀏覽器內與網頁進行的互動已經豐富到只有想不到沒有做不到的程度,互動設計都要求採集用戶的互動行為數據,以便通過量化獲知用戶的興趣點或者體驗優化點。交互日誌採集就是為此類業務場景而生的。

交互日誌呈現高度自定義的業務特徵(例如活動頁面的遊戲交互和購物車頁面的功能交互兩者截然不同)。在阿里巴巴,通過「黃金令箭」的採集方案來解決交互日誌的採集問題。

黃金令箭的步驟:配置元數據->業務方把交互日誌採集代碼植入目標頁面,並將採集代碼與需要監測的交互行為做綁定->當用戶在頁面上產生交互行為時,採集代碼觸發執行。

  • 頁面日誌的服務端清洗和預處理

A、依託演算法識別非正常的流量並歸納出對應的過濾規則集加以濾除。

B、數據缺項補正:例如,用戶登錄後對登錄前的日誌做身份信息的回補。

C、無效數據剔除:某些情況下,因業務變更或配置不當導致的無效數據。

D、日誌隔離分發:基於數據安全,某些日誌在進入公共環境之前需要做隔離。

03、無線客戶端的日誌採集(UserTrack)

無線客戶端的日誌採集採用SDK來完成,在阿里巴巴內部使用名為UserTrack的SDK來進行無線客戶端的日誌採集。無線客戶端的日誌採集和瀏覽器的日誌採集方式有所不同,移動端的日誌採集根據不同的用戶行為分成不同的事件,「事件」為無線客戶端日誌行為的最小單位。基於常規的分析,UserTrack(UT)把事件分成了幾類,常用的包括頁面事件(同前述的頁面瀏覽)和控制項點擊事件(同前述的頁面交互)等。

  • 頁面事件

阿里巴巴提供了對頁面事件的無痕埋點,即無須開發者進行任何編碼即可實現。對於手動方式埋點,UT提供了兩個介面分別用於頁面展現和頁面退出時調用(這樣可以得到停留時長),還提供了添加頁面擴展信息的介面。

為了節約計算和分析的成本,UT提供了透傳參數功能:把當前頁面的某些信息,傳遞到下一個頁面,甚至下下個頁面的日誌中。可以使用阿里SPM超級位置模型來進行來源去向的追蹤。

  • 控制項點擊及其他事件

和瀏覽器客戶端的日誌採集一樣,交互日誌也呈現出高度自定義的業務特徵。記錄了:基本的設備信息、用戶信息、控制項所在頁面名稱、控制項名稱和控制項的業務參數。

04、高級功能

  • 無線客戶端曝光日誌預聚合:可以利用無線客戶端的本地存儲進行曝光日誌預聚合。
  • 無線客戶端回退識別:由於無線客戶端存在明顯的回退行為,需要利用頁面生命周期,識別頁面的復用,配合棧的深度來識別是否是回退行為。

  • H5和native日誌統一

APP的native頁面採用sdk進行採集,而H5頁面採用基於瀏覽器的頁面日誌採集方案,因此目前這是兩套不同的方案,需要一種方式進行統一。阿里巴巴選擇將H5日誌歸到Native日誌的方案:H5頁面瀏覽->觸發JS腳本並搜集當前頁面參數->JS腳本將所採集的數據打包到一個對象中,然後調用WebView框架的JSBridge介面,調用移動客戶端對應的介面方法,將埋點數據對象當作參數傳入。

  • 設備標識

對於登錄用戶,可以使用用ID進行唯一標識,但是很多日誌行為並不要求用戶登錄,這就導致很多情況下採集上來的日誌都沒有用戶ID。阿里巴巴採用UTDID方案,但就目前的進展來說,UTDID還未實現其使命。

  • 無線客戶端日誌傳輸

無線客戶端的日誌傳輸,一般不是產生一條上傳一條,而是先存儲在本地,然後再伺機上傳。

05、日誌採集的挑戰

  • 日誌分流與定製處理:由於數據量巨大,儘可能早的進行分流。
  • 採集與計算一體化設計:對應於PV日誌的解決方案是SPM規範(在頁面的URL內可以看見SPM參數)和SPM元數據中心;對應於自定義日誌的解決方案是黃金令箭/APP端的日誌規範及其配置中心。

2016年的雙11,阿里日誌採集瀏覽等核心用戶行為日誌均實現了100%全量及實時服務,支持天貓所有會場的實時推薦。在雙11中,用戶的瀏覽、點擊、滾屏等每個操作行為,都實時影響到後續為其推薦的商品,很好的提高了用戶體驗。


推薦閱讀:

第三章:大數據技術在配電網中的應用(國內外現狀)
擁抱20餘家主機廠,彩虹無線提供車聯網全產業鏈服務
提高Spark姿勢水平 No.73
RDD論文翻譯:基於內存的集群計算容錯抽象
讀阿里巴巴中台戰略筆記

TAG:大數據 |