AIBoost –人工智慧演算法迭代平台
摘要
機器智能,傳統機器學習或者是深度學習(例如,文本分類,文本生成,機器閱讀), 常常是學習一種輸入到輸出之間的映射關係f (i→o)。通常而言,演算法模型的初始構建和後續迭代,都需要大量的人工標註語料。在研究領域,不少的方法(例如,Bootstrap,遠程監督,遷移學習,zero-shot)被提出來緩解繁重的語料標註任務。然而,在工程實踐中,尤其是大規模的人工智慧實際應用中(大量演算法模型),這些方法要麼難以落地,要麼依然依賴於繁雜、零碎的人工勞動,缺少系統的平台和有效的工具支撐,效率和效果都存在很大的提升空間。
為了解決工程實踐中大量演算法模型的從0到1快速構建和不斷迭代優化的問題,我們推出了人工智慧演算法迭代平台 – AIBoost。該平台旨在打通 "數據 – 樣本 – 模型 – 系統" 的閉環,在數據分析、樣本標註、模型訓練/評測/部署等環節為阿里小蜜系列人機對話系統的構建提供強有力支持,以加速產品迭代周期。其中,數據分析環節從實際應用場景(產品)中迴流問題,並對機器人未解決問題進行預處理、相似度計算、聚類、主題提取等操作;樣本標註是指選擇標註語料、提供標註建議,協助業務人員進行標註;模型訓練/評測/部署模塊支持常用演算法模型的訓練、評測和部署。
伴隨著人工智慧產品的發展,阿里內部衍生出了一個新的工種 – 人工智慧訓練師,並且已經逐步推廣為業界的一個全新職位。人工智慧訓練師利用他們的領域知識和專業技能,使用AIBoost平台提供的工具,結合大數據,不間斷地「教育」機器,提高人工智慧系統的智能水平。通過我們的實踐,希望依託AIBoost平台,屏蔽演算法的複雜性,為智能社區貢獻大量領域專家,快速提升各種AI產品的智能程度 。
背景
阿里巴巴的阿里小蜜智能服務家族包含面向消費者的阿里小蜜/行業小蜜,面向商家的店小蜜,和面向企業的雲(企業)小蜜。其中,店小蜜在2017年的雙11達到了億級PV,幫助商家解決了大規模的用戶問題,大幅提升了服務效率。
- 阿里小蜜支持集團內部數十個BU(行業模型)
- 店小蜜支持電商領域的百十個行業類目和數萬商家(行業模型)
- 面向企業的雲(企業)小蜜(企業模型)
圖 1 阿里小蜜智能服務家族
在阿里小蜜家族發展的過程中,面臨著許許多多的問題:
- 上線時,每一個新業務(g., 健康,航旅,菜鳥)均需要單獨進行數據分析、樣本標註、模型訓練/評測/部署
- 上線後,大多數業務方都需要迭代的對其機器人進行優化,每一次優化過程都需要排期重走整個流程
- 每次迭代中,業務和演算法之間的協同常常以文件為主,伴隨大量重複的工作,效率低下,且存在極大的數據安全隱患,迭代周期較長
- 演算法人員之間缺少有效的溝通,演算法的復用度不夠,存在不少重複開發的情況,還有方法體系的差異性,難以有效統一
- 面對幾十個幾百個演算法模型時,數據量多且雜,人工分析量龐大,機器智能的訓練變得非常繁雜
針對這些問題,我們逐漸總結、沉澱、設計和實現了AIBoost平台,著眼於解決業務高速發展下的演算法模型快速上線,迭代調優,知識生產、加工和沉澱。
定位
- 目標
- 知識加工生產,沉澱知識體系(詞,QA,本體,圖譜)
- 訓練機器智能,提升機器人的解決率和覆蓋率
- 產品
- 專業版一面向阿里內部的BU
- 標準版一面向阿里外部的商家(千牛平台)和企業(阿里雲/釘釘平台)
- 私有版一面向KA企業/商家定製
- 用戶
- 人工智慧訓練師
- 演算法工程師
- 商家/企業
智能閉環體系 — AI Loop
AI Loop 如圖2所示,主要包含數據分析,樣本標註,模型訓練/評測/部署模塊,各模塊的輸入輸出簡述如下。
圖 2 AI Loop 框架
詳細的智能閉環體系如圖3所示,其中ODPS是阿里集團的大規模開放數據處理系統,IOpen是阿里小蜜家族的在線演算法組件部署平台。我們以正向循環(未解決問題的迴流)為例進行簡要說明:
- 原始數據從在線系統流入到ODPS,其中的機器人未解決問題經過數據分布分析、相似度計算、聚類分析、標註推薦等處理之後,同步到資料庫
- 業務人員通過AIBoost樣本標註工作台,從資料庫獲取符合條件的數據,並藉助AIBoost提供的智能輔助高效的對未解決問題進行標註
- 標註完成以後,業務人員可以通過訓練評測工作台合併新老樣本集合,並選擇相應的演算法進行訓練和評測
- 評測通過以後,演算法人員可以通過AIBoost把模型發布到到IOpen完成部署
圖 3 智能閉環體系: AI Loop
AIBoost的成功案例 – 店小蜜 AI Loop
店小蜜是內嵌於千牛客戶端一款人工智慧產品,旨在幫助商家回答顧客的諮詢,其客戶包含淘寶和天貓電商平台上面的廣大商家。目前,店小蜜主要按照行業和店鋪兩個維度進行切分:對於行業維度的高頻問題,通過建立場景進行解決;針對店鋪維度(店鋪獨有)的問題,提供自定義設置,支持店家根據自家店鋪的未解決問題配置相應的知識點。
- 行業維度
- 行業擴展
- 正向循環
- BADCASE 迴流
- 店鋪維度
- Top未解決問題
- 訓練師標註
- 測試窗
圖 4 店小蜜行業維度的智能閉環體系
平台化設計
- 復用演算法和功能模塊,快速響應業務需求,提高平台健壯性
- UI頁面,ODPS演算法,IOPEN演算法,AIBoost演算法組件化,針對新需求編排流程
- 主動觸發,靈活支持多維度數據分析
圖 5 AIBoost的平台化設計
核心演算法
- 文本向量
- 大規模相似度計算
- 大規模聚類
- 摘要/主題
- 主動學習
圖 6 AIBoost的核心演算法
價值
- 業務價值
- 支持小蜜家族業務快速發展
- 提升模型解決率
- 提高行業擴展效率
- 降低人工成本
- 數據和技術價值
- 數據閉環和安全
- 沉澱行業數據
- 沉澱系列演算法和專利
- 生態價值
- 孵化了人工智慧訓練師職業
- 業務參與AI數據閉環,解放部分演算法資源
圖 7 人工智慧訓練師生態
小結
AI Loop是在阿里小蜜家族的平台化實踐中,為了沉澱演算法、提高效率、縮短迭代周期而啟動的一個平台型項目。
AIBoost 不僅僅是一個標註工具,而是知識加工和智能訓練的平台。
- 線上化(數據安全)
- 平台化(靈活方便)
- 智能化(高效)
- 全渠道(阿里小蜜,店小蜜,企業小蜜……)
- 大幅降低人力成本
對於商家和企業開放生態體系,我們不僅希望授人以魚,賦能商家和企業,還希望如授人以漁,讓商家和企業可以自主的迭代和優化其人工智慧演算法,提升機器智能。同時,我們也在大力推動人工智慧訓練師生態的構建,為業界輸出工具和專業人才,為智能社區貢獻生態力量,以快速提高各種AI產品的智能水平。
作者:風奇
推薦閱讀:
※演算法工程師面試總結
※七本書籍帶你打下機器學習和數據科學的數學基礎
※K-means計算城市聚類
※科技特稿 | 凱西·奧尼爾:盲目信仰大數據的時代必須結束
※對稱的二叉樹