AIBoost –人工智慧演算法迭代平台

摘要

機器智能,傳統機器學習或者是深度學習(例如,文本分類,文本生成,機器閱讀), 常常是學習一種輸入到輸出之間的映射關係f (io)。通常而言,演算法模型的初始構建和後續迭代,都需要大量的人工標註語料。在研究領域,不少的方法(例如,Bootstrap,遠程監督,遷移學習,zero-shot)被提出來緩解繁重的語料標註任務。然而,在工程實踐中,尤其是大規模的人工智慧實際應用中(大量演算法模型),這些方法要麼難以落地,要麼依然依賴於繁雜、零碎的人工勞動,缺少系統的平台和有效的工具支撐,效率和效果都存在很大的提升空間。

為了解決工程實踐中大量演算法模型的從0到1快速構建和不斷迭代優化的問題,我們推出了人工智慧演算法迭代平台 – AIBoost。該平台旨在打通 "數據 – 樣本 – 模型 – 系統" 的閉環,在數據分析、樣本標註、模型訓練/評測/部署等環節為阿里小蜜系列人機對話系統的構建提供強有力支持,以加速產品迭代周期。其中,數據分析環節從實際應用場景(產品)中迴流問題,並對機器人未解決問題進行預處理、相似度計算、聚類、主題提取等操作;樣本標註是指選擇標註語料、提供標註建議,協助業務人員進行標註;模型訓練/評測/部署模塊支持常用演算法模型的訓練、評測和部署。

伴隨著人工智慧產品的發展,阿里內部衍生出了一個新的工種 – 人工智慧訓練師,並且已經逐步推廣為業界的一個全新職位。人工智慧訓練師利用他們的領域知識和專業技能,使用AIBoost平台提供的工具,結合大數據,不間斷地「教育」機器,提高人工智慧系統的智能水平。通過我們的實踐,希望依託AIBoost平台,屏蔽演算法的複雜性,為智能社區貢獻大量領域專家,快速提升各種AI產品的智能程度 。

背景

阿里巴巴的阿里小蜜智能服務家族包含面向消費者的阿里小蜜/行業小蜜,面向商家的店小蜜,和面向企業的雲(企業)小蜜。其中,店小蜜在2017年的雙11達到了億級PV,幫助商家解決了大規模的用戶問題,大幅提升了服務效率。

  • 阿里小蜜支持集團內部數十個BU(行業模型)
  • 店小蜜支持電商領域的百十個行業類目和數萬商家(行業模型)
  • 面向企業的雲(企業)小蜜(企業模型)

圖 1 阿里小蜜智能服務家族

在阿里小蜜家族發展的過程中,面臨著許許多多的問題:

  • 上線時,每一個新業務(g., 健康,航旅,菜鳥)均需要單獨進行數據分析、樣本標註、模型訓練/評測/部署
  • 上線後,大多數業務方都需要迭代的對其機器人進行優化,每一次優化過程都需要排期重走整個流程
  • 每次迭代中,業務和演算法之間的協同常常以文件為主,伴隨大量重複的工作,效率低下,且存在極大的數據安全隱患,迭代周期較長
  • 演算法人員之間缺少有效的溝通,演算法的復用度不夠,存在不少重複開發的情況,還有方法體系的差異性,難以有效統一
  • 面對幾十個幾百個演算法模型時,數據量多且雜,人工分析量龐大,機器智能的訓練變得非常繁雜

針對這些問題,我們逐漸總結、沉澱、設計和實現了AIBoost平台,著眼於解決業務高速發展下的演算法模型快速上線,迭代調優,知識生產、加工和沉澱。

定位

  • 目標
  • 知識加工生產,沉澱知識體系(詞,QA,本體,圖譜)
  • 訓練機器智能,提升機器人的解決率和覆蓋率
  • 產品
  • 專業版一面向阿里內部的BU
  • 標準版一面向阿里外部的商家(千牛平台)和企業(阿里雲/釘釘平台)
  • 私有版一面向KA企業/商家定製
  • 用戶
  • 人工智慧訓練師
  • 演算法工程師
  • 商家/企業

智能閉環體系 — AI Loop

AI Loop 如圖2所示,主要包含數據分析,樣本標註,模型訓練/評測/部署模塊,各模塊的輸入輸出簡述如下。

圖 2 AI Loop 框架

詳細的智能閉環體系如圖3所示,其中ODPS是阿里集團的大規模開放數據處理系統,IOpen是阿里小蜜家族的在線演算法組件部署平台。我們以正向循環(未解決問題的迴流)為例進行簡要說明:

  • 原始數據從在線系統流入到ODPS,其中的機器人未解決問題經過數據分布分析、相似度計算、聚類分析、標註推薦等處理之後,同步到資料庫
  • 業務人員通過AIBoost樣本標註工作台,從資料庫獲取符合條件的數據,並藉助AIBoost提供的智能輔助高效的對未解決問題進行標註
  • 標註完成以後,業務人員可以通過訓練評測工作台合併新老樣本集合,並選擇相應的演算法進行訓練和評測
  • 評測通過以後,演算法人員可以通過AIBoost把模型發布到到IOpen完成部署

圖 3 智能閉環體系: AI Loop

AIBoost的成功案例 – 店小蜜 AI Loop

店小蜜是內嵌於千牛客戶端一款人工智慧產品,旨在幫助商家回答顧客的諮詢,其客戶包含淘寶和天貓電商平台上面的廣大商家。目前,店小蜜主要按照行業和店鋪兩個維度進行切分:對於行業維度的高頻問題,通過建立場景進行解決;針對店鋪維度(店鋪獨有)的問題,提供自定義設置,支持店家根據自家店鋪的未解決問題配置相應的知識點。

  • 行業維度
  • 行業擴展
  • 正向循環
  • BADCASE 迴流
  • 店鋪維度
  • Top未解決問題
  • 訓練師標註
  • 測試窗

圖 4 店小蜜行業維度的智能閉環體系

平台化設計

  • 復用演算法和功能模塊,快速響應業務需求,提高平台健壯性
  • UI頁面,ODPS演算法,IOPEN演算法,AIBoost演算法組件化,針對新需求編排流程
  • 主動觸發,靈活支持多維度數據分析

圖 5 AIBoost的平台化設計

核心演算法

  • 文本向量
  • 大規模相似度計算
  • 大規模聚類
  • 摘要/主題
  • 主動學習

圖 6 AIBoost的核心演算法

價值

  • 業務價值
  • 支持小蜜家族業務快速發展
  • 提升模型解決率
  • 提高行業擴展效率
  • 降低人工成本
  • 數據和技術價值
  • 數據閉環和安全
  • 沉澱行業數據
  • 沉澱系列演算法和專利
  • 生態價值
  • 孵化了人工智慧訓練師職業
  • 業務參與AI數據閉環,解放部分演算法資源

圖 7 人工智慧訓練師生態

小結

AI Loop是在阿里小蜜家族的平台化實踐中,為了沉澱演算法、提高效率、縮短迭代周期而啟動的一個平台型項目。

AIBoost 不僅僅是一個標註工具,而是知識加工和智能訓練的平台。

  • 線上化(數據安全)
  • 平台化(靈活方便)
  • 智能化(高效)
  • 全渠道(阿里小蜜,店小蜜,企業小蜜……)
  • 大幅降低人力成本

對於商家和企業開放生態體系,我們不僅希望授人以魚,賦能商家和企業,還希望如授人以漁,讓商家和企業可以自主的迭代和優化其人工智慧演算法,提升機器智能。同時,我們也在大力推動人工智慧訓練師生態的構建,為業界輸出工具和專業人才,為智能社區貢獻生態力量,以快速提高各種AI產品的智能水平。

作者:風奇


推薦閱讀:

演算法工程師面試總結
七本書籍帶你打下機器學習和數據科學的數學基礎
K-means計算城市聚類
科技特稿 | 凱西·奧尼爾:盲目信仰大數據的時代必須結束
對稱的二叉樹

TAG:演算法 | 人工智慧 |