第四範式戴文淵：構建商業AI能力的五大要素

01-31

演講人 | 戴文淵
AI前線出品｜ ID：ai-front

過去解決一個AI問題需要經歷很長的步驟，而現在基於人工智慧平台，可以把中間過程簡化，只需要有清晰的業務目標和數據，直接實現最後的AI解決方案。

人類可能要窮其一生，才能從圍棋一段升到九段，無論如何，這是個漫長的過程。然而，機器卻能一下子到20段。機器是在什麼時候超過人類的？如果能讓機器寫出1000萬條以上的規則，在該領域機器就超越了人。

第四範式創始人、首席執行官戴文淵在《B-R-A-I-N：構建商業AI能力的核心要素》的演講中說了上述觀點，他表示，這個數字是理論依據的。

他介紹了相關的理論，介紹了人與機器思考的方式有什麼區別，為什麼有的地方機器能超過人類？需要哪五大前提，才能利用人工智慧技術提升產品或者業績。

以下為演講全文：

我今天想分享的是AI開始火了以後，很多公司都會感興趣怎麼用AI的技術能夠幫助企業提升業績，讓企業能經營得更好。

首先，讓我們來思考一下如何判定機器的智能程度？

對生物而言，腦容量比較大的生物會比較聰明。包括人自己，從一個原始人進化到早期或者晚期的智人，再到現代人是伴隨著腦容量的增加。

如何判斷機器智力水平？

計算機沒有腦容量可言，計算機必須要用數學的模型來建模。那業界是如何判斷機器的智力水平呢？

有兩位統計學家 Vapnik和Chervonenkis，他們提出了一個理論叫「VC維」。VC維反映了函數集的學習能力——維度越大則模型或函數越複雜，學習能力就越強。

當然大家可能覺得VC維太過數學了，那我們換一種方式理解——人怎麼解決問題？

我們總結規則。

比如牛頓三大定律，總結出了物理學三條規則。其實各行各業都有專家在總結業務的規律。

機器如果做這件事情，方式可能和人不一樣，機器會把所有的物理現象按照速度區間分成1000萬份或3000萬份，提取更多的規則出來。

這種情況下，甚至機器會做得比牛頓更好，因為牛頓定律在高速情況下不成立，而機器可以在高速的區間上提取出不一樣的規則，可以做得更好。

編者註：由牛頓定律為基礎建立的經典力學，只適用於宏觀、低速、弱力的場合。在高速（速度接近真空中光速C）、微觀（粒子角動量接近普朗克常數h）和強力（維繫原子核的約束力，強度~10^4牛頓）的情況下不適用，分別用相對論、量子力學和粒子物理描述。

其實，現在AI的商業應用場景就是在做這樣的事情——利用機器看數據，提取出比專家規則更多的規則數。

2009年我加入百度的時候，所有的搜索、廣告都是專家規則系統，當時規則數寫到了將近一萬條，都是資深廣告領域的業務專家寫出來的。後來，我們用機器分析數據，最後把廣告的規則寫出了1000億條，比人寫的一萬條做得更精細，所以最後帶來了四年八倍收入的提升。

現在這樣的方法已經應用到了各種領域。

比如金融領域的反欺詐場景，我們與一家銀行合作，原來規則數大概有1000多條，後來利用機器學習，幫其找到25億條規則，提升了預測成功率。此外，在個性化內容推薦領領域，現在很多企業學習今日頭條做個性化的內容分發，那如何才能做到個性化？本質上其實就是讓機器寫出來的規則數足夠多就可以了，過去由業務專家來定怎麼分發，就沒法做到個性化。

機器能可以在短時間內寫出來的海量規則，專家可能要30年才能寫出來。

這也就解釋了為什麼人在下圍棋的時候從一段到九段是漫長的過程，而機器能一下子到20段。如果能讓機器寫出1000萬條以上的規則，在該領域機器就超越了人。

我們會覺得有的時候好像機器比人強很多，有的時候機器比人弱很多，這是為什麼呢？其實就是因為有的領域機器能寫出比人多得多的規則，但是有的領域不行。

讓機器做得好的五個要素：B-R-A-I-N

怎麼能讓AI做好？我們總結了一下，一共有五個前提條件，概括來說叫做BRAIN。

第一是大數據（Big Data）。

我要強調的並不是說數據量越大越好，而是看你有多少有意義的數據，或者說「過程數據」。

這就像圍棋要看很多的棋局才能學會，並不是看每天的等級分排名或者新聞報道。

對於企業經營來說，我們要收集的是過程的數據，總的來說其實是請求、服務，再加上反饋的過程。

以推薦來說，這是一個訪問，當用戶訪問了以後我們進行推薦，用戶可能會接受，可能不接受，這樣的話就是一個過程數據。

需要多少個過程數據才能夠讓機器非常有把握做得比資深的業務專家好呢？1000萬。也就是說，訓練出一個優秀的AI模型，需要1000萬以上個樣本。

為什麼是1000萬？其實有理論的支持，即獲得圖靈獎的VALLIANT引理，我們可以將它理解為機器模型的規則數量和數據量要相匹配。如果機器寫出1000萬條規則才能超越專家，就要1000萬個數據。

第二是要有反饋（Response），而且反饋要數字化。

比如過去做內容推薦，目標是推薦「相關」的內容，但計算機無法衡量內容的「相關性」。所以現在，我們會把推薦目標拆解成點擊率、閱讀時長、轉發、收藏、投訴，雖然說這些指標並不完全代表「相關性」，但每一個指標都可以被度量，計算機可以理解，可以優化。

最後實際結果表明，在近似的目標上走得足夠遠，反倒比執著在準確卻無法達成的目標效果會更好。

第三是演算法（Algorithm）。

原來我們需要演算法專家做很深入的演算法研究，但演算法專家的數量畢竟是很少的。我們現在在探討一些新的方式，不僅讓演算法專家，讓普通的業務開發者也能操作演算法。現在已經可以實現讓一個業務專家經過一到兩個月的培訓，再加上一個機器學習平台，就能夠做出機器學習的模型。

當然平台會封裝掉有很多很複雜的工作，比如說要能支持萬億級別特徵的演算法、比如說實現自動特徵工程。過去為什麼做機器學習建模會難，就是因為要做特徵工程，特徵工程需要數據科學家磨鍊三到五年的時間，才能做出非常優秀的模型的效果。

現在，這個問題已經得到解決。年初，我們就在公司內部舉行了一場建模大賽，所有參賽選手均為商務、行政、人力等非技術人員，最終超過70% 的參賽組合AUC（編者註：AUC是衡量模型效果的專業指標，取值在0到1之間））成績超過0.8，這個成績可以與從業多年的資深數據科學家媲美。

第四、基礎架構（infrastructure）也是很重要的。

現在AI的流派主要是基於大數據和機器學習的，在大數據下其實是沒有簡單的問題的。

其實管理機器和管理人是一樣的，當你管理20團隊的時候，會出現一些問題，超過100人的時候又會出現一些問題，可能每天都會有員工請假等等。同樣的道理，超過100台機器去跑一個任務，每次跑任務都會有機器宕機。超過1000台機器的時候，會出現各種分配任務的不均衡，有的機器可能在跑，做了很多的事，有的機器閑著沒事幹，這都是很複雜的。當數據量大的時候就有架構問題，這甚至是不亞於演算法的難題。

1萬台機器遇到的問題則需要用冠軍級的人去寫出來的系統，還有支持萬億級的機器學習框架，難度也是很大的。我們也正在設計支持萬億級機器學習的架構，並把分散式計算、流式計算、高性能計算（超算）等能力都封裝於產品中，確保在大數據的場景下，計算能力隨數據量增加呈線性增長，實現系統時間成本與計算成本的可控。

最後一點很重要的就是需求（Needs），也就是要有清晰的問題定義（單一目標、有邊界）。

現在AI只能解決單一領域的問題，一個有邊界的問題。比如說AlphaGo下象棋沒有下贏了，大家不會覺得它不行，因為你對它的期望就是下圍棋。

但業務問題通常都是多目標優化的。實現多目標優化可以通過拆解的方式，就像做企業的KPI也需要拆解成不同的目標，這時候對各個目標進行單一目標優化，最後組合起來達到多目標優化的方式。

總的來說，其實在商業領域應用AI，其實就是在業務目標清晰的前提下，把模型的維度做高。

說一個更容易理解的方式：過去由業務專家制定出成百上千條規則，今天則要由機器讀數據，寫出上千萬甚至上千億條規則。要實現這個目標，需要滿足五個前提條件，但其實這是很有難度的。

第四範式解決的就是如何降低人工智慧商用門檻的問題。過去解決一個AI問題需要經歷很長的步驟，而現在可以把中間過程簡化，只需要有一個業務目標和數據，可以直接做出AI解決方案。

五六年前想做個性化推薦，都是很大的工作量，但現在技術帶來了開發成本的大幅度下降，以及企業運營效率的快速提升。

－全文完－

關注人工智慧的落地實踐，與企業一起探尋 AI 的邊界，AICon 全球人工智慧技術大會火熱售票中，8 折倒計時一周搶票，詳情點擊：

http://t.cn/Rl2MftP

《深入淺出TensorFlow》迷你書現已發布，關注公眾號「AI前線」，ID：ai-front，回復關鍵字：TF，獲取下載鏈接！