標籤:

第四範式戴文淵:商業公司構建AI能力的五大核心要素

以下文章根據第四範式創始人戴文淵在「華興·湃」論壇的主題演講整理而成。他用統計學的VC維理論闡釋了AI能力的構建,認為一家商業公司構建AI能力需具備五個核心要素,並結合實戰經驗對各個要素逐一拆解。

精華觀點:

一個垂直領域,如果能用機器基於數據寫出超過1000萬條業務規則,那麼一個資深的業務專家,基本上沒有辦法比機器強。

對於一家商業公司來說,構建AI的能力有5個核心的要素,分別是Big data(大數據)、Response(持續的反饋)、Algorithm(演算法)、Infrastructure(計算能力)和Needs(明確的需求),合在一起就叫做Brain。

有意義的大數據叫過程數據,一個優秀的AI模型需要約1000萬以上過程數據的樣本。模型越大,需要的數據量越大。

反饋最關鍵要做到兩點:第一點:數字化反饋,即反饋是可被度量的。第二點:持續不斷的反饋。

以下是演講實錄:

用VC維理論構建AI方法論

我們在學術領域研究機器智能,是基於統計學來構築AI整個方法論。統計學裡最重要的理論叫VC維理論,為什麼叫VC維?是因為這兩個科學家提的,一個姓V一個姓C,各取一個首字母,叫VC維。

VC維反映的是什麼?結論就是,如果一個機器模型,他的VC維越高,這個機器的模型會越強。VC維不只能刻畫機器的智能,還能刻畫生物的智能。人腦的VC維也能算出來,大概是多少、約等於大腦腦細胞個數,前面可能只差一個常數項。

未來無論人的智能還是機器智能,都可以套在VC維理論的框架下解決。企業構建AI能力,就是要不斷把VC維做大。

機器和人誰更強?1000萬條規則是個門檻

以牛頓三大定律為例,牛頓是物理學專家,他看了很多物理的自然現象,最後總結出三條規則。如果機器做牛頓的事,他會把整個自然現象按照速度分成3000萬個區間,然後在每個區間里總結出三條定律。

目前的人工智慧的應用,都是由機器來總結規律,由於機器不知疲倦,所以能夠做得更細、達到更好的效果。現在我們也在思考如何把這樣的技術應用到各行各業,用機器替代原來的業務專家,基於數據去寫業務規則。比如在內容分發的領域,當機器把規則寫到1000萬、幾十億甚至幾千億的時候,可以顯著地實現原來傳統業務專家達不到的效果。

我們有一個經驗,在一個垂直領域,如果能用機器基於數據寫出超過1000萬條業務規則,那麼一個資深的業務專家,基本上沒有辦法比機器強。

但是其實也不是所有領域都能寫出1000萬條業務規則,因為你能寫出業務規則的數量,或者模型VC維的數量和數據量幾乎成正比,而在一些垂直細分領域樣本數是不夠的。比如醫療領域,一些罕見病只能找到100個病人,這時候用機器只能寫出100條業務規則。在這個場景下,機器就遠不如人。

商業公司構建AI能力的五大核心要素

人工智慧在不同領域所面臨的環境是不一樣的。對於一個商業公司來說,構建AI的能力有5個核心的要素,分別是Big data(大數據)、Response(持續的反饋)、Algorithm(演算法)、Infrastructure(計算能力)和Needs(明確的需求),合在一起就叫做Brain。如果這5個核心要素是齊備的,機器就非常有可能超過人。但是如果暫時還有局限,我們就要思考如何彌補目前的局限,來達到比較高水平的人工智慧,未來各行各業都需要走這樣一條路。

1、數據

人工智慧需要收集有意義的過程數據

前幾年我們對大數據的誤解體現在只去比較數據量的大小,其實大數據還分有意義的大數據和沒有意義的大數據,有意義的大數據叫做過程數據。

以圍棋為例,什麼叫有意義的數據?棋譜、下棋的過程。什麼是沒有意義的數據?比如那些棋手或者等級、排名。好比說兩個人下棋,我在旁邊看,看著看著我自己也會下棋了。但我每天聽新聞說柯潔又輸給AlphaGo了等等,聽得再多也不會下棋。所以一定要餵給機器他能學會的那些數據。

回到商業上看過程數據的收集,以一個抽象的Model為例,用戶會對公司有一個請求,公司會提供一個服務,完成後會收集到用戶正向或負向的反饋。具體到一些場景,比如在線廣告,用戶通過搜索看到一個廣告,會選擇點或者不點,點擊就是正反饋,沒有點擊就是負反饋。又比如對於個性化推薦來說,我訪問了你這個APP,你給我推薦了很多內容,如果我接受了這個推薦,就是正反饋,沒有接受就是負反饋。

我們經驗來說,一個優秀的AI模型需要約1000萬以上過程數據的樣本。VC維理論也是一樣,我們把VC維做到1000萬以上,人就做不過機器了。

如何支撐1000萬的VC維?其實需要1000萬以上的樣本,這裡面實際有一個統計學的原理來支撐。這個公式稍微有點複雜,但只要記著這個科學家就行了,他叫Valiant,是2011年的圖靈獎的獲得者。他得獎的這條公式,簡單說就是規則數或者模型的維度要和數據量相匹配,所以我們要收集大量的過程數據,就是為了支撐我們做出更大的模型。

2、反饋

兩個關鍵:一是要數據化,二是要持續反饋

反饋(Response),就是說我提供服務以後,要能得到一個正向或者負向的結果,告訴我提供的服務到底好還是不好。比如在廣告里的點擊和非點擊,比如在推薦里的接受和拒絕。反饋一定得是能數字化的,因為計算機只聽得懂0和1,比如點擊是1,沒點擊是0。現實情況是,我們經常會告訴機器你要推薦一個好的結果,或者你要推薦一個相關的結果,但好和相關是計算機聽不懂的語言。

過去我們認為推薦系統要推薦相關的內容,很強調相關性,但機器根本不知道相關是什麼意思,機器只知道,叫0還是1,所以過去的推薦其實很不合理。

最近幾年的推薦系統和過去相比提升了很多,現在今日頭條、快手都有各種個性化的內容分發,他們採用了先進的推薦系統,改變了過去強調相關性思路,轉而優化一些可被度量的指標,比如推薦的內容用戶有沒有點擊,點擊後看了多久,或有沒有轉發、收藏、投訴。雖然這些指標並不都能反映所謂的相關性,但它們可被度量,進而可被優化,最後達到一個比過去優化相關性更好的效果。

反饋最關鍵要做到兩點:第一點:數字化反饋。第二點:持續不斷的反饋。

任何一個機器都會犯錯,犯錯不怕,怕得是永遠犯同樣的錯誤。比如最早AlphaGo的模型只有30萬盤棋,就是通過自己和自己下,贏了得到一個正反饋,輸了得到一個負反饋,持續不斷又下了8000萬盤棋,達到一個可以打敗棋手的效果。

3、演算法

改變演算法受眾,降低AI能力構建的門檻

演算法(Algorithm)是現在被比較關注的。一家公司構建AI能力的瓶頸是很難招到科學家,因為科學家永遠是相對小眾的一群人,最後發現空有一堆數據卻用不起來。

我們的受眾人群實是開發者,互聯網、移動互聯網都是開發者在做應用。而現在AI處在一個不太正常的狀態,所有的應用基本上都是科學家做的。

第四範式希望改變這個狀態,我們把科學家的能力封裝到一個平台里,讓業務人員能夠完成AI科學家團隊做的事情。第四範式正在致力於研究一些新的演算法,比如兩個獨特的演算法:第一個:線性分形演算法。第二個:He-Treenet演算法,是一個樹和網路結合的模型。這些事情能夠讓過去一些門檻高的事情變簡化。比方說過去為什麼使用演算法的門檻高?因為要做大量的數據清洗、特徵變換、歸一化、特徵組合、離散化這樣的一些事情。學習這些需要很長的時間,當我們把這些東西全都由機器自動完成,這樣才能讓機器完成學習的過程,就是數據進來,跑一個演算法,出來一個模型就可以用。如果只是這麼簡單,其實絕大多數人都是可以使用的。

4、計算能力

大數據下沒有簡單的架構問題

第四個叫計算能力(Infrastructure),機器學習沒有簡單的問題, 其實管理機器和管理人是一樣的,當你管理20團隊的時候,會出現一些問題,超過100人的時候又會出現一些問題,可能每天都會有員工請假等等。同樣的道理,超過100台機器去跑一個任務,每次跑任務都會有機器宕機。超過1000台機器的時候,會出現各種分配任務的不均衡,有的機器可能在跑,做了很多的事,有的機器閑著沒事幹,這都是很複雜的。當數據量大的時候就有架構問題,這甚至是不亞於演算法的難題。

所以我們也在設計一些門檻很高的架構,比如支持萬億級機器學習的架構。舉個例子,做機器學習和原來做分散式計算有什麼區別?大家都知道,像Hadoop、Spark這樣的架構其實已經相對成熟了。他們做這樣一件事情:我有一本書,我要讓10個人抄這本書,能做得比一個人抄得更快。而機器學習,是讓10個人學一本書,學得比一個人更快。

抄書只要撕成10份,抄完之後訂起來就行。機器學就不行,各自學完之後,可能還要交流,還要互通有無。所以整個設計理念會不一樣,我們和Spark做過這樣的對比。隨著數據量的增加,我們速度會比Spark有平方級速度的差別。比如在5萬太(Terabyte, 1T=1024G)數據的時候,提升並沒有那麼多,只有28%。如果再有600多萬的話,提升了86倍,在3000多萬,提升了400多倍。更大的情況下,Spark已經沒法跑了,就沒有數據了。

所以需要把這些門檻很高的技術,都屏蔽並封裝到這樣一個平台上,讓大家感覺不到這叫分散式,只是一個簡單的學習。

5、需求

邊界清晰的問題定義

最後,機器學習還需要一個清晰的問題定義,也就是所謂的需求(Needs)。目前機器學習沒有通用之門,只能解決一個單一的目標,存在邊界問題。其實所謂通用的人工智慧,都是一大堆單一目標的人工智慧的組合。能到當我們解決的問題極大的時候,才會產生通用的人工智慧。

像AlphaGo是一個清晰目標的問題,就是贏和輸。當然大家會說,單一目標可能不能解決業務問題,比如推薦就單一目標來說是不能解決的。所以我們可以將多個模型和目標做組合優化,就可以達到多目標優化的結果。

推薦閱讀:

想去美國學人工智慧該怎麼選學校?這裡有一份詳細的指南
量子計算正接近現實 早期投資者已看到這些商機
成為未來人的五種小策略
自動化焦慮症---科技與職場的未來
如何看待人工智慧未來的發展空間?

TAG:人工智慧 |