GET2017｜艾耕科技韋嘯：人工智慧、大數據應該與教育更好地融合

07-15

11月17日芥末堆阿新報道

11月16日上午，GET2017教育科技大會人工智慧論壇上，艾耕科技創始人韋嘯結合實際案例，講述了他眼中人工智慧和大數據到底是什麼。韋嘯相信，教育領域在未來也會出現最好的人工智慧和大數據場景。

以下是韋嘯的現場演講實錄（芥末堆略有刪減）：

非常高興今天有機會到GET大會上來分享，艾耕科技是一家人工智慧初創公司，所以我們可能是GET大會教育上唯一一家跟教育毫無關係的公司。但是，我認為，這兩個行業應該更好地融合，所以我在這裡跟大家分享一下我們所認識的人工智慧、大數據，希望能成為一塊敲門磚，讓兩個行業更有機地融合。

人工智慧的三個環節：觀察、理解、決策

首先我們來闡述一下什麼是人工智慧，你在國內聽到的大量人工智慧創業公司99%都在做一件事，就是基於學習的智能研究，研究方法大量源於統計的機器學習，如果我們把深度學習認為是機器學習的一個分支，那人工智慧就是在用機器學習的方法做基於學習的智能。什麼是基於學習的智能？什麼是學習？我們把它劃為三個環節：觀察、理解、決策。

觀察

在數據時代或者互聯網時代，我們認為從技術的角度來說，觀察就是我們對數據的採集，有多少渠道可以有效地獲取有用的數據。從PC時代開始，到移動互聯網，再到未來物聯網，其實數據的採集會是一個非常海量的狀態，大量的數據採集完以後，我們會用結構化和非結構化來劃分數據的種類。

簡單地說，結構化的數據就是可以放到資料庫、表格里，有行和列這樣定義的數據。上世紀五六十年代到2000年是結構化數據黃金的半個世紀，催生了例如甲骨文、IBM這樣的做資料庫為主的公司。

我們還有大量的數據沒辦法直接把它放到表格里。或者當你把它非常生硬地放到表格里的時候，數據的使用效率是非常低的，這些就是非結構化數據。非結構化數據在互聯網時代主要分為語音、圖象、視頻和文本。像語音相關的產品有語音識別、情感分析、聊天機器人，圖象方面有圖象分類、目標檢測、人臉識別等。我們現在也看到文本方面使用深度學習有非常大的機會。

理解

一般而言，理解就是我們如何用最先進的技術把非結構化的數據變為結構化或者半結構化的數據。不管從語音、圖象、視頻還是文本來講，我們今天都看到了深度學習在中間巨大的價值。所以可以說，深度學習是未來人工智慧一個最核心的技術。

決策

過去20年，我們主要用兩個方法來做所有的決策，人的決策是很複雜的，但人工智慧主要使用兩種方法做決策：分類和排序。

雖然決策方法相對單調，但是20年里決策的力度的效率得到了幾何級數的提升。1996年谷歌只用來分析100萬個網頁，就號稱我是全球最高效的搜索引擎，而今天我們每天都可以處理大概1000億的網頁，還沒有用到谷歌這種主流搜索引擎那麼大量的計算資源。而隨著雲計算、新的計算框架誕生，決策的效率和計算規模進一步得到了海量提升。

作為人工智慧最核心的技術，機器學習、深度學習的三個要素「觀察、理解和決策」分別對應了AI技術爆發的三個核心環節：有沒有數據、計算能力和計算規模怎麼樣、演算法怎麼樣。現在每天我們都會碰到大量「人工智慧系統改變生活」的案例，例如打車軟體就是一個簡單的人工智慧系統。

判斷大數據的三要素

每個人對大數據的定義不一樣，我的判斷依據有兩個。1、利用智能技術輔助人力運營，讓商業系統變得更為高效。我認為教育也存在這樣的商業系統。2、智能技術是不是「數據越大，我就越強」，是否具備這一點在數學上成立的表達方式。

如果各位要判斷一家公司提供的技術是不是大數據技術，我們梳理了三個要素：

第一，它是不是定義了所謂的數據羅盤，我們叫測量測繪體系。

測量測繪體系大家會稍微有點陌生，我們發現國內對大數據的定義里缺失了這個環節。我認為，決策者必須要跟數據科學家合作建立一個坐標軸，用來描述你的商業本質在時間上的狀態。有了坐標以後就有了目標，做演算法的人只知道去優化這個目標，所以決策者必須把你的商業邏輯翻譯成數據體系，這樣才能夠有效地建立一個大數據的運營系統。另外，還要有辦法來測量產品在坐標系的的位置（Measurements）。這就像建立一個GPS導航一樣，有了GPS才能確定地知道任何一個時刻你到底在什麼位置。

舉個例子，以前石油公司有大量的油管埋在地下，需要挖出地下發生泄漏的油管，如果挖出來沒發生泄漏的油管，那還需要埋回去，就會很麻煩。這時你找到了A公司和B公司來做這件事，A公司挖出了100根油管，有4根是好的，B公司挖出了100根油管，有24根是好的，你肯定會覺得B公司做的東西要遠遠差於公司A，根據測量結果，你會選擇A公司。

但實際上你會發現，還有別的方式判斷這兩個公司的好壞。比如說A公司發現你的判斷標準是「挖出的油管是好是壞」，當它探測到某根油管可能好、可能壞的時候，它就說這個油管沒壞。結果A公司挖出了24根壞油管，還有76根壞油管埋在地下沒被探測出來，這就是很惡劣的情況了。

我舉這個例子是想說，大數據是一件很複雜的事情，如果你只有非常單調的測量體系，你的商業目標是很難被這個測量體系高效規劃的。哪怕是挖油管這麼一個聽起來很簡單的案例，你也必須考慮挖出壞油管的召回率和探測泄漏油管的準確度，同時為你的測量定義，這樣才能更有效地完成目標。

第二，採用AB測試平台，即它有沒有一個方式讓你可以嘗試不同的路徑規劃。

當你的商業目標建立起來之後，就會有演算法一步步向商業目標去做優化，但是實際上很多時候演算法科學家不知道用什麼方式可以最快走到那個目標，所以我們必須要做AB測試。演算法往往不會一步到位，而AI是黑盒子，具備很強的不確定性，所以我們經常需要做AB測試，而AB測試必須非常科學、誠實。

舉例來說，以前一個非常大的電商公司有很多演算法團隊，他們會說：「我們要做一個AB測試，沒有給B任何新的演算法，但是給A加一些流量扶持，即把本來可能不屬於A的流量給到A。過了半年我們來看，A這個盤子里店鋪的總流量減去B這個盤子里店鋪的總流量，是否可以等於X倍，這就是我們來給A做流量扶持的流量。」

X就是我們所定義的槓桿效應，如果X遠大於1，我認為這個扶持是非常合理的。但它的問題是，給A的流量不是免費的，這些流量是來自於C這個盤子里的店鋪，用戶在這個電商平台上做了搜索，這個搜索本來是要到C的，由於做了流量扶持，這些流量才給到了A。

我舉個這個實際的例子是想告訴大家，做AB測試必須要科學和誠實，當你的系統建建設不是特別完善的時候，數據科學家也會變得很狡猾。

第三，它是不是建立了數據閉環。

最後我跟大家分享一個活數據和死數據的例子。雅虎最開始也是做搜索引擎起家，大概在1997年它把搜索引擎交給了Google，重心放在了門戶網站上。雅虎認為搜索引擎的演算法設計並沒有太高的門檻，但實際上搜索引擎是一個問答系統：給它一個問題，它會提供很多的答案，當用戶選擇了第N個答案的時候，實際上是用戶在教搜索引擎怎麼排序。所以搜索引擎需要的是數據產生智能價值，並做大量的加法。於是Google做了有史以來最大的人的智能的加法器，當雅虎反應過來的時候已經晚了。所以，數據本身必須要打成一個閉環。

我們得出結論：在弱AI時代，即我們現在所處的這個時代，最好的人工智慧和大數據的場景就是一個閉環，在這個閉環中間流通了最大量的、帶著人的智能的數據。這樣就是最好的人工智慧和大數據場景。我相信在教育里會出現大量的這種場景，只是我現在還沒有看到一個答案，謝謝！