【乾貨】楊強：從機器學習到遷移學習 | GAITC 演講（附PPT）

08-04

1新智元推薦

中國人工智慧學會授權轉載

【新智元導讀】楊強教授認為，DeepMind把端到端的深度學習應用在強化學習上，使得強化學習能夠應付大數據，因此能在圍棋上把人類完全擊倒，它做到這樣是通過完全的自學習、自我修鍊、自我改正，然後一個一個迭代。楊強還指出，搜索和學習的結合才是人工智慧的發展方向。我們不能完全依靠機器去全部自動化自我學習，機器學習的弊端是自我偏差，目前仍需要人為干預。未來，遷移學習會是這個問題的解決途徑。遷移學習還能讓人工智慧得以擺脫對大數據的嚴重依賴，從而讓人工智慧不再只是「富人的遊戲」。

「2016全球人工智慧技術大會（GAITC）暨人工智慧60年紀念活動啟動儀式」4月22日在北京國家會議中心舉行，楊強教授受邀發表主旨演講，他的演講題目是《自學習的人工智慧》。經過主辦方中國人工智慧學會和楊強教授的授權，新智元帶來了楊強教授此次演講的全文實錄和ppt，乾貨滿滿，推薦收藏。

楊強

香港科技大學冠名講座教授

國際人工智慧學會FELLOW

2015年國際人工智慧大會程序主席

【楊強】大家好，今天非常高興、非常榮幸能參加這樣一個盛會。今天我帶來的演講是我的一點學習心得，題目叫做自學習的人工智慧。

首先大家都知道，在60周年之際，我們首先應該記住的是這位人工智慧的先驅——圖靈。在他的問題的感召下，我們才有了今天這樣的一個盛會和今天人工智慧的飛速發展。他的問題「機器可以思維嗎？」可以從不同的維度來解釋，那麼首先人類對人工智慧的探索也可以圍繞對［這個］問題的不同解釋展開。

第一個探索，應該說是在邏輯層面的探索。［20世紀］60年代，人工智慧的這些先驅就考慮用邏輯和搜索來研究人工智慧，比如下棋、推理、去做路徑規劃等等。他們有一個很強的假設，這個假設從某種程度上來說是非常直觀的：智能包括計算機可能賦予的智能，來自於計算物理符號的排列組合。我們只要能很聰明地把這些物理符號排列組合，人類是可以從一系列的零和一的組合來得到［智能的］。［但是］有了一些成就之後，［我們］也發現這樣的假設是有瓶頸的。

在之後又有一部分人著力於研究能夠有學習功能的人工智慧，就有不同的機器學習演算法被研究出來。其中包括大家都熟悉的神經網路。

人工智慧的幾個里程碑我們現在也很熟悉，第一個大家公認的是里程碑是深藍，這個比賽意味著幾件事：一個是說在大規模的搜索狀態下，在可能的狀態空間的搜索實際上是一個在物理符號空間的排列組合。

也就是說，［20世紀］60年代人們的那些假設有一部分是正確的，我們確實可以從這種搜索和物理符號的排列組合獲得很多的智能。

緊接著的階段是，知識就是力量，這是隨著互聯網和大數據到來的一個熱潮，從網上，從不同的媒體我們會獲得很多數據，把這些數據經過沉澱變成知識，我們就可以贏得像這樣一個電視大賽中的人機對戰。

這個之後，就是深度神經網路。深度神經網路的突破從計算上來說有幾個好處，其中一個好處是說它把一個全局計算的需求變成一個本地計算的需求，在做到這一點的同時，又不失掉很多的信息，這個是計算機裡面無數成就的一個中心點。這樣的一個成功就使得我們能夠在不同的層次來觀察同一個數據，同樣就可以獲得我們所謂的大局觀。就像這個圖，我們在不同的層次可以得到不同的特徵。

這裡我們要特彆強調的是人工智慧也在另外一個方面默默在耕耘，這個就叫做強化學習。強化學習應該說是用來做人工智慧規劃的有力工具，但不是唯一的工具。這個領域相對深度學習應該說更古老，研究的力度也很多。但在很長時間處於靜默狀態，這個原因是因為它在計算上有很大的瓶頸，不能有很大的數據量。一個例子就是強化學習在很長時間以來只能解決一些玩具型的問題，非常小的數據。

但是，最近的一個突破是Google的DeepMind，把深度學習和強化學習合在一起，這樣的一個議題使得很多強化學習所需要突破的瓶頸，就是狀態的個數能隱藏起來。這種隱藏就使得強化學習能夠大規模應付數據，也即應付大數據。它突出的一點叫做端到端的學習，就是說我們在這裡看到一個計算機的遊戲，這個遊戲的影像是輸入端，輸出端就是你要進行的下一個動作。這個動作是正確還是不正確，到最後會獲得一個反饋，這個反饋不一定是現在得到，也許是後面幾步得到的。這一點和我們剛剛講的深度學習在圖像上面的應用，就大不一樣。就更加複雜，更加契合人的行為，所以強化學習也是下一個突破。

我們看到這種端到端的深度學習，應用在強化學習上，使得DeepMind到今天在很古老的單人計算機遊戲上已經把人類完全擊倒，它做到這樣是通過完全的自學習、自我修鍊、自我改正，然後一個一個迭代。

這個就是它迭代的一些結果，從左到右是一個時間軸，從下到上是它得到的效果。我們看到每一個遊戲它的要求都是在不斷成長的，就像我們一個學生在學習的過程當中學到的知識越來越多，這個完全是自我實現，一個自學習的過程。

包括現在的AlphaGo也應用了很多自學習的這種效果，使得我們現在終於認清原來人工智慧從［20世紀］60年代到2000年的物理符號的假設，也就是說以搜索為中心，以邏輯為中心的這種努力並沒有白費，這種努力也是需要的。另外學習也是必不可少的，像我們熟知的深度學習。所以AlphaGo對我們的啟示，就是我們把［搜索和學習］兩者結合起來，才是一個完整的智能機器。這個我們可以叫做人工智慧的通用性，也就是說我們對於這兩個技術的某種結合，比方說多一點搜索，少一點機器學習，或者反之我們就可以得到用來解釋不同的人類的智能行為。

這種通用型，端到端的學習，可以用這個例子來表達：雞可以吃不同的東西，但是它下的都是蛋，是對人類有用的。

這裡我要特別提到一點，我們並不是找到了最後的目標，這也是在不同的人工智慧、強化學習等等之類的實驗當中我們發現一個特點，就是我們不能完全依靠機器去全部自動化自我學習，至少到現在我們還沒有摸索出這樣一個路徑。這裡是CMU大學的例子，用中文來說是永動機器學習，這個機器不斷在網上扒一些網頁，在每個網頁裡面都學到一些知識，把這些知識綜合起來，變成幾千萬條知識，這些知識又會衍生新的知識。那麼我們看到從下到上是隨著時間，知識量在增長。但是它到了某一個程度實際上是不能再往上走了，因為知識會自我矛盾。這個時候就需要人來進行一部分的調節，把一部分不正確的知識去掉，讓它繼續能成長。這個過程為什麼會發生呢？

是因為機器學習有一個很嚴重的現象，就是自我偏差，這種偏差可以體現在統計學的一個重要概念中，就是我們獲得的數據也許是一個有偏數據，我們可能建了一個模型，對大部分的數據都有用，但其中有一些特例。我們如何來處理這些特例，如何來處理我們訓練數據和應用數據之間的偏差，這是我們下一步要研究的內容。

一個非常有希望的技術叫做遷移學習，比方說這個是在深度學習的模型上，在上面這一部分是一個領域已經訓練好的模型。那麼在一個新的領域，如果這兩個領域之間有某種聯繫、某種相似性的話，我們就不一定在新的領域需要那麼多的數據來學習，你只需要一小部分。我們之所以能做到這一點是因為我們可以把大部分的模型給遷移過來，人有這種能力，但是我們在做這種數據遷移的過程中，我們一定要牢記把這種有偏的數據偏差給消除掉。

如果能做到這點，我們就能做到不同形式的數據之間的知識遷移，比方說我們可以讓一個計算機來讀很多文字，這樣的一個計算機去識別圖像，應該比沒有讀這些文字，直接去學習圖像的計算機要容易。這個就更像我們人類的學習。這種學習也離不開從下到上，從粗到細這樣的一種特徵選擇。

所以我們又得到另外一個概念，就是特徵工程。深度學習給我們的一個有力工具是能夠自動進行不同層次、大規模的新特徵的抽取和製造。那麼這種特徵在搜索引擎、廣告系統上面可以達到萬億級，這個已經完全不是人類所可以控制的級別了。智能在這樣的級別上才可以產生。

但是，現在人工智慧仍然有一些困境，比方說如何能夠讓人工智慧來深層理解文字，有一個著名的類似於圖靈測試的比賽，深層次理解文字，在自然語言上問一些有歧異的問題，計算機如果要能正確的回答這個問題，那個模型就不僅僅要理解這些文字，而且要理解深層的背景文字，要理解周邊的文字。有很多文化在裡面，如何能達到這一點？這也是我們需要解決的。

同時深度模型還可以把它反轉，成為一種生成模型。它不僅可以去對數據做一個決策，它還可以自己產生新的數據。比方說這個是Google的一些研究員把一個深層模型裡面的感知最深刻的那些圖像給描述出來，結果是這樣非常有趣的生成模型。

剛剛講的不同數字格式，文字和圖像，如果在深層實際上它們的區別已經消失了。那這樣我們就可以對圖像去問文字的問題，甚至對文字去問圖像的問題。這樣數據的形式也就不重要了。

如果我們達到了遷移學習的要點，我們想問下一步是不是可以把所有人類經歷過的這些學習任務給沿著時間軸串起來，能夠讓機器像人一樣，學習能力和智能隨時間在不斷增長。那麼它所需要學習的努力程度，樣本數也是逐漸減少的。這也是我們在努力的一個方向。

最近發表的一篇文章也說明了遷移學習的重要性。這篇文章叫做bayesian program learning（單個例學習），這是從一個例子就能學會，我們知道深度學習是有千萬個例子的。實際上它用了我們過去沒有涉及到的概念，就叫做結構，如果我們了解了一個問題的結構，那麼這個結構的一個具體形式只用一個例子就可以學會了。其他的部分，需要很多例子的那一部分可能是參數、統計，這一部分我們實際上可以通過遷移學習來學習。也就是說這個圓就圓滿了，就是一個閉環了。

同時，人工智慧的應用也不僅僅是在圖像方面。這裡的一個例子是亞馬遜的倉儲機器人。亞馬遜的倉儲機器人是在一個很大的空間［運行］，這些機器人會移動這些貨架，每個貨架上面都有不同的貨品，把這些貨架送到工人的面前，讓工人從貨架上面拿所需的貨品到箱子裡面，然後快遞給客戶。為什麼是這樣呢？因為現在的機器人技術在選擇，也就是從貨架上選擇物體還遠遠達不到人的熟練程度，但是它在路徑規劃、機械的啟動、抬起、放下已經超過人了。所以，亞馬遜就很聰明地把機器的優點和人的優點結合在一起，變成一個新的商業模式。如果過去建一個倉儲支持這個城市所有的物流需要三個月時間，亞馬遜把所有的傳送帶拆掉，變成機器人以後只用三天時間，這個收益是非常巨大的，也是我們可以借鑒，可以拓展的一個經驗。

下面要講的，不僅在機器人，在圖像識別，在我們的生活當中，人工智慧已經十分深入了。這裡舉的一個例子是我和我的學生戴文淵建的一個公司——第四範式，這個公司可以讓過去在金融領域只能由人來服務的重要客戶，改為由人工智慧來做，把這個能力拓展到幾千萬人身上，讓每個人都能享受到優質的金融服務。這是一個非常大的工程，它背後的技術就是機器學習，我們所熟知的深度學習、知識學習、強化學習。

最後我要說幾點，看到這麼多人工智慧的努力，有失敗的時候，有成功的時候，我們到現在能總結出什麼經驗呢？我覺得現在的人工智慧的成功離不開高質量的大數據，但是並不是未來人工智慧的成功一定需要大數據。那麼我們下面要問是不是在未來有小數據也可以讓人工智慧成功——工業上大家還在開疆拓土，利用大數據的優勢在發現新的應用——我覺得在大學裡面這是應該做的一個研究。

第二個，就是要培養出更多的人工智慧人才。這些人才才可以來設計演算法，這個也是我們今天在大學裡面需要努力的一個方向。當然這些都離不開計算能力。

所以從這幾點上來看，人工智慧的努力也不是像有些人說的「今天的人工智慧的發展完全在工業」，人工智慧的發展應該一部分依靠大學，一部分依靠工業。就像我們所說的，大數據和人才的培養以及小數據的研究。大數據開疆拓土、更多的應用和更多的計算能力確實來自於工業。人才培養、小數據研究則依靠學界。這兩者結合是我們今後發展的一個方向。

最後我要說一點，我們應該說已經了解很多深度學習了，這個可以作為我們昨天的一個成就。那麼今天我們在剛剛開始去獲得強化學習的一個紅利，這個可能還不是在很多的領域得到應用，但是我要告訴大家，強化學習比大家想像的要更有用，它不僅僅是在圍棋或者是在計算機遊戲上有用。在金融、在我們日常生活當中，甚至在教育上，機器人的規劃都離不開強化學習。

那麼這些應該說都是富人的遊戲，也就是說只有富人才能有這麼多的大數據，有這麼多的計算量去支持深度學習和強化學習這樣的實際應用。那麼我們明天要看到的應該是遷移學習，因為遷移學習能夠讓我們把大數據得到的模型遷移到小數據上面，使得千千萬萬的人都能夠受益，人人都能享受人工智慧帶來的紅利。

我今天講到這兒，謝謝大家。

本文按現場速記整理

轉自中國人工智慧學會

人工智慧大咖讀《新智元：機器人類=超智能時代》

羅聖美 | 中興通訊首席架構師60年前，專家學者提出了人工智慧的概念，現在正在逐步變成現實，從IBM「WASTON」到微軟「小冰」，從「百度大腦」到「訊飛超腦」，人工智慧正在不斷超越人類的想像。相信很多對人工智慧感興趣的愛好者讀過庫茲韋爾的《奇點臨近》，也相信很多人訂閱過微信公眾號【新智元】，但是《機器人類=超智能時代》，一本系統介紹一個媒體人對人工智慧全面認識的書籍，相信會有很多新鮮的內容等待與您分享，引領我們對未來的想像！

十大人工智慧研究院院長、AI 專家技術重磅解密

谷歌AlphaGO戰勝李世石，標誌著機器智能向人類智能的領地又邁進了偉大的一步。而「互聯網」向「智能」時代的躍遷，也昭示新智能時代即將到來。2016年，恰逢人工智慧誕生60周年，《新智元：機器人類=超智能時代》是人工智慧技術和產業狂飆突進的見證，為讀者打開人工智慧世界的一扇大門，不僅可以一窺百度大腦、訊飛超腦、中國大腦計劃究竟，更可以著名人工智慧研究院院長等頂級專家大咖的技術解密作為對智能產業未來趨勢的參照。近百位學界、商界、技術界、產業界的專家，從機器人、機器學習、智能汽車、智能醫療、認知科學、高性能計算和「AI 」投資等不同視角，對人工智慧和機器人產業進行評析。人類未來在AI時代將何去何從，超智能時代將引發社會更多思考。促銷鏈接請掃描下方二維碼。
推薦閱讀：

※這是一篇值得收藏的資源乾貨文章
※麥當勞中國20億美元「賣身」，終於想到要向可口可樂學習了
※小寶寶嬰語你知多少？寶爸寶媽們快來學習下
※學習群關鍵字
※向小姐學習？

TAG:學習 | 機器學習 | 演講 | 乾貨 | 機器 | 遷移 |