繼深度學習後,下一個熱點技術是遷移學習

05-04

最早提出大數據時代到來的是知名諮詢公司麥肯錫，麥肯錫稱：「數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。人們對於海量數據的挖掘和運用，預示著新一波生產率增長和消費者盈餘浪潮的到來。」

其實大數據無論在哪一領域都存在已有時日，卻在近年來的互聯網和信息產業的發展之下得以聚合、得以提煉分析。

要做到人工智慧，背後需要有豐富的大數據做支撐。億歐8月12日在CCF GAIR全球人工智慧與機器人峰會上聽取了香港科技大學教授、人工智慧和數據挖掘專家楊強的主題分享，有關「人工智慧成功的幾個條件」，其中分享了幾個很有意思的觀點，億歐對其進行整理補充，分享如下。

AI成功的5大必要條件

1、清晰的目標，商業模式，離不開領域對目標很好的理解；

2、需要高質量的大數據，這個數據要持續反饋，這使得學習不斷提高，推的數據質量高，要與演算法不斷匹配，樣本要針對演算法手機，要持續得到，數據的標記是非常昂貴；

3、清晰的問題定義和領域邊界；

4、懂人工智慧的跨界人才，懂智能懂商業，身邊善於學習的人，可以將兩個不同的垂直領域鏈接到一起，擅長應用和演算法；

5、計算能力。

把人工智慧往前推一步，繼深度學習之後哪些技術會是下一個熱點？

互聯網泡沫、大數據的驅動下，機器學習以及人工智慧領域在後台的支撐力度越來越大。深度學習之後會有哪些技術是下一個熱點？楊強提出了三明治結構學習法，分別為遞歸深度神經網路RNN、強化學習RL、以及遷移學習TL。

遞歸深度神經網路RNN最早是在1992年由施米德林（DeepMind聯合創始人、深度學習四大巨頭之一）和他的學生團隊提出的，非監督學習時間遞歸神經網路，為語音識別和自然語言翻譯提供了重要的模型。

強化學習（ReinforcementLearing），就是智能系統從環境到行為映射的學習，以使獎勵信號(強化信號)函數值最大，強化學習不同於連接主義學習中的監督學習，主要表現在教師信號上，強化學習中由環境提供的強化信號是對產生動作的好壞作一種評價(通常為標量信號)，而不是告訴強化學習系統RLS(reinforcement learning system)如何去產生正確的動作。由於外部環境提供的信息很少，RLS必須靠自身的經歷進行學習。通過這種方式，RLS在行動-評價的環境中獲得知識，改進行動方案以適應環境。

什麼是遷移學習？即在源領域已經擁有大量數據，並且在源領域能對數據進行很好的應用建立了模型後，我們換一個領域也能讓它使用，這樣既節省了資源，又達到時間和效果的好處，就叫做遷移學習。這就很像人的舉一反三的學習能力，比如我們學會騎自行車以後，我們又去學摩托車，發現很簡單，我們打球、學語言、學物理化學也有很多這樣的例子。

實現遷移學習的方法有四種：1）樣本遷移；2）特徵遷移；3）基於模型的遷移學習；4）通過關係進行遷移，比如社交網路。

第一種就是我們在數據集裡面找到跟目標領域相似的數據，把這個數據放大多倍，這個叫做樣本遷移，通過樣本來達到遷移的目的。其次我們可以觀察到有些相似的特徵，然後利用這些特徵，在不同的層次的特徵，來進行自動的遷移，這種叫做特徵遷移。然後我們還可以做到基於模型的遷移，這是這樣的一個工作。利用上千萬的圖象來訓練一個圖象識別的系統，我們遇到一個新的圖象領域，我們就不用再去找幾千萬個圖象來訓練了，我們就把原來的那個遷移到新的領域，所以在新的領域只用幾萬張圖片就夠，同樣可以得到很高的效果，這叫做模型遷移，模型遷移的一個好處是我們可以區分，就是可以和深度學習結合起來，我們可以區分不同層次可遷移的度，相似度比較高的那些層次他們被遷移的可能性就大一些。最後我們也可以通過關係來進行遷移，比方說社會網路，社交網路之間的遷移。

一個不爭的事實，大數據只有富人才能得到

深度學習是離不開大數據的，大數據又離不開大公司，我們所熟知的大公司都是大數據的擁有者，而中小型的公司是沒有大數據的，也沒有獲取大數據的能力。

要做到深度學習，離不開對特徵的選取，特徵的選取又離不開大數據，而這些大數據只有富人才能得到。

數據在哪裡？領域到底有沒有大數據？錢在哪裡？

「數據在的地方，我們要看有沒有錢來驅動我們去做人工智慧的研究工作。哪些領域的錢已經準備好了？這裡我要提出一個概念叫封閉系統，剛才我講邊界清晰問題定義非常清晰就是指的這樣一個封閉系統，就是說整個的商業流程都有數據的腳印，全部的留下來，我們看一下，我們今天在教育領域到底有沒有這樣的數據，我們在出行的領域有沒有這樣的數據，我們在金融、醫療的領域，所以在這些領域裡面我覺得比較看好的一個是金融的領域，因為在金融裡面每一步都太關鍵太重要了，所以在很早以前就有很多人把所有的整個的商業流程全部的記錄在案，用數字化的方法，只不過存在那裡沒有在用。雖然有很多不同的政治、經濟角度在來影響它，但是大家不要忘記人工智慧的商業成功只要系統比人好一點點就可以了，就像在奧運會裡面我們得到的金牌比銀牌好一點點就可以了，所以在信息的處理和未來的預測方面，如果在一個封閉系統裡面，在有大數據的前提，又有資金推動的影響下，我覺得這個領域差不多就會成功了。」

人工智慧不能關在象牙塔裡面

早在2013年香港科技大學和張小龍的微信一起成立了一個聯合實驗室。「微信為我們提供非常好的平台，我們做人工智慧不能關在屋子裡，不能拿一個象牙塔的姿態來做，一定要放開胸懷，讓我們做的東西能夠鋪會越多的人去用，去讓他們能夠受益越好。」楊強說到，「微信提供了平台，特別難的學術問題我們會自己留下來，我們會給微信提供資源，我們有十幾個教授，我們實驗室從機器人到自然語言處理、語音識別、圖像處理、圖像識別、包括對話系統等等。在這樣互相受益的情況下做這樣一個實驗室我們才覺得是一個雙贏，是一個有很好的情景。」

看好的下一個商業方向

人工智慧到現在為止最成功的一個領域就是機器學習。

機器學習的基本概念就是從數據裡面經常重複的現象學出規律來，人工智慧在商業上面應用的一個很強烈的特徵，就是，我們要去觀察我們商業活動當中哪一些數據能夠讓我們替代掉人類簡單、重複、繁瑣的這類工作。然後那些奇思妙想、創新的東西就交給人類，人類能給人工智慧當老師。

在楊強看來，下一個最看好的商業方向，便是將人和機器進行有機結合的領域。

本文作者吳妙芸，億歐專欄作者。 本文轉載自億歐網

天雲大數據

天雲大數據是專註於大數據分散式計算平台軟體、AI演算法的國家高新科技企業。孵化並成長於北京雲基地的天雲大數據是北京祥雲工程代表企業，作為秘書長或理事成員參與了中國雲產業聯盟，中關村大數據產業聯盟，國家統計局大數據戰略合作企業，中關村-濱海大數據產業技術創新戰略聯盟，上海大數據產業技術創新戰略聯盟的籌建。被矽谷GigaOM大數據先鋒評論冠以改變中國雲計算最有影響力的企業；幫助某全國性股份制商業銀行獲得了國際化組織IDC的「2014年度中國金融行業最佳創新項目」大獎；2016年榮選由畢馬威評選的中國領先金融科技公司50強企業。

更多精彩內容請關注微信公眾號：BeagleData_
推薦閱讀：

※程序猿看過來！程序猿學數據靠譜嗎？
※sqoop簡單介紹
※Facebook信息泄露事件影響重大引發大思考
※無監督學習，你何德何能？
※「大數據殺熟」事件發酵，誰來為數據運用洗白

TAG:大數據 |