關於強化學習的一二三

05-21

關於強化學習的一二三

來自專欄人工智慧商業

今天給大家分享關於強化學習的一些話題。希望對於你所在的行業有所啟發。

在一個簡單的計算機模擬演示中，一群自動駕駛車正在一條虛擬四車道公路上行駛。

差不多各一半的汽車分別試圖從兩條車道相互併線。這對自動駕駛程序是個大難題，可是似乎它們都能夠自如搞定。

這是我在去年12月在巴塞羅那的最大的AI會議上觀看模擬駕駛的場景。

最令人驚奇的是，管理汽車行為的軟體根本不是傳統意義上的程序；它完全是通過不斷練習來掌握如何併線的。

在訓練過程中，控制軟體一遍又一遍地嘗試改變其指令。

開始大多數情況下總是磕磕絆絆，汽車之間也總互相干擾。但是，一旦某次順利併線，系統就會自動學會其背後的駕駛技巧。

這種被稱為強化學習(Reinforcement Learning)的方法在很大程度上歸功於AlphaGo，一個由谷歌子公司DeepMind開發的計算機程序。

它在去年的正式比賽中擊敗了曾經世界上最好的圍棋棋手李世石（註：在剛剛結束的人機大戰第二季第一場比賽中，AlphaGo 2.0擊敗了現任世界第一中國柯潔）。

現在，強化學習可能會在遊戲領域之外大顯身手。除改善自駕車之外，該技術還可讓機器人抓取其從未見過的物體，或者找出數據中心設備的最佳配置方案。

強化學習從大自然中複製了一個非常簡單的原則。心理學家Edward Thorndike在100多年前已經記錄了這一點。

Thorndike將貓放在盒子裡面，只能通過按壓槓桿才能從中逃脫。經過相當數量的嘗試後，動物最終會偶然踩踏槓桿。

在他們學會將這種行為與預期結果聯繫起來之後，他們最終會以越來越快的速度逃跑。

早期的AI研究者認為，這個過程可以由機器簡單實現。1951年，哈佛學生，MIT教授，AI先驅之一Marvin Minsky，建立了一種使用簡單形式的強化學習來模擬老鼠學習逃脫迷宮的機器。

Minsky的隨機類神經增強計算機（SNARC），由數十個電子管，電機和離合器組成，用以模擬40個神經元和突觸。

一旦模擬的老鼠離開迷宮，某些突觸連接的權值則會增加，從而加強了學到的正確逃脫步驟。

然而，在接下來的幾十年中這種方法幾乎沒有獲得成功。 1992年，IBM的研究員Gerald Tesauro展示了一種運用該技術來玩西洋雙陸棋的程序。

經過訓練後的程序足以與最好的人類對手比肩。然而，隨後強化學習則碰到了瓶頸，它難以擴展到更複雜的問題上。

英國DeepMind研究員David Silver表示：「人們曾認為這是一個很酷但是不太實用的點子。」

然而，這一觀點在2016年3月份發生了巨大變化。那就是AlphaGo，一個使用強化學習訓練的圍棋程序，打敗了曾經最好的圍棋棋手李世石。

這個壯舉令人驚訝，因為實際上不可能用傳統的編程來構建一個好的圍棋程序。

圍棋變化幾乎無窮無盡，並且局面判斷非常困難，因此特定代碼很難編寫。

過去大多數AI研究人員都預計，電腦圍棋程序需要至少十年時間才能和人類高手抗衡。

深度強化學習

Sliver，DeepMind資深研究員，解釋了為什麼強化學習最近變得如此強大。

他說，問題的關鍵是將其與深度學習相結合，這項技術涉及使用大規模神經網路來識別數據中的模式。

強化學習的關鍵取決於搞清如何讓計算機來自動評估每一步操作的價值，比如老鼠在迷宮中每個正確或錯誤的轉彎選擇。

這些價值估計全部都存儲在一個大表中，演算法會在學習時不停地自動更新所有這些參數。對於複雜任務這背後的計算量則為天文數字。

然而，近年來，飛速發展的深入學習技術已被證明是一種非常有效的方式來識別數據中深藏的模式，無論數據是迷宮中的轉角，圍棋棋子的位置還是電腦遊戲屏幕上的像素點等等。

事實上，DeepMind也是因為強化學習一時名聲大噪。

在2013年，DeepMind發布了一個能夠自動學習在超人類水平上玩各種Atari視頻遊戲的程序吸引了谷歌的注意，並最終於2014年以5億多美元收購價加入谷歌。

這也激勵了許多其他公司轉而研究加強學習。比如許多工業機器人製造商正在研究如何訓練他們的機器人執行新任務而無需手動編程。

Google也與DeepMind合作研究如何利用深層次的強化學習來改進數據中心的能效。

弄清數據中心的各項參數是如何影響能耗是個相當複雜的問題；但是加強學習演算法可以從大量現有數據中學習，從而掌握如何以及何時開啟冷卻系統。

回到文初自動駕駛的場景，今天的無人車在複雜路段往往需要與人類司機交互，比如交通轉盤或四向路口。

如果我們不希望引發事故，或者由於過分的猶豫而造成擁堵，軟體將需要獲得更多的高級駕駛技巧，比如確定在車流中的最佳位置等等。

該款自動駕駛軟體由Mobileye（一家以色列公司）研製，該公司的客戶包括特斯拉（Tesla Motors）在內的十餘家汽車製造商。

Mobileye的技術副總裁Shai Shalev-Shwartz展示了自駕車面臨的複雜場景：一個耶路撒冷熙熙攘攘的交通轉盤;巴黎的一個繁忙十字街口和一條超級混亂的印度公路。

「如果一輛自駕車總是循規蹈矩，那麼在高峰期間，它可能會等一個小時都無法成功併線，」Shalev-Shwartz說。

Mobileye計劃在今年晚些時候與寶馬和英特爾合作測試一系列車載軟體。 Google和Uber都表示，他們也在為自駕車輛進行強化學習。

斯坦福助理教授Emma Brunskill說，強化學習正在越來越多的應用於這個領域。

但是，她表示，它非常適合自動駕駛，因為它能夠實現「良好的決策次序」。如果程序員必須提前將所有這些決定編碼到駕駛軟體中，進度則會慢得多。

不要忘記前面還有很多挑戰。

前百度首席科學家吳恩達警告說，這種方法的前期仍需要大量數據，事實上當計算機可以不間斷模擬時我們已經成功一大半。

還有，我們仍然需要弄清楚如何使強化學習在複雜多目標的情況下工作。

打比方說， Mobileye仍需要調整演算法不僅能夠避免捲入事故，而且也不會增加其它車輛事故的概率。

至少迄今為止，Mobileye似乎已經獲得巨大成功。

然而接下來的路測才是終極考驗；到今年晚些時候，您沒準在附近的高速上就能看到他們的無人車飛馳呢。

請點擊文章最上方的藍色字體人工智慧商業或掃描屏幕下方二維碼關注我們微信公眾號aihelps。歡迎加入人工智慧商業化社群交流，請加微信號12956250。

特別提示：

本文章由亮劍會提供，亮劍會是鄒洪亮和胡曾劍聯合創辦的AI商業應用社群，致力於人工智慧的商業化。

鄒洪亮，電子商務資深顧問，擁有15年豐富的互聯網一線操盤經驗，曾任500彩票網(紐交所: WBAI)副總裁。移居加拿大後，創辦Havlek諮詢公司，為加拿大著名企業MEC、JYSK、Saje、Uniserve等提供雲架構設計、大規模計算、商業智能分析等服務。

胡曾劍，Simon Fraser University 計算機博士，人工智慧科學家，專長演算法設計、運籌學、機器學習以及智能軟體開發。現在美國著名能源交易服務公司The Energy Authority 任職Research Scientist，2014年作為首席架構師項目獲得運籌學最高獎Edelman Prize 提名。