阿爾法狗走出電腦,它們現在控制著機器人,自己學會了開門!

如果你對阿爾法狗的印象還停留在圍棋無敵,你又OUT了。

次元君發現,AI和機器人領域的發展真是一日千里。

《連線》雜誌日前引用了一段機器人視頻

在這個視頻里,4個機械手臂不斷的把工作人員關上的門打開。

Collective Robot Reinforcement Learning, Training Phase—在線播放—優酷網,視頻高清在線觀看 http://v.youku.com/v_show/id_XMjQ5MjAwNTE2NA==.html#paction 你可能會認為,機械手臂開門有什麼好奇怪的。

但這4個機器人不一樣,因為它們是自己學會的

視頻里沒有展示機器人的學習過程,但是《連線》雜誌仔細描述機器的學習過程。

最開始,這些機器人把手臂伸過去,結果啥都沒摸著。

接著,它們又試了一次,這次它們碰到了門把手。

就這樣,它們反反覆復的練習,最後,它們終於抓住了門把手,把門打開。

這就是「強化學習」:它們能訓練自己,去執行一個特定的目標。

它們會把這個任務重複一遍又一遍,仔細觀察什麼動作是管用的,什麼動作是不管用的。

AlphaGo就是利用了相同的技術,把自己訓練成比人類更厲害的圍棋大師。

看來,這種技術很快就會把機器人技術推向一個全新的台階。

「我們感興趣的是可以與人類互動的機器人,」Ronnie Vuine說,他和哈佛認知科學家Joscha Bach一起創立了機器人公司Micropsi。 「想像一下,一個機器人正做一件工作,然後它把工作交到了人類的手裡。或者它從人類的手中接過一件工作。在今天,這還沒法實現。

強化學習不算是新技術。

兩年前,當Google在倫敦構建人工智慧實驗室DeepMind時,就開始使用這種技術了。

打磚塊這個遊戲里,DeepMind的AI學會了擊中牆後面的磚塊,並採用了不可思議的辦法,極有效率地擊中了一塊塊磚。

然後,實驗室決定對圍棋運用相同的技術,提早十年攻破了這個古老的遊戲。

DeepMind的團隊,將大約3000萬種圍棋的落子方式,輸入進深層神經網路

深層神經網路是一個模式識別系統,可以通過分析大量的數據來學習執行任務。

一旦AI學會了遊戲規則,它開始跟自己對弈,一遍又一遍,不斷提高水平。

強化學習特別適合遊戲。因為這種技術由「獎勵模塊」驅動。

這個模塊會跟蹤計算,分析哪些動作能帶來獎勵,哪些不能帶來獎勵。

在遊戲中,獎勵是顯而易見的:贏取更多的積分

但類似的技術和其他類型的軟體以及在物理世界一起工作時,獎勵模塊有時不大明顯,有時則會體現更多。

對於視頻里的谷歌機器人來說,獎勵就是打開門

當然,打開門只是機器人進入大千世界的一小部分。

更大的目標會變得非常複雜,要求非常迅速,更別說非常昂貴了。

這就是為什麼許多其他研究人員要使用數字模擬的原因,在正式進入物理世界之前,利用數字模擬探索強化學習,彌補遊戲和機器人之間的差距。

你可以利用「OpenAI」,這是由Elon Musk開發的價值數十億美元的人工智慧實驗室。

它構建了一個名為Universe的軟體平台,其中的AI「中介」可以使用強化學習來掌握各種計算機應用,從遊戲到Web瀏覽器。

理論上,這可以幫助構建模擬機器人在現實世界中的操作。

如果你能教會AI玩《極品飛車》,理論上你也就可以教會它開真正的車

Prowler.io是英國劍橋的創業公司,這家公司沿著同樣的道路前進。

這個小團隊的研究人員原本正在建立AI中介,用來可以學習大型多人遊戲,在虛擬世界中進行導覽

隨著時間的推移,他們計劃將這個AI擴展到現實世界中的機器人無人駕駛汽車

AI根據工程師編製的一套規模龐大的規則做出決定,當然,這離真正的自由決策還有很長的路要走。

Prowler的創始人把他以前創辦的AI公司賣給了蘋果,他認為深度學習以及相關技術對於構建真正的無人駕駛汽車至關重要,他認為汽車可以做一切人類駕駛者能做的事情

在柏林,Micropsi已經將這些技術推廣到物理系統中,跟Google建立的系統一樣。

Micropsi成立於2014年,這家公司著眼於製造基於工業目標的機器人。公司已經開始建立機器人模擬系統,它可以通過強化學習來訓練。

如果說有什麼麻煩,那就是物理世界也需要發展新技術。

Vuine聲稱他的公司可以解決計算機模擬中的出現的任何機器人的問題,但模擬不是真正的現實操作

「如果你在模擬中實現了目標,距離實現其實一半都沒完成,」他承認。 「和觸控相關的物理學難度非常高。」

換句話說,你可以使用模擬來構建一個能夠平衡前進的機器人,但是要教它將插頭插入插座,得用上真實的插頭和真實的插座。

把插頭插進插座其實是個簡單的問題,因為操作結果的獎勵非常明確。

現實操作的大多數行為要來的更難評價。當你將任務串聯在一起的時候,獎勵系統會變得異常複雜。

研究人員認為,在現階段,探索基於物理世界的AI的最好方法是通過玩具:小而簡單的機器

也就是說,當AI學會了使用簡單的機器,他們應該就利用所學到的東西去學習操作更複雜的機器

很明顯的是,機器人不只一種學習方式。它們有很多很多種方式。在這麼多基於強化學習的AI公司里,它們已經開始了

關注微信公眾號:次元新科技Up2333up),看吃瓜群眾最關心的未來科技
推薦閱讀:

Dimensionality Reduction——LDA線性判別分析實現篇
Facebook 能主動監測出自殺傾向的用戶,並及時提供援助
令人拍案叫絕的Wasserstein GAN
人工智慧&家裝行業:可以賦能設計師的AI才是好AI
人臉識別的下一挑戰:識破蒙面人

TAG:机器人 | 人工智能 | AlphaGo |