黃士傑離開 AlphaGo 項目,意味 AlphaGo 落下帷幕了嗎?DeepMind 下一步是什麼?
別了,AlphaGo之魂——黃士傑
黃也有 AlphaGo「 爸爸 」的昵稱,不只是科技界、學界,包括圍棋界不少的朋友都曾和他有交集,你眼裡的黃士傑博士是怎麼樣的人?DeepMind 的下一步是專註通用人工智慧 AGI 嗎?
很多證據表明DeepMind的下一步工作可能是挑戰StarCraft II。
最明顯的證據就是《StarCraft II: A New Challenge for Reinforcement Learning》這篇論文。這篇論文主要介紹了DeepMind和暴雪一起研發的星際爭霸AI測試平台,並且介紹了自己的初步嘗試(雖然非常不好)。值得注意的是本文第一作者Oriol Vinyals本身就是星際高手。
即使拋開這篇論文不提,我們也可以推斷出DeepMind的野心,因為他們的思路實在是清晰的很——星際爭霸難於圍棋的關鍵點就幾個:無窮連續動作空間與狀態空間、不完全信息博弈、異構多智能體協作和控制、長時間無反饋的強化學習。
DeepMind現在就是多路並發,什麼骨頭都啃,百萬雄師過大江。只不過AlphaGo太牛逼了,外行小白以為DeepMind只會下圍棋,殊不知其他領域的成果已經看的其他機構心涼涼了。
1.連續動作空間與狀態空間的工作(這部分已經世人皆知):
Feudal networks for hierarchical reinforcement learning(2017)
Continuous control with deep reinforcement learning(2015)
Human-level control through deep reinforcement learning(2015)
Prioritized experience replay(減少連續空間的關聯,2015)
Learning continuous control policies by stochastic value gradients(2015)
2.不完全信息博弈的鋪墊工作有:
Deep Reinforcement Learning from Self-Play in Imperfect-Information Games(2016)
Fictitious self-play in extensive-form games. (2015)
3.多智能體協同和控制的鋪墊工作:
A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning(2017)
Learning to communicate with deep multi-agent reinforcement learning(2016)
4.長時間無反饋強化學習的鋪墊工作:
The hippocampus as a predictive map(類腦科學研究,用海馬體記憶知識,2017)
Learning values across many orders of magnitude(2016)
除此之外還有強化學習的基礎理論研究:
Rainbow: Combining Improvements in Deep Reinforcement Learning(2017)
Reinforcement learning with unsupervised auxiliary tasks.(2016)
Deep reinforcement learning with double Q-learning.(2016)
Asynchronous methods for deep reinforcement learning(目前最牛逼之一的A3C,2016)
Massively parallel methods for deep reinforcement learning(並行研究,2015)
Playing atari with deep reinforcement learning.(DQN開山之作,2013)
The grand challenge of computer go: Monte Carlo tree search and extensions(2012)
Move evaluation in go using deep convolutional neural networks.(2015)
令人感到尿崩的是,以上都是他們一家的公開工作,不包括藏著掖著的工作。除此之外,為了完成StarCraft II的工作,他們完全可以參考其他優秀的工作,比如說今年的NIPS最佳的博弈工作。
再多說一步,如果未來5-10年內StarCraft被征服了,那麼美國國防高級研究計劃局(DARPA)應該會投非常多資金進去的(很可能現在就在投錢)。根本上說,DeepMind和Boston Dynamics等軍方背景的技術公司扮演的角色非常接近——都是在研究一些短期看不見收益,而且軍用價值遠大於民用價值的產品。你可以想像一下美軍機械化陸軍師團用DeepMind星際爭霸演算法精密控制著火力配合,步兵師團里充斥著Boston Dynamics的Altas士兵。這是什麼場景?放心,2020年肯定不會有,但是在2035呢?在2050呢?
優秀的公司可以把野心完全的暴露出來,他們認為就算我們知道了也沒有太多彎道超車的辦法,所以吾輩加油。
2018年01月04日更新:DeepMind開源了強化學習研究環境,印證了我的猜測。
資源 | DeepMind開源強化學習研究環境Control Suitetech.ifeng.com相關回答
深度強化學習關鍵問題與現有解法論文集
如何看待世界首屆星際爭霸人機大戰職業選手stork4:0完爆人工智慧?
三年內的電腦程序AI是否能在星際爭霸,星際爭霸2,魔獸爭霸3之類的RTS競技比賽中,用戰術擊敗職業?
目前的人工智慧都是項目專精的
下圍棋的就下圍棋
識別圖像的就識別圖像
語音的就語音
~
所以你說的通用人工智慧。
暫時世界上的頂級機構也依然在探索。
DM顯然不是只做一個下圍棋的就完事了。
不過凡事都是講究一個循序漸進,他們現在做的一些事是在探尋這些方法的邊界在哪裡,能否做到某些曾經被認為不可能的事情。
其實簡單來說就算把AG那一套東西直接挪給其他東西用,效果也不會好。
他那個框架換一個問題域,很多做法就不一定能行得通。
阿爾法狗下棋只是測試演算法和揚名的手段,並不是它的終極目的。
現在看來,這套演算法似乎很管用,作為揚名的手段,也很管用。
所以谷歌很早的就把目光指向了醫療領域,因為他們認為現代醫學並沒有從根本上上,也就是從基因的層面上解決醫療問題,因為人的基因組合太過於複雜,超過了人類的理解和計算的能力,但是或許阿爾法狗可以做到,從基因層面上徹底改變現在的醫療狀況。
所以黃士傑離開阿爾法狗項目,或許是阿爾法狗已經做了足夠多的努力,可以功成身退了,賺足了人們的眼球,接下來該發paper發paper。但是這個並不意味著人工智慧到此為止。
不過我們現在談AI,就像我們20多年前談互聯網一樣,「它可以在一秒之內把一整套大英百科全書送到你面前」,缺乏想像力,目光還是短淺的多。經過了20多年的發展,我們發現互聯網對我們生活的改變,遠遠不止傳送一套百科全書那麼簡單,甚至現在,連大英百科全書都沒有人再去提及了,互聯網百科全書維基百科取而代之。所以AI在未來能做到怎麼樣的改變,不知道,我們很少有人能看到那麼遠的未來,但一定是激動人心的改變。
所以DeepMind接下來的工作,就是讓AI更加實用和普及,去更基礎的層面去,而不是下下棋,就像電、互聯網一樣,悄無聲息的進入生活的方方面面,最後變得和空氣一樣,非常重要,到處都有,但是幾乎沒有存在感。我想這是DeepMind想要實現的目標。
謝邀,我覺得這年頭誰也不會腦子發燒去搞什麼通用人工智慧,deepmind的下一步搞什麼我不知道,也判斷不出來,要是知道我就會搶先投入這個方向。
謝邀。
「其實黃早有職業十三段棋力,但一直隱姓埋名。這次假借阿狗的名義,其實是他自己下的棋贏了李世石,這是谷歌欺世盜名的一個陰謀。」
轉自百度貼吧。AlphaStock!這是所有方向的投資裡面,最直接見效的。
其他任何一個方向,都是間接盈利,只有AlphaStock,一旦成功,那就是直接往Deepmind的賬戶上劃拉錢。
從此,Deepmind甚至可能都不再需要外界投資了。Deepmind目前在搞三件事情,一個是StarCraft2,一個是把Deep Learning用在醫學上解決實際問題,以及把AI推廣到通用AI(Artificial General Intelligence)上面。
另外很鄙視那些說alphago沒有用的人,所有現在做的一切都是為了讓人類社會更好地發展,遊戲就是AI界的果蠅,怎麼會沒有意義。儘管AGI還很遠,但是新事物的發展都是從最簡單的東西開始,不是嗎?
David Silver才是核心。
其實按照AlphaGo目前在圍棋上達到的高度,開發出的一些新定式新思維,已足夠圍棋界研究二十年。
DeepMind下一步在哪裡,我認為很有可能將這種複雜變化的概率演算法運用到醫學之中。
目前股票走得最強的兩種股就是人工智慧和基因產業。這也是國家重點支持的產業,是必須要跟國外競爭的產業,無論如何國家都要扶持。
參照:馬斯克等AI專家簽公開信:聯合國要禁殺人機器人
知乎用戶:禁止有遺傳病或者基因缺陷的人繁殖是否可行?
假如讓美國基因技術有重大突破,其科技代差帶來的降維打擊是無比恐怖的。他們可以找到只針對黃種人缺陷的基因病毒,然後不需要發動戰爭,直接一個生化武器就可以讓亞洲人死一大片。
醫學領域目前最尖端的就是基因技術,而其複雜性同樣是人很難研究透徹的。就像圍棋的變化,如果要窮舉,參照:圍棋的總盤數是多少?
光圍棋的變化就已經比宇宙的原子總數多幾十個數量級了。人類研究數千年也不過總結出了許多大概的走法而已。至於基因能夠產生的變化,如果沒有人工智慧,要靠人類目前的科技瓶頸層次一點一點的研究積累,那真的是呵呵,研究到宇宙毀滅吧。
如果將人工智慧應用於該領域,則有一定可能取得突破性進展。
拋開基因層面,單純從醫療來講,其實目前醫生診斷誤診率是相當之高的,而且很多診斷都依賴於各種儀器和設備。
人工智慧達到比醫生診斷正確率高得多,這樣我們醫藥工作者都可以下崗了,
太好了,造福人類,大快人心
個人認為這幾年DeepMind的出現,其實主要目的是引爆深度學習這一個熱點。而團隊的人員流動其實是很正常的。一個公司和團隊發展這麼多年有人員變動也正常,或許對DeepMind是一件好事。至於通用人工智慧,現在誰去做都是大坑,估計應該不是這個方向。
但是,還是希望其下一步能做出一些更好玩的事情來!
星際爭霸solve the starcraft ,solve the [ ]好吧,不是world是war
謝邀谷歌在下一盤大棋,圍棋只是其中一部分,黃博士雖然對阿爾法狗項目作出很大貢獻,但也不是非他不可,現在阿爾法狗退役,各類相關研究也暫時中止,但谷歌的大棋還在下,但下一步棋走哪裡誰都沒法兒猜,拭目以待就好
AlphaGo是個非常特殊問題上的特殊結構,其泛化性能僅限於此類對稱有限狀態空間的遊戲,且本質要求系統代價函數空間的良好的平滑性和landscape分布特性。如果用到大型開放性遊戲上,其問題空間要更複雜,其上策略函數空間的曲率極可能是非正的,那麼系統的收斂性就完全沒有保證,可能只能將遊戲進行分段學習解決。
支持高贊 @王留行 的回答。
我這麼概括現狀:Deepmind和OpenAI頂RL領域的半壁江山。
要知道現在連David Silver的導師,RL的開山鼻祖Richard S. Sutton都是Deepmind的人了。這公司實力強的令人髮指。Deepmind挑戰的項目都是拿來驗證演算法,同時吸引眼球的,他們真正的工作都體現在論文里。
首先謝邀,雖然對於阿法狗的團隊和他們的計劃目標不是很了解,但我對人機大戰和人工智慧還是十分感興趣的,阿法狗這種應用前景十分廣闊的項目應該是不會落幕的。
既然來了,就簡單聊聊兩句AI吧,目前AI的發展,我認為是還沒有進入革命性進步的階段。AI的核心演算法從本質上來說就是數學遍歷。把所有的可能性做一遍推演並找出相對成功率更高的結果,僅從效果來說,AI比人更高效的結論來自於這種遍歷演算法的處理速度而已。也就是說,目前還沒有一種決定性的事物(演算法,軟體,或者硬體)能夠讓AI進化成真正的人。這也就是為什麼能夠在圍棋上制霸的阿法狗在星際2上卻很難獲得突破性進展,原因即使如此。(實際上在遊戲操作上已經遠遠超過人類,但在信息不對等的戰術層面上還是十分落後。)
那麼放長遠來看,AI未來最終能到達什麼樣的高度?
我們都知道,信息在大腦里的處理過程是多元立體化的,但AI目前的技術卻只能處理單元信息輸入並給出演算結果。這也是AI發展的方向,即使AI本身在硬體條件上已經超過人腦,在現實中代替人類進行反覆性的技術或體力工作也已經十分成熟,但要讓AI具有真正的自我學習能力還有很長的路子要走。至少我的預測,在能夠預見的時間裡,AI是無法達到人類的高度的。
說回阿法狗團隊這個事,無論是因為什麼,團隊成員更換不是一件壞事。畢竟要挑戰的更多現實遠比圍棋要難得多的多,要解決問題,換一種路子也許是最合適方法。
我對AI發展方向的看法還是在於尋求在更多的單維上尋求極限的突破,因為AI本身就已經是一個超越人類能力存在的工具,為什麼還要強行把AI做成一個人呢?
知道AlphaGo項目,但還真沒關注過是誰主導的。
現在的圖像類的人工智慧,更多是用CNN去訓練圖像的識別,或者直白點說就是比對。
人類終於從比較兩個整數是否相等,進步到了比較兩幅圖是否「相等」。
「智能」,是建立在比較「兩幅圖是否相等」之上的,但是比較之後的「邏輯處理過程」還是寫好的程序。
訓練模型需要大量的樣本。但是嬰兒學看圖識字是不需要大量樣本的,只要幾幅圖就可以。
下一步,先解決小樣本下的模型訓練吧。google的戰略很清楚,要做人型機器人,收購布局很多年了,deepmind和另一個干差不多活兒的團隊相當於這個大計劃的大腦
很多人擔心美國人工智慧和機器人結合,打贏一切戰爭遊戲,稱霸陸海空三軍,甚至核戰、信息戰、太空爭奪戰等等。
別擔心,Google AI都是華人,甚至要搬到中國來,讓中國人控制,應該很安全的。拼湊超算很容易,架構神經網路很容易,抄代碼很容易,怕什麼?只要不是加工技術水平的問題,抄襲是幾秒間的事。
再者,人工智慧只能搞戰術,戰略不行。為什麼呢?因為戰術在有限狹小空間內,環境和規則人工智慧可以摸透,但戰略是沒有規則的。只要是沒有規則的遊戲,人工智慧尚無希望戰勝人類,至少目前如此。
人們不知道,有人在2015年12月初在科學網把Deepmind的圍棋商業秘密提前透露出來了!
原帖還在,有心人可以去看看,帖子三言兩語就把AlphaGo到AlphaZero演算法的的核心思路給點明了,可以這麼說,帖子作者對圍棋智能的理解,覺不在Deepmind團隊之下!
這個帖子某種意義上也是我們中國人在圍棋智能上值得驕傲證據。
原帖地址http://blog.sciencenet.cn/blog-3075-936500.html推薦閱讀:
※打響新年第一炮,Gary Marcus提出對深度學習的系統性批判
※機器能否真的取代人類老師?|眾議人工智慧與未來教育
※搜狗IPO:完美的時機,有待驗證的故事
※Lending Club——構建貸款違約預測模型
TAG:互聯網 | 人工智慧 | 深度學習DeepLearning | GoogleDeepMind | AIphaGO |