黃士傑離開 AlphaGo 項目，意味 AlphaGo 落下帷幕了嗎？DeepMind 下一步是什麼？

01-27

別了，AlphaGo之魂——黃士傑
黃也有 AlphaGo「爸爸」的昵稱，不只是科技界、學界，包括圍棋界不少的朋友都曾和他有交集，你眼裡的黃士傑博士是怎麼樣的人？DeepMind 的下一步是專註通用人工智慧 AGI 嗎？

很多證據表明DeepMind的下一步工作可能是挑戰StarCraft II。

最明顯的證據就是《StarCraft II: A New Challenge for Reinforcement Learning》這篇論文。這篇論文主要介紹了DeepMind和暴雪一起研發的星際爭霸AI測試平台，並且介紹了自己的初步嘗試（雖然非常不好）。值得注意的是本文第一作者Oriol Vinyals本身就是星際高手。

即使拋開這篇論文不提，我們也可以推斷出DeepMind的野心，因為他們的思路實在是清晰的很——星際爭霸難於圍棋的關鍵點就幾個：無窮連續動作空間與狀態空間、不完全信息博弈、異構多智能體協作和控制、長時間無反饋的強化學習。

DeepMind現在就是多路並發，什麼骨頭都啃，百萬雄師過大江。只不過AlphaGo太牛逼了，外行小白以為DeepMind只會下圍棋，殊不知其他領域的成果已經看的其他機構心涼涼了。

1.連續動作空間與狀態空間的工作（這部分已經世人皆知）：

Feudal networks for hierarchical reinforcement learning（2017）

Continuous control with deep reinforcement learning（2015）

Human-level control through deep reinforcement learning（2015）

Prioritized experience replay（減少連續空間的關聯，2015）

Learning continuous control policies by stochastic value gradients（2015）

2.不完全信息博弈的鋪墊工作有：

Deep Reinforcement Learning from Self-Play in Imperfect-Information Games（2016）

Fictitious self-play in extensive-form games. （2015）

3.多智能體協同和控制的鋪墊工作：

A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning（2017）

Learning to communicate with deep multi-agent reinforcement learning（2016）

4.長時間無反饋強化學習的鋪墊工作：

The hippocampus as a predictive map（類腦科學研究，用海馬體記憶知識，2017）

Learning values across many orders of magnitude（2016）

除此之外還有強化學習的基礎理論研究：

Rainbow: Combining Improvements in Deep Reinforcement Learning（2017）

Reinforcement learning with unsupervised auxiliary tasks.（2016）

Deep reinforcement learning with double Q-learning.（2016）

Asynchronous methods for deep reinforcement learning（目前最牛逼之一的A3C，2016）

Massively parallel methods for deep reinforcement learning（並行研究，2015）

Playing atari with deep reinforcement learning.（DQN開山之作，2013）

The grand challenge of computer go: Monte Carlo tree search and extensions（2012）

Move evaluation in go using deep convolutional neural networks.（2015）

令人感到尿崩的是，以上都是他們一家的公開工作，不包括藏著掖著的工作。除此之外，為了完成StarCraft II的工作，他們完全可以參考其他優秀的工作，比如說今年的NIPS最佳的博弈工作。

再多說一步，如果未來5-10年內StarCraft被征服了，那麼美國國防高級研究計劃局（DARPA）應該會投非常多資金進去的（很可能現在就在投錢）。根本上說，DeepMind和Boston Dynamics等軍方背景的技術公司扮演的角色非常接近——都是在研究一些短期看不見收益，而且軍用價值遠大於民用價值的產品。你可以想像一下美軍機械化陸軍師團用DeepMind星際爭霸演算法精密控制著火力配合，步兵師團里充斥著Boston Dynamics的Altas士兵。這是什麼場景？放心，2020年肯定不會有，但是在2035呢？在2050呢？

優秀的公司可以把野心完全的暴露出來，他們認為就算我們知道了也沒有太多彎道超車的辦法，所以吾輩加油。

2018年01月04日更新：DeepMind開源了強化學習研究環境，印證了我的猜測。

資源 | DeepMind開源強化學習研究環境Control Suitetech.ifeng.com

相關回答

深度強化學習關鍵問題與現有解法論文集

如何看待世界首屆星際爭霸人機大戰職業選手stork4:0完爆人工智慧？

三年內的電腦程序AI是否能在星際爭霸，星際爭霸2，魔獸爭霸3之類的RTS競技比賽中，用戰術擊敗職業？

目前的人工智慧都是項目專精的

下圍棋的就下圍棋

識別圖像的就識別圖像

語音的就語音

所以你說的通用人工智慧。

暫時世界上的頂級機構也依然在探索。

DM顯然不是只做一個下圍棋的就完事了。

不過凡事都是講究一個循序漸進，他們現在做的一些事是在探尋這些方法的邊界在哪裡，能否做到某些曾經被認為不可能的事情。

其實簡單來說就算把AG那一套東西直接挪給其他東西用，效果也不會好。

他那個框架換一個問題域，很多做法就不一定能行得通。

阿爾法狗下棋只是測試演算法和揚名的手段，並不是它的終極目的。

現在看來，這套演算法似乎很管用，作為揚名的手段，也很管用。

所以谷歌很早的就把目光指向了醫療領域，因為他們認為現代醫學並沒有從根本上上，也就是從基因的層面上解決醫療問題，因為人的基因組合太過於複雜，超過了人類的理解和計算的能力，但是或許阿爾法狗可以做到，從基因層面上徹底改變現在的醫療狀況。

所以黃士傑離開阿爾法狗項目，或許是阿爾法狗已經做了足夠多的努力，可以功成身退了，賺足了人們的眼球，接下來該發paper發paper。但是這個並不意味著人工智慧到此為止。

不過我們現在談AI，就像我們20多年前談互聯網一樣，「它可以在一秒之內把一整套大英百科全書送到你面前」，缺乏想像力，目光還是短淺的多。經過了20多年的發展，我們發現互聯網對我們生活的改變，遠遠不止傳送一套百科全書那麼簡單，甚至現在，連大英百科全書都沒有人再去提及了，互聯網百科全書維基百科取而代之。所以AI在未來能做到怎麼樣的改變，不知道，我們很少有人能看到那麼遠的未來，但一定是激動人心的改變。

所以DeepMind接下來的工作，就是讓AI更加實用和普及，去更基礎的層面去，而不是下下棋，就像電、互聯網一樣，悄無聲息的進入生活的方方面面，最後變得和空氣一樣，非常重要，到處都有，但是幾乎沒有存在感。我想這是DeepMind想要實現的目標。

謝邀，我覺得這年頭誰也不會腦子發燒去搞什麼通用人工智慧，deepmind的下一步搞什麼我不知道，也判斷不出來，要是知道我就會搶先投入這個方向。

謝邀。

「其實黃早有職業十三段棋力，但一直隱姓埋名。這次假借阿狗的名義，其實是他自己下的棋贏了李世石，這是谷歌欺世盜名的一個陰謀。」

轉自百度貼吧。

AlphaStock！這是所有方向的投資裡面，最直接見效的。

其他任何一個方向，都是間接盈利，只有AlphaStock，一旦成功，那就是直接往Deepmind的賬戶上劃拉錢。

從此，Deepmind甚至可能都不再需要外界投資了。

Deepmind目前在搞三件事情，一個是StarCraft2，一個是把Deep Learning用在醫學上解決實際問題，以及把AI推廣到通用AI(Artificial General Intelligence)上面。

另外很鄙視那些說alphago沒有用的人，所有現在做的一切都是為了讓人類社會更好地發展，遊戲就是AI界的果蠅，怎麼會沒有意義。儘管AGI還很遠，但是新事物的發展都是從最簡單的東西開始，不是嗎？

David Silver才是核心。

其實按照AlphaGo目前在圍棋上達到的高度，開發出的一些新定式新思維，已足夠圍棋界研究二十年。

DeepMind下一步在哪裡，我認為很有可能將這種複雜變化的概率演算法運用到醫學之中。

目前股票走得最強的兩種股就是人工智慧和基因產業。這也是國家重點支持的產業，是必須要跟國外競爭的產業，無論如何國家都要扶持。

參照：馬斯克等AI專家簽公開信：聯合國要禁殺人機器人

知乎用戶：禁止有遺傳病或者基因缺陷的人繁殖是否可行？

假如讓美國基因技術有重大突破，其科技代差帶來的降維打擊是無比恐怖的。他們可以找到只針對黃種人缺陷的基因病毒，然後不需要發動戰爭，直接一個生化武器就可以讓亞洲人死一大片。

醫學領域目前最尖端的就是基因技術，而其複雜性同樣是人很難研究透徹的。就像圍棋的變化，如果要窮舉，參照：圍棋的總盤數是多少？

光圍棋的變化就已經比宇宙的原子總數多幾十個數量級了。人類研究數千年也不過總結出了許多大概的走法而已。至於基因能夠產生的變化，如果沒有人工智慧，要靠人類目前的科技瓶頸層次一點一點的研究積累，那真的是呵呵，研究到宇宙毀滅吧。

如果將人工智慧應用於該領域，則有一定可能取得突破性進展。

拋開基因層面，單純從醫療來講，其實目前醫生診斷誤診率是相當之高的，而且很多診斷都依賴於各種儀器和設備。

人工智慧達到比醫生診斷正確率高得多，這樣我們醫藥工作者都可以下崗了，

太好了，造福人類，大快人心

個人認為這幾年DeepMind的出現，其實主要目的是引爆深度學習這一個熱點。

而團隊的人員流動其實是很正常的。一個公司和團隊發展這麼多年有人員變動也正常，或許對DeepMind是一件好事。

至於通用人工智慧，現在誰去做都是大坑，估計應該不是這個方向。

但是，還是希望其下一步能做出一些更好玩的事情來！

星際爭霸

solve the starcraft ,solve the [ ]

好吧，不是world是war

謝邀

谷歌在下一盤大棋，圍棋只是其中一部分，黃博士雖然對阿爾法狗項目作出很大貢獻，但也不是非他不可，現在阿爾法狗退役，各類相關研究也暫時中止，但谷歌的大棋還在下，但下一步棋走哪裡誰都沒法兒猜，拭目以待就好

AlphaGo是個非常特殊問題上的特殊結構，其泛化性能僅限於此類對稱有限狀態空間的遊戲，且本質要求系統代價函數空間的良好的平滑性和landscape分布特性。如果用到大型開放性遊戲上，其問題空間要更複雜，其上策略函數空間的曲率極可能是非正的，那麼系統的收斂性就完全沒有保證，可能只能將遊戲進行分段學習解決。　

支持高贊 @王留行的回答。

我這麼概括現狀：Deepmind和OpenAI頂RL領域的半壁江山。

要知道現在連David Silver的導師，RL的開山鼻祖Richard S. Sutton都是Deepmind的人了。這公司實力強的令人髮指。Deepmind挑戰的項目都是拿來驗證演算法，同時吸引眼球的，他們真正的工作都體現在論文里。

首先謝邀，雖然對於阿法狗的團隊和他們的計劃目標不是很了解，但我對人機大戰和人工智慧還是十分感興趣的，阿法狗這種應用前景十分廣闊的項目應該是不會落幕的。

既然來了，就簡單聊聊兩句AI吧，目前AI的發展，我認為是還沒有進入革命性進步的階段。AI的核心演算法從本質上來說就是數學遍歷。把所有的可能性做一遍推演並找出相對成功率更高的結果，僅從效果來說，AI比人更高效的結論來自於這種遍歷演算法的處理速度而已。也就是說，目前還沒有一種決定性的事物（演算法，軟體，或者硬體）能夠讓AI進化成真正的人。這也就是為什麼能夠在圍棋上制霸的阿法狗在星際2上卻很難獲得突破性進展，原因即使如此。（實際上在遊戲操作上已經遠遠超過人類，但在信息不對等的戰術層面上還是十分落後。）

那麼放長遠來看，AI未來最終能到達什麼樣的高度？

我們都知道，信息在大腦里的處理過程是多元立體化的，但AI目前的技術卻只能處理單元信息輸入並給出演算結果。這也是AI發展的方向，即使AI本身在硬體條件上已經超過人腦，在現實中代替人類進行反覆性的技術或體力工作也已經十分成熟，但要讓AI具有真正的自我學習能力還有很長的路子要走。至少我的預測，在能夠預見的時間裡，AI是無法達到人類的高度的。

說回阿法狗團隊這個事，無論是因為什麼，團隊成員更換不是一件壞事。畢竟要挑戰的更多現實遠比圍棋要難得多的多，要解決問題，換一種路子也許是最合適方法。

我對AI發展方向的看法還是在於尋求在更多的單維上尋求極限的突破，因為AI本身就已經是一個超越人類能力存在的工具，為什麼還要強行把AI做成一個人呢？

知道AlphaGo項目，但還真沒關注過是誰主導的。

現在的圖像類的人工智慧，更多是用CNN去訓練圖像的識別，或者直白點說就是比對。

人類終於從比較兩個整數是否相等，進步到了比較兩幅圖是否「相等」。

「智能」，是建立在比較「兩幅圖是否相等」之上的，但是比較之後的「邏輯處理過程」還是寫好的程序。

訓練模型需要大量的樣本。但是嬰兒學看圖識字是不需要大量樣本的，只要幾幅圖就可以。

下一步，先解決小樣本下的模型訓練吧。

google的戰略很清楚，要做人型機器人，收購布局很多年了，deepmind和另一個干差不多活兒的團隊相當於這個大計劃的大腦

很多人擔心美國人工智慧和機器人結合，打贏一切戰爭遊戲，稱霸陸海空三軍，甚至核戰、信息戰、太空爭奪戰等等。

別擔心，Google AI都是華人，甚至要搬到中國來，讓中國人控制，應該很安全的。拼湊超算很容易，架構神經網路很容易，抄代碼很容易，怕什麼？只要不是加工技術水平的問題，抄襲是幾秒間的事。

再者，人工智慧只能搞戰術，戰略不行。為什麼呢？因為戰術在有限狹小空間內，環境和規則人工智慧可以摸透，但戰略是沒有規則的。只要是沒有規則的遊戲，人工智慧尚無希望戰勝人類，至少目前如此。

人們不知道，有人在2015年12月初在科學網把Deepmind的圍棋商業秘密提前透露出來了！

原帖還在，有心人可以去看看，帖子三言兩語就把AlphaGo到AlphaZero演算法的的核心思路給點明了，可以這麼說，帖子作者對圍棋智能的理解，覺不在Deepmind團隊之下！

這個帖子某種意義上也是我們中國人在圍棋智能上值得驕傲證據。

原帖地址

http://blog.sciencenet.cn/blog-3075-936500.html