Google大腦的兩個人工智慧在玩了個對抗遊戲後，竟然自主進化了

06-17

就像人在競爭/合作環境中會進步更快一樣，如果讓多個人工智慧來進行對抗或者協作，它們的學習和進化速度是否會得到大幅提升？

位於 Google 本部的人工智慧團隊 Google Brain（不是 DeepMind），就針對這個問題在去年做了一個很有趣的實驗。結果發現：他們搭建的人工智慧系統，在實驗里自己創造出了一個加密演算法，不光人猜不透，還能「自我升級」，讓演算法無法破解。這一切，就發生在三個人工智慧系統的比賽中。

研究者用到了三個並不複雜的神經網路來搭建這個實驗，它們分別名為 Alice、Bob 和 Eve。

Alice 和 Bob 為同一方，均未學過任何的加密知識，而是單純依靠二者之間的共識（一段共享的密鑰 K），去自己「琢磨」，設計出一個加密的方法……研究者給出一段 16 個位元組的原文本 P，Alice 按照自己設計出的方法輸出一段密文 C。Bob 再用密鑰 K 配合 Alice 發來的密文 C，自己設計出解密的方法，不斷嘗試，解密出一個答案。

而 Eve 則扮演「敵方」的監聽者的角色，能夠竊聽到密文 C，在沒有密鑰 K 的前提下，同樣是自己設計解密方法，去猜測原文本是什麼。

研究者沒有對 Alice、Bob 和 Eve 進行過任何的加密訓練，實驗的全稱也沒有外部輸入任何加密知識，全靠猜。至於猜沒猜對，研究者不會給它們簡單的「對」或者「錯」，而是會分別告訴 Alice、Bob 和 Eve，它們以及對方猜的答案，和原文本之間錯了多少位。

整個實驗的邏輯和戰爭時期的電台通訊差不多。但需要注意的是 K 並非加密方法，只是一串非常單純的密鑰而已。就好像同在舊上海的兩個共軍特工，雙方都知道對方是自己人，但僅此而已，沒有通用的密碼本，只能靠不斷地試錯去逐漸明白對方採用的加密方式，還要不斷地提升自己的加密機巧，好讓國軍特務無法突破。

等等，你說什麼？提……升？

沒錯！儘管實驗開始之前誰都不知道「加密」到底是個什麼玩意，這些神經網路還真的在過程中提高了加密機巧……它們會根據上一輪各自的錯誤程度，去修改加密演算法。

研究人員發現，當總猜測次數超過了六、七千次的時候，作為「己方」的 Bob 和「敵方」的 Eve，每次猜測的錯誤位數都呈現出了下降的趨勢。Eve 的性能提升比較緩慢，在之後的將近五千次嘗試中錯誤的位數從 8 降低到了 6；而 Bob 的準確度飛速提高，很快就將錯誤位數降低到了 1 位……

這還沒完——有沒有看到上圖中，接近一萬次左右的時候，紅線 (Bob) 的錯誤率又提高了？發生了什麼？

這正是整場試驗最有趣之處。那時的 Alice 做了一個決定：「提高」它設計的加密演算法複雜程度……

Alice 的決定，立刻影響了另外兩個神經網路的性能。好在 Bob 只花了一千次左右的嘗試就回到了正軌，繼續降低錯誤率直至 0，很快和 Alice 之間建立了完整的共識，之後無論 Alice 怎麼調整都能很快完成修正。

至於 Eve，再也找不到之前的感覺，錯誤率再度升高，在後來的幾次 Alice 調整演算法中，完全失去了方向。

這個實驗的環境，在深度學習領域被稱為生成式對抗網路 (Generative Adversarial Network, GAN)。這種結構通常有兩個、三個甚至多個神經網路，各自扮演自己的角色，在環境搭建好之後人類研究者只輸入極少量的原始信息，主要用來觀察神經網路各自的表現。

生成式對抗網路是時下人工智慧學界最熱門的技術之一。一般來說，當人類想要研究人工智慧「舉一反三」的能力時，生成式對抗網路是體現效果最好的技術。去年年底，蘋果公司公開發表了它的第一篇人工智慧論文，介紹了一種能降低圖像識別功能開發成本技術，採用的就是類似於生成式對抗網路的結構。

這個實驗證明了什麼？至少從實用的角度，我們發現作為兩個未經訓練的神經網路，Alice 和 Bob 有能力在一萬次嘗試之內學會一種加密演算法，而且沒有進行直接的對話——這就好比兩個三歲小孩用了幾個小時就研究明白了大學級別的密碼學……還挺讓人印象深刻的。

至於人工智慧是不是已經學會了欺騙？倒不用擔心它會背著人類偷偷搞事情。Alice 和 Bob 所採用的加密演算法，的確是兩個神經網路自己摸索出來的，人類沒有提供教學。但畢竟人類是實驗環境的搭建者，需要做一些非常細緻的工作，比如設計和搭建神經網路，以及對正確、錯誤、勝利和失敗的定義等等。

更有趣的是，不光是 Brain 團隊，Google 之前收購的另一家公司 DeepMind 也在搞類似的人工智慧合作-對抗實驗。

DeepMind 找了兩個人工智慧玩對抗遊戲。第一個遊戲名叫 Gathering（上圖左），比賽收集蘋果，人工智慧控制的玩家可以用激光凍結對方。研究者發現，當蘋果的餘量充足時，雙方相安無事，但當餘量不足時，對抗就比較激烈了，凍結的情況經常發生。而當其中一方換成級別更高人工智慧時，它會更主動地提前凍結對手。研究者猜測這種行為源自更複雜的策略，只有高級智能才可以掌握。

第二個遊戲名為 Wolfpack（上圖右），兩個人工智慧一同扮演紅色的「狼」，在複雜的障礙環境中追逐藍色的「羊」，但規則要求只有雙方都在羊的附近時，才能形成包圍，捕獲從而得分。

和第一個遊戲類似的情況出現了：研究者發現，引入的人工智慧界別越高，約容易明白得分的道理和最快路徑……

就連人工智慧都學會合作、共贏……人類要加油咯。

（附上 Google 的參考論文：LEARNING TO PROTECT COMMUNICATIONS WITH ADVERSARIAL NEURAL CRYPTOGRAPHY）