阿爾法狗再進化對我們有什麼哲學啟示?
前不久,Deepmind在《自然》上發表論文,介紹了「阿爾法狗」(AlphaGo)取得的重大進展。與之前的版本不同,AlphaGo Zero完全不需要人類棋譜,從零開始自學習,只用3天就以100∶0的壓倒性成績,擊敗曾贏下韓國棋手李世石的那版AlphaGo。人工智慧(AI)與人類的關係,在2016年的AI爆發後備受關注。對於給定規則的博弈問題,AI是需要人類的知識提供「第一推動」,還是可以自己從「元規則」開始反覆實踐總結,發展出知識體系,是個有趣的問題。對於像「打磚塊」這樣的簡單遊戲,AI從零知識開始反覆試玩,達到超過人類玩家的分數,2015年就實現了。但是圍棋這樣複雜的遊戲,人們還有疑問,也許人類提供一些知識對高水平AI是必需的,從零知識開始也許AI會陷入局部陷阱中出不來。
現在AlphaGo Zero給出了答案:對於AI來說,人類對圍棋的知識積累不是必須的!而且從零知識開始訓練,可以達到更高水平。人類棋譜中有一些「成見」,如一些自以為正確的本能定式下法,其實反而阻止了學習者達到更高水平。AlphaGo Zero從零開始自學習,完全不受人類棋譜的「污染」,就可以突破「成見」,真正進入自由的天地,達到更高的水平。
AlphaGo能不依賴人類的知識就學習成功,其關鍵之處在於:圍棋是有確定規則的,是一個「客觀」的遊戲。不需要人主觀評判,機器按行棋規則下,終局就有確定的勝負結果出來。這樣,AlphaGo的學習就不需要人類的干預,完全可以自動進行海量的實踐。AlphaGo Zero的成功,是自學習方法的突破,也是「實踐檢驗」哲學原理的成功。
人類的社會活動或者AI的博弈,需要通過實踐不斷提升效率與表現。實踐總是需要在一定的規則之內進行,這是基礎,就如穩定的社會、現代銀行體系、圍棋的行棋與終局規則。實踐時,人類本能地會借鑒前輩的一些「經驗」作為思考的出發點。學校、政府、公司都有教育體系,正如圍棋AI會學習人類高手的棋譜生成「策略網路」作為優先選擇。然而這些「經驗」,到底能起什麼樣的作用,值得仔細觀察。
在實踐不足的情況下,參考前人經驗與人類棋譜,顯然是有益的,能夠快速「上手」。但是,在發展遇到瓶頸的時候,可能就會顯出前人經驗的不足,照本宣科會限制思維,無法突破。想取得突破,就需要從本原出發,敢於懷疑,拋棄成見大膽實踐學習,下出「新手」,作出改革。這說明,人類的實踐活動可以借鑒前人的經驗,但是如果有了好的實踐反饋學習框架,完全可以進行揚棄,取得理論突破。中國改革開放的歷程也說明,全社會持續不斷地學習與主動變革實踐,正是社會奮發向上不斷取得突破的哲學基礎。
推薦閱讀: