AI在遊戲世界的重生之路
自電子遊戲誕生之日起,就有了電腦玩家的概念。過去,遊戲中點綴著零星的AI,其目的不過是提升玩家體驗,AI是完全服務遊戲的,因此不求演算法有多先進,滿足產品的功能即可,哪怕是一組規則或使用簡單搜索策略編織出來的fake AI,只要能為人類玩家營造出挑戰感,我們都認了;現在,從DeepMind和OpenAI公司萌生出一些怪誕奇想和驚奇創造,讓人們看到遊戲對AI的巨大推動,遊戲對AI的反哺讓越來越多的人意識到,原來遊戲才是AI的「親娘」。為什麼呢?理由如下:
- 無進化速度的限制:與經歷了上億年漫長的生物進化相比,遊戲提供的虛擬世界沒有固定時間流速的限制,計算流代替了現實世界的時間流,處理器計算頻率越快,計算並行度越高,沿時間軸演化的速度越高。
- 無限次場景和無限重生:遊戲世界可以提供無限重複的場景,智能體可以無限重生,使得進化的試錯代價大大降低,這讓我想起了《西部世界》的hosts。
- 獨立的世界:遊戲世界與現實世界是獨立的,遊戲世界既可以模擬現實世界的物理規則,也可以在某點上打破物理規則,看看智能體如何應對這種變化。前者對現實世界的高度模擬,有助於我們在製造硬體智能體前(如:無人車、機器人),先期探索適用的AI模型和演算法,並大大降低在硬體上耗費的資金成本。後者恐怕就更超前了,在我們尚不能抵達或者尚未了解清楚的極端物理世界(如:人體內的微環境)、網路世界(如:傳染病傳播網、謠言傳播網)或其他世界,進行假設性試驗,即先假設一些未知的規則,再看看智能體的進化軌跡,為未來作打算。
同時,進化的AI又反過來,大大增加遊戲的玩家體驗。以前遊戲中的AI基本都是寫死的,資深玩家很容易發現AI中的漏洞。剛開始時,玩家發現這些漏洞並藉以闖關升級,能帶來很大樂趣;慢慢地,玩家厭倦了這樣的難度。但是,如果AI是伴隨玩家逐步進化的,相生相剋永無止境,這就有意思了。
還有一點,過去的AI屬於遊戲系統本身,很容易獲取遊戲程序的內部數據,和玩家相比具有不對稱優勢。現在的AI更多建立在玩家視角,如採用屏幕畫面作為AI系統的輸入,更像是一個自然玩家參與到當前遊戲中。AI更像玩家了,那麼他們間不僅存在對抗,還存在協作的可能,進而我們可以建立一個協作平台,甚至用自然語言的方式,向AI傳達指令,或接收來自AI的報告。
那麼,有哪些遊戲可以用來研究AI,我的思路沿著兩條線展開:(1)由DeepMind的AlphaGo想到的;(2)由OpenAI的Universe和Gym平台想到的。前者側重於由規則建立的遊戲,後者側重於由環境建立的遊戲。
由DeepMind的AlphaGo展開
棋類對弈
舉例:西洋雙陸棋,國際象棋,中國象棋,圍棋
1979年,人類首次在西洋雙陸棋遊戲(backgammon)中敗給機器。
1996年,國際象棋第一人卡斯帕羅夫輸給IBM的深藍。
2016年1月,DeepMind的一篇論文《通過神經網路與搜索樹掌握圍棋》(Mastering the game of Go with deep neural networks and tree search)發表在《自然》雜誌上,論文中提到他們的方法是走子網路、策略網路與蒙特卡洛搜索樹演算法的集合。隨後,谷歌宣布了圍棋程序AlphaGo將與世界冠軍李世石對戰的消息,最終以4:1戰勝了李世石九段。年底,一個名為Master的神秘圍棋大師在網路圍棋對戰平台上,通過在線超快棋的方式,以60勝0負的戰績震驚天下,並在第59盤和60盤的局間,宣布自己就是AlphaGo。
小結:
- 基於確定性規則建立的遊戲,遊戲的AI面對的通常是一個搜索問題,尤其是一對一的零和遊戲,記住當前局面並向下進行搜索式推演,可以找到較好的策略。當搜索空間不大時,可以把各種分支情況都遍歷到,然後選出最佳方案;當搜索空間太大時,可以用一些剪枝的或概率的辦法,減少要搜索的狀態數。這裡,最經典的遊戲要屬雙人對弈的棋類遊戲,如國際象棋、中國象棋、圍棋等。這類遊戲不僅有確定的遊戲規則,而且博弈的雙方均持有對稱的信息,即所謂的「完美信息 」。
- 國際象棋和中國象棋的棋子較少,且不同棋子走子方式固定,用今天的超級計算機窮舉不是問題。但是圍棋不同,棋盤是19X19,有361個落子點,一盤圍棋約有10的170次方個決策點,是所有棋類遊戲中最多的,需要的計算量巨大,所以窮舉方式是不可能的,這也導致圍棋成為最後被計算機攻克的棋類。數學上,中國象棋和國際象棋的空間複雜程度大約是10的48次冪,而圍棋是10的172次冪,還有打劫的手段可以反覆提子,事實上要更複雜。
撲克牌遊戲
舉例:德州撲克(Head-up unlimited Texas Holdem,這裡指雙人無限注德州撲克)、鬥地主、升級、五十K、爭上游
德州撲克在歐美盛行,大概的規則是每人發兩張暗牌,只有自己看到,然後按3-1-1的節奏發5張明牌,七張牌組成最大的牌型,按照同花順-四條-葫蘆-同花-順子-三條-兩對-對子-高牌比大小的順序看誰的牌更大。這期中,玩家只能看到自己的兩張底牌和桌面的公共牌,因此得到的信息不完全。高手可以通過各種策略來干擾對方,比如詐唬、加註騷擾等等,這裡無限注德州撲克可以隨時全下。
2017年1月,在美國賓夕法尼亞州匹茲堡的河流賭場,一個名為Libratus的人工智慧程序,在共計12萬手的一對一無限注德州撲克比賽中,輪流擊敗四名頂尖人類高手,斬獲20萬美元獎金和約177萬美元的籌碼。它的設計者卡耐基梅隆大學博士諾阿·布朗透漏,他自己只是一個德州撲克的愛好者,並不十分精通,平時只與朋友打打五美元一盤的小牌,所以從未通過自己或其他人類的經驗教Libratus怎麼玩牌,僅僅給了它德撲的玩法規則,讓它通過「左右互搏」來自己摸索這個遊戲該怎麼去玩,如何能更大概率地獲勝。也許正因為布朗未傳授人類經驗給Libratus,使它玩德撲的風格如此迥異於人類,讓人捉摸不透,而這對獲勝十分關鍵,因為在玩德撲的過程中,下注要具備足夠的隨機性,才會讓對手摸不清底細,同時也是成功詐唬住對手的關鍵。與Libratus交手的四位人類職業玩家證實了Libratus下注十分大膽,不拘一格:它動不動就押下全部籌碼,多次詐唬住人類對手,這讓玩家在20天內只有4天是贏錢的,其它日子都輸。據稱,機器自我學習能力非常強,人類頭一天發現的弱點,第二天就不會再犯。布朗用的方法是Counterfactual Regret Minimization (CFR),得到的解近似一個納什均衡。
小結:
- 撲克牌遊戲與棋類遊戲不同。西洋雙陸棋、國際象棋、中國象棋和圍棋都是「完美信息」遊戲,也就是說,所有玩家在遊戲中獲得的信息是確定的、公開的和對稱的。人工智慧攻克這些遊戲的難度,主要取決於遊戲過程中還需的決策點數量,這決定了計算機需要的計算量。然而,撲克是一種包含很多隱藏信息的「不完美信息」遊戲。玩家只掌握不對稱的信息,只看得到自己手裡的牌,卻不知道對手手中的牌,更不知道對手是如何猜測自己的手牌。因此,雖然一局德撲的決策點數量要少於一盤圍棋,但是不確定性的加入,使得每個決策點上,玩家都要再從全盤進行推理,計算量難以想像。
- 在非對稱信息博弈中,對同樣的客觀狀態,由於每個玩家看到的信息是不同的,這增加了每個玩家狀態空間的數目以及做決策的難度。如果考慮到心理層面的博弈,有別於機器,人類可以「詐唬」來虛張聲勢,這被人類看作是智商和情商的完美結合。
- 非對稱博弈中雙方的猜測是彼此的,是相互影響的,故而沒有單一的最優打法,人工智慧必須讓自己的移動隨機化,這樣在它唬騙對方時對方才無法確定真假。舉個石頭剪子布的例子,如果別人一直用石頭剪刀布各1/3的混合策略,那自己就會發現好像怎麼出招收益都是0,於是每次都出石頭,但是這樣的話,對手就可以利用這個策略的弱點提高自己的收益。所以好的演算法就要求,基於別人已有策略得到的新策略要儘可能地少被別人利用。
- 這裡的研究具有非凡的意義,它將來能夠應用在金融談判、拍賣、互聯網安全等領域,需要AI在「不完美信息」的情景中做出決策,這或許正是Libratus擅長的。
引申:
- 撲克牌遊戲不僅是「不完美信息」的遊戲,還是非常靈活的遊戲。玩家數量並不限於2人,很容易擴展到3人、4人甚至到多人。更多的玩家帶入了更多的不確定性,不同的玩家間遊戲級別有不同,打牌風格有差異,每個人的心理判斷和預期都是隱藏在自己內心的,這都使得遊戲的複雜性和不可捉摸程度大大增加。
- 多玩家遊戲意味著遊戲中不僅存在對抗,還存在協作,或者是前期協作為主,中期競爭為主,後期對抗為主的複雜策略。玩家間存在各種interaction,玩家各自的戰略意圖相互糾纏、相互影響,考驗玩家的不僅是技能,還有心理層面的因素。
- 撲克牌遊戲的另一個特點是種類繁多,遊戲規則變化無窮。不同地域有不同的撲克玩法,就像德撲在歐美流行,而國人最喜歡玩的遊戲是鬥地主,此外還有升級、五十K、爭上游等,遠多於棋類遊戲。因此,AI在設計時要考慮到通用性,能快速學習,適應變化的規則。
麻將
舉例:四川麻將、廣東麻將、長沙麻將、武漢麻將、國際麻將
麻將是一種運氣成分佔比非常高的遊戲,技藝再強的高手,也有輸給菜鳥的可能性。但是,麻將中的「技藝高低」也確實存在,經大量場數的競技後,選手之間的分數差距可以穩定地拉開,競技水平顯著地區分開來。因此,在麻將領域是可以研究出具有極高競技水準的AI。同撲克遊戲一樣,麻將中存在極大的不確定性,但麻將的牌數更多,一副完整的麻將牌共152張,且一般都是四人玩家。由於隨機程度高,把麻將看成一個概率遊戲,AI的策略應是增加自己得點的期望值,讓自己有更大的可能性做出大牌,同時避免為對手的大牌點炮。
桌游
桌游發源於德國。與撲克遊戲的抽象和單調不同,桌游不再是純粹的數字遊戲,內容涉及戰爭、貿易、文化、藝術、城市建設、歷史等多個方面,通常是紙質卡牌加上精美的模型輔助,常常有特製的地圖版,用大量道具虛擬多種資源的生產、交易等流動過程,並緊密結合在一個統一的文化背景之下。該遊戲需要玩家有一定的常識和邏輯推理能力,能為求達到目標制定出詳細的策略與全盤計劃。
舉例:
UNO
- 遊戲背景:UNO起源於歐洲,簡單易學,適合各年齡層人士玩。UNO風靡全球數十年,被譽為是世界上最好玩的紙牌遊戲之一。在此遊戲中最考驗人的是注意力集中和反應,還有相互間的思維較量。
- 紙牌介紹:UNO牌共有108張牌,包括76張數字牌和32張功能牌。牌有紅黃藍綠這四種顏色。數字牌包括0到9這十個數字,其中0的每個顏色有1張牌,1-9的每個顏色有2張牌,共計76張牌。功能牌包括阻擋牌、反轉牌、+2牌這三種帶顏色的牌,每種每個顏色2張,以及萬用牌、王牌這兩種無顏色的牌,每種4張,共計32張牌。功能牌中,阻擋牌的作用是禁止下家出牌,直接跳到下下家;反轉牌的作用是逆轉出牌順序;+2牌的作用是讓下家跟+2牌,否則罰摸牌,如:連續三家都跟了+2牌,第四家無牌可跟就罰摸6張;萬用牌的作用是變色,決定下家跟牌的顏色;王牌的作用是變色或讓下家罰摸4張牌。
- 遊戲規則:每人抽一張牌,牌分值最高者為發牌人,並最先出牌。發牌人給每人發7張牌,剩餘的牌作為牌庫,然後從發牌人開始按順時針方向出牌。每人選擇打出與上家出牌同色、同數或同功能的牌,也可出變色牌,若無牌可跟則罰摸1張。有人還剩1張牌時,需喊一聲UNO以示提醒,否則罰摸2張。
- 獲勝條件:最快出清手中牌者為本輪贏家,本輪贏得點數為其餘玩家手牌的點數和。當有人點數累計500時贏得這個遊戲。
矮人曠工
- 遊戲背景:矮人礦坑是一款風靡全球的桌面遊戲。玩家們扮演好矮人和壞矮人,好矮人在礦坑中尋找金塊與寶藏,壞矮人暗地裡搞破壞,妨礙好矮人工作,但是他們只有在發現寶藏時才會露出真面目。
- 紙牌介紹:紙牌包括路徑卡、行動卡、金塊卡及矮人卡,其中矮人卡分為好矮人和壞矮人,行動卡包括工具類卡、障礙類卡以及塌方卡和地圖卡。
- 遊戲規則: 開始時先根據玩家數量控制好壞矮人的各自數量,然後每個玩家領一張矮人卡,自己的好壞身份要保密。同時,在一個平面上按要求擺放起點卡和終點卡,為後續加入的路徑卡空出位置。每個玩家先持有幾張手牌,然後輪流出牌和摸牌。出牌階段,玩家可以放入路徑卡,也可以對玩家施加行動卡,還可以直接棄牌。一旦牌庫的牌抽完,玩家就只能出牌了,最後若玩家手上無牌則直接跳過。
- 獲勝條件:好矮人們必須想辦法連接成一條通往終點即金礦的道路,壞矮人則要試著阻止他們,但不能做得太露骨,否則很快就會漏餡兒。當卡片連到終點時,翻開終點卡,若是金塊則該回合遊戲結束,好矮人獲勝;若是石塊則繼續遊戲。如果卡片用完時沒有結束遊戲,則壞矮人獲勝。三盤遊戲過後,計算玩家們的金塊數量,擁有最多金塊者獲勝。
三國殺
- 遊戲背景:三國殺是一款中國人設計的桌上遊戲,以中國三國時期為背景,融合了西方類似遊戲的特點,以主公、反賊、忠臣、內奸這四大身份為線索,玩家扮演一名三國人物,以卡牌的形式經過一輪一輪的出牌,角逐出勝負。
- 紙牌介紹:遊戲牌共分為三大類:基本牌、錦囊牌和裝備牌。基本牌分為角色類牌和基本技能類牌,角色類牌又分為身份牌、武將牌和體力牌,基本技能類牌有殺、閃和桃,其中殺掉體力,桃補體力,閃可躲避殺。錦囊牌有特殊功能,代表了各種「錦囊妙計」,有決鬥、過河拆橋、無中生有、順手牽羊等。裝備牌包括武器、坐騎和防具。
- 遊戲規則:每個玩家都對應一個身份,所扮演的三國人物有自己的角色技能和體力值。首先,主公挑選一張武將牌來扮演,然後各玩家挑選武將牌,每人的起始手牌為4張。進行遊戲時,由主公開始,逆時針方向以回合的方式進行,即每個玩家有一個自己的回合,回合結束後下一玩家的回合開始。每個玩家的每個回合包括六個階段:準備、判定、摸牌、出牌、棄牌和結束,其中手牌數不能超過當前體力值。當體力降至0且無人施救時,武將死亡。當牌堆沒牌時,將棄牌堆洗混後形成新牌堆。
- 獲勝條件:不同身份擁有不同的目標:主公和忠臣的目標就是剿滅反賊清除內奸;反賊的目標是推翻主公;內奸的目標是生存到只剩主公一人,最後單挑主公。因此,當以下任意一種情況發生時遊戲結束:(1) 主公死亡,若只剩內奸一人則內奸獲勝,除此以外反賊獲勝;(2) 所有反賊和內奸死亡,主公和忠臣獲勝。
卡坦島
- 遊戲背景:卡坦島是由Kosmos公司發行的一種多人玩的圖板遊戲,囊括了各種桌面遊戲要素,並且遊戲規則的簡單易懂。同時,它是一款經營類遊戲,融入了生產/建設/擴充/交易等因素,玩家的運氣雖然扮演了很重要的角色,但是對交易和策略理解更深的玩家通常更容易獲勝,遊戲充分體現了玩家的分析能力和制定策略的智慧。
- 遊戲介紹:遊戲背景設定為大航海時代,人們發現一個資源豐富的島,叫卡坦島。島由多個六角形圖板拼在一起,每個六角形對應一種地形,不同的地形有平原、草原、森林、山丘及山脈。玩家扮演一個拓荒者,負責在六角形內建立聚落和城鎮,在邊上建造道路。由於資源有限,玩家要積極擴張爭取生存空間,由擲骰決定物產的生產,除自我生產外,還要交易物產,才能籌集起物產進行建設。玩家間既存在合作,也存在競爭
- 獲勝條件:遊戲結束時,獲得積分最多的玩家勝利。
隻言片語
- 遊戲背景:隻言片語(DIXIT)是一款法國遊戲。卡牌畫面精緻可愛,規則簡單卻充滿無限樂趣。玩家將挑戰無限的想像空間,通過簡短的文字、小小的動作或輕快的歌曲,來描繪自己手上的卡牌,既不能讓所有人都猜中,又不能讓所有人都猜不中。
- 遊戲規則:每個玩家抽取6張作為手牌,手牌內容要對其他玩家保密,並拿取1個投票標誌。玩家輪流當出題人。首先,出題人選出1張手牌,根據牌上的圖畫說出一個「描述」,可以是一個詞,一個句子或一種聲音,必須是基於該圖得到的靈感。其次,剩下的玩家為猜題人,根據聽到的「描述」,從自己的手牌中挑選相貼切的卡牌交給出題者,卡牌內容對其他猜題人保密。出題人將自己的卡牌和收到的卡牌混洗後,公開亮在桌子上。然後,猜題人猜測那種卡牌是出題人的並投票,把投票標誌交給出題人,投票內容對其他猜題人保密。最後,公布答案,根據猜測結果記錄得分:(1) 若所有猜題人都猜中或都沒猜中,則出題人都不得分,而猜題人各得2分;(2) 若有人猜中有人沒猜中,則出題人得3分,猜中者得3分;(3) 若猜題人的卡牌得到投票,則每得1個投票,該猜題人得1分。
- 獲勝條件:當有玩家達到30分時遊戲結束,該玩家獲勝,否則直至公共牌庫被抽光時遊戲結束,得分最多者勝。
萬智牌
- 遊戲背景:萬智牌於1993年由美國數學教授理查·加菲設計,並經由威世智公司發行的世界上第一款集換式卡牌對戰遊戲。此類遊戲以收集卡牌為基礎,遊戲者通過購買隨機包裝的補充包來收集卡牌,然後根據自己的策略,靈活使用不同的卡牌去構組符合規則的套牌,從而進行遊戲。由於各人的套牌都不同,每一局抓到卡牌的次序也有不同,無窮無盡的變化由此而起。
- 基本規則:對戰的雙方有各自的一副牌的組合,稱作套牌。對戰開始時雙方各有20點生命,從先手玩家開始,兩位或者多位玩家輪流進行自己的回合。遊戲的目標是,在自身存活時,設法將對方的生命降至0或以下,或迫使對手無牌可抓,或使對手獲得中毒指示物,或利用特殊咒語使其輸掉此盤遊戲。
由OpenAI的Gym和Universe平台展開
OpenAI是一家非盈利性AI研究公司,致力於非監督學習和強化學習的研究,並表示會開源研究成果分享給每一個研究者,公司的長期目標是以最大限度造福人類為宗旨發展人工智慧,即「to build safe AI and ensure AIs benefits are as widely and evenly distributed as possible」。與基於規則的棋牌類遊戲不同,OpenAI的Gym和Universe平台更強調環境,包括簡單的限定性環境和複雜的綜合性環境。玩家操控的智能體有很大的自由度。
Gym
2016年4月OpenAI對外發布了一款用於研發和評比強化學習演算法的工具包Gym,包括了各種模擬環境的遊戲,如最經典的倒立擺(cart-pole)。該平台提供一個通用的交互界面,使開發者可以編寫適用不同環境的通用AI演算法。開發者通過把自己的AI演算法拿出來訓練和展示,獲得專家和其他愛好者的點評,大家共同探討和研究。強化學習有各種各樣的開源環境集成,與它們相比,Gym更為完善,擁有更多種類且不同難度級別的任務。
遊戲舉例:
倒立擺(Cart Pole )
這是一個經典的控制問題。有一個桿和一個小車,桿的一端連接到小車上,連接處是自由的,所以桿可以擺來擺去。小車可以前後兩個方向移動,具體怎麼移動取決於我們對小車施加的前後作用力,作用力大小只能為1。我們的目標是,通過控制施力的方向,控制小車的加速度,讓桿保持立在小車上,就像雜技演員倒立在晃動的木板上,同時對小車的移動範圍有所限制。
空襲(Air Raid)
這是一款發行在雅達利(Atari)遊戲機上的小遊戲。場景是敵機前來轟炸,玩家控制一架水平移動的飛機,擊毀落下的炸彈,同時避免被炸彈擊中。本環境中,AI使用的觀察是Atari機器的僅有128位元組大小的RAM,考慮人類玩家的反應頻率,要求機器每次做出的動作都要持續幾幀的時間。
外星人(Alien)
這也是一款Atari遊戲機上的小遊戲。場景是在迷宮裡,一路拾完金幣,同時避免被外星怪物逮上。但與空襲不同,本環境中AI的觀察是來自屏幕的RGB畫面,即210x160x3的像素點陣,與人類玩家接收的信息是一樣的。遊戲同樣限定機器做出動作的頻率,每個動作要有幾幀的延遲。
月球登陸者(Lunar Lander)
這個遊戲構建在Box2D模擬器中。Box2D是一款2D遊戲世界的物理引擎,可處理二維物體的碰撞、摩擦等力學問題。本遊戲的場景是讓月球車順利平穩地著陸在地面上的指定區域,接觸地面一瞬間的速度最好為0,並且消耗的燃料越少越好。
雙足行走者(Bipedal Walker)
同樣基於Box2D模擬器,遊戲中的玩家控制雙足行走者的步進姿態,具體地說,是控制腿部膝關節處的馬達扭力,盡量讓行走者前進得更遠,同時避免摔倒。本環境提供的路面包括台階、樹樁和陷坑,同時給行走者提供10個激光測距值。另外,環境的狀態信息包括水平速度、垂直速度、整體角速度和關節處角速度等。
Doom Defend Line
這是一款仿3D的第一人稱射擊遊戲。遊戲場景是在一個密閉的空間里,儘可能多地殺死怪物和保全自己,殺死的怪物越多,獎勵就越多。AI玩家所能觀察的,同人類玩家一樣,只是一個第一人稱的視野。
Universe
2016年底,OpenAI繼4月發布Gym之後,又推出一個新平台——Universe。Universe的目標是評估和訓練普世的AI。同Gym上的定製遊戲不同,Universe瞄準的環境是世界級的各種遊戲、網頁及其他應用,與人類一樣面對相同複雜和實時程度的環境,至少在信息世界這個層面上,物理世界還有待感測器和硬體的進步。具體地講,遊戲程序被打包到一個Docker容器里,提供給外部的介面是人機一樣的,誰都不能訪問遊戲程序的內部,只能接收屏幕上的畫面,和發送鍵盤和滑鼠指令。
Universe的目標是,讓設計者開發單一的智能體,去完成Universe中的各類遊戲和任務,當一個陌生遊戲和任務出現時,智能體可以藉助過往經驗,快速適應並執行新的遊戲和任務。我們都知道,雖然AlphaGo 擊敗了人類世界圍棋冠軍,然而它仍然屬於狹義AI,即可以在特定領域實現超人的表現,但缺乏領域外執行任務的能力,就像AlphaGo不能陪你一起玩其他遊戲。
為了實現具有一般問題解決能力的系統,就要讓AI擁有人類常識,這樣才能夠快速解決新的任務。因此,智能體需要攜帶經驗到新任務中,而不能採用傳統的訓練步驟,初始化為全隨機數,然後不斷試錯,重新學習參數。這或許是邁向通用 AI的重要一步,所以我們必須讓智能體去經歷一系列不同的任務,以便它能發展出關於世界的認知以及解決問題的通用策略,並在新任務中得到使用。
遊戲舉例:
Flash小遊戲
Flash 遊戲是Universe擴展的一個起點,因為這些遊戲在互聯網上無處不在,無論從數量上還是從多樣性上看,它們比Atari遊戲要豐富得多,不在同一個數量級上。
瀏覽器任務
互聯網是一個關於信息的巨大寶藏,服務於人類的視覺消費。Universe提供了一個瀏覽器環境,要求AI能瀏覽網頁並在網頁間導航,像人類一樣使用顯示器、鍵盤和滑鼠。當前的主要任務是學習與各類網頁元素交互,如點擊按鈕、下拉菜單等。將來,AI可以完成更複雜的任務,如搜索、購物、預定航班等。
與人類玩家一起的網路遊戲,以及單機版PC遊戲,如:文明、星際爭霸、極品飛車等。
推薦閱讀:
※【信息匯總】國際「頂尖」計算機視覺、機器學習會議大搜羅--附排名&接收率
※當人工智慧進入手機,將會怎樣?
※如何看待柯潔cj現場打昆特牌,圍棋和昆特牌為例的桌游卡牌遊戲哪個更難?阿爾法狗和柯潔打昆特牌誰厲害?
TAG:人工智能 | 游戏 | GoogleDeepMind |