奧推網

選單
歷史

DeepMind星際爭霸機器人領先人類多少?答:191年

編者按:DeepMind的AlphaStar

AI機器人在《星際爭霸2》中的表現達到了大師級別,AlphaStar在遊戲中每一個種族的歐洲地區排名都是前0。15%。為了達到這種訓練成果,AlphaStar與自己對戰了200年(加速遊戲),才達到目前的水平。鑑於《星際爭霸2》在2010年釋出,人類與機器之間的競爭存在191年的劣勢。本文譯自Medium,作者Dave Gershgorn,原標題為“ DeepMind’s StarCraft Bot Has a 191-Year Head Start on Humanity”,希望對您有所啟發。

根據近期發表在《自然》(Nature)雜誌上的一項研究,Alphabet旗下的人工智慧研究公司DeepMind已經構建了一個能夠擊敗世界上絕大多數《星際爭霸2》玩家的人工智慧系統。

DeepMind團隊於今年早些時候推出了AlphaStar,這是一款《星際爭霸2》遊戲機器人,在與頂級電子競技專業人士的比賽中亮相。DeepMind的研究人員將其機器人AlphaStar引入了一系列盲注遊戲,其對手根本不知道它是在與計算機對戰。DeepMind部署了三個版本的AlphaStar,每個版本都以略微不同的方式學習這款遊戲。AlphaStar的前兩個版本足夠好,達到了遊戲的最高級別——特級大師。經過30場比賽後,AlphaStar在每一個種族的歐洲地區排名都是前0。15%。

《星際爭霸2》是一款複雜的電子競技遊戲。每個玩家的任務是發展一支軍隊,建造建築來提高他們的進攻、防禦或產出能力,最終目標是探索周圍環境,找到並摧毀他們的敵人。數以百計的獨立單位必須被有效地組織起來,這就是為什麼AlphaStar花了超過1。2億場對弈,以及數百年的加速遊戲時間,才征服了《星際爭霸2》。

根據DeepMind的說法,AlphaStar在遊戲中每採取一步行動都有10的26次方種可能的選擇,即每一步都是在100,000,000,000,000,000,000,000,000個潛在選項中進行選擇。

《星際爭霸2》中的策略通常分為兩類:微觀和宏觀。微觀戰略是指玩家如何操縱單個單元,而宏觀戰略則與玩家如何使用資源和升級軍隊等。對於AlphaStar來說,要想掌握這種遊戲玩法,DeepMind不能僅僅依靠系統自身的學習能力,它還需要人類的幫助。

對於這些微觀策略,研究人員對AlphaStar進行了訓練,讓它記錄人類之前玩過的遊戲,這些遊戲是《星際爭霸2》(StarCraft II)的開發商暴雪(Blizzard)釋出給人工智慧研究社群的。

DeepMind首席研究科學家戴維•西爾弗(David Silver)在早些時候的一次新聞釋出會上表示:“(人類玩家資料)基本上提供了一個大致能反映人類行為的多樣化策略基礎。在這個基礎上系統開始與自己對抗,並不斷改變和發展這些策略,使它們變得越來越好。”

這意味著人工智慧採取的遊戲策略並不是隨機產生的,它也也不需要學習像如何移動單元這樣的基礎知識。這就像一個人類玩家坐在一個老手玩家後面,看著他玩了大約50萬次遊戲。

今年早些時候,DeepMind首次展示了AlphaStar學習和改進人類微觀戰略的能力。在一場比賽中,AlphaStar將自己的單位分成小部分,在地圖上多個地方包圍對手,這一行動需要高度的精準性和協調性。

遊戲解說員鹿特丹(RotterdaM)說:“如果我和人類玩家對弈,他們不會把(單位)縮小到這麼小。”

為了讓AlphaStar在遊戲中掌控三種可玩的種族,DeepMind為人工智慧系統建立了一個“聯盟”,讓它與自己競爭。AlphaStar玩了1。2億場遊戲,透過一個複雜的匹配系統,每個種族中目前最強大的機器人可以與“開拓者”機器人進行匹配,後者試圖在AlphaStar喜歡的主導策略中找出漏洞。

透過這種方式,這項研究利用了最近流行的機器學習技巧——生成對抗網路(GANs)。其中一個網路試圖生成一段資料,比如一幅影象,而另一個則試圖判斷這段資料是真實的還是人工智慧生成的。這兩個網路來回“爭論”,直到生成的資料非常接近真實相機拍攝的影象。

《星際爭霸2》之所以如此難以掌握,其中一個原因就是它是一款資訊不不對稱的遊戲。這款遊戲與圍棋或國際象棋不同,玩家只能看到他們的單位探索過的部分地圖,他們不知道對手在使用什麼策略。在這方面,它很像撲克。

研究人員說,在將這項技術應用到現實中的過程中,還存在一個問題,那就是訓練AlphaStar需要多少資料。除了人類提供的資料,AlphaStar還需要與自己對戰200年,才能達到目前的水平。鑑於《星際爭霸2》在2010年釋出,人類與機器之間的競爭存在191年的劣勢。