DeepMind星際爭霸機器人領先人類多少？答：191年

編者按：DeepMind的AlphaStar

AI機器人在《星際爭霸2》中的表現達到了大師級別，AlphaStar在遊戲中每一個種族的歐洲地區排名都是前0。15%。為了達到這種訓練成果，AlphaStar與自己對戰了200年（加速遊戲），才達到目前的水平。鑑於《星際爭霸2》在2010年釋出，人類與機器之間的競爭存在191年的劣勢。本文譯自Medium，作者Dave Gershgorn，原標題為“ DeepMind’s StarCraft Bot Has a 191-Year Head Start on Humanity”，希望對您有所啟發。

根據近期發表在《自然》（Nature）雜誌上的一項研究，Alphabet旗下的人工智慧研究公司DeepMind已經構建了一個能夠擊敗世界上絕大多數《星際爭霸2》玩家的人工智慧系統。

DeepMind團隊於今年早些時候推出了AlphaStar，這是一款《星際爭霸2》遊戲機器人，在與頂級電子競技專業人士的比賽中亮相。DeepMind的研究人員將其機器人AlphaStar引入了一系列盲注遊戲，其對手根本不知道它是在與計算機對戰。DeepMind部署了三個版本的AlphaStar，每個版本都以略微不同的方式學習這款遊戲。AlphaStar的前兩個版本足夠好，達到了遊戲的最高級別——特級大師。經過30場比賽後，AlphaStar在每一個種族的歐洲地區排名都是前0。15%。

《星際爭霸2》是一款複雜的電子競技遊戲。每個玩家的任務是發展一支軍隊，建造建築來提高他們的進攻、防禦或產出能力，最終目標是探索周圍環境，找到並摧毀他們的敵人。數以百計的獨立單位必須被有效地組織起來，這就是為什麼AlphaStar花了超過1。2億場對弈，以及數百年的加速遊戲時間，才征服了《星際爭霸2》。

根據DeepMind的說法，AlphaStar在遊戲中每採取一步行動都有10的26次方種可能的選擇，即每一步都是在100，000，000，000，000，000，000，000，000個潛在選項中進行選擇。

《星際爭霸2》中的策略通常分為兩類：微觀和宏觀。微觀戰略是指玩家如何操縱單個單元，而宏觀戰略則與玩家如何使用資源和升級軍隊等。對於AlphaStar來說，要想掌握這種遊戲玩法，DeepMind不能僅僅依靠系統自身的學習能力，它還需要人類的幫助。

對於這些微觀策略，研究人員對AlphaStar進行了訓練，讓它記錄人類之前玩過的遊戲，這些遊戲是《星際爭霸2》（StarCraft II）的開發商暴雪（Blizzard）釋出給人工智慧研究社群的。

DeepMind首席研究科學家戴維•西爾弗（David Silver）在早些時候的一次新聞釋出會上表示：“（人類玩家資料）基本上提供了一個大致能反映人類行為的多樣化策略基礎。在這個基礎上系統開始與自己對抗，並不斷改變和發展這些策略，使它們變得越來越好。”

這意味著人工智慧採取的遊戲策略並不是隨機產生的，它也也不需要學習像如何移動單元這樣的基礎知識。這就像一個人類玩家坐在一個老手玩家後面，看著他玩了大約50萬次遊戲。

今年早些時候，DeepMind首次展示了AlphaStar學習和改進人類微觀戰略的能力。在一場比賽中，AlphaStar將自己的單位分成小部分，在地圖上多個地方包圍對手，這一行動需要高度的精準性和協調性。

遊戲解說員鹿特丹（RotterdaM）說：“如果我和人類玩家對弈，他們不會把（單位）縮小到這麼小。”

為了讓AlphaStar在遊戲中掌控三種可玩的種族，DeepMind為人工智慧系統建立了一個“聯盟”，讓它與自己競爭。AlphaStar玩了1。2億場遊戲，透過一個複雜的匹配系統，每個種族中目前最強大的機器人可以與“開拓者”機器人進行匹配，後者試圖在AlphaStar喜歡的主導策略中找出漏洞。

透過這種方式，這項研究利用了最近流行的機器學習技巧——生成對抗網路（GANs）。其中一個網路試圖生成一段資料，比如一幅影象，而另一個則試圖判斷這段資料是真實的還是人工智慧生成的。這兩個網路來回“爭論”，直到生成的資料非常接近真實相機拍攝的影象。

《星際爭霸2》之所以如此難以掌握，其中一個原因就是它是一款資訊不不對稱的遊戲。這款遊戲與圍棋或國際象棋不同，玩家只能看到他們的單位探索過的部分地圖，他們不知道對手在使用什麼策略。在這方面，它很像撲克。

研究人員說，在將這項技術應用到現實中的過程中，還存在一個問題，那就是訓練AlphaStar需要多少資料。除了人類提供的資料，AlphaStar還需要與自己對戰200年，才能達到目前的水平。鑑於《星際爭霸2》在2010年釋出，人類與機器之間的競爭存在191年的劣勢。

奧推網

DeepMind星際爭霸機器人領先人類多少？答：191年

相關文章閱讀