星際蟲王IA退役2年搞AI,現在自嘆不如了

金磊發自凹非寺

量子位 | 公眾號 QbitAI

這年頭，

直播講AI

，真算不上什麼新鮮事。

但要是連

職業電競選手

，都開播主講呢？

沒開玩笑，是真事。

這位講AI的主播，就是那個

《星際爭霸2》的蟲王

——

。

然後，他講AI的畫風是這樣的：

但有一說一，講AI畢竟還是一件嚴謹的事兒。

IA的這波操作，怕不是在搞什麼噱頭吧？

我們不妨一同來扒一扒。

職業電競玩家，為什麼要做這麼一件事？

其實，IA能夠開直播講AI，並不是沒有“資本”。

首先他本身就是理工科背景出身，畢業於

華中科技大學

。

而且早在2年前，IA就從電競圈，一個超大跨步邁進了AI圈——以遊戲顧問的身份加入

商湯集團X實驗室

，而如今，他已經成為了一個全職的決策AI研究員。

時隔兩年，IA這一次在直播間的亮相，並不是簡單地陳述“自身歷練”過程。

而是直接搬出了一系列

成果

：

自己訓練出來的AI已經落地，可以挑戰《星際爭霸2》複雜的場景，更可以直接對戰頂級水平玩家了！

相關訓練平臺、針對星際2環境的訓練程式碼已經

開源

了！

千億算力訓練出的職業級AI模型也可以

免費訪問

！這也是

目前開源界能接觸到實力最強的星際2 AI模型

！

至於為什麼要搞這麼一件事，IA闡述了自己的理由：

完成未竟之志。

從IA在《星際爭霸2》的職業生涯來看，他的巔峰是中國的冠軍。

但很遺憾的是，IA並沒有實現問鼎世界冠軍的夢想。

而透過訓練AI智慧體，讓它能夠越發地向自己的實力靠攏，打造另一個“AI

”，甚至是能夠做到超越自己。

或許，這也是一種實現自我理想的方式。

不僅如此，在實現夢想之上，IA在更早的是時候也曾透露過他對電競AI的希冀：

我希望做到的是從AI模仿人類出發，再到人類去模仿它；我希望AI真正拓展人類的認知，拓寬人類的想象力。

從結果上來看，現如今IA確實離這樣的夢想更近了一步。

這時你會問了，之前不是經常有“AI在《星際爭霸2》中戰勝人類”的訊息嗎？

確實不假。

但在IA看來，在《星際爭霸2》中AI並沒有完全戰勝人類：

目前還沒有AI，能夠在《星際爭霸2》中完勝人類最強的選手。

而想讓AI完勝人類，還有兩方面的問題亟待解決。

第一就是種族的問題。

從上面的天梯測試圖中不難看出，同樣的AI在玩蟲族時候的表現是最弱的；但蟲族在人類玩家手上，那可是強得一批。

原因在於蟲族是一個被動防守的種族，這就體現到了AI隨機應變能力方面的不足。

第二就是最優策略的問題。

從現在人和AI對戰的事實情況來看，只要人類跟AI過上幾招，很快就能找到它的“套路”，然後對其進行擊破。

因此，AI透過訓練找到的最優策略，很顯然並不是最優解。

既然問題和困難如此重重，IA訓練出來的AI又達到了怎樣的水平呢？

DI-star，瞭解一下。

這是專門為《星際爭霸2》開發的大規模遊戲AI分散式訓練平臺。

目前，DI-star已經在蟲族上達到了宗師級別

（Grandmaster）

水平。

話不多說，來看下IA在直播間放出的結果。

例如在與臺灣省職業選手

Rex

的對戰過程中，

DI-star靠精細的微操建立前期優勢

。

而與前世界冠軍

Scarlett

的對戰中，DI-star能使用出

女王前壓

這樣的人類不常見戰術

出奇制勝

。

不難看出，DI-star已然在對戰過程中的

決策層面

上開始大放異彩。

那麼接下來的一個問題就是：

DI-star是怎麼煉成的？

IA在直播過程中，也沒有對這個問題做任何遮掩，而是直接將重要的步驟“拋”了出來。

從整體來看，主要分為兩個過程。

監督學習和強化學習。

首先，就是

監督學習

。

時間撥回到2020年年初，當DI-star專案正式開始啟動時，團隊總共也只有三四個人，而IA正式在這個時間以星際2遊戲顧問的身份加入商湯。

體驗過星際2的玩家都知道，每一場對決都需要經歷“採集資源”、“生產單位”和“戰鬥”的過程。

而三者之間又環環相扣，需得是有足夠的智謀，才能做到“運籌帷幄，決勝千里”。

起初，他們經歷了一個非常痛苦的解決bug過程，用團隊自己的話來描述，就是“幾乎訓練不出來任何哪怕有正常操作的AI”。

所以對於DI-star來說，先要做的就是需要去學習，反覆觀摩人類的高質量對戰錄影。

為此，商湯X實驗室共用到了16萬場ZVZ

（蟲族對蟲族）

的錄影，版本跨度為4。8。2到4。9。3。

2020年7月，團隊的AI終於迎來了與人類的首勝，但對手也只是一位剛學習星際2的研究員。

但若僅僅是這般“蹣跚學步”，DI-star的分數也只是能達到3000多分，離戰勝人類頂級玩家的目標遙之甚遠。

因此，商湯X實驗室認為，關鍵的第二個過程就是

強化學習

。

在他們看來：

AI透過監督學習有了基礎學習能力之後，需要透過互相之間的大量對戰，提升自己的水平。

而在經過大約1億局的對戰後，到了2021年的6月份，DI-star第一次戰勝了IA自己。

在接下來的時間裡，IA就帶著“AI版的自己”，邊訓練邊尋找各大人類國手玩家切磋較量。

於是，就這麼一步一步，DI-star最終擁有了能夠挑戰世界級選手的實力。

整個過程下來，在看著DI-star一點一滴“成長”的過程中，團隊也有自己的經驗總結：

星際的整個狀態空間太大，AI在訓練過程中，有很多的局面都是沒經歷過的，在這些罕見局面就會出現不會應對的情況，所以在與AI對戰的過程中，只要你打的天馬行空、不按套路出牌就行了。

因此，也可以發現電競AI研究的難點和重點，一方面是增強AI的泛化能力，做到像人類一樣抽象地思考問題；另一方面是希望能夠超越人類的認知，做出比人類更優的決策。

但除此之外，這個過程中的兩個關鍵資料還需被放大關注——

“16萬場錄影”

和

“1億局對戰”

。

單是從數字上就能體現出AI訓練所需要的資源和時間之大了。

但IA卻在直播說：

達到這樣的水平，DI-star相比其它模型，所需要的時間和資源反倒會更少。

而之所以能解鎖這樣的技能，是因為在DI-star之下，有一個十分強勁的“動力”系統，源源不斷地輸出能量——

SenseCore AI大裝置

。

它可以說是商湯引擎的底層架構了，可以類比為整個引擎夯實有力的地基。

具體而言，先從算力角度來看，商湯透過結合AI晶片以及AI感測器，構建了亞洲最大的人工智慧智算中心

（AIDC）

。

這個AIDC預計能夠產生每秒3。74百億億次浮點運算的總算力，相當於一天處理時長達到23600萬年！

除此之外，從平臺角度來看，AI大裝置打通了從資料處理、模型生產、模型訓練、高效能推理運算，以及模型部署等等各個環節。

而且不同於其它廠商採用開源工具，商湯這“一整套”都是自研的，具備更強的適配性，更利於模型的部署和應用。

至此，DI-star為何能夠快、準、狠地被“調教”出來，就有了清晰的眉目。

顯然，在商湯的眼裡，決策智慧是非常重要的。

至於原因，從商湯近幾年的發展歷程變化中，就可以得到清晰的答案。

決策智慧——AI行業的下一代增長動力

過去幾年時間中，商湯在計算機視覺的感知層面做了大量的技術積累，賦能了諸如傳統安防、金融、內容鑑別與生產等諸多領域。透過感知能力，解析了大部分的圖片和影片，一定程度上提高了行業的智慧化和自動化程度。

但隨著感知的能力越來越強，資訊的維度越來越高，這就為運營、控制、決策類的問題的提升帶來了更多的可能性，但是要求也越來越高。

例如自動駕駛行為控制、開放場景的資源運籌與排程、城市級交通的訊號燈控制、車輛的排程和管理、封閉空間人流的最佳化、大規模活動時人力的排程等等。

而在這種情況，決策型AI便起到了關鍵作用。正如商湯智慧決策與遊戲

（ADG）

事業部總經理兼高階研究總監劉宇曾提到的觀點：

無論從技術的發展，還是從市場和消費者的需求來講，AI不僅要“能聽懂看懂”這個世界，更要有自己的“決策能力和想法”。而在諸如遊戲、資源排程、城市管理等部分開放決策類問題上AI已經超越了人，甚至專家的能力，需要決策型的AI提供相關輔助，從而走通最終的價值閉環。

事實上，決策型AI已經在網際網路行業中證明是具備顯著的商業價值，例如它能夠在資料積累成熟的銀行、零售等行業率先落地，完成職業增強或替代從而實現降本增效。

而商湯ADG事業部也在利用自身研發優勢，積極佈局面向企業的通用決策任務SaaS平臺、智慧運營服務等產品。

由此可見，從傳統AI的感知智慧，向更具挑戰和難度的決策智慧躍遷，已然成為科研、產業等領域發展的一個大趨勢。

這也就不難理解商湯為何要發力於此了。

One More Thing

在這次的直播中，IA還為網友們送上了一波“福利”——DI-star專案

已開源

！

而且是個人PC、1060TI顯示卡就能帶得動的那種哦。

不僅如此，DI-star所屬的決策智慧平臺OpenDILab也對大家進行了開源。

感興趣的朋友們可以戳下方連結去試試了

（有保姆級教程哦）

DI-star開源地址：

https：//github。com/opendilab/DI-star

— 完 —

量子位 QbitAI · 頭條號簽約

奧推網

星際蟲王IA退役2年搞AI,現在自嘆不如了

相關文章閱讀