奧推網

選單
科技

星際蟲王IA退役2年搞AI,現在自嘆不如了

金磊 發自 凹非寺

量子位 | 公眾號 QbitAI

這年頭,

直播講AI

,真算不上什麼新鮮事。

但要是連

職業電競選手

,都開播主講呢?

沒開玩笑,是真事。

這位講AI的主播,就是那個

《星際爭霸2》的蟲王

——

IA

然後,他講AI的畫風是這樣的:

但有一說一,講AI畢竟還是一件嚴謹的事兒。

IA的這波操作,怕不是在搞什麼噱頭吧?

我們不妨一同來扒一扒。

職業電競玩家,為什麼要做這麼一件事?

其實,IA能夠開直播講AI,並不是沒有“資本”。

首先他本身就是理工科背景出身,畢業於

華中科技大學

而且早在2年前,IA就從電競圈,一個超大跨步邁進了AI圈——以遊戲顧問的身份加入

商湯集團X實驗室

,而如今,他已經成為了一個全職的決策AI研究員。

時隔兩年,IA這一次在直播間的亮相,並不是簡單地陳述“自身歷練”過程。

而是直接搬出了一系列

成果

自己訓練出來的AI已經落地,可以挑戰《星際爭霸2》複雜的場景,更可以直接對戰頂級水平玩家了!

相關訓練平臺、針對星際2環境的訓練程式碼已經

開源

了!

千億算力訓練出的職業級AI模型也可以

免費訪問

!這也是

目前開源界能接觸到實力最強的星際2 AI模型

至於為什麼要搞這麼一件事,IA闡述了自己的理由:

完成未竟之志 。

從IA在《星際爭霸2》的職業生涯來看,他的巔峰是中國的冠軍。

但很遺憾的是,IA並沒有實現問鼎世界冠軍的夢想。

而透過訓練AI智慧體,讓它能夠越發地向自己的實力靠攏,打造另一個“AI

IA

”,甚至是能夠做到超越自己。

或許,這也是一種實現自我理想的方式。

不僅如此,在實現夢想之上,IA在更早的是時候也曾透露過他對電競AI的希冀:

我希望做到的是從AI模仿人類出發,再到人類去模仿它;我希望AI真正拓展人類的認知,拓寬人類的想象力。

從結果上來看,現如今IA確實離這樣的夢想更近了一步。

這時你會問了,之前不是經常有“AI在《星際爭霸2》中戰勝人類”的訊息嗎?

確實不假。

但在IA看來,在《星際爭霸2》中AI並沒有完全戰勝人類:

目前還沒有AI,能夠在《星際爭霸2》中完勝人類最強的選手。

而想讓AI完勝人類,還有兩方面的問題亟待解決。

第一就是種族的問題。

從上面的天梯測試圖中不難看出,同樣的AI在玩蟲族時候的表現是最弱的;但蟲族在人類玩家手上,那可是強得一批。

原因在於蟲族是一個被動防守的種族,這就體現到了AI隨機應變能力方面的不足。

第二就是最優策略的問題。

從現在人和AI對戰的事實情況來看,只要人類跟AI過上幾招,很快就能找到它的“套路”,然後對其進行擊破。

因此,AI透過訓練找到的最優策略,很顯然並不是最優解。

既然問題和困難如此重重,IA訓練出來的AI又達到了怎樣的水平呢?

DI-star,瞭解一下。

這是專門為《星際爭霸2》開發的大規模遊戲AI分散式訓練平臺。

目前,DI-star已經在蟲族上達到了宗師級別

(Grandmaster)

水平。

話不多說,來看下IA在直播間放出的結果。

例如在與臺灣省職業選手

Rex

的對戰過程中,

DI-star靠精細的微操建立前期優勢

而與前世界冠軍

Scarlett

的對戰中,DI-star能使用出

女王前壓

這樣的人類不常見戰術

出奇制勝

不難看出,DI-star已然在對戰過程中的

決策層面

上開始大放異彩。

那麼接下來的一個問題就是:

DI-star是怎麼煉成的?

IA在直播過程中,也沒有對這個問題做任何遮掩,而是直接將重要的步驟“拋”了出來。

從整體來看,主要分為兩個過程。

監督學習和強化學習。

首先,就是

監督學習

時間撥回到2020年年初,當DI-star專案正式開始啟動時,團隊總共也只有三四個人,而IA正式在這個時間以星際2遊戲顧問的身份加入商湯。

體驗過星際2的玩家都知道,每一場對決都需要經歷“採集資源”、“生產單位”和“戰鬥”的過程。

而三者之間又環環相扣,需得是有足夠的智謀,才能做到“運籌帷幄,決勝千里”。

起初,他們經歷了一個非常痛苦的解決bug過程,用團隊自己的話來描述,就是“幾乎訓練不出來任何哪怕有正常操作的AI”。

所以對於DI-star來說,先要做的就是需要去學習,反覆觀摩人類的高質量對戰錄影。

為此,商湯X實驗室共用到了16萬場ZVZ

(蟲族對蟲族)

的錄影,版本跨度為4。8。2到4。9。3。

2020年7月,團隊的AI終於迎來了與人類的首勝,但對手也只是一位剛學習星際2的研究員。

但若僅僅是這般“蹣跚學步”,DI-star的分數也只是能達到3000多分,離戰勝人類頂級玩家的目標遙之甚遠。

因此,商湯X實驗室認為,關鍵的第二個過程就是

強化學習

在他們看來:

AI透過監督學習有了基礎學習能力之後,需要透過互相之間的大量對戰,提升自己的水平。

而在經過大約1億局的對戰後,到了2021年的6月份,DI-star第一次戰勝了IA自己。

在接下來的時間裡,IA就帶著“AI版的自己”,邊訓練邊尋找各大人類國手玩家切磋較量。

於是,就這麼一步一步,DI-star最終擁有了能夠挑戰世界級選手的實力。

整個過程下來,在看著DI-star一點一滴“成長”的過程中,團隊也有自己的經驗總結:

星際的整個狀態空間太大,AI在訓練過程中,有很多的局面都是沒經歷過的,在這些罕見局面就會出現不會應對的情況,所以在與AI對戰的過程中,只要你打的天馬行空、不按套路出牌就行了。

因此,也可以發現電競AI研究的難點和重點,一方面是增強AI的泛化能力,做到像人類一樣抽象地思考問題;另一方面是希望能夠超越人類的認知,做出比人類更優的決策。

但除此之外,這個過程中的兩個關鍵資料還需被放大關注——

“16萬場錄影”

“1億局對戰”

單是從數字上就能體現出AI訓練所需要的資源和時間之大了。

但IA卻在直播說:

達到這樣的水平,DI-star相比其它模型,所需要的時間和資源反倒會更少。

而之所以能解鎖這樣的技能,是因為在DI-star之下,有一個十分強勁的“動力”系統,源源不斷地輸出能量——

SenseCore AI大裝置

它可以說是商湯引擎的底層架構了,可以類比為整個引擎夯實有力的地基。

具體而言,先從算力角度來看,商湯透過結合AI晶片以及AI感測器,構建了亞洲最大的人工智慧智算中心

(AIDC)

這個AIDC預計能夠產生每秒3。74百億億次浮點運算的總算力,相當於一天處理時長達到23600萬年!

除此之外,從平臺角度來看,AI大裝置打通了從資料處理、模型生產、模型訓練、高效能推理運算,以及模型部署等等各個環節。

而且不同於其它廠商採用開源工具,商湯這“一整套”都是自研的,具備更強的適配性,更利於模型的部署和應用。

至此,DI-star為何能夠快、準、狠地被“調教”出來,就有了清晰的眉目。

顯然,在商湯的眼裡,決策智慧是非常重要的。

至於原因,從商湯近幾年的發展歷程變化中,就可以得到清晰的答案。

決策智慧——AI行業的下一代增長動力

過去幾年時間中,商湯在計算機視覺的感知層面做了大量的技術積累,賦能了諸如傳統安防、金融、內容鑑別與生產等諸多領域。透過感知能力,解析了大部分的圖片和影片,一定程度上提高了行業的智慧化和自動化程度。

但隨著感知的能力越來越強,資訊的維度越來越高,這就為運營、控制、決策類的問題的提升帶來了更多的可能性,但是要求也越來越高。

例如自動駕駛行為控制、開放場景的資源運籌與排程、城市級交通的訊號燈控制、車輛的排程和管理、封閉空間人流的最佳化、大規模活動時人力的排程等等。

而在這種情況,決策型AI便起到了關鍵作用。正如商湯智慧決策與遊戲

(ADG)

事業部總經理兼高階研究總監劉宇曾提到的觀點:

無論從技術的發展,還是從市場和消費者的需求來講,AI不僅要“能聽懂看懂”這個世界,更要有自己的“決策能力和想法”。而在諸如遊戲、資源排程、城市管理等部分開放決策類問題上AI已經超越了人,甚至專家的能力,需要決策型的AI提供相關輔助,從而走通最終的價值閉環。

事實上,決策型AI已經在網際網路行業中證明是具備顯著的商業價值,例如它能夠在資料積累成熟的銀行、零售等行業率先落地,完成職業增強或替代從而實現降本增效。

而商湯ADG事業部也在利用自身研發優勢,積極佈局面向企業的通用決策任務SaaS平臺、智慧運營服務等產品。

由此可見,從傳統AI的感知智慧,向更具挑戰和難度的決策智慧躍遷,已然成為科研、產業等領域發展的一個大趨勢。

這也就不難理解商湯為何要發力於此了。

One More Thing

在這次的直播中,IA還為網友們送上了一波“福利”——DI-star專案

已開源

而且是個人PC、1060TI顯示卡就能帶得動的那種哦。

不僅如此,DI-star所屬的決策智慧平臺OpenDILab也對大家進行了開源。

感興趣的朋友們可以戳下方連結去試試了

(有保姆級教程哦)

~

DI-star開源地址:

https://github。com/opendilab/DI-star

— 完 —

量子位 QbitAI · 頭條號簽約