奧推網

選單
科技

遊戲裡的人機對手,正在幫助人工智慧走入現實

AI與遊戲的關係,隨著近段時間人工智慧的風頭漸長,越來越常被人們提起。

但在談到AI仍總會讓人想起“模型”和“演算法”等抽象詞彙,還沒能靠視覺化被更多人看到的時候,它其實早就已經和遊戲走到了一起。

作為一種與使用者行為緊密相關的互動性媒介,遊戲很容易給AI提供各種工具化的空間;同時因為它由規則與玩法搭建起舞臺,邏輯嚴密的遊戲本身又是天然適合AI生長和進化的土壤。

就算到了現在,仍有很多人還沒意識到,二者的相遇從某種程度上來說是必然的。而且在過去的幾年裡,已經有很多團隊用例項證明了這一點。

1. 遊戲工具箱裡的AI

如今聊起人工智慧在遊戲中的應用,很多人首先想到的是遊戲製作中它能提供的幫助。

以MidJourney為代表的眾多作圖AI,確實已經被不少開發者逐漸運用到了實際的遊戲製作中;微軟最近申請了專利的AI作曲模型,聽上去似乎也把遊戲配樂的門檻拉低了不少;就連遊戲內人物的對話,Open AI最近推出的聊天人工智慧ChatGPT聽上去也能勝任,似乎離RPG遊戲裡角色對話的完全智慧化也不遠了。

ChatGPT 號稱“能接住人類拋給它的話題”

可這些距離我們普通玩家來說,始終還有一定距離。我們想要的,是能迅速應用到遊戲中來改善遊玩體驗的各種工具——而這些也是AI能提供給玩家,甚至已經給到玩家的東西。

比如一個已經常用到足以被忽視的例子:圍棋平臺的AI陪練。

一開始當AlphaGo戰勝人類棋手的時候,人們大都是感覺到AI對圍棋界的衝擊。但是反觀現在,AI已經完全融入到了這個行業中,一個好用的AI陪練已經成了練棋的重要助手。甚至經過長時間的發展,已經細化出了各類產品,諸如“少兒圍棋AI陪練”和“制定段位特訓AI老師”都是針對不同人群的精準訂製,就連中國國家圍棋隊也將騰訊AI Lab研發的棋牌類AI“絕藝”作為陪練。

在緊隨圍棋的電子遊戲領域中,《星際爭霸》《DOTA2》等專案上AI的勝利並沒晚來多少,而在國內如今區別於市面上常見的遊戲陪練的AI陪練也已經出現了。

《王者榮耀》中最近升級的“王者絕悟”,實際上就是一個AI夥伴。和其他遊戲裡高難度電腦主要靠操作和讀指令不同,“王者絕悟”更多是透過多個AI間的不斷切磋和試錯,逐漸總結出規律摸索出最適合當下情況的操作準則。

對於MOBA玩家來說,如何拓寬自己的英雄池,練出足以拿到排位實戰中的熟練度,而不在練習過程中成為隊友口中的坑,一直是個難題。但在這個英雄訓練營裡,玩家們就不必再有類似的負擔。

根據玩家水平不同,它會配置同水平的4個隊友和5個對手,讓玩家在最適合自己分段的對局裡練習不熟練的英雄。除此以外,王者絕悟還有實現讓AI接管角色的操控權、第一視角觀摩AI操作的能力。

如果只是觀看AI的操作,可能不會覺得有多厲害,但假若未來這樣的功能實裝到遊戲當中,當玩家還能隨時和AI的身份對調,就能更清晰地明白某些決策的意義。原本“看上去也沒覺得多厲害,但就是打不過”的雲玩家視角,也就變成了一個能用來提升熟練度、拓展英雄池的實用小夥伴。

而與此同時,對於人工智慧行業來說,遊戲如果只是AI的服務物件,那它們的聯絡遠不會像今天這樣緊密。因為在用AI提升玩家英雄理解能力,拓展英雄池,進而提升遊戲體驗的同時,遊戲其實也是人工智慧的天然訓練場。

2. 穿透資訊迷霧的AI

對於AI產業來說,遊戲同時也是AI實現更多目標的手段。

面對複雜的現實環境,AI眼前並沒有圍棋中非黑即白的規則,或者是一覽無餘的一方棋盤。如何把海量資訊間的規律總結提煉出來,在資訊不對等的情況下做出決定,是AI投入許多領域都要面臨的問題。

可正好,遊戲就具備類似的完美實驗環境。

遊戲中的玩法規則,就是對許多複雜事物規律的總結和簡化;不對等資訊下的博弈,也是多人遊戲這麼多年發展不斷玩出新花樣的賣點。就像沙盤推演之於真實的戰場,遊戲也為AI提供了匹配度極高的實操舞臺。

11月22日,Meta公司(原Facebook)旗下研究團隊推出的一個AI,就在經典戰略桌遊《強權外交》上體會了一番複雜的訓練環境。

在這款模擬列強瓜分歐洲大陸的戰爭遊戲裡,7名玩家需要各自為戰,以吞下半個歐洲為目標努力。遊戲雖然在桌遊規則的概括下玩法稱不上太複雜,但遊戲中還有個完全左右勝負的重要功能,那就是與玩家打字交流。如何合縱連橫,以口才發揮出自己有限兵力的最大優勢,是Meta團隊選擇這個遊戲的最大原因。

在這些人與人與人工智慧間的博弈裡,玩家可以選擇公屏聊天,也可以選擇一對一私聊。所以除了要處理已知資訊並推斷未知情報,還需要對謊言的存在做出合理判斷。

在最後的結果裡,這個名為Cicero的AI經過訓練最終拿到了壓倒性的勝率。更為關鍵的是,很多人類玩家甚至最後都沒發現和自己有說有笑對局的對手,其實是個AI。

人類在遊戲對局中思路和語言的多變,對於AI來說無疑是需要更多理解成本的東西,特別是當資訊不對等時,猜忌鏈就會讓問題進一步複雜化,不單單是“誰在第幾層”的問題。

同樣拿前面提到的“王者絕悟”為例,遊戲裡複雜的場景、多種英雄的組合和技能、策略的搭配,多方條件疊加產生的千萬種條件裡,還要預判對方的操作和動向,複雜環境下進行高效決策的能力自然就能得到更快的訓練。

更重要的是,在這些條件下“己方規劃的完美執行”,也是隻有高度數字化場景中才有的測試環境。

例如在一條車水馬龍的公路上,要驗證一種交通排程演算法的合理性,需要上千輛汽車的配合。但是在人類駕駛員的操控下,想要分毫不差地完美執行幾乎是不可能的,但AI就能做到。

儘可能減小誤差、保證已知條件的不變,在越發複雜的條件構成中,就顯得愈加重要。也只有這樣,才能更高效地試探出那條正確的前進方向。

而當沙盤推演結束,AI從中學到的東西自然就能更快地運用到更多行業中去,那裡等著AI的不只有多變的環境,還有AI間的同門對決。

3. 叩響現實門扉的AI

如果只是套用從圍棋這樣資訊全透明的簡潔場景裡學到的規則,那麼留給AI施展的空間並不多。

因為在瞬息萬變的現實裡,資訊的產生和變化是無不時刻都在進行中,就像在一個人潮湧動的街角,每個人下一分鐘的具體位置都無法百分百確定。

特別是當越來越多領域的AI得到普及、“萬物互聯時代”到來後,AI之間更復雜的“多智慧體協作/博弈”也會更為普遍。那麼屆時在這個方向上,它也會成為未來AI邁入其他領域,以及如何實現橫跨多領域作業的重要課題。

在這一點上,強調多人合作的《王者榮耀》等遊戲就正好有著用武之地。不僅遊戲內AI指揮的多個英雄(智慧體)間有著配合,雙方的AI也可以一較高下。

在今年早些時候落下帷幕的第二屆“騰訊開悟多智慧體強化學習大賽”上,這場特殊電競比賽裡的雙方選手就不用直接操控英雄,而是派出自己訓練出的AI出戰。最終來自清華大學的團隊從23支戰隊中脫穎而出,拿下了最終的冠軍。

比賽採用3v3長平攻防戰模式

這場比賽的實現,基於一個名為“開悟”的AI開放研究平臺。這個由騰訊AI Lab和王者榮耀團隊共同牽頭構建的平臺,基於MOBA遊戲複雜的環境,為訓練決策智慧AI 和研究多智慧體博弈提供了一個比較理想的實驗環境。

當然最重要的是,它為使用者提供了用於讀取《王者榮耀》對應測試場景和控制英雄行為的資料介面,能讓其他研究者更便捷地測試自己的演算法和模型。

這個平臺為這些參賽者提供了《王者榮耀》的運算核心邏輯,以及計算平臺、評估工具以及研究資源的綜合支援等服務。這讓參賽者們不需要做影象識別等技術要求更繁瑣的處理,只需要關注具體的演算法和多智慧體之間的配合邏輯,才有了這樣一場形式特殊的《王者榮耀》高校賽。

對於這些旁觀者來說,或許目前這只是一場寓教於樂的AI實踐課,但對於這些高校學子們來說,這也可能會是他們驗證未來研究方向的重要契機。不少團隊都在賽後反饋,在賽事中他們收穫不少,還有團隊在比賽結束後繼續用開悟平臺進行研究。

雖說現在這只是幾個AI英雄間的互丟技能,但由此探索出的演算法解決方案,或許是未來人工智慧從數字場景走入現實各行各業的種子。

例如,股票AI如何量化計算每筆交易,在基於已有資訊建立的模型下,還需要與其他股票AI的演算法進行博弈;一場地震後分別負責不同救災功能的AI機器人,不僅要考慮自己的挖掘效率,還要配合其他AI實時提供的資料,統籌計算出廢墟的荷載能力避免次生災害發生,這些都是未來可能出現的AI應用場景,

工業、金融或是交通,如果有成熟的AI應用其中,多個AI之間的配合和競爭都是可以想見的。不論是多個組裝流水線上智慧機器人的通力搭配,還是智慧交通系統裡自動駕駛AI的安全和高效化,都有可能從這裡起步。

就在兩週前的11月21日,“開悟”平臺還正式宣佈擴大開放了“王者榮耀AI開放研究環境”的申請。這樣就能有更多研究者,用上這個高度複雜MOBA訓練環境,幫助加速強化學習領域內的交流,幫助AI走入現實。

不管是面向高校的“開悟大賽”,還是開悟平臺的開放服務,他們對國內人工智慧行業的積極影響是可以肯定的。AI既在遊戲的虛擬環境中獲得了養分,遊戲也再一次證明了自己在娛樂功能外的不可替代。

我們越是讀懂遊戲和人工智慧密不可分的紐帶,就越想看到有一天它們之間的關係被淡忘。

因為那一天的到來,很可能就意味著AI已經完全走入了現實生活,與我們的方方面面都息息相關。而遊戲終於也不用再一次次剖開自己證明,它在科技和社會發展中的重要意義,這個早已被玩家看清的事實。