DeepMind AI 又一創舉!玩《雷神之錘 III 》擊敗人類玩家 還展現超強合作力

透過戰術與團隊遊戲實現 AI 更高技術,不只擊敗人類,更以與人類合作為目標,近日,DeepMind 在 3D 遊戲《雷神之錘 III》達到頂尖玩家的水準,甚至能與玩家合作。
評論
評論

Google 旗下人工智慧團隊 DeepMind AI 在圍棋界的驚人創舉眾所皆知,先前甚至投入了複雜性更高的遊戲研究,例如與《星海爭霸 2》和《刀塔 2》進行合作, 透過戰術與團隊遊戲實現 AI 更高技術,不只擊敗人類,更以與人類合作為目標,近日,DeepMind 在 3D 遊戲《雷神之錘 III》(Quake III Arena Capture the Flag) 達到頂尖玩家的水準,甚至能與玩家合作。

《雷神之錘 III》為第一人稱射擊遊戲的先驅,玩過的人都知道其規則:玩家或獨立或組隊在地圖中廝殺,死亡後數秒在地圖某處重生。當某一方達到勝利條件或遊戲持續一定時間後即宣告回合結束。

DeepMind 在部落格上詳解本次的研究成果,這次命名為「爲了贏」(For the Win,FTW)的 AI 完了將近 45 萬場遊戲,學習如何與人和其他的機器合作、競爭。在遊戲訓練過程中,研究人員限定 AI 在 5 分鐘內極盡取得更多的旗子。至於對戰的遊戲地圖為隨機生成,每場地圖不同之外,室內外的地形也不同,AI 可與其他 AI 組隊,也可以與人類組隊,對戰模式則有慢速和高速兩種形式。透過非監督式學習,團隊建立了 AI 人類的典型行為 ,AI 學會防守、尾隨隊友偷襲敵軍陣營等對戰策略。

研究團隊舉行一場比賽找來 40 位真人玩家讓他們隨機和 AI 進行配對,和人類可能是對手或隊友。比賽結束後發現,僅有 AI 的團隊最成功,平均勝率為 74%。相比之下,普通人類玩家的勝率為 43%,頂尖人類玩家為 52%。 AI 在遊戲內的部分表現行為比人類更高效,像是「tagging」(碰觸對方,將其送回地圖起點)成功率人類為 48%,AI 卻可高達 80%,另外藉由與人類協同、對戰比賽也發現,AI 的合作能力更強,是比人類更好的隊友。

這項突破性的遊戲對戰研究結果得利於 Deepmind 在去年提出一種名為 PBT(Population Based Training)訓練神經網路的新方法,藉此可同時訓練和優化一系列網路,進而快速找到最佳的設定,透過強化學習的新發展,AI 進一步實現了人性化的表現。雖然此遊戲在策略學習的難度還是比刀塔、星海等 RTS 遊戲小很多,此類 CTF(Capture The Flag)的遊戲規則很簡單,複雜之處在於動態,CTF 模型長期策略遊戲上效仍可持續觀察。

對團隊來說,研究目標並非擊敗人類,而是尋找新的方法來訓練 AI 在能在複雜的環境實現共同目標。 未來將能進一步改進目前的強化學習和群體訓練方法,促進更強大的、甚至能與人類合作的智慧體的開發。

更多詳細資訊可參照其 論文

延伸閱讀: