
吃雞、捉迷藏都難不倒它!Deepmind 推出最新泛用型遊戲 AI「XLand」

還記得 AlphaGo 圍棋下贏柯潔、李世乭的震撼時刻嗎?從 AlphaGo 之後,Google 母公司 Alphabet 旗下的英國 AI 企業 Deepmind 一直在透過強化學習(Reinforcement learning,RL)技術挑戰各種遊戲,有星海爭霸 2 的 AlphaStar、能通學西洋棋、將棋、圍棋的 AlphaZero、MuZero 技術上也越往「無監督學習」的方向走去。
但最近他們則把觸角放到更廣泛的領域,推出泛用度極高、可以零樣本,而且不需要事先知道規則的通用型新遊戲學習 AI:XLand。
我們知道機器學習(Machine Learning,ML)、RL 都需要足夠的資料來訓練模型,反過來說只要資料不夠,RL 學習的成效就不好。之前 AlphaGo Zero 能震撼世人不只是它能下贏世界棋王柯潔,更重要的是它能不需要任何人類資料,就能從零開始自我學習、自我對戰。
而今天的主角 XLand 的特殊點在於,它能在多人遊戲環境中建立一個 3D 的第一人稱化身,這個化身會透過第一人稱視角去感知遊戲中環境,並且不斷嘗試、碰撞遊戲規則,從中累積龐大資料來訓練自己完成遊戲目標。要舉例的話,AlphaGo Zero 化身的只是「下棋的那隻手」,但 XLand 是把整個人都模擬出來了!
目前 Deepmind 讓 XLand 去玩奪旗、捉迷藏或 King of the Hill 等遊戲,Deepmind 官方說明,XLand 只要平均訓練五個世代之後,那個 AI 化身的遊戲表現就能有飛躍式的進步。Deepmind 透過動作特徵發現這些 AI 每次訓練都能幫助理解自己動作的基本原理、時間條件與遊戲規則。Deepmind 還表示在吃雞型遊戲中,XLand 的 AI 化身甚至可以彼此間展現出很好的合作行為。

Deepmind 說明 XLand 訓練出來的模型若再加上些許的監督式學習進行微調,其原理類似於 OpenAI 的 Text-KI GPT-3 可以針對某些特定文本任務進行微調一樣,XLand 再經過約 30 分鐘或多 1 億次的再訓練後,AI 化身完成任務的成效就能再增加 340%,並且還具有解決先前無法成功任務的能力。
從 AlphaGo 走到現在 XLand,Deepmind 展示了無監督式機器學習的高度潛力,也向世界證明未來訓練 AI 的成本跟門檻將會越來越低、越來越普羅。他們的技術論文請點這。
核稿編輯:Anny
延伸閱讀: