
【Howie 商業投資】能打星海,但不能打魔獸?Google 的 DeepMind 讓 AI 更靈活

距離 Alpha Go 打敗人類棋手李世乭已經六年了,當時由 DeepMind 開發的 AlphaStar 演算法在當年紅極一時,AI 現在也進入到增強式學習(Reinforce Learning,或稱為強化學習)的時代,運用「探索—利用」的方式提升自己的腦力。可惜的是,現在的演算法依舊有無法達到自行推論與完全複製,因此 DeepMind 準備再次出手,扭轉這一切。
打星海時是強者,玩魔獸變成植物人
不久前,DeepMind 讓 AI 玩星海爭霸 2 與魔獸爭霸 3。在星海爭霸時,研究團隊讓 AI 打贏一場又一場的戰役與人類玩家,透過大量資料的預先訓練 AI 在面對不同敵方種族與調性的對手時能做出對應的反擊。但同樣是戰略遊戲,能打贏星海殘酷電腦等級的 AI,過渡到魔獸時就不是那麼回事了,據說 AI 只產了幾隻農民後,就開始瘋狂採礦但不產兵了;不只如此,這隻 AI 在玩 Dota 2 時一樣腦死,跌破大家眼鏡。這要是搬到現實應用情境,恐怕很多人對於 AI 的能力評價會大打折扣。問題是,能打敗棋王的演算法,為何只是換個遊戲而已就直接死機呢?

▲AlphaStar 的示範遊玩
增強式學習雖然可以模擬人類行為,但無法延伸思考
增強式學習(Reinforce Learning)最厲害的地方,就是可以在訓練與測試的過程中自己與環境互動,衍伸出對應行為並自行回饋資料,演算法再從回饋中反覆學習,如同動物與環境互動一樣。但它同樣具備缺乏彈性的致命傷,在同個環境裡,它可以學習得深,甚至自行形成預測。但換個環境,它反而一點都不智慧,甚至表現更差。這就是能下圍棋的 AlphaGo 沒辦法下象棋跟西洋棋——即便他們有部分邏輯互通,這就能解釋同樣是戰略遊戲,即便稍微調整一下不同種族與難度,AI 能打好星海,卻在魔獸中慘輸的原因,AI 還沒有我們想的那麼聰明。

DeepMind 啟動 X Land 專案,無限個關卡等著 AI 來破
為了解決增強式學習不足的窘境,DeepMind 啟動 X Land 專案。X Land 是一個網狀空間,裡面是個 3D、可編程、容納近乎無無限個任務設計的世界,你可以想成遊戲中的自訂地圖,自己在任何地方放置物件、設計關卡、調整難易度等等,然後讓 AI 不斷在不同環境中完成關卡目標,從找到某個物件,到用打怪積分換取裝備都可以。穿梭在其中的是神經網路架構與一種稱為 population based Training 的訓練方法,這種訓練方法佔用更少的運算資源,並會根據 AI 完成的任務,自動生成更難、不同性質的任務,不斷訓練 AI 的反應能力。除了先進的演算法,X Land 可以使用 Google 近乎無限的雲端資源,這也是一般企業難以做到的。截至目前,專案已經讓 AI 在 4,000 個世界中玩了 70,0,000 個關卡、完成一共 3,400 萬個任務,2,000 億個執行步驟。一切只為了讓 AI 在不同環境中能快速做出正確反應。

AI 普及化的關鍵:更聰明與規模化
IBM 曾在一份調查指出,疫情後的全球企業採用 AI 的比例達三分之一;AWS 的一名客戶也告訴公司,他們想要部署一百萬個 AI 模型。讓他們有所猶豫的原因在於,需要一個應用情境讓可以說服高階主管—— - 即便結果有稍微誤差;但是要說服管理階層規模化這些模型可能就有困難了,資料的純度、品質不佳與數量不足都是讓企業卻步的原因,而事實上,沒有規模化的 AI,就跟動物園的動物一樣僅能供人觀賞,但無法投入實戰。或許 X Land 並不像 Google 的其他黑科技一樣著名,但 X Land 可能讓 AI 學會玩不同遊戲(應用場景),甚至可以逆向工程回推怎麼設計遊戲(完全智慧化),對於 Google 在 AI 領域的地位與市佔又邁進一大步。
責任編輯:Mia
延伸閱讀:
- 【Howie 商業投資】自動產生 AI 模型!人工智慧大規模部署的關鍵:AI 工業化
- Intel 又收購!納入機器學習新創,加強 AI 運算實力
- 【AWS re:Invent 2019】AI Head Joel Minnick:機器學習是各行各業都不能錯過的科技
- 監督式學習?增強學習?聽不懂的話,一定要看這篇入門的機器學習名詞解釋!