多任務智慧體的一大步: DeepMind 一次搞定 57 種 Atari 遊戲的 PopArt

評論
評論

本文獲得合作媒體 雷鋒網 授權轉載。

多任務學習,也就是讓單一個智慧體學習解決許多不同的問題,是人工智慧研究中的長期目標。最近,該領域取得了許多重大進展, DQN 等智慧體可以使用相同的演算法來玩不同的遊戲,包括 Atari 遊戲「Breakout」(打磚塊)和「Pong」(乒乓球)遊戲。

這些算法以前為每項任務分別訓練不同的智慧體。隨著人工智慧研究深入到更多複雜的現實世界領域,構建單個通用智慧體(與多個分別擅長不同任務的智慧體相反)來學習完成多個任務將變得至關緊要。然而,截至目前,這一任務依然是一個重大挑戰。 DeepMind 近期的一項研究就提出了自己的重大改進。

本篇文章將研究介紹編譯如下:

要做出能掌握多種不同任務的智慧體的難點之一在於,強化學習智慧體用來判斷成功的獎勵等級往往有所不同,導致他們將注意力集中在獎勵更高的任務上。拿「Pong」(乒乓球)遊戲來舉例,智慧體每一步有三種可能的獎勵:-1(AI 沒接住對方發來的球,不僅沒得分,反而倒貼一分)、0(AI 接住了球,進入了敵我雙方循環往復的彈球過程,費了一身工夫卻沒有任何回報)、+1(AI 終於扳回了一局,才能得 1 分,實屬得之不易);但在吃豆人(Ms. Pac-Man)這個遊戲裡面就不同了,只要一出門,就可以吃到一連串的豆豆,因而智慧體可以在單個步驟中獲得數百或數千分。即使單次獲得的獎勵的大小可以比較,但隨著智慧體不斷進化,獎勵的頻率可能會隨著時間發生變化。這意味著,只要不被敵人抓到,吃豆的獎勵明顯比打乒乓球高得多。那麼,智慧體當然會沉迷吃豆(得分高的任務),全然忘記自己還肩負學會其它得分不易遊戲的重任。

「PopArt」

為了不放任智慧體亂來, DeepMind 推出了 PopArt 。這一技術可以讓不同遊戲的獎勵尺度互相適應起來,無論每個特定遊戲中可以得到的獎勵有多大,智慧體都會認為每個遊戲具有同等的學習價值。研究人員用 PopArt 的常態化方法調整了當前最先進的強化學習智慧體,使得一個 AI 可以學會多達 57 種不同的 Atari 遊戲了,而且在這些遊戲中的得分也超過了人類得分的中位數。

從廣義上來說,深度學習依賴於神經網路權重更新,其輸出不斷逼近理想目標輸出。神經網路用於深度強化學習中時也是如此。 PopArt  的工作原理,就是估算各種目標的平均值以及離散程度(比如把遊戲中的得分作為目標)。然後,在更新權重之前,用這些統計數據,把更新網路權重時作為參考的目標一致化。這樣一來,學習過程就會變得比較穩定,不容易因為獎勵尺度之類的因素改變而發生改變。為了得到準確的估計(如預期未來分數),網路的輸出可以透過反轉一致化過程縮放到真實目標範圍。

如果按照這樣的想法直接去做的話,目標統計數據的每次更新都將改變所有未一致化的輸出,包括那些已經很好的輸出,這樣會造成表現的下降。 DeepMind 研究人員的解決方案是,一旦統計數據有更新,他們就把網路向著相反的方向更新;而這種做法是可以準確地執行的。這意味著我們既可以獲得尺度準確的更新的好處,又能保持以前學習到的輸出不變。正是出於這些原因,該方法被命名為 PopArt :它在運行中既能精確地保持輸出,又能自適應地重新縮放目標。

 PopArt 作為修剪獎勵的替代方案

一般來說,研究人員會透過在強化學習演算法中使用獎勵修剪來克服變化獎勵範圍的問題。這種修剪方法把太大的和太小的,都裁剪到 [-1, 1] 的區間裡,粗略地一致化期望獎勵。雖然這個方法會讓學習過程變得容易,但它也會讓學習目標發生變化。仍然以吃豆人(Ms. Pac-Man)舉例,智慧體的目標就是吃豆和吃敵人,每顆豆 10 分,而每吃掉一個敵人會獲得 200 到 1600 不等的分數。如果用獎勵裁剪的話,吃豆和吃敵人可能就沒區別了。這樣訓練出來的 AI ,很可能只吃豆,完全不去追敵人,畢竟吃豆容易。如下圖所示。

多任務智能體的一大步:DeepMind 一次搞定57 種Atari 遊戲的PopArt

當移除獎勵裁剪方案,並使用 PopArt 一致化代替剪裁步驟之後,訓練效果就截然不同了。智慧體會去追敵人了,得的分數也高了許多。

多任務智能體的一大步:DeepMind 一次搞定57 種Atari 遊戲的PopArt

利用 PopArt 進行多任務深度強化學習

 DeepMind 將 PopArt 應用於 Importance-weighted Actor-Learner Architecture(IMPALA) 上,這是 DeepMind 此前提出的、最常用的深度強化學習智慧體。在實驗中,與沒有使用 PopArt 的基線智慧體相比, PopArt 顯著提升了智慧體的性能。不論仍然有獎勵修剪和還是去除了獎勵修剪, PopArt 智慧體遊戲得分的中位數都超越了人類玩家得分的中位數。這遠遠高於有著獎勵修剪的基線智慧體,而直接去掉了獎勵修剪的基線智慧體完全無法達到有意義的性能,因為它無法有效地處理遊戲中獎勵規模的大範圍變化。

多任務智能體的一大步:DeepMind 一次搞定57 種Atari 遊戲的PopArt

 57 個 Atari 遊戲上的中位數標準化性能。每一條線對應單一個智慧體使用同一個神經網路在所有遊戲中得到的中位數性能。實線代表使用了獎勵修剪的智慧體。虛線代表未使用獎勵修剪的智慧體。

這是首次使用單個智慧體在這種多任務環境中實現超越人類的表現,表明 PopArt 可以為這樣的開放性研究問題提供線索,即如何在沒有手動修剪或縮放獎勵的情況下平衡不同的目標函數。 PopArt 實現在學習的同時自動適應一致化的能力在應用 AI  到更加複雜的多模態領域時可能是很重要的,其中智慧體必須學會權衡多個不同的具備變化獎勵的目標函數。

延伸閱讀:

 

歡迎加入「Inside」Line 官方帳號,關注最新創業、科技、網路、工作訊息

好友人數

精選熱門好工作

Brand Management

樂購蝦皮股份有限公司
臺北市.台灣

獎勵 NT$20,000

產品經理 / Product Manager

奔騰網路科技有限公司
臺北市.台灣

獎勵 NT$20,000

PopDaily 專案經理(Project Manager)

數果網路股份有限公司
臺北市.台灣

獎勵 NT$20,000

評論