多任務智慧體的一大步: DeepMind 一次搞定 57 種 Atari 遊戲的 PopArt

多任務學習,也就是讓單一個智慧體學習解決許多不同的問題,是人工智慧研究中的長期目標。
評論
評論

本文獲得合作媒體 雷鋒網 授權轉載。

多任務學習,也就是讓單一個智慧體學習解決許多不同的問題,是人工智慧研究中的長期目標。最近,該領域取得了許多重大進展, DQN 等智慧體可以使用相同的演算法來玩不同的遊戲,包括 Atari 遊戲「Breakout」(打磚塊)和「Pong」(乒乓球)遊戲。

這些算法以前為每項任務分別訓練不同的智慧體。隨著人工智慧研究深入到更多複雜的現實世界領域,構建單個通用智慧體(與多個分別擅長不同任務的智慧體相反)來學習完成多個任務將變得至關緊要。然而,截至目前,這一任務依然是一個重大挑戰。 DeepMind 近期的一項研究就提出了自己的重大改進。

本篇文章將研究介紹編譯如下:

要做出能掌握多種不同任務的智慧體的難點之一在於,強化學習智慧體用來判斷成功的獎勵等級往往有所不同,導致他們將注意力集中在獎勵更高的任務上。拿「Pong」(乒乓球)遊戲來舉例,智慧體每一步有三種可能的獎勵:-1(AI 沒接住對方發來的球,不僅沒得分,反而倒貼一分)、0(AI 接住了球,進入了敵我雙方循環往復的彈球過程,費了一身工夫卻沒有任何回報)、+1(AI 終於扳回了一局,才能得 1 分,實屬得之不易);但在吃豆人(Ms. Pac-Man)這個遊戲裡面就不同了,只要一出門,就可以吃到一連串的豆豆,因而智慧體可以在單個步驟中獲得數百或數千分。即使單次獲得的獎勵的大小可以比較,但隨著智慧體不斷進化,獎勵的頻率可能會隨著時間發生變化。這意味著,只要不被敵人抓到,吃豆的獎勵明顯比打乒乓球高得多。那麼,智慧體當然會沉迷吃豆(得分高的任務),全然忘記自己還肩負學會其它得分不易遊戲的重任。

「PopArt」

為了不放任智慧體亂來, DeepMind 推出了 PopArt 。這一技術可以讓不同遊戲的獎勵尺度互相適應起來,無論每個特定遊戲中可以得到的獎勵有多大,智慧體都會認為每個遊戲具有同等的學習價值。研究人員用 PopArt 的常態化方法調整了當前最先進的強化學習智慧體,使得一個 AI 可以學會多達 57 種不同的 Atari 遊戲了,而且在這些遊戲中的得分也超過了人類得分的中位數。

從廣義上來說,深度學習依賴於神經網路權重更新,其輸出不斷逼近理想目標輸出。神經網路用於深度強化學習中時也是如此。 PopArt  的工作原理,就是估算各種目標的平均值以及離散程度(比如把遊戲中的得分作為目標)。然後,在更新權重之前,用這些統計數據,把更新網路權重時作為參考的目標一致化。這樣一來,學習過程就會變得比較穩定,不容易因為獎勵尺度之類的因素改變而發生改變。為了得到準確的估計(如預期未來分數),網路的輸出可以透過反轉一致化過程縮放到真實目標範圍。

如果按照這樣的想法直接去做的話,目標統計數據的每次更新都將改變所有未一致化的輸出,包括那些已經很好的輸出,這樣會造成表現的下降。 DeepMind 研究人員的解決方案是,一旦統計數據有更新,他們就把網路向著相反的方向更新;而這種做法是可以準確地執行的。這意味著我們既可以獲得尺度準確的更新的好處,又能保持以前學習到的輸出不變。正是出於這些原因,該方法被命名為 PopArt :它在運行中既能精確地保持輸出,又能自適應地重新縮放目標。

 PopArt 作為修剪獎勵的替代方案

一般來說,研究人員會透過在強化學習演算法中使用獎勵修剪來克服變化獎勵範圍的問題。這種修剪方法把太大的和太小的,都裁剪到 [-1, 1] 的區間裡,粗略地一致化期望獎勵。雖然這個方法會讓學習過程變得容易,但它也會讓學習目標發生變化。仍然以吃豆人(Ms. Pac-Man)舉例,智慧體的目標就是吃豆和吃敵人,每顆豆 10 分,而每吃掉一個敵人會獲得 200 到 1600 不等的分數。如果用獎勵裁剪的話,吃豆和吃敵人可能就沒區別了。這樣訓練出來的 AI ,很可能只吃豆,完全不去追敵人,畢竟吃豆容易。如下圖所示。

多任務智能體的一大步:DeepMind 一次搞定57 種Atari 遊戲的PopArt

當移除獎勵裁剪方案,並使用 PopArt 一致化代替剪裁步驟之後,訓練效果就截然不同了。智慧體會去追敵人了,得的分數也高了許多。

多任務智能體的一大步:DeepMind 一次搞定57 種Atari 遊戲的PopArt

利用 PopArt 進行多任務深度強化學習

 DeepMind 將 PopArt 應用於 Importance-weighted Actor-Learner Architecture(IMPALA) 上,這是 DeepMind 此前提出的、最常用的深度強化學習智慧體。在實驗中,與沒有使用 PopArt 的基線智慧體相比, PopArt 顯著提升了智慧體的性能。不論仍然有獎勵修剪和還是去除了獎勵修剪, PopArt 智慧體遊戲得分的中位數都超越了人類玩家得分的中位數。這遠遠高於有著獎勵修剪的基線智慧體,而直接去掉了獎勵修剪的基線智慧體完全無法達到有意義的性能,因為它無法有效地處理遊戲中獎勵規模的大範圍變化。

多任務智能體的一大步:DeepMind 一次搞定57 種Atari 遊戲的PopArt

 57 個 Atari 遊戲上的中位數標準化性能。每一條線對應單一個智慧體使用同一個神經網路在所有遊戲中得到的中位數性能。實線代表使用了獎勵修剪的智慧體。虛線代表未使用獎勵修剪的智慧體。

這是首次使用單個智慧體在這種多任務環境中實現超越人類的表現,表明 PopArt 可以為這樣的開放性研究問題提供線索,即如何在沒有手動修剪或縮放獎勵的情況下平衡不同的目標函數。 PopArt 實現在學習的同時自動適應一致化的能力在應用 AI  到更加複雜的多模態領域時可能是很重要的,其中智慧體必須學會權衡多個不同的具備變化獎勵的目標函數。

延伸閱讀:

 

歡迎加入「Inside」Line 官方帳號,關注最新創業、科技、網路、工作訊息


不只是把交易搬到網路上!數位轉型3模式協助品牌再升級

數位轉型並不只是將實體商家搬到線上,要將數位的概念貫穿策略、組織、技術、文化等面向,才算是真正搭上數位轉型的列車。
評論
評論

2020 年世界各國因為疫情的蔓延,讓許多企業都開始正視數位轉型的議題,然而台灣到了 2021 年才開始爆發大規模的疫情,也讓很多產業意識到數位轉型的重要性。新冠肺炎疫情帶來許多衝擊,居家辦公、遠端教學、餐廳禁止內用、市場分流等措施,也造成了生活模式及消費習慣的改變,對企業與商家而言,數位轉型成為迫切需求。以餐飲業而言,研究機構 IDC 指出,由於疫情影響,原先需要 2 年以上的數位轉型工作將壓縮到 2 個月以內完成,而另根據《數位時代》的調查,台灣已經有 85.7% 的組織及企業已展開數位轉型。新興的年輕消費族群身為數位原生代,對於數位科技更是運用自如,企業如何運用數位科技及數據幫助企業更精準接觸 TA、並營造更個人化的消費體驗,才是關鍵。

數位轉型並不只是將實體商家搬到線上,要將數位的概念貫穿策略、組織、技術、文化等面向,才算是真正搭上數位轉型的列車。針對數位轉型,全球企業巨擘 Google提出「數位獲客」、「數位科技」、「數位文化」轉型三支箭,指出企業應從線上觀察消費者的行為模式以理解消費者,進而調整數位策略,配合其行為進行個人化行銷或掌握流量,轉為實際業績;在數位獲客以前必須善用數位科技,利用雲端科技打造互相連結的平台;而營造合適的組織文化,培養更多數位人才,更是數位轉型後企業能夠永續經營的重要關鍵。

許多品牌也以此為基礎延伸數位轉型的概念,三模式Plus促進再產業升級:

數位X異業結盟 增加獲客

利用數據進行個人化行銷已是行之有年的數位轉型策略之一,數位廣告及行銷界也長期依賴第三方 cookie 精準追蹤用戶行為進行個人化行銷。在此基礎之上,也有許多品牌進一步融合數位及異業結盟,增加獲客數。如玉山銀行,過去銀行業的獲客模式主要為信用卡優惠,現在則把金融服務融入數位場景中,利用數位化銀行串聯多平台線上支付,擴大異業合作,也增加獲客數。旅遊平台 KKday 在疫情期間受到莫大衝擊,推出旅遊業雲端 SaaS 服務 「Rezio 預定系統」及「KKday 同業分銷平台」,整合旅遊業商品、訂單、金流等面向,攜手合作夥伴一起進行數位轉型,互相增加獲客數。

本土電商龍頭 PChome 24h購物也觀察消費者的消費模式,將數位服務融入異業串聯,如觀察到現代上班族的寄杯文化,因此與新型態咖啡寄杯 APP:CAFFÈCOIN 職人咖啡通行合作,集結全國 1000 家職人咖啡館,於線上儲值,跨店皆能兌換,輸入折扣碼送咖啡兌換金 ;或是看準永續消費的概念與永續時尚品牌 FYNE 合作,輸入折扣碼可享滿額折抵,且參加 FYNE 舉辦的舊衣回收傻瓜計劃,於活動期間透過 FYNE 官網申請不限品牌,舊衣回收可獲得紅利,紅利還可於 FYNE 官網消費折抵。

PChome 24h購物與新型態咖啡寄杯聯盟 CAFFÈCOIN 職人咖啡通行合作。

數位融入生活場景 

而品牌推出的服務要被應用才能增加獲利,品牌藉由數位技術融入生活場景,讓消費者更加離不開品牌服務。如 APPLE 開創的 Face ID,藉由擴大與 APP 通路合作,下載、入口網站、繳費解鎖都要靠 Face ID,也成功增加消費者對品牌商品的依賴度。看準現代人離不開網路地圖的服務,Inline 結合 Google Map 地圖定位服務,讓消費者使用 Google Map 搜尋餐廳或商家後,能直接在地圖下方的「訂位」鍵完成訂位服務,深入消費者生活場景,提升依賴及使用度。而 PChome 24h購物的金流服務 P 幣支付也不斷致力於融入消費者的生活場景,使用範圍從超商、水電費、停車場、買咖啡服務等層面融入消費者的生活,形成 PChome 的金流生態圈,其也支援最完善的行動支付服務,將數位工具完整融入生活場境,滿足消費者體驗。

數位科技擴大應用

隨著科技的推陳出新,行銷手法也不斷變化,尤其在 COVID-19 肆虐之下,新興的行銷 5.0 也應運而生,行銷 5.0 主要在於使用科技提升消費者體驗,如鼎泰豐早在 2016 年就陸續引進 Pepper 機器人及自助點餐機來減少消費者排隊等待的時間,提升顧客體驗,近來更結合物聯網技術,監測店內食品保持品質一致,是行銷 5.0 應用的先驅;IKEA 利用 AR 讓消費者可以將販售的家具擺放在現實生活空間,檢視產品是否符合自家風格。

鼎泰豐早已引進 Pepper 機器人協助候位、點餐系統,減少大量等待時間,優化消費者體驗。
IKEA 發布 APP「IKEA Place」讓消費者可以藉由 AR 技術,檢視產品放置在家中的感覺。圖片來源:IKEA Youtube

除了上述三模式,在企業及商家中樹立良好的數位文化更是能讓組織成為活水,在時代趨勢中不被淘汰。樹立良好的數位文化不外乎就是要培養許多數位人才,尤其是生長在數位原生代的 Z 世代們,從小浸淫在數位時代帶來的資訊爆炸環境,求知慾、學習力旺盛,應變能力強,對於科技運用能力更是嫻熟,

且多半不滿足於單一能力的培養,紛紛具有多元能力而成為斜槓族;除了技術性的能力之外,在軟實力上也不落人後,Z 世代勇於表達自我,也積極在社群媒體上求表現,甚至被稱為「孔雀世代」,同時也善於營造生活氛圍,重視工作與生活的平衡,貼近現代消費者的需求。

PChome 24h購物開辦電商線上課程,強化電商人才培育。

許多企業注意到 Z 世代的人才特質,開始運用在企業經營上,尤其在以數位為根基的電商產業,如 PChome 24h購物看到了 Z 世代人才的特質優勢,但苦於台灣並無系統性的電商培育資源,因此開辦電商線上課程,教授創意檔期策略、異業合作、社群入門及行銷提案等電商產業知識,培育人才回饋產業界。人才培育是數位轉型文化能夠保持滾動的重要因素,品牌應善加運用 Z 世代數位人才的特質,創造雙贏。

本文章內容由「戰國策傳播集團」提供,經關鍵評論網媒體集團廣編企劃編審。