多任務智慧體的一大步: DeepMind 一次搞定 57 種 Atari 遊戲的 PopArt

多任務學習,也就是讓單一個智慧體學習解決許多不同的問題,是人工智慧研究中的長期目標。
評論
評論

本文獲得合作媒體 雷鋒網 授權轉載。

多任務學習,也就是讓單一個智慧體學習解決許多不同的問題,是人工智慧研究中的長期目標。最近,該領域取得了許多重大進展, DQN 等智慧體可以使用相同的演算法來玩不同的遊戲,包括 Atari 遊戲「Breakout」(打磚塊)和「Pong」(乒乓球)遊戲。

這些算法以前為每項任務分別訓練不同的智慧體。隨著人工智慧研究深入到更多複雜的現實世界領域,構建單個通用智慧體(與多個分別擅長不同任務的智慧體相反)來學習完成多個任務將變得至關緊要。然而,截至目前,這一任務依然是一個重大挑戰。 DeepMind 近期的一項研究就提出了自己的重大改進。

本篇文章將研究介紹編譯如下:

要做出能掌握多種不同任務的智慧體的難點之一在於,強化學習智慧體用來判斷成功的獎勵等級往往有所不同,導致他們將注意力集中在獎勵更高的任務上。拿「Pong」(乒乓球)遊戲來舉例,智慧體每一步有三種可能的獎勵:-1(AI 沒接住對方發來的球,不僅沒得分,反而倒貼一分)、0(AI 接住了球,進入了敵我雙方循環往復的彈球過程,費了一身工夫卻沒有任何回報)、+1(AI 終於扳回了一局,才能得 1 分,實屬得之不易);但在吃豆人(Ms. Pac-Man)這個遊戲裡面就不同了,只要一出門,就可以吃到一連串的豆豆,因而智慧體可以在單個步驟中獲得數百或數千分。即使單次獲得的獎勵的大小可以比較,但隨著智慧體不斷進化,獎勵的頻率可能會隨著時間發生變化。這意味著,只要不被敵人抓到,吃豆的獎勵明顯比打乒乓球高得多。那麼,智慧體當然會沉迷吃豆(得分高的任務),全然忘記自己還肩負學會其它得分不易遊戲的重任。

「PopArt」

為了不放任智慧體亂來, DeepMind 推出了 PopArt 。這一技術可以讓不同遊戲的獎勵尺度互相適應起來,無論每個特定遊戲中可以得到的獎勵有多大,智慧體都會認為每個遊戲具有同等的學習價值。研究人員用 PopArt 的常態化方法調整了當前最先進的強化學習智慧體,使得一個 AI 可以學會多達 57 種不同的 Atari 遊戲了,而且在這些遊戲中的得分也超過了人類得分的中位數。

從廣義上來說,深度學習依賴於神經網路權重更新,其輸出不斷逼近理想目標輸出。神經網路用於深度強化學習中時也是如此。 PopArt  的工作原理,就是估算各種目標的平均值以及離散程度(比如把遊戲中的得分作為目標)。然後,在更新權重之前,用這些統計數據,把更新網路權重時作為參考的目標一致化。這樣一來,學習過程就會變得比較穩定,不容易因為獎勵尺度之類的因素改變而發生改變。為了得到準確的估計(如預期未來分數),網路的輸出可以透過反轉一致化過程縮放到真實目標範圍。

如果按照這樣的想法直接去做的話,目標統計數據的每次更新都將改變所有未一致化的輸出,包括那些已經很好的輸出,這樣會造成表現的下降。 DeepMind 研究人員的解決方案是,一旦統計數據有更新,他們就把網路向著相反的方向更新;而這種做法是可以準確地執行的。這意味著我們既可以獲得尺度準確的更新的好處,又能保持以前學習到的輸出不變。正是出於這些原因,該方法被命名為 PopArt :它在運行中既能精確地保持輸出,又能自適應地重新縮放目標。

 PopArt 作為修剪獎勵的替代方案

一般來說,研究人員會透過在強化學習演算法中使用獎勵修剪來克服變化獎勵範圍的問題。這種修剪方法把太大的和太小的,都裁剪到 [-1, 1] 的區間裡,粗略地一致化期望獎勵。雖然這個方法會讓學習過程變得容易,但它也會讓學習目標發生變化。仍然以吃豆人(Ms. Pac-Man)舉例,智慧體的目標就是吃豆和吃敵人,每顆豆 10 分,而每吃掉一個敵人會獲得 200 到 1600 不等的分數。如果用獎勵裁剪的話,吃豆和吃敵人可能就沒區別了。這樣訓練出來的 AI ,很可能只吃豆,完全不去追敵人,畢竟吃豆容易。如下圖所示。

多任務智能體的一大步:DeepMind 一次搞定57 種Atari 遊戲的PopArt

當移除獎勵裁剪方案,並使用 PopArt 一致化代替剪裁步驟之後,訓練效果就截然不同了。智慧體會去追敵人了,得的分數也高了許多。

多任務智能體的一大步:DeepMind 一次搞定57 種Atari 遊戲的PopArt

利用 PopArt 進行多任務深度強化學習

 DeepMind 將 PopArt 應用於 Importance-weighted Actor-Learner Architecture(IMPALA) 上,這是 DeepMind 此前提出的、最常用的深度強化學習智慧體。在實驗中,與沒有使用 PopArt 的基線智慧體相比, PopArt 顯著提升了智慧體的性能。不論仍然有獎勵修剪和還是去除了獎勵修剪, PopArt 智慧體遊戲得分的中位數都超越了人類玩家得分的中位數。這遠遠高於有著獎勵修剪的基線智慧體,而直接去掉了獎勵修剪的基線智慧體完全無法達到有意義的性能,因為它無法有效地處理遊戲中獎勵規模的大範圍變化。

多任務智能體的一大步:DeepMind 一次搞定57 種Atari 遊戲的PopArt

 57 個 Atari 遊戲上的中位數標準化性能。每一條線對應單一個智慧體使用同一個神經網路在所有遊戲中得到的中位數性能。實線代表使用了獎勵修剪的智慧體。虛線代表未使用獎勵修剪的智慧體。

這是首次使用單個智慧體在這種多任務環境中實現超越人類的表現,表明 PopArt 可以為這樣的開放性研究問題提供線索,即如何在沒有手動修剪或縮放獎勵的情況下平衡不同的目標函數。 PopArt 實現在學習的同時自動適應一致化的能力在應用 AI  到更加複雜的多模態領域時可能是很重要的,其中智慧體必須學會權衡多個不同的具備變化獎勵的目標函數。

延伸閱讀:

 

歡迎加入「Inside」Line 官方帳號,關注最新創業、科技、網路、工作訊息


當個人化服務浪潮襲來 品牌如何以數位CRM打造會員生態圈 優化後疫情時代商業模式

隨著數位時代演變,個人化服務漸受各方企業重視,本文以數位CRM系統所衍生之各項服務為例,說明PChome如何將「MarTech」運用在個人化服務中,以及其所扮演的各種關鍵性角色。
評論
photo credit:shutterstock
評論

隨著iOS14的社群隱私權政策改變,以往透過數位廣告帶來的流量紅利已隨之消退,追蹤用戶使用習慣與興趣所帶來的轉換率更是逐漸降低,加上疫情影響,線上消費數量暴增,消費者比以往更重視個人化服務,因此「再」數位化浪潮襲來,「MarTech」(科技行銷)儼然已成為品牌數位轉型的重要工具,如何利用數位CRM(Customer Relationship Management)系統洞察消費者需求、立定行銷策略正是品牌所要面臨的一大挑戰。

以人為出發點:CRM成為科技化行銷的主要策略

過去大眾傳播式的集體宣傳在現在市場中已經逐漸無法滿足消費者需求,消費者越來越注重個人化的體驗。個人化體驗首先要獲得個人化的喜好,因此眾多品牌開始利用數位廣告、商務對話的方式獲取用戶的購物慾望清單,以及點數經濟刺激舊客回購,透過追蹤會員在網站上瀏覽、產生購買行為的行動軌跡,再搭配大數據分析,針對不同族群設計推播內容再加以溝通,以此提升服務品質並深度經營顧客關係。而數位CRM系統則扮演著科技化行銷的主要策略,不僅能協助整合會員數據,更善加運用客戶標籤,傳遞精準的資訊,與消費者互動,提升「獲客」與「活客」的能力,建立忠誠度立足數位市場。

建立會員分級制度 打造精準個人化服務

數位CRM是打造顧客回流最佳的工具,不過要讓用戶長期買單,客製化的溝通模式與打造會員分級制度才能有效提升用戶黏著度。例如誠品以書店起家,目前也朝向複合式商場邁進,旗下事業版圖橫跨書店、文具店、電影院、旅館,甚至連生鮮超商、酒窖都有經營,也開始新增許多小規模的社區店;在電商方面,除了自有的誠品線上網站,也在其他電商開設主題館增加接觸點。誠品正在打造自己的生態圈,並努力運用數位足跡進行CRM策略應用,如將會員分卡分級,並給予高等級的會員不一樣的特級制度,但同時也為有特定偏好的會員設立不同的制度,像是針對購書會員推出「讀書人徽章」分級制度,有藝文活動也會優先讓高等級的讀書人先報名。

而PChome旗下的時尚選貨電商MiTCH攜手GoSky建立會員點數系統,利用Messenger Chatbot的功能打造數位會員卡,以簽到集點、兑禮、限時任務等誘因與用戶深度互動,創造每日簽到率81%的佳績。透過這樣的忠誠度計畫,企業更能區別用戶的使用頻率與黏著度,進而建立會員分級制度並精準溝通資訊。另外零售品牌全聯也攜手Appier運用AI技術整合線上線下的會員資料,並利用貼標技術辨別消費者輪廓,分析出會員曾搜尋、瀏覽的軌跡來量身打造客製化的專屬推薦商品。

photo credit:gosky官網
MiTCH攜手GoSky建立會員點數系統,利用Messenger Chatbot的功能打造數位會員卡深化會員互動。

消費型態轉變 透過生態圈落實CRM掌握會員輪廓

生態圈和全通路是許多零售商和電商目前都在深度經營的策略,為的都是收集更多的數據創造更個人化的體驗。例如誠品的會員制度不只是針對所有會員,還因應會員的消費習慣推出不同的方式和獎勵,讓消費者感到差異化,進而提升品牌黏著度。

電商品牌PChome 24h購物過去利用到貨服務以及不囉唆的退貨機制,作為培養客戶忠誠度的關鍵。他們也藉由完整化金流系統,建立了自己的P幣生態圈,透過完整的通路和支付系統了解消費者的消費習慣,現在藉由數位CRM操作觀察到,對比2019-2020年到今年台灣疫情爆發後,全站消費活躍用戶從本來的25-54歲年齡層,擴增到18-24歲以及65歲以上,另外是熟齡女性用戶比起2019上半年有20%以上的成長,顯示出受疫情影響,整體消費型態的改變更是橫跨各世代族群。

懂得根據數據策略布局才是關鍵心法

針對消費需求的變化,PChome 24h購物進一步將四大主題會場結合時事及需求規劃選品,不論是居家上班上課所需的3C產品、或是照顧到想要培養居家儀式感之族群的電玩、書店、健身等品項,還有提前佈局宅家防疫被悶壞的心,規劃一系列夏季穿搭、防曬彩妝、露營用品等夏季出遊必備產品。

運用數位CRM進行策略行銷,有利於品牌活絡舊客以及帶動業績成長,如PChome 24h購物在22周年慶「狂樂收貨節」利用大數據撈出會員最感興趣的人氣品牌及集品類,進行每日換檔,抑或是看準低接觸外送商機,與foodpanda攜手推出在APP、網站購物消費滿$1即可獲得foodpanda新客5折券,串聯兩大平台資源,建立更大的用戶資料庫,為後疫時代帶來嶄新的商業模式。

photo credit:PCHome
PChome 24h購物22周年生日慶「狂樂收貨節」,看準疫後需求調整四大主題會場。

除了推品策略,CRM也能有新玩法,PChome 24h購物22周年慶還推出「拉長音折扣賽」,串聯自有平台資源並結合IG濾鏡功能,在社群上與粉絲大玩挑戰任務,完成任務後透過IG Chatbot的行銷技術發送相對應的優惠折扣,而這樣透過開發互動濾鏡的遊戲方式不僅優化用戶的社群體驗,更透過CRM系統將用戶分級,依據達成任務的級距發送獎勵,成功觸動年輕族群,導入站內達成轉換。

photo credit:PCHome
PChome 24h購物推出「拉長音折扣賽」,用IG濾鏡發起社群挑戰,吸引粉絲兌換折扣。

Martech是許多企業、品牌在面對數位轉型時重要的行銷利器,其中CRM系統更是品牌與時俱進、端出更好的消費者服務所倚賴的重要工具,打造會員生態圈不僅能夠檢視會員服務的優劣並加以優化,建立會員忠誠度、使顧客不斷回購,更替平台帶入新契機的一大機會點。

本文章內容由「爆米花數位資訊」提供,經關鍵評論網媒體集團廣編企劃編審。