DeepMind 開源 TRFL ,又一個強化學習拓展、創新好幫手

繼今年 8 月 Google 開源發布了專為學術研究人員設計的簡單但強健的強化學習框架「多巴胺」(Dopamine)之後,早已被 Google 母公司收購但保持獨立運作的 DeepMind 也把自己日常使用的程式庫拿出來開源,繼續為領域內的研究人員們提供功能豐富的實驗工具。
評論
評論

本文獲得合作媒體 雷鋒網 授權轉載。文章來源:DeepMind 官方網站 ,經雷鋒網評論編譯。

前言:繼今年 8 月 Google 開源發布了專為學術研究人員設計的簡單但強健的強化學習框架「多巴胺」(Dopamine)之後,早已被 Google 母公司收購但保持獨立運作的 DeepMind 也把自己日常使用的程式庫拿出來開源,繼續為領域內的研究人員們提供功能豐富、高可複現性及高可拓展性的實驗工具。

DeepMind 開源TRFL,又一個強化學習復現、創新好幫手

今天 DeepMind 宣布開源一個用於在 TensorFlow 環境中開發強化學習智慧體的程式庫,打包了許多有用的基礎元件。 它的名字是  TRFL(讀作「truffle」)。DeepMind 自己用來開發 DQN 、 DDPG 以及 IMPALA(重要性加權行動者-學習者架構)等知名強化學習技術的許多關鍵演算法元件都包含在其中。

另一種開源路線

一個典型的深度強化學習智慧體需要包含一組數目眾多的互動元件:首先起碼需要包括一個環境以及某種能表示值或者策略的深度神經網路,然後很多時候還會包含學習到的環境的模型、偽反饋函數甚至一個回放系統等等。

這些元件之間的互相影響很微妙(而且如 Henderson 和他的同事在 Deep Reinforcement Learning that Matters 中指出,論文中常常不會詳細說明這些影響是怎麼樣的),從而當計算圖變得很大的時候一旦出現 bug 就很難進行定位並解決。 OpenAI 近期的一篇文章也著重研究了這個問題,他們分析了某些最熱門的強化學習智慧體的開源實現,發現 10 個中的 6 個都「由社群成員發現了微小的 bug 並得到了作者本人的確認」。

要解決這種問題,並幫助整個研究社群中的人順利加強論文中的結果,其中一種方法就是開源智慧體的全套完整實現。比如, DeepMind 最近就開源了基於 IMPALA 的 v-trace 智慧體的可拓展分佈式實現。這種大規模的程式庫對於研究結果的加強固然有幫助,但同時也難以修改並拓展。

另一種有所不同並且能起到補充作用的方法是提供可靠的、經過充分測試的通用基礎元件的實現,同一個構件也就可以在許多不同的強化學習智慧體中反覆使用。另一方面,在單個程式庫中囊括了所有這些元件的抽象,然後可以用統一的 API 調用,也就讓研究人員可以更方便地組合不同文獻中閱讀到的不同的想法。

全功能的基礎組件

 TRFL 庫包含了許多功能,可以實現經典強化學習演算法以及更現代的演算法。其中的損失函數以及許多其他操作都是完全在 TensorFlow 中實現的。它們並不是完整的演算法,而是構建具有完整功能的強化學習智慧體時必要的、也是強化學習專用的數學操作的程式碼實現。

對於基於值的強化學習, DeepMind 的研究人員們也在 TRFL 庫中提供了各種 TensorFlow 操作,便於在離散的行動空間中學習,比如 TD 學習、 Sarsa 、 Q-learning 以及它們的變體;當然也包括了用於實現 DPG 之類的連續控制演算法的操作。 TRFL 庫中還包括了學習值分佈函數的操作。這些操作支援批量計算,並且返回的損失值可以送入 TensorFlow 優化器進行最小化。有一些損失值是針對不同的批之間的變化進行計算的(比如 Sarsa 和 Q-learning 等),也有一些損失是針對成批的軌跡的(比如 Q-lambda 、 Retace 等)。

對於基於策略的方法, TRFL 庫中也同時提供了可以簡易實現 A2C 等線上學習方法以及 v-trace 等離線策略校正方法的工具。 TRFL 也支援連續動作空間中的策略梯度的計算。最後, TRFL 還提供了一個 Unreal 引擎中使用的輔助偽反饋函數的實現, DeepMind 的研究人員發現它能在許多不同的任務中提高數據效率。

宣告開源顯然並不是這個專案的終點。由於這個程式庫在 DeepMind 內部有著廣泛的應用,他們也會持續不斷地對它進行維護,並逐步增加新的功能。 DeepMind 也非常期待強化學習社群中的更多人也參與到這個專案的貢獻中來。

延伸閱讀:

 

歡迎加入「Inside」Line 官方帳號,關注最新創業、科技、網路、工作訊息


蛻變敏捷開發組織並不難! AWS Amplify幫前端工程師從雲端快速建立REACT程式

台灣企業勢必需要明確轉型策略,搭配適合的雲端工具作為入場券,一來降低數位化門檻、二來減少摸索資源的浪費。
評論
shutterstock_1451794139.jpg
評論

打造敏捷開發流程、加速前後端工程師的協作效率,是許多企業在面臨疫情之後,認為亟需將彈性元素納入為企業文化當中。雲端運算服務領導業者 AWS 台灣,觀察到前端工程師主要負責處理最貼近用戶的 Web、行動應用程式,但他們往往需要與後端團隊合作過程,遭遇耗費大量討論時間,才能處理使用者介面事項。

為了降低前後端的溝通成本,有些前端工程師在掌握介面管理能力之後,開始橫跨到後端的伺服器、資料庫開發經驗,甚至進一步培養技能,成為能負責測試、安全、效能多面向的全端工程師。

有的人會透過 Side Project(利用業餘時間開發有興趣的專案)或參加 Hackathon(黑客松)方式,運用 AWS 雲端工具嘗試自行擴展後端,並建立簡單易用的工具程式。究竟,AWS 平台提供哪些資源幫助前端工程師擴展更多元的技能樹?

掌握入門教學!前端工程師如何將 REACT 程式快速上雲

前端工程師運用 AWS Amplify,快速在雲端建立 REACT 應用程式

事實上,AWS 的入門課程指出,運用 AWS Amplify 在雲端建立 React 應用程式及服務集,只需五個學習歷程,包含建立 React 應用程式、初始化本機應用程式、新增身份驗證、新增 API 和資料庫、新增儲存體。如果想快速了解 REACT 程式快速上雲的方法及示範教學,本文節錄 AWS QUICKSTART 學習資源內容,幫助前端工程師更快掌握重點。

首先,何謂 AWS Amplify?AWS Amplify 是一項全托管 Front-End Web & Mobile 服務,採取無伺服器模式,在後端建立、部署和託管單一頁面 Web 應用程式或靜態網站的 Git 型 CI/CD 工作流程,加速開發過程直接整合其他 AWS 服務。舉例來說,像是整合封裝好的 Library 資源、或運用一些 Components UI 軟體去配置後端,以及利用 Admin 的 UI 做資源上的管理。

透過 AWS 增加雲端技能 在組織發揮你的影響力

AWS Amplify加速Develop、Deliver 與 Manage流程

AWS Amplify 主要優勢展現在三大項工作階段,分別是 Develop、Deliver 和 Manage。Develop 部分可利用 CLI(Command-Line Interface)或 Admin UI 設定後端,使用 GraphQL 或 REST API 設定也是可行的,進而快速建構一個前後端專案。此外,開發者還能搭配 AWS 其他服務,例如使用 AWS Authentication 全托管認證服務,或 DataStore、Storage 等多項 Feature Categories。

到了 Deliver 階段,若是要透過 AWS Amplify 執行 Web Hosting 任務,可拆解出三個流程。首先是將 Repository 與 AWS Amplify 進行連結,這邊可整合 Amplify Console 提供的支援資源包含 Github、Bit Bucket、Gitlab、以及 AWS 的程式碼代管工具 AWS CodeCommit。一旦連結以後,開發者可透過自己的 Configuration,决定在各個不同的 Build 要執行什麽樣的指令,最後再透過 Deploy 方式,幫助工程師進行前端的 Hosting。

在最後一個 Manage 階段,開發者則可利用 AWS Amplify 的 Admin UI,以開啓瀏覽器方式,透過視覺化介面統一管理資源。例如在 Admin UI 介面左側選單,涵蓋 Content、User Management 的區塊,讓參與專案但沒有 AWS Console 權限的使用者,可利用 E-mail 方式邀請使用者進到 Admin UI,進行一些設定或觀看其他相關資源;甚至在 Set Up 區塊還有相關選項,例如要針對 Data Modeling 或 APP User 做權限管理,以及可連結到 AWS 其他服務。

運用開放資源 AWS Amplify Framework,打造高效能應用服務

AWS QUICKSTART 學習資源還介紹到另一個 AWS 提供的開放資源 Amplify Framework,一樣可利用 Amplify CLI 的方式,配置 Web 和行動應用程式的前後端,以及開發者需要用到的服務,讓應用程式更易於構建,並獲得安全、高性能的使用體驗。

Amplify CLI 一樣有支援多個不同 Category,例如較常使用的幾個 Comment Line,像是Amplify Init 指令做初始化或創建幾個不同資源;或是 Amplify Status 指令,隨時在開發過程查看各個 Category 狀態;甚至專案結束後,可利用 Amplify Delete 直接把 Amplify 所創建的資源做一次性删除。另外也可透過 AWS Amplify Client 利用比較抽象化方式,讓開發者直接利用 Component 實現想要完成的項目。

填寫表單 找到適合你的快速上雲服務與工具!

實際示範給你看,設定 React 程式可以如此簡單

假設前端工程師現在要快速部署一項有驗證功能(Authentication)還要搭配 Rest API、GraphQL、Analytics 等服務的應用,如何快速設定 React 程式?在 AWS QUICKSTART 的學習資源後半段,有詳細說明要啟動這類型專案的操作方法。

開發者可以先利用 AWS Lambda Function 結合 Amazon API Gateway 方式,創建出一個 Rest API,到了 Authentication 階段,則使用到 AWS Cognito 的服務,接著針對 GraphQL 需求,可利用 AWS AppSync 服務,以及最後如果有 Analytics 的需求,也可以串聯 Amazon Pinpoint 工具。Amazon Pinpoint 是一項彈性而可以擴展的行銷通訊服務,開發人員可利用 Amazon Pinpoint API 追蹤 Web 使用者的行爲,或是針對 APP 推送、電子郵件、簡訊點擊行為蒐集到具體的資訊。

在這整套流程示範之後,值得特別強調的是,AWS AppSync 是一項全托管的服務,能及時更新,甚至在使用者離線時仍可以持續去創建和修改數據。一旦設備連上線之後,這項應用程式就可重新連線,並接到後端同步數據,達成彈性、自動化擴展或減縮各式 API 的請求。

打造第一個你在 AWS 上的應用程式

AWS 最後強調,Amplify 是相當適合建構出一個靜態 Web、Apps 服務模式,例如說像是打造部落格,或者是一項 APP 內的代辦事項應用等;加上 Amplify 具全托管服務特色,可串聯上述 AWS 在雲端所提供的資源,都能在部署過程加以整合,加速開發流程及效率,並且有效節省開發資源。如果想用低門檻的雲端解決方案,其實前端工程師是能在開發流程更靈活配置資源,甚至為公司的商業、服務模式挖掘出創新價值。

了解更多:AWS 開發者系列