DeepMind 開源 TRFL ,又一個強化學習拓展、創新好幫手

繼今年 8 月 Google 開源發布了專為學術研究人員設計的簡單但強健的強化學習框架「多巴胺」(Dopamine)之後,早已被 Google 母公司收購但保持獨立運作的 DeepMind 也把自己日常使用的程式庫拿出來開源,繼續為領域內的研究人員們提供功能豐富的實驗工具。
評論
評論

本文獲得合作媒體 雷鋒網 授權轉載。文章來源:DeepMind 官方網站 ,經雷鋒網評論編譯。

前言:繼今年 8 月 Google 開源發布了專為學術研究人員設計的簡單但強健的強化學習框架「多巴胺」(Dopamine)之後,早已被 Google 母公司收購但保持獨立運作的 DeepMind 也把自己日常使用的程式庫拿出來開源,繼續為領域內的研究人員們提供功能豐富、高可複現性及高可拓展性的實驗工具。

DeepMind 開源TRFL,又一個強化學習復現、創新好幫手

今天 DeepMind 宣布開源一個用於在 TensorFlow 環境中開發強化學習智慧體的程式庫,打包了許多有用的基礎元件。 它的名字是  TRFL(讀作「truffle」)。DeepMind 自己用來開發 DQN 、 DDPG 以及 IMPALA(重要性加權行動者-學習者架構)等知名強化學習技術的許多關鍵演算法元件都包含在其中。

另一種開源路線

一個典型的深度強化學習智慧體需要包含一組數目眾多的互動元件:首先起碼需要包括一個環境以及某種能表示值或者策略的深度神經網路,然後很多時候還會包含學習到的環境的模型、偽反饋函數甚至一個回放系統等等。

這些元件之間的互相影響很微妙(而且如 Henderson 和他的同事在 Deep Reinforcement Learning that Matters 中指出,論文中常常不會詳細說明這些影響是怎麼樣的),從而當計算圖變得很大的時候一旦出現 bug 就很難進行定位並解決。 OpenAI 近期的一篇文章也著重研究了這個問題,他們分析了某些最熱門的強化學習智慧體的開源實現,發現 10 個中的 6 個都「由社群成員發現了微小的 bug 並得到了作者本人的確認」。

要解決這種問題,並幫助整個研究社群中的人順利加強論文中的結果,其中一種方法就是開源智慧體的全套完整實現。比如, DeepMind 最近就開源了基於 IMPALA 的 v-trace 智慧體的可拓展分佈式實現。這種大規模的程式庫對於研究結果的加強固然有幫助,但同時也難以修改並拓展。

另一種有所不同並且能起到補充作用的方法是提供可靠的、經過充分測試的通用基礎元件的實現,同一個構件也就可以在許多不同的強化學習智慧體中反覆使用。另一方面,在單個程式庫中囊括了所有這些元件的抽象,然後可以用統一的 API 調用,也就讓研究人員可以更方便地組合不同文獻中閱讀到的不同的想法。

全功能的基礎組件

 TRFL 庫包含了許多功能,可以實現經典強化學習演算法以及更現代的演算法。其中的損失函數以及許多其他操作都是完全在 TensorFlow 中實現的。它們並不是完整的演算法,而是構建具有完整功能的強化學習智慧體時必要的、也是強化學習專用的數學操作的程式碼實現。

對於基於值的強化學習, DeepMind 的研究人員們也在 TRFL 庫中提供了各種 TensorFlow 操作,便於在離散的行動空間中學習,比如 TD 學習、 Sarsa 、 Q-learning 以及它們的變體;當然也包括了用於實現 DPG 之類的連續控制演算法的操作。 TRFL 庫中還包括了學習值分佈函數的操作。這些操作支援批量計算,並且返回的損失值可以送入 TensorFlow 優化器進行最小化。有一些損失值是針對不同的批之間的變化進行計算的(比如 Sarsa 和 Q-learning 等),也有一些損失是針對成批的軌跡的(比如 Q-lambda 、 Retace 等)。

對於基於策略的方法, TRFL 庫中也同時提供了可以簡易實現 A2C 等線上學習方法以及 v-trace 等離線策略校正方法的工具。 TRFL 也支援連續動作空間中的策略梯度的計算。最後, TRFL 還提供了一個 Unreal 引擎中使用的輔助偽反饋函數的實現, DeepMind 的研究人員發現它能在許多不同的任務中提高數據效率。

宣告開源顯然並不是這個專案的終點。由於這個程式庫在 DeepMind 內部有著廣泛的應用,他們也會持續不斷地對它進行維護,並逐步增加新的功能。 DeepMind 也非常期待強化學習社群中的更多人也參與到這個專案的貢獻中來。

延伸閱讀:

 

歡迎加入「Inside」Line 官方帳號,關注最新創業、科技、網路、工作訊息


VAG 車主有福了!這廠商出手,立刻從 ACC 升級到 Level 2 等級

ADAS 先進駕駛輔助系統已成用車與購車顯學,不僅減少開車負擔、更提升用車安全。由世博科成立的「VAG Openpilot 同樂會」,針對廣大 VAG 車主開發專用線組,配上車上既有的 ACC 功能,達到 Level 2 輔助駕駛等級。
評論
Photo Credit:世博科
評論

ADAS 先進駕駛輔助系統已成用車與購車顯學,不僅減少開車負擔、提升用車安全,更有利於二手車價。除了汽車品牌針對旗下新車積極開發以外,市面上也有不少專精此領域的科技公司,針對舊款車型積極開發升級套件,其中由世博科成立的「VAG Openpilot 同樂會」就是最佳代表,針對廣大 VAG 車主開發專用線組,讓配備有 ACC 與 MQB 底盤基礎兩條件的 VAG 車主可以透過 DIY 自行升級車道維持功能,配上車上既有的 ACC 功能,達到 Level 2 輔助駕駛等級。

Comma ai 所開發的 Openpilot 自動駕駛輔助系統可支援 2015 年後具備 ACC 與 LKAS 系統的車主升級車道維持功能,並於「消費者報告」測試中獲得高分評價。Photo Credit:世博科

為何我需要 Level2?

由於 ADAS 系統發展日新月異,國際汽車工程師學會便針對此作出定義界定,自動駕駛科技等級目前從零到五共區分出六個等級,也就是從 Level 0 到 Level 5,其中 Level 0 就是僅搭載如盲點偵測、車道偏移警示等功能;Level 1 則是導入如 ACC 主動是定速巡航系統、車道偏離輔助系統等進階功能;Level 2 則是可以將 ACC 主動式定速巡航功能與車道置中功能整合,也是目前市面市售車款最高可達到的自動駕駛科技等級。

在 Level 5 等級的ADAS科技尚未到來之前,駕駛人為主、科技為輔都是絕對必備的駕駛觀念,不過可以透過 Level 2 等級的  ADAS 系統的輔助,在長途開車時,有效協助駕駛減少體力負擔、減少因一時分神所可能帶來的危險等。

Openpilot評價高,消費者報告給讚聲

對於新世代車款而言,搭載 Level 2 等級的 ADAS 科技越來越普遍,但對於舊款車型的車主,也想要擁有此類輔助科技該如何呢?市面上已經開始有廠商投入此類相關研發,其中由 Comma ai 所開發的 Openpilot 自動駕駛輔助系統就是相當具代表性的產品。

Openpilot 目前於市場上相當知名,廣泛適用於如 Toyota、Honda、Hyundai、Kia、Lexus、Nissan、Subaru 與 Volkswagen 等品牌旗下 2015 年後且有搭載如 ACC、LKAS 車道維持輔助等系統的車型,就可以透過 Openpilot 自動駕駛輔助系統的升級,達到 Level 2 的自動駕駛輔助等級,其中 Openpilot 第二代系統 comma 2 還曾在美國相當知名的第三方調查單位「消費者報告」測試中獲得高分評價。

廣大 VAG 車友受惠,升級車道維持功能

專精於 VAG 車系 Openpilot 自動駕駛輔助系統專用線組開發的「世博科」,在台灣全新推出針對擁有 ACC 科技與 MQB 底盤兩基礎條件的 VAG 車款,推出專屬「Dream Harness 2/2 Pro」系列,系列共分為 DH1(新台幣 1,490 元)、DH2(新台幣 2,490 元)與 DH2 Pro(新台幣 2,990 元),都可與 Openpilot 相容組合。

「Dream Harness 2/2 Pro」將原本複雜的線組簡化,並由重新設計的插頭與 Volkswagen 原廠母頭設計,以及可啟閉的 30 分鐘斷電系統與 Pro 版的專屬抗干擾雙絞線,提供與VAG 原廠 Gateway 系統百分百的相容性,電子訊號傳輸效率也相當優異。

Photo Credit:世博科
Openpilot 可以迅速讓原本有 ACC 與 LKAS 功能的車輛達到 Level 2 自動駕駛等級表現。Photo Credit:世博科

安裝「Dream Harness 2/2 Pro」之後,並不會介入車輛上既有的 ACC、AEB 或是 FCW 等功能,而是僅會針對車道維持系統來控制,達到 Level 2 等級的輔助駕駛科技表現。

目前與世博科合作安裝廠商分別為板橋富技汽車、新竹反骨汽車站、台南 Playground Tuning Tainan 等,如需了解更多詳情,可上 [SaberCord 世博科] VAG Openpilot 同樂會臉書粉絲團

選擇世博科開發的專用線組更可以縮短安裝時間,並讓運作更順暢。Photo Credit:世博科

非 VAG 車主團購照過來!

除了 VAG 車主以外,針對非 VAG 車主,也可以參加團購方案,區分三種等級,皆須達標十台才可成團(註.團購報價會隨匯率波動):

●  Comma 水

comma 3 採用最新主機,目前軟體能力與 comma 2 主機表現相近,但立基 comma 2 過去 AI 升級模式與經驗,加上更優異的硬體規格,可提供較 comma 2 更多的能力表現。目前十台團購方案每台 comma 3 主機需要價約 55,000 元起,若搭配原廠線組則需加價約新台幣5,600 元左右。

● Comma 兔

comma 2 目前為主力主機,擁有軟體穩定、分支功能多等優勢。十台團購方案每台comma 2 主機需要價約 27,500 元,搭配原廠線組同樣需加價約新台幣 5,600 元左右。comma 2 預計開發至明年 7 月達到最終版本,將進入長期穩定版不再進行軟體更新。

● Geroge  省

定位為最入門的方案,雖然入門卻與 comma 2 主機一樣擁有相當犀利的車道維持能力,團購價為 11,190 元,方案包含運費、DH1 線組、台灣一年保固與內含稅金。

車款科技日新月異,但並非人人都有預算直上最新車款、享受最先進的輔助駕駛科技,因此透過售服有保障、評價好的升級套件,也可讓自己愛車享有 Level 2 等級的輔助駕駛科技。對於廣大的 VAG 車友們,可以選擇由世博科成立的「VAG Openpilot 同樂會」打造VAG 專屬的「Dream Harness 2/2 Pro」線組;而非 VAG 的車友們,也可選擇上述三項團購方案,讓自己快速晉升 Level 2 一族!

Photo Credit:世博科