為何人類能接收比AI更少的訊息就學會工作?DeepMind發表人類的元學習理論

人工智慧需要數千小時的遊戲時間才能達到並超越人類玩家的水平,我們則可以在幾分鐘內掌握以前從未玩過的遊戲的基礎操作。 DeepMind 對這個問題進行了研究,並撰寫了一篇網誌介紹了論文的主要內容。
評論
評論

DeepMind 發表 原文Prefrontal cortex as a meta-reinforcement learning system 》,合作媒體 雷鋒網  編譯 ,INSIDE 授權轉載。

最近, AI 系統已經學會一系列遊戲的玩法,如雅達利經典遊戲 Breakout 和 Pong。儘管這樣的表現令人印象深刻,但其實人工智慧需要數千小時的遊戲時間才能達到並超越人類玩家的水平。相比之下,我們則可以在幾分鐘內掌握以前從未玩過的遊戲的基礎操作。 DeepMind 對這個問題進行了研究,論文《Prefrontal cortex as a meta-reinforcement learning system》發表了在了《Nature》神經科學子刊上。隨著論文發表, DeepMind 也撰寫了一篇網誌介紹了論文的主要內容。

什麼是元學習(meta-learning)?

人類只接受這麼少的訊息就能做這麼多的事情,這項能力牽扯到了元學習理論,或者叫「學會學習」。我們日常的學習有兩個時間尺度,短期學習中我們專注於學習具體的例子。而在長期學習中,我們通常要學會抽像出規律和技巧來完成任務。我們之所以能如此高效的學習以及如此靈活而快速的應用各種知識正是因為這種學習組合。在 AI 系統中重現這種元學習結構或者叫元強化學習,對於實現快速、一次性學習卓有成效(詳見我們在 Open AI 的 論文相關工作)。但是元學習這一過程具體的實現機制在神經科學中依舊是未解之謎。

在 Jane Wang 團隊新發表在《Science》神經科學子刊上的 論文 中,他們在 AI 研究中使用元強化學習架構來探究大腦中的多巴胺在人類學習過程中起到的作用。多巴胺通常被認為是大腦的愉悅信號,也經常被認為類似於 AI 強化學習演算法中的獎勵函數。這些 AI 系統就是在獎勵的指導下反複試驗。他們認為多巴胺的作用不僅僅是作為獎勵來評估過去行為的價值,它在前額葉皮層區也發揮著不可或缺的作用,使人類能夠有效,快速,靈活地學習新任務。

引入神經科學

他們通過虛擬重建神經科學領域的六個元學習實驗來測試他們的理論,其中每個實驗都需要一個代理程序來執行基本原則(技能)相同但在某些維度上有所不同的任務。他們先使用標準深度強化學習技術(代表多巴胺的作用)訓練了一個遞迴的神經網路(代表前額皮質),然後再對比遞迴網路的活動動態與以前神經科學實驗真實數據的異同。遞迴網路是元學習的優秀代理程序,因為它們能夠內化過去的行為和觀察內容,然後在訓練其他任務時藉鑑這些經驗。

類比 20 世紀 40 年代的心理學測試── Harlow 實驗,他們重新創建了一個實驗用於探索元學習的概念。在最初的 Harlow 實驗中,一組猴子面前有兩個不同的供選擇的物品,其中一個可以給它們帶來食物獎勵。然後實驗人員將這兩個物品一左一右在猴子面前展示六次,每次物品的左右位置都是隨機的,所以猴子必須知道哪個物品可以帶來食物獎勵。然後研究人員又展示了兩個全新的物品,依舊只有一個會帶來食物獎勵。在這次訓練過程中,猴子學會了一種策略來選擇獎勵關聯物品:它第一次會隨機選擇,然後基於獎勵反饋選擇特定物品,並不在乎在左側還是右側。實驗表明,猴子可以領悟任務的基本原理,並學會抽象的規則結構,這其實就是學會學習。

當 Jane Wang 團隊使用虛擬電腦螢幕和隨機選擇的圖像模擬一個非常相似的測試時,他們發現他們的元強化學習代理程序的學習方式就像 Harlow 實驗中的猴子一樣,即使換新圖像代理程序也能像猴子一樣適應。

事實上,他們發現元強化學習代理程序學會瞭如何快速適應擁有不同規則和結構的任務。而且在它學會如何適應各種任務的過程中它還學會了提高學習效率的通用方法。

元學習與神經科學相互指導

重要的是,大多數學習都產生在遞迴網路中,這為他們的看法提供了有力支撐,即多巴胺在元學習過程中扮演著超越以往認知的更加重要的角色。多巴胺可以通過加強前額系統中的突觸聯繫來增強特定的行為。在 AI 系統中,這意味著神經網路中的類多巴胺獎勵信號可以調整人工突觸權重,使系統可以學習解決任務的正確方法。然而,在 Jane Wang 團隊的實驗中,神經網路的權重被凍結了,這意味著權重在學習過程中不能被調整,然而,元強化學習代理程序仍然能夠解決並適應新的任務。這表明類多巴胺獎勵不僅用於調整權重,還對抽象任務和規則結構的重要訊息進行傳達和編碼,從而使系統更快適應新任務。

神經科學家很早就觀察到了類似的前額葉皮層神經激活模式,他們發現這種模式適應性強並且很靈活,之後他們一直在努力尋找這種現象的原因。其中一種看法是前額葉皮層不依賴緩慢的突觸權重變化來學習規則結構,而是通過直接由多巴胺編碼的基於抽像模型的訊息的來學習規則結構,這能更好的解釋多巴胺的功能多樣性。

為了證明元強化學習的關鍵成分也存在於大腦中,Jane Wang 團隊提出了一種理論,該理論不僅與多巴胺和前額皮層的那套理論相符,而且還可以解釋一系列神經科學和心理學的神秘發現。該理論重點揭示了大腦中基於模型的結構化學習是如何出現的,為什麼多巴胺含有基於模型的訊息,以及前額葉皮質中的神經元如何根據學習信號進行調整。人工智慧的洞察力可以用來解釋神經科學和心理學的發現,也提升了每個領域研究成果的價值。展望未來,他們在設計新強化學習模型的時候可以從具體的大腦迴路組織中獲得靈感,神經科學與 AI 相得益彰。


精選熱門好工作

賣家關係維護專員

樂購蝦皮股份有限公司
臺北市.台灣

獎勵 NT$20,000

遊戲美術 Game Artist

Orangenose Studio 易銘有限公司
臺北市.台灣

獎勵 NT$20,000

行銷協理

數字銀河股份有限公司
臺北市.台灣

獎勵 NT$20,000

評論