為何人類能接收比AI更少的訊息就學會工作?DeepMind發表人類的元學習理論

人工智慧需要數千小時的遊戲時間才能達到並超越人類玩家的水平,我們則可以在幾分鐘內掌握以前從未玩過的遊戲的基礎操作。 DeepMind 對這個問題進行了研究,並撰寫了一篇網誌介紹了論文的主要內容。
評論
評論

DeepMind 發表 原文Prefrontal cortex as a meta-reinforcement learning system 》,合作媒體 雷鋒網  編譯 ,INSIDE 授權轉載。

最近, AI 系統已經學會一系列遊戲的玩法,如雅達利經典遊戲 Breakout 和 Pong。儘管這樣的表現令人印象深刻,但其實人工智慧需要數千小時的遊戲時間才能達到並超越人類玩家的水平。相比之下,我們則可以在幾分鐘內掌握以前從未玩過的遊戲的基礎操作。 DeepMind 對這個問題進行了研究,論文《Prefrontal cortex as a meta-reinforcement learning system》發表了在了《Nature》神經科學子刊上。隨著論文發表, DeepMind 也撰寫了一篇網誌介紹了論文的主要內容。

什麼是元學習(meta-learning)?

人類只接受這麼少的訊息就能做這麼多的事情,這項能力牽扯到了元學習理論,或者叫「學會學習」。我們日常的學習有兩個時間尺度,短期學習中我們專注於學習具體的例子。而在長期學習中,我們通常要學會抽像出規律和技巧來完成任務。我們之所以能如此高效的學習以及如此靈活而快速的應用各種知識正是因為這種學習組合。在 AI 系統中重現這種元學習結構或者叫元強化學習,對於實現快速、一次性學習卓有成效(詳見我們在 Open AI 的 論文相關工作)。但是元學習這一過程具體的實現機制在神經科學中依舊是未解之謎。

在 Jane Wang 團隊新發表在《Science》神經科學子刊上的 論文 中,他們在 AI 研究中使用元強化學習架構來探究大腦中的多巴胺在人類學習過程中起到的作用。多巴胺通常被認為是大腦的愉悅信號,也經常被認為類似於 AI 強化學習演算法中的獎勵函數。這些 AI 系統就是在獎勵的指導下反複試驗。他們認為多巴胺的作用不僅僅是作為獎勵來評估過去行為的價值,它在前額葉皮層區也發揮著不可或缺的作用,使人類能夠有效,快速,靈活地學習新任務。

引入神經科學

他們通過虛擬重建神經科學領域的六個元學習實驗來測試他們的理論,其中每個實驗都需要一個代理程序來執行基本原則(技能)相同但在某些維度上有所不同的任務。他們先使用標準深度強化學習技術(代表多巴胺的作用)訓練了一個遞迴的神經網路(代表前額皮質),然後再對比遞迴網路的活動動態與以前神經科學實驗真實數據的異同。遞迴網路是元學習的優秀代理程序,因為它們能夠內化過去的行為和觀察內容,然後在訓練其他任務時藉鑑這些經驗。

類比 20 世紀 40 年代的心理學測試── Harlow 實驗,他們重新創建了一個實驗用於探索元學習的概念。在最初的 Harlow 實驗中,一組猴子面前有兩個不同的供選擇的物品,其中一個可以給它們帶來食物獎勵。然後實驗人員將這兩個物品一左一右在猴子面前展示六次,每次物品的左右位置都是隨機的,所以猴子必須知道哪個物品可以帶來食物獎勵。然後研究人員又展示了兩個全新的物品,依舊只有一個會帶來食物獎勵。在這次訓練過程中,猴子學會了一種策略來選擇獎勵關聯物品:它第一次會隨機選擇,然後基於獎勵反饋選擇特定物品,並不在乎在左側還是右側。實驗表明,猴子可以領悟任務的基本原理,並學會抽象的規則結構,這其實就是學會學習。

當 Jane Wang 團隊使用虛擬電腦螢幕和隨機選擇的圖像模擬一個非常相似的測試時,他們發現他們的元強化學習代理程序的學習方式就像 Harlow 實驗中的猴子一樣,即使換新圖像代理程序也能像猴子一樣適應。

事實上,他們發現元強化學習代理程序學會瞭如何快速適應擁有不同規則和結構的任務。而且在它學會如何適應各種任務的過程中它還學會了提高學習效率的通用方法。

元學習與神經科學相互指導

重要的是,大多數學習都產生在遞迴網路中,這為他們的看法提供了有力支撐,即多巴胺在元學習過程中扮演著超越以往認知的更加重要的角色。多巴胺可以通過加強前額系統中的突觸聯繫來增強特定的行為。在 AI 系統中,這意味著神經網路中的類多巴胺獎勵信號可以調整人工突觸權重,使系統可以學習解決任務的正確方法。然而,在 Jane Wang 團隊的實驗中,神經網路的權重被凍結了,這意味著權重在學習過程中不能被調整,然而,元強化學習代理程序仍然能夠解決並適應新的任務。這表明類多巴胺獎勵不僅用於調整權重,還對抽象任務和規則結構的重要訊息進行傳達和編碼,從而使系統更快適應新任務。

神經科學家很早就觀察到了類似的前額葉皮層神經激活模式,他們發現這種模式適應性強並且很靈活,之後他們一直在努力尋找這種現象的原因。其中一種看法是前額葉皮層不依賴緩慢的突觸權重變化來學習規則結構,而是通過直接由多巴胺編碼的基於抽像模型的訊息的來學習規則結構,這能更好的解釋多巴胺的功能多樣性。

為了證明元強化學習的關鍵成分也存在於大腦中,Jane Wang 團隊提出了一種理論,該理論不僅與多巴胺和前額皮層的那套理論相符,而且還可以解釋一系列神經科學和心理學的神秘發現。該理論重點揭示了大腦中基於模型的結構化學習是如何出現的,為什麼多巴胺含有基於模型的訊息,以及前額葉皮質中的神經元如何根據學習信號進行調整。人工智慧的洞察力可以用來解釋神經科學和心理學的發現,也提升了每個領域研究成果的價值。展望未來,他們在設計新強化學習模型的時候可以從具體的大腦迴路組織中獲得靈感,神經科學與 AI 相得益彰。


台新 Richart 數位工具降低理財門檻,小資族也能小額投資為自己加薪

市場上理財商品眾多,曉姿雖有基礎金融知識,但對於如何開始投資,仍覺得眼花撩亂。台新銀行 Richart 瞄準「理財小白」的投資痛點,推出低門檻的銅板基金、百元投資以及 500 元即可申購的 ETF 連結基金,讓小資族輕鬆踏上財富自由之路。

評論
評論

曉姿與老公在台北市蛋黃區租房,重視生活品質的他們,時常會利用休假期間到外縣市旅遊,因而興起買車念頭。然而,他們每個月的房租開銷大,能夠存下來的錢已經不多,又不願犧牲生活品質,存錢買車是現階段的難題。為此,他們求助理財專家。理財專家建議,曉姿夫妻可以先將自己的理財規劃區分成短、中、長期目標,再根據自己各階段的目標,將手中現有的資源,作合理的分配。

小資族設定目標,找對工具輕鬆滾出第一桶金

「其實你們可以考慮降低房租,提高可支配所得。」理財專家說,蛋黃區與蛋白區房子的租金落差大,每月相差 1 萬多元,用來買兩人的大眾運輸月票,還能剩下不少,雖然通勤時間拉長一些,但每個月多存下來的錢,就可以透過投資理財方式,加速累積購車金。

理財專家說,低利率時代無法透過「定存」快速累積資產,還容易被通貨膨脹稀釋,因此必須尋求更高報酬的可能性,而投資基金就是一種方式。

「但投資基金是不是要先準備一大筆錢?」曉姿問。理財專家表示,隨著投資管道越來越多元,現在有很多金融商品不需要一次投入太多金額,進入門檻相當低,正好適合毫無投資經驗的新手小白。

例如,台新銀行 Richart 推出低投資門檻的基金產品,最低只要10元起跳,若想要投資組合多元化,也可以選擇百元基金,挑選適合自己投資偏好的基金,打造個人化的投資組合。當曉姿透過定期定額養成固定投資的習慣之後,就能從小錢開始慢慢放大投資部位,為自己累積財富。

簡單來說,曉姿一開始可以選擇每月投資 3000 元,隨著經驗累積,加上自己的工作加薪後,可以改成每月投資 5000 元,或是找老公一起投入,每月共同撥出 1 萬元投資。如此一來,預期投組的平均年報酬率 3% 推算,預計 4 年內可存到買國產房車(約 50萬)的預算,並非不可能的夢想。(以每月投入10,000元、年報酬率3%、目標金額50萬試算,預計第4年末資產可累積509,312元) 

至於若能順利買車,曉姿夫妻的長期理財目標又是什麼呢?「身為上班族,最希望的當然是早日達到財富自由的境界,不再為工作而忙碌。」不過,理財專家說,財富自由意謂著「非工資收入」大於「總支出」,及早開始理財是增加非工資收入的首要任務,積極透過各種投資工具,規律地慢慢累積財富。

台新 Richart 根據你的投資風險屬性,配好專屬組合,用銅板就能開始投資。另外,Richart 也會定期整理榜單,可查看近期熱銷、高報酬、新上架及大單基金,快速跟上趨勢。

Photo Credit:台新銀行

確認自己的投資屬性,找出最適合自己的投資方式,並開始落實

另一方面,曉姿的同事蔡九哥,雖然想進入投資市場,但沒有時間研究投資標的,因此,理財專家建議他,如果對資本市場不夠了解,那就「跟著大盤走」,可以考慮連結大盤指數的 ETF 連結基金。

「什麼是 ETF 連結基金?」蔡九哥對於ETF基金感到陌生。對此,理財專家解釋,所謂 ETF 連結基金,指的是連結大盤指數的股票型基金,以台灣最有名的 0050(元大台灣卓越 50 指數股票型基金)為例,它所連結的標的是台灣市值前 50 大企業,基本上都是知名的上市公司,獲利穩定,可以作為新手投資人的投資入門。

而曉姿雖然沒有投資經驗,但擁有七年的財經新聞編輯歷練,對投資產品具有基本的概念,對市場變化較為敏銳。因此可以採「雙管齊下」策略,一部分投資 Richart ETF 連結基金,確保穩健獲利;另一部分則選擇自己偏好的產業類別,透過 Richart 百元投資,建立自身投資組合,追求更好的績效。

蔡九哥問,「我聽說買基金還要付手續費、管理費,但股票只有手續費跟交易稅,交易成本好像比較低?」對此,理財專家解釋,近年因市場競爭激烈,券商手續費都有打折,但依然有「低消」,亦即基本手續費大約是 20 元,對於投資金額不高的小額投資人並不友善。

不過,台新Richart的基金申購手續費僅 2 折,大大降低投資人額外成本,讓小資族可以放心投資,想到就買、有錢就買。

不隨著市場上沖下洗,定期定額懶人投資術保心安

對於初入投資市場的曉姿來說,最害怕「現買現套」,尤其投資還是有一定的風險,當遭遇市場波動劇烈,自己的資產也會隨著暴漲暴跌。不過,若曉姿透過定期定額方式,分批申購基金,除了可以分散風險外,還可以避免「追高殺低」,不會瞬間「all in」在最高點,也能掌握逢低買進的機會。

相較許多銀行提供的定期定額方式,多是指定日扣款,Richart 的定期定額扣款日是每月 1 至 28 日,幾乎天天都能選,這讓曉姿可以增加扣款日來分散投資成本,降低加碼在高檔的風險。這項功能也可以讓小資族依照自己的資金流動,自由調配投資時間。如果你是自由業,或是斜槓青年,有一些額外收入,便可以根據資金入帳的時間設定定期定額的扣款日,養成固定投資的習慣。

透過定期定額的長期投資,加上聰明智慧的投資工具——台新 Richart ,大大降低了投資門檻,即使是小資族也能掌握開源的機會,買到曾經遙不可及的夢想,也逐步踏上財富自由的路。