為何人類能接收比AI更少的訊息就學會工作?DeepMind發表人類的元學習理論

人工智慧需要數千小時的遊戲時間才能達到並超越人類玩家的水平,我們則可以在幾分鐘內掌握以前從未玩過的遊戲的基礎操作。 DeepMind 對這個問題進行了研究,並撰寫了一篇網誌介紹了論文的主要內容。
評論
評論

DeepMind 發表 原文Prefrontal cortex as a meta-reinforcement learning system 》,合作媒體 雷鋒網  編譯 ,INSIDE 授權轉載。

最近, AI 系統已經學會一系列遊戲的玩法,如雅達利經典遊戲 Breakout 和 Pong。儘管這樣的表現令人印象深刻,但其實人工智慧需要數千小時的遊戲時間才能達到並超越人類玩家的水平。相比之下,我們則可以在幾分鐘內掌握以前從未玩過的遊戲的基礎操作。 DeepMind 對這個問題進行了研究,論文《Prefrontal cortex as a meta-reinforcement learning system》發表了在了《Nature》神經科學子刊上。隨著論文發表, DeepMind 也撰寫了一篇網誌介紹了論文的主要內容。

什麼是元學習(meta-learning)?

人類只接受這麼少的訊息就能做這麼多的事情,這項能力牽扯到了元學習理論,或者叫「學會學習」。我們日常的學習有兩個時間尺度,短期學習中我們專注於學習具體的例子。而在長期學習中,我們通常要學會抽像出規律和技巧來完成任務。我們之所以能如此高效的學習以及如此靈活而快速的應用各種知識正是因為這種學習組合。在 AI 系統中重現這種元學習結構或者叫元強化學習,對於實現快速、一次性學習卓有成效(詳見我們在 Open AI 的 論文相關工作)。但是元學習這一過程具體的實現機制在神經科學中依舊是未解之謎。

在 Jane Wang 團隊新發表在《Science》神經科學子刊上的 論文 中,他們在 AI 研究中使用元強化學習架構來探究大腦中的多巴胺在人類學習過程中起到的作用。多巴胺通常被認為是大腦的愉悅信號,也經常被認為類似於 AI 強化學習演算法中的獎勵函數。這些 AI 系統就是在獎勵的指導下反複試驗。他們認為多巴胺的作用不僅僅是作為獎勵來評估過去行為的價值,它在前額葉皮層區也發揮著不可或缺的作用,使人類能夠有效,快速,靈活地學習新任務。

引入神經科學

他們通過虛擬重建神經科學領域的六個元學習實驗來測試他們的理論,其中每個實驗都需要一個代理程序來執行基本原則(技能)相同但在某些維度上有所不同的任務。他們先使用標準深度強化學習技術(代表多巴胺的作用)訓練了一個遞迴的神經網路(代表前額皮質),然後再對比遞迴網路的活動動態與以前神經科學實驗真實數據的異同。遞迴網路是元學習的優秀代理程序,因為它們能夠內化過去的行為和觀察內容,然後在訓練其他任務時藉鑑這些經驗。

類比 20 世紀 40 年代的心理學測試── Harlow 實驗,他們重新創建了一個實驗用於探索元學習的概念。在最初的 Harlow 實驗中,一組猴子面前有兩個不同的供選擇的物品,其中一個可以給它們帶來食物獎勵。然後實驗人員將這兩個物品一左一右在猴子面前展示六次,每次物品的左右位置都是隨機的,所以猴子必須知道哪個物品可以帶來食物獎勵。然後研究人員又展示了兩個全新的物品,依舊只有一個會帶來食物獎勵。在這次訓練過程中,猴子學會了一種策略來選擇獎勵關聯物品:它第一次會隨機選擇,然後基於獎勵反饋選擇特定物品,並不在乎在左側還是右側。實驗表明,猴子可以領悟任務的基本原理,並學會抽象的規則結構,這其實就是學會學習。

當 Jane Wang 團隊使用虛擬電腦螢幕和隨機選擇的圖像模擬一個非常相似的測試時,他們發現他們的元強化學習代理程序的學習方式就像 Harlow 實驗中的猴子一樣,即使換新圖像代理程序也能像猴子一樣適應。

事實上,他們發現元強化學習代理程序學會瞭如何快速適應擁有不同規則和結構的任務。而且在它學會如何適應各種任務的過程中它還學會了提高學習效率的通用方法。

元學習與神經科學相互指導

重要的是,大多數學習都產生在遞迴網路中,這為他們的看法提供了有力支撐,即多巴胺在元學習過程中扮演著超越以往認知的更加重要的角色。多巴胺可以通過加強前額系統中的突觸聯繫來增強特定的行為。在 AI 系統中,這意味著神經網路中的類多巴胺獎勵信號可以調整人工突觸權重,使系統可以學習解決任務的正確方法。然而,在 Jane Wang 團隊的實驗中,神經網路的權重被凍結了,這意味著權重在學習過程中不能被調整,然而,元強化學習代理程序仍然能夠解決並適應新的任務。這表明類多巴胺獎勵不僅用於調整權重,還對抽象任務和規則結構的重要訊息進行傳達和編碼,從而使系統更快適應新任務。

神經科學家很早就觀察到了類似的前額葉皮層神經激活模式,他們發現這種模式適應性強並且很靈活,之後他們一直在努力尋找這種現象的原因。其中一種看法是前額葉皮層不依賴緩慢的突觸權重變化來學習規則結構,而是通過直接由多巴胺編碼的基於抽像模型的訊息的來學習規則結構,這能更好的解釋多巴胺的功能多樣性。

為了證明元強化學習的關鍵成分也存在於大腦中,Jane Wang 團隊提出了一種理論,該理論不僅與多巴胺和前額皮層的那套理論相符,而且還可以解釋一系列神經科學和心理學的神秘發現。該理論重點揭示了大腦中基於模型的結構化學習是如何出現的,為什麼多巴胺含有基於模型的訊息,以及前額葉皮質中的神經元如何根據學習信號進行調整。人工智慧的洞察力可以用來解釋神經科學和心理學的發現,也提升了每個領域研究成果的價值。展望未來,他們在設計新強化學習模型的時候可以從具體的大腦迴路組織中獲得靈感,神經科學與 AI 相得益彰。


【 MarTech Asia 】數位轉型突圍!萬里雲推出機器人寫文案服務,以 AI 加速行銷流程

CloudMile 萬里雲旗下 Martech 產品── ADsvantage (廣告智庫)全新 2.0 功能上線,採用非營利人工智慧組織 —— OpenAI 強大的文章產成器 「 GPT 系列」為基礎,推出全新 AI 智慧寫手功能。
評論
Photo Credit:CloudMile
評論

 CloudMile  萬里雲旗下 Martech 產品── ADsvantage(廣告智庫)全新 2.0 功能上線,採用非營利人工智慧組織 —— OpenAI  強大的文章產成器「 GPT 系列」為基礎,推出全新 AI 智慧寫手功能。隨著行銷碎片化時代來臨,消費者的用戶輪廓越來越難拼湊,從獲取資料、數據分析,到廣告文案創作的最後一哩路,行銷人員必須借助更多工具幫忙,奪回行銷效益的掌握度。 ADsvantage 提供台灣中小企業行銷人員、廣告主及電商業者自助管理的廣告平台,大幅縮短廣告行銷人員作業時間。

 ADsvantage 推出新功能,受邀 2021 MarTech Asia 分享 AI 化數據行銷

日前全台最大的行銷科技盛會 2021 MarTech Asia ,阿物科技創辦人暨執行長林思吾號召 26 位業界領袖同台 ,現場及線上共有超過 1,800 位全球及台灣相關業者齊聚一堂,包括行銷科技之父 Scott Brinker、前 Verizon Media 國際事業董事總經理鄒開蓮、全聯實業副董事長謝健南等人,分享行銷科技的重要趨勢及後疫情時代的新生態。 CloudMile 萬里雲營運長高斌恒也受邀分享,各個科技巨頭都紛紛有許多針對隱私權的規範和措施,消費者的線上線下界線越來越模糊。 當今行銷人所面對的難題不只是 SEO、投放優化而已,「數據」才是致勝關鍵,透過將許多流程自動化,省下時間與人力成本的情況下,達到更高的行銷目標,其中包括 Cookieless 時代來臨、深化 OMO 無縫體驗、打造顧客數據平台( Customer Data Platform , CDP )等議題都受到業界高度關注。

豐富跨國實戰經驗的 CloudMile 機器學習團隊,運用超過 500 萬的文案數據庫、橫跨 20 種產業以上的廣告量,結合廣告代理商 20 年以上行銷經驗,創造 ADsvantage 「 AI 智慧寫手」 新功能。 CloudMile 看見客戶對於數位轉型及運用 MarTech 行銷科技推廣商品的急迫需求,希望可運用 AI 技術之力,縮短廣告前期企劃、發想關鍵字詞、寫文案和廣告投放設定,同時還需跨組溝通,尋找資源協助的時程, ADsvantage 廣告智庫即是專為滿足客戶後疫行銷需求的一站式廣告營運平台解決方案。

人工智慧寫手結合電商平台, 加速行銷流程的最佳 AI 助理

 ADsvantage 全新 2.0 功能上線,採用 GPT 模型,為矽谷時下最夯的自然語言處理模型,推出全新 AI 智慧寫手功能,透過平台能協助客戶透過數據匯流、 AI 分析達到預測的成效,快速蒐集最熱門的關鍵字、文案內容,加速創意的過程並提升廣告效率。

此全新產品適合應用在電商等大型網購平台上,透過機器學習與 AI 科技應用,讓中間產製時間被大幅被縮短,並提升操作數位行銷的「效率」與「精準度」,像是電商平台即可透過採用 ADsvantage 的服務,有效提升自己在數位行銷上的競爭力。

Photo Credit:CloudMile
ADsvantage 全新 2.0 功能上線,推出 AI 華語文案生成工具「AI 智慧寫手」。/Photo Credit:CloudMile

 ADsvantage 產品介紹

運用 AI 科技力助企業數位轉型的 CloudMile 萬里雲,發表關鍵字數位廣告輿情系統 ADsvantage(廣告智庫),提供企業廣告主及電商平台,透過超過百萬的文案創意庫( Ads  idea ) 、 AI 智慧監控工具及 AI 智慧寫手,平均只要 3 秒即可生成一個廣告文案。 CloudMile 透過 Google 雲端、機器學習與 AI 大數據分析技術,致力協助企業落實數位轉型。疫情期間抓住需求開發的 ADsvantage ( 廣告智庫) 服務,透過服務台灣、新加坡、及香港逾 400 家客戶的專業經驗,將傳統的商業廣告運營模式數據化,提供企業廣告主一站式 Google Ads 廣告文案創作 AI 化平台。

本文章內容由「阿物科技」提供,經關鍵評論網媒體集團廣編企劃編審。