AlphaGo 打敗世界圍棋冠軍只是第一步。

DeepMind 「增強學習」的成功讓很多機器學習研究員吃了一驚。這項技術是二十世紀八十年代建立的,之前沒有其他訓練軟體的方法那麼廣泛使用和效果強大,華盛頓大學研究機器學習的教授 Pedro Domingos 說。 DeepMind 加強了這項技術,把它和深度學習方法結合起來。深度學習最近有了重大突破,能讓電腦解碼圖片等信息,引發了最近機器學習的熱潮。
評論
評論

本文來自於 MIT Technology Review《)

Hassabis 認為,「增強學習」方法是讓機器學習軟體學會更複雜任務的關鍵,比軟體現在能玩的要複雜得多,例如記錄我們的話語、理解圖片的內容。「我們不認為僅僅觀察就足夠智慧,你還必須行動。」他說,「最終,這是唯一你可以理解世界的方法。」

DeepMind 的三維環境 Labyrinth ,基於一個開源的第一人稱射擊遊戲 Quake ,專門為驗證該想法而設計。公司已經用它來讓機器參與遊戲, 60 秒內探索隨機生成的迷宮,收集蘋果或找到出口(可通往另一個隨機生成的迷宮)可獲得分數。未來的挑戰可能要去更複雜的計劃性——例如,懂得要是可以打開門。公司還會以其他方式測試軟體,並在考慮挑戰星海爭霸 2 和撲克牌。但是一段時期內,在 Labyrinth 裡設置越來也難的挑戰將會是主要的研究方式, Hassabis 說,「接下來幾年都夠用了。」

「增強學習」在未來的二至三年,會像深度學習一樣影響巨大。

其他研究人工智慧的公司和研究員會緊密關注著。 DeepMind「增強學習」的成功讓很多機器學習研究員吃了一驚。這項技術是二十世紀八十年代建立的,之前沒有其他訓練軟體的方法那麼廣泛使用和效果強大,華盛頓大學研究機器學習的教授 Pedro Domingos 說。 DeepMind 加強了這項技術,把它和深度學習方法結合起來。深度學習最近有了重大突破,能讓電腦解碼圖片等信息,引發了最近機器學習的熱潮。

「DeepMind 所做的很了不起,」Domingos 說。但是他還說, Hassabis 想做的是一個超越現在所有研究的火箭,還是後院裡放的煙火,現在要下定論還為時過早——近期讓人眼花繚亂的成功不一定能持續。「Demis 對「增強學習」的樂觀態度不只是處於成功經驗,」Domigos 說,「機器學習和人工智慧領域中,進步不是線性的;我們有時候會突飛猛進,有時候會慢慢前行。」

Hassabis 承認,業界「很多」人都懷疑「增強學習」的潛能,但是他們不會放棄。「我們越是深入,越是感覺我們的理論是正確的,我想我們正在改變整個領域,」他說。「我們認為「增強學習」在未來的二至三年會像深度學習一樣影響巨大。」

安全第一

DeepMind 的成功目前支持 Hassabis 關於「增強學習」會有很多應用的說法。 AlphaGo 的成功讓很多專業圍棋手和電腦專家驚訝,因為圍棋實在非常複雜,很難讓基本依靠計算不同走法可能結果的軟體勝利,也就是 1997 年 IBM 的深藍用來打敗世界象棋冠軍 Garry Kasparov 的方法。平均來說,象棋玩家每一步有 35 種可能的走法;在圍棋中,有 250 種。圍棋中位置可能性排列組合的數量,比宇宙中原子的數量都多。「象棋是一種計算遊戲,」Hassabis 說,「圍棋太複雜,所有玩家靠的是直覺。在類別上完全不一樣。你可以把 AlphaGo 想像成一個超級人類的直覺,而非超級人類的計算。」

RTSAHL4
(photo by 路透社)

不論你是否同意 AlphaGo 具有直覺,能讓軟體掌握更複雜的任務顯然很有用。 DeepMind 正在和英國國家健康服務的項目合作,訓練軟體幫助醫務工作人員發現腎臟問題的跡象,這些問題經常被忽視,並造成大量可以避免的死亡。團隊還在和 Google 業務團隊合作, Hassabis 說他的技術可以讓虛擬助理浮現,改善推薦系統,這對於 YouTube 等產品非常重要(類似的系統也是 Google 廣告產品的基礎)。

能解決問題的一個非主流辦法是,學習真實的大腦。

更遠的未來, DeepMind 需要很多突破,才能往 Hassabis 解決智慧的目標靠近,即使是未來幾年都在 Labyrinth 裡面試驗。最關鍵的一個缺

口是一種叫做分塊的技能,人類和動物的大腦用以處理世界的複雜性。 Hassabis 舉了個去機場的例子,你可以想好如何去機場並且完成計劃,而不用考慮走去門口的時候每一步走在哪兒,如何轉動門把手或控制每一個肌肉纖維。我們可以用高層次的概念來計劃和行動,而不用考慮每一個細節,並且通過重新組合我們熟悉的「分塊」,或者概念,來適應新環境。「這大概是人工智慧領域內未解決的最核心問題之一。」Hassabis 說。

這是許多研究團隊在鑽研的問題,包括其他 Google 團隊。但是, DeepMind 希望能解決問題的一個非主流辦法是,學習真實的大腦。公司有一個由著名研究員 Mattew Botvinick 領導的神經科學家團隊,他直到最近一直是普林斯頓大學的教授。與大部分神經科學研究不同的是,他們不僅要研究大腦如何運作,還要告訴 DeepMind 如何設計軟體。

有一個近期試驗測試了 Hassabis 關於人腦如何組織概念的理論,利用一個偽造記憶的標準程序。它給測試對象呈現一系列相關詞,例如「冷」、「雪」和「冰」。人們經常錯誤地記得聽到一些其他相關詞,例如「冬天」。

2016-02-21-

「根據我的機器學習概念,我想這一定暗示了那種概念信息如何在大腦中組織,」Hassabis 說。 DeepMind 團隊研究出一個大腦的顳葉前部如何組織概念的理論, 通過觀察正在進行記憶任務的人的大腦,確認了理論的假說。這項結果可能會改變 DeepMind 設計人工神經網絡來呈現信息的方式。

DeepMind 的「待發現」列表上還有,將它在軟體上做過的、抓取文本意義的實驗,與 Labyrinth 中漫遊的軟體實驗結合起來——有一個可能性是在虛擬空間內開始擺上標識。 Hassabis 說,他還在計劃一種「非常有野心」的方法,來測試是否準備好面對比 Labyrinth 更加真實的世界。他希望 DeepMind 未來可以控制機器人,他認為機器人受限於軟體對世界的理解能力。「有一些很了不起的機器人,不能充分發揮他們的能力因為還沒有好的演算法。」他說。

如果成功,那會引發一些關於人的本質定義、以及人工智慧的合理使用範圍等嚴肅的哲學和倫理問題。 Hassabis 說,他鼓勵人們討論這項技術可能的風險。(雖然他滿意地表示,物理學家 Stephen Hawking 在於他見面後,已經停止警告人工智慧會毀滅人類;將人工智慧研究比作「召喚魔鬼」的 Tesla 創始人 Elon Musk 也被潑了冷水。)DeepMind 有一個內部的哲學家、律師和商人團隊。 Hassabis 說也許「很快」就會公佈他們的名字,以及他也在努力召集一隊類似的外部團隊,在多個電腦公司間共享。

DeepMind 的工程師們設計新實驗暫時還不需要倫理學指導, Hassabis 說。「距離我們能擔心的成果還遠著呢,」他說,「更重要的是讓所有人加快速度。」如果所有都如 Hassabis 所願,他的倫理團隊才能真的有點事可以做。

《延伸閱讀》

人工智慧有多恐怖?聽聽「天才」Demis Hassabis 怎麼說!

人機圍棋第四戰,李世乭「神之一手」戰勝人工智慧 AlphaGo!

南韓專家:AlphaGo 非真人工智慧,Google 設局須向圍棋界道歉

Google 人工智慧工程師提醒:「Skynet 出現並非不可能」

Google AlphaGo 對決李世乭前夕,9 位圍棋世界冠軍分析勝負

圍棋:電腦要戰勝人類有多難?

歡迎加入「Inside」Line 官方帳號,關注最新創業、科技、網路、工作訊息

好友人數

精選熱門好工作

Campaign Associate 線上活動策劃專員

樂購蝦皮股份有限公司
臺北市.台灣

獎勵 NT$15,000

高階平台開發者 / Sr. Platform Developer

奔騰網路科技有限公司
臺北市.台灣

獎勵 NT$15,000

PopDaily 資料分析師 –【行銷部】

數果網路股份有限公司
臺北市.台灣

獎勵 NT$15,000

評論