揭秘新版 AlphaGo,為什麼它能戰勝柯潔?

在各自短暫的演講中,Hassabis和Silver分別對AlphaGo能取得當下成績的原因進行了整體說明,同時還收集了一大批圍棋界人士的評論。但最令人意料之外的還要屬最新版AlphaGo的訊息揭露。
評論
評論

本文來自合作媒體 雷鋒網 ,INSIDE 授權轉載

雖然只有 1/4 子,但前天 AlphaGo 在對戰柯潔時那種游刃有餘,穩扎穩打的作風已然顯示出其強大的實力。

▲DeepMind 創辦人兼 CEO Demis Hassabis(左)和首席科學家 David Silver(右)

這次圍棋峰會的另外一個重頭戲——中國烏鎮·人工智慧高峰論壇上,首先上台演講的不是別人,正是打造圍棋人工智慧 AlphaGo 的兩位關鍵人物:DeepMind 創辦人兼 CEO Demis Hassabis,以及 DeepMind 首席科學家 David Silver。

在各自短暫的演講中,Hassabis 和 Silver 分別對 AlphaGo 能取得當下成績的原因進行了整體說明,同時還收集了一大批圍棋界人士的評論。但最令人意料之外的還要屬最新版 AlphaGo 的訊息揭露。

AlphaGo Master:世界上實力最強高的電腦圍棋玩家

之前坊間也一直在猜測,究竟今年年初以 Master 出現在野狐平台橫掃 60 名職業棋手的 AlphaGo 是什麼版本。

在 David Silver 展示的 PPT 中明確提到了三種 AlphaGo 的稱呼:AlphaGo Fan(與樊麾對弈的版本)、AlphaGo Lee(與李世乭對弈的版本)、AlphaGo Master(驅動 Master 的版本)。相比之前坊間風傳的 V18/V20 等版本稱號,這三個名字容易理解不少。

他們三者之間最主要的差別就是棋藝水平,Google 現場也展示了三者的圍棋 ELO 等級分:

2015 年 10 月登場的 AlphaGo Fan 等級分大約在 2900 分左右,2016 年 3 月登場的 AlphaGo Lee 等級分大約在 3700 分左右(李世乭本人目前 3530 分),今年年初登場的 AlphaGo Master 等級分已經來到了 4800 分左右。

考慮到目前世界第一人柯潔的等級分不過 3625,Google 還給出了一個 AlphaGo Lee 與 AlphaGo Master 之間參考性的讓子數目——3 子。

柯潔本人在現場目睹這個差距之後也不由得在微博上發表了自己的感受:

早就聽說新版 alphago 的強大.... 但... 讓... 讓三個?我的天,這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步... 又像武林高手對決讓你先捅三刀一樣... 我到底是在和一個怎樣可怕的對手下棋...

值得注意的是,等級分的數值實際上是由一系列比賽中的勝負來確定的,這個數值在輸贏都存在的情況下比較準確(高低都有參考值)。而 AlphaGo Master 之前一舉面對職業圍棋人士連勝 60 盤,等級分很可能還遠沒有達到真實的水平(上未封頂)。

當然,這三者在配置、運作方式上也截然不同。以下是根據現場整理的一份簡單表格。

看到這裡肯定會有人驚呼:從 50 個 TPU 減少到 1 個,Google 這是要逆天嗎?這種想法實際上是錯誤的。

原因在於,AlphaGo Master 實際上是站在巨人(AlphaGo Lee)肩膀上的。

AlphaGo Master 的強大為啥與 AlphaGo Lee 息息相關?

如果非要分個階段,AlphaGo Fan 實際上與 AlphaGo Lee 可以划為同一時期。

這兩者的整體算法架構都是一樣的:「深度學習+蒙特卡洛搜索樹+強化學習」。或者你可以將他們理解為初中生和高中生的差別,挑戰樊麾的版本在數據積累和算法細部規則上還沒有打磨到極致,而後者則要完美不少。

到了 AlphaGo Lee 時,我們原來認為的「圍棋人工智慧障礙」——圍棋棋局可能性太多,無法窮舉找到最優解,已經被解決。

▲圍棋中龐大的蒙特卡洛搜索樹

簡略點來說,Google 實際上找了兩種「偷懶」的辦法:首先是在進行下一步落子計算時,只參考通過深度學習得來的人類落子選項。(人類如果不下的地方,它就不計算)

第二是估值網路,在每一步落子之時想要直接算出結局,同樣是不可能的。因為隨著預測步數增多,蒙特卡洛搜索樹中需要計算的內容也會指數式上漲。所以 AlphaGo 引入了一套打分體系。沒有一個地方是 100% 贏,只是對比其他地方,這一個點落子更好。

通過這兩步縱向和橫向的精簡之後,AlphaGo 達成了一個幾乎不可能完成的任務——在去年 3 月的比賽中戰勝了李世乭。

但除了最終結果外,AlphaGo 在那次比賽中的少數表現同樣值得關注:時常下出一些人類覺得有問題的棋招;在第四場李世乭神之一手之時,其估值網路發生了斷崖式的波動。

這無疑反映出了 AlphaGo Lee 自身的不成熟。

那麼怎麼樣才能再上一層樓呢?不同於之前很多人猜測的「完全摒棄 AlphaGo 中的人類元素」,Google 採用了一條更加穩妥的道路——建一個全新的神經網路,在 AlphaGo Lee 的基礎上進行二次「學習」,並且將學習到的東西不斷記下來。

這也使得 AlphaGo Master 變得比 AlphaGo Lee 更加嚴謹,同時也更加穩定。這也是為什麼會出現昨天三番棋第一場末尾階段 AlphaGo 絲毫不怕柯潔追擊,只採用最穩固策略的原因。當然,其他疑問也依舊存在,例如 AlphaGo Master 究竟是如何依靠單台 TPU 完成整場比賽的運算?在比賽過程中 AlphaGo Master 是否需要 AlphaGo Lee 的幫助?

另外一方面,Google 最終沒有選擇「拋棄」人類,總算說明人類 2600 年的圍棋歷史並不是毫無沈澱。這或許還算一個難得的小欣慰。