Deepmind 黃士傑:11/10 回台詳解 AlphaGo Zero 開發過程!

評論
評論

許多讀者應已知道 AlphaGo 最強版「Zero」 橫空出世,登上《Nature》了吧!一手催生 AlphaGo 的首席工程師黃士傑博士也在 Facebook 頁面公布了這項訊息,而且更令人興奮的是,他將在今年 11/10 舉辦的 台灣人工智慧年會 ,詳盡為大家介紹 AlphaGo Zero 的開發過程。

黃士傑這麼介紹 AlphaGo Zero 的諸多表現:

  • AlphaGo Zero 從空白開始,完全只靠自學下圍棋。
  • 僅僅 36 小時,AlphaGo Zero 就摸索出所有基本且重要的圍棋知識,達到了與李世乭九段對戰的 AlphaGo v18 的相同水平。
  • 3 天後,AlphaGo Zero 對戰 AlphaGo v18 達到 100%的勝率。
  • 不斷進步的 AlphaGo Zero 達到了 Master 的水平。Master 即年初在網路上達成 60 連勝的 AlphaGo 版本。
  • 40 天後,AlphaGo Zero 對戰 Master 達到近 90%勝率,成為有史以來 AlphaGo 棋力最強的版本。
  • 雖然 AlphaGo Zero 沒有公開下過棋,在 論文中附上了 AlphaGo Zero 的 80 局棋 ,供大家研究。從圍棋技術的角度來說,AlphaGo Zero 自學所發現的圍棋觀念,例如打劫、征子、棋形、開局先下在角部,開局定式等等,絕大部分與人類的圍棋觀念是一致的,這也間接呼應了人類幾千年以來圍棋研究的價值。
  • AlphaGo Zero 的棋風特別好戰,並且也喜歡直接點 33。從論文內容來說,這主要是一篇強化學習的論文,關鍵技術在於強化學習訓練 pipeline 的效能極大化。

如果讀者等不及又懂英文的話,也可以明天先到 AlphaGo AMA 網頁 跟開發團隊線上提問。

延伸閱讀:

相關文章

評論