Nature 刊登 Deepmind 論文,最強 AlphaGo Zero 已無需人類知識,AlphaGo 慘敗

Deepmind 如約在 Nature 發布了論文:從一塊白板開始,我們的新程式 AlphaGo Zero 表現驚人,並以 100:0 擊敗了之前版本的 AlphaGo。
評論
評論

本文獲合作媒體 雷鋒網 授權轉載,作者 岑大師

AlphaGo「退役」了,但 Deepmind 在圍棋上的探索並沒有停止。

今年 5 月的烏鎮大會的「人機對局」中,中國棋手、世界冠軍柯潔 9 段以 0:3 不敵 AlphaGo。隨後 Deepmind 創辦人 Hassabis 宣布,AlphaGo 將永久退出競技舞台,不再進行比賽。

Hassbis 當時表示:「我們計劃在今年稍晚發布最後一篇學術論文,詳細介紹我們在演算法效率上所取得的一系列進展,以及應用在其他更全面領域中的可能性。就像第一篇 AlphaGo 論文一樣,我們希望更多的開發者能夠接過接力棒,利用這些全新的進展開發出屬於自己的強大圍棋程式。」

今天,Deepmind 如約在 Nature 發布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》(不使用人類知識制霸圍棋)的論文中,Deepmind 展示了他們更強大的新版本圍棋程式「AlphaGo Zero」,驗證了即使在像圍棋這樣最具挑戰性的領域,也可以通過純強化學習的方法自我完善達到目的。

論文摘要

人工智慧的一個長期目標是通過後天的自主學習(注:tabula rasa,意為「白板」,指所有的知識都是逐漸從他們的感官和經驗而來),在一個具有挑戰性的領域創造出超越人類的精通程度學習的演算法。之前,AlphaGo 成為首個戰勝人類圍棋世界冠軍的程式,當時的 AlphaGo 通過深層神經網路進行決策,並使用人類專家下棋的資料進行監督學習,同時也通過自我對弈進行強化學習。在這篇論文中,我們將介紹一種僅基於強化學習的演算法,而不使用人類的資料、指導或規則以外的領域知識。AlphaGo 成為自己的老師,這一神經網路被訓練用於預測 AlphaGo 自己的落子選擇,提高了決策樹搜尋的強度,使得落子品質更高,具有更強的自我對弈迭代能力。從一塊白板開始,我們的新程式 AlphaGo Zero 表現驚人,並以 100:0 擊敗了之前版本的 AlphaGo。

全新強化學習算法:無需任何人類指導

這篇論文的最大亮點,在於無需任何人類指導,通過全新的強化學習方式,人工智慧的程式自己成為自己的老師,在圍棋這一個最具挑戰性的領域達到超過人類的精通程度。相比起之前使用人類對弈的數據,這一個新的演算法訓練時間更短,僅用 3 天時間就達到了擊敗李世乭的 AlphaGo Lee 的水準,21 天就達到了之前擊敗柯潔的 AlphaGo Master 的水準。

在 3 天內——也就是 AlphaGo Zero 在擊敗 AlphaGo Lee 之前,曾進行過 490 萬次自我對弈練習。相比之下,AlphaGo Lee 的訓練時間長達數月之久。AlphaGo Zero 不僅發現了人類數千年來已有的許多圍棋策略,還設計了人類玩家以前未知的的策略。

Deepmind 部落格 介紹,AlphaGo Zero 採用了新的強化學習方法,從一個不知道圍棋遊戲規則的神經網路開始,通過將這個神經網路與強大的搜尋演算法結合,然後就可以實現自我對弈了。在這樣的訓練過程中,神經網路不斷被更新和調整,並用於預測下一步落子和最終的輸贏。

這一更新後的神經網路將再度與搜尋演算法組合,過程不斷重複,最後建立了一個新的、更強大版本的 AlphaGo Zero。在每次迭代中,系統的性能和自我對弈的品質均能夠有部分提高。「日拱一卒,功不唐捐」,最終的神經網路越來越精確,AlphaGo Zero 也變得更強。

AlphaGo Zero 與之前版本有如下不同:

  • AlphaGo Zero 只使用棋盤上的黑子和白子作為輸入,而之前版本 AlphaGo 的輸入均包含部分人工特徵;
  • AlphaGo Zero 使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策略網路」來選擇落子的位置,並使用另一個「價值網路」來預測遊戲的輸贏結果。而在 AlphaGo Zero 中下一步落子的位置和輸贏評估在同一個神經網路中進行,從而使其可以更好地進行訓練和評估。
  • AlphaGo Zero 無需進行隨機推演(Rollout)——這是一種在其他圍棋程式中廣泛使用於勝負的快速隨機策略,從而通過比較確定每一手之後輸贏的機率,選擇最佳落子位置。相反地,它依賴於高品質的神經網路來評估落子位置。

上述差異均有主於提高系統的性能和通用性,但使最關鍵的仍是演算法上的改進,不僅使得 AlphaGo Zero 更加強大,在功耗上也更為高效。

AlphaGo 不同版本所需的 GPU/TPU 資源

雖然這一技術還處於早期階段,但 AlphaGo Zero 的突破使得我們在未來面對人類面對的一些重大挑戰(如蛋白質折疊、減少能源消耗、尋找革命性的新材料等)充滿信心。

眾所周知,深度學習需要大量的資料,而在很多情況下,獲得大量資料的成本過於高昂,甚至根本難以獲得。如果將該技術應用到其他問題上,將會有可能對我們的生活產生根本性的影響。

延伸閱讀:

【AI 要強就得開源】英國學者提 18 項戰略,催生世界最佳人工智慧 孕育地

Google 簡立峰:AI 時代,如果你家有兩個小孩,一個出國賺錢,另一個把家裡 照顧好


人機合一新型態微創手術,外科醫師的第3隻手——精準持鏡機器手臂,穩定內視鏡影像提升手術品質

隨著科技進步,微創手術已成為一般外科治療的趨勢,「精準微創」更是現階段的目標。新型的「內視鏡持鏡機器手臂」彷彿是外科醫師的第3隻手,可以模擬人手多角度操作持鏡,提供穩定的影像畫面,輔助主刀醫師精準切割、縫合患部,提升手術品質、縮短術後恢復時間。
評論
評論

談到開刀房、手術室,你腦中浮現的第一個畫面是什麼?小小的手術台旁擠滿多名醫護人員,手上持著不同的器械各自忙碌?

沒錯,一台成功的手術是由一整個醫療團隊,每個人各司其職,並保持良好的節奏與共同合作的默契,才能確保病人獲得妥善治療。

看懂傳統腹腔鏡/內視鏡手術,開刀房人員配置

以傳統腹腔鏡/內視鏡手術來說,手術房內會有主刀醫師與第一助手來完成主要的手術內容,同時還會有兩位分別協助操作內視鏡的「扶鏡助手」與協助遞交手術器械的「第一助手」。

▲手術房內除了主刀醫師與第一助手完成主要的手術內容之外,還有協助操作內視鏡的「扶鏡助手」,以及遞交手術器械的「第一助手」。

扶鏡助手扮演了手術過程中相當重要的「眼睛」角色,因為扶鏡助手操作的內視鏡,便是將極細長內含光纖、鏡片的鏡頭放入體內,再利用影像傳輸,將體內畫面傳導至螢幕上。由於內視鏡可以深入腹腔,傳回人眼無法透視皮膚所看到的手術部位,加上具有影像放大的作用,協助醫師更仔細觀察病兆、找對下刀位置。

傳統腹腔鏡/內視鏡手術,「人工持鏡」考驗醫護體力、耐力

然而,內視鏡的操作,並非想像中的簡單。除了操作過程十分考驗「扶鏡助手」和主刀醫師之間的默契外,一場腹腔鏡手術動輒三、四個小時以上,要保持長時間穩定地「人工持鏡」,相當考驗醫護的體力與耐力。

大千醫院一般外科劉信誠主任坦言,「對於長時間的腹腔鏡手術來說,鏡頭畫面的穩定度非常重要。但是,當手術時間超過一個小時以上或步驟、位置較複雜,持鏡助手就容易感到疲憊、集中度下降,開始跟不上醫師的手術工作速度。」

再者,持鏡助手長時間維持持鏡姿勢,也容易因疲勞而產生手持內視鏡影像晃動,造成手術畫面模糊,增加主刀醫師及開刀團隊產生視覺暈眩的可能性,進而拉長手術時間,提升手術困難度。

▲大千醫院一般外科劉信誠主任。

外科醫師的第3隻手:內視鏡持鏡機器手臂CP值高

為了滿足不斷上升的內視鏡手術需求,醫界也追尋更佳的手術方式。於是,內視鏡結合機器手臂的「內視鏡持鏡機器手臂」由此產生。

其中最知名的「機器手臂」就是大名鼎鼎的「達文西機器手臂」,但達文西手臂的體積龐大、造價昂貴、維修費驚人,每次使用的開機與耗材費高達20-30萬。對於一般民眾來說,是一筆相當高額的支出,不是人人都負擔得起。

為解決醫師臨床手術的多元與便捷需求,友信醫療集團代理引進由德國開發的「新型內視鏡持鏡機器手臂」,有兩種不同型號,滿足不同的臨床需求,打破對機器手臂的既定印象,不僅體積輕巧、操作容易,關節活動角度靈活,更可直接架於開刀床邊軌上,手臂移動範圍能完全涵蓋整個病人,彷彿是外科醫師的第3隻手;且大部分的配件可以重複滅菌使用,每次開機約1-2萬元,導入成本低、CP值高,對於醫院及病人來說負擔降低許多。

除了費用門檻較低,劉信誠主任分享到,與傳統人工持鏡相比,機器手臂持鏡的畫面較穩定,還可以由醫師主動控制畫面,提升手術的流暢度。

另外,在執行微創手術的縫合等精細動作時,穩定、不晃動的畫面也能讓主刀醫師在視覺上較舒適且不易感到疲倦,增加手術的準確度,達到「精準微創」的目的。

▲持鏡助手長時間維持持鏡姿勢,容易因疲勞而產生手持內視鏡影像晃動,「新型內視鏡持鏡機器手臂」則可以提供流暢且穩定的影像。

胸腔鏡手術應用範疇多!日本研究揭「人手持鏡」與「機器手臂持鏡」的差異

劉信誠主任指出,近年來微創手術已是目前臨床上的主流。根據統計,在醫院開刀房所進行的手術中,傳統開腹手術對比腹腔鏡微創手術的比例,已經將近1:9。

如同微創手術的主要目的,在於縮小患者的手術傷口、降低出血量及術後疼痛的發生,因此在進行手術時間較長的微創手術,機器手臂持鏡更顯重要。

根據日本研究發現,機器手臂相較於傳統人手持鏡,不會增加手術準備時間,熟悉持鏡手臂操作的醫師更可以降低18%的腹腔鏡手術時間;且因內視鏡影像穩定,手術下刀、縫合位置更精準,在減少內視鏡穿刺套管拉扯傷口下,患者的出血量也會降低、術後恢復速度也更快,大幅降低住院天數。

以新型持鏡機器手臂來說,便是針對消化系統、婦產、泌尿等外科手術需求所設計。透過內視鏡穿刺套管(Trocar)註冊點作為移動與旋轉的中心點,記憶套管虛擬位置,讓持鏡手臂以定位點為軸心進行移動,並自動運算最佳移動方式,在術中提供穩定內視鏡影像的同時,也能避免內視鏡拉扯擴大手術傷口,對外科醫師提升微創手術精準度,保有穩定支撐和靈活定位能力有所助益。

▲新型持鏡機器手臂,透過電腦登記Trocar穿刺套管作為移動/旋轉的中心點,記憶腹腔鏡套管虛擬位置,讓持鏡手臂以定位點為軸心進行移動,並自動運算最佳移動方式,避免拉扯手術傷口擴大。

小腔室也能輕鬆進入,新型持鏡機器手臂體積更輕巧、角度更靈活

相較腹腔、胸腔等部位,對於耳鼻喉科與顱底手術,醫師要面對更小的腔室,為避免觸碰重要的神經組織及血管,更需要仰賴內視鏡精準的移動與角度。另一款新型持鏡機器手臂具有6個關節的機器手臂、模擬人手進行多角度移動,可以提供360度橫向移動視角,及垂直90度的視覺角度,輔助醫師更精準深入手術部位,穩定提供內視鏡影像輔助醫師進行手術。 

▲具有6個關節的另一款新型機器持鏡手臂,能夠模擬人手進行多角度移動,輔助醫師更精準深入手術部位。

除了上述提到的持鏡機器手臂與傳統人工持鏡之間的差異,對醫院及醫師來說,持鏡機器手臂在人力調度上更有彈性,可以減輕醫護的視覺疲勞與持鏡姿勢疲勞。

對患者而言,持鏡機器手臂提供的穩定手術影像畫面,有助於提升手術品質,減少手術時間及併發症,讓患者安全快速地回到工作崗位或生活上。

資訊來源:友信醫療集團、大千醫院一般外科劉信誠主任;文:關鍵評論網媒體集團廣編企劃。