AlphaZero 完爆前輩 AlphaGo Zero,還贏了西洋棋和象棋最強的 AI!

訓練 34 個小時的 AlphaZero 勝過了訓練72 小時的 AlphaGo Zero。
評論
評論

本文獲合作媒體 極客公園 授權轉載。

Google 旗下人工智慧公司 DeepMind 發布了一篇新論文「Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm」,它講述了團隊如何利用 AlphaGo 的機器學習系統,構建了新的項目 AlphaZero。AlphaZero 使用了名為「強化學習」(reinforcement learning)的 AI 技術,它只使用了基本規則,沒有人的經驗,從零開始訓練,橫掃了棋類遊戲 AI。

AlphaZero 首先征服了圍棋,又完爆其他棋類遊戲:相同條件下,該系統經過 8 個小時的訓練,打敗了第一個擊敗人類的 AI——李世乭版 AlphaGo;經過 4 個小時的訓練,打敗了之前最強西洋棋 AI Stockfish,2 個小時打敗了最強象棋 AI Elmo。連最強圍棋 AlphaGo 也未能倖免,訓練 34 個小時的 AlphaZero 勝過了訓練 72 小時的 AlphaGo Zero。

AlphaZero 在比賽中贏,平局或輸的局數(來自 DeepMind 團隊論文)

強化學習這麼強大,它是什麼?

知名 AI 部落格作者 Adit Deshpande 來自加州大學洛杉磯分校(UCLA),他曾在部落格中發表過「深度學習研究評論」系列文章,解讀了 AlphaGo 勝利背後的力量。他在文章中介紹到,機器學習領域可以分為三大類:監督學習、無監督學習和強化學習。強化學習可以在不同的情景或者環境下學習採取不同的行動,以此來獲得最佳的效果。

Adit Deshpande 的《Deep Learning Research Review Week 2: Reinforcement Learning》


我們想像一個小房間裡的一個小機器人。我們沒有透過程式要這個機器人走路或採取任何行動,它只是站在那裡。我們希望它移動到房間的一個角落,走到那裡會得到獎勵分數,每走一步將會損失分數。我們希望機器人盡可能到達指定地點,機器人可以向東、南、西、北四個方向運動。機器人其實很簡單,什麼樣的行為最有價值呢,當然是指定地點。為了獲得最大的獎勵,我們只能讓機器人採用最大化價值的行動。


Adit Deshpande 的博客《Deep Learning Research Review Week 2: Reinforcement Learning》

AlphaZero 完爆棋類遊戲 AI,它的價值有多大?

AlphaGo Zero 是個突破性的進展,AlphaZero 也是嗎?國外專家分析,後者在技術上有四點突破:

一、AlphaGo Zero 根據勝率進行優化,只考慮勝、負兩種結果;而 AlphaZero 則是根據結果進行優化,考慮到了平局等可能。

二、AlphaGo Zero 會改變棋盤方向進行強化學習,而 AlphaZero 則不會。圍棋的棋盤是堆成的,而西洋棋和象棋則不是,因此 AlphaZero 更通用。

三、AlphaGo Zero 會不斷選擇勝率最好的版本替換,而 AlphaZero 則只更新一個神經網絡,減少了訓練出不好結果的風險。

四、AlphaGo Zero 中搜尋部分的超參數是通過貝葉斯優化得到的,選取會對估計結果產生很大影響。而 AlphaZero 所有對弈都重複使用相同的超參數,因此無需針對遊戲進行特定調整。

專家也表示,AlphaZero 有突破也有局限:

一、DeepMind 這篇論文核心是證明了 AlphaGo Zero 策略在棋類問題上的通用性;在方法上並沒有特別亮眼的地方。AlphaZero 其實是 AlphaGo Zero 策略從圍棋往其他類似棋類遊戲的拓展版,並戰勝了基於其他技術的棋類遊戲 AI,它們在此之前是最好的。

二、AlphaZero 也只是解決規則明確、完美資訊博弈的類似棋類遊戲的「通用」引擎,對於更複雜的其他問題,AlphaZero 依然會遇到困難。

此前,曠世科技孫劍解讀 AlphaGo Zero 時曾表示,「強化學習就算可以擴展很多別的領域,用到真實世界中也沒有那麼容易。比如說強化學習可以用來研究新藥品,新藥品很多內部的結構需要通過搜尋,搜尋完以後製成藥,再到真正怎麼去檢驗這個藥有效,這個閉環代價非常昂貴,非常慢,你很難像下圍棋這麼簡單做出來。」

三、AlphaZero 也需要非常多的計算資源才能解決相對更為「簡單」的棋類問題,成本非常高。DeepMind 在論文中表示,他們使用了 5000 個第一代 TPU 生成自對弈棋譜,並用了 64 個第二代 TPU 來訓練神經網絡。之前有專家向某媒體表示,TPU 雖然性能很驚艷,但是成本也會很高,有國際風投機構的投資人說過其中的一句話就是:「這麼貴的晶片,我也就是看看......」

四、目前的 AlphaZero 在圍棋上離「圍棋上帝」可能還有距離,贏了人不代表就是上帝,目前的網絡結構、訓練策略是不是最優的,其實還是值得進一步研究的。

雖然有一定的局限,但其應用場景值得深挖。在讓機器學習更為通用的研究方向上,有很多其他研究領域值得關注,比如 AutoML、遷移學習等等。同時,如何進一步以更少的代價(計算代價、領域專家代價)獲得更為通用的 AI 引擎,讓 AI 在實際應用中產生更大的價值也是非常值得關注的。

電腦真正可以思維的「強」人工智慧(通用人工智慧),其實是想實現「從 0 到 1」的突破,而目前包括工業界和電腦應用科學等領域,其實只是想讓計算機的行為表現像智慧一樣,這可以稱為「從 1 到 N」。

但是,科學家們一直在不斷探索通用人工智慧。DeepMind 就是這方面的先行者之一,好像登山一樣,只要一步步攀登,有一天人類必然登頂。


快商務時代來臨!解密電商如何拼快送布局

快商務的核心價值是滿足消費者的需求,但物流配送的核心是「穩」,對消費者而言,貨物運送的品質及運送時間準確性是基礎要求,再來才是追求快速等附加價值,雙管齊下才能獲得消費者的信賴。
評論
快商務時代到來,速度與方便性成為品牌決勝點。Photo Credit:爆米花數位
評論

去年年中一場疫情,民眾足不出戶,讓大家都感受到物流快與穩的重要性。隨著快商務(quick commerce)的發展,電商業者不再只競爭誰家商品多、誰家優惠多,全方位的服務才是電商之戰的新主場,尤其是物流服務,更成為通往消費者心中的關鍵道路。

根據 KPMG 報告,隨著都市化程度越來越高,小家庭與獨戶家庭也不斷增加,消費者的購物行為也發生變化,在現在的消費市場中,少量商品的需求越來越多,速度與方便性比以往任何時候都更加重要,也是品牌的決勝點之一。

快商務元年?國內外電商龍頭早已開始布局

快商務顧名思義就是要求快速交付貨物,跨國外送公司 Delivery Hero 也指出,快商務是電商的新時代,要縮短這傳統的最後一哩路,更要靠科技服務。除了空間及交通系統的優化,當然還有包含 AI 預測及庫存管理系統,透過數據和技術來減少成本。根據摩根大通的研究指出,Amazon 可能成為美國最大的物流公司,Amazon 自 2019 年開始就發展「一日到貨計劃」,為 Prime 會員推出 24 小時到貨服務,靠著自動化技術不斷優化物流流程,在幅員遼闊的美國做到一日到貨服務。

美國電商龍頭Amazon靠著自動化技術優化物流流程,在美國也做到快商務。圖片來源:shutterstock

而提到快商務在台灣的發展,便會想到 PChome 24h購物,2007 年 PChome 24h購物首創 24 小時到貨專區,在台灣電商與物流界掀起革命,為了掌握更全面的服務,也建立自有車隊,把關送貨速度及品質,目前 PChome 已在北部六縣市推動 6 小時到貨試營運,預計於 2022 下半年開始啟用 A7 中華郵政智慧物流園區營運,可望進一步提升為 4 小時到貨,值得期待。近來因外送平台的興起,從美食外送到生活用品外送,將送貨時間縮短到 24 小時內,開始以個位數小時計,2021 年 7 月登台的韓國電商 Coupang 更是打出未來 10 分鐘到貨,刺激台灣電商業的物流布局。 

韓國亞馬遜之稱的coupang進軍台灣,打出10分鐘到貨口號。圖片來源:Coupang 酷澎-官方FB

快商務發展三布局

1. 採取包圍戰加強衛星倉

過去電商為了管控出貨品質,常以大型集中式倉儲為戰略,隨著快商務興起,加上都市化程度越來越高,設點在市區、離消費者更近的衛星小倉儲也成了不可或缺的倉儲策略。

大型集中式倉儲及小衛星倉兩者雙管齊下,更能同時提升速度與品質。亞洲物流科技新創 Pickupp 於 2021 年 7 月進軍台灣,其在城市內與小型實體店面合作「共享衛星倉」,透過彈性的方式與店面共享空間,將一些實體店面的閒置倉庫和空間變成物流中心,以增加衛星倉的數量,提升物流效率之外也幫助實體商家帶來額外收入,對自身服務、消費者、商家等來說多方受惠。

2. 強化運能保留彈性

過去台灣的物流產業以大型貨車為主要運送工具,隨著外送平台的興起,人們漸漸注意到機車的運能在城市生活更加便利,機動性高,運送成本也較低。

PChome 24h購物自有車隊即有超過 200 台貨車與機車的配置,且送貨品質如包裝的完整度及乾淨度高,隨著快商務需求增加,近來更與 Pickupp 合作,加強機車運能,可紓解臨時訂單或是交通塞車的問題,在維持品質之餘,也努力讓物流運送更有效率。

電商平台與物流平台聯手,機動性更高的摩托車運能讓配送服務快上加快。圖片來源:Pickupp台灣-官方IG

3. 數位化加強配送效率

傳統物流是人力密集產業,電商業的優勢在於可收集數據,預測更多的消費者行為,數位化成為快商務的一大助力,不僅在倉儲空間可設有自動化技術,如自動搬運機器人 AGV、機器手臂等,在物流上,也能藉由數位化計算訂單的時間、材積、路線後給予最有效的分配。

從消費者在線上展開購物體驗開始,AI 技術即可預測消費者可能購買商品,並進行貨物倉儲布局,當消費者下單,更能根據訂單內容、材積、運送地點計算出最適合出貨的方式和路線。PChome 24h購物今年將啟用的 A7 自動倉儲中心,除了倉儲面積增加五成,更大量使用AI人工智慧與物流結合,運用自動化技術降低人力、加速揀貨速度,預計啟用之後包裹處理量將提升一倍以上,運能也將提升 2 倍。

數位化倉儲成為快商務一大助力。圖片來源:爆米花數位

快商務蓬勃發展,物流核心價值不能忘 

快商務的核心價值是滿足消費者的需求,但消費者的需求是否完全圍繞著快,也是視情況而定,除了快,在商務上也有許多本質是不能偏廢的,例如建立與消費者的信賴感。電商自有車隊的物流士穿著整齊乾淨制服在街頭穿梭,以及貨物乾淨完整送到消費者手上,甚至在春節假期也提供不打烊配送服務,即使消費者臨時有送禮或是生活用品需求,不用離開團圓現場就能依靠有品質的快商務完成,滿足現代消費者的需求及渴望,無形中也帶給消費者信賴感。

快商務服務不只包含「快」,貼近消費者需求的「穩」亦然重要,如專業有素的電商物流士、過節不打烊的貼心配送。圖片來源:爆米花數位

在目前追求快速的浪潮下,其實最不能忘記的是物流配送的核心──「穩」,對消費者而言,貨物運送的品質及運送時間準確性是基礎要求,再來才是追求快速等附加價值。維持原先的穩定外,再因應快商務的潮流,雙管齊下才能獲得消費者的信賴。 

本文章內容由「爆米花數位」提供,經關鍵評論網媒體集團廣編企劃編審。