機翻大突破!微軟中英新聞翻譯達人類水平

這是首個在新聞報導的翻譯品質和準確率上可以媲美人工翻譯的翻譯系統!
評論
評論

本篇來自合作媒體 雷鋒網 ,INSIDE 經授權轉載。

14 日晚,微軟亞洲研究院與雷德蒙研究院的研究人員宣布,其研發的機器翻譯系統在通用新聞報導測試集 newstest2017 的中-英測試集上,達到了可與人工翻譯媲美的水平;這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。

newstest2017 測試集由來自產業界和學術界的團隊共同開發完成,並於 2017 年在 WMT17 大會上發布。而新聞(news)測試集則是三類翻譯測試集中的一個,其他兩類為生物醫學(biomedical)和多模式(multimodal)。

四大技術

我們知道,對於同一個意思人類可以用不同的句子來表達,因此翻譯並沒有標準答案,即使是兩位專業的翻譯人員對於完全相同的句子也會有略微不同的翻譯,而且兩個人的翻譯都不錯。微軟亞洲研究院副院長、自然語言計算組負責人周明表示:「這也是為什麼機器翻譯比純粹的模式辨識任務複雜得多,人們可能用不同的詞語來表達完全相同的意思,但未必能準確判斷哪一個更好。」

這也是為什麼科研人員在機器翻譯上攻堅了數十年,甚至曾經很多人都認為機器翻譯永遠不可能達到人類翻譯的水平。近兩年隨著深度神經網絡的引入,機器翻譯的表現取得了很多顯著的提升,翻譯結果相較於以往的統計機器翻譯結果更加的自然流暢。

據了解,在這次的工作中來自微軟亞洲研究院和雷德蒙研究院的三個研究組透過多次交流合作,將他們的研究工作相結合,再次更進一步地提高了機器翻譯的質量,其中用到的技術包括對偶學習(Dual Learning)、推敲網絡(Deliberation Networks)、聯合訓練(Joint Training)和一致性規範(Agreement Regularization)等。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

對偶無監督學習框架

對偶學習,即利用任務的對偶結構來進行學習。例如,在翻譯領域,我們關心從英文翻譯到中文,也同樣關心從中文翻譯回英文。由於存在這樣的對偶結構,兩個任務可以互相提供反饋信息,而這些反饋信息可以用來訓練深度學習模型。也就是說,即便沒有人為標註的數據,有了對偶結構也可以做深度學習。另一方面,兩個對偶任務可以互相充當對方的環境,這樣就不必與真實的環境做交互,兩個對偶任務之間的交互就可以產生有效的反饋信號。因此,充分地利用對偶結構,就有望解決深度學習和增強學習的瓶頸——訓練數據從哪裡來、與環境的交互怎麼持續進行等問題。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

推敲網絡的解碼過程

推敲網絡 中的「推敲」二字可以認為是來源於人類閱讀、寫文章以及做其他任務時候的一種行為方式,即任務完成之後,並不當即終止,而是會反覆推敲。微軟亞洲研究院機器學習組將這個過程沿用到了機器學習中。推敲網絡具有兩段解碼器,其中第一階段解碼器用於解碼生成原始序列,第二階段解碼器通過推敲的過程打磨和潤色原始語句。後者了解全局資訊,在機器翻譯中看,它可以基於第一階段生成的語句,產生更好的翻譯結果。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

聯合訓練:從源語言到目標語言翻譯(Source to Target)P(y|x) 與從目標語言到源語言翻譯(Target to Source)P(x|y)

聯合訓練可以認為是從源語言到目標語言翻譯(Source to Target)的學習與從目標語言到源語言翻譯(Target to Source)的學習的結合。中英翻譯和英中翻譯都使用初始並行數據來訓練,在每次訓練的迭代過程中,中英翻譯系統將中文句子翻譯成英文句子,從而獲得新的句對,而該句對又可以反過來補充到英中翻譯系統的數據集中。同理,這個過程也可以反向進行。這樣雙向融合不僅使得兩個系統的訓練數據集大大增加,而且準確率也大幅提高。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

   一致性規範:從左到右 P(y|x,theta->) 和從右到左 P(y|x,theta<-)

一致性規範 ,即翻譯結果可以從左到右按順序產生,也可以從右到左進行生成。該規範對從左到右和從右到左的翻譯結果進行約束。如果這兩個過程生成的翻譯結果一樣,一般而言比結果不一樣的翻譯更加可信。這個約束,應用於神經機器翻譯訓練過程中,以鼓勵系統基於這兩個相反的過程生成一致的翻譯結果。

與人類比較

由於機器翻譯沒有「正確的」翻譯結果,為了與人類的翻譯水平進行比較,就必須嚴格地定義什麼是與人類翻譯水平相當。根據其發表的論文中表述,這種定義有兩種:

1、如果一個具備雙語能力的人判斷人類輸出的譯文質量與機器輸出的譯文質量相當,則機器達到人類水平。

2、如果機器翻譯系統在測試集上的譯文質量得分(人工評分)與人類譯文得分沒有顯著差別,則機器達到人類水平。

微軟選擇了第二種定義,因為這樣相對而言比較公平且有實際意義。

newstest2017 新聞報導測試集中共包括了約 2000 個句子,它們是由專業人員從在線報紙樣本翻譯而來。

微軟團隊對測試集進行了多輪評估,每次評估會隨機挑選數百個句子進行翻譯。

隨後,為了驗證微軟的機器翻譯是否達到了人類翻譯水平,微軟從外部聘請了一群雙語語言顧問,讓他們對微軟的翻譯結果和人工的翻譯進行比較和評分,結果如下:

機器翻譯新突破,微軟中英新聞翻譯達人類水平

#表示集群的排名,Ave% 表示平均原始分數 (範圍在 [0,100] 之間),Avez 表示標準 z 分數。該表顯示了系統收集了至少 1827 份評估結果。

從表中我們可以看出,微軟的系統(Combo-4, 5, 6)已經與人類翻譯(Reference-HT)無顯著差別,遠遠超過 Reference-PE(人類翻譯—基於機器翻譯後的編輯)以及 Reference-WMT。

任重而道遠

對於這項結果,來自微軟的研究人員卻表現地極為自然。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

微軟技術院士黃學東,負責微軟語音、自然語言和機器翻譯

微軟技術院士黃學東告訴記者:

在機器翻譯方面達到與人類相同的水平是所有人的夢想,我們沒有想到這麼快就能實現。消除語言障礙,幫助人們更好地溝通,這非常有意義,值得我們多年來為此付出的努力。”

微軟機器翻譯團隊研究經理 Arul Menezes 表示:

團隊想要證明的是:當一種語言對(比如中-英)擁有較多的訓練數據,且測試集中包含的是常見的大眾類新聞詞彙時,那麼在人工智慧技術的加持下機器翻譯系統的表現可以與人類媲美。

微軟亞洲研究院副院長、自然語言計算組負責人周明則表示任重而道遠:

在 WMT17 測試集上的翻譯結果達到人類水平很鼓舞人心,但仍有很多挑戰需要我們解決,比如在實時的新聞報導上測試系統等。

而微軟亞洲研究院副院長、機器學習組負責人劉鐵岩對技術的進展表示樂觀:

我們不知道哪一天機器翻譯系統才能在翻譯任何語言、任何類型的文本時,都能在「信、達、雅」等多個維度上達到專業翻譯人員的水準。我們可以預測的是,新技術的應用一定會讓機器翻譯的結果日臻完善。

據了解,此次的技術突破將很快應用到微軟的商用多語言翻譯系統產品中,從而幫助其它語言或詞彙更複雜、更專業的文本實現更準確、更地道的翻譯。此外,這些新技術還可以被應用在機器翻譯之外的其他領域,催生更多人工智慧技術和應用的突破。


Google 開創雲端運算新時代,Industry Summit Recap 線上研討會聚焦製造、零售業加速轉型

一場疫情,讓許多行業意識到「數位轉型,不轉不行」的危機,尤其是轉型腳步相對緩慢的製造業、零售流通業,在疫情當下更是受創嚴重的兩大業態。Google Cloud將在 9 月 29 日、9 月 30 日舉辦 Industry Summit Recap 線上研討會,主題多元豐富而且不用出門、不必花錢,究竟議程有多吸引人?
評論
評論

數位轉型成為近年各產業最夯的關鍵詞,尤其 COVID-19 疫情爆發後,工廠缺工、缺料造成產線大亂,無法掌握上下游供應鏈的數據,對生產排程更是致命一擊。另一現象則是消費力從實體門市往電商跑,網路買了東西卻遲遲收不到貨,零售商能否即時掌握商品流、物流、金流的資訊,也是零售業受疫情衝擊之下,順利存活下去的關鍵。

一場疫情,讓許多行業意識到「數位轉型,不轉不行」的危機。不過數位轉型的命題如此大,加上不同產業的運作模式各有特色,因此在轉型方案的選擇、轉型方向的調度,也將呈現差異化策略。

例如,根據勤業眾信Deloitte於2020年底發布的《台灣智慧製造關鍵能力調查》,發現光是在製造業本身,轉型的腳步就有落差,半導體與電腦電子屬於轉型領先者,化學製品製造業的數位化投資相對落後。

為了加速產業邁向雲端轉型,善用數位科技的力量幫助自身企業不斷創新,Google Cloud 特別舉辦為期兩天的Industry Summit Recap 線上研討會。精選製造業、零售流通業當中最熱門的轉型主題,協助企業找到雲端轉型的密鑰,在後疫情時代享受最新的雲端解決方案。

Google Cloud Industry Summit Recap 線上研討會報名連結

製造業鎖定 9月 29 日,邁向工業 4.0 就該把生產數據全都拋上雲

工業 4.0 概念提出好多年,但你的企業是否還停留在 3.0 甚至 2.0 的階段?行業內的專家一定都知道,在工廠內安裝感測設備,透過即時掌握生產數據,進而彈性調整產線、優化製造流程、提高設備稼動率、降低人力成本,是邁向智慧製造的第一步。

導入自動化設備、架設全廠 IoT 環境、落實遠端監控之後的下一步呢?把生產資訊拋上雲端,甚至進一步運用 AI 技術,回過頭來調整生產流程,這部分將是許多製造業者亟需關注的轉型環節。

Google Cloud Industry Summit Recap 在 9 月 29 日,專注探討製造業該如何透過雲端解決方案,協助工廠設備運作更有效率、更為流暢。相關議題包含如下:

● 解密製造業上雲

● 雲端技術打造未來製造業

● 利用分析和人工智能實現製造業數位轉型

● 在 Google Cloud 上運行 SAP

● 借助 Anthos 實現工業 4.0 轉型

● Google 如何賦能智能製造

上述議題除了有華麗的 Google Cloud 講師陣容之外,更重要的是,本次線上研討會邀請製造行業的代表企業,藉由他們的最佳實踐經驗,分享親自走過的雲端轉型心路歷程,包含Askey亞旭電腦、Ennoconn樺漢科技、Footprintku富比庫 、HTC宏達電、ITTS東捷資訊,多元涵蓋製造產業不同領域的轉型模式與方法。

有些業者想了解究竟生產資料這麼多,該如何把 IT 基礎設備做現代化翻新,如有這方面的煩惱可以從「解密製造業上雲」主題獲得解答;又或者有些工廠已經部署各式各樣的 IoT 設備,但不知如何把不同設備及人員網絡串聯起來,洞察數據並發揮數據的價值,那就千萬不可錯過「利用分析和人工智能實現製造業數位轉型」。

當然有些企業已經導入 SAP 的 ERP 系統,希望把營運資料、生產數據一起整合到雲端,可以從「在 Google Cloud 上運行 SAP」專題了解實際的操作方式。在「賦能智能製造」議程,Google Cloud將攜手產業電腦整合方案領導業者Ennoconn樺漢科技,共同展示Google Meet + Google Glass的應用,透過人機協作有效釋放員工雙手,進而提升工作效率展現創新。

零售流通業鎖定 9 月 30 日,運用雲端方案為供應鏈業務做好準備

講到數位轉型風潮,絕對不能不提到全球的零售行業也受到大數據、AI 影響,展開智慧零售的佈局,藉此串聯全通路的數據,以提升顧客終身價值,讓獲利模式更加多元。從疫情可以發現,零售業是高度承受市場變動的產業,而且除了銷售端,把商品送到消費者手上的最後一厘路,更需要流通業者的協助。

看準零售流通行業長期遭遇的痛點,Google Cloud Industry Summit Recap 將在 9 月30 日,分享雲端解決方案可以從哪些角度切入,協助零售流通業者培養敏捷的營運體質,快速回應是廠及顧客的需求。相關議題包含如下:

● Google Cloud 打造由資料驅動的消費者體驗與創新

● 串聯線上線下零售商機並提升客戶體驗

● 企業數據決勝零售轉型

● 雲端科技加速市場回應與服務變現

● 如何透過 API 技術連結消費者需求並改善企業運營

● 描繪您對於未來零售的想像

● 建立數位供應鏈平台

● 物流運輸效能再升級:Google Map 應用

想要打造客製化的購物體驗嗎? API(Application Programming Interface)是近年的新顯學,從「透過 API 技術連結消費者需求並改善企業運營」學習如何從系統串接API,拓展更多服務功能。優化銷售、物流效率的關鍵就在於數據的洞察,進而調整適合的商業模式,從「Google Cloud 打造由資料驅動的消費者體驗與創新」及「企業數據決勝零售轉型」將是不可錯過的主題。

因應疫情避免過多人潮群聚,Google Cloud 提供兩天豐富的知識饗宴,不用出門、不必花錢,就能學習與自己產業有關的轉型新知。現在就報名 Google Cloud Industry Summit Recap 線上研討會