Google AI 翻譯新突破!保留原聲同步語音翻譯

評論
評論

上週在 I / O 開發者大會上,Google 分享機器學習透過神經網路和語意理解模型如何縮短智慧型手機使用流程,像是 Google 智慧助理的速度提高 10 倍、Google Lens 的即時翻譯,可以透過 AI 鏡頭翻譯 100 多種語言,更在今日於官方部落格上發表了突破性的保留原聲同步語音翻譯。

過去十年間蓬勃發展的語音翻譯系統提高跨國交流,各家廠商相繼推出翻譯棒、翻譯蒟蒻,一般來說,機器翻譯需要經過三個步驟才能完成,首先,要透過語音辨識將語音轉化成文字;再者,將文字翻譯成目標語言文字;最後,用目標語言文字產生目標語言語音,才能完成即時語音翻譯流程。這項技術為許多商業語音翻譯產品提供支援。

為了提高翻譯速度與正確率,Google 提出實驗性新系統「Translatotron」,讓語音到語音之間能不依賴於中間文字轉譯,直接完成翻譯。

根據 Google 技術說明,為了使「Translatotron」能夠進行端點到端點的翻譯,研究員使用 seq2seq 模型和頻譜圖作為輸入數據的訓練。藉由麥克風編碼器搜集說話者聲音,透過多任務學習預測音源或目標說話者使用的單字。

「Translatotron」系統提供比傳統的語音翻譯系統更多優勢,像是:更快的推理速度,避免了辨識和翻譯之間的錯誤,翻譯後要保留原始說話者的聲音也變得更簡單,甚至也會處理不需要翻譯的單字(例如,名字和專有名詞)。

image1
「Translatotron」翻譯系統架構

從測量機器翻譯品質的 BLEU 分數發現「Translatotron」的分數雖然低於傳統的語音翻譯系統,但「Translatotron」 確實達到整體更精準的翻譯。

研究員表示,Translatotron 是首組能保留原說話者的聲音,將語言從語音直接翻譯成另一種語音的點到點模型。希望將此實驗系統作為未來點到點語音轉語音翻譯系統研究的起點。

核稿編輯:Mia

延伸閱讀:



精選熱門好工作

(Backend)Senior Software Engineer

ShopBack 回饋網股份有限公司
臺北市.台灣

獎勵 NT$20,000

遊戲美術 Game Artist

Orangenose Studio 易銘有限公司
臺北市.台灣

獎勵 NT$20,000

Android 工程師

Omlet Arcade 美商歐姆雷特
臺北市.台灣

獎勵 NT$20,000

評論