Google AI 翻譯新突破!保留原聲同步語音翻譯

Google AI 全新「Translatotron」系統,讓語音到語音之間能不依賴於中間文字轉譯,直接完成翻譯,甚至能保留說話者原聲!
評論
評論

上週在 I / O 開發者大會上,Google 分享機器學習透過神經網路和語意理解模型如何縮短智慧型手機使用流程,像是 Google 智慧助理的速度提高 10 倍、Google Lens 的即時翻譯,可以透過 AI 鏡頭翻譯 100 多種語言,更在今日於官方部落格上發表了突破性的保留原聲同步語音翻譯。

過去十年間蓬勃發展的語音翻譯系統提高跨國交流,各家廠商相繼推出翻譯棒、翻譯蒟蒻,一般來說,機器翻譯需要經過三個步驟才能完成,首先,要透過語音辨識將語音轉化成文字;再者,將文字翻譯成目標語言文字;最後,用目標語言文字產生目標語言語音,才能完成即時語音翻譯流程。這項技術為許多商業語音翻譯產品提供支援。

為了提高翻譯速度與正確率,Google 提出實驗性新系統「Translatotron」,讓語音到語音之間能不依賴於中間文字轉譯,直接完成翻譯。

根據 Google 技術說明,為了使「Translatotron」能夠進行端點到端點的翻譯,研究員使用 seq2seq 模型和頻譜圖作為輸入數據的訓練。藉由麥克風編碼器搜集說話者聲音,透過多任務學習預測音源或目標說話者使用的單字。

「Translatotron」系統提供比傳統的語音翻譯系統更多優勢,像是:更快的推理速度,避免了辨識和翻譯之間的錯誤,翻譯後要保留原始說話者的聲音也變得更簡單,甚至也會處理不需要翻譯的單字(例如,名字和專有名詞)。

「Translatotron」翻譯系統架構

從測量機器翻譯品質的 BLEU 分數發現「Translatotron」的分數雖然低於傳統的語音翻譯系統,但「Translatotron」 確實達到整體更精準的翻譯。

研究員表示,Translatotron 是首組能保留原說話者的聲音,將語言從語音直接翻譯成另一種語音的點到點模型。希望將此實驗系統作為未來點到點語音轉語音翻譯系統研究的起點。

核稿編輯:Mia

延伸閱讀:



台灣創新技術博覽會登場!資策會展 AIoT 技術 帶動產業轉型升級

「窄頻物聯網 NB-IoT 全功能自主平台」即日起至 10 月 23 日在台灣創新技術博覽會線上展出,一睹資策會智慧系統研究所團隊最新的 5G 創新能量。
評論
Photo Credit:資策會
評論

疫情加速數位服務發展,由經濟部、科技部等十大部會共同主辦的 2021 年台灣創新技術博覽會(TIE)首度舉辦線上展覽,致力發展台灣資通訊的財團法人資訊工業策進會(資策會)此次展出「窄頻物聯網 NB-IoT 全功能自主平台」,具備低成本與快速部署優勢,提供網路基礎建設之佈建便捷性。

近年台灣重視 5G 發展,除了一般民眾認知的網路品質提升外,也著眼於基礎建設、技術實證及產業轉型,而經濟部技術處為讓國內迸發更多創新能量,透過多元的補助形式,支持資策會智慧系統研究所(系統所)團隊研發 5G 前導技術「窄頻物聯網 NB-IoT 全功能自主平台」,有助於改善物聯網訊號覆蓋不足的問題,同時利於發展專網應用,亦可作為 5G 衛星物聯網基地台使用,無論是郊區、海洋還是沙漠,創造不受地域限制的物聯網應用。

「窄頻物聯網 NB-IoT 全功能自主平台」即日起至 10 月 23 日在台灣創新技術博覽會線上展出,現場也規劃了「發明競賽區」及「三大主題館」、網紅開箱直播等活動,有興趣的民眾也可至台灣創新技術博覽會官網查詢。

圖說/資策會「窄頻物聯網 NB-IoT全功能自主平台」基站設備線上展區示意圖。Photo Credit:資策會