Google 雲端機器學習推出最新「文字轉語音 API」 ,還升級讓聲音更接近人類!

使用者可以將此服務運用在不同的情境,像是為電話語音服務中心提供語音回應系統,即時自然語言對話功能與物聯網設備進行對話,也可將文字格式的新聞文章、書籍轉為口語形式 Podcast、有聲書,還可以自己調整音調、語速和音量!
評論
評論

 

Google 雲端人工智慧提供多元機器學習服務,先前開發出雲端視覺 API、雲端影音智慧 API、和雲端語音辨識等,讓企業用戶能依自身需求的量身訂製大規模深度學習模型系統的平台,以現代機器學習服務為解決方案,Google 本週於 官方部落格 宣布推出最新文字轉語音 API,結合
WaveNet,支援 12 種語言並可轉換為 32 種自然語言,將文字轉化成為真實的語音,有效幫助物聯網設備語音助理的開發,同時公布新一代的 WaveNet 模型可以製作出更自然的語音訊息。

先前許多 Google 產品,Google Assistant、Google 搜尋、Google 地圖,都內建了高品質的 Text-to-Speech 服務,可以產生如人聲般自然的發音,Google 在收到許多開發者的意見,決定將 Text-to-Speech 的服務結合到他們的應用程式中,因此將這項 Cloud Text-to-Speech 技術加入 Google 雲端平台中。

使用者可以將 Cloud Text-to-Speech 服務運用在不同的情境,舉例來說,為電話語音服務中心提供語音回應系統,並啟用即時自然語言對話功能與物聯網設備,如電視、汽車、機器人等進行對話,也 可將文字格式的媒體內容 (如新聞文章、書籍) 轉為口語形式 (如 Podcast、有聲書),即使是複雜的文字內容,例如姓名、日期、時間、地址等,Cloud Text-to-Speech 服務也可以發出準確道地的發音,使用者也可以自己調整音調、語速和音量。

另外,Google 也升級 WaveNet 模型,新版所生成的原始音頻波形比原本的模型快了 1,000 倍,而且只需 50 毫秒即可生成一秒鐘的語音訊息,這個新模型不僅更快速而且具有高保真度,且每秒能創造出 24,000 個音頻波形的樣本。為了製作出更好、更擬真的音質,我們也將每個樣本的解析度從 8 位元提高到 16 位元。

新的 WaveNet 模型可以製作出更自然的語音訊息。根據 Google 所公布數據在測試過程中,使用者在 1 到 5 級的平均意見分數,給予新版美式英文 WaveNet 語音 4.1 的高分,其中有超過 20% 的人認為比標準的人聲更好,而超過 70% 的人肯定它能降低人類語言的隔閡。由於 WaveNet 音訊僅需較少錄製音頻,就能製作出高音質模型,因此在未來幾個月內,將持續改善 WaveNet 音訊的多樣性與品質提供給雲端客戶使用。