狂新聞要變聲了?谷歌新技術 Tacotron 2,機器語調超自然,與人無異

評論
評論

 

本文獲合作媒體 MoneyDJ 新聞 授權轉載,記者 陳苓 報導。

谷歌人工智慧 (AI) 技術再進化,該公司宣布能讓機器人說話語調不再生硬,聽來和人類難辨真假。

PhoneArena、Quartz、每日郵報報導,谷歌部落格宣稱 (見此 ),開發出第二代文字轉語音系統「Tacotron 2」,能讓機器說話聲音沒有怪異、不自然之處,聽來幾乎和人類一模一樣。機器會依據語意學決定正確發音,文章略有拼寫錯誤、也能順利讀出,而且就連繞口令都難不倒。

谷歌人員表示,外界認為 Tacotron 2 表現類似專業人員。民眾給 Tacotron 2 的平均意見分數 (Mean Opinion Score) 是 4.53 分,只略低於專業人員錄製聲音的 4.58 分。

Tacotron 2 包括兩個深度類神經網路 (見圖),第一個網路會把文字轉成聲譜圖,用圖像表達音頻,接著把聲譜圖輸入 WaveNet 系統中,機器會照圖發出相應聲音。(Tacotron 2 與人類聲音對照點此)

不過谷歌表示,Tacotron 2 仍有許多地方需要改進,包括無法讀出部分難字,無法即時合成音頻;機器聲音沒有情緒,不能傳達快樂或悲傷的感覺。

儘管如此,此一技術仍大有可為,目前谷歌虛擬語音助理已用 WaveNet 技術發聲,若能進一步採用 Tacotron 2,可讓谷歌助理如虎添翼。

CNBC、每日郵報、英國金融時報 2016 年 9 月報導,谷歌母公司 Alphabet 旗下的 DeepMind 研發出新技術,能讓電腦合成語音和人類聲音的差距減少一半。DeepMind 表示,長久以來,人機互動的夢想就是讓人類能和機器對話。

當前的語音合成技術錄製人們實際說話的聲音,存放在資料庫,需要時把字句打散重組,合成為完整句子,此種方式生成的語音聽起來生硬不自然,也缺乏感情。

DeepMind 的「WaveNet」技術,能分析原始聲波,使用類神經網路 (Neural Network) 加以修正。此種技術需要龐大的運算能力,每秒要 1.6 萬個範本才能轉成數據、合成為語音。DeepMind 表示,WaveNet 生成的中英文,聽起來比谷歌現行技術自然許多。(全文見此 )

評論