亞馬遜 Alexa 又有新技能!新一代 AI 語音技術實現主播聲音幫你報新聞

評論
評論

先前亞馬遜自家智慧語音助理 Alexa 開發出新的 耳語模式 ,讓用戶深夜能輕聲細語和 Alexa 交談給予指令,透過神經網路的訓練突破語音助理在低頻低能量下的感應能力。近日,Alexa 的新技能是實現主播的播報聲音。

新一代 AI 語音技術 超擬真背後真相?

隨著越來越多功能被實現,語音助理正朝向更人性化的面向發展,去年 10 月,Google Assistant 利用 DeepMind「WaveNet」技術 ,透過分析原始聲波並用類神經網路 (Neural Network) 修正,實現更人性化的助理。

而這次 Alexa 背後使用的技術稱為「神經文字轉語音」(neural text-to-speech)技術,亞馬遜表示新的語音風格是由自家開發的「神經文字轉語音」(neural text-to-speech)技術簡稱 NTTS,透過機器學習更快地產生更加生動的聲音,是新一代的語音合成方法。

至於主播說話的聲音來自於現實生活中新聞頻道的錄音音頻片段,藉由機器學習技術辨識並模仿,使機器可以像主播一樣讀新聞,更驚人的是 Alexa 竟然只花了幾個小時來訓練 Alexa 的新聞主播的聲音。

亞馬遜的 AI 語音負責人 Trevor Wood 表示,這種方法更容易捕捉真人講話時的細節。雖然這其中微小的差異很難用語言描述,但很顯然使用 AI 技術,透過數據驅動,可以比人更有效捕捉和模擬這些聲音細節。

以下是過去語音合成技術到 NTTS 技術以及真人主播的聲音,很顯然新技術所呈現出來的語句更自然,抑揚頓挫也更為明顯,讓整體語音效果貼近真人主播。

過去語音合成技術:

Alexa 新的 NTTS 技術:

真人主播:

 

語音合成的突破

過去 Alexa 所使用的語音到底是怎麽產生的呢?事實上,Alexa 目前所使用的拼接語音合成技術(concatenative speech synthesis)已經使用數十年。背後是將語音樣本分解成不同的聲音,也就是音素,然後再將音素拼湊在一起以形成新的單字和句子。

雖然根據 路透社先前針對語音助理所做的報告 中說明用戶習慣使用語音助理仍在主動性的功能像是搜尋、和啟動設備,播報新聞場景在當今使用場景中所佔還是少數,Alexa 實現主播的聲音在短時間內對用戶來說可能不會有太明顯的感受,但是在 AI 應用上仍是一項嶄新的嘗試,說不準未來亞馬遜還會開發出更多系列的人聲風格。

延伸閱讀:

相關文章

評論