

過去語音複製(voice clones)技術成本較高,得將錄音轉成聲音模組,再合成完整單字;但現在受惠於機器學習大幅進展,只要錄製一段聲音就能直接進行語音複製、合成了!
機器學習進展,降低語音複製門檻
根據 The Verge 報導,以前語音複製或合成技術如果要聽起來夠逼真,得先錄下人類聲音,再把他們的聲音分類成一個個的語音模組;之後播放時,就再把語音模組組合成一個個完整的單字,這樣聽起來比較真實。
不過,得益於機器學習的進步,現在的神經網路(neural networks)技術已經做到——能針對未分類的語音數據直接進行訓練,並合成一個人說話的聲音。
換句話說,現在你只要對著麥克風朗誦一段文字約 30 分鐘,再把錄製的語音檔案上傳處理,只要幾小時後,你的「聲音副本」(a copy of your voice)就完成了。之後,就可以在對話框裡直接輸入想說的文字,系統會自動產出用你聲音講出來、足以騙過親友的語音。
儘管目前技術還不夠完美,仍需要進行一些手動調整,但隨著技術改進,未來勢必會愈來愈逼真。
舉例來說,知名 Podcast 編輯軟體 Descript 就內建語音複製技術,這樣節目製作人就能在編輯時快速修改主持人的語音內容,例如:刪掉一句話中的幾個字,或是直接輸入某個單字,並用主持人的聲音講出來。
「找回」聲音受損者的嗓音
不過,先前這些語音複製或合成技術都還被當作只是新奇、好玩之事,但現在則可用於嚴肅的醫療領域。
曾演出蝙蝠俠的好萊塢知名演員 Val Kilmer,在 2014 年罹患喉癌後,逐漸淡出影壇,聲音也因而受損,甚至曾說:「旁人已經很難理解我在說什麼了。」
來自英國的語音技術新創公司 Sonantic 則為他客製化複製語音,並在今年七月坎城影展播出的紀錄片《Val》「重新找回」Val Kilmer 的嗓音。
即使聲音沒有受損,對擁有高知名度的公眾人士來說,語音複製、合成技術也能為他們「開拓財源」。例如,他們可以授權讓自己的聲音用在特定廣告代言上,擴大自己的生財範圍。
但對普羅大眾來說,語音複製、合成技術有什麼功用?外媒推測,未來或許會有親子語音應用程式問世,讓父母可以快速複製自己的聲音,這樣即使暫時無法陪在孩子身邊時,也能用爸媽聲音來為孩子念床邊故事。
然而,語音複製、合成技術屬於深偽(Deepfake)一環,而任何新技術都是雙面刃,只要查詢一下深偽技術相關詐欺事件,就不難想像語音複製、合成技術一旦普及,未來也會遇到更多這類挑戰。
核稿編輯:Anny
延伸閱讀:
- Deepfake 應用新例!新創團隊打造聊天機器人,讓愛因斯坦「原音」重現
- Deepfake 讓假資訊更嚴峻,美學術界:從兒童到 99 歲都得重視!
- Nvidia 新 AI 語音合成技術,揮別 Google 小姐實現真人聲發音