新的 AI 「騙」術!用聲音就可偽造出嘴形ㄧ致的影片

評論
評論

PS 的使用讓圖片可以以假亂真,人像去背重置到另一個場所的「騙術」層出不窮,不過你能想像在未來只要用聲音就可以做出偽造的影片嗎? 最近華盛頓大學的研究人員開發了一項新工具,透過新的機器學習演算法,可以將音檔轉換成口型一致的影片。如下方影片,左邊為音檔,右邊是透過人工智慧將聲音轉換為歐巴馬口型所生成的影片,雖然似乎有那麼一點對不上,不過整體來說已經相當的逼真!

 

影片來源:UW (University of Washington)

事實上,使用 AI 偽造的概念在之前就有類似的工具,像是 Twitter 機器人 Smile vector ,可以將明星藝人的照片做成微笑的動圖。Adobe 的 Project VoCo 可像 Photoshop 編輯圖片的方式對影片中的對話和發音進行編輯。

在過去,類似的技術所使用的概念為錄製多個人反覆說同一句話的影片,再收集聲音與不同口型之間的相關性。 不過此技術十分耗時,成本也非常昂貴。而在這次研究他們轉換了技術,所使用的技術不只是將音檔提供給神經網路,同時也提供影片進行訓練。

團隊表示,使用歐巴馬作為測試的原因在於,歐巴馬的高畫質影片素材豐富,可讓神經網路訓練更加容易,研究人員 Ira Kemelmacher 表示這次大約需要 17 個小時的鏡頭來追蹤並複製嘴形動作,但在未來這個訓練的時長可降為 1 小時。

他們希望在未來可將此技術應用來改善像是 Skype 視訊聊天工具,使用者可以收集自己的音檔用來訓練軟體。由於透過網路傳輸音檔所需頻寬遠低於視訊,因此,在網路不穩又需要與對方視訊對談時,就能自動使用自己的聲音生成視訊,同時也可以解決斷網後造成影片遺失而無法存取的問題。

然而這樣的工具,讓人擔心未來在影片上更容易產生造假的問題,不過研究團隊表示,他們對於這樣的問題也會十分謹慎,因此在未來他們也將開發可以辨別視訊真偽的工具!

評論