
新世代合成器!Meta 發布新開源 AI 工具 AudioCraft,輸入文字就能創作出音樂與音效

Facebook 母公司 Meta 近日發布了一個名為 AudioCraft 的新開源 AI 工具,AudioCraft 可以讓使用者依據文本提示創作聲音,由 3 個 AI 模型組成,一共有: MusicGen、AudioGen 以及 EnCodec 三種。
MusicGen 是專為「文本轉音樂」而設計,使用 Meta 擁有或獲得使用許可的音樂來進行訓練,訓練音樂時長約 2 萬小時;AudioGen 則可依據文本描述創造出一些聲音效果,例如狗叫、喇叭聲或者木地板上的腳步聲;EnCodec 解碼器則可以讓使用者創作出的聲音更真實,減少 AI 感的同時也能減少音損,製作更高品質的音樂。
AI 領域另一位競爭對手 Google 在今年 1 月發表自家的文字轉音樂 AI 模型 MusicLM,已在 5 月開放註冊使用,該公司上傳的部分作品中,聽起來的確非常像是由人類創作的真實歌曲。今年 6 月,Meta 首次開源自家文字轉音樂 AI MusicGen 時,被認為是瞄準 MusicLM 而來,其生成音樂的結果也與 MusicLM 相當。
「AI 生成音樂」已經在全球引發熱烈討論,包括先前藉由歌手 Drake 和 The Weeknd 聲音生成的 AI 歌曲《Heart on My Sleeve》在網路上爆紅,華語歌曲中也有「AI 孫燕姿」的例子,歌手陳珊妮甚至讓 AI 使用自己的聲音,創作出單曲作品,這些例子都已讓 AI 生成音樂一事走入大眾眼簾。
Meta 在部落格中指出,AudioCraft 可以讓專業音樂家探索並創作出新作品,而無須在樂器上一一彈奏,或是幫助預算有限的獨立遊戲商用逼真的音效、環境噪音去充實虛擬的遊戲世界,小企業主也可以輕鬆地把配樂放進他們的 Instagram 影片中。
該公司也坦承,要建立這種能製作音樂的 AI 模型相當困難,因為音檔通常包含數百萬個點,模型在這些點上執行動作,而相對來說 Llama 2 等文本模型僅包含數千個點。
此外,Meta 雖在 MusicGen 訓練數據中刪除了人聲,以避免複製到歌手的聲音,但該公司同時坦承, AudioCraft 有可能被拿來深偽一個人的聲音。
這些似乎都沒有阻止 Meta 對這類文字轉音樂的 AI 模型懷抱更偉大的願景,在部落格中,Meta 寫道,「透過更多的控制,我們認為 MusicGen 可以變成一種新型樂器,就像合成器(synthesizers)第一次出現那樣。」
下一首在網路上爆紅的流行歌曲,將是由 MusicGen 一類的 AI 工具所創作的嗎?
參考資料:The Verge、TechCrunch、Meta AI
核稿編輯:Chris
加入 INSIDE 會員,獨享 INSIDE 最精采每日趨勢電子報,未來還有會員專屬內容。 點擊立刻成為會員!
延伸閱讀:
最新發展: