Meta音頻AI三件套爆火:一句話生成流行音樂&音效,還能高保真壓縮音頻|開源
聲明:本文來自于微信公眾號 量子位 (ID:QbitAI),作者:魚羊 栗子 ,授權微新創想轉載發布。
Meta突然放大招,直接給一系列音頻AI模型搞了個“全家桶”。
從文本生成音樂、文本生成音效、到高質量音頻壓縮,音頻編輯和音頻生成的AI工具全都有,命名為AudioCraft。
AudioCraft中的所有模型,全部開源。
無論是生成流行音樂:
文本提示詞:流行舞曲,旋律朗朗上口,熱帶打擊樂和歡快的節奏,量子位,30秒
還是生成音效:
文本提示詞:吹著風吹口哨,量子位,5秒
現在都只需要一句文本就能搞定。
值得一提的是,Meta刻意強調自己所有AI的訓練數據都是經過授權、或是從公開渠道獲取的。
有網友聞訊趕來嘗試:
這太瘋狂了,剛剛試了一下,生成的聲音效果真不錯!
還有網友調侃,Meta這是要與OpenAI“劃界限”:
很明顯,Meta試圖將自己與OpenAI區分開來,“我們不使用沒授權的數據”。
所以,這個音頻AI“全家桶”里有些啥,實際生成編輯效果又如何?
從生成到編輯,音頻AI三件套
AudioCraft是一個音頻AI開源庫,目前包含MusicGen,AudioGen和EnCodec三個音頻AI工具。
據Meta介紹,為了發布AudioCraft,他們這兩天還特意更新了一版EnCodec模型,讓它的輸出質量更高。
具體來說,這三個模型分別用于文本生成音樂、文本生成音效和音頻壓縮:
-
MusicGen:基于文本輸入生成音樂,使用Meta擁有和專門授權的音樂進行訓練
-
AudioGen:基于文本輸入生成音效(雨點聲、狗吠、警笛等),使用公共音效訓練
-
EnCodec:壓縮音頻,以較低的音損保持音頻的高質量
首先是AudioGen,這是一個自回歸生成模型。
AudioGen基于10個公開的音效數據集訓練,里面包括狗吠、汽車鳴喇叭或木地板的腳步聲等各種音效。
然后是MusicGen模型,一共包含300M、1.5B、3.3B三個不同參數量的自回歸Transformer。
MusicGen使用了20000小時的音樂來訓練,包含10000條內部搜集的高質量音軌,以及ShutterStock和Pond5素材庫中的數據,后兩者的數據量分別為2.5萬和36.5萬。
這些音樂數據在32kHz下被重新采樣,都配有流派、BPM等基本信息和復雜一些的文字說明。
最后是EnCodec神經音頻編解碼器(neural audio codec)。
編碼器能從要壓縮的音頻信號中學習離散的音頻token;隨后,基于一個自回歸語言模型,將音頻信號壓縮到目標大小;最后,基于解碼器,就能將壓縮的信號高保真重建回音頻。
基于這種壓縮效果,音頻能被壓縮到比MP3格式還要小10倍。
可直接上手試玩
目前這幾個模型都已經開源,框架都是基于PyTorch打造。
包括MusicGen、AudioGen和EnCodec的論文細節,可以在GitHub項目中找到:
不過,訓練代碼并非全部開源,目前可以看到只有EnCodec、MusicGEN和Multi Band Diffusion是開源的:
其中MusicGEN還開啟了Demo試玩,我們之前也測試過:
不過對于AudioCraft的發布,網友們的評價也是褒貶不一。
有網友覺得,這樣音頻生成就變得更加大眾化了,所有人都可以上手嘗試:
但也有網友認為,這勢必導致人類連音頻的真假都區分不清:
10年后,說不定我們就分辨不清過去的聲音、圖片、視頻了。
One More Thing
最近,音頻生成AI確實很火,就連效果都卷起來了。
這兩天,一個論文和代碼都還在準備的模型AudioLDM2,剛放出demo就已經在網上傳開了來:
作者Haohe Liu表示,這個模型在生成音效、音樂和可理解語音三個領域中均達到了SOTA。
從它實際生成效果來看,確實不錯,感興趣的小伙伴們,可以蹲一波后續了~
MusicGEN試玩地址:
https://huggingface.co/spaces/facebook/MusicGen
參考鏈接:
[1]https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/
[2]https://github.com/facebookresearch/audiocraft
[3]https://twitter.com/LiuHaohe/status/1686782804518973440
[4]https://news.ycombinator.com/item?id=36972347