Stability AI發(fā)布AI音樂(lè)生成工具Stable Audio

由微新創(chuàng)想 · 2023年 9月 16日

要點(diǎn):

位于倫敦的初創(chuàng)公司Stability AI推出了Stable Audio，這是一個(gè)使用人工智能從簡(jiǎn)單的文本輸入生成自定義音樂(lè)曲目和音效的工具，具備在較長(zhǎng)時(shí)間內(nèi)生成專(zhuān)業(yè)音頻的能力。

Stable Audio的優(yōu)勢(shì)在于其能夠以多種流派生成音樂(lè)作品，提供用戶(hù)友好的基于瀏覽器的界面，面向需要快速背景音樂(lè)的創(chuàng)意專(zhuān)業(yè)人士。

該系統(tǒng)在由AudioSparx提供的大型音樂(lè)庫(kù)上進(jìn)行了訓(xùn)練，而在訓(xùn)練中使用的歌曲的創(chuàng)作者則通過(guò)AudioSparx分享了Stable Audio的利潤(rùn)，盡管仍存在有關(guān)潛在內(nèi)容抄襲和版權(quán)問(wèn)題的擔(dān)憂(yōu)。

微新創(chuàng)想（idea2003.com）9月14日消息:總部位于倫敦的初創(chuàng)公司 Stability AI 于周三推出了一款名為 Stable Audio 的新產(chǎn)品，該產(chǎn)品利用人工智能生成定制音樂(lè)曲目和音效。

Stable Audio 使用一種基于擴(kuò)散的 AI 模型，可以在幾秒鐘內(nèi)從簡(jiǎn)單的文本輸入生成定制音頻文件。用戶(hù)可以指定音樂(lè)風(fēng)格、樂(lè)器、音調(diào)和其他特征，系統(tǒng)然后自動(dòng)創(chuàng)作出相匹配的歌曲、音效或樂(lè)器聲部。

Stability AI 使用輸入文本進(jìn)行了測(cè)試，如“后搖滾、吉他、鼓套、低音、弦樂(lè)、歡快、振奮、情緒化、流暢、原始、史詩(shī)、多愁善感、125BPM”。結(jié)果是一首快速的大氣搖滾歌曲，BPM 為125。根據(jù) Stability 的說(shuō)法，這表明 Stable Audio 可以生成多種風(fēng)格的歌曲，包括氛圍音樂(lè)、技術(shù)音樂(lè)和電子舞曲。

與以往基于人工智能的音樂(lè)生成器不同，Stable Audio 似乎能夠以長(zhǎng)達(dá)90秒的時(shí)間生成音樂(lè)上連貫的作品，并且以44.1kHz 的專(zhuān)業(yè)音頻質(zhì)量。

生成的樣本音頻聽(tīng)起來(lái)非常真實(shí)，幾乎不會(huì)讓人懷疑背后沒(méi)有人類(lèi)作曲家。根據(jù) Stability AI 的說(shuō)法，使用 Nvidia A100GPU，95秒音頻可以在不到一秒鐘內(nèi)生成。

這種技術(shù)有潛力在各種應(yīng)用中發(fā)揮作用，特別是在電影制作和游戲開(kāi)發(fā)等創(chuàng)意領(lǐng)域。通過(guò)網(wǎng)絡(luò)瀏覽器可以訪(fǎng)問(wèn)，即使對(duì)人工智能不熟悉的用戶(hù)也能輕松使用。

為了實(shí)現(xiàn)這種質(zhì)量，Stability AI 對(duì)音樂(lè)庫(kù)進(jìn)行了培訓(xùn)，音樂(lè)庫(kù)由 AudioSparx 提供。通過(guò)使用約80萬(wàn)首歌曲、音效和樂(lè)器片段，AudioSparx 與 Stability AI 合作，并承諾將音樂(lè)庫(kù)的收入份額提供給初創(chuàng)公司 Stability Audio。作為回報(bào)，參與培訓(xùn)的歌曲的創(chuàng)作者可以通過(guò) AudioSparx 分享 Stable Audio 的利潤(rùn)。

據(jù)稱(chēng)，在培訓(xùn)之前，這些創(chuàng)作人被問(wèn)及是否愿意提供他們的歌曲。這個(gè)決定可能是對(duì) Stability 在 Stable Diffusion 的培訓(xùn)素材涉及版權(quán)辯論中所面臨的大規(guī)模反對(duì)的回應(yīng)。

根據(jù) Stability AI 的說(shuō)法，用戶(hù)可以免費(fèi)將使用 Stable Audio 創(chuàng)建的音軌用于個(gè)人用途。商業(yè)用途需要付費(fèi)訂閱。該公司的目標(biāo)是創(chuàng)意專(zhuān)業(yè)人士，如電影制片人或游戲開(kāi)發(fā)人員，他們需要快速獲得合適的背景音樂(lè)。

Stability AI 還計(jì)劃發(fā)布一個(gè)基于不同數(shù)據(jù)集訓(xùn)練的開(kāi)源音樂(lè)模型。

Stable Audio 不同于 Stable Diffusion，因?yàn)樗皇情_(kāi)源的，不像流行的圖像模型那樣。然而，F(xiàn)AQ 中表示，將很快發(fā)布一個(gè)基于其他數(shù)據(jù)集訓(xùn)練的開(kāi)源模型。

Stable Audio 的基礎(chǔ)是文本到音樂(lè)的模型 Dance Diffusion，該模型是在2022年由 Harmonai 發(fā)布的，并得到了 Stability 的支持。然而，Stable Audio 是 Stability AI 音頻部門(mén)從零開(kāi)始開(kāi)發(fā)的模型，該部門(mén)成立于2022年4月。

對(duì)音樂(lè)使用擴(kuò)散模型并不是一個(gè)新的想法。然而，Stable Audio 的強(qiáng)大之處在于它能夠以不同長(zhǎng)度生成作品，訓(xùn)練過(guò)程中考慮到了這一點(diǎn)。

Stability AI 是這樣解釋底層技術(shù)的:

Stable Audio 是一個(gè)潛在擴(kuò)散模型，由幾個(gè)部分組成:變分自動(dòng)編碼器（VAE）、文本編碼器和基于 U-net 的擴(kuò)散模型。
VAE 將立體聲音頻壓縮為有損、抗噪聲和可逆的潛在編碼，從而實(shí)現(xiàn)更快的生成和訓(xùn)練。
新訓(xùn)練的 CLAP 模型的凍結(jié)文本編碼器用于文本提示。
定時(shí)嵌入在訓(xùn)練期間計(jì)算并用于控制輸出音頻長(zhǎng)度。
Stable Audio 的擴(kuò)散模型是基于 Mo?sai 模型的9.07億參數(shù) U 網(wǎng)。

您可以通過(guò)最近推出的網(wǎng)絡(luò)界面專(zhuān)門(mén)使用穩(wěn)定音頻。每月有20首時(shí)長(zhǎng)不超過(guò)45秒的歌曲免費(fèi)供個(gè)人使用。每月只需11.99美元，即可獲得500首歌曲，播放時(shí)間長(zhǎng)達(dá)90秒，并獲得商業(yè)許可。

沒(méi)有內(nèi)容過(guò)濾器很容易導(dǎo)致抄襲

該工具還可以用來(lái)偽造流行藝術(shù)家的歌曲。到目前為止，唱片公司已經(jīng)能夠成功地對(duì)抗此類(lèi)人工智能創(chuàng)作，但法律狀況仍不清楚。

Stability AI 本身在接受 Techcrunch 采訪(fǎng)時(shí)堅(jiān)稱(chēng)，它希望負(fù)責(zé)任地使用該技術(shù)。AudioSparx 的數(shù)據(jù)庫(kù)不包含流行歌曲，但許多歌曲都以知名藝術(shù)家的風(fēng)格進(jìn)行標(biāo)記。與谷歌的 MusicLM不同，著名藝術(shù)家的名字不會(huì)被屏蔽，至少目前還沒(méi)有。

Stable Audio 能否為 Stability AI 的商業(yè)模式帶來(lái)回報(bào)還有待觀(guān)察，該商業(yè)模式迄今為止一直處于虧損狀態(tài)。無(wú)論如何，人工智能作品的令人印象深刻的質(zhì)量讓你刮目相看。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Stability AI發(fā)布AI音樂(lè)生成工具Stable Audio

您可能還喜歡...

發(fā)表回復(fù) 取消回復(fù)

熱門(mén)文章

熱門(mén)文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Stability AI發(fā)布AI音樂(lè)生成工具Stable Audio

您可能還喜歡...

《賽博朋克2077》使用人工智能替代已故配音演員

富士通推出新技術(shù)保護(hù)對(duì)話(huà)型AI免受幻覺(jué)和對(duì)抗性攻擊

常溫超導(dǎo)這個(gè)“流量密碼”

發(fā)表回復(fù) 取消回復(fù)

熱門(mén)文章

熱門(mén)文章