AI大佬放大招:Stability AI正式推出音頻生成工具Stable Audio

來(lái)源:GameLook
作者:GameLook
時(shí)間:2023-09-16
2181
繼推出文生圖模型Stable Diffusion后,AIGC領(lǐng)域的明星初創(chuàng)公司Stability AI在近日推出了全新產(chǎn)品Stable Audio,入局了音頻生成賽道。

640.jpg

繼推出文生圖模型Stable Diffusion后,AIGC領(lǐng)域的明星初創(chuàng)公司Stability AI在近日推出了全新產(chǎn)品Stable Audio,入局了音頻生成賽道。

Stable Audio由Stability AI內(nèi)部的聲音實(shí)驗(yàn)室Harmonai研發(fā),采用了與Stable Diffusion類似的擴(kuò)散模型技術(shù)。據(jù)了解,此次Stable Audio訓(xùn)練所采用的數(shù)據(jù)集授權(quán)自合作伙伴AudioSparx,包含時(shí)長(zhǎng)19500小時(shí)的80萬(wàn)條音頻文件。

GameLook此前曾報(bào)道過(guò)一眾AI音頻生成產(chǎn)品。如谷歌的開(kāi)源模型MusicLM、AIVA、基于機(jī)器學(xué)習(xí)的Mubert等,Meta也在今年8月開(kāi)源了音頻生成模型AudioCraft。

與Stable Diffusion一樣,該產(chǎn)品同樣采用自然語(yǔ)言生成模式,用戶可以輸入一系列詞語(yǔ),對(duì)音樂(lè)的流派、速度、配器、情緒甚至應(yīng)用場(chǎng)景進(jìn)行指定。如用戶可以輸入“迪斯科,合成器,鼓機(jī),120BPM,器樂(lè),鋼琴,吉他”。

從試聽(tīng)效果來(lái)看,相較于競(jìng)爭(zhēng)對(duì)手,Stable Audio在聲音品質(zhì)上有著較為長(zhǎng)足的進(jìn)步,較少出現(xiàn)AI生成音頻中常有的嘈雜感、壓縮感。但與人工創(chuàng)作的音樂(lè)相比,在音樂(lè)的配器上仍顯得有些雜亂。

Stability AI并未在官方頁(yè)面中指明Stable Audio可生成的音樂(lè)流派,不過(guò)從GameLook的試聽(tīng)感受上來(lái)看,該產(chǎn)品在EDM、氛圍音樂(lè)、Disco等電子音樂(lè)上表現(xiàn)更好,而在爵士、搖滾等注重器樂(lè)的音樂(lè)上較為薄弱。

在商業(yè)化上,Stability AI開(kāi)啟了與Midjourney類似的包月訂閱模式,推出了付費(fèi)與免費(fèi)兩個(gè)檔位。免費(fèi)檔允許用戶每月生成20條音頻,持續(xù)時(shí)長(zhǎng)45秒,且不可商用;定價(jià)11.99美元的檔位則允許用戶每月生成500條最高90秒音頻文件,并可用于商業(yè)項(xiàng)目。

640 (1).jpg

Stability AI此次并未對(duì)Stable Audio模型進(jìn)行開(kāi)源,這與該公司一貫擁抱開(kāi)源社區(qū)的作風(fēng)不一致,一些觀察者猜測(cè)或是與訓(xùn)練集的授權(quán)協(xié)議有關(guān)。不過(guò)Stablity AI承諾,Harmonai將在未來(lái)開(kāi)源另一款使用不同數(shù)據(jù)訓(xùn)練的模型,將基于Stable Audio的代碼,允許用戶自行訓(xùn)練音頻模型。

而Stability AI同時(shí)還表示,該公司對(duì)音頻訓(xùn)練的方式進(jìn)行了改進(jìn):“音頻擴(kuò)散模型往往在較長(zhǎng)的音頻文件中截取區(qū)塊并進(jìn)行訓(xùn)練,以適應(yīng)擴(kuò)散模型的訓(xùn)練時(shí)長(zhǎng)。”這種訓(xùn)練方法或?qū)е律傻囊魳?lè)缺頭去尾。而Stable Audio在訓(xùn)練時(shí)參照了音頻的文字元數(shù)據(jù),持續(xù)時(shí)長(zhǎng)和開(kāi)始時(shí)間,因此可以該產(chǎn)品可以對(duì)任意時(shí)間的音頻進(jìn)行生成。

Stability AI在聲明中表示:“Stable Audio代表著Stability AI對(duì)音頻生成研究的前沿水平。我們將持續(xù)對(duì)模型架構(gòu),數(shù)據(jù)集和訓(xùn)練方式進(jìn)行迭代,提升輸出的品質(zhì)、可操控性、輸出速度與輸出時(shí)長(zhǎng)?!?/p>

隨著Stablity AI的入局,AI音頻生成的賽道再加一員干將。隨著游戲開(kāi)發(fā)規(guī)格不斷提升,廠商對(duì)游戲配樂(lè)的要求也在隨之上漲。在游戲界推進(jìn)AIGC應(yīng)用的如今,AI音頻生成或許也將成為一個(gè)重要的發(fā)展方向。

不過(guò),在GameLook看來(lái),AI音頻生成技術(shù)在游戲界的地位有些尷尬。最顯著的原因是,大部分游戲廠商對(duì)游戲音頻的重視程度仍然不足。即便是一線大廠,對(duì)音頻部門投入的預(yù)算至多不過(guò)千萬(wàn)元人民幣。相較于動(dòng)輒數(shù)百人的美術(shù)團(tuán)隊(duì),大部分廠商的音頻團(tuán)隊(duì)僅有個(gè)位數(shù)成員,乃至于完全采用外包模式。

在產(chǎn)值有限的情況下,AIGC能帶來(lái)的降本效果并不突出,大廠投入研發(fā)資源的意愿也會(huì)相應(yīng)受限,市場(chǎng)規(guī)模也難以撐起面向游戲開(kāi)發(fā)場(chǎng)景專門研發(fā)的第三方AI產(chǎn)品。

此外,AIGC產(chǎn)品還要與高度成熟的商業(yè)音效庫(kù)、音樂(lè)庫(kù)以及較為廉價(jià)高效的音頻外包相競(jìng)爭(zhēng)。而在高規(guī)格產(chǎn)品這片日益重要的市場(chǎng),越來(lái)越多頭部廠商開(kāi)始投資自建內(nèi)部的配樂(lè)團(tuán)隊(duì),而AIGC又難以從品質(zhì)上與高規(guī)格的商業(yè)作曲團(tuán)隊(duì)相匹敵。

而或許,隨著生成模型的不斷迭代,未來(lái)AI生成的音樂(lè)內(nèi)容將在品質(zhì)和可用性上有著較大的提升,乃至于真正實(shí)現(xiàn)足不出戶打造大師級(jí)配樂(lè)。從AI文生圖產(chǎn)品的發(fā)展歷程上來(lái)看,如果能夠借助開(kāi)源社區(qū)的廣泛力量持續(xù)迭代,達(dá)成這樣的效果并非天方夜譚。而屆時(shí),游戲界也必然會(huì)主動(dòng)擁抱AI音頻產(chǎn)品。

AI
原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:GameLook
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于GameLook,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家