2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

前言

在近兩年的生成式人工智能浪潮中,圖片和視頻領域已經取得了許多進展,音樂領域則大約是今年 3 月才開始嶄露頭角。在這半年間,也產生了許多技術和產品迭代以及應用案例。

結合我的個人實踐、產品體驗和用戶調研,我總結了 AI 音樂生成在哪些應用場景中發(fā)揮了價值?有哪些代表產品?哪些需求暫未滿足?我會按照 AI 音樂生成、AI 歌聲生成/轉換、AI 音效生成這三個方向來闡述對應的用戶場景和 AI 產品,希望對大家了解 AI 音樂目前進展及未來趨勢有所幫助。

本文為上篇,AI 音樂生成。

AI 音樂生成 - 總覽

目前 AI 音樂生成的主要方式是「提示詞+歌詞」,最具代表性的產品依然是 Suno 和 Udio,分別在 a16z 最新統(tǒng)計的生成式 AI 網頁端產品排名位居 Top5 和 Top33(基于月獨立訪問量),其中 Suno 更是在半年內上升了 31 個名次。目前 Suno 可以生成 4 分鐘的歌曲,Udio 則為 2 分鐘但中文發(fā)音還有待提高,近半年二者也豐富了一些可控性如上傳音頻作為生成參考以及支持片段修改。

此外,也有中文領域生成工具海綿音樂、豆包,以及其它賽道的產品如剪映、TikTok、Mubert、唱鴨、網易天音等,通過集成生成能力來豐富功能提升體驗。

我將 AI 音樂生成的實際應用歸納為 5 個場景,生成技術在音樂視頻和功能型音樂創(chuàng)作中正在發(fā)揮商業(yè)價值,社交娛樂和業(yè)余音樂創(chuàng)作場景未產生明確價值,專業(yè)創(chuàng)作領域尚待 AI 融合進工作流。

2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

一、音樂視頻

1. 做一支屬于你的 MV

AI 音樂生成的第一個應用場景是搭配 AI 圖片和視頻生成工具,制作音樂視頻(MV,Music Video),正在被用于商業(yè)營銷宣推,分享一個我的實踐案例。

今年 2 月春節(jié)期間,我正在圍繞“過年”這個項目主題,制作 AI 音樂視頻。與「背景音樂」不同之處在于,MV 里的歌曲具有獨立欣賞的價值,且歌曲和視頻畫面在節(jié)奏、內容、情感上相互呼應。我需要先找到合適的歌曲,再根據(jù)歌詞來制作對應的畫面。

我的期望是:歌詞描繪一個「過年」的故事,措辭風格是悠揚溫馨的中國風,內容易于我后續(xù)用畫面呈現(xiàn),歌曲時長 50s 左右。最初,我嘗試去音樂素材網站直接購買一首現(xiàn)有的歌曲,但沒有找到合適的,主要原因是曲庫歌曲的歌詞內容、歌曲風格和長度很難完全符合我的期望。

與其買一首不那么滿意的歌曲又硬著頭皮配畫面,不如從頭制作一首完全符合我要求的歌。可是我完全不懂音樂創(chuàng)作,于是利用 AI 生成音樂就成了救命稻草。當時(2 月份)我所能使用的只有 Suno,雖然那時它只發(fā)展到 V2 模型但也勉強夠用,同時通過訂閱會員,我也獲得了商業(yè)使用權。

隨后,我開始構想歌曲內容:

歌曲圍繞過年團圓的主題,講述一位打工喵回到家鄉(xiāng)、觸景生情閃回童年、時光流轉重聚當下的故事。

整體工作流:

  1. ChatGPT+Suno 來制作歌曲
  2. Stable Diffusion 制作分鏡圖片
  3. Runway+少量即夢和可靈 制作動畫
  4. 剪映里剪輯視頻,并添加音樂、音效、字幕等

① 歌詞

歌詞創(chuàng)作非常重要,它直接決定了我的故事內容和每個視頻畫面,由于 Suno 內置的歌詞生成功能不支持多輪對話修改,因此我借助了 ChatGPT 來生成歌詞。

在這個過程里,需要提供給 ChatGPT 以下信息:

  1. 歌詞結構 我的比較簡短,是“主歌-主歌-副歌”,且需帶上元標簽[verse1]、[verse2]、[chorus]
  2. 段落內容 比如我第一段主歌的情節(jié)是“回家”,涉及意向“車站”、“下雪”、“老城”等。
  3. 寫作風格 中國風,帶有古典意向,用詞簡潔工整 如果你有非常喜歡的某首歌的歌詞,也可以告訴 GPT 以此為參考。

歌詞生成后,再根據(jù)結果對于押韻、字數(shù)、措辭等方面不斷提供修改意見直到滿意為止。

2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

反復修改的辛酸史

最終確定下歌詞:

[verse]
站臺瑞雪靜落
燈火通明映歸途
老城炊煙輕繞
歲月流轉夢回初

[verse]
小橋流水聲細
童年歡笑隨風起
夜幕垂蒲扇輕
外婆故事月下聽

[chorus]
此刻家中
圍爐共話團圓
燈火搖曳
映照如初笑顏
旅途終點
也是新的起點

② 歌曲

歌詞確定了以后,就可以打開 Suno 制作歌曲了。打開頁面上方的「Custom」開關(即自定義歌詞、否則 suno 會隨機作詞)填入歌詞和「Style Of Music」(歌曲風格描述),我這個案例填的是「Chinese folk」(傳統(tǒng)中式歌曲)。

2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

「歌曲風格描述」不僅可以寫歌曲的流派和風格,還可以寫上節(jié)奏、樂器、人聲性別和音域以及情緒氛圍。歌詞里的「段落標簽」除了注明最基本的歌詞結構(intro、verse、chorus),也可以寫上情緒、樂器、語氣詞等。如果想深入了解「歌曲風格描述」和「歌詞段落標簽」的使用細節(jié)和進階技巧,可以參考:WaytoAGI 的使用指南

最后點擊生成即可以開始抽卡,我最終抽了二三十首選到了合適的歌曲。我對音樂創(chuàng)作還知之甚少,好在并不是要交付嚴肅的音樂創(chuàng)作,對于這個視頻項目來說已基本滿足要求。

音樂網址:https://www.bilibili.com/audio/au4549461

③ 視頻

歌曲選定后,通過 AI 繪圖工具 SD、Midjourney 制作靜態(tài)分鏡,分鏡的提示詞寫法我參考了影視行業(yè)分鏡表提供的結構并讓 GPT 輔助書寫。接著再通過 AI 視頻生成工具 Runway 把圖片制作成動態(tài)分鏡。最后在剪映里進行視頻和音樂剪輯、添加音效和畫面特效等。

最近我用 Runway 最新的 Gen-3 模型重制了這個音樂視頻:

當視頻在手機上無法加載,可前往PC查看。

對于 MV 這類創(chuàng)作,曲庫里的歌曲無法滿足創(chuàng)作者對于歌詞內容、歌曲風格和長度的要求。AI 音樂生成工具則可以發(fā)揮價值,幫助創(chuàng)作者制作滿足要求的歌曲。

分享一個大佬案例:

7 月初,博主 @Arata_Fukoe 發(fā)布了一支使用 Suno、Luma、Runway Gen-3 及可靈制作的 AI 音樂視頻。最新的視頻工具在動作幅度和畫面一致性有了大幅度提升,再經由博主強大的剪輯和特效實力加持,制作出了這個很有沖擊力的作品,發(fā)布期間也在各大平臺刷屏。

當視頻在手機上無法加載,可前往PC查看。

視頻作者:@Arata_Fukoe | 推特主頁: https://x.com/Arata_Fukoe

2. 視頻剪輯工具,邊剪邊寫歌?

上述音樂視頻制作流程是「歌曲->視頻->剪輯」,而為視頻配樂的流程是「視頻->歌曲->剪輯」,無論哪種方式,最后一步都離不開剪輯工具。

有些視頻剪輯工具在編輯場景里集成了 AI 音樂生成的能力,相當于視頻、配樂、剪輯都在同一個工具里完成,比如剪映:

當視頻在手機上無法加載,可前往PC查看。

這種方式把生成能力和工作場景相結合,可以減少工具之間的切換。但是和專業(yè)的 AI 音樂生成工具相比,這些內置 AI 功能,在生成方式和控制精度上做了許多簡化,模型效果也較為一般。追求更高質量更可控的音樂作品,仍然需要使用那些更成熟、更全面的生成工具。

剪映不僅集成了 AI 音樂生成,還集成了 AI 視頻生成、AI 圖片生成的能力,

讓創(chuàng)作者在編輯過程中可以隨時補充所需要的「畫面素材」。

類似的,Adobe Pr 也在一支概念宣傳片中展示其接入 Sora、Runway、Pika 等生成及編輯視頻的能力。

這種設計貼合使用場景,但生成方式和控制精度有取舍,更適合對素材要求不那么高的用戶。

Pr 官方視頻: https://www.youtube.com/watch?v=6de4akFiNYM

二、功能型音樂

相對于有獨立欣賞價值的音樂,功能型音樂(Functional Music)的創(chuàng)作目的不是為了藝術表達,而是為服務于某種功能和效果。它一般有這些特點:無人聲,不吸引聽眾注意,旋律簡單重復,相對模式化。AI 生成的音樂目前在藝術性和獨特性方面存在限制,功能型音樂的這些特點,剛好弱化了技術在這些方面的不足。

因此,相比于注重藝術價值的音樂創(chuàng)作,功能型音樂的領域更容易被 AI 技術滲透和改變。在這波生成式 AI 浪潮前,已經有些早期的音樂生成技術應用在這個領域了。

功能型音樂具體有哪些類型呢?

  1. 一些預算有限的廣告、游戲、影視、播客里的配樂 - 預算有限的項目,使用 AI 輔助生成配樂,可以更高效、更經濟地滿足需求。當然,對于一些追求卓越藝術表現(xiàn)的配樂,還是需要專業(yè)創(chuàng)作者精心制作,像游戲《黑神話:悟空》里的配樂,每一首都是注入了創(chuàng)作者情感的藝術品。
  2. 用于助眠、冥想、專注的音樂 - 主要是讓聽眾達到某種心理狀態(tài),旋律遵循特定的模式,通常是由一些緩慢重復的節(jié)奏或者白噪音構成的。
  3. 線下公共場所里播放的背景音 -用于影響聽眾行為如商場里刺激顧客購物欲、電梯音樂緩解密閉空間的緊張感、健身房里提升顧客的運動表現(xiàn)等。

1. 小小視頻配樂?拿捏

分享一個我使用 Suno 生成功能型音樂的實際案例。

我曾經用 Runway Gen-3 制作了一個類廣告片的視頻,主要用來展示 Runway 在藝術字生成方面的效果。視頻的配樂不是重點,但我希望通過配樂營造令人振奮的氛圍,讓畫面效果更有感染力。

在功能型音樂素材網站找歌通常需要購買版權,而 Suno 在非商用場景可以直接使用(如需商用,開會員即可)。于是就再次請出 Suno,由于這支配樂僅是氛圍烘托,不需要有人聲演唱,因此打開「instrumental」(純音樂)開關,和「custom」(自定義模式)開關。在提示詞區(qū)域填入:

vibrant synths, cool high-energy, dramatic crescendos, fashion dynamic bass lines
“充滿活力的合成器、潮酷有能量,戲劇性的漸強效果,時尚動感的低音線條。”
這段提示詞是讓 ChatGPT 來生成的,我給到的信息是:“我準備制作一個視頻,展示一種潮酷的視覺炸裂的效果,我希望使用 AI 生成背景音樂。請你幫我寫 AI 配樂的文生音樂 prompt,要求描述出音樂的風格、流派、樂器等,表達精簡,并用逗號分隔。”

2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

目前使用 Suno V3.5 模型可以在幾秒之內獲得視頻配樂,效率遠高于在素材網站的分類目錄下逐一試聽。

這是音樂搭配視頻畫面的最終效果:

當視頻在手機上無法加載,可前往PC查看。

推特作者 @Julie W.Design 也經常利用 Suno 和 Udio 來給她的短片配樂:

當視頻在手機上無法加載,可前往PC查看。

推特視頻創(chuàng)作者 @Julie W.Design 主頁鏈接: https://x.com/juliewdesign_

這位創(chuàng)作者的作品是推特上的一股清流,充滿細膩的生活觀察和溫柔的情感表達。

由于更新頻率和作品質量都很高,我一度以為她是全職 UP 主,后來在一檔播客中才了解到她是一位「職場媽媽」。

為了確保創(chuàng)作的靈活性,她通常是在手機上完成圖片、視頻和音樂的生成以及后期剪輯全流程,

這種時間管理和高效創(chuàng)作的能力真的讓我非常非常敬佩。

2. 專注于純音樂生成的 AI

除此之外,谷歌的 MusicFX 和 Stability 公司的 Stable Audio 目前都專注于生成純音樂,適合用于功能型音樂制作。

其中 MusicFX 的「DJ 模式」,允許用戶通過拖動提示詞對應的滑塊來調整相應的權重,并基于此,生成不間斷、無限長的音樂。就像 DJ 打碟一樣,可以根據(jù)現(xiàn)場氛圍變化實時調整音樂。網站的動效設計也非常絲滑:

當視頻在手機上無法加載,可前往PC查看。

前幾個月谷歌在 I/O 大會上,還真請來了一位 DJ 來現(xiàn)場演示效果:

2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

原視頻 動效是針不戳

如果你不想親自制作,也有一些網站定位于音樂素材售賣,提供了大量現(xiàn)成的功能型音樂,比如 Mubert、Pixabay、Audio Jungle、Musicbed 等。你可以通過分類目錄去試聽并購買歌曲,許多視頻創(chuàng)作者都會在這些網站上尋找配樂。

其中,Mubert 就在原有純音樂曲庫的基礎上,增加了 AI 純音樂生成的能力來提供用戶更多選擇。

2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

2. 你會想用 AI 配抖音視頻音樂嗎?

Youtube、Tiktok 這類短視頻內容平臺,也增加了「AI 配樂」的選項,讓發(fā)布者在發(fā)視頻前的配樂階段,可以使用自己創(chuàng)作的音樂。其中 Youtube 還和幾位歌手達成了版權合作,用戶可以選擇歌手的聲音作為歌曲人聲。

當視頻在手機上無法加載,可前往PC查看。

在發(fā)短視頻的場景,我其實會傾向于使用曲庫里那些能觸發(fā)情感共鳴和烘托氛圍感的熱門音樂,它們可以讓視頻更吸引人(比如一聽到《懸溺》或者《Jar Of Love》,宿命感馬上就來了)。AI生成的配樂,需要在情感氛圍上超越曲庫水平、且生成速度足夠快(畢竟配樂步驟是發(fā)布視頻前的最后一步),才能更好地發(fā)揮價值。

我也體驗到了一個不太能理解的產品功能點,即夢(字節(jié)的 AI 視頻生成工具)在內測給「AI 視頻片段」進行配樂。但實際上,視頻創(chuàng)作的工作流是需要在剪輯過程里,面向多個視頻片段來進行統(tǒng)一配樂,因此我認為針對單個視頻配樂的應用場景應該不大。

當視頻在手機上無法加載,可前往PC查看。

3. 助眠冥想賽道,動態(tài)無限長 AI 音樂

這個賽道下值得關注的產品是 Endel。與潮汐、小睡眠等產品相比,Endel 的一個特點是它會結合用戶習慣、當前環(huán)境及行為生成動態(tài)變化的無限長音樂。不同的輸入信息將影響最終音樂的節(jié)奏、樂器和音效組成、和弦類型等。

譬如在助眠場景,Endel 會收集用戶長期睡眠數(shù)據(jù)后定制專屬的助眠音樂(入睡快慢不同的人對應不同的音樂結構);在專注場景,Endel 會根據(jù)當?shù)氐臅r間和天氣來生成匹配的專注音樂(如下雨的夜晚 vs 晴朗的午后);在跑步場景,會結合用戶的步頻、心率、天氣來改變音樂節(jié)奏和樂器組成(快跑 vs 慢跑)。

Endel 基于自主研發(fā)的算法來生成音樂,相對于 Suno 那樣的大模型,這種方式能確保在特定的場景下,算法遵循規(guī)定的參數(shù)生成符合要求的音樂,也保證了生成效率。Endel 也提供了一些音樂和神經科學理論及用戶反饋來佐證其有效性,如果有長期使用的小伙伴,歡迎分享使用體驗~

當視頻在手機上無法加載,可前往PC查看。

三、社交娛樂

1. 從寫日記到寫歌

我注意到身邊朋友有一些低頻的音樂創(chuàng)作需求。比如在一些特殊時刻如,生日、紀念日,送別日等,用 AI 歌曲來傳遞專屬祝福。還有的喜歡用 AI 生成的歌曲幫助他們去記錄當下的感受,將情感用音樂保存下來。

朋友1

周一上班很疲憊,但想起了周末和娃一起在公園里的畫面,教他騎車,雖然身體很累但是內心很放松。特別懷念那個感受,就把它寫成了一首歌單曲循環(huán),聽著聽著心情也輕快了許多。通過歌曲,那時候的感受被具象化了,讓我可以更深刻地體會它。

朋友2

我也深有感觸。之前參加一個寫作療愈營,我寫了一首詩。后來我用 Suno 把這首詩變成了一首歌,確實更加具象化了,多維度地記錄下了那種感受。

作品在視頻號:「天天的多重宇宙」

也分享一個我自己的實踐案例:

《我的阿勒泰》上映期間我非常癡迷,有幾個畫面深深植入我的腦海:巴太和文秀坐在樹上看彩虹、月光下在波光粼粼的河邊散步、在樺樹林里告白、在草原上自由奔跑。還有幾句很喜歡的臺詞比如:「再顛簸的生活,也要閃亮地過」、「我清楚地看見你」。除了二刷三刷電視劇,我也很希望能用音樂來記錄和表達我腦海里的這些美好。

于是我先把以上這些細節(jié)信息通通告訴 GPT 來構思歌詞,雖然 GPT 寫的詞還是有點文縐縐的缺乏些靈性,但私下用來記錄感受也足夠了。(自己玩,沒有做 MV 的負擔,對歌詞的要求也就沒先前那么高)

接著,再通過歌詞和提示詞讓 Suno(這次用了 V3.5 模型)生成歌曲,最后的成品我個人還是挺滿意的:

當視頻在手機上無法加載,可前往PC查看。

讓我驚喜的地方

  1. 我沒有使用元標簽注明男女聲,最后自動生成的男女對唱配合得很不錯
  2. 唱完了我提供的歌詞,還自由發(fā)揮增加了橋段和尾聲
  3. 自由發(fā)揮了一段女生的哼唱,這段我很喜歡

未達預期的地方

  1. 標簽里指定了樂器“冬不拉”(劇里常用配器,是哈薩克族傳統(tǒng)樂器),但是這個樂器音色沒有生成
  2. 音質還是有待提升

這類自娛自樂的制作,我沒有投入太多精力仔細雕琢,如果追求精細的控制,還是要多多參考 WaytoAGI 的文檔。

2. 社交互動新形式

一些社交娛樂平臺如「唱鴨」、「給麥」,在現(xiàn)有的音樂、游戲、直播功能基礎上,引入了 AI 歌曲發(fā)布作為一個新的互動方式。

然而根據(jù)我的使用體驗和觀察,這些 AI 歌曲的生成質量還有較大提升空間,而且基于歌曲來互動的需求也不強烈。因此我推測這個功能可能難以促成深度互動和實現(xiàn)長期留存。

2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

3. 能聊也能唱的 Chatbot

還有一種社交存在于人和 AI 之間,之前 GPT-4o 的發(fā)布會上展示了模型的音樂能力,AI 的交流互動方式變得更多樣更自然,能聊也能唱。

當視頻在手機上無法加載,可前往PC查看。

這我聯(lián)想到了電影《Her》里,AI 女主跟隨人類男主彈奏的尤克里里一起唱《The moon song》,以及博主 @午夜狂暴哈士奇狗 和她的 ChatGPT 男友(DAN 模式)一起唱《Take Me Home, Country Road》的場景。

四、業(yè)余音樂創(chuàng)作

1. 寫詞人的音樂夢

和其他音樂人合作,比較慢,3 年也沒發(fā)幾首歌,有了 AI 一個月能發(fā)好幾首。

這是來自我的一位朋友的例子,他喜歡寫歌詞但對樂理沒有深入了解,以前需要和其他音樂創(chuàng)作者合作來共同完成一首歌,花費的時間較長。借助 AI,則可以快速地把自己寫的歌詞轉變?yōu)槌善贰?/p>

通過訂閱會員,創(chuàng)作者可以獲得 AI 歌曲的版權,并在流媒體平臺發(fā)行(也有流媒體平臺自身搭建了從生成到發(fā)行的鏈路如 QQ 音樂)。AI 技術降低了歌曲創(chuàng)作的門檻,讓更多業(yè)余創(chuàng)作者可以參與其中感受音樂創(chuàng)作的樂趣。

我詢問了這位朋友關于營收的情況,頭部的 IP 歌曲(明星、頭部創(chuàng)作者)占據(jù)著最大的流量,而像他這樣的素人創(chuàng)作者則需要購買流量來提升歌曲曝光進而獲得相應的收益,因此還暫未實現(xiàn)盈利。

2. 出圈案例和殘酷現(xiàn)實

這反映出音樂市場供給大于需求,由于缺乏宣傳推廣資源,素人創(chuàng)作者在流媒體平臺上較難獲得關注。作品想出圈,還是需要獨特的內容和熱門話題帶動。有一個出圈案例是抖音 30w 粉博主「新宇」,在 QQ 音樂發(fā)布了使用 Suno 寫的聲討整容過失的歌《還我媽生鼻》,后又錄屏發(fā)布在了抖音上。由于博主本身有一定粉絲基礎,話題娛樂性強,2 周左右就在抖音獲得了 22w+ 評論、在 QQ 音樂獲得了 100w+ 播放。

五、專業(yè)音樂創(chuàng)作

1. 一鍵生成,幫不了一點

上述場景主要涉及非專業(yè)創(chuàng)作,而在專業(yè)創(chuàng)作領域,目前這波一鍵生成技術還無法輔助創(chuàng)作過程。

對于專業(yè)音樂創(chuàng)作者,AI 音樂生成需要融入創(chuàng)作場景 - 數(shù)字音頻工作站(DAW),如 Ableton Live、Logic Pro 等,為創(chuàng)作提供實時輔助。DAW 里的 AI 助手需要具備以下能力:

  1. 基于對已有創(chuàng)作內容的理解,提供續(xù)寫或優(yōu)化建議。
  2. 生成的內容必須是 MIDI 格式的,便于創(chuàng)作者及時編輯。

比如:在作曲過程中,AI 基于已有的主旋律片段,提供拓展或變奏建議;在編曲過程中,AI 提供樂器搭配建議,優(yōu)化音樂整體結構。然而,目前的 AI 音樂大模型生成的是完整的歌曲音頻,還有待技術創(chuàng)新來生成可編輯的 MIDI 文件。同時,也需要設計合理的交互方式,使其無縫嵌入到 DAW 中。

反而是 AI 歌聲合成已在專業(yè)工作流里廣泛應用,我會在下一篇分享。

數(shù)字音頻工作站,DAW(Digital Audio Workstation),是專業(yè)音樂人用于音樂創(chuàng)作的工具。創(chuàng)作者可以在 DAW 的軌道上繪制 MIDI 音符或編輯音頻文件來創(chuàng)作旋律、和聲、節(jié)奏等,選擇并調整各種虛擬樂器的音色,完成編曲、混音及母帶制作。DAW 現(xiàn)有的自動生成鼓點、和弦的技術,非大模型,在上下文理解和生成內容的個性化、創(chuàng)意方面都很有限。

MIDI,是用數(shù)字符號來描述音樂的方式,像一個「數(shù)字樂譜」,包含了音高、力度、持續(xù)時間等。在 DAW 的特定區(qū)域,MIDI 被展示為一個個帶著歌詞的小方塊,創(chuàng)作者可以在 DAW 里操作 MIDI 來完成音樂創(chuàng)作。

BandLab 是一個音樂在線協(xié)作及分享的平臺,集成了在線簡化版 DAW 并支持協(xié)同編輯。目前注冊用戶超過 1 億,主要是英美的獨立音樂人和業(yè)余愛好者,年齡集中在 18-24 歲。2022 年 BandLab 推出了一個功能 AI SongStarter。通過用戶文字描述來生成旋律、和弦和節(jié)奏片段,并且會以分軌 MIDI 的形式無縫接入在線 DAW,為業(yè)余愛好者提供靈感。

雖然這個 AI 功能還無法輔助專業(yè)人士,不過這個 APP 的視覺設計和動畫真的很精致。

當視頻在手機上無法加載,可前往PC查看。

2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

網易天音這個創(chuàng)作工具,面向對音樂創(chuàng)作有一定興趣和基礎,并希望進一步探索實踐的愛好者。其中 AI 的融合存在一些問題:

  1. 模型對提示詞的理解有限,難以準確理解用戶意圖
  2. 編輯歌詞的方式不靈活,只有匹配聯(lián)想或重新生成,無法通過對話來精確修改
  3. 伴奏單一,采用了預設模板庫,無法提供個性化的內容

2. 可控性進展

最后,補充近幾個月,AI 音樂生成工具可控性方面的提升

① Suno、Udio 支持音頻成曲

基于用戶提供的音頻片段來生成歌曲,音頻可以是用戶哼唱的旋律,敲擊出的節(jié)奏,或者彈奏的和弦,生成方式會參考該音頻的旋律或節(jié)奏或和弦進行(輸入若帶有音色,也會參考)。可以輔助創(chuàng)作者把自己的初步靈感延展為一個完整的作品。

我曾做了三段測試:

  1. 輸入貓叫 -> 輸出一首 Lo-Fi
  2. 輸入我的哼唱(兩句杰倫的晴天)-> 輸出一段民謠
  3. 輸入一段 beatbox(來自網絡)-> 輸出一段 rap

當視頻在手機上無法加載,可前往PC查看。

我的這個 demo 還意外地被 Suno 官方推特賬號轉發(fā)了

② Udio 局部修改

對某部分的旋律、歌詞不滿意,則可以進行二次修改,但不影響歌曲其他部分。

2024最全盤點!AI音樂生成有哪些實用場景和代表產品?

③ Udio 重新混音

保持歌曲歌詞和主旋律不變,轉換為新的曲風。

remix 前

A day in the life of a professional imaginary friend, indie pop, twee pop

當視頻在手機上無法加載,可前往PC查看。

remix 后

A day in the life of a professional imaginary friend, jazz

當視頻在手機上無法加載,可前往PC查看。

最后

從今年 2 月份我首次使用 AI 音樂工具至今,雖然自己覺得過了很久很久,但是這在生成式技術的發(fā)展歷程里,也只是短暫的一瞬。

在實踐和記錄的過程里,我體會到生成技術發(fā)展給創(chuàng)作者帶來的便利和驚喜。除此之外,我也學習到了一些音樂方面的基礎理論知識,雖然依舊非常粗淺,但音樂鑒賞能力提升了,也更能體會到音樂的美妙和專業(yè)創(chuàng)作的不易,對創(chuàng)作者有了更深的欽佩和敬意。

最近一直在聽《黑神話:悟空》交響樂版的《云宮迅音》和合唱版的《敢問路在何方》,每次都會涌起波瀾壯闊的情感,音樂仿佛穿越了時光,帶著每個人獨有的回憶和感悟觸動內心。AI 會作為創(chuàng)作者手中的工具來提供輔助,而人類獨有的情感體驗、藝術創(chuàng)新,會成為音樂作品里最打動人心的部分。正如一位音樂人所說:

好作品可遇不可求,雖然有公式,但科學無法完全抵達答案。正是如此多的不確定性,音樂創(chuàng)作才如此美妙。

下篇將聊聊 AI 歌聲合成/轉換、AI 音效生成這兩個方向上的應用案例和代表工具。

感謝閱讀,下篇見。

收藏 29
點贊 24

復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網立場,未經允許不得轉載。