大家好,這里是和你們一起探索 AI 的花生~
之前為大家推薦過(guò)一些可以將圖像轉(zhuǎn)為動(dòng)圖或者短視頻的 AI 工具,比如 LeiaPix Converter、Runway、Pika 等,今天再為大家推薦一種在本地免費(fèi)實(shí)現(xiàn)圖像轉(zhuǎn)短視頻的方式,即在 ComfyUI 中使用開(kāi)源模型 Stable Video Diffusion (SVD),經(jīng)測(cè)試 8G 的顯存也能用,并且效果也相當(dāng)不錯(cuò)。
相關(guān)推薦:
Stable Video Diffusion(SVD)是 Stability AI 推出的開(kāi)源圖像到視頻生成模型,可以生成基于輸入圖像生成 2-6 秒的高分辨率(576x1024)視頻。
原圖:
用 SVD 轉(zhuǎn)為視頻后:
官方目前放出了 2 款模型,分別是 SVD 和 SVD-XT(文末有模型資源包),其中 SVD 可以生成 14 幀的視頻,SVD-XT 可以生成 25 幀的視頻。 它們還分別有一個(gè)升級(jí)版本 svd_image_decoder 和 svd_xt_image_decoder,是將 sd1.5/sd2.1 vae 添加到了原本的模型中,可以讓生成的視頻細(xì)節(jié)更好,但是總體的穩(wěn)定性不太好。
- SVD 模型地址: https://huggingface.co/stabilityai/stable-video-diffusion-img2vid/tree/main
- SVD-XT 模型地址: https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt/tree/main
有了開(kāi)源模型,我們就可以在 ComfyUI 中通過(guò) SVD 免費(fèi)將圖像轉(zhuǎn)為短視頻,下圖是一個(gè) SVD 的基礎(chǔ)工作流(文末有 json 文件),其使用方法如下:
①首先將 svd.safetensors 或 svd_xt.safetensors 放入大模型文件夾中;
②將工作流文件拖入 ComfyUI 界面,對(duì)于缺失的節(jié)點(diǎn)可以在 Manager 中補(bǔ)全后再重啟;
③SVD_image2vid_conditioning 是控制視頻生成效果的關(guān)鍵節(jié)點(diǎn),里面的參數(shù)作用分別是:
- width/heigth:視頻的寬高,最好和上傳的圖像尺寸一致。官方推薦的尺寸是 1024*576 或者 576*1024;
- video_frames:視頻總幀數(shù),按視頻大模型來(lái)設(shè)定,即 svd 為 14 幀,svd_xt 為 25 幀。總幀數(shù)越多,能生成更明顯生動(dòng)的動(dòng)作,但是對(duì)顯存的壓力也更大。
- motion_bucket_id:控制視頻動(dòng)態(tài),數(shù)值范圍 1-255,數(shù)值越大,動(dòng)態(tài)越明顯,推薦 125-180。
- fps:Frames Per Second 每秒傳輸幀數(shù),數(shù)值范圍 5-30,數(shù)值過(guò)高視頻可能會(huì)不穩(wěn)定,一般推薦 6-8。
- augmentation level:表示添加到初始圖像中的噪點(diǎn)量。數(shù)值越高,視頻看起來(lái)就越不像初始圖像,但提高該值可獲得更多動(dòng)態(tài)效果,推薦設(shè)置為 0.1。
④VideoLinearCFGGuidance(視頻線性引導(dǎo))節(jié)點(diǎn)的作用是線性縮放不同幀的 cfg 數(shù)值。其數(shù)值 1.0 代表第一幀的 cfg 值,Kampler 節(jié)點(diǎn)中的 2.5 代表最后一幀的 cfg 值,那么中間一幀的 cfg 數(shù)值就是 1.75。這樣離初始幀較遠(yuǎn)的幀將獲得逐漸升高的 cfg 值,可以稍微改善視頻模型的采樣效果。
⑤Kampler 節(jié)點(diǎn)中的 cfg 數(shù)值需要隨視頻總幀數(shù)進(jìn)行變化。如果是 25 幀,則 2.5 足夠,如果是 50 幀, 則需要適當(dāng)增加,比如改為 5.0。
工作流設(shè)置完成后,上傳一張圖像,運(yùn)行后即可將其轉(zhuǎn)為動(dòng)態(tài)。我的顯存是 8G,大概 2 分鐘就能生成一個(gè) 3s 的 1024*576 短視頻(14 幀)。
除了上傳圖像,我們也可以將文生圖流程接入上面的基礎(chǔ)工作流,這樣就能直接通過(guò)文本生成短視頻了。我提供的工作流是 SD 1.5 的,如果要用 SDXL 模型,難么文生圖模塊里 Ksampler 內(nèi)的生成參數(shù)記得要做出對(duì)應(yīng)的調(diào)整;同時(shí)視頻模型也用的是 25 幀的 SVD_XT 模型,轉(zhuǎn)換時(shí)間大概是 9 分鐘。
轉(zhuǎn)換結(jié)果
此外我們還可以添加一些額外的節(jié)點(diǎn),讓圖片轉(zhuǎn)視頻的效果更穩(wěn)定、效率更高。
下圖工作流中使用了 LCM Lora 來(lái)提升圖像生成效率,讓 25 幀視頻的生成時(shí)間由 9 分鐘縮短至 5 分鐘,對(duì)顯存的壓力也更小;FreeU_V2 節(jié)點(diǎn)讓圖像細(xì)節(jié)更精準(zhǔn);RIFE VFI 節(jié)點(diǎn)則可以進(jìn)行視頻插幀,讓效果更流暢。不過(guò) LCM Lora 也會(huì)讓視頻生成的質(zhì)量有所下降,畫(huà)面會(huì)變得更模糊,在實(shí)際應(yīng)用中大家可以結(jié)合自己的需求看是否使用。
轉(zhuǎn)換結(jié)果(多調(diào)節(jié) lora 權(quán)重、SVD 動(dòng)態(tài)強(qiáng)度、SVD 噪點(diǎn)強(qiáng)度和 Ksampler 中的 cfg 參數(shù)進(jìn)行抽卡):
好了以上就是本期為大家分享的在 ComfyUI 中使用 SVD 模型實(shí)現(xiàn)圖像免費(fèi)轉(zhuǎn)視頻的相關(guān)內(nèi)容,相關(guān)的資源都在文末的網(wǎng)盤里,大家記得下載。想了解更多 AI 知識(shí)或者 AI 效率神器,歡迎訪問(wèn) 「優(yōu)設(shè) AI 導(dǎo)航」,每天都有新鮮的 AI 干貨分享。也歡迎大家掃描下方的二維碼加入“優(yōu)設(shè) AI 繪畫(huà)交流群”,和我及其他 設(shè)計(jì)師 一起交流學(xué)習(xí) AI 知識(shí)~
推薦閱讀:
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 729 位幸運(yùn)星
發(fā)表評(píng)論 為下方 5 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓