大家好,我是花生~
最近 Stability AI 又接連推出了 2 個(gè)新的模型:Stable Diffusion 3 和 Stable Cascade,在圖像生成效率和質(zhì)量上比半年前推出的 SDXL 1.0 有了明顯提升,今天就為大家介紹一下 2 款新模型的特點(diǎn)和用法。
推薦閱讀:
官方介紹: https://stability.ai/news/stable-diffusion-3
加入等候名單: https://stability.ai/stablediffusion3
2 月 22 號(hào),Stability AI 發(fā)布了新模型 Stable Diffusion 3(下面簡稱為 SD 3.0),這也是 Stable Diffusion 系列的最新模型。發(fā)布公告中, Stability AI 稱 SD 3.0 是他們 “功能最強(qiáng)大” 的模型,還特別強(qiáng)調(diào)使用的是 Diffusion Transformer 架構(gòu)(感覺是受了 OpenAI Sora 模型的刺激)。模型資源目前還沒有放出來,想體驗(yàn)的話可以加入等候名單。
官方介紹 SD 3.0 模型在多主題提示、圖像質(zhì)量和拼寫能力方面有了極大的提升,我用它提示詞在 Midjourney 生成了圖像,下面是對比結(jié)果。整體來說 SD 3.0 的能力的確非常強(qiáng),圖像質(zhì)量和 Midjourney V6 模型非常接近,在文本內(nèi)容生成上的表現(xiàn)甚至超過了 Midjourney V6,不過 V6 在細(xì)節(jié)豐富度和風(fēng)格美感上還是有自己獨(dú)特的優(yōu)勢。
除了文生圖能力,Stability AI 創(chuàng)始人 Emad 還放出了一段演示視頻,顯示 SD 3.0 支持用文字修改畫面內(nèi)容以及將圖像轉(zhuǎn)換為視頻。如果 SD 3.0 模型能開源,肯定會(huì)給開源 AI 繪畫生態(tài)帶來一輪新的提升,這是非常值得期待的。
官方 Github 主頁: https://github.com/Stability-AI/StableCascade
其實(shí)在 2 月 12 號(hào),也就是 SD 3.0 發(fā)布 12 天之前,Stability AI 已經(jīng)發(fā)布過一款新模型 Stable Cascade 了,這是一個(gè)基于 Würstchen 架構(gòu)的新文本-圖像模型,相關(guān)代碼和資源在公布,但目前只允許用于非商業(yè)目的。
Stable Cascade 生成的圖像
與 Stable Diffusion 系列模型不同, Stable Cascade 由三個(gè)模型組成:Stage A、Stage B 和 Stage C,Stage A 是 VAE 模型,Stage B 和 Stage C 是擴(kuò)散模型。它們分別處理圖像生成的不同階段,且一個(gè)模型的輸出會(huì)成為下一個(gè)模型的輸入,也就是 “級(jí)聯(lián)"(Cascade)”,這也是 Stable Cascade 名稱的由來。
當(dāng)我們輸入提示詞后,首是 Stage C 模型會(huì)根據(jù)給定的文本生成 24*24 的低分辨率潛像(Latents),然后輸入到 Stage B 模型中進(jìn)行放大,完成后再輸入到 Stage A 模型中再次放大并轉(zhuǎn)換為像素空間,最終生成我們需要的圖像。
除了文生圖,Stable Cascade 還支持圖生圖、圖像生成變體、Inpainting /Outpainting、Controlnet、Lora 及高清放大等功能。由于 Stable Cascade 與其他 SD 模型相比使用更小的潛在空間進(jìn)行訓(xùn)練和推理,因此推理速度更快,訓(xùn)練也更高效,對開發(fā)來說有非常自由靈活的調(diào)節(jié)空間,或許之后它能發(fā)展成在 Stable Diffusion、Stable Diffusion XL 之后又一個(gè)新的生態(tài)體系。
ComfyUI 已經(jīng)官方支持 Stable Cascade 的使用了,并將原本的 7 個(gè)模型整合成為 2 個(gè),不僅圖像質(zhì)量提升了,操作流程也更簡化了,使用起來方便。下面以文生圖工作流為例講一下 Stable Cascade 的用法。
1. 首先下載 stable_cascade_stage_c.safetensors 和 stable_cascade_stage_b.safetensors 兩個(gè)大模型,放入根目錄的 models/checkpoints 文件夾中(如果是和 WebUI 共用模型這放到 WebUI 的根目錄中)。
模型地址: https://huggingface.co/stabilityai/stable-cascade/tree/main/comfyui_checkpoints 文末有資源包
2. 啟動(dòng) ComfyUI, 將文生圖基礎(chǔ)工作流拖入工作界面。填入自己的提示詞,設(shè)置好分辨率(推薦 1024-2048px),再檢查一下 Stage C 和 Stage B 內(nèi)的是否選擇了對應(yīng)的大模型,其他參數(shù)保持不變,再點(diǎn)擊生成就可以了。
注意:運(yùn)行過程中肯可能出現(xiàn)的報(bào)錯(cuò):Error occurred when executing CheckpointLoaderSimple:
unet_dtype() got an unexpected keyword argument 'supported_dtypes'
解決方式是更新自定義節(jié)點(diǎn) ComfyUI_smZNodes,然后重啟 ComfyUI 就可以解決了
從使用體驗(yàn)來說,Stable Cascade 對顯存占用更少,6G 就能跑通,8G 的顯存跑一張 1024*1024 的圖大概是 65-90 s,比 SDXL 了快了一倍。圖像質(zhì)量比 SDXL 要好很多,與 Midjourney V6 相比還是有差距,但是在生成帶文字內(nèi)容的圖像(比如 logo,海報(bào)等)時(shí),Stable Cascade 也會(huì)有比較好的效果。
那么以上就是今天為大家介紹的 2 款新的文生圖模型 Stable Diffusion 3 和 Stable Cascade,喜歡本期推薦的話記得點(diǎn)贊收藏支持一波。想了解更多 AI 繪畫工具的話,歡迎關(guān)注 優(yōu)設(shè) AI 自學(xué)網(wǎng),每天都有最新的 AI 神器及資訊推薦 ~ 也歡迎大家掃描下方的二維碼加入“優(yōu)設(shè) AI 知識(shí)交流群”,和我及其他設(shè)計(jì)師一起交流學(xué)習(xí) AI 知識(shí)~
推薦閱讀:
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
熱評(píng) 離家出走的帆高