熱評(píng) 離家出走的帆高

XL都還沒普及,3.0就來了,AI迭代速度太快了,一不留神就可能跟不上了
文件名 如何下載使用 文件大小 提取碼 下載來源
Stable Cascade 模型12.83G6666 點(diǎn)此復(fù)制 登錄下載

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

大家好,我是花生~

最近 Stability AI 又接連推出了 2 個(gè)新的模型:Stable Diffusion 3 和 Stable Cascade,在圖像生成效率和質(zhì)量上比半年前推出的 SDXL 1.0 有了明顯提升,今天就為大家介紹一下 2 款新模型的特點(diǎn)和用法。

推薦閱讀:

一、Stable Diffusion 3 簡介

官方介紹: https://stability.ai/news/stable-diffusion-3

加入等候名單: https://stability.ai/stablediffusion3

2 月 22 號(hào),Stability AI 發(fā)布了新模型 Stable Diffusion 3(下面簡稱為 SD 3.0),這也是 Stable Diffusion 系列的最新模型。發(fā)布公告中, Stability AI 稱 SD 3.0 是他們 “功能最強(qiáng)大” 的模型,還特別強(qiáng)調(diào)使用的是 Diffusion Transformer 架構(gòu)(感覺是受了 OpenAI Sora 模型的刺激)。模型資源目前還沒有放出來,想體驗(yàn)的話可以加入等候名單。

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

官方介紹 SD 3.0 模型在多主題提示、圖像質(zhì)量和拼寫能力方面有了極大的提升,我用它提示詞在 Midjourney 生成了圖像,下面是對比結(jié)果。整體來說 SD 3.0 的能力的確非常強(qiáng),圖像質(zhì)量和 Midjourney V6 模型非常接近,在文本內(nèi)容生成上的表現(xiàn)甚至超過了 Midjourney V6,不過 V6 在細(xì)節(jié)豐富度和風(fēng)格美感上還是有自己獨(dú)特的優(yōu)勢。

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

除了文生圖能力,Stability AI 創(chuàng)始人 Emad 還放出了一段演示視頻,顯示 SD 3.0 支持用文字修改畫面內(nèi)容以及將圖像轉(zhuǎn)換為視頻。如果 SD 3.0 模型能開源,肯定會(huì)給開源 AI 繪畫生態(tài)帶來一輪新的提升,這是非常值得期待的。

二、Stable Cascade 模型簡介

官方 Github 主頁: https://github.com/Stability-AI/StableCascade

其實(shí)在 2 月 12 號(hào),也就是 SD 3.0 發(fā)布 12 天之前,Stability AI 已經(jīng)發(fā)布過一款新模型 Stable Cascade 了,這是一個(gè)基于 Würstchen 架構(gòu)的新文本-圖像模型,相關(guān)代碼和資源在公布,但目前只允許用于非商業(yè)目的。

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

Stable Cascade 生成的圖像

與 Stable Diffusion 系列模型不同, Stable Cascade 由三個(gè)模型組成:Stage A、Stage B 和 Stage C,Stage A 是 VAE 模型,Stage B 和 Stage C 是擴(kuò)散模型。它們分別處理圖像生成的不同階段,且一個(gè)模型的輸出會(huì)成為下一個(gè)模型的輸入,也就是 “級(jí)聯(lián)"(Cascade)”,這也是 Stable Cascade 名稱的由來。

當(dāng)我們輸入提示詞后,首是 Stage C 模型會(huì)根據(jù)給定的文本生成 24*24 的低分辨率潛像(Latents),然后輸入到 Stage B 模型中進(jìn)行放大,完成后再輸入到 Stage A 模型中再次放大并轉(zhuǎn)換為像素空間,最終生成我們需要的圖像。

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

除了文生圖,Stable Cascade 還支持圖生圖、圖像生成變體、Inpainting /Outpainting、Controlnet、Lora 及高清放大等功能。由于 Stable Cascade 與其他 SD 模型相比使用更小的潛在空間進(jìn)行訓(xùn)練和推理,因此推理速度更快,訓(xùn)練也更高效,對開發(fā)來說有非常自由靈活的調(diào)節(jié)空間,或許之后它能發(fā)展成在 Stable Diffusion、Stable Diffusion XL 之后又一個(gè)新的生態(tài)體系。

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

三、在 ComfyUI 中安裝使用 Stable Cascade

ComfyUI 已經(jīng)官方支持 Stable Cascade 的使用了,并將原本的 7 個(gè)模型整合成為 2 個(gè),不僅圖像質(zhì)量提升了,操作流程也更簡化了,使用起來方便。下面以文生圖工作流為例講一下 Stable Cascade 的用法。

1. 首先下載 stable_cascade_stage_c.safetensors 和 stable_cascade_stage_b.safetensors 兩個(gè)大模型,放入根目錄的 models/checkpoints 文件夾中(如果是和 WebUI 共用模型這放到 WebUI 的根目錄中)。

模型地址: https://huggingface.co/stabilityai/stable-cascade/tree/main/comfyui_checkpoints 文末有資源包

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

2. 啟動(dòng) ComfyUI, 將文生圖基礎(chǔ)工作流拖入工作界面。填入自己的提示詞,設(shè)置好分辨率(推薦 1024-2048px),再檢查一下 Stage C 和 Stage B 內(nèi)的是否選擇了對應(yīng)的大模型,其他參數(shù)保持不變,再點(diǎn)擊生成就可以了。

注意:運(yùn)行過程中肯可能出現(xiàn)的報(bào)錯(cuò):Error occurred when executing CheckpointLoaderSimple:
unet_dtype() got an unexpected keyword argument 'supported_dtypes'
解決方式是更新自定義節(jié)點(diǎn) ComfyUI_smZNodes,然后重啟 ComfyUI 就可以解決了

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

從使用體驗(yàn)來說,Stable Cascade 對顯存占用更少,6G 就能跑通,8G 的顯存跑一張 1024*1024 的圖大概是 65-90 s,比 SDXL 了快了一倍。圖像質(zhì)量比 SDXL 要好很多,與 Midjourney V6 相比還是有差距,但是在生成帶文字內(nèi)容的圖像(比如 logo,海報(bào)等)時(shí),Stable Cascade 也會(huì)有比較好的效果。

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

那么以上就是今天為大家介紹的 2 款新的文生圖模型 Stable Diffusion 3 和 Stable Cascade,喜歡本期推薦的話記得點(diǎn)贊收藏支持一波。想了解更多 AI 繪畫工具的話,歡迎關(guān)注 優(yōu)設(shè) AI 自學(xué)網(wǎng),每天都有最新的 AI 神器及資訊推薦 ~ 也歡迎大家掃描下方的二維碼加入“優(yōu)設(shè) AI 知識(shí)交流群”,和我及其他設(shè)計(jì)師一起交流學(xué)習(xí) AI 知識(shí)~

新模型 Stable Diffusion 3 與 Stable Cascade 全面解析

推薦閱讀:

文件名 如何下載使用 文件大小 提取碼 下載來源
Stable Cascade 模型12.83G6666 點(diǎn)此復(fù)制 登錄下載
贊賞
收藏 65
點(diǎn)贊 44

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。