熱評 馮小喵

越來越好了

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

大家好,這里是和你們一起探索 AI 繪畫的花生~

4 月份的時候給大家介紹了 Stability AI 新推出新模型 Stable Diffusion XL,它的參數是 SD v2.1 的 2.5 倍,整體圖像生成質量也比 v2.1 要好很多。不到半個月時間,Stability AI 又推出了一個新的文本到圖像模型 DeepFloyd IF,今天我們就繼續看看這個新模型的功能。

DeepFloyd IF

DeepFloyd 官網: https://deepfloyd.ai/

DeepFloyd IF 模型試玩: https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd 是 Stability AI 旗下的多模態 AI 研究實驗室,這次的 IF 模型就是由 DeepFloyd 研發的。據官方介紹,DeepFloyd IF 是最新最先進的開源文本-圖像模型,擁有強大的語言理解能力,生成的圖像具有高度真實感。從其官網展示了圖像來看,DeepFloyd IF 生成的圖像質量非常不錯,也能處理多種不同的風格效果。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

DeepFloyd IF 生成的圖像,圖片內容來源:DeepFloyd 官網

上面的這些圖像也體現了 DeepFloyd IF 另外的 2 項優勢 —— 能在圖像中生成連貫清晰的文本,以及理解不同對象的屬性和空間關系。比如它可以正確地將文字呈現在路牌、紙片、包裝外殼等規定的媒介內;能理解文本之間的連續關系,將不同的字母或數字按順序呈現在不同的物體上;以及分清圓球是金屬的,三角形是毛茸茸的,不會將不同物體的屬性弄混。

我用同一組提示詞在 Stable Diffusion XL、DeepFloyd IF 和 Midjourney 中分別進行了測試,結果見下圖。可以看到 SD XL 雖然顯示了文字,但是文字內容并不準確,也沒有有突出文字的主體位置,顯然是模型對文本的理解能力有限;Midjourney 生成圖像質量很高,但是文字部分是錯的;DeepFloyd IF 對文字內容和涂鴉風格把握都很準確,整體效果最好。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

推特上也有很多網友利用 DeepFloyd IF 成功生成各種具有清晰文字內容的圖像,說明 IF 模型的這項功能的非常穩定。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

內容來源: https://twitter.com/deepfloydai

DeepFloyd 還在官網上展示了 IF 模型與其他的模型的效果對比,包括 OpenAI 的 DALLE·2、Google 的 Imagen 和 Parti,以及 Stability AI 自己的 Stable Diffusion v2.1。從對比圖可以看出 DeepFloyd IF 的圖像生成質量并不遜于其他模型,在語言理解方面方面甚至表現更好,比如在和 DALLE·2 的對比圖中,IF 模型可以更好地理解“a handpalm 一只手掌”這個概念。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

DeepFloyd IF 與其他模型的對比

與 Stable Diffusion、DALLE·2 等模型不同的是,DeepFloyd IF 是一個由凍結文本編碼器和三個級聯像素擴散模塊組成的。三個擴散模塊分別為一個基于文本提示生成 64x64 像素圖像的基本模型,和兩個超分辨率模型。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

也就是說使用一般的繪畫工具 ,我們直接就能生成一張 512*512px 或者 1024*1024px 的分辨率圖像,而 DeepFloyd IF 則是先生成一張 64*64px 的基礎圖像,然后再通過兩個超分辨率模型對其進行分辨率提升。這一點在 DeepFloyd IF 試玩 Demo 中也體現了出來:輸入提示詞后,會先得到一個模糊的 64*64px 的圖像,然后選擇“Upscale”進行放大,才會得到一個 1024x1024 px 的信息圖像。這個特點讓 IF 模型在生成基礎圖像時速度比一般模型快很多, 圖像生成效率更高。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

除了根據文本提示生成圖像,DeepFloyd IF 還有一個根據圖像生成類似圖像的功能,整個過程也非常有意思。DeepFloyd IF 會先將原圖縮減至 64 px,通過正向擴散添加一定程度的噪聲,然后在逆向擴散過程中使用新文本提示對圖像進行去噪,從而實現圖像到圖像的轉換。這樣以保留原圖的基礎構圖、色彩等信息,然后再根據文本提示,生成不同樣式、風格和細節的圖像。

DeepFloyd IF 還有 Super Resolution 和 Inpainting 功能。Super Resolution 即提升畫面的分辨率,前面提到過 IF 模型本身就自帶 2 個超分辨率模型,而對于并非由 IF 生成的圖像,也可以用 IF 模型進行放大。Inpainting 則是通過涂抹修改圖像局部內容,且修改后的內容能與原畫面的風格保持一致。

Stability AI 又出新模型 DeepFloyd !AI設計海報指日可待了

DeepFloyd IF 目前沒有正式的應用,只在 Huggingface 上提供了一個試玩 Demo,感興趣的朋友可以戳下面的鏈接試一試。DeepFloyd IF 模型及生成的內容目前不可商用,僅供研究使用。團隊目前在開放收集關于 IF 模型的反饋意見,之后會發布一個完全免費的商業兼容版本。

DeepFloyd IF 模型試玩: https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd IF 模型的出現意味著 AI 繪畫的可控性得到了進一步的提升,特別是在能生成連貫準確的文字內容這方面,讓 AI 繪畫工具在未來可以在設計領域有更廣泛得的應用,比如生成具有準確文字的圖片素材、具有特殊效果的字體設計,甚至是進行準確地排版。本期文章封面的配圖就是用 DeepFloyd IF 生成的,你覺得 DeepFloyd IF 還會哪些其他的發揮它的優勢呢?歡迎在評論區分享你的看法~

推薦閱讀:

贊賞
收藏 30
點贊 54

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。