AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

近期,以 Stable Diffusion、Dall-E、Midjourney 等軟件或算法為代表的 AI 繪圖技術(shù)引起了廣泛關(guān)注。尤其是自 2022 年 8 月 Stable Diffusion 模型開源以來,更是加速了這一領(lǐng)域的發(fā)展。

對(duì)于初學(xué)者來說,面對(duì)這些令人驚嘆的 AI 繪圖作品,他們既想了解繪圖軟件的使用和技巧,又面對(duì)著諸如 Lora、ControlNet、Dall-E 等復(fù)雜術(shù)語,不知道從何入手。通過收集資料,本文將從以下四個(gè)方面介紹目前最流行的 AI 繪圖工具和模型訓(xùn)練方法,力求用通俗易懂的語言幫助大家理清術(shù)語背后的真實(shí)含義。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

一、文生圖算法簡(jiǎn)介

text to image 技術(shù),又稱為文生圖,是一種基于自然語言描述生成圖像的技術(shù)。其歷史可以追溯到 20 世紀(jì) 80 年代。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò) CNN 和循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 的出現(xiàn),text to image 技術(shù)開始采用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和生成。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

GAN(generative adversarial networks)和 VAE(variational auto encoder)算法是最早被應(yīng)用于 text to image 任務(wù)的算法。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

隨著計(jì)算機(jī)硬件和算法的不斷進(jìn)步,越來越多的新算法涌現(xiàn)出來,例如 Stable Diffusion 和 Dall-E 等。相較于傳統(tǒng)算法如 GAN 和 VAE,這些新算法在生成高分辨率、高質(zhì)量的圖片方面表現(xiàn)更加卓越。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

Stable Diffusion(穩(wěn)定擴(kuò)散)是基于 DPM(Diffusion Probabistic models)的改進(jìn)版本,DPM 是一種概率建模方法,旨在使用初始狀態(tài)的噪聲擾動(dòng)來生成圖像。模型會(huì)首先生成一張初始狀態(tài)的噪聲圖像,然后通過逐步的運(yùn)算過程逐漸消除噪聲,將圖像轉(zhuǎn)換為目標(biāo)圖像。這也是我們?cè)谶M(jìn)行 Stable Diffusion 繪圖時(shí),首先需要確定噪聲采樣方式和采樣步長(zhǎng)的原因。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

Stable Diffusion 是由 Stability AI COMP、VIZ LMU 和 Runway 合作發(fā)布的一種人工智能技術(shù),其源代碼在 2022 年 8 月公開于 GitHub,任何人都可以拷貝和使用。該模型是使用包含 15 億個(gè)圖像文本數(shù)據(jù)的公開數(shù)據(jù)集 Line 5B 進(jìn)行訓(xùn)練的。訓(xùn)練時(shí)使用了 256 個(gè) Nvidia A100 GPU,在亞馬遜網(wǎng)絡(luò)服務(wù)上花費(fèi)了 150,000 個(gè) GPU 小時(shí),總成本為 60 萬美元。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

Dall-E 是 OpenAI 公司于 2021 年 1 月發(fā)布的一種基于 Transformer 和 GAN 的文本到圖像生成算法,使用了大規(guī)模的預(yù)訓(xùn)練技術(shù)和自監(jiān)督學(xué)習(xí)方法。Dall-E 的訓(xùn)練集包括了超過 250 萬張圖像和文本描述的組合。該算法的靈感來源于 2020 年 7 月 OpenAI 發(fā)布的 GPT-3 模型,后者是一種可以生成具有語言能力的人工智能技術(shù)。Dall-E 則是將 GPT-3 的思想應(yīng)用于圖像生成,從而實(shí)現(xiàn)了文本到圖像的轉(zhuǎn)換。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

2022 年 2 月,OpenAI 發(fā)布了 Dall-E2。相比于上一版本,Dall-E2 生成的圖像質(zhì)量更高,而且可以生成更加復(fù)雜和多樣化的圖像。Dall-E2 的訓(xùn)練集包括了超過 1 億張圖像和文本描述的組合,比 Dall-E 的訓(xùn)練集大 40 倍。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

當(dāng)前 Dall-E 算法雖未開源,但已經(jīng)有人嘗試創(chuàng)建 Dall-E 的開源實(shí)現(xiàn)。比如,Crayon 前身為 Doy Mini,于 2022 年在 Hugging Face 的平臺(tái)上發(fā)布。

大部分的繪圖工具都是基于 Stable Diffusion、Dall-E 相關(guān)的或類似或衍生的算法開發(fā)的,尤其是已經(jīng)開源的穩(wěn)定擴(kuò)散算法。

以下是與此相關(guān)的幾個(gè)常見、廣泛使用的 AI 繪圖工具:Midjourney、Stable Diffusion、Dall-E、NovelAI、Disco Diffusion。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

二、AI 繪圖工具介紹

接下來給大家介紹市面上常見的 AI 繪圖工具:

1. Midjourney

Midjourney 是一個(gè)由 Leap Motion 的聯(lián)合創(chuàng)始人 David Holz 創(chuàng)立的獨(dú)立研究室,他們以相同的名稱制作了一個(gè)人工智能程序,也就是我們常聽到的 Midjourney 繪圖軟件。該軟件于 2022 年 7 月 12 日進(jìn)入公開測(cè)試階段,基于 Stable Diffusion 算法開發(fā),但尚未開源,只能通過 Discord 的機(jī)器人指令進(jìn)行操作。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

https://www.midjourney.com/app/

Discord 是一個(gè)在線聊天和語音交流平臺(tái),類似于我們常用的 QQ 聊天工具。Midjourney 官方提供了一個(gè) discord 機(jī)器人,用戶可以在 discord 中添加該機(jī)器人,進(jìn)入指定的服務(wù)器進(jìn)行繪圖操作。具體方法是,登錄 discord,在添加了 Midjourney Bot 的服務(wù)器中,在聊天框里輸入“image”,然后輸入繪圖指令即可。

Midjourney 是一個(gè)學(xué)習(xí)成本極低、操作簡(jiǎn)單的繪圖工具,生成的圖片非常有藝術(shù)感,因此以藝術(shù)風(fēng)格聞名。只需輸入任意關(guān)鍵詞即可獲得相對(duì)滿意的繪圖結(jié)果。繪圖者只需要專注于設(shè)計(jì)好玩實(shí)用的繪圖指令(Prompt),而無需花費(fèi)太多精力在軟件操作本身上。但是,Midjourney 的使用需要全程科學(xué)上網(wǎng),并且使用成本相對(duì)較高。由于軟件未開源,生成的圖片可能無法滿足用戶的特定需求,只能通過尋找合適的關(guān)鍵詞配合圖像編輯軟件來實(shí)現(xiàn)。

2. Stable Diffusion

Stable Diffusion 是一種算法和模型,由 Stability.ai、CompVis-LMU 和 Runway 共同發(fā)布,于 2022 年 8 月開源。因此,用戶可以下載 Stable Diffusion 的源代碼,并通過各種方式在自己的電腦上進(jìn)行本地部署。

將 Stable Diffusion 分解后,有以下幾個(gè)結(jié)構(gòu)和模型。在訓(xùn)練時(shí),輸入的訓(xùn)練圖像首先通過編碼器模塊進(jìn)行編碼,以進(jìn)行降維,例如從 512*512 降到 64*64,這將大大加快訓(xùn)練速度。輸入的文本長(zhǎng)度是不固定的,通過文本編碼器(通常是 clip 模型)將其轉(zhuǎn)換為固定長(zhǎng)度的向量以進(jìn)行計(jì)算。這兩者結(jié)合后,輸入到 UNET 網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練后,圖像通過解碼器解碼后恢復(fù)為 512*512 的圖像。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

生成圖像時(shí)候只需要帶入一個(gè)初始化了的噪聲圖像和文本,二者組合后輸入 UNET 網(wǎng)絡(luò)進(jìn)行去噪,最后通過 Dncoder 還原成清晰的圖像。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

大家可能會(huì)認(rèn)為安裝和部署 Stable Diffusion 很困難,因?yàn)樾枰惭b Python 運(yùn)行環(huán)境和一些依賴庫(kù),以及對(duì) Python 語言有一定的編程經(jīng)驗(yàn)。但是,有一些一鍵式的安裝包可以幫助你快速搭建 stable diffusion 的環(huán)境。這些安裝包包含了 Python 運(yùn)行環(huán)境和相關(guān)的依賴庫(kù)和代碼。只需要下載安裝包,然后根據(jù)指示進(jìn)行幾個(gè)簡(jiǎn)單的步驟,即可完成 Stable Diffusion 的安裝和部署。

最受歡迎的工具包是 GitHub 上 automatic 1111 用戶創(chuàng)建的 Stable Diffusion Web UI。它是基于 radio 庫(kù)的瀏覽器界面交互程序。具體的安裝視頻可以在各大知識(shí)平臺(tái)都可以搜到,這里就不展開了。

一鍵式安裝包(包含 Python 運(yùn)行環(huán)境,還集成了 Stable Diffusion 的相關(guān)依賴庫(kù)和代碼) https://github.com/AUTOMATIC1111/stable-diffusion-webui

目前最新的 stable diffusion 的版本是 2.1,但 2.0 以上版本砍掉了 NSFW 內(nèi)容和藝術(shù)家關(guān)鍵詞,相當(dāng)于封印了很多能力。

Stable Diffusion Web UI 只是運(yùn)行 Stable Diffusion 的可視化界面,就如一輛車子缺乏發(fā)動(dòng)機(jī),我們還需要從 Stability AI 的 Hugging Face 官網(wǎng)下載 Stable Diffusion 模型,才能開始運(yùn)行 Stable Diffusion 繪圖。

本地運(yùn)行 Stable Diffusion 需要較高的顯卡配置,建議使用顯存大于 8G 的 N 卡顯卡。如果配置不夠但還想體驗(yàn)一下,Stable Diffusion 有線上版本 DreamStudio,只是需要付費(fèi)使用。新用戶可以獲得 200 個(gè)點(diǎn)數(shù),每次標(biāo)準(zhǔn)生成將消耗一個(gè)點(diǎn)數(shù)。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

https://beta.dreamstudio.ai/generate?from=%2Fdream

3. Dall-E

Dall-E 是 OpenAI 旗下的一款 AI 繪圖工具軟件,與 ChatGPT 同屬于一個(gè)公司。最新版本 Dall-E 2 于 2022 年 2 月發(fā)布。Dall-E 可以在線使用,Dall-E 會(huì)根據(jù)這些文字描述生成一張或多張圖片,并顯示在屏幕上。用戶可以上傳自己的圖片,標(biāo)記圖像中的區(qū)域進(jìn)行進(jìn)一步的編輯和修改。Dall-E 還會(huì)根據(jù)已有圖像的視覺元素對(duì)圖像進(jìn)行二次加工,延展圖片邊界。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

https://labs.openai.com/

用戶在注冊(cè)的第一個(gè)月可以獲得 50 個(gè)免費(fèi)積分,每月可以獲得 15 個(gè)積分,每張圖片花費(fèi) 1 個(gè)積分。如果需要更多的圖像,用戶需要付費(fèi)。當(dāng)前,Dall-E 算法并未公開源代碼。

4. NovelAI

Nova AI 是由美國(guó)特拉華州的 Anlatan 公司開發(fā)的云端軟件。最初,該軟件于 2021 年 6 月 15 日推出測(cè)試版,其主要功能是輔助故事寫作。之后,在 2022 年 10 月 3 日,Nova AI 推出了圖像生成服務(wù),由于其生成的二次元圖片效果出眾,因此它被廣泛認(rèn)為是一個(gè)二次元圖像生成網(wǎng)站。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

https://novelai.net/

Nova AI 的圖像生成模型是使用 8 個(gè) Nvidia A100 GPU 在基于 Damburu 的約 530 萬張圖片的數(shù)據(jù)集上訓(xùn)練而得到的,其底層算法也是基于 stable diffusion 模型微調(diào)而來的。

使用 Nova AI 的方法很簡(jiǎn)單,只需登錄官方網(wǎng)站,進(jìn)入圖像生成界面,輸入關(guān)鍵字,即可生成圖像。此外,由于 Novel AI 曾經(jīng)發(fā)生過代碼泄露,因此也可以下載 Novoai 的模型(Naifu、Naifu-diffusion)在 Stable Diffusion web UI 中使用。

5. Disco Diffusion

Disco Diffusion 是最早流行起來的 AI 繪圖工具,發(fā)布于 Google Clab 平臺(tái)。它的源代碼完全公開且免費(fèi)使用,可通過瀏覽器運(yùn)行而無需對(duì)電腦進(jìn)行配置。Disco Diffusion 基于 Diffusion 擴(kuò)散模型開發(fā),是在 Stable Diffusion 發(fā)布之前最受歡迎的擴(kuò)散模型之一。然而,它在繪制人物方面表現(xiàn)不佳,且生成一張圖片需要十幾二十分鐘的時(shí)間,因此在 Stable Diffusion 發(fā)布后逐漸失去了市場(chǎng)熱度。

6. 其他工具

NiJiJourney 是一個(gè)專門針對(duì)二次元繪畫的 AI 繪畫軟件,由 Spellbrush 和 Midjourney 共同推出。使用方法與 Midjourney 基本相同,用戶可以在 Discord 上輸入相應(yīng)的繪畫指令進(jìn)行繪畫。目前 NiJiJourney 處于內(nèi)測(cè)階段,繪畫是免費(fèi)的,但是版權(quán)問題尚未明確表態(tài)。預(yù)計(jì)在正式公測(cè)時(shí),付費(fèi)用戶可以獲得商用權(quán)利,與 Midjourney 類似。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

Waifu Diffusion 是一種基于擴(kuò)散模型的 AI 繪圖模型,它的早期版本 1.4 在動(dòng)漫領(lǐng)域的繪圖效果與 NovelAI 非常相似。有些人甚至認(rèn)為 Waifu Diffusion 是在 NovelAI 模型的基礎(chǔ)上進(jìn)行微調(diào)得到的,但 Waifu Diffusion 團(tuán)隊(duì)表示他們的模型是 Trinart Derrida 和 Eimis Anime Diffusion 模型的合并結(jié)果。我們可以從 Hugging Face 上下載 Waifu Diffusion 模型,并在 Stable Diffusion Web UI 中使用它。

除此以外還有很多類似 Midjourney 的繪圖工具,幾乎都是基于 Stable Diffsion 或者類似算法進(jìn)行開發(fā)。如 Leonardo AI、BlueWillow AI、Playground AI、Dreamlike、NightCafe.studio 等等。有一些還具備圖像修改、圖像延展等功能,盡管這些軟件還處于測(cè)試階段,需要申請(qǐng)才能使用,但它們生成的圖片質(zhì)量不輸 Midjourney,因此常被拿來與 Midjourney 進(jìn)行對(duì)比。

① Leonardo AI

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

https://leonardo.ai/

② BlueWillow AI

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

https://www.bluewillow.ai/

③ Playground AI

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

https://playgroundai.com/

④ Dreamlike

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

https://dreamlike.art/

⑤ NightCafe.studio

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

https://nightcafe.studio/

三、模型訓(xùn)練相關(guān)名詞

AI 大模型,也被稱為基礎(chǔ)模型(Foundation Model),是指將大量數(shù)據(jù)導(dǎo)入具有數(shù)億甚至萬億級(jí)參數(shù)的模型中,通過人工智能算法進(jìn)行訓(xùn)練。Stable Diffusion、NovelAI、Dall-E 等模型都屬于大模型。這類大模型普遍的特點(diǎn)是參數(shù)多,訓(xùn)練時(shí)間長(zhǎng),具備泛化性、通用性、實(shí)用性,適用于各種場(chǎng)景的繪圖。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

這類 AI 大模型也存在一個(gè)普遍的缺點(diǎn),就是無法滿足對(duì)細(xì)節(jié)控制或特定人物特定繪圖風(fēng)格的繪圖需要。即便掌握了算法知識(shí),訓(xùn)練一個(gè)好的 AI 繪圖模型也需要強(qiáng)大的計(jì)算資源,這些計(jì)算資源對(duì)于普通人來說過于昂貴。例如 Stable Diffusion 在亞馬遜網(wǎng)絡(luò)服務(wù)上使用 256 個(gè) NVIDIA A100 GPU 進(jìn)行訓(xùn)練,總共花費(fèi)了 15 萬個(gè) GPU 小時(shí),成本為 60 萬美元。

于是,針對(duì)這些大模型的微調(diào)技術(shù)應(yīng)運(yùn)而生。為了達(dá)到繪制特定人物或特定繪圖風(fēng)格的需要,我們不需要重新訓(xùn)練大模型,只要提供幾張圖片和一張顯卡,幾個(gè)小時(shí)的時(shí)間就可以實(shí)現(xiàn)。也就是我們常聽說的 Embedding、Hypernetwork、Dreambooth、Lora、ControINet,它們都屬于大模型的微調(diào)技術(shù),可以在 Stable Diffusion Web UI 中進(jìn)行訓(xùn)練后使用,感興趣的話可以在 Civitai 進(jìn)行下載。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

1. Embedding

Text Coder 就像一本詞典,輸入文本后 Text Coder 能快速查找到符合要求的詞向量,

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

那如果出現(xiàn)新的關(guān)鍵詞,text coder 上找不到該怎么辦?這就是 Embedding 算法要做的事情,它通過訓(xùn)練在 Text Coder 中找到與新的詞特征、風(fēng)格相同的詞向量。例如這個(gè)麒麟訓(xùn)練后可以看作龍羊虎的組合。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

Embedding 算法不改變大模型的基本結(jié)構(gòu),也不改變 text coder,所以就能達(dá)到微調(diào)模型的目的。對(duì)于風(fēng)格的描述,一般需要較多的關(guān)鍵詞。Embedding 對(duì)于復(fù)雜的詞匯的調(diào)整結(jié)果并不太好,定義人物需要的關(guān)鍵詞少,所以適用于對(duì)人物的訓(xùn)練。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

② Hypernetwork

與 Embedding 不同,Hypernetwork 是作用在 UNET 網(wǎng)絡(luò)上的,UNET 神經(jīng)網(wǎng)絡(luò)相當(dāng)于一個(gè)函數(shù),內(nèi)部有非常多的參數(shù),Hypernetwork 通過新建一個(gè)神經(jīng)網(wǎng)絡(luò),稱之為超網(wǎng)絡(luò)。超網(wǎng)絡(luò)的輸出的結(jié)果是 UNET 網(wǎng)絡(luò)的參數(shù)。超網(wǎng)絡(luò)不像 UNET,它的參數(shù)少,所以訓(xùn)練速度比較快,因此 Hypernetwork 能達(dá)到以較小時(shí)間空間成本微調(diào)模型的目的。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

Hypernetwork 會(huì)影響整個(gè) UNET 的參數(shù)生成,理論上更適合風(fēng)格的訓(xùn)練。Stable Diffusion Web UI 上也繼承了 Embedding 和 Hypernetwork 的訓(xùn)練環(huán)境。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

3. Dreambooth

Dreambooth 是 Google 在 2022 年 8 月提出的一種新的網(wǎng)絡(luò)模型,它的強(qiáng)大之處在于能完整地保留你想要關(guān)鍵視覺特征。例如圖中最左邊的黃色鬧鐘上面一個(gè)醒目的黃色的。采用 Dreambooth 生成的新圖像可以準(zhǔn)確還原這個(gè)圖像最右邊這個(gè)樣子。這需要模型能夠準(zhǔn)確識(shí)別物體的細(xì)節(jié)。你只需提供 3- 5 張的圖像和文本提示作為輸入,就可以達(dá)到很好的效果。Dreambooth 適合人物訓(xùn)練,改版的 Dreambooth 方法 native train 適合于風(fēng)格的訓(xùn)練。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

Dreambooth 要求同時(shí)提供特征詞加類別和類別文本圖片信息帶入模型進(jìn)行訓(xùn)練,例如 a dog 和 a [V] dog。這樣做的好處是既可以保留類別的原始信息,又可以學(xué)習(xí)到特征詞加類別的新的信息。

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

4. LoRA

LoRA(Low-Rank Adaptation of large Language Models)是由微軟研究員開發(fā)的一種用于微調(diào)大模型的技術(shù)。該技術(shù)建議凍結(jié)預(yù)訓(xùn)練模型的權(quán)重,并在每個(gè) Transformer 塊中注入可訓(xùn)練層,從而在保持大部分參數(shù)不變的情況下,調(diào)整局部的一些模型參數(shù)。由于不需要重新計(jì)算模型的權(quán)重參數(shù)的梯度,這大大減少了需要訓(xùn)練的計(jì)算量,并降低了 GPU 的內(nèi)存要求。

使用 LoRA 模型進(jìn)行微調(diào)可以為我們提供更自由、更便捷的微調(diào)模型的方式。例如,它使我們能夠在基本模型的基礎(chǔ)上進(jìn)一步指定整體風(fēng)格、指定人臉等等。此外,LoRA 模型本身非常小,即插即用,非常方便易用。

5. Controlnet

Controlnet 是當(dāng)前備受矚目的 AI 繪圖算法之一。它是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過添加額外的條件來控制基礎(chǔ)擴(kuò)散模型,從而實(shí)現(xiàn)對(duì)圖像構(gòu)圖或人物姿勢(shì)的精細(xì)控制。結(jié)合文生圖的操作,它還能實(shí)現(xiàn)線稿轉(zhuǎn)全彩圖的功能。

Controlnet 的意義在于它不再需要通過大量的關(guān)鍵詞來堆砌構(gòu)圖效果。即使使用大量關(guān)鍵詞,生成的效果也難以令人滿意。借助 Controlnet 可以在最開始就引導(dǎo)它往你需要的構(gòu)圖方向上走,從而實(shí)現(xiàn)更準(zhǔn)確的圖像生成。

四 、VAE 模型的作用

正如我們之前介紹的,Stable Diffusion 在訓(xùn)練時(shí)會(huì)有一個(gè)編碼(Encoder)和解碼(Dncoder)的過程,我們將編碼和解碼模型稱為 VAE 模型。預(yù)訓(xùn)練的模型,如官網(wǎng)下載的 Stable Diffusion 模型,一般都是內(nèi)置了訓(xùn)練好的 VAE 模型的,不用我們?cè)兕~外掛載。但有些大模型并不內(nèi)置 VAE 模型,或者 VAE 模型經(jīng)過多次訓(xùn)練融合不能使用了,就需要額外下載,并在 Stable Diffusion Web UI 中添加設(shè)置。如果不添加,出圖的色彩飽和度可能會(huì)出問題,發(fā)灰或變得不清晰。大家可以根據(jù)模型說明信息來確定是否要下載 VAE。

歡迎關(guān)注作者微信公眾號(hào): AI Design Center

AI繪畫基礎(chǔ)科普!一次性幫你搞懂所有技術(shù)名詞

收藏 73
點(diǎn)贊 41

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。