国产精品一区二区三区美女,亚洲欧美校园春色,亚洲人成伊人成综合图片

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

近期，以 Stable Diffusion、Dall-E、Midjourney 等軟件或算法為代表的 AI 繪圖技術(shù)引起了廣泛關(guān)注。尤其是自 2022 年 8 月 Stable Diffusion 模型開源以來，更是加速了這一領(lǐng)域的發(fā)展。

對(duì)于初學(xué)者來說，面對(duì)這些令人驚嘆的 AI 繪圖作品，他們既想了解繪圖軟件的使用和技巧，又面對(duì)著諸如 Lora、ControlNet、Dall-E 等復(fù)雜術(shù)語，不知道從何入手。通過收集資料，本文將從以下四個(gè)方面介紹目前最流行的 AI 繪圖工具和模型訓(xùn)練方法，力求用通俗易懂的語言幫助大家理清術(shù)語背后的真實(shí)含義。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

一、文生圖算法簡(jiǎn)介

text to image 技術(shù)，又稱為文生圖，是一種基于自然語言描述生成圖像的技術(shù)。其歷史可以追溯到 20 世紀(jì) 80 年代。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，特別是卷積神經(jīng)網(wǎng)絡(luò) CNN 和循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 的出現(xiàn)，text to image 技術(shù)開始采用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和生成。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

GAN（generative adversarial networks）和 VAE（variational auto encoder）算法是最早被應(yīng)用于 text to image 任務(wù)的算法。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

隨著計(jì)算機(jī)硬件和算法的不斷進(jìn)步，越來越多的新算法涌現(xiàn)出來，例如 Stable Diffusion 和 Dall-E 等。相較于傳統(tǒng)算法如 GAN 和 VAE，這些新算法在生成高分辨率、高質(zhì)量的圖片方面表現(xiàn)更加卓越。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

Stable Diffusion（穩(wěn)定擴(kuò)散）是基于 DPM（Diffusion Probabistic models）的改進(jìn)版本，DPM 是一種概率建模方法，旨在使用初始狀態(tài)的噪聲擾動(dòng)來生成圖像。模型會(huì)首先生成一張初始狀態(tài)的噪聲圖像，然后通過逐步的運(yùn)算過程逐漸消除噪聲，將圖像轉(zhuǎn)換為目標(biāo)圖像。這也是我們?cè)谶M(jìn)行 Stable Diffusion 繪圖時(shí)，首先需要確定噪聲采樣方式和采樣步長(zhǎng)的原因。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

Stable Diffusion 是由 Stability AI COMP、VIZ LMU 和 Runway 合作發(fā)布的一種人工智能技術(shù)，其源代碼在 2022 年 8 月公開于 GitHub，任何人都可以拷貝和使用。該模型是使用包含 15 億個(gè)圖像文本數(shù)據(jù)的公開數(shù)據(jù)集 Line 5B 進(jìn)行訓(xùn)練的。訓(xùn)練時(shí)使用了 256 個(gè) Nvidia A100 GPU，在亞馬遜網(wǎng)絡(luò)服務(wù)上花費(fèi)了 150,000 個(gè) GPU 小時(shí)，總成本為 60 萬美元。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

Dall-E 是 OpenAI 公司于 2021 年 1 月發(fā)布的一種基于 Transformer 和 GAN 的文本到圖像生成算法，使用了大規(guī)模的預(yù)訓(xùn)練技術(shù)和自監(jiān)督學(xué)習(xí)方法。Dall-E 的訓(xùn)練集包括了超過 250 萬張圖像和文本描述的組合。該算法的靈感來源于 2020 年 7 月 OpenAI 發(fā)布的 GPT-3 模型，后者是一種可以生成具有語言能力的人工智能技術(shù)。Dall-E 則是將 GPT-3 的思想應(yīng)用于圖像生成，從而實(shí)現(xiàn)了文本到圖像的轉(zhuǎn)換。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

2022 年 2 月，OpenAI 發(fā)布了 Dall-E2。相比于上一版本，Dall-E2 生成的圖像質(zhì)量更高，而且可以生成更加復(fù)雜和多樣化的圖像。Dall-E2 的訓(xùn)練集包括了超過 1 億張圖像和文本描述的組合，比 Dall-E 的訓(xùn)練集大 40 倍。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

當(dāng)前 Dall-E 算法雖未開源，但已經(jīng)有人嘗試創(chuàng)建 Dall-E 的開源實(shí)現(xiàn)。比如，Crayon 前身為 Doy Mini，于 2022 年在 Hugging Face 的平臺(tái)上發(fā)布。

大部分的繪圖工具都是基于 Stable Diffusion、Dall-E 相關(guān)的或類似或衍生的算法開發(fā)的，尤其是已經(jīng)開源的穩(wěn)定擴(kuò)散算法。

以下是與此相關(guān)的幾個(gè)常見、廣泛使用的 AI 繪圖工具：Midjourney、Stable Diffusion、Dall-E、NovelAI、Disco Diffusion。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

二、AI 繪圖工具介紹

接下來給大家介紹市面上常見的 AI 繪圖工具：

1. Midjourney

Midjourney 是一個(gè)由 Leap Motion 的聯(lián)合創(chuàng)始人 David Holz 創(chuàng)立的獨(dú)立研究室，他們以相同的名稱制作了一個(gè)人工智能程序，也就是我們常聽到的 Midjourney 繪圖軟件。該軟件于 2022 年 7 月 12 日進(jìn)入公開測(cè)試階段，基于 Stable Diffusion 算法開發(fā)，但尚未開源，只能通過 Discord 的機(jī)器人指令進(jìn)行操作。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

https://www.midjourney.com/app/

Discord 是一個(gè)在線聊天和語音交流平臺(tái)，類似于我們常用的 QQ 聊天工具。Midjourney 官方提供了一個(gè) discord 機(jī)器人，用戶可以在 discord 中添加該機(jī)器人，進(jìn)入指定的服務(wù)器進(jìn)行繪圖操作。具體方法是，登錄 discord，在添加了 Midjourney Bot 的服務(wù)器中，在聊天框里輸入“image”，然后輸入繪圖指令即可。

Midjourney 是一個(gè)學(xué)習(xí)成本極低、操作簡(jiǎn)單的繪圖工具，生成的圖片非常有藝術(shù)感，因此以藝術(shù)風(fēng)格聞名。只需輸入任意關(guān)鍵詞即可獲得相對(duì)滿意的繪圖結(jié)果。繪圖者只需要專注于設(shè)計(jì)好玩實(shí)用的繪圖指令（Prompt），而無需花費(fèi)太多精力在軟件操作本身上。但是，Midjourney 的使用需要全程科學(xué)上網(wǎng)，并且使用成本相對(duì)較高。由于軟件未開源，生成的圖片可能無法滿足用戶的特定需求，只能通過尋找合適的關(guān)鍵詞配合圖像編輯軟件來實(shí)現(xiàn)。

超詳細(xì)！AI 繪畫神器 Midjourney 基礎(chǔ)使用手冊(cè)

一、前提條件需要魔法：新用戶可免費(fèi)創(chuàng)作 25 張圖片，超過需要辦會(huì)員版權(quán)問題：會(huì)員生成的圖片版權(quán)歸創(chuàng)作者所有 Midjourney相關(guān)資訊：二、注冊(cè)/鏈接服務(wù)器溫馨提示：下方多圖預(yù)警 1. 注冊(cè)、創(chuàng)建服務(wù)器 ① 打開Midjourney官網(wǎng)，右下角選擇"J

閱讀文章 >

2. Stable Diffusion

Stable Diffusion 是一種算法和模型，由 Stability.ai、CompVis-LMU 和 Runway 共同發(fā)布，于 2022 年 8 月開源。因此，用戶可以下載 Stable Diffusion 的源代碼，并通過各種方式在自己的電腦上進(jìn)行本地部署。

將 Stable Diffusion 分解后，有以下幾個(gè)結(jié)構(gòu)和模型。在訓(xùn)練時(shí)，輸入的訓(xùn)練圖像首先通過編碼器模塊進(jìn)行編碼，以進(jìn)行降維，例如從 512*512 降到 64*64，這將大大加快訓(xùn)練速度。輸入的文本長(zhǎng)度是不固定的，通過文本編碼器（通常是 clip 模型）將其轉(zhuǎn)換為固定長(zhǎng)度的向量以進(jìn)行計(jì)算。這兩者結(jié)合后，輸入到 UNET 網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練后，圖像通過解碼器解碼后恢復(fù)為 512*512 的圖像。

超詳細(xì)！AI 繪畫神器 Stable Diffusion 基礎(chǔ)教程

一、AI 繪畫工具的選擇與運(yùn)用 1. 工作場(chǎng)景下 AI 繪畫工具的選擇目前文生圖的主流 AI 繪畫平臺(tái)主要有三種：Midjourney、Stable Diffusion、DALL·E。

閱讀文章 >

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

生成圖像時(shí)候只需要帶入一個(gè)初始化了的噪聲圖像和文本，二者組合后輸入 UNET 網(wǎng)絡(luò)進(jìn)行去噪，最后通過 Dncoder 還原成清晰的圖像。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

大家可能會(huì)認(rèn)為安裝和部署 Stable Diffusion 很困難，因?yàn)樾枰惭b Python 運(yùn)行環(huán)境和一些依賴庫(kù)，以及對(duì) Python 語言有一定的編程經(jīng)驗(yàn)。但是，有一些一鍵式的安裝包可以幫助你快速搭建 stable diffusion 的環(huán)境。這些安裝包包含了 Python 運(yùn)行環(huán)境和相關(guān)的依賴庫(kù)和代碼。只需要下載安裝包，然后根據(jù)指示進(jìn)行幾個(gè)簡(jiǎn)單的步驟，即可完成 Stable Diffusion 的安裝和部署。

最受歡迎的工具包是 GitHub 上 automatic 1111 用戶創(chuàng)建的 Stable Diffusion Web UI。它是基于 radio 庫(kù)的瀏覽器界面交互程序。具體的安裝視頻可以在各大知識(shí)平臺(tái)都可以搜到，這里就不展開了。

一鍵式安裝包（包含 Python 運(yùn)行環(huán)境，還集成了 Stable Diffusion 的相關(guān)依賴庫(kù)和代碼） https://github.com/AUTOMATIC1111/stable-diffusion-webui

目前最新的 stable diffusion 的版本是 2.1，但 2.0 以上版本砍掉了 NSFW 內(nèi)容和藝術(shù)家關(guān)鍵詞，相當(dāng)于封印了很多能力。

Stable Diffusion Web UI 只是運(yùn)行 Stable Diffusion 的可視化界面，就如一輛車子缺乏發(fā)動(dòng)機(jī)，我們還需要從 Stability AI 的 Hugging Face 官網(wǎng)下載 Stable Diffusion 模型，才能開始運(yùn)行 Stable Diffusion 繪圖。

本地運(yùn)行 Stable Diffusion 需要較高的顯卡配置，建議使用顯存大于 8G 的 N 卡顯卡。如果配置不夠但還想體驗(yàn)一下，Stable Diffusion 有線上版本 DreamStudio，只是需要付費(fèi)使用。新用戶可以獲得 200 個(gè)點(diǎn)數(shù)，每次標(biāo)準(zhǔn)生成將消耗一個(gè)點(diǎn)數(shù)。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

https://beta.dreamstudio.ai/generate?from=%2Fdream

3. Dall-E

Dall-E 是 OpenAI 旗下的一款 AI 繪圖工具軟件，與 ChatGPT 同屬于一個(gè)公司。最新版本 Dall-E 2 于 2022 年 2 月發(fā)布。Dall-E 可以在線使用，Dall-E 會(huì)根據(jù)這些文字描述生成一張或多張圖片，并顯示在屏幕上。用戶可以上傳自己的圖片，標(biāo)記圖像中的區(qū)域進(jìn)行進(jìn)一步的編輯和修改。Dall-E 還會(huì)根據(jù)已有圖像的視覺元素對(duì)圖像進(jìn)行二次加工，延展圖片邊界。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

https://labs.openai.com/

用戶在注冊(cè)的第一個(gè)月可以獲得 50 個(gè)免費(fèi)積分，每月可以獲得 15 個(gè)積分，每張圖片花費(fèi) 1 個(gè)積分。如果需要更多的圖像，用戶需要付費(fèi)。當(dāng)前，Dall-E 算法并未公開源代碼。

4. NovelAI

Nova AI 是由美國(guó)特拉華州的 Anlatan 公司開發(fā)的云端軟件。最初，該軟件于 2021 年 6 月 15 日推出測(cè)試版，其主要功能是輔助故事寫作。之后，在 2022 年 10 月 3 日，Nova AI 推出了圖像生成服務(wù)，由于其生成的二次元圖片效果出眾，因此它被廣泛認(rèn)為是一個(gè)二次元圖像生成網(wǎng)站。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

https://novelai.net/

Nova AI 的圖像生成模型是使用 8 個(gè) Nvidia A100 GPU 在基于 Damburu 的約 530 萬張圖片的數(shù)據(jù)集上訓(xùn)練而得到的，其底層算法也是基于 stable diffusion 模型微調(diào)而來的。

使用 Nova AI 的方法很簡(jiǎn)單，只需登錄官方網(wǎng)站，進(jìn)入圖像生成界面，輸入關(guān)鍵字，即可生成圖像。此外，由于 Novel AI 曾經(jīng)發(fā)生過代碼泄露，因此也可以下載 Novoai 的模型（Naifu、Naifu-diffusion）在 Stable Diffusion web UI 中使用。

5. Disco Diffusion

Disco Diffusion 是最早流行起來的 AI 繪圖工具，發(fā)布于 Google Clab 平臺(tái)。它的源代碼完全公開且免費(fèi)使用，可通過瀏覽器運(yùn)行而無需對(duì)電腦進(jìn)行配置。Disco Diffusion 基于 Diffusion 擴(kuò)散模型開發(fā)，是在 Stable Diffusion 發(fā)布之前最受歡迎的擴(kuò)散模型之一。然而，它在繪制人物方面表現(xiàn)不佳，且生成一張圖片需要十幾二十分鐘的時(shí)間，因此在 Stable Diffusion 發(fā)布后逐漸失去了市場(chǎng)熱度。

6. 其他工具

NiJiJourney 是一個(gè)專門針對(duì)二次元繪畫的 AI 繪畫軟件，由 Spellbrush 和 Midjourney 共同推出。使用方法與 Midjourney 基本相同，用戶可以在 Discord 上輸入相應(yīng)的繪畫指令進(jìn)行繪畫。目前 NiJiJourney 處于內(nèi)測(cè)階段，繪畫是免費(fèi)的，但是版權(quán)問題尚未明確表態(tài)。預(yù)計(jì)在正式公測(cè)時(shí)，付費(fèi)用戶可以獲得商用權(quán)利，與 Midjourney 類似。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

Waifu Diffusion 是一種基于擴(kuò)散模型的 AI 繪圖模型，它的早期版本 1.4 在動(dòng)漫領(lǐng)域的繪圖效果與 NovelAI 非常相似。有些人甚至認(rèn)為 Waifu Diffusion 是在 NovelAI 模型的基礎(chǔ)上進(jìn)行微調(diào)得到的，但 Waifu Diffusion 團(tuán)隊(duì)表示他們的模型是 Trinart Derrida 和 Eimis Anime Diffusion 模型的合并結(jié)果。我們可以從 Hugging Face 上下載 Waifu Diffusion 模型，并在 Stable Diffusion Web UI 中使用它。

除此以外還有很多類似 Midjourney 的繪圖工具，幾乎都是基于 Stable Diffsion 或者類似算法進(jìn)行開發(fā)。如 Leonardo AI、BlueWillow AI、Playground AI、Dreamlike、NightCafe.studio 等等。有一些還具備圖像修改、圖像延展等功能，盡管這些軟件還處于測(cè)試階段，需要申請(qǐng)才能使用，但它們生成的圖片質(zhì)量不輸 Midjourney，因此常被拿來與 Midjourney 進(jìn)行對(duì)比。

① Leonardo AI

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

https://leonardo.ai/

② BlueWillow AI

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

https://www.bluewillow.ai/

③ Playground AI

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

https://playgroundai.com/

④ Dreamlike

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

https://dreamlike.art/

⑤ NightCafe.studio

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

https://nightcafe.studio/

三、模型訓(xùn)練相關(guān)名詞

AI 大模型，也被稱為基礎(chǔ)模型（Foundation Model），是指將大量數(shù)據(jù)導(dǎo)入具有數(shù)億甚至萬億級(jí)參數(shù)的模型中，通過人工智能算法進(jìn)行訓(xùn)練。Stable Diffusion、NovelAI、Dall-E 等模型都屬于大模型。這類大模型普遍的特點(diǎn)是參數(shù)多，訓(xùn)練時(shí)間長(zhǎng)，具備泛化性、通用性、實(shí)用性，適用于各種場(chǎng)景的繪圖。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

這類 AI 大模型也存在一個(gè)普遍的缺點(diǎn)，就是無法滿足對(duì)細(xì)節(jié)控制或特定人物特定繪圖風(fēng)格的繪圖需要。即便掌握了算法知識(shí)，訓(xùn)練一個(gè)好的 AI 繪圖模型也需要強(qiáng)大的計(jì)算資源，這些計(jì)算資源對(duì)于普通人來說過于昂貴。例如 Stable Diffusion 在亞馬遜網(wǎng)絡(luò)服務(wù)上使用 256 個(gè) NVIDIA A100 GPU 進(jìn)行訓(xùn)練，總共花費(fèi)了 15 萬個(gè) GPU 小時(shí)，成本為 60 萬美元。

于是，針對(duì)這些大模型的微調(diào)技術(shù)應(yīng)運(yùn)而生。為了達(dá)到繪制特定人物或特定繪圖風(fēng)格的需要，我們不需要重新訓(xùn)練大模型，只要提供幾張圖片和一張顯卡，幾個(gè)小時(shí)的時(shí)間就可以實(shí)現(xiàn)。也就是我們常聽說的 Embedding、Hypernetwork、Dreambooth、Lora、ControINet，它們都屬于大模型的微調(diào)技術(shù)，可以在 Stable Diffusion Web UI 中進(jìn)行訓(xùn)練后使用，感興趣的話可以在 Civitai 進(jìn)行下載。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

1. Embedding

Text Coder 就像一本詞典，輸入文本后 Text Coder 能快速查找到符合要求的詞向量，

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

那如果出現(xiàn)新的關(guān)鍵詞，text coder 上找不到該怎么辦？這就是 Embedding 算法要做的事情，它通過訓(xùn)練在 Text Coder 中找到與新的詞特征、風(fēng)格相同的詞向量。例如這個(gè)麒麟訓(xùn)練后可以看作龍羊虎的組合。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

Embedding 算法不改變大模型的基本結(jié)構(gòu)，也不改變 text coder，所以就能達(dá)到微調(diào)模型的目的。對(duì)于風(fēng)格的描述，一般需要較多的關(guān)鍵詞。Embedding 對(duì)于復(fù)雜的詞匯的調(diào)整結(jié)果并不太好，定義人物需要的關(guān)鍵詞少，所以適用于對(duì)人物的訓(xùn)練。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

② Hypernetwork

與 Embedding 不同，Hypernetwork 是作用在 UNET 網(wǎng)絡(luò)上的，UNET 神經(jīng)網(wǎng)絡(luò)相當(dāng)于一個(gè)函數(shù)，內(nèi)部有非常多的參數(shù)，Hypernetwork 通過新建一個(gè)神經(jīng)網(wǎng)絡(luò)，稱之為超網(wǎng)絡(luò)。超網(wǎng)絡(luò)的輸出的結(jié)果是 UNET 網(wǎng)絡(luò)的參數(shù)。超網(wǎng)絡(luò)不像 UNET，它的參數(shù)少，所以訓(xùn)練速度比較快，因此 Hypernetwork 能達(dá)到以較小時(shí)間空間成本微調(diào)模型的目的。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

Hypernetwork 會(huì)影響整個(gè) UNET 的參數(shù)生成，理論上更適合風(fēng)格的訓(xùn)練。Stable Diffusion Web UI 上也繼承了 Embedding 和 Hypernetwork 的訓(xùn)練環(huán)境。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

3. Dreambooth

Dreambooth 是 Google 在 2022 年 8 月提出的一種新的網(wǎng)絡(luò)模型，它的強(qiáng)大之處在于能完整地保留你想要關(guān)鍵視覺特征。例如圖中最左邊的黃色鬧鐘上面一個(gè)醒目的黃色的。采用 Dreambooth 生成的新圖像可以準(zhǔn)確還原這個(gè)圖像最右邊這個(gè)樣子。這需要模型能夠準(zhǔn)確識(shí)別物體的細(xì)節(jié)。你只需提供 3- 5 張的圖像和文本提示作為輸入，就可以達(dá)到很好的效果。Dreambooth 適合人物訓(xùn)練，改版的 Dreambooth 方法 native train 適合于風(fēng)格的訓(xùn)練。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

Dreambooth 要求同時(shí)提供特征詞加類別和類別文本圖片信息帶入模型進(jìn)行訓(xùn)練，例如 a dog 和 a [V] dog。這樣做的好處是既可以保留類別的原始信息，又可以學(xué)習(xí)到特征詞加類別的新的信息。

AI繪畫基礎(chǔ)科普！一次性幫你搞懂所有技術(shù)名詞

4. LoRA

LoRA（Low-Rank Adaptation of large Language Models）是由微軟研究員開發(fā)的一種用于微調(diào)大模型的技術(shù)。該技術(shù)建議凍結(jié)預(yù)訓(xùn)練模型的權(quán)重，并在每個(gè) Transformer 塊中注入可訓(xùn)練層，從而在保持大部分參數(shù)不變的情況下，調(diào)整局部的一些模型參數(shù)。由于不需要重新計(jì)算模型的權(quán)重參數(shù)的梯度，這大大減少了需要訓(xùn)練的計(jì)算量，并降低了 GPU 的內(nèi)存要求。

使用 LoRA 模型進(jìn)行微調(diào)可以為我們提供更自由、更便捷的微調(diào)模型的方式。例如，它使我們能夠在基本模型的基礎(chǔ)上進(jìn)一步指定整體風(fēng)格、指定人臉等等。此外，LoRA 模型本身非常小，即插即用，非常方便易用。

5. Controlnet

Controlnet 是當(dāng)前備受矚目的 AI 繪圖算法之一。它是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，通過添加額外的條件來控制基礎(chǔ)擴(kuò)散模型，從而實(shí)現(xiàn)對(duì)圖像構(gòu)圖或人物姿勢(shì)的精細(xì)控制。結(jié)合文生圖的操作，它還能實(shí)現(xiàn)線稿轉(zhuǎn)全彩圖的功能。

Controlnet 的意義在于它不再需要通過大量的關(guān)鍵詞來堆砌構(gòu)圖效果。即使使用大量關(guān)鍵詞，生成的效果也難以令人滿意。借助 Controlnet 可以在最開始就引導(dǎo)它往你需要的構(gòu)圖方向上走，從而實(shí)現(xiàn)更準(zhǔn)確的圖像生成。

四、VAE 模型的作用

正如我們之前介紹的，Stable Diffusion 在訓(xùn)練時(shí)會(huì)有一個(gè)編碼（Encoder）和解碼（Dncoder）的過程，我們將編碼和解碼模型稱為 VAE 模型。預(yù)訓(xùn)練的模型，如官網(wǎng)下載的 Stable Diffusion 模型，一般都是內(nèi)置了訓(xùn)練好的 VAE 模型的，不用我們?cè)兕~外掛載。但有些大模型并不內(nèi)置 VAE 模型，或者 VAE 模型經(jīng)過多次訓(xùn)練融合不能使用了，就需要額外下載，并在 Stable Diffusion Web UI 中添加設(shè)置。如果不添加，出圖的色彩飽和度可能會(huì)出問題，發(fā)灰或變得不清晰。大家可以根據(jù)模型說明信息來確定是否要下載 VAE。