近期,以 Stable Diffusion、Dall-E、Midjourney 等軟件或算法為代表的 AI 繪圖技術(shù)引起了廣泛關(guān)注。尤其是自 2022 年 8 月 Stable Diffusion 模型開源以來,更是加速了這一領(lǐng)域的發(fā)展。
對(duì)于初學(xué)者來說,面對(duì)這些令人驚嘆的 AI 繪圖作品,他們既想了解繪圖軟件的使用和技巧,又面對(duì)著諸如 Lora、ControlNet、Dall-E 等復(fù)雜術(shù)語,不知道從何入手。通過收集資料,本文將從以下四個(gè)方面介紹目前最流行的 AI 繪圖工具和模型訓(xùn)練方法,力求用通俗易懂的語言幫助大家理清術(shù)語背后的真實(shí)含義。
text to image 技術(shù),又稱為文生圖,是一種基于自然語言描述生成圖像的技術(shù)。其歷史可以追溯到 20 世紀(jì) 80 年代。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò) CNN 和循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 的出現(xiàn),text to image 技術(shù)開始采用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和生成。
GAN(generative adversarial networks)和 VAE(variational auto encoder)算法是最早被應(yīng)用于 text to image 任務(wù)的算法。
隨著計(jì)算機(jī)硬件和算法的不斷進(jìn)步,越來越多的新算法涌現(xiàn)出來,例如 Stable Diffusion 和 Dall-E 等。相較于傳統(tǒng)算法如 GAN 和 VAE,這些新算法在生成高分辨率、高質(zhì)量的圖片方面表現(xiàn)更加卓越。
Stable Diffusion(穩(wěn)定擴(kuò)散)是基于 DPM(Diffusion Probabistic models)的改進(jìn)版本,DPM 是一種概率建模方法,旨在使用初始狀態(tài)的噪聲擾動(dòng)來生成圖像。模型會(huì)首先生成一張初始狀態(tài)的噪聲圖像,然后通過逐步的運(yùn)算過程逐漸消除噪聲,將圖像轉(zhuǎn)換為目標(biāo)圖像。這也是我們?cè)谶M(jìn)行 Stable Diffusion 繪圖時(shí),首先需要確定噪聲采樣方式和采樣步長(zhǎng)的原因。
Stable Diffusion 是由 Stability AI COMP、VIZ LMU 和 Runway 合作發(fā)布的一種人工智能技術(shù),其源代碼在 2022 年 8 月公開于 GitHub,任何人都可以拷貝和使用。該模型是使用包含 15 億個(gè)圖像文本數(shù)據(jù)的公開數(shù)據(jù)集 Line 5B 進(jìn)行訓(xùn)練的。訓(xùn)練時(shí)使用了 256 個(gè) Nvidia A100 GPU,在亞馬遜網(wǎng)絡(luò)服務(wù)上花費(fèi)了 150,000 個(gè) GPU 小時(shí),總成本為 60 萬美元。
Dall-E 是 OpenAI 公司于 2021 年 1 月發(fā)布的一種基于 Transformer 和 GAN 的文本到圖像生成算法,使用了大規(guī)模的預(yù)訓(xùn)練技術(shù)和自監(jiān)督學(xué)習(xí)方法。Dall-E 的訓(xùn)練集包括了超過 250 萬張圖像和文本描述的組合。該算法的靈感來源于 2020 年 7 月 OpenAI 發(fā)布的 GPT-3 模型,后者是一種可以生成具有語言能力的人工智能技術(shù)。Dall-E 則是將 GPT-3 的思想應(yīng)用于圖像生成,從而實(shí)現(xiàn)了文本到圖像的轉(zhuǎn)換。
2022 年 2 月,OpenAI 發(fā)布了 Dall-E2。相比于上一版本,Dall-E2 生成的圖像質(zhì)量更高,而且可以生成更加復(fù)雜和多樣化的圖像。Dall-E2 的訓(xùn)練集包括了超過 1 億張圖像和文本描述的組合,比 Dall-E 的訓(xùn)練集大 40 倍。
當(dāng)前 Dall-E 算法雖未開源,但已經(jīng)有人嘗試創(chuàng)建 Dall-E 的開源實(shí)現(xiàn)。比如,Crayon 前身為 Doy Mini,于 2022 年在 Hugging Face 的平臺(tái)上發(fā)布。
大部分的繪圖工具都是基于 Stable Diffusion、Dall-E 相關(guān)的或類似或衍生的算法開發(fā)的,尤其是已經(jīng)開源的穩(wěn)定擴(kuò)散算法。
以下是與此相關(guān)的幾個(gè)常見、廣泛使用的 AI 繪圖工具:Midjourney、Stable Diffusion、Dall-E、NovelAI、Disco Diffusion。
接下來給大家介紹市面上常見的 AI 繪圖工具:
1. Midjourney
Midjourney 是一個(gè)由 Leap Motion 的聯(lián)合創(chuàng)始人 David Holz 創(chuàng)立的獨(dú)立研究室,他們以相同的名稱制作了一個(gè)人工智能程序,也就是我們常聽到的 Midjourney 繪圖軟件。該軟件于 2022 年 7 月 12 日進(jìn)入公開測(cè)試階段,基于 Stable Diffusion 算法開發(fā),但尚未開源,只能通過 Discord 的機(jī)器人指令進(jìn)行操作。
https://www.midjourney.com/app/
Discord 是一個(gè)在線聊天和語音交流平臺(tái),類似于我們常用的 QQ 聊天工具。Midjourney 官方提供了一個(gè) discord 機(jī)器人,用戶可以在 discord 中添加該機(jī)器人,進(jìn)入指定的服務(wù)器進(jìn)行繪圖操作。具體方法是,登錄 discord,在添加了 Midjourney Bot 的服務(wù)器中,在聊天框里輸入“image”,然后輸入繪圖指令即可。
Midjourney 是一個(gè)學(xué)習(xí)成本極低、操作簡(jiǎn)單的繪圖工具,生成的圖片非常有藝術(shù)感,因此以藝術(shù)風(fēng)格聞名。只需輸入任意關(guān)鍵詞即可獲得相對(duì)滿意的繪圖結(jié)果。繪圖者只需要專注于設(shè)計(jì)好玩實(shí)用的繪圖指令(Prompt),而無需花費(fèi)太多精力在軟件操作本身上。但是,Midjourney 的使用需要全程科學(xué)上網(wǎng),并且使用成本相對(duì)較高。由于軟件未開源,生成的圖片可能無法滿足用戶的特定需求,只能通過尋找合適的關(guān)鍵詞配合圖像編輯軟件來實(shí)現(xiàn)。
2. Stable Diffusion
Stable Diffusion 是一種算法和模型,由 Stability.ai、CompVis-LMU 和 Runway 共同發(fā)布,于 2022 年 8 月開源。因此,用戶可以下載 Stable Diffusion 的源代碼,并通過各種方式在自己的電腦上進(jìn)行本地部署。
將 Stable Diffusion 分解后,有以下幾個(gè)結(jié)構(gòu)和模型。在訓(xùn)練時(shí),輸入的訓(xùn)練圖像首先通過編碼器模塊進(jìn)行編碼,以進(jìn)行降維,例如從 512*512 降到 64*64,這將大大加快訓(xùn)練速度。輸入的文本長(zhǎng)度是不固定的,通過文本編碼器(通常是 clip 模型)將其轉(zhuǎn)換為固定長(zhǎng)度的向量以進(jìn)行計(jì)算。這兩者結(jié)合后,輸入到 UNET 網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練后,圖像通過解碼器解碼后恢復(fù)為 512*512 的圖像。
生成圖像時(shí)候只需要帶入一個(gè)初始化了的噪聲圖像和文本,二者組合后輸入 UNET 網(wǎng)絡(luò)進(jìn)行去噪,最后通過 Dncoder 還原成清晰的圖像。
大家可能會(huì)認(rèn)為安裝和部署 Stable Diffusion 很困難,因?yàn)樾枰惭b Python 運(yùn)行環(huán)境和一些依賴庫(kù),以及對(duì) Python 語言有一定的編程經(jīng)驗(yàn)。但是,有一些一鍵式的安裝包可以幫助你快速搭建 stable diffusion 的環(huán)境。這些安裝包包含了 Python 運(yùn)行環(huán)境和相關(guān)的依賴庫(kù)和代碼。只需要下載安裝包,然后根據(jù)指示進(jìn)行幾個(gè)簡(jiǎn)單的步驟,即可完成 Stable Diffusion 的安裝和部署。
最受歡迎的工具包是 GitHub 上 automatic 1111 用戶創(chuàng)建的 Stable Diffusion Web UI。它是基于 radio 庫(kù)的瀏覽器界面交互程序。具體的安裝視頻可以在各大知識(shí)平臺(tái)都可以搜到,這里就不展開了。
一鍵式安裝包(包含 Python 運(yùn)行環(huán)境,還集成了 Stable Diffusion 的相關(guān)依賴庫(kù)和代碼) https://github.com/AUTOMATIC1111/stable-diffusion-webui
目前最新的 stable diffusion 的版本是 2.1,但 2.0 以上版本砍掉了 NSFW 內(nèi)容和藝術(shù)家關(guān)鍵詞,相當(dāng)于封印了很多能力。
Stable Diffusion Web UI 只是運(yùn)行 Stable Diffusion 的可視化界面,就如一輛車子缺乏發(fā)動(dòng)機(jī),我們還需要從 Stability AI 的 Hugging Face 官網(wǎng)下載 Stable Diffusion 模型,才能開始運(yùn)行 Stable Diffusion 繪圖。
本地運(yùn)行 Stable Diffusion 需要較高的顯卡配置,建議使用顯存大于 8G 的 N 卡顯卡。如果配置不夠但還想體驗(yàn)一下,Stable Diffusion 有線上版本 DreamStudio,只是需要付費(fèi)使用。新用戶可以獲得 200 個(gè)點(diǎn)數(shù),每次標(biāo)準(zhǔn)生成將消耗一個(gè)點(diǎn)數(shù)。
https://beta.dreamstudio.ai/generate?from=%2Fdream
3. Dall-E
Dall-E 是 OpenAI 旗下的一款 AI 繪圖工具軟件,與 ChatGPT 同屬于一個(gè)公司。最新版本 Dall-E 2 于 2022 年 2 月發(fā)布。Dall-E 可以在線使用,Dall-E 會(huì)根據(jù)這些文字描述生成一張或多張圖片,并顯示在屏幕上。用戶可以上傳自己的圖片,標(biāo)記圖像中的區(qū)域進(jìn)行進(jìn)一步的編輯和修改。Dall-E 還會(huì)根據(jù)已有圖像的視覺元素對(duì)圖像進(jìn)行二次加工,延展圖片邊界。
用戶在注冊(cè)的第一個(gè)月可以獲得 50 個(gè)免費(fèi)積分,每月可以獲得 15 個(gè)積分,每張圖片花費(fèi) 1 個(gè)積分。如果需要更多的圖像,用戶需要付費(fèi)。當(dāng)前,Dall-E 算法并未公開源代碼。
4. NovelAI
Nova AI 是由美國(guó)特拉華州的 Anlatan 公司開發(fā)的云端軟件。最初,該軟件于 2021 年 6 月 15 日推出測(cè)試版,其主要功能是輔助故事寫作。之后,在 2022 年 10 月 3 日,Nova AI 推出了圖像生成服務(wù),由于其生成的二次元圖片效果出眾,因此它被廣泛認(rèn)為是一個(gè)二次元圖像生成網(wǎng)站。
Nova AI 的圖像生成模型是使用 8 個(gè) Nvidia A100 GPU 在基于 Damburu 的約 530 萬張圖片的數(shù)據(jù)集上訓(xùn)練而得到的,其底層算法也是基于 stable diffusion 模型微調(diào)而來的。
使用 Nova AI 的方法很簡(jiǎn)單,只需登錄官方網(wǎng)站,進(jìn)入圖像生成界面,輸入關(guān)鍵字,即可生成圖像。此外,由于 Novel AI 曾經(jīng)發(fā)生過代碼泄露,因此也可以下載 Novoai 的模型(Naifu、Naifu-diffusion)在 Stable Diffusion web UI 中使用。
5. Disco Diffusion
Disco Diffusion 是最早流行起來的 AI 繪圖工具,發(fā)布于 Google Clab 平臺(tái)。它的源代碼完全公開且免費(fèi)使用,可通過瀏覽器運(yùn)行而無需對(duì)電腦進(jìn)行配置。Disco Diffusion 基于 Diffusion 擴(kuò)散模型開發(fā),是在 Stable Diffusion 發(fā)布之前最受歡迎的擴(kuò)散模型之一。然而,它在繪制人物方面表現(xiàn)不佳,且生成一張圖片需要十幾二十分鐘的時(shí)間,因此在 Stable Diffusion 發(fā)布后逐漸失去了市場(chǎng)熱度。
6. 其他工具
NiJiJourney 是一個(gè)專門針對(duì)二次元繪畫的 AI 繪畫軟件,由 Spellbrush 和 Midjourney 共同推出。使用方法與 Midjourney 基本相同,用戶可以在 Discord 上輸入相應(yīng)的繪畫指令進(jìn)行繪畫。目前 NiJiJourney 處于內(nèi)測(cè)階段,繪畫是免費(fèi)的,但是版權(quán)問題尚未明確表態(tài)。預(yù)計(jì)在正式公測(cè)時(shí),付費(fèi)用戶可以獲得商用權(quán)利,與 Midjourney 類似。
Waifu Diffusion 是一種基于擴(kuò)散模型的 AI 繪圖模型,它的早期版本 1.4 在動(dòng)漫領(lǐng)域的繪圖效果與 NovelAI 非常相似。有些人甚至認(rèn)為 Waifu Diffusion 是在 NovelAI 模型的基礎(chǔ)上進(jìn)行微調(diào)得到的,但 Waifu Diffusion 團(tuán)隊(duì)表示他們的模型是 Trinart Derrida 和 Eimis Anime Diffusion 模型的合并結(jié)果。我們可以從 Hugging Face 上下載 Waifu Diffusion 模型,并在 Stable Diffusion Web UI 中使用它。
除此以外還有很多類似 Midjourney 的繪圖工具,幾乎都是基于 Stable Diffsion 或者類似算法進(jìn)行開發(fā)。如 Leonardo AI、BlueWillow AI、Playground AI、Dreamlike、NightCafe.studio 等等。有一些還具備圖像修改、圖像延展等功能,盡管這些軟件還處于測(cè)試階段,需要申請(qǐng)才能使用,但它們生成的圖片質(zhì)量不輸 Midjourney,因此常被拿來與 Midjourney 進(jìn)行對(duì)比。
① Leonardo AI
② BlueWillow AI
③ Playground AI
④ Dreamlike
⑤ NightCafe.studio
AI 大模型,也被稱為基礎(chǔ)模型(Foundation Model),是指將大量數(shù)據(jù)導(dǎo)入具有數(shù)億甚至萬億級(jí)參數(shù)的模型中,通過人工智能算法進(jìn)行訓(xùn)練。Stable Diffusion、NovelAI、Dall-E 等模型都屬于大模型。這類大模型普遍的特點(diǎn)是參數(shù)多,訓(xùn)練時(shí)間長(zhǎng),具備泛化性、通用性、實(shí)用性,適用于各種場(chǎng)景的繪圖。
這類 AI 大模型也存在一個(gè)普遍的缺點(diǎn),就是無法滿足對(duì)細(xì)節(jié)控制或特定人物特定繪圖風(fēng)格的繪圖需要。即便掌握了算法知識(shí),訓(xùn)練一個(gè)好的 AI 繪圖模型也需要強(qiáng)大的計(jì)算資源,這些計(jì)算資源對(duì)于普通人來說過于昂貴。例如 Stable Diffusion 在亞馬遜網(wǎng)絡(luò)服務(wù)上使用 256 個(gè) NVIDIA A100 GPU 進(jìn)行訓(xùn)練,總共花費(fèi)了 15 萬個(gè) GPU 小時(shí),成本為 60 萬美元。
于是,針對(duì)這些大模型的微調(diào)技術(shù)應(yīng)運(yùn)而生。為了達(dá)到繪制特定人物或特定繪圖風(fēng)格的需要,我們不需要重新訓(xùn)練大模型,只要提供幾張圖片和一張顯卡,幾個(gè)小時(shí)的時(shí)間就可以實(shí)現(xiàn)。也就是我們常聽說的 Embedding、Hypernetwork、Dreambooth、Lora、ControINet,它們都屬于大模型的微調(diào)技術(shù),可以在 Stable Diffusion Web UI 中進(jìn)行訓(xùn)練后使用,感興趣的話可以在 Civitai 進(jìn)行下載。
1. Embedding
Text Coder 就像一本詞典,輸入文本后 Text Coder 能快速查找到符合要求的詞向量,
那如果出現(xiàn)新的關(guān)鍵詞,text coder 上找不到該怎么辦?這就是 Embedding 算法要做的事情,它通過訓(xùn)練在 Text Coder 中找到與新的詞特征、風(fēng)格相同的詞向量。例如這個(gè)麒麟訓(xùn)練后可以看作龍羊虎的組合。
Embedding 算法不改變大模型的基本結(jié)構(gòu),也不改變 text coder,所以就能達(dá)到微調(diào)模型的目的。對(duì)于風(fēng)格的描述,一般需要較多的關(guān)鍵詞。Embedding 對(duì)于復(fù)雜的詞匯的調(diào)整結(jié)果并不太好,定義人物需要的關(guān)鍵詞少,所以適用于對(duì)人物的訓(xùn)練。
② Hypernetwork
與 Embedding 不同,Hypernetwork 是作用在 UNET 網(wǎng)絡(luò)上的,UNET 神經(jīng)網(wǎng)絡(luò)相當(dāng)于一個(gè)函數(shù),內(nèi)部有非常多的參數(shù),Hypernetwork 通過新建一個(gè)神經(jīng)網(wǎng)絡(luò),稱之為超網(wǎng)絡(luò)。超網(wǎng)絡(luò)的輸出的結(jié)果是 UNET 網(wǎng)絡(luò)的參數(shù)。超網(wǎng)絡(luò)不像 UNET,它的參數(shù)少,所以訓(xùn)練速度比較快,因此 Hypernetwork 能達(dá)到以較小時(shí)間空間成本微調(diào)模型的目的。
Hypernetwork 會(huì)影響整個(gè) UNET 的參數(shù)生成,理論上更適合風(fēng)格的訓(xùn)練。Stable Diffusion Web UI 上也繼承了 Embedding 和 Hypernetwork 的訓(xùn)練環(huán)境。
3. Dreambooth
Dreambooth 是 Google 在 2022 年 8 月提出的一種新的網(wǎng)絡(luò)模型,它的強(qiáng)大之處在于能完整地保留你想要關(guān)鍵視覺特征。例如圖中最左邊的黃色鬧鐘上面一個(gè)醒目的黃色的。采用 Dreambooth 生成的新圖像可以準(zhǔn)確還原這個(gè)圖像最右邊這個(gè)樣子。這需要模型能夠準(zhǔn)確識(shí)別物體的細(xì)節(jié)。你只需提供 3- 5 張的圖像和文本提示作為輸入,就可以達(dá)到很好的效果。Dreambooth 適合人物訓(xùn)練,改版的 Dreambooth 方法 native train 適合于風(fēng)格的訓(xùn)練。
Dreambooth 要求同時(shí)提供特征詞加類別和類別文本圖片信息帶入模型進(jìn)行訓(xùn)練,例如 a dog 和 a [V] dog。這樣做的好處是既可以保留類別的原始信息,又可以學(xué)習(xí)到特征詞加類別的新的信息。
4. LoRA
LoRA(Low-Rank Adaptation of large Language Models)是由微軟研究員開發(fā)的一種用于微調(diào)大模型的技術(shù)。該技術(shù)建議凍結(jié)預(yù)訓(xùn)練模型的權(quán)重,并在每個(gè) Transformer 塊中注入可訓(xùn)練層,從而在保持大部分參數(shù)不變的情況下,調(diào)整局部的一些模型參數(shù)。由于不需要重新計(jì)算模型的權(quán)重參數(shù)的梯度,這大大減少了需要訓(xùn)練的計(jì)算量,并降低了 GPU 的內(nèi)存要求。
使用 LoRA 模型進(jìn)行微調(diào)可以為我們提供更自由、更便捷的微調(diào)模型的方式。例如,它使我們能夠在基本模型的基礎(chǔ)上進(jìn)一步指定整體風(fēng)格、指定人臉等等。此外,LoRA 模型本身非常小,即插即用,非常方便易用。
5. Controlnet
Controlnet 是當(dāng)前備受矚目的 AI 繪圖算法之一。它是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過添加額外的條件來控制基礎(chǔ)擴(kuò)散模型,從而實(shí)現(xiàn)對(duì)圖像構(gòu)圖或人物姿勢(shì)的精細(xì)控制。結(jié)合文生圖的操作,它還能實(shí)現(xiàn)線稿轉(zhuǎn)全彩圖的功能。
Controlnet 的意義在于它不再需要通過大量的關(guān)鍵詞來堆砌構(gòu)圖效果。即使使用大量關(guān)鍵詞,生成的效果也難以令人滿意。借助 Controlnet 可以在最開始就引導(dǎo)它往你需要的構(gòu)圖方向上走,從而實(shí)現(xiàn)更準(zhǔn)確的圖像生成。
正如我們之前介紹的,Stable Diffusion 在訓(xùn)練時(shí)會(huì)有一個(gè)編碼(Encoder)和解碼(Dncoder)的過程,我們將編碼和解碼模型稱為 VAE 模型。預(yù)訓(xùn)練的模型,如官網(wǎng)下載的 Stable Diffusion 模型,一般都是內(nèi)置了訓(xùn)練好的 VAE 模型的,不用我們?cè)兕~外掛載。但有些大模型并不內(nèi)置 VAE 模型,或者 VAE 模型經(jīng)過多次訓(xùn)練融合不能使用了,就需要額外下載,并在 Stable Diffusion Web UI 中添加設(shè)置。如果不添加,出圖的色彩飽和度可能會(huì)出問題,發(fā)灰或變得不清晰。大家可以根據(jù)模型說明信息來確定是否要下載 VAE。
歡迎關(guān)注作者微信公眾號(hào): AI Design Center
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 729 位幸運(yùn)星
發(fā)表評(píng)論 為下方 1 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓