1. 前言
目前市面上比較權威,并能用于工作中的 AI 繪畫軟件其實就兩款。一個叫 Midjourney(簡稱 MJ),另一個叫 Stable-Diffusion(簡稱 SD)。MJ 需要付費使用,而 SD 開源免費,但是上手難度和學習成本略大,并且非常吃電腦配置(顯卡、內存)。
E 和 Midjourney 相比,Stable Diffusion 最大的優勢是開源,這意味著 Stable Diffusion 的潛力巨大、發展飛快。由于開源免費屬性,SD 已經收獲了大量活躍用戶,開發者社群已經為此提供了大量免費高質量的外接預訓練模型(fine-tune)和插件,并且在持續維護更新。在第三方插件和模型的加持下,SD 擁有比 Midjourney 更加豐富的個性化功能,在經過使用者調教后可以生成更貼近需求的圖片,甚至在 AI 視頻特效、AI 音樂生成等領域,Stable Diffusion 也占據了一席之地。
Stable Diffusion 是一種潛在擴散模型(Latent Diffusion Model),能夠從文本描述中生成詳細的圖像。它還可以用于圖像修復、圖像繪制、文本到圖像和圖像到圖像等任務。簡單地說,我們只要給出想要的圖片的文字描述在提 Stable Diffusion 就能生成符合你要求的逼真的圖像!
2. 電腦配置
電腦配置最核心的關鍵點:看顯卡、看內存、看硬盤、看 CPU。其中最重要的是看顯卡。N 卡(英偉達 Nvida 獨立顯卡)首選,效率遠超集顯/AMD/Intel 顯卡和 CPU 渲染,最低 10 系起步,體驗感佳用 40 系,顯存最低 4G,6G 及格,上不封頂;內存最低 8G,16G 及格,上不封頂;硬盤可用空間最好有個 500G 朝上,固態最佳。
系統要求:支持 Win10/Win11/macOS(僅限 Apple Silicon,Intel 版本的 Mac 無法調用 Radeon 顯卡)和 Linux 系統,蘋果版 SD 兼容的插件數量較少,功能性不及 Windows 與 Linux 電腦。
如果身邊沒有合適的電腦可以考慮購買云主機,比如騰訊 GPU 云服務器。若無法使用獨立顯卡和云服務,亦可修改啟動配置,使用 CPU 渲染(兼容性強,出圖速度慢,需要 16G 以上內存)。
從圖中可看出,與 AMD 或英特爾的任何產品相比,Nvidia 的 GPU 提供了卓越的性能--有時是以巨大的優勢。隨著 Torch 的 DLL 修復到位,RTX 4090 的性能比帶有 xformers 的 RTX 3090 Ti 高出 50%,而沒有 xformers 的性能則高出 43%。生成每張圖片只需要三秒多。
3. 安裝方法
SD 開源地址: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki
目前大家普遍采用的 Stable Diffusion Web UI 是發布于開源程序分享網站 Github 的 Python 項目,和平常軟件安裝方法有所不同,不是下載安裝即可用的軟件,需要準備執行環境、編譯源碼,針對不同操作系統(操作系統依賴)、不同電腦(硬件依賴)還有做些手工調整,這需要使用者擁有一定的程序開發經驗(可以現學),已經有很多大佬們寫了詳細的安裝教程。(如 https://www.tonyisstark.com/846.html @托尼不是塔克)
如果像我一樣是小白不會裝,現在可以直接使用大佬們做的一鍵啟動程序包,比如國內@秋葉 aaaki 大大開發的整合包,極大的降低了安裝門檻(強烈推薦?。?/p>
(詳見 https://www.bilibili.com/video/BV1ne4y1V7QU )一鍵啟動包只是封裝了可視化的一鍵界面,不影響出圖效果,只是降低了本地部署的門檻。
Nvidia 顯卡用戶須知:在使用 SD 前,請登錄 Nvidia 官網 https://www.nvidia.cn/geforce/drivers/下載安裝對應顯卡最新版驅動程序 ,與 https://blog.csdn.net/weixin_44177494/article/details/120444922顯卡支持的最新版 CUDA 驅動。
4. 啟動 SD
進入 SD 安裝文件夾,雙擊 webui-user.bat,待其加載完成方可使用瀏覽器(Chrome/Edge)登錄默認的加載 IP:http://127.0.0.1:7860/
5. 界面漢化
如果需要中文語言包,可以下載如下中文語言包擴展,下載界面網址為: https://github.com/VinsonLaro/stable-diffusion-webui-chinese
方法 1:通過 WebUI 拓展進行安裝
- 打開 stable diffusion webui,進入"Extensions"選項卡
- 點擊"Install from URL",注意"URL for extension's git repository"下方的輸入框
- 粘貼或輸入本 Git 倉庫地址 https://github.com/VinsonLaro/stable-diffusion-webui-chinese
- 點擊下方的黃色按鈕"Install"即可完成安裝,然后重啟 WebUI(點擊"Install from URL"左方的"Installed",然后點擊黃色按鈕"Apply and restart UI"網頁下方的"Reload UI"完成重啟)
- 點擊"Settings",左側點擊"User interface"界面,在界面里最下方的"Localization (requires restart)",選擇"Chinese-All"或者"Chinese-English"
- 點擊界面最上方的黃色按鈕"Apply settings",再點擊右側的"Reload UI"即可完成漢化
1. 了解界面
接下來是具體的使用方法簡介。目前 SD 并不存在通行可靠的使用規范,每個人的電腦配置、需求都不盡相同,cpkd/Safetensors 大模型、VAE、embeding、lora 等 AI 模型、各類插件、提示詞、輸出參數的組合牽一發則動全身,需要大家有足夠的耐心查閱插件開發者的說明文檔和來自 https://civitai.com/等分享網站的使用心得 ,大家可以先到 civitai 上搜索中意的圖例,復用原作者的出圖提示詞、參數和模型,再以此修改,這樣學習的效果最為直觀。
文生圖:根據文本提示生成圖像
圖生圖:根據提供的圖像作為范本、結合文本提示生成圖像
更多:優化(清晰、擴展)圖像
圖片信息:顯示圖像基本信息,包含提示詞和模型信息(除非信息被隱藏)
模型合并:把已有的模型按不同比例進行合并生成新模型
訓練:根據提供的圖片訓練具有某種圖像風格的模型
描述語分為正向/負向描述,它們也叫 tag(標簽)或 prompt(提示詞)
正面提示詞:相比 Midjourney 需要寫得更精準和細致,描述少就給 AI 更多自由發揮空間。
負面提示詞:不想讓 SD 生成的內容。
正向:masterpiece, best quality, 更多畫質詞,畫面描述
反向:nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers,extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,根據畫面產出加不想出現的畫面。
生成按鈕下面的 5 個小圖標(從左到右依次分別是)
- 復原上次生成圖片的提示詞(自動記錄)
- 清空當前所有提示詞
- 打開模型選擇界面
- 應用選擇的風格模板到當前的提示詞
- 存檔當前的正反向提示詞
2. 采樣方法
- 建議根據自己使用的 checkpoint 使用腳本跑網格圖(用自己關心的參數)然后選擇自己想要的結果。
- 懶得對比:請使用 DPM++ 2M 或 DPM++ 2M Karras(二次元圖)或 UniPC,想要點驚喜和變化,Euler a、DPM++ SDE、DPM++ SDE Karras(寫實圖)、DPM2 a Karras(注意調整對應 eta 值)
- eta 和 sigma 都是多樣性相關的,但是它們的多樣性來自步數的變化,追求更大多樣性的話應該關注 seed 的變化,這兩項參數應該是在圖片框架被選定后,再在此基礎上做微調時使用的參數。
3. 采樣步數
此參數控制這些去噪步驟的數量。通常越高越好,但在一定程度上,我們使用的默認值是 25 個步驟。以下是不同情況下使用哪個步驟編號的指南:
- 如果您正在測試新的提示,并希望獲得快速結果來調整您的輸入,請使用 10-15 個步驟
- 當您找到您喜歡的提示時,請將步驟增加到 25
- 如果是有毛皮的動物或有紋理的主題,生成的圖像缺少一些細節,嘗試將其提高到 40
面部修復:修復人物的面部,但是非寫實風格的人物開啟面部修復可能導致面部崩壞。
平鋪:生成一張可以平鋪的圖像
高分辨率重繪:使用兩個步驟的過程進行生成,以較小的分辨率創建圖像,然后在不改變構圖的情況下改進其中的細節,選中該選項會有一系列新的參數,
其中重要的是:
放大算法:Latent 在許多情況下效果不錯,但重繪幅度小于 0.5 后就不甚理想。ESRGAN_4x、SwinR 4x 對 0.5 以下的重繪幅度有較好支持。
放大倍數: 通常 2 倍即可
重繪幅度:決定算法對圖像內容的保留程度。該值越高,放大后圖像就比放大前圖像差別越大。低 denoising 意味著修正原圖,高 denoising 就和原圖就沒有大的相關性了。一般來講閾值是 0.7 左右,超過 0.7 和原圖基本上無關,0.3 以下就是稍微改一些,0 什么都不會改變,1 會得到一個完全不同的圖像。具體的執行步驟為 重繪強度 * 重繪步數。
長寬尺寸(分辨率)
長寬尺寸并非數值越大越好,最佳的范圍應在 512 至 768 像素之間,比如正方形圖多是 512*512 和 768*768,人像肖像 512x768,風景畫 768×512,可按比例加大或減小,這個值必須是 8 的倍數。如果不希望主題對象出現重復,應在此范圍內選擇適當的尺寸。如果需要更高分辨率的圖片,建議先使用 SD 模型生成圖片,然后再使用合適的模型進行 upscale。
生成批次:每次生成圖像的組數。一次運行生成圖像的數量為生成批次 * 每批數量。
每批數量:同時生成多少個圖像。增加這個值可以提高性能,但你也需要更多的 VRAM。圖像總數是這個值乘以批次數。除 4090 等高級顯卡以外通常保持為 1。
提示詞相關性 CFG:較高的數值將提高生成結果與提示的匹配度。
OpenArt 上使用的默認 CFG 是 7,這在創造力和生成你想要的東西之間提供了最佳平衡。通常不建議低于 5。
CFG 量表可以分為不同的范圍,每個范圍都適合不同的提示類型和目標
- CFG 2 – 6:有創意,但可能太扭曲,沒有遵循提示。對于簡短的提示來說,可以很有趣和有用
- CFG 710:推薦用于大多數提示。創造力和引導一代之間的良好平衡
- CFG 10-15:當您確定提示是詳細且非常清晰的,您希望圖像是什么樣子時
- CFG 16-20:除非提示非常詳細,否則通常不推薦。可能影響一致性和質量
- CFG >20:幾乎無法使用
隨機種子(Seed):生成每張圖片時的隨機種子,這個種子是用來作為確定擴散初始狀態的基礎。不懂的話,用隨機的即可。
3. 提示詞生成
開始不知道怎么寫提示詞,可以先參考優秀的風格模板作為起手式,還可以借助描述語工具和網站,多出圖多研究,掌握了出圖規律,慢慢就可以自己寫提示詞啦,寫提示詞要盡可能寫的詳細。跑 AI 的過程就像抽卡,抽出一堆卡,選出你審美范疇里覺得好看的。
找 tag 關鍵詞網站:
- ChatGPT: https://chat.openai.com/
- NovelAI: https://spell.novelai.dev
4. Prompt 格式優化
第一段:畫質 tag,畫風 tag
第二段:畫面主體,主體強調,主體細節概括(主體可以是人、事、物、景)畫面核心內容
第三段:畫面場景細節,或人物細節,embedding tag。畫面細節內容
第二段一般提供人數,人物主要特征,主要動作(一般置于人物之前),物體主要特征,主景或景色框架等
舉個例子:(具體場景還是要靈活應用,多嘗試,找到合適自己的節奏和風格)
第一段:masterpiece, best quality, 4k, ( Pixar - style :1.4)
第二段:1boy,(Cute,handsome,wearing outdoor sportswear :0.7), 3D,(Face close-up :1.2), (at night, surrounded by glowing plants, flowers, flying fireflies, bonfires), (Ultra detailed, aesthetic, beautiful composition, rich bright colors, volumetric soft light).
第三段:Inspired by Alice in Wonderland, magic, fairy tales. unreal Engine, octane render, cuteness render, awe inspiring, beautiful,
5. Prompt 規則細節
①越靠前的 Tag 權重越大。
②生成圖片的大小會影響 Prompt 的效果,圖片越大需要的 Prompt 越多,不然 Prompt 會相互污染。
③Stable-diffusion 中,可以使用括號人工修改提示詞的權重,方法如下:
(word) - 將權重提高 1.1 倍
((word)) - 將權重提高 1.21 倍(= 1.1 * 1.1)
[word] - 將權重降低至原先的 90.91%
(word:1.5) - 將權重提高 1.5 倍
(word:0.25) - 將權重減少為原先的 25%
請注意,權重值最好不要超過 1.5
④Prompt 支持使用 emoji,可通過添加 emoji 達到表現效果。如??形容表情,??可修手。
⑤“+” , “ AND” , “|” 用法:“+”和“ AND ”都是用于連接短 Tag,但 AND 兩端要加空格。"+"約等于" and ";“|” 為循環繪制符號(融合符號)(Prompt A: w1)|(Prompt B: w2)
以上表達適用于 WebUI,w1、w2 為權重。AI 會對 A、B 兩 Prompt 進行循環繪制??赏鬅o限加入 Prompt。
⑥tag 不一定是多么充滿細節,只要模型穩定。小圖+高分辨率重繪。800*400 的圖變成 1600*800,初識小圖減少崩壞概率。
⑦關鍵詞最好具有特異性,譬如 Anime(動漫)一詞就相對泛化,而 JoJo 一詞就能清晰地指向 JoJo 動漫的畫風。措辭越不抽象越好,盡可能避免留下解釋空間的措辭。
1. 下載模型
主流模型下載網站:
- Hugging face 是一個專注于構建、訓練和部署先進開源機器學習模型的網站: https://huggingface.co/
- Civitai 是一個專為 Stable Diffusion AI 藝術模型設計的網站: https://civitai.com/
2. 模型選擇
如何選擇合適模型是最重要的。
從你想畫的風格(寫實、二次元、卡通盲盒等)來選擇大模型,再搭配合適的 Lora。
①Checkpoint
體積較大,也被稱為大模型,不同的大模型使用不同的圖片訓練而成,對應不同的風格,相當于最底層的引擎。有時候需要大模型+VAE+emb+Lora 聯合搭配使用以達到需要的效果。
下載的大模型可放置于 SD 文件夾/models/Stable-diffusion 內。
②Lora
Lora 是特征模型,體積較小,是基于某個確定的角色、確定的風格或者固定的動作訓練而成的模型,可使用權重控制,確定性要遠強于 embedding。embedding 和 Lora 有功能交集的部分,也有互相不可取代的地方。
在 ckpt 大模型上附加使用,對人物、姿勢、物體表現較好。在 webui 界面的 Additional Networks 下勾線 Enable 啟用,然后在 Model 下選擇模型,并可用 Weight 調整權重。權重越大,該 Lora 的影響也越大。不建議權重過大(超過 1.2),否則很容易出現扭曲的結果。
多個 Lora 模型混合使用可以起到疊加效果,譬如一個控制面部的 Lora 配合一個控制畫風的 Lora 就可以生成具有特定畫風的特定人物。因此可以使用多個專注于不同方面優化的 Lora,分別調整權重,結合出自己想要實現的效果。
LoHA 模型是一種 LORA 模型的改進。
下載的 Lora 可放置于 SD 文件夾/models/Lora 內。
③VAE
VAE 模型類似濾鏡,對畫面進行調色與微調,一般需要搭配相應的模型一起使用。(如果圖片比較灰,顏色不太靚麗,就可能是沒加載 vae)
下載的 VAE 可放置于 SD 文件夾/models/VAE 內。
④Textual inversion(embedding)
關鍵詞預設模型,即關鍵詞打包,即等于預設好一籃子關鍵詞 a,b,c 打包,進而來指代特定的對象/風格。也可以通過下載 Textual inversion 進行使用。
下載的 embedding 可放置于 SD 文件夾/embeddings 內。
ControlNet 使得 SD 從玩具變成做商業項目的神器,接下來會重中之重來詳細講解一下。
ControlNet 是斯坦福大學研究人員開發的 Stable Diffusion 的擴展,使創作者能夠輕松地控制 AI 圖像和視頻中的對象。它將根據邊緣檢測、草圖處理或人體姿勢等各種條件來控制圖像生成。ControlNet 可以概括為一種簡單的穩定擴散微調方法。ControlNet 的工作原理是將可訓練的網絡模塊附加到穩定擴散模型的 U-Net (噪聲預測器)的各個部分。Stable Diffusion 模型的權重是鎖定的,在訓練過程中它們是不變的。在訓練期間僅修改附加模塊。
1. 安裝
從 github 上找到并把網址填到擴展里安裝,安裝完后記得點擊 Apply and restart UI( https://github.com/Mikubill/sd-webui-controlnet )
- 將 ControlNet 模型(.pt、.pth、.ckpt 或.safetensors)放入 models/ControlNet 文件夾。
- 打開“txt2img”或“img2img”選項卡,寫下您的提示。
- 按“刷新模型”,選擇要使用的模型。(若沒有出現,請嘗試重新加載/重新啟動 webui)
- 上傳您的圖像并選擇預處理器,完成。
目前,它支持完整型號和修剪型號。使用 extract_controlnet.py 從原始.pth 文件中提取 controlnet。
預訓練模型: https://huggingface.co/lllyasviel/ControlNet/tree/main/models
2. 界面介紹
開啟:選中此框以啟用 ControlNet。
顏色反轉:交換黑色和白色。例如,它可以在您上傳涂鴉時使用。ControlNet 需要黑色背景和白色涂鴉。如果您使用白色背景的外部軟件創建涂鴉,則必須使用此選項。如果您使用 ControlNet 的界面創建涂鴉,則不需要使用此選項。
RGB 轉為 BGR:用于檢測用戶導入圖像中的顏色信息。有時圖像中的顏色信息可能與擴展所期望的不同。如果您上傳圖像并使用預處理,則無需選中此框。
低顯存:這將減緩 ETA 進程,但有助于使用更少的計算空間(顯存小于 8 GB VRAM 建議使用),檢查您是否用完了 GPU 內存,或者想要增加處理的圖像數量。
推測模式:ControlNet 自動識別圖像(不需要提示和負面提示)與選定的預處理器。它強制 ControlNet 編碼器遵循輸入控制圖(如深度、邊緣等),即使沒有提示也是如此。使用此模式時使用更高的步進,例如 50,但是這個效果不一定好。
權重(Weight):代表使用 ControlNet 生成圖片時被應用的權重占比。
引導介入時機(Guidance Start):在理解此功能之前,我們應該先知道生成圖片的 Sampling steps 采樣步數功能,步數代表生成一張圖片要刷新計算多少次,Guidance Start(T) 設置為 0 即代表開始時就介入,默認為 0,設置為 0.5 時即代表 ControlNet 從 50% 步數時開始介入計算。
引導退出時機(Guidance End):和引導介入時機相對應,如設置為 1,則表示在 100%計算完時才會退出介入也就是不退出,默認為 1,可調節范圍 0-1,如設置為 0.8 時即代表從 80% 步數時退出介入。
調整大小模式提供了調整 ControlNet 大小和上傳圖像的縱橫比。
Just Resize:不保留縱橫比的情況下,改變 ControlNet 圖像的大小以匹配 Txt2Img 設置的寬度和高度。這包括拉伸或壓縮圖像以適應指定的尺寸。
Scale to Fit (Inner Fit):調整 ControlNet 圖像的大小以適應 Txt2Image 的尺寸。
Envelope (Outer Fit):調整 Txt2Image 的大小以適應 ControlNet 圖像的尺寸。
畫布寬度 和 畫布高度:它會調整空白畫布的大小來進行繪制,不會影響上傳的原始圖像。
預覽圖片處理結果:能夠快速查看選擇的預處理器是如何將上傳的圖像或繪圖轉換為 ControlNet 的檢測圖。對在渲染輸出圖像之前嘗試各種預處理器有用,可節省我們的時間。
隱藏處理結果:刪除預覽圖像。
預處理器和模型是 ControlNet 的主要選項。
預處理器:用于對輸入圖像進行預處理,例如檢測邊緣、深度和法線貼圖。None 使用輸入圖像作為控制圖。 根據所需的輸出,用戶可以選擇相應的控制方法。
模型:如果您選擇了預處理器,您通常會選擇相應的模型。但是它并不限制你混合和匹配所有的預處理器和模型,但是混合多了就會產生負面效果,所以最好使用更加匹配的模型并且越少越好。ControlNet 模型與在 AUTOMATIC1111 GUI 頂部選擇的穩定擴散模型一起使用。
下面我們介紹幾個常用的 ControlNet,并在下面舉例說明如何使用它。
1. Canny 邊緣檢測
Canny 通過使用邊緣檢測器創建高對比度區域的輪廓來檢測輸入圖像。線條可以捕捉到非常詳細的信息,但如果你的圖像背景中有一些物體,它很可能會檢測到不需要的物體。所以背景中物體越少效果越好。用于此預處理器的最佳模型是 control_sd15_canny。
2. Depth & Depth Leres
這個預處理器有助于生成輸入圖像的深度估計。深度通常用于控制圖像內物體的空間定位。淺色區域意味著它離用戶更近,而深色區域則離用戶更遠。
在大圖像時它可能會丟失圖像內部的細節(面部表情等)。一般會與 control_sd15_depth 模型組合使用。Midas Resolution 函數用于增加或減少 detectmap 中的大小和細節級別。它的級別越高,將使用更多的 VRAM,但可以生成更高質量的圖像,反之亦然。
Depth Leres 有與 Depth 相同的基本概念,但在地圖中包含更廣泛的范圍。但有時它會從圖片中捕獲了太多信息,可能會生成與原始圖像略有不同的圖像。所以最好先試用兩種預處理器,然后決定哪一種。
3. HED (Holistically-Nested Edge Detection)
Hed 可以在物體周圍創建清晰和精細的邊界,輸出類似于 Canny,它的有效性在于能夠捕捉復雜的細節和輪廓,同時保留細節特征(面部表情、頭發、手指等)。Hed 預處理器可用于修改圖像的風格和顏色。用于此預處理器的最佳模型是 control_sd15_hed。
4. MLSD ( Mobile Line Segment Detection)
MLSD Preprocessor 最適合生成強有力的線條,這些線條能夠檢測出需要獨特和剛性輪廓的建筑和其他人造作品。但是它不適用于處理非剛性或彎曲的物體。MLSD 適用于生成室內布局或建筑結構,因為它可以突出直線和邊緣。用于此預處理器的最佳模型是 control_sd15_mlsd。
5. Normal map
法線圖使用了三種主要顏色(紅、綠、藍),通過不同的角度來精確定位物體的粗糙度和光滑程度。它生成法線圖可以保留相當多的細節,但可能會產生意想不到的結果,因為法線圖完全來自圖像,而不是在 3D 建模軟件中構建的。
法線圖有利于突出復雜的細節和輪廓,并且在定位對象方面也很有效,特別是在接近度和距離方面,設置一個更高的閾值可以移除背景的遠處部分,降低閾值將命令 AI 保留甚至顯示額外的背景元素。用于此預處理器的最佳模型是 control_sd15_normal。
6. OpenPose
這個預處理器生成了一個基本的骨骼火柴人形象。這種技術被廣泛采用,因為多個 OpenPose 骨架可以組合成一個圖像,骨架圖有很多關節點,每個點代表如下圖所示。
7. Scribble
涂鴉的目的是從簡單的黑白線條畫和草圖生成圖像。用戶也可以使用“Canvas”選項創建特定大小的空白畫布,用于手動素描(也可以直接上傳圖像)。如果草圖和繪圖由白色背景上的黑線組成,則需要選中“Invert Input Color”復選框。用于這個預處理器的最佳模型是 control_sd15_openpose。
8. Segmentation
分割預處理器檢測并將上傳的圖像分割為同一圖像內的段或區域。該模型在生成一組新的圖像時,將 detectmap 圖像應用于文本提示。用于此預處理器的最佳模型是 control_sd15_seg。
附錄:預處理器與對應模型清單
使用 AI 繪圖工具 Stable Diffusion 確實能提高美術工作者的生產效率,但是請記住:人工智能,沒有人工就沒有智能。Stable Diffusion 并不是簡單易上手的 APP,我們需要花費一定的時間和精力去學習和不斷調試,才能使其真正為我們所用,高效產出效果符合需求的圖片。
最后,我為大家簡單羅列一下使用 SD 的幾項核心能力:
- Github 使用能力,使用者在熟練掌握 Github 開源項目的安裝、調參、排錯、編程環境設置等技能后,就不會在 SD 報錯時六神無主了。
- 基礎出圖調試能力,這項能力能夠讓使用者無需協助就能自行摸索穩定輸出可用的圖片。
- Controlnet 構圖能力,基于 Controlnet 的構圖控制是美術從業者駕馭 SD 的韁繩,不會用 Controlnet,你只會被隨機噪聲牽著走。
- 學習插件并組合使用的能力。
- Lora 等小模型的訓練能力(進階)。
站在巨人的肩膀上
- https://avoid.overfit.cn/post/acbb609d015a40fc8d0cd26f8e215dd9
- https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#attentionemphasis
- https://muhou.net/document/236688.html
- https://guide.novelai.dev/guide/prompt-engineering/practice
- https://zhuanlan.zhihu.com/p/619721909
- https://zhuanlan.zhihu.com/p/612572004
- https://www.163.com/dy/article/I22IV66G0518R7MO.html
- https://stable-diffusion-art.com/controlnet/
歡迎關注作者的微信公眾號:生誮果Design
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
標志設計標準教程
已累計誕生 729 位幸運星
發表評論 為下方 15 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓