在 AI 生成的浪潮中,Stable Diffusion (SD)模型配以 Lora(低秩自適應)算法,為創作者開辟了一條低成本、高效率的個性化模型定制路徑。
相較于從頭訓練大型生成模型,Lora 通過在預訓練模型的基礎上進行輕量級微調,顯著降低了計算資源的需求和時間成本。同時保持了生成內容的高質量與獨特性。
由于Lora 模型的煉制流程較為復雜且涉及較多的概念。因此,我們將分為上下期來向大家介紹 Lora 模型的煉制流程。
本次我們將先介紹 Lora 模型煉制的前期準備、參數設置和打標簽。
一般來說, 底模的煉制需要借助大約 10~20 萬張相關的圖片進行煉制。而借助相對成熟的底模則可大大降低煉制圖片數量。且煉制方式和流程與線下煉制流程基本保持一致。
我們使用平臺 Liblib.AI 的 Lora 模型,進行 SD-Lora 模型訓練流程的一般化講解。這不僅簡化煉制方式、降低煉制成本且在細節上可以實現更好的私人化處理。
以下展示的就是 Liblib.AI 的 Lora 模型的展示界面。點擊「訓練我的 LoRA」 即可開始
Lora 模型訓練前期準備,需要完成數據集準備、模式選擇以及內容選擇。
數據集準備:生成目標圖片時,需要確定適合的模型系列(SD 1.5 或者 SDXL),并將參考圖片裁剪為對應尺寸。
模式選擇:在 Liblib·AI 的訓練平臺中,提供「自定義」,「XL」,「人像」,「ACG」,「畫風」這四種模式。這四種模式在訓練平臺上會導致默認選擇的底模不同,同時也在預覽的提示詞上也會有不同。四種基礎模式也決定了煉制 Lora 模型需要的數據集圖片數量。
我們綜合估量各類訓練平臺的模式,實現相對精準的模型訓練。總結出四類 Lora 模型所需的圖片數量。所需數量展示如下:
- 自定義/SDXL(一般):15~30 張;
- 人像(Character):10~50 張;
- 畫風(Style):100~4000 張(在線煉制平臺一般支持的上限是 2000 張);
- 概念(Concept):50~2000 張。
其中,Liblib·AI 中 ACG 模式所需圖片數量與畫風(Style)一致。
內容選擇:訓練 Lora 模型時,需要確定訓練所需的參考圖。其中需要考慮關于主體物不同維度的選擇:
不同角度;不同表情姿勢;不同光線場景;高清圖片。
以人像為例,在圖片選擇的時候,需要采用:
- 不同的面部表情;
- 不同的服裝;
- 不同的姿態;
- 不同的手的造型(如果有必要的話, 可以增加專門手的圖片)。
在 Liblib·AI 平臺中,參數設置分為三個部分:底模選擇,參數選擇,模型效果預覽提示詞。
底模選擇:Lora 模型的煉制需要借助對應的大模型(checkpoint),即底模。目前的底模大體上可以分為 SD1.5 和 SDXL 兩個系列,目前雖然 SD3 已經上線, 但其他配套的模型尚未成熟,故不在本次的介紹范圍之內。
而 SD1.5 和 SDXL 這兩個系列的區別目前僅在與生成圖片的效果, 一般來說 SDXL 系列的模型生成效果會更好。但是 SD1.5 系列的 Lora 模型適配的相關插件會更加全面。
以生成 3D 圖標的 Lora 模型為例,目前線上專注于 3D Icon 的底模一般采用 BDicon 和 DDicon 這兩個模型,如下所示:
當然,不是所有的主題都能找到對應的底模。如果沒有完全對應的底模的話,可以使用基礎模型,即 SD1.5 基礎模型和 SDXL 基礎模型。
參數選擇:相關參數分為基礎參數和高級參數,大部分時候只需要調整基礎參數的單張次數「Repeat」 和 循環輪次「Epoch」就能獲得很不錯的效果。重復率越高,人工智能就能更好的讀懂圖片,但實訓中,重復過高會導致過擬合,也就是學習過頭,對圖片認知固化,失去發散的能力。且需要更高的算力,更多時間。 相關參數的調整規則如下:
- Repeat 重復常規建議訓練參數:10-15
- Epoch 常規建議訓練參數:10-15
模型效果預覽提示詞:在模型訓練時,選擇準確的提示詞能達到事半功倍的效果。我們通常選擇相對簡單的預期效果的正向提示詞(Prompt),因為這里的提示詞生成的預覽圖的效果基本會和模型的訓練效果相關。
一般來說,預覽效果和數據集的特征一致,且樣式正常,可以做為 Lora 模型的訓練成功的標準之一。
在用戶上傳訓練模型所需圖片之后,需要設置裁剪方式、裁剪尺寸、打標算法、打標閾值和模型觸發詞。裁剪方式和打標閾值采用默認即可。
- 裁剪方式:按需選擇;
- 裁剪尺寸:按照模型對應圖片尺寸設定;
- 打標閾值:可選擇默認值。
在 LoRA 煉制過程中,模型觸發詞的編寫非常重要。模型觸發詞是指在訓練或使用 LoRA 模型時,用于激活或控制模型行為的關鍵詞或短語。這些觸發詞在模型訓練過程中起著關鍵作用,能夠幫助模型更好地理解和生成特定內容。
例如,在 Stable Diffusion 模型中,觸發詞如“full body, chibi”可以激活特定的 Lora 效果,從而生成相應的圖像。如果使用不當,可能會導致模型無法正確響應,從而影響最終的效果。
1. 觸發詞的編寫方法
打標簽的時候會以觸發詞為開頭,其余的部分根據圖片中的元素特征來分別標注。
① 使用不存在的單詞:
在編寫觸發詞時,建議使用一個目前不存在的單詞,這樣可以避免與現有詞匯沖突,從而確保模型的正確響應。
② 結合具體場景:
觸發詞最好結合具體的使用場景和需求來編寫,確保模型能夠準確理解并執行相應的操作。例如,在生成特定風格的圖像時,可以使用描述該風格的觸發詞。
③ 避免常見詞匯:
觸發詞應避免使用常見的詞匯,以免與模型的默認設置或已有功能沖突,影響模型的響應效果(建議拼音或縮寫)。
2. 打標簽注意點:
① 標注目標與原則:
明確標注:標注者專注于為圖像中可變的、受外部條件影響的特征打標簽,如本例中的 “衣服特征”,因為這些特征是模型需要學習以區分不同情境下的同一對象的關鍵。
不標注固有特征:對于對象自身固有的、不變的特征,如“plum”(假設這是一個虛構人物 或角色)的“棕色頭發”和“短發”,這些是該對象的獨有身份標識,它們不隨環境或情境變 化,模型應該在學習過程中自動關聯這些特征與特定觸發詞(如“plu”)。
② 模型學習目標:
學會關聯觸發詞與固有特征:模型應當通過訓練學會,當遇到“plu”這樣的觸發詞時,自動 聯想并識別出“plum”具有的固有特征,如“棕色”和“短發”。
排除非固有特征:通過不標注這些固有特征,模型被引導去理解“plu”不可能對應到“黑色 長發”或其他不符合“plum”身份的發型,即“plu”等同于“棕色短發”等特定特征集合。
③ 訓練黃金法則:
未標注即內在獨有特:如果某個特征沒有被特意作為標簽給出,那么模型應當視其為對象的不可變屬性,是模型應當通過學習自行關聯到觸發詞的身份標識。
完成上述步驟后點擊「開始訓練」,即可開始模型訓練。
怎么來評價一個 lora 模型煉制的好壞呢?
從個人角度來看,生出來的圖像能夠滿足自己的預期就是好的 lora 模型,好的模型能夠適應多種任務和場景,具有較高的多用途性和兼容性。
當然也可以從客觀的角度,觀察在煉制過程中的 loss 值,一個好的模型的 Loss 值應當呈現一個較為平滑的下降曲線。但 Loss 值并不是唯一的評價標準,還需要結合其他指標和實際效果來綜合評價。
本次分享內容是訓練一個高質量的 SD-Lora 模型的核心。但這只是開始。接下來我們將深入探討模型訓練的其他參數對訓練結果的影響,以及模型的調優技巧,敬請期待!
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
標志設計標準教程
已累計誕生 729 位幸運星
發表評論 為下方 3 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓