都是“墊圖”,誰能還原你心中的圖
“墊圖”這個概念大家肯定都不陌生,此前當無法準確用 prompt 描述心中那副圖時,最簡單的辦法就是找一張近似的,然后 img2img 流程啟動,一切搞定。
更多墊圖干貨:
可 img2img 簡單的同時,也有它繞不過去的局限性,比如對 prompt 的還原度不足、生成畫面多樣性弱,特別是當需要加入 controlnet 來進行多層控制時,參考圖、模型、controlnet 的搭配就需要精心挑選,不然出圖效果常常讓人當場裂開…
但現在,我們有了新的“墊圖”神器——IP-Adapter,在解讀它之前,先來直觀的感受一下它的效果。
效果可以說相當炸,那 IP-Adapter 就是終極答案了么?它的泛化性如何?兼容性是否足夠?對 prompt 支持怎么樣?當真的要接入現實工作中它還有什么拓展的能力呢?讓我們一一來看。
IP-Adapter 的核心優勢,只畫你關心的事
IP-Adapter 和 img2img 雖然在操作上都是“墊圖”,但它們的底層實現可以說是毫無關系。
用個不嚴謹但好理解的例子,“IP-Adapter”和“img2img”就是兩位畫師,現在給出 prompt 要求它倆畫一個男人,在不提供參考圖的情況下,它們大概都會畫成圖 1 的模樣,但是當我們加上參考圖 2 的時候,兩者的區別就顯現了。
img2img 相當于直接蓋在參考圖上開始臨摹,雖然知道要畫個男人,但會在老虎的基礎上去修改,始終會很別扭,中間不免出現老虎和男人混淆的情況,畫出一些強行混合不知所謂的圖來。因為在這個流程中,參考圖更為重要,一切是在它基礎上畫出來的,結果也更傾向于參考圖。
IP-Adapter 則不是臨摹,而是真正的自己去畫,它始終記得 prompt 知道自己要畫個男人,中間更像請來了徐悲鴻這樣的藝術大師,將怎么把老虎和人的特點融為一體,講解得偏僻入里,所以過程中一直在給“男人”加上“老虎”的元素,比如金黃的瞳仁、王字型的抬頭紋、虎紋的須發等等。此時,prompt 更為重要,因為這才是它的始終目標。
當然這些都是在一定的參數范圍內,超過了閾值,那必然是要走極端的,照著參考圖去 copy 了。但即便這樣也可以看到 img2img 只是 1:1 的復制,而 IP-Adapter 有更多 prompt 的影子。
把簡單的“墊圖”,拓展得大有前途
在理解 IP-Adapter 的邏輯之后,會發現它帶來的改變可不只是“墊圖”,這里先展示一下它在我們工作中的實例,然后再和大家一步步的去拆解它。
以上這些效果實現很簡單,只需要添加兩層 controlnet,一層用來提供 IP-Adapter,一層利用 canny 用來對需要添加的商品進行繪制、固化即可。
如果只是在 webui 中應用,那到這里其實已經 ok 了。但這次我們要更進一步,利用新工具,去實現更有創造力的能力。
以下重點想分享的更多是工程搭建的能力和效果(具體的方法,我們會放到以后詳細的講解):
① 一張圖就是一個lora,大大降低了訓練的成本
② 多參考圖接入,提供更豐富的生成結果
③ 利用對prompt的強注意力,提供prompt matrix豐富結果
④ 基于comfyui的工作流部署,實現多步驟自動化生成
以往要想實現一個具體的設計風格,需要針對性的訓練 lora,背后涉及訓練素材的搜集、打標、模型訓練、效果檢驗等多個環節,通常要花一兩天,并且結果還存在很強的不確定性。
但現在,通過 IP-Adapter 這一個步驟,在幾分鐘內就直觀的看到結果,大大節省了時間,敏捷程度簡直天壤之別。
當我們擁有這些特征,幾乎就得到一個“即時 lora”,而需要付出的成本只是去找幾張符合預期的參考圖。
同時 IP-Adapter 還能一次讀取多張參考圖,讓生成的結果擁有更豐富的多樣性和隨機性,這是在 img2img 流程中無法實現的,也是兩者之間區別最大的地方。
此刻,讓我們把思路再打開一些,因為 IP-Adapter 對 prompt 的強注意力,prompt 中的信息能更直觀的反應在結果中。于是我們可以在繼承 img 風格的同時,通過替換 prompt 里面的關鍵詞,指向不同的結果,形成 prompt 的組合矩陣,更進一步的拓展生成結果的多樣性。
更進一步,再加入不同的 controlnet 和批量素材讀取,來實現對生成結果的可控引導,以及利用批量讀取能力,來提供更加豐富的模板。一套”0 成本即時 lora + controlnet 可控生成 + prompt matrix 多樣生成“的自動化流程就搭建完成了。
這個流程我們已經用在項目中,至于效果,大家的反饋概括為一句話就是——一鍵三連。
下面這張圖就是上述流程部署在實際工作中的樣子,載體是 comfyui,它和 webui 都是基于 stable diffusion 能力,但和 webui 的網頁化界面不同,它將 SD 的能力分解成不同的節點,通過節點關聯搭建來實現各種功能。所以更加開放、自由、多源,并且可以實現流程的自動化,極大的提升了實際應用中的效率,下一期我們會專門針對它來進行解讀。
到這里,關于 IP-Adapter 背后的原理和應用就整理完了,它有非常多的優點,但也非常需要結合實際的場景來應用,還是那個觀念,沒有最好的方法,只有適合的方法。
希望大家用的開心,有什么想法建議,十萬噸的歡迎,我們下期再見。
這里是枯燥的分割線
有點無聊,但也很有得聊
看過它的表現的效果之后,再從底層原理看看 IP-Adapter 到底有什么特別。
我們知道 stable diffustion 是擴散模型,它的核心作用機制就是對噪音的處理,prompt 可以看做是我們的目標,通過不斷的去噪過程,向著目標越來越靠近,最終生成出預期的圖片。
IP-Adapter 則是將圖片單獨提出作為一種提示特征,相比以往那種只是單純的把圖像特征和文本特征抽取后拼接在一起的方法,IP-Adapter 通過帶有解耦交叉注意力的適配模塊,將文本特征的 Cross-Attention 和圖像特征的 Cross-Attention 區分開來,在 Unet 的模塊中新增了一路 Cross-Attention 模塊,用于引入圖像特征。
相當于將原本 SD 中 img 和 prompt 拼合成一個向量的做法分開來, img 和 prompt 都會單獨的組成向量, 然后交給 unet 層, 這樣 img 中的特征就可以更好的被保留下來,從而實現對圖像特征更顯性的繼承和保留。
本質上 IP-Adapter 就是 txt2img 的流程,流程中 prompt 還是最關鍵的,只是中間利用 IP-Adapter 強化了參考圖的提示作用。
作為對比,img2img 是直接將參考圖傳入 unet,去替換了原始的隨機噪音,這樣所有的生成結果都是建立在它的基礎上,于是有了前面人和老虎混雜的現象就比較好理解了。
以上,真的結束了。see you soon
歡迎關注「京東設計中心JDC」的微信公眾號:
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
標志設計標準教程
已累計誕生 729 位幸運星
發表評論 為下方 15 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓