深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

往期作者干貨:

因為一些原因很久沒更新了,最近一直研究和學習 ComfyUI,突發奇想想聊聊關于 AI 的一些事,這兩年生成式 AI 爆發性增長并且重塑數字創作的工具生態。從文本生成、圖像視頻生成以及模型訓練,可以說無法離開 AI,AI 的介入讓創意生產變得前所未有的高效簡單,但同時也帶來了體驗上的困境,例如我們在使用自動化生成便利的同時,還能保持對創作過程的深層控制?比如在進行文生圖或者線稿轉 3D 的流程中,我們如果要控制某個部分的設計表現,需要利用多個方法才能完成,僅僅通過提示詞的修改并無法完成,這個矛盾在之前的 SD 等開源模型中非常明顯。

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

算法模型的開放讓設計達到了無限的可能,但更多設計師卻被迫在控制權和易用性之間做出了妥協,當重復一個流程無法生成滿意的圖像時,大多情況都是基于一個“不滿意”的圖像進行優化,我把這個理解為用戶心理上的妥協;

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

以節點式工作流工具 ComfyUI 為例,其通過可視化編程賦予用戶對 Stable Diffusion 生成流程的精細控制權,允許自由組合模型、調節參數、插入預處理模塊,成為專業創作者的首選工具。然而,這種高度自由的設計也帶來了顯著的認知負擔:錯綜復雜的節點連線、晦澀的參數術語、缺乏引導的開放式畫布,讓 0 基礎設計望而止步;數據顯示,超過 67%的新用戶在首次使用 ComfyUI 時因“界面混亂”而放棄進一步探索(來源:ComfyUI 社區調研,2023)。這一現象揭示了生成式 AI 工具設計的核心矛盾——系統的靈活性與用戶的心智模型之間如何實現平衡?

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

一、核心問題與矛盾

1. 設計師對“控制權”的需求本質

安全感需求:用戶希望理解生成過程(分布控制、seed 數值、CFG),避免黑箱帶來的不可預測性;

注:大多數 AI 工具(如 Midjourney)像一臺自動售貨機——輸入提示詞,隨機吐出一張圖片。用戶無法知曉AI為何生成一只三頭六臂的貓,只能反復“抽卡”直到滿意。

創造性需求:通過精細化的控制實現獨特的風格,例如分布提示,基于大模型訓練出來的 lora,不同 lora 模型融合后的混合模型,這些需要付出很大的學習成本和時間才能滿足,我個人理解 AI 給設計師通往目標的過程中搭建了不同的道路,但設計師如果在沒有導航的情況下要達到這個目標,中間可能會輾轉反側,也可能一條道路就能到達目的地;

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

效率需求:自動化設計(如 MJ 和國內其他一鍵生圖的 ai 產品)可以降低設計的操作成本,但同時犧牲了可控性;

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

2. comfyUI 的設計矛盾

過度控制悖論:ComfyUI 試圖打破黑箱,將 AI 拆解成可調節的“齒輪組”(如調節“采樣器”改變畫質、用“ControlNet”控制構圖)。但當用戶面對 50 多個參數和上百種節點時,反而因信息過載陷入“該調哪個參數?連錯節點會爆炸嗎?”的決策癱瘓。

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

過高的配置要求:comfyUI 解決了 MJ 帶來的黑箱效應,但同時也帶來了物質上的門檻,設計師需要配備更高的配置或者使用第三方租用云電腦等才能運行,否則前者就會造成漫長的等待,后者則需要花費大量的財力,對于設計師而言反而是造成了時間上的負荷;

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

功能維度:節點系統支持無限組合,但缺乏對用戶意圖的主動理解,如自動推薦節點;

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

認知維度:參數暴露(如 CFG Scale、Sampler)提供控制感,但引發“選擇過載”實際使用過程中,如果是普通玩家,無法短時間內通過這些參數來控制結果,核心還是在于認知門檻過高;

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

交互維度:自由連接節點導致邏輯混亂(如錯誤連線無及時提示),增加調試成本。

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

我把 ControlNet 的“負面條件”打亂連接到“正面 clip 文本框”上,而采樣器的“負面條件”直接連接到“負面 clip 文本框”內,整個過程是不會出現任何報錯提示,但是當運行調試的時候就會運行失敗,提示 ControlNet 缺少負面條件,ControlNet(應用)缺少負面條件輸出等問題,眾所周知對于一些低配玩家,運行一次需要等很久,等到最后發現生產出來一個“報錯”!!!

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

二、對比分析:comfyUI 和 midjourney

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

當設計師想生成“一只穿宇航服的柴犬”,Midjourney 可能輸出卡通風格或超現實照片,設計師只能通過追加提示詞(如“3D、黏土”)逼近目標,不停的抽卡;

(實在不想用 mj 了,下面的圖本地跑的,大概的意思一樣就是不停的抽卡抽卡)

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

在 ComfyUI 中,設計師可以強制指定:用 FLUX 模型生成基礎圖像??然后加載相關LoRA模型??在添加個視覺風格遷移的模型??添加宇航服??在添加個視覺風格模型??連接OpenPose節點調整柴犬姿勢??最后用放大模型??放大畫質;但我就想說:我只是想畫只貓,為什么要弄這么復雜。。。

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

關鍵結論:

ComfyUI 的“高可控性”吸引專家設計師,但普通設計師或者 0 基礎設計師因認知負荷大多放棄使用。

Midjourney 通過“限制控制權”降低門檻,但設計師可能因無法干預細節感到焦慮。

三、Comfyui 沖突點和機會點

為什么說這個呢,因為 comfyui 目前是趨勢 ai,核心的生成邏輯包括實際應用都已經大于 mj 了,所以接下來的內容也是圍繞 comfyui 拆解的;

1. 參數暴露 vs 認知負荷

問題:ComfyUI 將所有參數(如 LoRA 權重、VAE 選擇、采樣器、各種模型加載器)暴露給用戶,導致界面信息過載。

例如:設計師需要同時調整“提示詞權重”“采樣器類型”“ControlNet 強度”時,易混淆參數優先級,對于這個結果的影響,是采樣器類型問題呢還是 ControlNet 的數值不對呢,最后我猜大多人過程都是一個個試一遍,最后哪個效果好用哪個;

思考點:

動態參數分組,根據生成的目標隱藏無關的參數,比如當輸入完成“提示詞”后,可以識別出輸入的提示詞類型,生成一個 3d 風格海報,那么基于這個提示詞,就可以提前預判出跟 3d 風格海報相關的參數都可以隱藏;

參數依賴的可視化,通過邏輯線的方式標記他們之間的關系,例如 CFG 與采樣步數,通常來講 CFG 數值越高生成的圖越接近提示詞,但是圖像質量會下降,采樣步數越高生成的圖質量就越高,那么問題來了,當設計師調整 CFG 數值時,是不是可以標記或者提示設計師采樣步數的變化,以此來達到最優解;

下方示例

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

2. 自由連接 vs 邏輯錯誤

問題:節點可任意連接,但缺乏邏輯校驗目前 comfyUI 中只是告訴設計師如果兩個節點本身沒有前后關系的情況下不可以連接(沒有節點對應的收入口)另一種情況是兩個節點在一個工作流中都能起到作用,但是節點是多功能化的,連線的時候可以正常連接,最后運行的時候就會出現某某節點不匹配。

例如:設計師錯誤連接 ControlNet 預處理器與 VAE 節點,導致生成失敗且無報錯提示。

思考點:

實時邏輯校驗,在設計師連線時提示沖突(如“該節點僅接受潛空間輸入”)。

工作流自檢模式,一鍵檢測缺失節點(如缺少“提示詞編碼器”時提醒用戶)。

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

四、設計師心理與工具的“錯位戰爭”

生成式 AI 工具的設計矛盾,本質上是人類認知模式與技術邏輯的沖突。以 ComfyUI 為例,其設計暴露了以下深層問題:

1. “技術透明化”的認知陷阱

ComfyUI 將 AI 生成過程拆解為節點,試圖通過“透明化”提升用戶信任,但普通人并不需要(也無法理解)技術細節;

不知道你們有沒有,當我第一次看到“VAE 解碼器”“潛在空間降噪”等節點時,大腦會觸發“意義建構焦慮”——“這些詞和我想要的圖片有什么關系?”

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

2. 控制權的“虛假承諾”

ComfyUI 看似賦予用戶完全控制權,但多數參數的實際影響難以預測(如 CFG 值從 7 到 8 可能導致畫風突變)

這類似于讓設計師駕駛一輛方向盤與輪胎無機械連接的汽車,轉動方向盤時,輪胎可能隨機偏轉。

設計師誤以為“控制節點=控制結果”,實則是“在黑暗中調整未知旋鈕”;

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

3. 技術極客與大眾的“認知斷層”

開源社區的理想:“人人可 Hack”的民主化工具;

現實問題是開發者設計節點時默認用戶理解 SD 原理(如 Latent Space、擴散模型、euler_ancestralcai、dpmpp_2m),但普通用戶只關心“如何讓圖片更逼真”;

這種斷層導致 ComfyUI 的文檔充滿技術術語,而非用戶目標導向的指南(如“修復模糊人臉”對應哪些節點組合),這也是技術工具與用戶體驗的博弈;

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

五、對于 ComfyUI 的暢想

1. 適配不同能力的設計師

專家模式:保留完整的節點和參數,讓這類設計師自由編輯

精簡模式:隱藏底層參數,僅僅提供目標導向的選項

自動化操作,根據提示詞推薦采樣器、cfg 數值等組合,例如提示詞是自然語言,那就匹配關于 flux 模型的專屬采樣器;

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

2. 智能節點推薦引擎

目標推薦:輸入“生成賽博朋克城市”后,自動推薦“SDXL 模型+ControlNet 邊緣檢測+色調調整節點”;

行為預測:分析歷史工作流,推薦高頻使用的節點組合(如“LoRA 模型+分層提示詞”);

3. 可解釋性反饋面板

參數與結果的實時性:實時顯示調整 CFG 值對圖像細節、對比度的量化影響。

節點的貢獻度分析:生成后標記關鍵節點(如“ControlNet 貢獻度 72%”),幫助用戶理解流程。

六、總結:控制的幻覺與設計的謙卑

ComfyUI 揭示了生成式 AI 時代的核心矛盾——技術的能力越強大,人類越需要承認自身認知的局限性。工具設計不應追求“上帝模式”,而需尋找“剛剛好的控制權”

給用戶“扳手”而非“零件庫”:提供高層級調節維度(如“畫面精細度”“風格偏離度”),隱藏底層技術參數,并不是每個設計師都是工程師的角色;大多設計師的角色只是維修工;

擁抱“不完美的人性”:允許用戶保留“我不知道為什么要調這個,但調了就有用”的玄學操作,而非強迫所有人成為 AI 工程師。

重新定義“控制”:從“絕對掌控流程”轉向“有效影響結果”,讓 AI 的不可預測性成為創意催化劑而非焦慮來源。

歡迎關注作者微信公眾號:「防脫發藥水」

深度好文!AI創作工具的「可控性」與「用戶體驗」博弈

收藏 24
點贊 42

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。