文件名 如何下載使用 文件大小 提取碼 下載來源
Janus-Pro模型+Flux工作流文件17.72G8866 點此復制 登錄下載

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

DeepSeek 這次直接把桌子掀了!

繼把大模型價格打到地板價后,他們最新開源的多模態模型更狠——不僅看得懂《清明上河圖》的細節,還能照著你的描述生圖。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

這個多模態模型就是他們悄悄開源的“雙腦”視覺模型 Janus-Pro,被稱為“左腦能當福爾摩斯解密圖片,右腦能當畫家揮毫潑墨。”的模型。

目前該模型未上線 Deepseek 官網,但我們可以通過 ComfyUI 來使用它。并且,還能結合 Flux 工作流使用!

接下來,我將通過這篇文章來教你如何在 ComfyUI 中使用 Janus-Pro 模型。

基礎回顧:

一、Janus-Pro 介紹

一句話總結,Janus-Pro 是 DeepSeek 公司開發的一款“能看懂圖片又能畫圖”的多模態模型。

論文地址: https://www.arxiv.org/pdf/2501.17811

GitHub 項目地址: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus

它就像有兩個不同的大腦:

左腦(理解模式):比如上傳圖片,發送指令讓模型識別照片中的物體。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

右腦(生成模式):可根據文字描述生成新圖片,也就是我們熟知的文生圖。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

接下來,就讓我們看看如何在 ComfyUI 中部署 Janus-Pro,以及測試它在 ComfyUI 工作流中生圖的可行性。

二、搭建 Janus-Pro 工作流

Janus-Pro 節點組作者開源的項目地址: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus

1. 安裝 Janus-Pro

首先,我們需要在 ComfyUI 中的 Manager 節點管理器中安裝 Janus-Pro。搜索“Janus-Pro”,點擊“Install”安裝。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

然后,在 Hugging Face 上下載 Janus-Pro 模型。共兩個版本模型:

Janus-Pro-1B(小模型):10 億參數,擅長快速生成簡單圖片/文字回答,最低顯存要求 8GB。

模型下載地址: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus

Janus-Pro-7B(大模型):70 億參數,擅長高精度復雜圖像生成/推理,最低顯存要求 24GB。

模型下載地址: https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main

切記,需要在“Files and Versions”中下載列表中的所有文件。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

模型安裝會比較麻煩一些,這里需要認真看。

第一步,打開 ComfyUI 根目錄,找到 Models 文件夾,新建文件夾并命名“Janus-pro”。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

第二步,進入“Janus-pro”文件中,再次新建文件夾,并按照你需要安裝的模型版本命名文件夾。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

第三步,將 Hugging Face 上下載的文件放在對應的文件夾中。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

2. 搭建 Janus-Pro 工作流

安裝節點組和模型后,我們就可以啟動 ComfyUI 搭建 Janus-Pro 工作流了。

可以在節點庫中搜索“Janus”找到節點組,共 3 個節點,分別是模型加載、圖像理解和圖像生成。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

先搭建圖像理解工作流。連接方式也比較簡單,除了 Janus 節點組中的模型加載和圖像理解節點外,還需調用“圖像加載”和“展示文本”節點,如圖所示:

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

它可以識別圖片中的任何元素,如圖中的人像攝影圖。

操作方式為,選擇“Janus-Pro-7B”模型,上傳圖像,并在圖像理解節點中輸入提示詞:“請詳細描述這張圖片。”

運行后,就可以在展示文本中看到回復結果:

“這張圖片展示了一位年輕女性,她站在戶外,背景是模糊的綠色植物和陽光。她的長發自然地散落在肩上,頭發顏色為深棕色或黑色。她穿著一件帶有花卉圖案的露肩上衣,上衣的顏色主要是白色,并點綴著紅色和綠色的花朵。她的表情溫柔,目光直視鏡頭,嘴唇涂有鮮艷的紅色口紅。整體畫面給人一種清新自然的感覺,光線柔和,營造出一種寧靜的氛圍。”

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

上傳一張清明上河圖,Janus 也能詳細的描述出圖中內容。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

接著,我們測試下圖像生成工作流。

調用圖像生成節點,連接模型加載節點和預覽/保存圖像節點。這個工作流的功能類似于文生圖,只不過大模型是 Janus-Pro-1B/7B。

可以測試下,使用 Janus-Pro-7B,輸入“The girl in the red shirt(穿著紅色襯衫的女孩)。”

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

懷疑是提示詞少了,于是再寫了一組詳細的 Prompt:

“masterpiece, best quality, ultra-realistic photography style, cinematic lighting, A 20-year-old woman standing on a city rooftop at sunset, black silk crop top, black leather leggings, long flowing raven hair with subtle violet highlights, facial highlights accentuating high cheekbones, dramatic sky background with swirling dark clouds pierced by golden sunset rays, soft pastel tones blending into muted indigo shadows, high contrast chiaroscuro, natural skin texture with dewy complexion, dim ambient light casting delicate rim lighting, low-angle wide shot from 35mm lens, shallow depth of field blurring distant skyscrapers, neo-noir aesthetic with melancholic yet empowering atmosphere.”

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

說實話,Janus-Pro-7B 在文生圖方面差遠了,這是如何擊敗 StableDiffusion......

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

一句話總結(借助下群友的回復):“生圖一般,提示詞反推可以。”

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

這就是 Deepseek 團隊發布的 Janus 多模態模型,從上面的案例演示你或許也能看出,該模型也只是在圖像識別方面會比較優秀,而這個模型的能力,早在其他大語言模型上實現,比如 Kimi 的視覺思考模型(現已經整合)。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

而在未來,Deepseek 肯定會在官網上線這一模型,壓力又給到了國內的 AI 六小龍們......

那既然文生圖效果不行,在 ComfyUI 中,使用 Janus-Pro 模型只剩下圖像理解工作流了。
可以這樣做,讓 Janus 模型生成 AI 繪畫提示詞,而生圖模型用 Flux 模型即可優劣互補。

三、Janus+Flux 工作流

先加載一套 Flux 文生圖工作流,注意需要安裝 Flux 對應的節點模型。

在文生圖工作流上,可以添加一個“Lora 堆”節點,方便后續 lora 模型的調用。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

搭建 Janus+Flux 工作流的方法有兩種:

1. Janus+Flux 工作流合并

第一種,Janus 圖像理解工作流與 Flux 文生圖工作流合并。

具體操作:將“Clip 文本編碼器”的提示詞框轉換為輸入連接點,并與圖像理解工作流的“展示文本”連接。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

上傳一張圖片(如圖中的哪吒),在 Janus 圖像理解工作流中輸入指令:

“根據圖片內容幫助我生成 Stablediffusion 所需要的 Prompt。注意,你只需要輸出 Prompt,并且需要是英文。”

回復為:

Sure, here is the Prompt for Stablediffusion:

"A young boy with a mischievous grin, wearing a red and gold outfit, is surrounded by flames. He holds a staff with a fiery orb at the end, and his eyes are wide with excitement. The background is a swirling mix of dark and fiery colors, giving a sense of dynamic movement and energy."

譯文為:

“當然,這是穩定擴散的提示:

一個小男孩帶著頑皮的笑容,穿著紅色和金色的衣服,被火焰包圍。他手里拿著一根末端有一個火球的棍子,眼睛興奮得睜得大大的。背景是深色和火紅色的漩渦混合,給人一種動態運動和能量的感覺。”

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

雖然在 StableDiffusion 生圖提示詞中,“Sure, here is the Prompt for Stablediffusion:”是一句多余的文本,但對圖像生成的效果影響不大。

在 lora 堆中設置兩個哪吒人物的 lora 模型,如圖所示:

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

那這樣,我們就可以用這套工作流一鍵復刻上傳的圖像(如圖中的哪吒形象)。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

換一張敖光的圖片測試,選擇這兩個敖光的 Lora 模型。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

Janus 生成的提示詞為:

“Sure, here is the Stablediffusion Prompt for the image:
Prompt: "A fantasy character with white hair and pointed ears, wearing intricate silver armor with dragon motifs, holding a glowing blue sword, surrounded by a majestic white dragon with red eyes and golden accents. The background features a mystical, cloudy atmosphere with lightning effects."

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

這套工作流的優點是快,可以形成通過上傳圖片一鍵復刻生成。

缺點是自由度比較低,無法修改提示詞,而用 Janus 模型+Flux 模型同時運行,會對電腦的顯存要求比較高。

2. Janus+Flux 工作流拆分

那么,我們可以用第二種方式,將 Janus 和 Flux 拆分,形成兩套工作流。

Janus 圖像理解工作流,負責提示詞生成,然后我們手動篩選優化提示詞。

在 Janus 工作流中輸入提示詞:“請詳細描述圖片內容,然后為我生成 StableDiffusion 所需要的提示詞。”

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

Flux 文生圖工作流,負責圖像生成,手動輸入 Janus 模型生成的提示詞。

而為了更加方便我們用提示詞創作,可以在 Flux 工作流中增加一個翻譯節點。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

這樣,我們就可以直接在 ComfyUI 中,自由的輸入提示詞了。

并且 Janus 工作流可以替代以往我們在 Kimi、Claude 等 AI 聊天軟件中反推提示詞的步驟。

將上述 Janus 生成的提示詞篩選出來(這種提示詞方便添加權重):

“長發的女性,藍色頭發,頭戴尖角發飾,鱗片狀的服裝,手臂和身體上的鱗片設計,巨大的龍,藍色和紫色的鱗片,紅色的眼睛,神秘的幻想背景,模糊的樹木,天空,神秘,幻想。”

或者直接用 Janus 對圖像的描述:

“一位身穿華麗服飾的女性角色,她擁有長長的藍色頭發,頭戴裝飾有尖角的發飾。她的服裝以藍色和紫色為主,帶有鱗片狀的紋理,與她手臂和身體上的鱗片設計相呼應。她正與一條巨大的龍互動,龍的鱗片同樣是藍色和紫色的,眼睛發出紅色的光芒。背景中可以看到一些模糊的樹木和天空,整體氛圍充滿了神秘和幻想色彩。”

然后將中文提示詞直接放入翻譯節點中,切換對應的 lora 模型。

注意!!兩套工作流是單獨運行處理的,所以在運行其中一個工作流時,需要將另一個工作流隱藏(全選工作流,按 Ctrl+B)

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

最后,我們依靠 Janus 所反推的提示詞生成了這張效果圖。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

但你會發現,Janus 只是將畫面的人物動作描述的較為詳細,對風格,細節的描述則很少。
所以,如果直接使用 Janus 反推的提示詞,生成的結果較為一般,這時,還是需要我們手動補充,或者是借助 ComfyUI 中其他提示詞節點。

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

寫在最后

經過對 Janus 模型的測試,可以得出結論:“Janus 在 comfyUI 中的圖像應用并不理想,而且所消耗的電腦資源比較大,雖然圖像理解的能力還不錯,但并未與其他 AI 聊天應用有比較明顯的差距。”

所以,如果在 ComfyUI 中需要使用圖像反推節點,我更愿意推薦“Florence 2”或“WD-14 反推提示詞”等節點組。

但是,認真思考下,如果是 Janus 模型與 DeepseekR1 模型相互結合呢?

Janus 模型識別圖像內容,R1 模型在思考推理前先聯網檢索網上優質的提示詞,最后按照用戶下達的指令,寫出提示詞而 Janus 模型部署在 Deepseek 中也只是時間問題。

這意味著,寫圖像提示詞的難度還會降低,甚至是不需要你動腦子想,DeepseekR1 直接給你寫出 N 種提示詞方案。而你,只需要發送圖片給它,用老板的語氣給他下達指令......

如果你想要學習更多 AI 繪畫技巧,可以加入我主理的《優設 AI 俱樂部》,俱樂部內沉淀有 2000+優質 AI 學習資料,AI 提示詞、AI 工具庫、AI 商業設計案例、研究報告......

可以點擊鏈接: https://wx.zsxq.com/group/15288828142182

掀桌子了!DeepSeek開源“雙腦模型”Janus-Pro:左腦識圖,右腦畫圖!

文件名 如何下載使用 文件大小 提取碼 下載來源
Janus-Pro模型+Flux工作流文件17.72G8866 點此復制 登錄下載
收藏 38
點贊 37

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。