手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

一、Janus 模型介紹

Janus 是深度求索(DeepSeek)公司開源的多模態大模型,主打 AI 圖像生成與 AI 圖像識別,支持文生圖、圖生文等多模態交互,屬于其 AGI 技術布局中的關鍵產品之一。(簡而言之:一個能畫圖、能識圖、開源可定制的 AI 模型)

GitHub 代碼庫: https://github.com/deepseek-ai/Janus

更多DeepSeek干貨:

二、Janus 模型在線使用

1. 圖像識別(圖生文)

① 使用魔法網絡打開網址: https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B ,選多模態識別,紅色箭頭位置上傳圖片,QUESTION 處寫上 explain this picture(解釋這個圖片)點擊 CHAT 即可。

② 使用魔法網絡稍等片刻,Response 即可顯示圖片識別的結果。

③ 也可以使用早期版本來做圖像識別

Janus 1.3B「圖像識別」 https://huggingface.co/spaces/deepseek-ai/Janus-1.3B

JanusFlow-1.3B「圖像識別」 https://huggingface.co/spaces/deepseek-ai/JanusFlow-1.3B

2. 圖像生成(文生圖)

① 打開網址: https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B ,選文生圖,紅色箭頭位置寫提示詞,綠色箭頭位置點擊即可生成圖片

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

② 稍等片刻,即可顯示圖片生成的結果。

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

三、Janus 模型本地使用

三個步驟請按順序執行,如果那個步驟已經安裝對應軟件可忽略此步驟。

1. 安裝 ComfyUI

詳見:

2. 安裝插件

① 打開 COMFYUI 右上角的管理器,然后選擇節點管理

② 打開魔法網絡。搜索 JANUS,三選一,點擊 INSTALL 安裝即可

網址:

  1. https://github.com/chflame163/ComfyUI_Janus_Wrapper/
  2. https://github.com/ZHO-ZHO-ZHO/ComfyUI-DeepSeek-JanusPro
  3. https://github.com/CY-CHENYUE/ComfyUI-Janus-Pro 

3. 安裝模型

  1. 模型將在首次運行時自動下載。如果下載失敗必須手動下載模型。
  2. 下載 https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main所有文件并復制到 ComfyUI\models\Janus-Pro\Janus-Pro-7B 文件夾。
  3. 下載 https://huggingface.co/deepseek-ai/Janus-Pro-1B/tree/main所有文件并復制到 ComfyUI\models\Janus-Pro\Janus-Pro-1B 文件夾。
  4. 提供 1B(10 億參數)和 7B(70 億參數)兩種規模模型,適配不同算力需求,并允許開發者自由使用及二次開發模型。

4. 圖像識別(圖生文)

打開工作流文件,紅色箭頭處選擇 Janus-Pro-1B 模型,綠色框位置寫上圖像提示詞,提示詞支持中文/英文 詳細描述圖片的內容,輸出要求: 一份中文描述, 一份英文描述

5. 圖像生成(文生圖)

打開工作流文件,紅色箭頭處選擇 Janus-Pro-1B 模型,綠色框位置寫上生成圖像的提示詞,提示詞支持英文

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

四、Janus 模型資料

1. Janus 模型版本介紹

一共有三個版本,Janus-Pro 為最新模型。

① Janus-Pro:通過數據和模型縮放統一多模態理解和生成

Janus-Pro 是之前作品 Janus 的高級版本。具體而言,Janus-Pro 包含優化的訓練策略、擴展的訓練數據以及擴展至更大的模型尺寸。通過這些改進,Janus-Pro 在多模態理解和文本-圖像指令遵循能力方面都取得了顯著進步,同時還增強了文本-圖像生成的穩定性。

② Janus:解耦視覺編碼,統一多模態理解和生成

Janus 是一個新的自回歸框架,統一了多模態理解和生成。它通過將視覺編碼解耦到單獨的路徑中來解決以前方法的局限性,同時仍然使用單個統一的 Transformer 架構進行處理。這種解耦不僅消除了視覺編碼器在理解和生成過程中的角色沖突,而且增強了框架的靈活性。Janus 超越了以前的統一模型,并匹配或超過特定任務模型的性能。Janus 的簡單性、高度靈活性和有效性使其成為下一代統一多模態模型的有力候選者。

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

③ JanusFlow:協調自回歸和校正流,實現統一的多模態理解和生成

JanusFlow 引入了一種極簡架構,將自回歸語言模型與整流流集成在一起,整流流是生成建模中最先進的方法。我們的關鍵發現表明,整流流可以直接在大型語言模型框架內訓練,無需復雜的架構修改。大量的實驗表明,JanusFlow 在各自的領域中實現了與專用模型相當或上級的性能,同時在標準基準測試中顯著優于現有的統一方法。這項工作代表了向更有效和通用的視覺語言模型邁出的一步。

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

2. Janus 模型發布時間

2025.01.27:Janus-Pro 發布,這是 Janus 高級版本,顯著改善多模態理解和視覺生成。

2024.11.13:JanusFlow 發布,這是一種新的統一模型,具有用于圖像生成的整流流。

2024.10.23:VLMEvalKit 中添加了用于再現論文中多模態理解結果的評估代碼。

2024.10.20:Janus-1.3B 發布

四、Deepseek Janus 模型打標測試對比 joy_Caption 效果

1. 打標測試

① Deepseeek janus-Pro 測試

對于黑白線稿的打標測試

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

效果反饋

Janus-Pro-7b 在規則的黑白線稿打標上效果最好,對于 Joy_caption 有著一定的優勢,但是缺點就是打標速度慢單張在 2 分鐘左右,且對電腦的性能要求較高,測試電腦性能為 4090D,在其他部分風格上的打標略有不足。

2. 關于彩色以及抽象風格圖片打標

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

效果評價

  1. Janus-Pro-7B 打標速度較慢時間為 113-118 秒,打標效果較好可以很大程度的復現原稿,對于抽象的原圖,有一定的修復效果
  2. Janus-Pro-1B 打標速度較快時間為 20-40 秒,打標效果一般,對于圖片的理解能力不如 Joy_capion
  3. Joy_Caption 打標速度快,打標效果較為精準,同樣對于抽象的風格打標效果不盡如人意

3. 對于圖片的打標

Janus-Pro-7B 文本測試

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

效果評價

打標風格可以調整,對于少量特殊的風格打標也較為精準,對于關鍵詞數量也比較合適。

4. Joy_caption 文本測試

手把手教學!Deepseek Janus 生圖模型安裝流程+核心功能解析

效果評價

Janus-Prod 的打標風格如果有需要可以在內部進行調整,對于大多數風格都較為合適,但是關鍵詞過于仔細較長,對于抽象風格有一定的修復效果,但理解不到位。

收藏 19
點贊 42

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。