Janus 是深度求索(DeepSeek)公司開源的多模態大模型,主打 AI 圖像生成與 AI 圖像識別,支持文生圖、圖生文等多模態交互,屬于其 AGI 技術布局中的關鍵產品之一。(簡而言之:一個能畫圖、能識圖、開源可定制的 AI 模型)
GitHub 代碼庫: https://github.com/deepseek-ai/Janus
更多DeepSeek干貨:
1. 圖像識別(圖生文)
① 使用魔法網絡打開網址: https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B ,選多模態識別,紅色箭頭位置上傳圖片,QUESTION 處寫上 explain this picture(解釋這個圖片)點擊 CHAT 即可。
② 使用魔法網絡稍等片刻,Response 即可顯示圖片識別的結果。
③ 也可以使用早期版本來做圖像識別
Janus 1.3B「圖像識別」 https://huggingface.co/spaces/deepseek-ai/Janus-1.3B
JanusFlow-1.3B「圖像識別」 https://huggingface.co/spaces/deepseek-ai/JanusFlow-1.3B
2. 圖像生成(文生圖)
① 打開網址: https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B ,選文生圖,紅色箭頭位置寫提示詞,綠色箭頭位置點擊即可生成圖片
② 稍等片刻,即可顯示圖片生成的結果。
三個步驟請按順序執行,如果那個步驟已經安裝對應軟件可忽略此步驟。
1. 安裝 ComfyUI
詳見:
2. 安裝插件
① 打開 COMFYUI 右上角的管理器,然后選擇節點管理
② 打開魔法網絡。搜索 JANUS,三選一,點擊 INSTALL 安裝即可
網址:
- https://github.com/chflame163/ComfyUI_Janus_Wrapper/
- https://github.com/ZHO-ZHO-ZHO/ComfyUI-DeepSeek-JanusPro
- https://github.com/CY-CHENYUE/ComfyUI-Janus-Pro
3. 安裝模型
- 模型將在首次運行時自動下載。如果下載失敗必須手動下載模型。
- 下載 https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main所有文件并復制到 ComfyUI\models\Janus-Pro\Janus-Pro-7B 文件夾。
- 下載 https://huggingface.co/deepseek-ai/Janus-Pro-1B/tree/main所有文件并復制到 ComfyUI\models\Janus-Pro\Janus-Pro-1B 文件夾。
- 提供 1B(10 億參數)和 7B(70 億參數)兩種規模模型,適配不同算力需求,并允許開發者自由使用及二次開發模型。
4. 圖像識別(圖生文)
打開工作流文件,紅色箭頭處選擇 Janus-Pro-1B 模型,綠色框位置寫上圖像提示詞,提示詞支持中文/英文 詳細描述圖片的內容,輸出要求: 一份中文描述, 一份英文描述
5. 圖像生成(文生圖)
打開工作流文件,紅色箭頭處選擇 Janus-Pro-1B 模型,綠色框位置寫上生成圖像的提示詞,提示詞支持英文
1. Janus 模型版本介紹
一共有三個版本,Janus-Pro 為最新模型。
① Janus-Pro:通過數據和模型縮放統一多模態理解和生成
Janus-Pro 是之前作品 Janus 的高級版本。具體而言,Janus-Pro 包含優化的訓練策略、擴展的訓練數據以及擴展至更大的模型尺寸。通過這些改進,Janus-Pro 在多模態理解和文本-圖像指令遵循能力方面都取得了顯著進步,同時還增強了文本-圖像生成的穩定性。
② Janus:解耦視覺編碼,統一多模態理解和生成
Janus 是一個新的自回歸框架,統一了多模態理解和生成。它通過將視覺編碼解耦到單獨的路徑中來解決以前方法的局限性,同時仍然使用單個統一的 Transformer 架構進行處理。這種解耦不僅消除了視覺編碼器在理解和生成過程中的角色沖突,而且增強了框架的靈活性。Janus 超越了以前的統一模型,并匹配或超過特定任務模型的性能。Janus 的簡單性、高度靈活性和有效性使其成為下一代統一多模態模型的有力候選者。
③ JanusFlow:協調自回歸和校正流,實現統一的多模態理解和生成
JanusFlow 引入了一種極簡架構,將自回歸語言模型與整流流集成在一起,整流流是生成建模中最先進的方法。我們的關鍵發現表明,整流流可以直接在大型語言模型框架內訓練,無需復雜的架構修改。大量的實驗表明,JanusFlow 在各自的領域中實現了與專用模型相當或上級的性能,同時在標準基準測試中顯著優于現有的統一方法。這項工作代表了向更有效和通用的視覺語言模型邁出的一步。
2. Janus 模型發布時間
2025.01.27:Janus-Pro 發布,這是 Janus 高級版本,顯著改善多模態理解和視覺生成。
2024.11.13:JanusFlow 發布,這是一種新的統一模型,具有用于圖像生成的整流流。
2024.10.23:VLMEvalKit 中添加了用于再現論文中多模態理解結果的評估代碼。
2024.10.20:Janus-1.3B 發布
1. 打標測試
① Deepseeek janus-Pro 測試
對于黑白線稿的打標測試
效果反饋
Janus-Pro-7b 在規則的黑白線稿打標上效果最好,對于 Joy_caption 有著一定的優勢,但是缺點就是打標速度慢單張在 2 分鐘左右,且對電腦的性能要求較高,測試電腦性能為 4090D,在其他部分風格上的打標略有不足。
2. 關于彩色以及抽象風格圖片打標
效果評價
- Janus-Pro-7B 打標速度較慢時間為 113-118 秒,打標效果較好可以很大程度的復現原稿,對于抽象的原圖,有一定的修復效果
- Janus-Pro-1B 打標速度較快時間為 20-40 秒,打標效果一般,對于圖片的理解能力不如 Joy_capion
- Joy_Caption 打標速度快,打標效果較為精準,同樣對于抽象的風格打標效果不盡如人意
3. 對于圖片的打標
Janus-Pro-7B 文本測試
效果評價
打標風格可以調整,對于少量特殊的風格打標也較為精準,對于關鍵詞數量也比較合適。
4. Joy_caption 文本測試
效果評價
Janus-Prod 的打標風格如果有需要可以在內部進行調整,對于大多數風格都較為合適,但是關鍵詞過于仔細較長,對于抽象風格有一定的修復效果,但理解不到位。
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
標志設計標準教程
已累計誕生 729 位幸運星
發表評論 為下方 4 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓