近日,蘋果公司與瑞士洛桑聯邦理工學院(EPFL)聯合開源了一款名為4M-21的多模態視覺模型。該模型具有廣泛的通用性和靈活性,盡管只有30億參數,但它可以執行數十種任務,包括圖像分類、目標檢測、語義分割、實例分割、深度估計和表面法線估計等。
4M-21模型在21種不同的模態下進行訓練,能夠處理包括圖像、文本、音頻等多種模態的任務。這種多模態能力使其在跨模態檢索、可控生成和開箱即用性能方面表現出色。
4M-21還支持任意到任意模態的轉換,進一步擴展了其應用范圍。
4M-21模型的推出標志著從傳統單模態優化模型向多模態綜合處理能力的重大轉變,展示了蘋果在AI領域的強大實力和創新能力。
開源地址:https://github.com/apple/ml-4m/ 論文地址:https://arxiv.org/abs/2406.09406 在線demo:https://huggingface.co/spaces/EPFL-VILAB/4M
Creative Upscaler 是由 Stability AI 推出的一款基于人工智能的圖像增強工具,其主要功能是將低分辨率的圖像提升至4K分辨率,并通過先進的機器學習算法為圖像添加新的細節和內容,從而實現圖像質量的顯著提升。這一工具不僅能夠放大圖像,還能在不損失原始圖像細節的基礎上,創造出以前不存在的新細節,賦予圖像新的生命力。
Creative Upscaler 的核心特點:
1. 分辨率提升:無論原始圖像的分辨率如何,Creative Upscaler 都能將其放大至4K分辨率,使圖像更加清晰和細膩。 2. 細節創造:通過結合文本提示和圖像內容,Creative Upscaler 能夠生成原本不存在的新細節,例如增強紋理、修復扭曲的臉部或添加新的視覺元素。這使得它不僅是一個簡單的放大工具,更是一個能夠創造新內容的條件生成模型。 3. 高質量轉換:該工具能夠保留原始圖像的大部分特征,同時在較低創意設置下保持圖像的自然性,適合需要高質量轉換的用戶。 4. 個性化調整:用戶可以根據需求調整創造力等級,以決定是否適度增加或減少新細節的生成量,從而平衡原始圖像特征與新內容之間的關系。 5. 適用范圍廣泛:Creative Upscaler 適用于藝術家、攝影師、設計師等專業人士,也適合普通用戶用于社交媒體圖像質量提升或商業宣傳材料的視覺優化。