近日,蘋(píng)果公司與瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)聯(lián)合開(kāi)源了一款名為4M-21的多模態(tài)視覺(jué)模型。該模型具有廣泛的通用性和靈活性,盡管只有30億參數(shù),但它可以執(zhí)行數(shù)十種任務(wù),包括圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割、深度估計(jì)和表面法線估計(jì)等。
4M-21模型在21種不同的模態(tài)下進(jìn)行訓(xùn)練,能夠處理包括圖像、文本、音頻等多種模態(tài)的任務(wù)。這種多模態(tài)能力使其在跨模態(tài)檢索、可控生成和開(kāi)箱即用性能方面表現(xiàn)出色。
4M-21還支持任意到任意模態(tài)的轉(zhuǎn)換,進(jìn)一步擴(kuò)展了其應(yīng)用范圍。
4M-21模型的推出標(biāo)志著從傳統(tǒng)單模態(tài)優(yōu)化模型向多模態(tài)綜合處理能力的重大轉(zhuǎn)變,展示了蘋(píng)果在AI領(lǐng)域的強(qiáng)大實(shí)力和創(chuàng)新能力。
開(kāi)源地址:https://github.com/apple/ml-4m/
論文地址:https://arxiv.org/abs/2406.09406
在線demo:https://huggingface.co/spaces/EPFL-VILAB/4M