智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

智譜開源 AI 繪圖 CogView4,曾經(jīng)的開源之光回來了。

昨天連更兩篇,今天想休息一下,結(jié)果。。。

真的快肝吐了,感覺自從 DeepSeek 開源統(tǒng)治地球之后。

開源的世界,迎來了究極繁榮。

上周 DeepSeek 連續(xù) 5 天開源硬核技術(shù),阿里開源萬相 2.1,Qwen 的推理模型推出預(yù)覽版,但是肯定馬上也要開源。

而今天,智譜這個曾經(jīng)的開源之光,在昨天官宣拿了杭州 10 億融資之后,在官宣文章里如此寫道:

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

我知道智譜今年會大力開源,但是沒想到,開源年的第一棒,來的如此之快,就在第二天。。。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

我。。。不是,讓我歇會吧。。。

今天智譜和清華團隊直接開源了他們的 AI 繪圖模型,CogView4。

更多AI工具推薦:

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

這下,真的快補上 2025 年開源界的拼圖了。

模型鏈接在此: https://github.com/THUDM/CogView4

模型尺寸 6B,在 BF16 和 batchsize=4d 的情況下,GPU 需求如圖。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

最低估計一張 12G 的顯卡就能跑起來。

我們也在第一時間,把模型下載下來,反手在 AutoDL 上開了一臺 A800-80G 的顯存,部署測試了一下。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

我自己測試下來,一張 1024*1024 的圖大概 70s 左右,AutoDL 的云機器會慢一些,本地應(yīng)該會快不少。

當(dāng)然如果你們想直接體驗,也可以用智譜官方自己搭好的在線服務(wù):

網(wǎng)址:https://modelscope.cn/studios/ZhipuAI/CogView4

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

在跑了一小時后,我覺得 CogView4,有兩個比較有意思的點。

一個一個說。

第一個點就是,CogView4 支持中英文字直接生成,跟我之前寫過的即夢 2.1 還挺像的,但是智譜的 CogView4,是開源的。

這也是開源的 AI 繪圖模型里,第一個支持同時生成中英文字的。

我跑了些 case,大家可以直接看看。

比如這些 Prompt:

1. 一只布偶貓舉著牌子,牌子上寫著中文字體的“起來嗨’。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

2. 一幅極簡主義風(fēng)格的冬季插畫,以"小雪"節(jié)氣為主題。畫面采用清新的淺藍色調(diào),上方用簡約的白色中文字體寫著"小雪"二字。構(gòu)圖主要分為三個層次:天空、雪山和鐵路。背景是連綿起伏的雪山剪影,呈現(xiàn)出柔和的曲線;中間是一列橙紅色的火車,在茫茫雪原上形成鮮明的視覺對比;整個畫面點綴著飄落的雪花。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

3. 電影宣傳海報,畫面中間是韋小寶,四周是宮女,標(biāo)題文字“重生之我是韋小寶”。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

4. 畫面頂部英文標(biāo)題:“I NEED YOU”,復(fù)古美漫動漫,畫面中央是一個小孩在電視機前玩游戲的背影。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

非常坦率的講,整體效果和審美,是沒有市面一些主流模型好的,中文字的錯誤率很高比英文大不少,審美和色彩,也有一點差距。

我測下來,感覺他們是沒有把文字拎出來單獨做處理,而是非常實誠的直接塞給模型直接處理了,所以中文錯別字比例會高一些。

但是優(yōu)點也很突出。

那就是,這玩意開源啊!唯一一個能生文字的開源。

就智譜的 Cogview4 的效果來看,我覺得,他們技術(shù)肯定是沒問題,最大的問題,還是數(shù)據(jù)集這塊,審美確實差不少,但是如果你就把它當(dāng)個底座,來重搞數(shù)據(jù)集,微調(diào)一個很牛逼的電影海報設(shè)計模型,那真的不是不可能。

第二個特點,就是它的語義理解,還是真的有點東西的。

比如這些 Prompt:

1. 8K 超寬幅畫卷,分四區(qū)域: 左側(cè):唐代城門,朱紅城墻,商隊駱駝穿行,匾額題“朱雀門”; 中左:西市胡商集市,絲綢瓷器攤位,人群熙攘; 中右:曲江池畔,仕女泛舟,柳樹垂岸; 右側(cè):大明宮殿群,飛檐斗栱,晨霧繚繞。整體風(fēng)格為工筆重彩,絹布質(zhì)感。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

2. 一幅橫向長卷,從左到右依次是遠古狩獵營地、古埃及金字塔群、中世紀市場、工業(yè)革命工廠、當(dāng)代摩天樓、未來垂直花園城。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

3. 一籠剛出籠的上海小籠包,皮薄餡嫩,湯汁豐富,擺放在精致的竹制蒸籠中。旁邊是一碟香醋和一雙竹筷,背景是木質(zhì)的餐桌和一壺綠茶,體現(xiàn)出江南的細膩和雅致風(fēng)格。江南風(fēng)味,精致,雅致

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

4. 野徑云俱黑,江船火獨明。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

5. 一張照片級真實感的奇幻毛茸茸汽車,車身完全覆蓋著厚實柔軟的白色絨毛,明亮靈動的車燈宛如一雙友善的大眼睛,輪胎隱藏在濃密蓬松的毛發(fā)之中,夜晚散發(fā)出溫暖柔和的光暈,呈現(xiàn)出魔法生物般的風(fēng)格,細節(jié)精致,質(zhì)感極度逼真,充滿夢幻氣息與溫馨感,電影級燈光效果

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

可以看到,美不美的另說,但是畫的,是真的準確。

這塊還是得益于,他們把 T5 換成了 GLM4,這個還是爽多了。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

目前他們在出圖的分辨率上,也沒限制特定比例,2048 以下幾乎都可以無級調(diào)節(jié),這一點還是比較爽的。

后續(xù),他們也會支持 ComfyUI 和 ControlNET 套件,還有微調(diào)的腳本。這個還是比較重要的,用 CogView4 來當(dāng)基座模型微調(diào)的話,應(yīng)該能玩出不少的花活。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

目前開源的這個模型支持 Apache2.0 協(xié)議,而給普通用戶用的版本,也會在 3 月 13 日上線在智譜清言上,到時候可以蹲一下。

最后,我想聊聊智譜這個公司。

國內(nèi)我之前有一個非常主觀不客觀的評價,我把五家公司放在一起,并稱為開源五虎。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

其實在 DeepSeek 還沒成立的時候,智譜就已經(jīng)在 kuku 開源模型了。

如果是 2023 年就開始玩大模型玩 AI 的,應(yīng)該見過這個風(fēng)靡一時的基座模型,ChatGLM-6B。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

4w 的星標(biāo),在 Github 上意味著啥相信大家懂得都懂。

那個時候,我還在公司里面做項目,微調(diào)了好幾個不同的 GLM6B,串成工作流來執(zhí)行任務(wù)。

后續(xù),他們又開源了非常非常非常多的模型,比如 GLM-4、GLM-4-Voice、CogVideoX v1.5、CogAgent 等等等等。

時光匆匆,一晃眼,兩年了。

這兩年,感覺到了智譜的糾結(jié)、智譜的掙扎,還有他們的搖擺。

雖然在 2024 年的后半程,他們靠著 AutoGLM 和智能體,在整個 AI 圈殺出了一條自己的血路,但是在開源世界的聲量,好像也被通義和 DeepSeek 壓了過去。

老驥伏櫪,志在千里。

在今天 CogView4 的倉庫里面有這么一張官方生成的 Demo 圖。

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

他們把 2025 年,定義為智譜 AI 自己的開源年。

不破不立,破而后立。

期待智譜拿下更多超級融資的同時,也能在開源路上越走越遠。

畢竟,對我們所有人而言,每一家廠商的進步,都是讓中國 AI 越發(fā)閃耀的燈火。

祝愿這片風(fēng)云激蕩的江湖,燃得更盛吧。

歡迎關(guān)注作者的微信公眾號:數(shù)字生命卡茲克

智譜開源AI繪圖CogView4,曾經(jīng)的開源之光回來了!

收藏 6
點贊 48

復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。