阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

最近的 AI 新聞有點太密集了,肝快廢了。

25號凌晨 2 點半,Claude 發 3.7 Sonnet,凌晨 5 點半,阿里發了推理模型 QwQ-Max 的預覽版,早上 10 點 DeepSeek 開源了一個 DeepEP 代碼庫,然后晚上 10 點 20,阿里的視頻模型萬相 2.1,也來了。

而且,正式開源。

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

2 月 25 號是什么黃道吉日嗎。。。

萬相 2.1 開源鏈接在此:

  1. Huggingface 的: https://huggingface.co/Wan-AI
  2. GitHub 的: https://github.com/Wan-Video/Wan2.1

阿里,真的也是“源神”。

這次上線的有四個模型,文生和圖生各倆。

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

文生視頻模型有 1.3B 和 14B 兩個規格。圖生視頻模型都是 14B,分辨率一個 480P 一個 720P。

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

這回比較讓人驚喜的是,低配置的模型真的小,1.3B 的模型,只需要 8 個 G 的顯存就能跑了,也就是說,本地的 4060 都能跑得動了。

如果你有 4090,跑一條 5 秒鐘的 480P 視頻的時間大概只要 4 分鐘。

說實話,在年前的時候,萬相 2.1 就已經上線通義萬相了。

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

只不過叫 2.1 專業和 2.1 極速版。

這塊在我測試下來,專業版和極速版其實都是 14B 的,只不過專業版感覺是原生 720P,極速版是直出的 480P 然后超分到 720P 的。

而 1.3B 是這次為了本地部署特意出的,所以線上目前還沒有體驗渠道,想用的話,只能自己部署。

我也第一時間跑了一些 case,14B 因為太大了,我直接用線上的通義萬相來跑的。1.3B 我是直接在魔搭上部署了跑的,還是比較簡單的。

網址:https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

整體效果上,語義理解、物理真實性、復雜運動的表現,萬相 2.1 14B 在開源視頻模型里絕對是第一梯隊,而 1.3B 別看小,但是使用門檻也低啊,在實力上也真的完全不含糊。

直接先上一點我們跑的 case。

首先是長文本和 Prompt 的語義理解表現不錯。一連串動作,都能按 prompt 順序挨個兒給你實現。

Prompt:空鏡從臥室頂部 45 度俯拍,一位女子躺在凌亂的床上。清晨陽光透過百葉窗在她臉上投下條紋狀光影。她閉著眼,用手揉眼睛。然后睜開眼睛, 微笑。

14B 效果:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

1.3B 效果:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

物理規律和質感表現也挺不錯,這個切檸檬的影子變化、刀面紋理,還有切下去的質感,真實感拉滿。

Prompt:高速攝影拍攝一個新鮮檸檬被切開的瞬間。鏡頭推進,從中景到特寫。鋒利的銀色水果刀從上方切下,檸檬汁飛濺而出,形成細小水珠。特寫畫面呈現檸檬的橫切面和果肉紋理。

14B 效果:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

1.3B 效果:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

然后就是萬相 2.1 剛上線通義的時候,不少人吹的運動表現。

我測下來,雖然還說不上是版本 T0,但優點確實也挺明顯。大幅度的動作、旋轉還有動作的速度,都很猛。

Prompt:在冰面上,一位 18 歲的中國美少女明星短道速滑運動員熠熠生輝。她五官玲瓏,神色自信,肌膚勝雪,高馬尾充滿活力。她身著一條薄荷綠的超短薄紗裙,裙擺隨風飄動,上身搭配白色露臍運動背心。以全景鏡頭俯拍,通過軌道車拍攝跟行。柔和的淡藍色燈光從斜前方灑下,光質輕柔,光比偏小,營造出清新的氛圍。她身姿矯健地疾馳,臨近終點時采用推鏡頭特寫其堅毅的眼神和快速擺動的手臂。

14B:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

1.3B:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

2.1 還可以直接實現運鏡效果,連復雜的遮擋物運鏡都行。

Prompt:低機位拍攝圖書館書架,前景書本縫隙間閃過金絲眼鏡的反光。當鏡頭水平移過三格書架,穿灰色毛衣的男生恰好轉頭,看向鏡頭,手中懸停的棕色書本封皮。

14B:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

1.3B:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

還有必須提一下的文字生成,萬相是全世界第一個能直出中文字的,現在能在 AI 視頻里,直接生成中文的 AI 視頻模型太少了。

Prompt:以紅色新年宣紙為背景,出現一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進行,水墨在紙上呈現「?!棺?,墨色從深到淺過渡,呈現出獨特的東方韻味。背景高級簡潔,雜志攝影感。

14B 效果:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

1.3B 效果:

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

不過文字生成還是有待改進,親測目前只能支持生成非常簡單的、筆畫數少的中文,可以實現的字體也比較少,復雜點的文字內容還是容易出現亂碼和鬼畫符。不過沒關系,這只是剛開始,萬相繼續加油吧,這個方向是非常實用的。

整體來說,萬相 2.1 語義理解和物理表現都很穩,畫面審美也在基準之上。

而且不要忘了,這玩意可是開源的。。。

對與生態的加持,想象空間太大了。

如果你現在想用萬相 2.1 的話,有幾種使用方式。

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

先說 14B 的,14B 的你可以跟我一樣,直接去官網免費用,每天簽到有 50 靈感值,如果你在 APP 上跑一個視頻的話每天可以再加 50 靈感值。

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

1 個專業版(14B 720P)的視頻,5 靈感值,也就是說,你其實一天可以白嫖 20 個視頻了。

然后就是 Hugging Face 上的 demo,雖然是可以所謂的無限免費用,但是算力太少人太多,基本約等于用不了,可以直接放棄。

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

還有就是去阿里云百煉,接 API 用:
https://bailian.console.aliyun.com/model-market#/home

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

價格的話,Plus(2.1 專業版)是每秒 0.7 元,Trubo(2.1 極速版)是每秒 0.24 元。

然后就是 1.3B,如果你本身有 8G 以上的顯卡,那就無腦直接本地化自己部署就行了。

具體的可以去他們 github 上看。

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

其實我最期待的,還是關于 ComfyUI 的集成,如果這能接進去,那就可以玩很多的花活了。

最后,我還是想表達一下對阿里的敬佩。

AI 領域的半壁江山,現在幾乎都是阿里的。

Qwen 作為老大哥遙遙領先,新秀萬相補上 AI 視頻的空白,現在全世界,都知道了阿里的名號。

而且不止是 AI 圈,金融圈,更是因為阿里在 AI 上的策略,全世界的資本開始重新關注過來。

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

你就看看阿里漲了多少吧,帶著恒生科技和中概互聯又飛了多少吧。

中國資產的全面復蘇。

正是因為前幾天阿里炸裂的財報,還有 AGI 的決心,讓全球的投資者都認識到,中國的宏觀、行業、企業在節點上,都已經完成了對齊。

順帶也告訴全世界:

我們不只在跟跑,我們也開始在領跑了。

未來肯定還會有更多挑戰,但如今,我有理由對阿里,對 DeepSeek,對整個中國的 AI 產業抱以更大的信心。

最后,用一句話收尾吧:

源神之名。

當之無愧。

歡迎關注作者的微信公眾號:數字生命卡茲克

阿里深夜開源萬相2.1,這是AI視頻領域的DeepSeek!

收藏 25
點贊 34

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。