大家好,我是花生~
2 月 16 日 OpenAI 發(fā)布了一個(gè)新的 AI 視頻生成模型 Sora,它可以根據(jù)文本生成 60s 的高質(zhì)量視頻,完全突破了之前 AI 文生視頻存在的各種局限,所以一出現(xiàn)就引起廣泛關(guān)注和熱烈討論,大家應(yīng)該對(duì)它都有所了解。今天就根據(jù)網(wǎng)上已公布的視頻,對(duì) Sora 的功能特性進(jìn)行一個(gè)盤(pán)點(diǎn)總結(jié),其中包含與 Runway、Pika 等 AI 視頻工具的生成效果對(duì)比,讓大家對(duì) Sora 的能力有一個(gè)更直觀全面的了解。
相關(guān)推薦:
之前優(yōu)設(shè)已經(jīng)推薦過(guò) AI 視頻工具,比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等,它們文生視頻長(zhǎng)度都在 3-7 秒之間(Aminatediff 和 Deforum 因形式不同,不列入此處的比較),而 Sora 直接將時(shí)長(zhǎng)最高提升到 60s,是之前的 10 倍,這樣的長(zhǎng)度是放在之前大家可能覺(jué)得要好幾年才能實(shí)現(xiàn),但是 Sora 讓其一夜之間成為現(xiàn)實(shí)。
視頻來(lái)源:Twitter@ Gabor Cselle
接觸過(guò) AI 視頻生成的小伙伴肯定清楚,文本生成的視頻效果最難控制,很容易出現(xiàn)畫(huà)面扭曲、元素丟失情況,或者視頻根本看不出動(dòng)態(tài)。所以不少 AI 視頻工具都轉(zhuǎn)向在圖生視頻或者視頻轉(zhuǎn)繪上發(fā)力,比如 Runway 的 Motion Brush 筆刷,通過(guò)在圖像上涂抹指定區(qū)域添加動(dòng)效;以及 Domo AI,可以將真實(shí)視頻轉(zhuǎn)為多種不同的風(fēng)格,這些方式讓 AI 視頻更可控,因此質(zhì)量更好。
而 Sora 的出現(xiàn)則完全顛覆了人們對(duì)文生視頻的認(rèn)知,不僅直接能通過(guò)文本生成各種風(fēng)格的高清的視頻,還支持多樣化的視頻時(shí)長(zhǎng)、分辨率和畫(huà)幅比,并且能始終保持畫(huà)面主體位于視頻中央,呈現(xiàn)出最佳構(gòu)圖。
Sora 根據(jù)一組提示詞生成的三組不同畫(huà)幅的視頻
Sora 生成的視頻中,隨時(shí)長(zhǎng)增加人物及場(chǎng)景元素依舊能保持自己原有原有的狀態(tài),不會(huì)扭曲變形,所以視頻前后連貫性非常好。即使元素被遮擋或者短暫離開(kāi)畫(huà)面,Sora 依舊能在后續(xù)準(zhǔn)確呈現(xiàn)這一對(duì)象的相關(guān)特征。這就解決了之前大家一直很關(guān)心的視頻中人物一致性問(wèn)題,也許之后我們就無(wú)需后期拼接,而是僅憑文本就生成一個(gè)劇情完整的短視頻了。
Sora 能針對(duì)一個(gè)場(chǎng)景或者一個(gè)主題進(jìn)行多視角呈現(xiàn),比如針對(duì)“下雪天的街道”主體,可以同時(shí)生成手部玩雪特寫(xiě)、街道元素特寫(xiě)、行人走動(dòng)中景、街道全景等分鏡。
下面是從 Sora 視頻中截取一段,可以看到隨著鏡頭旋轉(zhuǎn),新視角中無(wú)論是機(jī)器人還是背后環(huán)境的細(xì)節(jié)都能穩(wěn)定呈現(xiàn),如同 CG 建模一樣精準(zhǔn)。之前為大家介紹過(guò) Stable zero 123,一種可以生成多視角圖像的 AI 模型,但效果遠(yuǎn)比不上在視頻中的呈現(xiàn),也許 Sora 能為我們提供一種生成角色三視圖的新方法。
推特網(wǎng)友 @Poonam Soni 制作的了幾組 Sora 與 Runway 的效果對(duì)比。無(wú)論是小狗打鬧、云朵的飄動(dòng)還是袋鼠跳舞,Sora 的動(dòng)態(tài)都非常自然,就像我們?cè)诂F(xiàn)實(shí)中看到的那樣;相比之下 Runway 生成的動(dòng)作總有一種 “慢放”的感覺(jué),不夠自然。
在 Runway、Pika 等工具中,如果想實(shí)現(xiàn)鏡頭運(yùn)動(dòng),需要使用額外的 --motion 參數(shù),然后從平移、旋轉(zhuǎn)、縮放中等選項(xiàng)中選一種。而 Sora 中可以直接列理解文本提示詞中有關(guān)視頻的鏡頭運(yùn)動(dòng),比如提示詞中是 “鏡頭跟在一輛白色復(fù)古越野車(chē)后面”,在長(zhǎng)達(dá) 20s 的視頻內(nèi),無(wú)論道路如何彎曲,鏡頭真的能始終跟隨這汽車(chē),讓其處于畫(huà)面中央。Sora 也能在一個(gè)視頻中使用多種鏡頭運(yùn)動(dòng)。
即使沒(méi)有鏡頭提示,Sora 也能主動(dòng)地添加鏡頭動(dòng)作,比如下面的視頻,花盛開(kāi)到快超出屏幕時(shí),鏡頭會(huì)自動(dòng)上移時(shí)。以展現(xiàn)完整的主體;以及鏡頭有聚焦在老人面部時(shí),帶著一種手持拍攝的抖動(dòng),這是用 motion 設(shè)置也無(wú)法得到的效果,讓人感覺(jué)這是真的視頻而非“會(huì)動(dòng)的圖片”。
https://twitter.com/i/status/1758295719788822866
對(duì)于“船在咖啡杯里”、"用白熾燈做殼的寄居蟹" 這樣比較復(fù)雜的概念,Sora 能準(zhǔn)確理解并呈現(xiàn)出正確的視頻,Runway、Pika、Morph 等目前則無(wú)法做到。在 Sora 的研究報(bào)告中,官方提到他們會(huì)利用 GPT 將用戶的簡(jiǎn)短提示轉(zhuǎn)換成更長(zhǎng)的詳細(xì)說(shuō)明,然后發(fā)送給視頻模型,以得到更好的生成效果。
視頻來(lái)源:twitter@ @Poonam Soni
Sora 雖然自稱是文生視頻模型,但它也可以將圖像轉(zhuǎn)為動(dòng)態(tài)視頻,而且動(dòng)態(tài)效果比其他 AI 視頻都好,還不會(huì)出現(xiàn)轉(zhuǎn)換后畫(huà)質(zhì)下降的情況。Sora 的圖生視頻功能并不是簡(jiǎn)單的為已有元素添加動(dòng)態(tài),還能生成新的內(nèi)容(比如為云彩字添加了一個(gè)彈出的動(dòng)效)。
視頻來(lái)源:twitter@ Anu Aakash
Sora 可以僅通過(guò)文本對(duì)視頻進(jìn)行編輯,對(duì)一個(gè)寫(xiě)畫(huà)風(fēng)視頻加上 “rewrite the video in a pixel art style” 提示,可以將其變?yōu)橄袼仫w哥,加上 ““make it go underwater”可以替換畫(huà)面元素,而且新元素與整體融合自然然。之前圖像進(jìn)行局部重繪都是有些困難的事,Sora 這是直接做到了對(duì)視頻內(nèi)容的完美局部重繪,模型的能力真的令人驚嘆。
Sora 支持在一個(gè)視頻的基礎(chǔ)上生成向前或向后延伸生成新內(nèi)容,并且做到無(wú)縫銜接。下面 2 個(gè)視頻是由同一段視頻向前擴(kuò)展得來(lái)的,所以結(jié)尾相同;而如果對(duì)一個(gè)視頻同時(shí)操作向前和向后延伸,就能好得到一個(gè)完美的循環(huán)動(dòng)畫(huà)。這項(xiàng)功能目前還沒(méi)有其他能實(shí)現(xiàn)的 AI 工具,如果能落地對(duì)創(chuàng)意視頻生成肯定非常有幫助。
Sora 可以在兩個(gè)視頻之間逐步插值,在主題和場(chǎng)景構(gòu)圖完全不同的視頻之間創(chuàng)建無(wú)縫過(guò)渡,比如由真實(shí)的海島變?yōu)橐粋€(gè) 3D 卡通風(fēng)格的微縮雪地村莊,或者讓一只蜥蜴慢慢變成一只鳥(niǎo)。官方用的 “無(wú)縫過(guò)渡” 絕不是夸張,仔細(xì)看視頻你會(huì)發(fā)現(xiàn) sora 真的會(huì)自己找角度讓視頻轉(zhuǎn)換更自然,這點(diǎn)在影視特效制作上應(yīng)該也大有可為。
圖像就是單幀的視頻,Sora 既然能生成高質(zhì)量的視頻,那生成高質(zhì)量的圖像自然也不在話下,并且支持多種尺寸,最高分辨率到達(dá) 2048*2048 px。我用 Sora 官方給出的提示詞,在 Midjourney 的 V6 模型中重新生成一遍,下面的效果對(duì)比,你覺(jué)得哪一個(gè)更好?
Sora 可以模擬真實(shí)物理世界中物體的運(yùn)作狀態(tài),比如畫(huà)筆落下后畫(huà)布上有對(duì)應(yīng)的痕跡留下,并且持續(xù)保留;被咬了一個(gè)口的漢堡上會(huì)有一個(gè)缺口等。不過(guò)這個(gè)功能并不穩(wěn)定,處理復(fù)雜交互場(chǎng)景也會(huì)出錯(cuò),或者混淆空間細(xì)節(jié)。
在 Sora 的提示詞中加上 Minecraft 后,除了視頻會(huì)變成體素風(fēng)格,Sora 還能通過(guò)基礎(chǔ)策略控制玩家,并高保真地呈現(xiàn)世界及其動(dòng)態(tài),達(dá)到真假難辨的地步。這或許會(huì)改變視頻游戲的制作及玩法,對(duì) AR、VR 的虛擬空間搭建應(yīng)該也會(huì)有幫助。
那么以上就是本期為大家盤(pán)點(diǎn)的 AI 視頻生成模型 Sora 的相關(guān)功能,如果想了解為什么 Sora 能做到這么厲害,可以去閱讀 OpenAI 官方的研究報(bào)告,里面有相關(guān)介紹。
Sora 模型技術(shù)報(bào)告: https://openai.com/research/video-generation-models-as-world-simulators
想了解更多 AI 繪畫(huà)工具的話,歡迎關(guān)注 優(yōu)設(shè) AI 自學(xué)網(wǎng),每天都有最新的 AI 神器及資訊推薦 ~ 也歡迎大家掃描下方的二維碼加入“優(yōu)設(shè) AI 繪畫(huà)交流群”,和我及其他設(shè)計(jì)師一起交流學(xué)習(xí) AI 知識(shí)~
推薦閱讀:
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 729 位幸運(yùn)星
發(fā)表評(píng)論 為下方 10 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓