大家好,這里是和你們聊設計的花生~

近段時間 AI 工具發展勢頭越發迅猛,在為大家介紹過的 AI 模型中,DALLE·2 和 Midjourney 在文本生成圖像的質量和精準度上有了大幅度優化提升,后起之秀 Stable Diffusion 則將 AI 模型的操作門檻降低到普通人都能輕松入門的高度。

除了這些著力發展文本-圖像(text-image)模型的科技公司,我在 8 月份也向大家概括地介紹過 Google、微軟、Facebook 這些我們熟悉的互聯網科技巨頭在文本-圖像 AI 模型上的研發成果,也同樣有不凡的生成功能。

而在短短 2 個月后的今天,Facebook 和 Google 又發布了新的文本-視頻(text-video)模型,不禁讓人驚嘆 AI 技術速度未免太快了些。今天就帶大家一起簡單了解一下這兩款由科技巨頭推出的 AI 視頻工具 Make-A-Video 和 Imagen Video。

一、Make-A-Video(Meta)

官網: makeavideo.studio (需梯子)

Make-A-Video 是由 Meta AI(Facebook)研發的一最新的 AI 工具,由創始人馬克·扎格伯格 9 月 29 日在 Facebook 上宣布推出。作用是可以根據文本描述直接生成視頻,名字則是與 Meta AI 之前推出的文本-圖像模型 Make-A-Scene 保持一致,非常直白。

Google、Meta又放大招!用嘴做視頻的時代也要來了

Make-A-Video 在其官網上展示了大量的演示視頻以說明其功能,包括超現實的、現實的和風格化 3 種類型。

超現實:A teddy bear painting a portrait(一只泰迪熊在畫自畫像)

超現實:Cat watching TV with a remote in hand(手持遙控器的貓在看電視)

現實:Clown fish swimming through the coral reef(小丑魚在珊瑚礁中游泳)

風格化:There is a table by a window with sunlight streaming through illuminating a pile of books(窗邊有一張桌子,陽光照射進來,照亮了一堆書)

除了可以根據文本描述生成視頻,Make-A-Video 還可以僅根據一張圖片就生成視頻、為兩張圖片填充中間的動作,以及根據原有的視頻,生成同樣類型的視屏變體。

將一張靜態圖片轉為視頻:

根據一個視頻生成多個同類型變體:

從官方給出的范例可以看出,Make-A-Video 在整體能很好的將文本描述轉化為視頻的樣式,視頻中的主體、動作的對象,動作的順序以及運動方式基本符合正常認知。

但同時 AI 生成的視頻也存有明顯的缺陷,比畫面會出現有不正常的抖動和扭曲,動作連接不如真實視頻那樣流暢,一些動物的五官出現畸變、動作方式怪異(比如貓身上交接了一個人手),以及視頻的清晰度并不高等。

二、Imagen Video( Google)

官網地址: research.google (需梯子)

在 Make-A-Video 推出了后僅一周的時間,Google 就發布了自己的 AI 視頻擴散模型 Imagen Video。

圖片來源:Imagen Video 官網

與 Make-A-Video 相比,Imagen 給人最直觀的感受就是清晰度很高——畫面分辨率可以達到1280×768(Make-A-Video則為512*512),幀率則可以達到24 fps。Imagen Video在其官網展現了很多案例,強烈建議大家去看一下。

Flying through an intense battle between pirate ships in a stormy ocean.(在狂風大作的海洋中,飛過海盜船之間的激烈戰斗)

A teddy bear washing dishes(一只洗碗的泰迪熊)

據官方介紹,Imagen Video 不僅能夠生成高保真度的視頻,還具有高度的可控性和完善的世界知識,能夠創建不同藝術風格的視頻和文本動畫。但和 Make-A-Video 一樣,Imagen Video 也存在畫面不正常抖動、主體畸形、動作不夠流暢等問題。

A cat eating food out of a bowl, in style of van Gogh(一只貓在吃碗里的食物,梵高的風格)

Incredibly detailed science fiction scene set on an alien planet view of amarketplace.Pixel art(令人難以置信的詳細的科幻場景,設置在一個外星球上的市場景觀,像素藝術)

但如同扎克伯格在其推文中寫到的一樣,AI 模型能從生成靜態像素發展到預測每個像素隨著時間推移發生的變化,這在技術上已經是一個突破了。Make-A-Video 發布時不少人都覺得清晰度太低了,而 Imagen Video 卻很快就優化這個問題,這足以讓我們相信過不了多久 AI 就會解決現存的一些缺陷,在視頻真實度、精準度和長度上給我們帶來新的驚喜。

而且現在也已經出現了 AI 音頻工具,能夠根據文本描述生成極具真實感的音頻文件,與 Make-A-Video 和 Imagen Video 這種 AI 視頻工具相結合正好能夠創建出音畫俱全的視頻。如果這些 AI 工具能夠應用到實際的創作中,那么視頻創作的門檻想必也會大大降低,傳統視頻制作時所需的人員調度、布景、后期等工作不再那么必要,制作視頻小樣變得非常容易,也能釋放更多的創作生產力。

Google、Meta又放大招!用嘴做視頻的時代也要來了

文本-音頻 (Text to Audio) 的 AI 模型 AudioGen 在其項目主頁中展示的 AI 音頻成果。圖片來源: https://felixkreuk.github

目前 Imagen Video 并沒有對外開放,原因是官方認為用于訓練 AI 視頻模型系統的數據仍包含有問題的內容,可能會導致 Imagen Video 產生圖形暴力或色情剪輯,給社會帶來不良影響。而在這些問題得到緩解之前,谷歌不會開放 Imagen Video 模型或源代碼。而 Make-A-Video 有一個申請內測的渠道,感興趣的小伙伴可以去其 官網 上填寫注冊表格。

對 AI 視頻工具的出現以之后的發展應有你有什么看法呢?歡迎大家在評論區寫出自己的看法,或者在優設問答里和大家一起交流~

問題:Google 和 Facebook 宣布研發出了最新的 AI 視頻工具,能根據文本描述生成視頻及文本動畫,對此你怎么看?

鏈接: http://www.hx168888.com/talk/121207477940.html

Google、Meta又放大招!用嘴做視頻的時代也要來了

參考資料:

  1. https://arstechnica.com/information-technology/2022/09/write-text-get-video-meta-announces-ai-video-generator/
  2. https://techcrunch.com/2022/10/05/google-answers-metas-video-generating-ai-with-its-own-dubbed-imagen-video/
  3. https://venturebeat.com/ai/google-ai-generator-takes-on-meta-as-text-to-video-trend-ramps-up/
  4. https://felixkreuk.github.io/text2audio_arxiv_samples/

推薦閱讀:

贊賞
收藏 41
點贊 38

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。