字節跳動的研究人員開發了一種超高清文生視頻模型MagicVideo-V2。
這是一個集成了文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和幀插值模塊的端到端視頻生成pipeline。MagicVideo-V2能夠從文本描述中生成具有高美感、高分辨率、高保真度和流暢性的視頻。通過大規模用戶評估,它在人類視覺感知方面表現出優秀的性能。
MagicVideo-V2的設計包括以下關鍵模塊:
- 文本到圖像模型:從給定的文本提示生成一個1024×1024的圖像作為視頻生成的參考圖像。
- 圖像到視頻模型:使用文本提示和生成的圖像作為條件生成關鍵幀。
- 視頻到視頻模型:對關鍵幀進行細化和超分辨率處理,生成高分辨率視頻。
- 視頻幀插值模型:在關鍵幀之間插值生成平滑的視頻運動,并最終生成高分辨率、流暢、高美感的視頻。
論文地址:https://arxiv.org/abs/2401.04468
項目地址:https://magicvideov2.github.io/