劉謙Designer 邀你回答

2024/03/04

谷歌推出生成交互大模型 Genie，一張草圖直接生成視頻游戲！

近日，谷歌DeepMind的研究人員推出了，首個無需數(shù)據(jù)標記、無監(jiān)督訓練的生成交互模型——Generative Interactive Environments，簡稱“Genie”。

Genie是一個具有110億參數(shù)的模型，它能夠根據(jù)圖像、真實照片甚至草圖生成可控制動作的視頻游戲。這個模型的特點是無需數(shù)據(jù)標記和無監(jiān)督訓練，它通過3萬小時、6800萬段游戲視頻進行了大規(guī)模訓練，而且訓練過程中沒有使用任何真實動作標簽或其他特定提示。

Genie的核心架構(gòu)使用了ST-Transformer（時空變換器），這是一種結(jié)合了Transformer模型的自注意力機制與時空數(shù)據(jù)的特性，有效處理視頻、多傳感器時間序列、交通流量等時空數(shù)據(jù)的方法。ST-Transformer通過捕捉數(shù)據(jù)在時間和空間上的復雜依賴關(guān)系，提高了對時空序列的理解和預測能力。

Genie的架構(gòu)主要由三大模塊組成：
1. 視頻分詞器：基于VQ-VAE的模塊，將原始視頻幀壓縮成離散的記號表示，以降低維度并提高視頻生成質(zhì)量。
2. 潛在動作模型：無監(jiān)督學習模塊，從原始視頻中推斷出狀態(tài)變化對應的潛在動作，并實現(xiàn)對每一幀的控制。
3. 動力學模型：基于潛在動作模型學習到的動作關(guān)系，預測下一幀的視頻。

除了視頻游戲，你覺得 Genie 模型還能在哪些其他領(lǐng)域發(fā)揮作用？

AI神器 AI視頻人工智能谷歌設(shè)計

收藏 關(guān)注話題 點贊 15

立即查看 AI神器的解決方案

3 秒搞定！7 款超好用的免費圖像去水印工具

AIGC AI神器閱讀 14.4w

查看詳情

優(yōu)設(shè)問答有問必答 ?? 回答問題贏獎品

7分鐘閱讀

4分鐘閱讀

6分鐘閱讀

9分鐘閱讀

{{comTitle}} {{comSubtitle}}

菜單 優(yōu)設(shè)網(wǎng)uisdc.com 優(yōu)設(shè)網(wǎng) - 學設(shè)計上優(yōu)設(shè)

您還未登錄

登錄后即可體驗更多功能

劉謙Designer 邀你回答

立即查看 AI神器 的解決方案

AIGCAI神器閱讀 14.4w

Wo~本文的評論還空著，快來搶沙發(fā)

邀你回答

Adobe 推出 AI 音樂生成工具 Project Music GenAI Control，與現(xiàn)有的音樂創(chuàng)作軟件相比有哪些優(yōu)勢和不同？

< 上一篇

3.8k 設(shè)計師圍觀了該問題

在工作中，你遇到過的最“坑爹”的設(shè)計需求是什么？

下一篇 >

程遠

土撥鼠

Infinite AI

陳子木

夏花生

優(yōu)設(shè)讀報 2025年06月17日 星期二

騰訊宣布舉辦算法大賽，百萬獎金邀請全球人才

螞蟻集團聯(lián)手 inclusion AI ，推出開源多模態(tài)模型 Ming-Omni

字節(jié)跳動 Seaweed APT2 發(fā)布：實時互動 AI 視頻生成

微軟發(fā)布 700 個真實 AI 案例，探索智能化工作新模式

OpenAI Codex 全新升級，程序員編程新體驗

近期熱門問題

怎么才能找到一個雙休的設(shè)計崗啊？求分享渠道和方法！

9位設(shè)計師參與回答

請在5秒內(nèi)告訴我，你更喜歡哪個設(shè)計方案？

9位設(shè)計師參與回答

孫儷鄧超打假AI虛假廣告，普通用戶如何提高識別AI生成內(nèi)容的能力？

6位設(shè)計師參與回答

30句很甜的，很浪漫的520文案，送給不善言辭的設(shè)計師~

6位設(shè)計師參與回答

AI獨角獸崩塌，居然是一家全是人工，沒有智能的假AI公司？

5位設(shè)計師參與回答

用過來人的經(jīng)驗說說，大家覺得選擇院校和專業(yè)哪個重要呢?

5位設(shè)計師參與回答

優(yōu)設(shè)官方微信群

添加管理員 招財

微信號: 掃碼添加

嚴格審核打造高質(zhì)量交流群