近日,谷歌DeepMind的研究人員推出了,首個無需數(shù)據(jù)標記、無監(jiān)督訓練的生成交互模型——Generative Interactive Environments,簡稱“Genie”。
Genie是一個具有110億參數(shù)的模型,它能夠根據(jù)圖像、真實照片甚至草圖生成可控制動作的視頻游戲。這個模型的特點是無需數(shù)據(jù)標記和無監(jiān)督訓練,它通過3萬小時、6800萬段游戲視頻進行了大規(guī)模訓練,而且訓練過程中沒有使用任何真實動作標簽或其他特定提示。
Genie的核心架構(gòu)使用了ST-Transformer(時空變換器),這是一種結(jié)合了Transformer模型的自注意力機制與時空數(shù)據(jù)的特性,有效處理視頻、多傳感器時間序列、交通流量等時空數(shù)據(jù)的方法。ST-Transformer通過捕捉數(shù)據(jù)在時間和空間上的復雜依賴關(guān)系,提高了對時空序列的理解和預測能力。
Genie的架構(gòu)主要由三大模塊組成:
1. 視頻分詞器:基于VQ-VAE的模塊,將原始視頻幀壓縮成離散的記號表示,以降低維度并提高視頻生成質(zhì)量。
2. 潛在動作模型:無監(jiān)督學習模塊,從原始視頻中推斷出狀態(tài)變化對應的潛在動作,并實現(xiàn)對每一幀的控制。
3. 動力學模型:基于潛在動作模型學習到的動作關(guān)系,預測下一幀的視頻。
除了視頻游戲,你覺得 Genie 模型還能在哪些其他領(lǐng)域發(fā)揮作用?