谷歌發(fā)布的一個名為 VLOGGER 的項目。這個項目能夠根據(jù)輸入的圖片和音頻生成對應人物講話的視頻。但是個人感覺 VLOGGER 看起來沒有阿里巴巴發(fā)布的 DreamTalk 和 EMO 自然,大家覺得呢?
VLOGGER 主要特點:
1. 3D運動的擴散模型:它可以根據(jù)一張人物圖像生成由文本和音頻驅動的說話人視頻。
2. 創(chuàng)新的架構:項目包含一個創(chuàng)新的基于擴散的架構,通過時間和空間控制來增強文本到圖像模型的能力。
3. 高質量視頻生成:能夠生成高質量、可變長度的視頻,并通過人臉和身體的高級表示進行便捷控制。
4. 廣泛的適用性:與之前的工作相比,VLOGGER不需要為每個人單獨訓練模型,不依賴人臉檢測和裁剪,能生成完整的圖像(包括臉部和身體),適用于廣泛場景,如軀干可見或身份多樣化,這對于正確合成具有溝通能力的虛擬人至關重要。