近期,阿里巴巴智能計(jì)算研究所提出了一種新的生成式框架 EMO,是一種富有表現(xiàn)力的音頻驅(qū)動(dòng)的肖像視頻生成框架,用戶只需提供一張照片和一段音頻文件,EMO就能生成會(huì)說話唱歌的AI視頻,實(shí)現(xiàn)無縫對(duì)接的動(dòng)態(tài)小視頻,最長(zhǎng)時(shí)間可達(dá)1分30秒左右。這項(xiàng)技術(shù)的應(yīng)用場(chǎng)景非常廣泛,從電視劇角色的語音合成到音樂視頻中的虛擬表演者,都有可能被AI技術(shù)所取代。
EMO框架使用Audio2Video擴(kuò)散模型,通過三個(gè)階段的技術(shù)處理,包括幀編碼、音頻編碼和去噪操作,以及參考注意力和音頻注意力機(jī)制,來生成富有表現(xiàn)力的人像視頻。
目前,EMO 框架上線到 GitHub 中,相關(guān)論文也在 arxiv 上公開。
GitHub:https://github.com/HumanAIGC/EMO
論文:https://arxiv.org/abs/2402.17485
太瘋狂了,還沒有從 Sora 和 Pika 的 Lip Sync 的震驚中走出來,今天又發(fā)現(xiàn)一個(gè) AI 驅(qū)動(dòng)的電影生成和視頻剪輯平臺(tái):LTX Studio。
LTX Studio 提供的可視化專業(yè)視頻控制臺(tái),可以幫助用戶進(jìn)一步優(yōu)化視頻的細(xì)節(jié)達(dá)到商業(yè)級(jí)視頻,并且附帶語音解讀而Sora目前無法提供。
核心功能: ?支持通過文字直接生成復(fù)雜的劇情視頻,包含語音、音效以及視頻畫面,支持編輯畫面內(nèi)容。 ?支持通過故事板組織和剪輯生成的視頻,你可以自定義演員場(chǎng)景和造型。
加入等待列表:https://ltx.studio
今天,全球最大開源平臺(tái)之一GitHub在官網(wǎng)宣布——GitHub Copilot Enterprise正式全面發(fā)布。
GitHub Copilot Enterprise核心模塊之一GitHub Copilot,是一款基于OpenAI的GPT-4模型,并結(jié)合自身積累十多年真實(shí)、安全可靠的代碼數(shù)據(jù)開發(fā)而成,開發(fā)人員通過文本提示就能獲取、審核、擴(kuò)展代碼等功能。 其核心功能及亮點(diǎn)如下:
1. 基于OpenAI的GPT-4模型:GitHub Copilot Enterprise利用了先進(jìn)的語言模型,結(jié)合了GitHub的大量代碼數(shù)據(jù),為開發(fā)人員提供智能的代碼輔助。 2. 文本提示代碼生成:開發(fā)人員可以通過簡(jiǎn)單的文本提示,讓GitHub Copilot Enterprise幫助生成、審核和擴(kuò)展代碼。 3. 減少重復(fù)性工作:根據(jù)調(diào)查,大多數(shù)開發(fā)人員表示使用GitHub Copilot可以減少在重復(fù)性編碼任務(wù)上的精力。 4. 節(jié)省搜索時(shí)間:GitHub Copilot Enterprise可以幫助開發(fā)人員減少在搜索信息上的時(shí)間,提高工作效率。 5. 深度了解企業(yè)代碼庫:GitHub Copilot Enterprise能夠簡(jiǎn)化代碼導(dǎo)航和理解,加速代碼部署、問題解決和代碼現(xiàn)代化。 6. 集成ChatGPT聊天功能:開發(fā)人員可以通過自然語言與GitHub Copilot Enterprise交流,提出關(guān)于代碼的問題,并獲取幫助。 7. 個(gè)性化代碼建議:GitHub Copilot Enterprise可以根據(jù)企業(yè)的特定代碼庫和標(biāo)準(zhǔn)提供個(gè)性化的幫助和建議。 8. 快速審核拉取請(qǐng)求:通過分析拉取請(qǐng)求的差異,GitHub Copilot Enterprise可以幫助審核人員快速了解變更,節(jié)省時(shí)間并提供有價(jià)值的反饋。 9. Bing搜索引擎集成:為了幫助開發(fā)人員減少信息搜索時(shí)間,GitHub Copilot Enterprise集成了Bing搜索引擎,提供大規(guī)模的專業(yè)數(shù)據(jù)搜索。 10. 微調(diào)功能:GitHub Copilot Enterprise將推出基于用戶個(gè)人代碼庫的微調(diào)功能,使得生成的代碼更加個(gè)性化,進(jìn)一步幫助開發(fā)者提高效率。 11. 價(jià)格和訂閱:GitHub Copilot Enterprise的月費(fèi)為39美元,提供了個(gè)人和商務(wù)版,包括無限的消息、交互、歷史記錄以及基于存儲(chǔ)庫的語義搜索等功能。
使用地址:https://github.com/features/copilot/plans
谷歌日前承認(rèn),其人工智能工具 Gemini 在生成歷史人物圖像時(shí)出現(xiàn)錯(cuò)誤,導(dǎo)致圖像顯示出明顯的種族偏差。谷歌高級(jí)副總裁普拉巴卡爾拉加萬進(jìn)行了道歉。
事情是這樣的,最近有很多網(wǎng)友陸陸續(xù)續(xù)發(fā)現(xiàn)啊,Gemini在文生圖的時(shí)候,好像刻意在拒絕生成白人的形象。取而代之的,是強(qiáng)行把圖中的人物變成黑人、女性,以及弱勢(shì)群體。
就拿馬斯克本尊來說吧,一位網(wǎng)友讓Gemini生成他的形象。
然后……就有了下面這張照片。
Stability AI 發(fā)布了 Stable Diffusion 3,宣稱這是他們最強(qiáng)大的文本到圖像模型,利用擴(kuò)散轉(zhuǎn)換器架構(gòu)大大提高了多主題提示、圖像質(zhì)量和拼寫能力的性能!
該版本與Stable Diffusion 2相比,在文本語義理解、色彩飽和度、圖像構(gòu)圖、分辨率、類型、質(zhì)感、對(duì)比度等方面大幅度增強(qiáng),可對(duì)標(biāo)閉源模型Midjourney。
Stable Diffusion 3的參數(shù)在8億——80億之間,也就是說Stable Diffusion 3可能是專為移動(dòng)設(shè)備開發(fā)的,AI算力消耗將更低,推理速度卻更快。
Stable Diffusion 3 支持申請(qǐng)使用,未來會(huì)擴(kuò)大測(cè)試范圍。
申請(qǐng)地址:https://stability.ai/stablediffusion3
根據(jù) Adobe 官方網(wǎng)站的公告,他們正式推出了一款名為AIAssistant的生成式AI助手,并將其整合到Reader和Acrobat這兩款知名的PDF閱讀器中。
AIAssistant 的功能類似于ChatGPT,它能夠根據(jù)PDF文檔內(nèi)容提供摘要、核心見解,甚至回答各種問題。
目前,Acrobat Personal、Teams以及Acrobat Pro的用戶可以體驗(yàn)測(cè)試版AIAssistant功能。
這一新功能的推出,無疑將極大地提升用戶在閱讀和處理PDF文檔時(shí)的效率和便利性,為用戶帶來全新的使用體驗(yàn)。
OpenAI,昨晚發(fā)布他們的文生視頻大模型Sora,如果用三個(gè)詞來總結(jié)Sora,那就是“60s超長(zhǎng)長(zhǎng)度”、“超強(qiáng)語義理解”和“世界模型”。
首先是60s一鏡到底,不止主人物穩(wěn)定,背景里面的人物都穩(wěn)定的難以置信。從大中景無縫切換到臉部特寫。
第二個(gè)是單視頻多角度鏡頭,現(xiàn)在的AI工作流都是單鏡頭單生成,一個(gè)視頻里面有多角度的鏡頭,主體還能保證完美的一致性。
還有很重要的一點(diǎn)是,Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),我們相信這一功能將成為實(shí)現(xiàn)AGI 的重要里程碑。
字節(jié)研究院發(fā)布了一個(gè)名為 Boximator 的視頻控制方式,看起來相當(dāng)不錯(cuò)。這種控制方式允許用戶選擇需要運(yùn)動(dòng)的物體,并繪制其結(jié)束位置和運(yùn)動(dòng)路徑,物體將嚴(yán)格按照用戶繪制的位置和路徑進(jìn)行運(yùn)動(dòng)。與 Runway 的運(yùn)動(dòng)筆刷相比,Boximator 可以更精確地控制物體的運(yùn)動(dòng)結(jié)束位置。
Boximator適用于藝術(shù)家、設(shè)計(jì)師和營(yíng)銷專業(yè)人士,它結(jié)合了高度的個(gè)性化和創(chuàng)意表達(dá)能力,使用戶能夠創(chuàng)造出獨(dú)特且引人入勝的視頻內(nèi)容。目前,Boximator仍在開發(fā)中,但已提供早期體驗(yàn)渠道,用戶可以通過電子郵件體驗(yàn)其功能。
線上體驗(yàn)地址:https://boximator.github.io/
Roblox推出了一項(xiàng)全新的實(shí)時(shí)AI聊天翻譯功能,可以讓用戶在其沉浸式3D體驗(yàn)中跨越16種不同語言進(jìn)行無縫溝通。
這種多語言模型可以直接在支持的任意兩種語言之間進(jìn)行翻譯,延遲大約為100毫秒,使得用戶幾乎感覺不到翻譯的過程。該系統(tǒng)經(jīng)過了針對(duì)Roblox內(nèi)容的特殊優(yōu)化,并且根據(jù)Roblox的指標(biāo)表現(xiàn)出了超越商業(yè)翻譯API的性能。
聊天窗口會(huì)自動(dòng)顯示翻譯后的內(nèi)容,例如將韓語翻譯成英語,或?qū)⑼炼湔Z翻譯成德語,反之亦然,這樣每個(gè)人都能用自己的語言看到對(duì)話。