Github 上的一個名為 OpenVoice 的 AI 語音克隆項目爆火,該項目由 myshell-ai 開源,僅開源了不到三周,就有了 6.1k 的 star。
OpenVoice能對聲音風格的精細控制,包括情感、口音、節奏、停頓和語調,同時能夠復制參考發言者的音色。
主要功能: - 準確的音色克隆:OpenVoice能夠精確地克隆參考音色,并在多種語言和口音中生成語音。 - 靈活的聲音風格控制:用戶可以控制生成語音的情感和口音,以及其他風格參數,如節奏、停頓和語調。 - 零樣本跨語言聲音克隆:OpenVoice可以在未包含在大規模多語言訓練集中的任何語言之間進行聲音克隆。
試玩地址: https://github.com/myshell-ai/OpenVoice
熟悉 Midjourney、Stable Difusion 等 AI 繪畫工具的朋友可能遇到這樣一個問題:在圖像中生成或嵌入精確的文本可能會比較困難。
現在不必太擔心了,阿里巴巴集團的研究人員已經開源了一款名為 AnyText 的多語言視覺文字生成與編輯模型。
AnyText在生成文字方面的控制能力可以媲美專業的PS,用戶可以自定義文字出現的位置,以及圖片的強度、力度、種子數等參數。
目前,它在Github上已經獲得了超過2,400顆星的好評。并且 AnyText 可以作為插件無縫集成到其他開源擴散模型中,從而全面增強了圖像嵌入精準文本的能力。
今年接觸了太多 AI 工具了,AI 繪畫的先不說,光是視頻生成就已經讓我震驚不已。今天刷到了一個 VideoPoet 作者的專訪,分享的一些關于視頻生成領域的觀點非常有意思,其中關于視頻生成領域的 “ChatGPT 時刻”的解讀前瞻性十足,大家感興趣的可以了解一下!
以下是引用: “ 視頻生成的“ChatGPT 時刻”,我覺得大概是,哪怕模型生成的還是比較短的片段,比如 2-5s,但這個生成是可控的,人類也很難分辨是 AI 生成還是人類制作。從用戶角度,只需要幾美分的代價,就能獲得一個可以被送到好萊塢專業 studio 的樣片。如果類比的話,可以類比到圖像領域 stable diffusion 1.x 或 2.x 版本,肯定還有再提升的空間,但已經到了能使用的程度,而且能激發很多應用。
我的預測是,到 2024 年底或 2025 年初,我們可能會到這個時刻。并且我認為,實現這個時刻肯定也需要 diffusion 參與,并且 diffusion 在未來一段時間,比如 1 到 2 年內,可能仍然是主流,扮演很重要的角色。這里說的 diffusion 已經包含了 transformer。
“ChatGPT 時刻”意味著模型到了一個相對穩定的階段,但后面還會再改,只不過是在這個基礎上做小的改動,可能一開始版本只能做到逼近好萊塢,有一些缺點,但可以商業化運用了,但要達到真正穩定需要更長時間。隨后還可能仍會迭代升級。
現在市場上所有的視頻生成都達不到這個標準,所以我認為視頻生成的方法可能還需要進一步迭代,有可能要達到“ChatGPT 時刻”需要新的模型和方法,它不一定是全新的模型或者架構,可能是現在市場上的某個技術路線或者方案再往前走一步。”
從 Midjourney 的發布,到現在不到1年的時間,它的神奇,大家有目共睹吧?可能很多喜歡AI繪畫的小伙伴,和我一樣,都在等著 Midjourney V6的發布,新版本將支持更復雜內容的繪制,社區評價顯示在還原畫面和內容方面有大幅提高。預計 V6 版本將在圣誕節前發布,為人工智能藝術領域帶來新的突破。
Midjourney V6 特色亮點:
1、超高圖像分辨率:V6 呈現 2048×2048 像素,堪稱上一版本的翻倍體驗。 2、智能自然語言處理:V6 更進一步,理解你的文字提示,創造更加精準逼真的畫面。 3、圖像變體掌控:你將擁有更多定制圖像變體的權利,輕松調整顏色、風格或視角。 4、改良手部生成:全新提升的手部生成技術,可以用雙手制作更加真實的照片。 5、3D模型創作:Midjourney 6 支持3D模型生成,開啟創作者全新設計的可能性。 6、視頻生成創新:V6 能從文字輸入中呈現出引人入勝的視頻,改變敘事、影視制作和教育的未來。
其他方面升級:獨立瀏覽器版本 - 將 Midjourney 從 Discord 分離到自己的瀏覽器應用程序中。移動應用程序 - Midjourney APP 應用程序正在開發中。用戶界面改進 - 計劃更好的用戶體驗和組織圖像(例如文件夾和標簽)。
第三方存儲同步 - 可能與 Google Drive、Dropbox 等集成。
以上就是 Midjourney V6 發布前瞻,怎么樣,各位設計師期待嗎?