熱評 Fox勳

以后還需要真人嗎

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

大家好,這里是和你們一起探索 AI 的花生~

這幾天互聯網上出現的一類視頻引起了大家的廣泛關注和熱烈討論,視頻的特點是可以“讓人物說外語”,但形式并不是我們常見的視頻配音,而是真的像他們自己就會說外語一樣,口音毫無 AI 感,人物的嘴型也是一致的。

比如下面這段“郭德綱用英語說相聲”的視頻,如果不說,幾乎看不出來這是 AI 處理的,因為視頻中人物的嘴型與說出的英語是一致的,發音很真實,沒有 AI 的生硬感,甚至語調音色都與郭德綱說中文時的語調音色是一樣的,這些細節上的精準匹配使視頻顯得非常自然真實,讓人不得不感嘆 AI 的強大。

當視頻在手機上無法加載,可前往PC查看。

視頻來源:微博@創作者 DC

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

其實在上面的視頻之前,網上已經有一段同類視頻引起過的不小的關注。視頻的名稱是《這才是沒有譯制片腔調的翻譯》,由一位英語博主 @johnhuu 發布,其中展示了多段中英翻譯片段,比如泰勒·斯威夫特和特朗普講中文、蔡明老師說英語等。視頻中的人物發音清晰,語調自然,音色與本人相似,甚至嘴型也做到了一致,完全不同于之前的“譯制腔”視頻,所以一發布就引起了大家好奇和關注,光在 B 站上就有 200 多萬播放。

當視頻在手機上無法加載,可前往PC查看。

據原作者 @johnhuu 分享,想達到這種自然的翻譯效果需要同時做到 3 點:一是文本翻譯要地道,二是要克隆人物說話的聲音,三是做到嘴型一致。這三點目前都有相關的 AI 技術可以實現,而且已經有一款工具可以一次性搞定這三個步驟,它就是 HeyGen。

了解 HeyGen:

HeyGen 之前我已經為大家介紹過了,它是一款數字人視頻生成神器 ,擁有豐富的數字人形象,通過與 AI 配音和自定義模版等功能配合,幫助用戶快速制作一段視頻,還能做到嘴型一致,應用范圍涵蓋廣告、電商、新聞、教育、科普等多個領域,是目前最受關注的數字人制作工具之一。下面是我用 HeyGen 生成的一個短視頻,大家應該在抖音或 YouTube 上也看到過類似的數字人形象。

HeyGen 目前已經在公開測試一項名為 Video Translate(視頻翻譯)的新功能,將內容翻譯、語音克隆和換嘴型 3 種功能集成到一起,來實現視頻的一鍵無痕翻譯,大家在文章開頭看到的“郭德綱講英文”就是由它實現的。Video Translate 支持中文、英語、法語、意大利語、德語、日語、韓語等十多種語言,是目前最便捷高效的視頻無痕翻譯解決方案。

Video Translate 網址直達: https://labs.heygen.com/video-translate

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

官方演示視頻:

HeyGen 的 Video Translate 功能的確非常強大,但需要付費使用,價格也不便宜,平均下來翻譯一分鐘的視頻需要 14 元人民幣。它的翻譯效果有時并不理想,比如在前面郭德綱的視頻中,將中文的“二十里”翻譯成“20 miles”,“法臺”翻譯成“French table”,都是不準確的。但因為視頻上傳后是一次性完成的,不能修改,所以也沒有辦法。

如果想做到翻譯效果的精致控制,就需要將不同的步驟分開進行,而且已經有網友分享了對應的開源工具,即用 Whisper 實現語音轉文字,ChatGPT 準確翻譯文字內容,so-vits-svc 進行聲音克隆生成音頻,最后再用 GeneFace++ 實現對嘴型。其中 ChatGPT 大家應該非常熟悉了,就不做贅述,直接給大家介紹一下另外三款開源工具。

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

① Whisper

Whisper 的 Github 主頁: https://github.com/openai/whisper

Buzz 的 Github 主頁: https://github.com/chidiwilliams/buzz

Whisper-webui 項目地址: https://huggingface.co/spaces/aadnk/whisper-webui

安裝教程: https://www.bilibili.com/read/cv23995720/

Whisper 是 ChatGPT 母公司 OpenAI 研發的一款通用語音識別模型,可以自動識別多種語言并進行文字轉錄,它對英語語音的識別準確率尤其高,接近人類水平。

Whisper 目前已經開源,支持本地部署免費使用。它有兩個衍生項目 Buzz(GUI 版 whisper)和 Whisper-webui(WebUI 版 whisper),這兩款工具擁有便捷的用戶操作界面,所以比本體更適合普通用戶使用。大家可以按 Github 主頁或我提供的教程安裝使用,此外也可以使用其他的視頻轉文字軟件,比如剪映專業版。

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

② so-vits-svc

Github 主頁:svc-develop-team/so-vits-svc: SoftVC VITS Singing Voice Conversion (github.com)

整合包及教程: https://www.bilibili.com/video/BV1H24y187Ko/?spm_id_from=333.337.search-card.all.click&vd_source=9ce7566ddcd3dd5a0aa55ffbfed25fde

So-vits-svc 是一款免費 AI 語音轉換軟件,它可以通過學習一個人的聲音,將另一段音頻的聲音替換為這個人的音色,之前網上爆火的“AI 孫燕姿”就是通過這個工具實現的。so-vits-svc 是開源軟件,支持本地部署,但是步驟非常復雜,使用門檻較高;不過 B 站上有大神分享了整合包及相關教程,感興趣的小伙伴可以自行了解。

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

相關推薦:

③ GeneFace++

GeneFace++ 項目主頁: https://genefaceplusplus.github.io/

GeneFace 的 Github 主頁: https://github.com/yerfor/GeneFace

GeneFace++ 是一項根據實時音頻生成三維說話人臉的技術,它生成的視頻質量非常高,可以實現唇形同步,讓數字人說話變得更加逼真。下面是官方發布的一段演示視頻,對比了目前幾款主流對嘴型技術的實現效果,可以看出 GeneFace++ 的效果最清晰穩定的。不過 GeneFace++ 的代碼還沒發布,感興趣的話可以先去看看前一個版本 GeneFace 的 Github 主頁。

當視頻在手機上無法加載,可前往PC查看。

視頻中第一個提到的技術 Wav2lip 雖然效果不算特別突出,但也是目前比較不錯的免費換嘴型解決方案。它已經開源,可以部署到本地(網上有相關教程);Github 上還有一個它的 Stable Diffusion WebUI 插件 sd-wav2lip-uhq,讓我們可以直接在 WebUI 中實現換嘴型,對普通用戶更友好。

Wav2lip 的相關鏈接就在下方,感興趣的話可以自己嘗試一下。如果你想學習 Stable Diffusion WebUI,歡迎了解我最新制作的《AI 繪畫入門完全指南》,我會帶你了解 SD 的生態體系,系統全面地講解 WebUI 的各項功能,并分享相關的模型插件資源包和效率工具,幫你快速上手這款 AI 繪畫神器。

Wav2lip 項目主頁:Interactive Wav2Lip Demo (iiit.ac.in)

Wav2lip 的 Github 主頁: https://github.com/Rudrabha/Wav2Lip

Wav2lip 的 SD 插件 : https://github.com/numz/sd-wav2lip-uhq

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

Wav2lip 的作者還開發了一個專門的實時視頻對嘴型服務平臺 Sync.labs,新用戶可以免費體驗 5 分鐘的視頻轉換服務,如果你想自己免費制作一個無痕翻譯視頻,它是一個不錯的選擇。

Sync.labs 主頁: https://synclabs.so/

使用指南:Introduction - Sync Labs Docs – Nextra

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

以上就是本期為大家分享的 AI 無痕翻譯視頻的相關內容,里面提到的 HeyGen 是一款目前非常受關注的 AI 數字人視頻生成工具,功能也越來越強大,大家可以多了解一下。喜歡本期推薦的話記得點贊收藏支持一波,之后會繼續為大家帶來更多 AI 繪畫干貨知識。也歡迎大家掃描下方的二維碼加入“優設 AI 繪畫交流群”,和我及其他設計師一起交流學習 AI 知識~

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

獲取更多優質 AI 干貨知識,歡迎訪問 「優設自學網」 ,超多 AI 繪畫神器與教程等你探索。

訪問鏈接:AI 導航 - 優設 AI 自學網 - 國內專業 AIGC 學習平臺 (uisdc.com)

讓郭德綱說英語,霉霉講中文,AI是如何做到視頻無痕翻譯的?

推薦閱讀:

贊賞
收藏 102
點贊 72

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。