国产色产综合色产在线视频,亚洲一区二区三区,国产成人影院

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

幾個月前，我寫過一篇 MiniMax 的 AI 聲音模型。

30秒完美復(fù)刻你的聲音，這就是當(dāng)今最強(qiáng)的中文AI語音克?。?/h2>
往期作者干貨：中文，在 AI 世界，好像突然一夜崛起了。
閱讀文章 >

我說，那就是當(dāng)時最強(qiáng)的中文 AI 音頻。數(shù)據(jù)也有點(diǎn)小爆。

而在去年 12 月之后，至今將近半年時間，在 AI 聲音模型這塊，我覺得還是沒有能超越 MiniMax 的。

直到昨天，我看到 MiniMax 在 X 上發(fā)了他們新一代聲音模型的技術(shù)報(bào)告，Speech-02 來了。看來想突破 Speech-01 的上限，還是得他們自己。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

不過就是這數(shù)據(jù)是真的慘淡，看來大家最近關(guān)注的都是 Agent、MCP，AI 音頻關(guān)注的人，是真的少。。。

我大概翻了一下，跑分確實(shí)牛逼不少，主要是 WER 和 SIM 這兩數(shù)據(jù)。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

兩個維度，左邊是 WER，越低越好，代表這個模型講出來的話，有多準(zhǔn)確。右邊是 SIM，越高越好，代表這個模型講出來的聲音，有多像原聲。

你可以簡單的理解成，左邊看的是 AI 說的對不對，右邊看的是 AI 像不像本人。

WER 的數(shù)據(jù)，除了一些歐美的小語種，主流語種幾乎都壓了目前世界公認(rèn)最被推崇的 11Labs 一頭，特別是周邊的亞洲國家，日本、越南、泰國，幾乎都是純碾壓姿態(tài)，所有語種的 WER 指標(biāo)幾乎平均都在 1~4 之間，很牛逼，他們這是正兒八經(jīng)在多語種上發(fā)力了

而音色相似度上，上一代其實(shí)做的沒有 11labs 好，海外的很多反饋都是聲音沒有 11Labs 像，但是這一次，實(shí)現(xiàn)了全面超越，32 個語種，每一個在跑分上都比 11Labs 要強(qiáng)，我自己實(shí)測，也能明顯感覺到，相似度已經(jīng)比 11labs 好了。

我又去看了一下 AI 音頻領(lǐng)域的盲測競技場。

意外的發(fā)現(xiàn)。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

MiniMax 這個新模型。

登頂了。。。

現(xiàn)在，這個新模型，MiniMax Speech-02，已經(jīng)可以在 MiniMax 官網(wǎng)用了，目前只有海外版有聲音克隆，別問我為什么只有海外版有。

網(wǎng)址在此： https://www.hailuo.ai/audio

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

我隨手用 MiniMax+即夢大師版，搓了一個有趣的郭小綱動畫，給大家直觀的感受一下，MiniMax 的 Speech-02 有多強(qiáng)。

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

我就扔了一段不到 1 分鐘的原聲進(jìn)去復(fù)刻，說實(shí)話，這音調(diào)，這起伏，這音色，強(qiáng)的有點(diǎn)不像話了。

我第一次聽到的時候，真的感覺真假難分。

不僅郭小綱，還能讓，周小倫，來夸一夸我。

太像了。

你閉著眼睛，你是真的能感覺到，是周董，在你面前揮舞著手臂，用那獨(dú)特的強(qiáng)調(diào)跟你說，你還挺屌的。

還有之前艾爾登法環(huán)，預(yù)告片里面菈妮的配音我一直很喜歡。

我也讓 MiniMax 復(fù)刻了一下。

這是上一代 Speech-01-hd 的效果。

而這是，Speech-02-hd 的效果。

我相信，一定能非常輕松的感受到，情緒的差距。

說說咋用。

進(jìn)入 Minimax 的 Audio 官網(wǎng)后，點(diǎn)擊左邊的 Voices。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

免費(fèi)用戶，可以免費(fèi)克隆 3 個聲音。

我是開了 5 刀的會員，所以可以創(chuàng)建 10 個。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

點(diǎn)進(jìn)去以后，直接上傳你的素材，然后正常命名，選素材的主語言就行，超級簡單。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

上傳的語音最少上傳 10s 的音頻片段就可以克隆了，不過這個樣本其實(shí)不是特別夠，所以我一般推薦音頻素材最好在 30s 左右，當(dāng)然你也可以更長，不過一般不需要超過 5 分鐘。

然后只需要十幾秒，一個新鮮的聲音模型，就克隆好了。

后續(xù)使用的時候，直接在右邊的聲音選擇界面里面找到自己的 tab，正常使用就行。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

一代的時候，這個聲音模型，只支持 12 種語言，分別是：

中文、粵語、英語、韓語、日語、印尼語、西語、葡語、法語、意大利語、俄語、德語。

但是這一次的 2 代，支持了 32 種語言。

而且在混合語種上，有更好的效果了。

比如我之前看到一個非常有意思的挑戰(zhàn)。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

文字是這樣的：

“皆さん，我在網(wǎng)絡(luò)上面看到有 someone 把三個國家的 language 混在一起去 speak。我看到之后 be like これは我じゃないか，私も try one try です”。

非常離譜。

我克隆了我自己的聲音，然后去試著念了一下。

這是上一代 Speech-01-hd：

我保證，你聽完以后也不知道它到底念了個啥，我就聽到一個 Speak。。。

再來聽聽 2 代的。

雖然日文那還有一點(diǎn)奇怪，但是，已經(jīng)是能完整的區(qū)分出來念的明明白白的了好吧，這已經(jīng)是，史詩級進(jìn)步了。

我又搞了一個更復(fù)雜的，小皇四郎。

文本是這樣的：

“媽的，最煩裝逼的人了。剛回國，問他論文咋樣，他說：

“我要 restructure 一下 framework。”

我翻了個白眼，結(jié)果他又來一句：

“Ah non, pas de sucre, merci~”

然后切日語：「これはマジでイラっとするわ?」

再來西語：“?Qué pesado! Pero suena perfecto.”

最后還補(bǔ)一句英語：“Seriously. Stop pretending you’re special.”

我都想說：你到底是人，還是 AI？

哦，他是 MiniMax Speech two，新模型?！?/p>

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

真的，實(shí)在太好玩了。

雖然最后的中文，念的還是冒出了翻譯腔，但是進(jìn)步已經(jīng)巨大了。

而且，還有一個超級屌的點(diǎn)是，他們在講故事的場景中，如果你只用一個聲音的話，在一些不同角色那里，它甚至?xí)胁煌囊粽{(diào)變化和情緒變化。

這是我的一份故事文稿。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

我直接讓 Speech-02-hd 一鍵直出，然后我自己稍微剪了下，加了點(diǎn)音效，大家可以聽一聽這個情緒，還有角色的變化。

文稿中標(biāo)黃的那幾句，大家應(yīng)該能明顯的聽出來，是刻意壓低了音調(diào)，改了情緒。這可不是我處理的，是 MiniMax 直出的，這就非常牛逼了。

除了 C 端產(chǎn)品之外，我看了一眼 API，發(fā)現(xiàn)，他們已經(jīng)第一時間把 Speech-02 給支持了。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

甚至，MCP 也弄好了。

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

現(xiàn)在，你可以在任何 Agent 產(chǎn)品里，也可以接入這個逼真到爆炸的語音模型了。

我們也可以自豪的說一聲。

之前，中文 AI 語音，我們做到了世界最強(qiáng)，但是現(xiàn)在，可以把中文去掉了，整體上，我們都已經(jīng)做到了世界最強(qiáng)。

這是一個被所有人低估的戰(zhàn)場。

大家都在盯著誰做出第一個像人一樣思考的 Agent，卻沒看到，那些 AI 說話的聲音，其實(shí)早已變得越來越跟真人無異。

而且，這一次，還是我們做出來的。

在 12 月份的那邊 MiniMax AI 音頻的文章中，我在最后寫道：

“也許，這就是屬于中文世界的 AI 時代的序章。而這一切，才剛剛開始?！?/p>

然后就是波瀾壯闊的春節(jié)。

隨后的故事，大家也都知道了。

一語成讖。

現(xiàn)在的 AI 世界，再也不是英語的獨(dú)角戲了。

我們從配角，走向主角。

然后不僅僅止步于起。

像 MiniMax，也用 AI，給世界，盡可能的帶來語言平權(quán)。

那些過去沒被在意的語言，過去只能在家族里、在小巷里、在廟宇里才能聽到的聲音，現(xiàn)在終于有機(jī)會，能被世界聽見了。

AI 沒有帶來統(tǒng)治。

反而是把人類的多樣性。

放進(jìn)了未來。

數(shù)字生命卡茲克

文章 39 人氣 82.9w

AI自媒體

+關(guān)注作者

點(diǎn)贊 45

復(fù)制本文鏈接文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場，未經(jīng)允許不得轉(zhuǎn)載。

繼續(xù)閱讀本文相關(guān)話題

AIGC

網(wǎng)頁

產(chǎn)品

學(xué)AI

AI導(dǎo)航

發(fā)評論！每天贏獎品

點(diǎn)擊登錄后，在評論區(qū)留言，系統(tǒng)會隨機(jī)派送獎品

2012年成立至今，是國內(nèi)備受歡迎的設(shè)計(jì)師平臺，提供獎品贊助聯(lián)系我們

本期獎品

標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程

已累計(jì)誕生 729 位幸運(yùn)星

查看獲獎名單

發(fā)表評論為下方 4 條評論點(diǎn)贊，解鎖好運(yùn)彩蛋

以上留言僅代表用戶個人觀點(diǎn)，不代表優(yōu)設(shè)立場

評論就這些咯，讓大家也知道你的獨(dú)特見解立即評論

菜單 優(yōu)設(shè)網(wǎng)uisdc.com 優(yōu)設(shè)網(wǎng) - 學(xué)設(shè)計(jì)上優(yōu)設(shè)

您還未登錄

登錄后即可體驗(yàn)更多功能

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

2025/05/19 推薦： 數(shù)字生命卡茲克 評論有獎 閱讀本文需 10 分鐘

30秒完美復(fù)刻你的聲音，這就是當(dāng)今最強(qiáng)的中文AI語音克?。?/h2>往期作者干貨： 中文，在 AI 世界，好像突然一夜崛起了。閱讀文章 >

數(shù)字生命卡茲克

文章 39 人氣 82.9w

繼續(xù)閱讀本文相關(guān)話題

82.9w人氣 39文章

本文3套知識9圖

提示詞直出即用！8組超實(shí)用折紙ICON素材合集！

5分鐘速成！用GPT-4o打造蘋果WWDC25風(fēng)格圖標(biāo)！

Midjourney美學(xué)風(fēng)格代碼！8組游戲卡通場景風(fēng)sref靈感！

文章目錄

文章目錄

你即將學(xué)會 AI Agent 的知識

超多案例！讓 Lovart 作圖更好看更高效的提示詞在這里了！

2.1w 人閱讀

上一篇

你即將學(xué)會 AIGC 的知識

為什么蘋果和微信在AI的節(jié)奏上快不起來？

9.6k 人閱讀

下一篇

發(fā)評論！每天贏獎品

點(diǎn)擊 登錄 后，在評論區(qū)留言，系統(tǒng)會隨機(jī)派送獎品

2012年成立至今，是國內(nèi)備受歡迎的設(shè)計(jì)師平臺，提供獎品贊助 聯(lián)系我們

標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程

已累計(jì)誕生 729 位幸運(yùn)星

發(fā)表評論 為下方 4 條評論點(diǎn)贊，解鎖好運(yùn)彩蛋

↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓

數(shù)字生命卡茲克

數(shù)字生命卡茲克

數(shù)字生命卡茲克

文軒沒有大腦袋

夏花生

優(yōu)設(shè)推薦官精選熱門話題

職場經(jīng)驗(yàn)

文章 798

免費(fèi)字體

文章 300

電商設(shè)計(jì)

文章 269

PS教程

文章 834

評論

收藏

分享

AI趨勢

入站必看

設(shè)計(jì)入門

進(jìn)階提升

熱門資源

最新AI工具

300+實(shí)用AI工具全收錄

Midjourney

會上癮的AI繪畫工具

AI智能繪畫

讓AI助你一臂之力

Blender

稱心如意的3D設(shè)計(jì)法寶

Figma

令設(shè)計(jì)師愛不釋手

HMI設(shè)計(jì)指南

車載設(shè)計(jì)教科書

直播間設(shè)計(jì)

生意都在直播間啦

Stable Diffusion

最強(qiáng)開源AI繪畫工具

優(yōu)設(shè)熱榜

每日必讀的行業(yè)消息

教你做字庫

每個公司都可有字庫

設(shè)計(jì)服務(wù)

一站式數(shù)字創(chuàng)意服務(wù)平臺

求職面試

為你用心整理的技巧

B端設(shè)計(jì)

開始探索B端設(shè)計(jì)

3D設(shè)計(jì)

菜單優(yōu)設(shè)網(wǎng) - 學(xué)設(shè)計(jì)上優(yōu)設(shè)

中國團(tuán)隊(duì)打造！這才是現(xiàn)在最強(qiáng)的AI聲音模型！

2025/05/19 推薦：數(shù)字生命卡茲克評論有獎閱讀本文需 10 分鐘

30秒完美復(fù)刻你的聲音，這就是當(dāng)今最強(qiáng)的中文AI語音克?。?/h2>
往期作者干貨：中文，在 AI 世界，好像突然一夜崛起了。
閱讀文章 >

5分鐘速成！用GPT-4o打造蘋果WWDC25風(fēng)格圖標(biāo)！

超多案例！讓 Lovart 作圖更好看更高效的提示詞在這里了！

為什么蘋果和微信在AI的節(jié)奏上快不起來？

點(diǎn)擊登錄后，在評論區(qū)留言，系統(tǒng)會隨機(jī)派送獎品

2012年成立至今，是國內(nèi)備受歡迎的設(shè)計(jì)師平臺，提供獎品贊助聯(lián)系我們

發(fā)表評論為下方 4 條評論點(diǎn)贊，解鎖好運(yùn)彩蛋

9圖！入站必刷

推薦！超人氣分類