幾個月前,我寫過一篇 MiniMax 的 AI 聲音模型。
我說,那就是當(dāng)時最強(qiáng)的中文 AI 音頻。數(shù)據(jù)也有點(diǎn)小爆。
而在去年 12 月之后,至今將近半年時間,在 AI 聲音模型這塊,我覺得還是沒有能超越 MiniMax 的。
直到昨天,我看到 MiniMax 在 X 上發(fā)了他們新一代聲音模型的技術(shù)報(bào)告,Speech-02 來了。看來想突破 Speech-01 的上限,還是得他們自己。
不過就是這數(shù)據(jù)是真的慘淡,看來大家最近關(guān)注的都是 Agent、MCP,AI 音頻關(guān)注的人,是真的少。。。
我大概翻了一下,跑分確實(shí)牛逼不少,主要是 WER 和 SIM 這兩數(shù)據(jù)。
兩個維度,左邊是 WER,越低越好,代表這個模型講出來的話,有多準(zhǔn)確。右邊是 SIM,越高越好,代表這個模型講出來的聲音,有多像原聲。
你可以簡單的理解成,左邊看的是 AI 說的對不對,右邊看的是 AI 像不像本人。
WER 的數(shù)據(jù),除了一些歐美的小語種,主流語種幾乎都壓了目前世界公認(rèn)最被推崇的 11Labs 一頭,特別是周邊的亞洲國家,日本、越南、泰國,幾乎都是純碾壓姿態(tài),所有語種的 WER 指標(biāo)幾乎平均都在 1~4 之間,很牛逼,他們這是正兒八經(jīng)在多語種上發(fā)力了
而音色相似度上,上一代其實(shí)做的沒有 11labs 好,海外的很多反饋都是聲音沒有 11Labs 像,但是這一次,實(shí)現(xiàn)了全面超越,32 個語種,每一個在跑分上都比 11Labs 要強(qiáng),我自己實(shí)測,也能明顯感覺到,相似度已經(jīng)比 11labs 好了。
我又去看了一下 AI 音頻領(lǐng)域的盲測競技場。
意外的發(fā)現(xiàn)。
MiniMax 這個新模型。
登頂了。。。
現(xiàn)在,這個新模型,MiniMax Speech-02,已經(jīng)可以在 MiniMax 官網(wǎng)用了,目前只有海外版有聲音克隆,別問我為什么只有海外版有。
網(wǎng)址在此: https://www.hailuo.ai/audio
我隨手用 MiniMax+即夢大師版,搓了一個有趣的郭小綱動畫,給大家直觀的感受一下,MiniMax 的 Speech-02 有多強(qiáng)。
我就扔了一段不到 1 分鐘的原聲進(jìn)去復(fù)刻,說實(shí)話,這音調(diào),這起伏,這音色,強(qiáng)的有點(diǎn)不像話了。
我第一次聽到的時候,真的感覺真假難分。
不僅郭小綱,還能讓,周小倫,來夸一夸我。
太像了。
你閉著眼睛,你是真的能感覺到,是周董,在你面前揮舞著手臂,用那獨(dú)特的強(qiáng)調(diào)跟你說,你還挺屌的。
還有之前艾爾登法環(huán),預(yù)告片里面菈妮的配音我一直很喜歡。
我也讓 MiniMax 復(fù)刻了一下。
這是上一代 Speech-01-hd 的效果。
而這是,Speech-02-hd 的效果。
我相信,一定能非常輕松的感受到,情緒的差距。
說說咋用。
進(jìn)入 Minimax 的 Audio 官網(wǎng)后,點(diǎn)擊左邊的 Voices。
免費(fèi)用戶,可以免費(fèi)克隆 3 個聲音。
我是開了 5 刀的會員,所以可以創(chuàng)建 10 個。
點(diǎn)進(jìn)去以后,直接上傳你的素材,然后正常命名,選素材的主語言就行,超級簡單。
上傳的語音最少上傳 10s 的音頻片段就可以克隆了,不過這個樣本其實(shí)不是特別夠,所以我一般推薦音頻素材最好在 30s 左右,當(dāng)然你也可以更長,不過一般不需要超過 5 分鐘。
然后只需要十幾秒,一個新鮮的聲音模型,就克隆好了。
后續(xù)使用的時候,直接在右邊的聲音選擇界面里面找到自己的 tab,正常使用就行。
一代的時候,這個聲音模型,只支持 12 種語言,分別是:
中文、粵語、英語、韓語、日語、印尼語、西語、葡語、法語、意大利語、俄語、德語。
但是這一次的 2 代,支持了 32 種語言。
而且在混合語種上,有更好的效果了。
比如我之前看到一個非常有意思的挑戰(zhàn)。
文字是這樣的:
“皆さん,我在網(wǎng)絡(luò)上面看到有 someone 把三個國家的 language 混在一起去 speak。我看到之后 be like これは我じゃないか,私も try one try です”。
非常離譜。
我克隆了我自己的聲音,然后去試著念了一下。
這是上一代 Speech-01-hd:
我保證,你聽完以后也不知道它到底念了個啥,我就聽到一個 Speak。。。
再來聽聽 2 代的。
雖然日文那還有一點(diǎn)奇怪,但是,已經(jīng)是能完整的區(qū)分出來念的明明白白的了好吧,這已經(jīng)是,史詩級進(jìn)步了。
我又搞了一個更復(fù)雜的,小皇四郎。
文本是這樣的:
“媽的,最煩裝逼的人了。剛回國,問他論文咋樣,他說:
“我要 restructure 一下 framework。”
我翻了個白眼,結(jié)果他又來一句:
“Ah non, pas de sucre, merci~”
然后切日語:「これはマジでイラっとするわ?」
再來西語:“?Qué pesado! Pero suena perfecto.”
最后還補(bǔ)一句英語:“Seriously. Stop pretending you’re special.”
我都想說:你到底是人,還是 AI?
哦,他是 MiniMax Speech two,新模型?!?/p>
真的,實(shí)在太好玩了。
雖然最后的中文,念的還是冒出了翻譯腔,但是進(jìn)步已經(jīng)巨大了。
而且,還有一個超級屌的點(diǎn)是,他們在講故事的場景中,如果你只用一個聲音的話,在一些不同角色那里,它甚至?xí)胁煌囊粽{(diào)變化和情緒變化。
這是我的一份故事文稿。
我直接讓 Speech-02-hd 一鍵直出,然后我自己稍微剪了下,加了點(diǎn)音效,大家可以聽一聽這個情緒,還有角色的變化。
文稿中標(biāo)黃的那幾句,大家應(yīng)該能明顯的聽出來,是刻意壓低了音調(diào),改了情緒。這可不是我處理的,是 MiniMax 直出的,這就非常牛逼了。
除了 C 端產(chǎn)品之外,我看了一眼 API,發(fā)現(xiàn),他們已經(jīng)第一時間把 Speech-02 給支持了。
甚至,MCP 也弄好了。
現(xiàn)在,你可以在任何 Agent 產(chǎn)品里,也可以接入這個逼真到爆炸的語音模型了。
我們也可以自豪的說一聲。
之前,中文 AI 語音,我們做到了世界最強(qiáng),但是現(xiàn)在,可以把中文去掉了,整體上,我們都已經(jīng)做到了世界最強(qiáng)。
這是一個被所有人低估的戰(zhàn)場。
大家都在盯著誰做出第一個像人一樣思考的 Agent,卻沒看到,那些 AI 說話的聲音,其實(shí)早已變得越來越跟真人無異。
而且,這一次,還是我們做出來的。
在 12 月份的那邊 MiniMax AI 音頻的文章中,我在最后寫道:
“也許,這就是屬于中文世界的 AI 時代的序章。而這一切,才剛剛開始?!?/p>
然后就是波瀾壯闊的春節(jié)。
隨后的故事,大家也都知道了。
一語成讖。
現(xiàn)在的 AI 世界,再也不是英語的獨(dú)角戲了。
我們從配角,走向主角。
然后不僅僅止步于起。
像 MiniMax,也用 AI,給世界,盡可能的帶來語言平權(quán)。
那些過去沒被在意的語言,過去只能在家族里、在小巷里、在廟宇里才能聽到的聲音,現(xiàn)在終于有機(jī)會,能被世界聽見了。
AI 沒有帶來統(tǒng)治。
反而是把人類的多樣性。
放進(jìn)了未來。
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評論!每天贏獎品
點(diǎn)擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機(jī)派送獎品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計(jì)師平臺,提供獎品贊助 聯(lián)系我們
標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 729 位幸運(yùn)星
發(fā)表評論 為下方 4 條評論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓