最近 MiniMax Audio 在全球AI音頻榜單上直接干到了世界第一!直到看到榜單前的那一刻,我還是有點不信的。畢竟,ElevenLabs之前已經(jīng)成了AI語音的代名詞。看來我們真的低估了國產(chǎn)AI的進步速度。
殺到全球榜首
在全球AI語音評測權(quán)威榜單Artificial Analysis Speech Arena上,MiniMax Audio的分?jǐn)?shù)直接超過了OpenAI、ElevenLabs這些國際大廠,穩(wěn)穩(wěn)坐上了第一把交椅。
排名來源:https://artificialanalysis.ai/text-to-speech/arena
說說榜單這事兒,Artificial Analysis Speech Arena是圈內(nèi)公認(rèn)的“最難混”的AI語音競技場。
全球主流AI語音工具都在這兒PK,分?jǐn)?shù)是用戶盲測、機器評測、語音相似度等多維度綜合出來的。MiniMax Audio的分?jǐn)?shù)高達(dá)1164,OpenAI是1151,ElevenLabs更是被甩在后頭。并且MiniMax Audio的用戶大多數(shù)還不是中國人。也就是說,沒有自家人打分捧自家人,是真正靠實力殺出來的。
憑什么沖到第一AI
音頻這兩年卷得飛起,ElevenLabs、OpenAI、Google都在做,AI語音工具好不好用,榜單分?jǐn)?shù)當(dāng)然也不是全部。ElevenLabs在歐美市場口碑很高,但問題是,中文和粵語這兩塊硬骨頭上,它表現(xiàn)得并不完美。
很多中文用戶吐槽ElevenLabs的中文發(fā)音帶著濃濃“外國腔”,粵語呢,更是少有本地化的聲音,聽起來不夠地道。而MiniMax Audio,恰恰在這兩點上做了突破。它支持30多種語言,尤其是中文和粵語的本地化做到了極致,很多粵語區(qū)的YouTuber都開始用了。技術(shù)上,MiniMax的最新Speech-02-HD模型支持一次性輸入20萬字符,這意味著可以一次性生成超長的有聲書或播客,而不必分段拼接。
而且,MiniMax的語音克隆只需要10秒的樣本,快速且效果自然。情感、語氣、停頓……全都拿捏到位。后面你聽到余華讀《活著》一定會被震撼到。說到這里,不得不提價格。ElevenLabs的基礎(chǔ)套餐$11/月,聲音克隆還得額外付費。MiniMax Audio直接免費送1萬點數(shù),基礎(chǔ)套餐才$5/月。對比一下,真不是一個量級。除此之外,300多種音色、情緒、音調(diào)隨便調(diào),電音、回聲、低沉……能想到的聲音風(fēng)格基本都有。
而且,MiniMax Audio支持企業(yè)級私有部署,數(shù)據(jù)安全也不用擔(dān)心。開發(fā)團隊、品牌方、內(nèi)容平臺可以很方便地集成。
新應(yīng)用
工具升級之后,應(yīng)用也可以跟著升級了,今天再推薦最近比較火的幾個AI音頻新玩法,發(fā)揮一下MiniMax Audio的核心優(yōu)勢。
1、自定義AI聽書
MiniMax Audio的多語言、多音色、多情緒支持讓它成為打造個性化聽書的利器。我們可以靈活調(diào)整聲音風(fēng)格,實現(xiàn)聽書體驗的私人定制。上傳長篇文本(支持PDF、TXT、URL等),選擇音色,自定義聲音參數(shù)(音調(diào)、速度、情緒),打造專屬聽書聲音風(fēng)格。甚至能利用語音克隆,打造作者本人聲音的AI版本。
聽到作者親自朗讀,太有沖擊力了。
2、AI語音時光記錄
用MiniMax Audio把自己或親人不同時間段的聲音錄下來,生成專屬的AI語音模型。這意味著我們可以保存親人、孩子、甚至自己的聲音數(shù)字備份,哪怕多年后聲音變了,AI依然能幫你復(fù)活那個熟悉的聲音。未來想寫一段回憶錄或給家人做個語音紀(jì)念,直接用克隆的聲音朗讀,溫暖又有紀(jì)念意義。可以調(diào)整情緒、語速、音調(diào),讓聲音聽起來更有故事感,甚至模擬不同心境下的聲音狀態(tài)。
MiniMax的降噪技術(shù)還能處理老舊錄音里的雜音,確保聲音純凈,聽起來像剛錄制的一樣。比傳統(tǒng)錄音保存更靈活,也更有趣,就像聲音的時間膠囊。
3、AI賣貨語音
現(xiàn)在直播帶貨和數(shù)字人越來越火,MiniMax Audio在這里能發(fā)揮巨大作用。因為支持30多種語言,而且能生成多種情緒和口音的自然語音,配合數(shù)字人技術(shù)(比如Heygen等平臺),我們可以用打造一個專屬的AI數(shù)字人,24小時在線賣貨。
也能快速生成多語言賣貨語音,輕松覆蓋不同國家和地區(qū)的客戶,打破語言障礙。也可以調(diào)整語速、情緒,配合不同產(chǎn)品和場景,做出更吸引人的促銷話術(shù)。
這里用各國語言念上面一樣的文案:結(jié)合MiniMax的API,集成到電商平臺或直播系統(tǒng),還可以實現(xiàn)自動化語音播報和互動。
4、AI影視劇第一人稱解說
最近是不是經(jīng)常刷到影視劇里的主角用第一人稱來解說劇情?第一人稱視角的解說往往需要聲音貼合角色個性,情感豐富。 Speech-02-HD模型支持情緒調(diào)節(jié),能自然表達(dá)開心、悲傷、憤怒這樣的情緒,非常適合做角色解說或內(nèi)心獨白。只需要提供角色的語音樣本,調(diào)整語速、情緒和音調(diào),匹配劇情節(jié)奏和角色心理,很能提升觀眾代入感。
又因為支持超長文本輸入,很方便制作長篇解說或旁白,不用分段拼接。有時候,創(chuàng)意不是被靈感卡住,而是被預(yù)算、時間和資源卡住。MiniMax Audio就是那個幫你解鎖新姿勢的AI外掛。MiniMax Audio也還在不斷進化,每隔一段時間就有新功能上線。比如最近還支持了Claude、Cursor等AI客戶端的多模態(tài)調(diào)用,開發(fā)者直接用API接入。
說到底,榜單第一只是一個開始。MiniMax Audio真正厲害的地方,是它把AI語音這件事做得接地氣,讓每一個創(chuàng)意人都能用得起、用得爽、用得放心。工具地址:https://www.minimax.io/audio(需科學(xué))
發(fā)評論!每天贏獎品
點擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機派送獎品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計師平臺,提供獎品贊助 聯(lián)系我們
標(biāo)志設(shè)計標(biāo)準(zhǔn)教程
已累計誕生 729 位幸運星