全球領先水平!MiniMax開源首個推理模型M1

不知道還有多少人記得,AI 行業的六小虎。

行業內都在說,他們已經沉寂好久了。

上一次相關的項目發布,還是前一段時間我寫的 MiniMax 聲音模型的更新,Speech-02。

而前晚凌晨將近 12 點的時候,又是 MiniMax,居然在 X 上,預告了他們一整周的發布計劃。

給我整不會了,不是,為什么總是選擇這么陰間的時間點發布啊。。。

而第一天(也就是前天),發布了他們 MiniMax Week 的第一個項目:開源 MiniMax 首個推理模型 M1。

全球領先水平!MiniMax開源首個推理模型M1

出手就開源,還是秀的,看看跑分。

全球領先水平!MiniMax開源首個推理模型M1

我先說結論:“MiniMax M1 的上下文能力,是現在全球最厲害、最牛的、足以媲美 Gemini 2.5 Pro 的開源模型。”

我愿敬稱為新一代源神。

在 AIME 2024 邏輯數學題目上(偏奧數思維)和 LiveCodeBench 編程題上、還有 SWE-bench Verified(真實世界代碼補全+修改),MiniMax M1 的表現只能說中規中矩,有弱的、有強的。

而 TAU-bench(需要理解任務目標、推理動機的場景),M1 準確率 62.8%,開始媲美開源模型。

但是,最離譜的來了,最后一個,MRCR(4-needle)。

這個直接,屠榜了,真的就一瞬間,一柱擎天,直接跟 Gemini2.5Pro 肩并肩,我相信用過 Gemini 2.5 pro 的伙伴,都知道,這玩意的上下文有多離譜,而現在,MiniMax M1 作為一個開源的大模型,首次,在這個評測集上,能跟 Gemini 2.5 Pro 并駕齊驅了。

我特么。。。

很多人不知道 MRCR(4-needle)是個啥,我簡單解釋一下。

AI 圈之前一直有一個測上下文能力的測試,叫做“大海撈針”。

X 上一個大佬 Greg Kamradt,為了弄明白當年 Claude2.1 的 200K Token,究竟實測效果怎么樣,就調用 Claude 的 API 做了個壓力測試,從一段不同長度的文本中,撈出特定的信息,而這個測試,花了他 1000 美金。

這圖我現在還有。

全球領先水平!MiniMax開源首個推理模型M1

Claude-2.1 當時紅了一片,200K 幾乎沒有蛋用,巨水無比。

而那一次,Kimi 在我的文章下留言,說自己內部測了一下,全綠。

后面的故事,大家也就都知道了。

后來呢,Gemini 覺得這個大海撈針測試太初級了,于是自己搓了一個新的測試方法,叫做 Michelangelo。

全球領先水平!MiniMax開源首個推理模型M1

在這個論文里,他們提出了 Michelangelo 的幾個評估任務,有 Latent List、IDK,而第三個,就是 MRCR。

全稱叫 Multi-Round Co-reference Resolution,翻譯成中文叫多輪共指消解,反正非常拗口。

它主要考察一個模型在處理較長的、多輪對話時,能否準確地理解和區分用戶要求中具體指的是哪一次對話、哪一個內容。

比如用戶和 AI 進行了一系列對話,用戶要求 AI 寫一些東西,比如詩、謎語、文章。在這些對話中,會刻意插入多個看起來類似的話題(比如多首關于企鵝的詩)。

然后再讓 AI 回頭去重新找到某一次特定的話,比如用戶要求“再重復一遍第二首寫企鵝的詩”,此時模型必須精準識別這個“第二首”指的具體是哪一次回答的內容。

這個事其實不簡單,因為對話很長,涉及多個話題和文體,非常考驗模型的上下文理解力。

全球領先水平!MiniMax開源首個推理模型M1

有些內容在主題和格式上極其相似,比如“關于企鵝的第一首詩”和“關于企鵝的第二首詩”。模型必須能清晰區分、精準回溯。

后面 OpenAI 在發 GPT-4.1 的時候,也在 blog 里面提到,自己魔改了一個難度更高的 MRCR 的評測集,用來評估模型的上下文性能。

全球領先水平!MiniMax開源首個推理模型M1

而“4-needle” 指的是,在同一段超長上下文里同時埋下 4 個“針”(關鍵信息片段),然后在后續對話里以交錯的方式把這 4 根針全部翻出來。

在這個任務下,MiniMax-M1,吊打了一切,只跟 Gemini 2.5 pro,差了那一點點的距離。

我翻了下技術報告,M1 之所以在上下文有這個性能,核心點還是在于他們之前開源的基座模型 MiniMax-01。

得益于 MiniMax-01 Lightning Attention 線性注意力機制的應用,M1 的時間和空間復雜度隨序列長度增加近似線性增長,不像傳統 Transformer 那樣呈平方級膨脹。

全球領先水平!MiniMax開源首個推理模型M1

因為 Lightning Attention 機制,在推理生成長度 64K token 時,FLOPs 消耗不到 DeepSeek R1 的一半。

當生成長度達到 100K token 時,M1 僅消耗其約 25%的 FLOPs。

非常的離譜。

而這個 MiniMax-M1,跟之前開源的基座模型 MiniMax-01 一樣,也是 456B 參數,MoE 架構,實際激活 45.9B。

最長上下文長度為 100 萬字,也就是 1M,是 DeepSeek-R1 的 8 倍。

這次開源了兩個上下文長度的推理模型,40K 和 80K。

全球領先水平!MiniMax開源首個推理模型M1

80K 版本是在 40K 版本基礎上進一步訓練得到的增強版本。

這里注意一下,80K 和 40K 指的不是上下文長度,上下文長度是 1M,80K 和 40K 指的是 Extended Thinking 的上限。

GitHub:https://github.com/MiniMax-AI/MiniMax-M1

Hugging Face:https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1

目前在 MiniMax 的官網上也上線了。

全球領先水平!MiniMax開源首個推理模型M1

網址在此,可以直接用。

網址:https://chat.minimaxi.com/

我也第一時間,上去測了一下。

我的第一個任務,就讓我開了眼,因為我只是,小小的嘗試一下,沒想到效果,比我預期的還要好,我直接把 MiniMax-M1 的技術報告扔了進去,讓它,給我逐字翻譯。

全球領先水平!MiniMax開源首個推理模型M1

現在看著還比較正常對吧。

但是,馬上,離譜的事情來了。

他居然把圖,也給我...帶出來了。。。

全球領先水平!MiniMax開源首個推理模型M1

甚至不僅有圖,還有,公式。

全球領先水平!MiniMax開源首個推理模型M1

還把表格,直接拎出來翻譯了。

全球領先水平!MiniMax開源首個推理模型M1

這效果,這體驗,真的無敵。

雖然中間,有部分的圖表丟失,還沒有達到 100%的完整度,但是這個效果,也已經非常非常好了,關鍵的是文字,一個不落,全部都整整齊齊的給我翻譯出來了。

最搞笑的是,他還自作主張,在最后,可能覺得參考文獻翻譯出來沒什么用,直接自己給省略了。

全球領先水平!MiniMax開源首個推理模型M1

我說實話,這個參考文獻,占了 5 頁,對我來說,確實沒啥用。。。

在翻譯上,我又試了一個更有趣的場景,我扔了一個文檔過去,然后說:

“翻譯成中文,在括號里標注一些符合我英語水平的原文英文詞匯或短語。我英語水平是大學六級。”

全球領先水平!MiniMax開源首個推理模型M1

太有意思了,這個上下文準確性,是真的牛逼。

然后我又做了一個測試,把我群里這一周的聊天記錄,導出出去也扔給了 MiniMax-M1,讓他把絳燁的聊天記錄都找出來。

全球領先水平!MiniMax開源首個推理模型M1

他準確的識別除了絳燁的微信 ID,然后找到了他的微信號,扒出了他的所有聊天記錄。。。

全球領先水平!MiniMax開源首個推理模型M1

這些鏈接,是真的能點的,我驚了,他還做了樣式重構。。。

因為超長超準的上下文,你還可以,跟大模型玩一局,真正的文字冒險游戲,因為他不會忘記你的出身,他會記得,一切。

全球領先水平!MiniMax開源首個推理模型M1

全球領先水平!MiniMax開源首個推理模型M1

推理模型+超長且精準上下文的擴充,確實會帶來,很多不一樣的花活玩法。

比如我還有一個特別狠的測試。

就是我手上有一個 34 個劉慈欣老師的小說的合集,因為大劉除了世人皆知的三體之外,他其實還寫過特別多的科幻中短篇小說,也特別好看。

全球領先水平!MiniMax開源首個推理模型M1

比如我最愛的《山》。

我現在,想把這些故事,安利給我的朋友們,我想,讓 AI 根據這 34 個故事,每一個故事都寫一段故事總結+推薦語。

這個任務,你要是扔給 DeepSeek。

你就會得到一個非常離譜的提示,DeepSeek 只閱讀了 8%。。。

全球領先水平!MiniMax開源首個推理模型M1

而 MiniMax-M1,出色的完成了任務。

超長上下文的魅力,此時體現的淋漓盡致。

不過我有一個更變態的任務,還是給 MiniMax-M1 干宕機了。

就是...我讓它數本草綱目里一共有多少藥材= =

數了 8 分鐘,最后跟我說,有 400 中種,但其實答案是 1892 種= =

全球領先水平!MiniMax開源首個推理模型M1

不過我也能理解,這個任務,確實實在是太變態了。。。

除了上下文之外,我也測了些寫作、編程、數學。

寫作和數學就不詳細提了,寫作這塊中規中矩,數學的高考題實在沒空完整做了,我覺得我需要抽空寫一個腳本。

不過測了兩道大題,目前是都對的。

最后稍微吐槽一下編程這塊,就是前端審美,感覺還是有一些進步空間的。

就...有一點,不好看啊。

比如我昨天下午去參加了飛書多維表格的閉門會,會議特別有價值,我想做個可視化網頁。

這是 Gemini 生成的。

全球領先水平!MiniMax開源首個推理模型M1

這是 M1 生成的。

全球領先水平!MiniMax開源首個推理模型M1

咱就是說,可以不這么直男審美的= =

總體來說,M1 模型,還是讓我有一點驚喜的,他們自己的新研究,確實卷出了一些很有意思的特性,也把開源領域的模型水平,又拔高了一個層級。

還有 4 天時間,我現在有點期待 MiniMax 會繼續掏出什么有意思的大貨了。

以我對 MiniMax 的了解,視頻模型總歸要來一個的吧,已經有一段時間沒更新了,Video 01-Director 已經是幾個月前的事了。

你 Hailuo 02(0616)都去打榜了,那你這 5 天里,得掏一下吧。

全球領先水平!MiniMax開源首個推理模型M1

海螺的人物情緒表演、動作表演,至今依然是我心中的白月光。

極度期待 Hailuo 02,在人物表演上,會帶給我什么樣的震撼。

聲音模型估計不發新的了,因為一個月前 Speech-02 才發。

圖片和 3DMiniMax 不做,那在掏個音樂模型?這個符合 MiniMax 的氣質。

這一周,希望 MiniMax 盡情撒貨吧。

讓 AI 的這一把火。

燒得更熱烈些。

收藏
點贊 22

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。