Manus 發(fā)布之后,隨之而來趕到戰(zhàn)場(chǎng)的,是阿里。
關(guān)于 Manus 的深度測(cè)評(píng):
凌晨 3 點(diǎn),阿里開源了他們?nèi)碌?a href="http://www.hx168888.com/tag/%e6%8e%a8%e7%90%86%e6%a8%a1%e5%9e%8b" class="tag_a" target="_blank">推理模型。
本來還有點(diǎn)意識(shí)模糊,當(dāng)看到他們發(fā)出來的性能比對(duì)圖,我人傻了。
不是,我沒看懂,這特么是個(gè)什么怪物。
在幾乎所有數(shù)據(jù)集里,QwQ-32B 都已經(jīng)能跟滿血版 DeepSeek R1(671B)表現(xiàn)相當(dāng)了。尤其是作為 QwQ-32B 的主攻方向的數(shù)學(xué)和代碼。
而且,QwQ-32B 在基準(zhǔn)測(cè)試上的性能跑分,幾乎拉開 o1-mini 一個(gè)身位。
我人已傻。
今天這夜,對(duì)我的沖擊有一點(diǎn)大。
GPT4.5 剛剛證明傳統(tǒng)的那套快撞墻了,轉(zhuǎn)頭阿里就來給你掏個(gè)大的,說,你看,強(qiáng)化學(xué)習(xí)還是能卷的,這條路,遠(yuǎn)遠(yuǎn)還沒到頭。
這么令人詫異的性能表現(xiàn),其實(shí)也跟這兩天在 arxiv 出來的一篇爆火論文互相印證了。
一堆斯坦福教授集中討論,為什么 Qwen-2.5-3B 一開始就能自己檢查自己的答案,Llama-3.2-3B 卻不行。
最后的原因還是落在了 Qwen 團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)上。因?yàn)椋@能讓模型自己學(xué)會(huì)一些關(guān)鍵的“思考習(xí)慣”。
沒啥可說的,阿里 NB。QwenNB。
QwQ-32B 開源鏈接在此:
魔搭開源鏈接: https://modelscope.cn/models/Qwen/QwQ-32B
huggingface 開源鏈接: https://huggingface.co/Qwen/QwQ-32B
當(dāng)然如果想直接上手體驗(yàn),官方也給出了在線體驗(yàn)的地址:https://chat.qwen.ai/?models=Qwen2.5-Plus
左上角模型選擇 Qwen2.5-Plus,然后開啟 Thinking(QwQ),就能用 QwQ-32B 了。
我這邊也第一時(shí)間在 AutoDL 租了一臺(tái) A800-80G 的顯卡,然后把模型下載了下來,并部署測(cè)試了一下這個(gè)怪物。綜合體驗(yàn)下來,本地部署版和網(wǎng)頁版其實(shí)是一樣的。
性能曲線是這樣的。
我也做了一些測(cè)試。
首先就是,我覺得賽博半仙易主了。這回的 QwQ-32B 真的能當(dāng)八字算命大師了。
懂得都懂,AI 自媒體人的命也是命,它掐指一算,就知道我經(jīng)常熬大夜,狂肝文章。下半年家里那些雞毛蒜皮的事就別提了,為了搭我的攝影棚,把景深弄得更到位,我是真得搬家啊。。。
當(dāng)然,AI 算命只能算是個(gè)開胃菜,接下來還是得認(rèn)真測(cè)下 QwQ-32B 的數(shù)學(xué)能力。
然后就是拿我的著名的國(guó)慶調(diào)休題來難為下這類推理模型了:
這是中國(guó) 2024 年 9 月 9 日(星期一)開始到 10 月 13 日的放假調(diào)休安排:上 6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。請(qǐng)你告訴我除了我本來該休的周末,我因?yàn)榉偶俣嘈菹⒘藥滋欤?/p>
比如 Grok3 這種,開了推理還是直接炸了。
答案明明是 4 天,你咋獨(dú)自加了 3 天。。。
而看看 QwQ-32B,在一頓小推理之后。
最后答案,完全正確。
要知道,這可只是一個(gè) 32B 的小模型啊。。
然后我還試了一下代碼能力。我就直接去 Leetcode 找了一道困難級(jí)別的算法題,解數(shù)獨(dú)。
可能有人不知道 Leetcode 是啥,LeetCode 是一個(gè)全球知名的在線編程練習(xí)平臺(tái),這個(gè)平臺(tái)有大量不同難度的算法題庫,從簡(jiǎn)單到困難的各種編程題都有。
我直接把解數(shù)獨(dú)的題目還有代碼模板丟給 QwQ-32B,讓它給出最優(yōu)解的代碼:
編寫一個(gè)程序,通過填充空格來解決數(shù)獨(dú)問題。
數(shù)獨(dú)的解法需遵循如下規(guī)則:
數(shù)字 1-9 在每一行只能出現(xiàn)一次。
數(shù)字 1-9 在每一列只能出現(xiàn)一次。
數(shù)字 1-9 在每一個(gè)以粗實(shí)線分隔的 3x3 宮內(nèi)只能出現(xiàn)一次。(請(qǐng)參考示例圖)
數(shù)獨(dú)部分空格內(nèi)已填入了數(shù)字,空白格用 '.' 表示。
然后給定你一個(gè)類,給我一個(gè)比較好的方案:
class Solution(object):
def solveSudoku(self, board):
"""
:type board: List[List[str]]
:rtype: None Do not return anything, modify board in-place instead.
"""
經(jīng)過幾分鐘的思考,這道題的完整最優(yōu)解代碼也是被 QwQ-32B 成功給出。
我把這段代碼粘貼到了 Leetcode 平臺(tái)上,直接提交,沒想到這段代碼竟然完美的通過了全部測(cè)試用例嗎,而且執(zhí)行用時(shí)才 127ms,擊敗了 93%的在這個(gè)算法題庫做嘗試的人。
說實(shí)話,這個(gè)結(jié)果讓我挺驚訝的,畢竟 127ms 的用時(shí),看平均的用時(shí)基本都在 1691ms 左右。
很強(qiáng),但是我覺得最強(qiáng)的,還是它未來的生態(tài)。
32B 和 671B,對(duì)于本地算力的要求,或者是云服務(wù)的成本來說,差別實(shí)在是太大太大了。
671B,在 FP16 精度下需要 1400G 的顯存,這個(gè)門檻有多高大家懂得都懂。
而現(xiàn)在,32B 的 QwQ,4 張 4090 就能跑,這是將近 15 倍的差距。
而且,智能水平差不多。
這也意味著很多普通企業(yè)還有普通開發(fā)者,可以直接拿到一個(gè)足以對(duì)標(biāo) DeepSeek R1 的邏輯推理、數(shù)學(xué)推理、代碼思考能力的大模型,而且還開源,能在自家環(huán)境中任意調(diào)試、微調(diào)、二次開發(fā)。
更何況,阿里云上的資源、ModelScope、Hugging Face 鏡像都能對(duì)接,瞬間就把部署壁壘降到幾乎為零。
對(duì)于那些創(chuàng)新型創(chuàng)業(yè)者、小型團(tuán)隊(duì),或者想要做專業(yè) AI 應(yīng)用的公司而言,我說實(shí)話,這就是天降神兵。
對(duì)于大多數(shù)的企業(yè)垂直場(chǎng)景,一個(gè)優(yōu)秀的 32B 的模型真的已經(jīng)足以應(yīng)付很很多,沒必要非得上 600 多億參數(shù)、又燒又貴的巨無霸。
這波 QwQ-32B 開源的意義,還是非常強(qiáng)的。
它用實(shí)力證明 RLHF 路線還能玩出花,打破了一些人對(duì) GPT4.5 撞墻后的過度悲觀。
用中等規(guī)模卻拿到高級(jí)性能,給開源界注入了強(qiáng)大信心,你也不必搞那種天價(jià)設(shè)備和超大規(guī)模,也有機(jī)會(huì)跟國(guó)際巨頭同場(chǎng)競(jìng)技。
真的,昨夜爆火的 Manus,在技術(shù)架構(gòu)上,也是 Claude+很多微調(diào)的 Qwen 小模型。
那這次 QwQ-32B,又是一次智能的提升。
每個(gè)大廠、每個(gè)團(tuán)隊(duì)都在全力沖刺,新的風(fēng)暴還會(huì)一個(gè)接一個(gè)出現(xiàn)。
睡前一抬頭,日歷翻到新的數(shù)字。
又是個(gè)不眠之夜。
阿里 NB,QwenNB。
我們中國(guó)的團(tuán)隊(duì)。
就是 NB。
愿我們都能見證更多奇跡。
晚安,或者早安吧。
歡迎關(guān)注作者的微信公眾號(hào):數(shù)字生命卡茲克
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 729 位幸運(yùn)星
發(fā)表評(píng)論 為下方 7 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓