Claude3,正式上線。
這個(gè)由 OpenAI 分裂出去的兄弟公司 Anthropic,在悄然無(wú)息之間,就這么默默地把 Claude3 發(fā)了。
沒(méi)有所謂的發(fā)布會(huì),沒(méi)有什么華麗的輿論,就僅僅在 X 上發(fā)了個(gè)帖子。
我發(fā)現(xiàn)現(xiàn)在的這些 AI 公司真挺有意思,都把 X 當(dāng)成發(fā)布主陣地了。。。
字很少,但是事挺大。
一口氣發(fā)了 3 個(gè)模型,Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
這個(gè)名字就取的...很有故事。
Opus 大概意思就是史詩(shī)級(jí)樂(lè)章,牛逼上天那種。
Sonnet 是十四行詩(shī)。
Haiku 是俳句,日本的那種三行短詩(shī)。
所以可以簡(jiǎn)單的理解成:Opus(超大杯)、Sonnet(大杯)、Haiku(中杯)
這三個(gè)的區(qū)別沒(méi)什么特別可說(shuō)的,文章最后放三張截圖就能看明白。
主要還是他們附加的這么一張圖。
Claude3 的 Opus 模型,全面超越 GPT4。
而且還是在幾個(gè)任務(wù) 0-shot 的情況下。
我用圖里面的舉下例子,比如 MGSM,多語(yǔ)言數(shù)學(xué)推理這個(gè)測(cè)試集。
Claude3 Opus 達(dá)到 90.7%的準(zhǔn)確率,用的是 0-shot,GPT4 是 8-shot,達(dá)到了 74.5%。
0-shot 意味著大模型沒(méi)有在 Prompt 里給任何示例,就直接被要求完成任務(wù)。而 8-shot 則是在干活前,給了 8 個(gè)示例。
你這就能看出來(lái)區(qū)別了。。。一個(gè)沒(méi)給示例直接上,一個(gè)給了 8 個(gè)示例,給了 8 個(gè)示例的 GPT-4 反而還打不過(guò) Claude3。
在復(fù)雜的推理任務(wù)上,Claude3 可以說(shuō)是全面吊打 GPT-4。
而在另幾個(gè)比如 MMLU、GSM8K 這種語(yǔ)言類知識(shí)類的測(cè)試集上,跟 GPT4 基本上差不太多,所以整體核心上,還是推理能力的巨幅提升。
反正,這個(gè) Claude3 Opus 還是很吸引我的。。。
但是吧,Claude 這個(gè)狗東西,果然跟 OpenAI 學(xué)的一套一套的,免費(fèi)的只能用 Sonnet,Opus 只有氪了 20 刀的會(huì)員才能用。。。。
呸。。。狗男人。。。
在我 TM 的炸了 8 個(gè)號(hào)之后。。。。。。。。。。。。
所以那咱咋辦呢,那只能送他 20 刀。。。
在瘋狂的跑了幾個(gè)小時(shí)之后。。。也測(cè)了很多在 2023 年 8 月后的 case 之后。
我給 Claude 總結(jié) 3 個(gè)特點(diǎn),分別是:
獨(dú)一檔的推理能力、跟 GPT4V 打平的多模態(tài)、200K 長(zhǎng)文本優(yōu)化。
其實(shí)從上文就能看到,Claude3 進(jìn)化最大的,就是推理,就是邏輯。
不過(guò)單看參數(shù),肯定感受不到,那就放幾個(gè)我覺(jué)得很有代表性的例子吧。
解釋補(bǔ)集法的概念,并用補(bǔ)集法計(jì)算這道概率題:"一家公司有兩個(gè)部門,A 部門 3 個(gè)男生,2 個(gè)女生,B 部門 4 個(gè)男生,6 個(gè)女生,現(xiàn)在要派 3 個(gè)人去出差,要求每個(gè)部門至少出一人,那么至少有一個(gè)女生被派出的概率是多少?"
一道致命題,在已經(jīng)明確補(bǔ)集法的情況下,GPT4 的錯(cuò)誤率依然高達(dá) 50%。但是 Claude3 Opus,我測(cè)了 10 遍,準(zhǔn)確率 90%,就很爽。
張三是一名推銷員,她在綠房子賣掉了三分之一的吸塵器,在紅房子多賣了 2 臺(tái),在橙房子賣掉了剩下吸塵器的一半。如果張三還剩下 5 臺(tái)吸塵器,她一開(kāi)始有多少臺(tái)吸塵器?
當(dāng)然,還可以直接上物理題,直接傳圖就行。全對(duì)。
化學(xué),也行。
在中文語(yǔ)境下的一些邏輯怪圈,也沒(méi)問(wèn)題。
整體看,Claude 在邏輯和推理上的進(jìn)化巨大,初中的理科題基本都能橫著走,不過(guò)高中題基本都還是全線陣亡狀態(tài)。
而一些弱智吧的問(wèn)題或者語(yǔ)義邏輯,都難不倒 Claude3 了。
GPT4V 也出來(lái)很久很久了,多模態(tài),絕對(duì)是讓人永遠(yuǎn)離不開(kāi)的功能之一。
這次 Claude3,終于把他的視覺(jué)能力給補(bǔ)齊了,可以直接扔圖進(jìn)去了。
在玩了幾個(gè)小時(shí)后,我整體的評(píng)價(jià)是,跟 GPT4V 大致打平手。
官方的數(shù)據(jù),也大概是這樣的傾向。
除了在科學(xué)示意圖(Science diagrams)這個(gè)領(lǐng)域超的稍微多一些之外,其他基本沒(méi)有差別。
放個(gè)科學(xué)示意圖的 Case,還是很強(qiáng)的。
一個(gè)網(wǎng)站的截圖直接還原網(wǎng)頁(yè)的源代碼~
猜個(gè)地名,那自然更是小 Case。
再根據(jù)作品猜個(gè)藝術(shù)家?OK。
當(dāng)然,也可以整一些花活。比如這個(gè)照片。
Claude3 Opus 給出了標(biāo)準(zhǔn)的答案,完美。
整體上,跟 GPT4V 大差不差,對(duì)中文的支持也不錯(cuò)。算是彌補(bǔ)了一直以來(lái) Claude 的短板。
之前我曾寫過(guò)一篇文章,怒噴過(guò) Claude2.1....
花 7000 塊實(shí)測(cè) Claude2.1 - 200K Token 的超大杯效果究竟怎么樣?
因?yàn)樗纳舷挛臏?zhǔn)確性實(shí)在是太差太差太差了...
就直接紅成半邊天,紅成這個(gè)鬼樣子。
這一次,他們終于有了大幅度的改善。
終于達(dá)到了,99%。嗯,還是沒(méi)有 100%。
我直接甩了我的文章 PDF 數(shù)據(jù)集上去,測(cè)一下我直接寫 Kimi 的時(shí)候,大海撈針里面那個(gè)很經(jīng)典的 case:
“你寫妙鴨相機(jī)那篇文章時(shí),用了一個(gè)人的照片作為案例,那個(gè)人是誰(shuí)?”
在過(guò)了很久很久以后,終于給我回復(fù)了。。。
內(nèi)容倒是對(duì)的,沒(méi)有問(wèn)題。
但是這個(gè)速度,實(shí)在是太慢了,起碼等了 1 分鐘左右。
但是有比沒(méi)有好。
再放一個(gè)文檔內(nèi)跨度比較大的查詢的 case。
整體精準(zhǔn)度和語(yǔ)義理解都很不錯(cuò)。
基于超長(zhǎng)文本的對(duì)話、總結(jié)、查詢的能力,也終于在 Claude3 中補(bǔ)齊了。只能說(shuō)補(bǔ)齊,畢竟,這玩意 Kimi 都做了快半年了,Claude3 現(xiàn)在也就剛剛達(dá)到 Kimi 在長(zhǎng)文本這塊的水平。。。
但是綜合來(lái)看,Claude3 Opus,依舊是目前最為水桶的大模型。
或者可以說(shuō),就是當(dāng)前的,No.1。
當(dāng)然這次更新,Claude3 還有一些別的特點(diǎn)。
比如減少不必要的拒絕,比如準(zhǔn)確性更高等等,但是我覺(jué)得就不展開(kāi)說(shuō)了。
最后再貼三張圖給大家看一下 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 的區(qū)別。
三張圖一眼就能看明白,牛逼的更貴,便宜的更快。
總結(jié)一下。
Claude3 這次更新后,有獨(dú)一檔的推理能力、跟 GPT4V 打平的多模態(tài)、還有 200K 長(zhǎng)文本優(yōu)化。
可以當(dāng)之無(wú)愧的說(shuō),就是市面上目前最強(qiáng)的大模型。
不過(guò)按照 OpenAI 和奧特曼的尿性。
他們應(yīng)該忍不了這口氣。
所以評(píng)論區(qū)里,網(wǎng)友說(shuō)出了我的心聲:
奧特曼趕緊的,發(fā)個(gè) GPT5 狙擊 Claude3 啊,別慫。
打起來(lái)。
那樣我們才能最快速度,迎接加速而來(lái)的。
未來(lái)。
歡迎關(guān)注作者的微信公眾號(hào):數(shù)字生命卡茲克
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 729 位幸運(yùn)星
發(fā)表評(píng)論 為下方 7 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓