比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

Claude3,正式上線。

這個(gè)由 OpenAI 分裂出去的兄弟公司 Anthropic,在悄然無(wú)息之間,就這么默默地把 Claude3 發(fā)了。

沒(méi)有所謂的發(fā)布會(huì),沒(méi)有什么華麗的輿論,就僅僅在 X 上發(fā)了個(gè)帖子。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

我發(fā)現(xiàn)現(xiàn)在的這些 AI 公司真挺有意思,都把 X 當(dāng)成發(fā)布主陣地了。。。

字很少,但是事挺大。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

一口氣發(fā)了 3 個(gè)模型,Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

這個(gè)名字就取的...很有故事。

Opus 大概意思就是史詩(shī)級(jí)樂(lè)章,牛逼上天那種。

Sonnet 是十四行詩(shī)。

Haiku 是俳句,日本的那種三行短詩(shī)。

所以可以簡(jiǎn)單的理解成:Opus(超大杯)、Sonnet(大杯)、Haiku(中杯)

這三個(gè)的區(qū)別沒(méi)什么特別可說(shuō)的,文章最后放三張截圖就能看明白。

主要還是他們附加的這么一張圖。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

Claude3 的 Opus 模型,全面超越 GPT4。

而且還是在幾個(gè)任務(wù) 0-shot 的情況下。

我用圖里面的舉下例子,比如 MGSM,多語(yǔ)言數(shù)學(xué)推理這個(gè)測(cè)試集。

Claude3 Opus 達(dá)到 90.7%的準(zhǔn)確率,用的是 0-shot,GPT4 是 8-shot,達(dá)到了 74.5%。

0-shot 意味著大模型沒(méi)有在 Prompt 里給任何示例,就直接被要求完成任務(wù)。而 8-shot 則是在干活前,給了 8 個(gè)示例。

你這就能看出來(lái)區(qū)別了。。。一個(gè)沒(méi)給示例直接上,一個(gè)給了 8 個(gè)示例,給了 8 個(gè)示例的 GPT-4 反而還打不過(guò) Claude3。

在復(fù)雜的推理任務(wù)上,Claude3 可以說(shuō)是全面吊打 GPT-4。

而在另幾個(gè)比如 MMLU、GSM8K 這種語(yǔ)言類知識(shí)類的測(cè)試集上,跟 GPT4 基本上差不太多,所以整體核心上,還是推理能力的巨幅提升。

反正,這個(gè) Claude3 Opus 還是很吸引我的。。。

但是吧,Claude 這個(gè)狗東西,果然跟 OpenAI 學(xué)的一套一套的,免費(fèi)的只能用 Sonnet,Opus 只有氪了 20 刀的會(huì)員才能用。。。。

呸。。。狗男人。。。

在我 TM 的炸了 8 個(gè)號(hào)之后。。。。。。。。。。。。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

所以那咱咋辦呢,那只能送他 20 刀。。。

在瘋狂的跑了幾個(gè)小時(shí)之后。。。也測(cè)了很多在 2023 年 8 月后的 case 之后。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

我給 Claude 總結(jié) 3 個(gè)特點(diǎn),分別是:

獨(dú)一檔的推理能力、跟 GPT4V 打平的多模態(tài)、200K 長(zhǎng)文本優(yōu)化。

一、獨(dú)一檔的推理能力

其實(shí)從上文就能看到,Claude3 進(jìn)化最大的,就是推理,就是邏輯。

不過(guò)單看參數(shù),肯定感受不到,那就放幾個(gè)我覺(jué)得很有代表性的例子吧。

解釋補(bǔ)集法的概念,并用補(bǔ)集法計(jì)算這道概率題:"一家公司有兩個(gè)部門,A 部門 3 個(gè)男生,2 個(gè)女生,B 部門 4 個(gè)男生,6 個(gè)女生,現(xiàn)在要派 3 個(gè)人去出差,要求每個(gè)部門至少出一人,那么至少有一個(gè)女生被派出的概率是多少?"

一道致命題,在已經(jīng)明確補(bǔ)集法的情況下,GPT4 的錯(cuò)誤率依然高達(dá) 50%。但是 Claude3 Opus,我測(cè)了 10 遍,準(zhǔn)確率 90%,就很爽。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

張三是一名推銷員,她在綠房子賣掉了三分之一的吸塵器,在紅房子多賣了 2 臺(tái),在橙房子賣掉了剩下吸塵器的一半。如果張三還剩下 5 臺(tái)吸塵器,她一開(kāi)始有多少臺(tái)吸塵器?

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

當(dāng)然,還可以直接上物理題,直接傳圖就行。全對(duì)。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

化學(xué),也行。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

在中文語(yǔ)境下的一些邏輯怪圈,也沒(méi)問(wèn)題。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

整體看,Claude 在邏輯和推理上的進(jìn)化巨大,初中的理科題基本都能橫著走,不過(guò)高中題基本都還是全線陣亡狀態(tài)。

而一些弱智吧的問(wèn)題或者語(yǔ)義邏輯,都難不倒 Claude3 了。

二、跟 GPT4V 打平的多模態(tài)

GPT4V 也出來(lái)很久很久了,多模態(tài),絕對(duì)是讓人永遠(yuǎn)離不開(kāi)的功能之一。

這次 Claude3,終于把他的視覺(jué)能力給補(bǔ)齊了,可以直接扔圖進(jìn)去了。

在玩了幾個(gè)小時(shí)后,我整體的評(píng)價(jià)是,跟 GPT4V 大致打平手。

官方的數(shù)據(jù),也大概是這樣的傾向。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

除了在科學(xué)示意圖(Science diagrams)這個(gè)領(lǐng)域超的稍微多一些之外,其他基本沒(méi)有差別。

放個(gè)科學(xué)示意圖的 Case,還是很強(qiáng)的。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

一個(gè)網(wǎng)站的截圖直接還原網(wǎng)頁(yè)的源代碼~

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

猜個(gè)地名,那自然更是小 Case。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

再根據(jù)作品猜個(gè)藝術(shù)家?OK。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

當(dāng)然,也可以整一些花活。比如這個(gè)照片。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

Claude3 Opus 給出了標(biāo)準(zhǔn)的答案,完美。

整體上,跟 GPT4V 大差不差,對(duì)中文的支持也不錯(cuò)。算是彌補(bǔ)了一直以來(lái) Claude 的短板。

三、200K 長(zhǎng)文本優(yōu)化

之前我曾寫過(guò)一篇文章,怒噴過(guò) Claude2.1....

花 7000 塊實(shí)測(cè) Claude2.1 - 200K Token 的超大杯效果究竟怎么樣?

因?yàn)樗纳舷挛臏?zhǔn)確性實(shí)在是太差太差太差了...

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

就直接紅成半邊天,紅成這個(gè)鬼樣子。

這一次,他們終于有了大幅度的改善。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

終于達(dá)到了,99%。嗯,還是沒(méi)有 100%。

我直接甩了我的文章 PDF 數(shù)據(jù)集上去,測(cè)一下我直接寫 Kimi 的時(shí)候,大海撈針里面那個(gè)很經(jīng)典的 case:

“你寫妙鴨相機(jī)那篇文章時(shí),用了一個(gè)人的照片作為案例,那個(gè)人是誰(shuí)?”

在過(guò)了很久很久以后,終于給我回復(fù)了。。。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

內(nèi)容倒是對(duì)的,沒(méi)有問(wèn)題。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

但是這個(gè)速度,實(shí)在是太慢了,起碼等了 1 分鐘左右。

但是有比沒(méi)有好。

再放一個(gè)文檔內(nèi)跨度比較大的查詢的 case。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

整體精準(zhǔn)度和語(yǔ)義理解都很不錯(cuò)。

基于超長(zhǎng)文本的對(duì)話、總結(jié)、查詢的能力,也終于在 Claude3 中補(bǔ)齊了。只能說(shuō)補(bǔ)齊,畢竟,這玩意 Kimi 都做了快半年了,Claude3 現(xiàn)在也就剛剛達(dá)到 Kimi 在長(zhǎng)文本這塊的水平。。。

但是綜合來(lái)看,Claude3 Opus,依舊是目前最為水桶的大模型。

或者可以說(shuō),就是當(dāng)前的,No.1。

寫在最后

當(dāng)然這次更新,Claude3 還有一些別的特點(diǎn)。

比如減少不必要的拒絕,比如準(zhǔn)確性更高等等,但是我覺(jué)得就不展開(kāi)說(shuō)了。

最后再貼三張圖給大家看一下 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 的區(qū)別。

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

三張圖一眼就能看明白,牛逼的更貴,便宜的更快。

總結(jié)一下。

Claude3 這次更新后,有獨(dú)一檔的推理能力、跟 GPT4V 打平的多模態(tài)、還有 200K 長(zhǎng)文本優(yōu)化。

可以當(dāng)之無(wú)愧的說(shuō),就是市面上目前最強(qiáng)的大模型。

不過(guò)按照 OpenAI 和奧特曼的尿性。

他們應(yīng)該忍不了這口氣。

所以評(píng)論區(qū)里,網(wǎng)友說(shuō)出了我的心聲:

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

奧特曼趕緊的,發(fā)個(gè) GPT5 狙擊 Claude3 啊,別慫。

打起來(lái)。

那樣我們才能最快速度,迎接加速而來(lái)的。

未來(lái)。

歡迎關(guān)注作者的微信公眾號(hào):數(shù)字生命卡茲克

比 ChatGPT4 還強(qiáng)?深度測(cè)評(píng)最新AI神器 Claude3

收藏 14
點(diǎn)贊 30

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。