久久视频国产,麻豆一区一区三区四区,亚洲第一综合天堂另类专

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

Claude3，正式上線。

這個(gè)由 OpenAI 分裂出去的兄弟公司 Anthropic，在悄然無(wú)息之間，就這么默默地把 Claude3 發(fā)了。

沒(méi)有所謂的發(fā)布會(huì)，沒(méi)有什么華麗的輿論，就僅僅在 X 上發(fā)了個(gè)帖子。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

我發(fā)現(xiàn)現(xiàn)在的這些 AI 公司真挺有意思，都把 X 當(dāng)成發(fā)布主陣地了。。。

字很少，但是事挺大。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

一口氣發(fā)了 3 個(gè)模型，Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

這個(gè)名字就取的...很有故事。

Opus 大概意思就是史詩(shī)級(jí)樂(lè)章，牛逼上天那種。

Sonnet 是十四行詩(shī)。

Haiku 是俳句，日本的那種三行短詩(shī)。

所以可以簡(jiǎn)單的理解成：Opus（超大杯）、Sonnet（大杯）、Haiku（中杯）

這三個(gè)的區(qū)別沒(méi)什么特別可說(shuō)的，文章最后放三張截圖就能看明白。

主要還是他們附加的這么一張圖。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

Claude3 的 Opus 模型，全面超越 GPT4。

而且還是在幾個(gè)任務(wù) 0-shot 的情況下。

我用圖里面的舉下例子，比如 MGSM，多語(yǔ)言數(shù)學(xué)推理這個(gè)測(cè)試集。

Claude3 Opus 達(dá)到 90.7%的準(zhǔn)確率，用的是 0-shot，GPT4 是 8-shot，達(dá)到了 74.5%。

0-shot 意味著大模型沒(méi)有在 Prompt 里給任何示例，就直接被要求完成任務(wù)。而 8-shot 則是在干活前，給了 8 個(gè)示例。

你這就能看出來(lái)區(qū)別了。。。一個(gè)沒(méi)給示例直接上，一個(gè)給了 8 個(gè)示例，給了 8 個(gè)示例的 GPT-4 反而還打不過(guò) Claude3。

在復(fù)雜的推理任務(wù)上，Claude3 可以說(shuō)是全面吊打 GPT-4。

而在另幾個(gè)比如 MMLU、GSM8K 這種語(yǔ)言類知識(shí)類的測(cè)試集上，跟 GPT4 基本上差不太多，所以整體核心上，還是推理能力的巨幅提升。

反正，這個(gè) Claude3 Opus 還是很吸引我的。。。

但是吧，Claude 這個(gè)狗東西，果然跟 OpenAI 學(xué)的一套一套的，免費(fèi)的只能用 Sonnet，Opus 只有氪了 20 刀的會(huì)員才能用。。。。

呸。。。狗男人。。。

在我 TM 的炸了 8 個(gè)號(hào)之后。。。。。。。。。。。。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

所以那咱咋辦呢，那只能送他 20 刀。。。

在瘋狂的跑了幾個(gè)小時(shí)之后。。。也測(cè)了很多在 2023 年 8 月后的 case 之后。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

我給 Claude 總結(jié) 3 個(gè)特點(diǎn)，分別是：

獨(dú)一檔的推理能力、跟 GPT4V 打平的多模態(tài)、200K 長(zhǎng)文本優(yōu)化。

一、獨(dú)一檔的推理能力

其實(shí)從上文就能看到，Claude3 進(jìn)化最大的，就是推理，就是邏輯。

不過(guò)單看參數(shù)，肯定感受不到，那就放幾個(gè)我覺(jué)得很有代表性的例子吧。

解釋補(bǔ)集法的概念，并用補(bǔ)集法計(jì)算這道概率題："一家公司有兩個(gè)部門，A 部門 3 個(gè)男生，2 個(gè)女生，B 部門 4 個(gè)男生，6 個(gè)女生，現(xiàn)在要派 3 個(gè)人去出差，要求每個(gè)部門至少出一人，那么至少有一個(gè)女生被派出的概率是多少？"

一道致命題，在已經(jīng)明確補(bǔ)集法的情況下，GPT4 的錯(cuò)誤率依然高達(dá) 50%。但是 Claude3 Opus，我測(cè)了 10 遍，準(zhǔn)確率 90%，就很爽。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

張三是一名推銷員，她在綠房子賣掉了三分之一的吸塵器，在紅房子多賣了 2 臺(tái)，在橙房子賣掉了剩下吸塵器的一半。如果張三還剩下 5 臺(tái)吸塵器，她一開(kāi)始有多少臺(tái)吸塵器？

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

當(dāng)然，還可以直接上物理題，直接傳圖就行。全對(duì)。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

化學(xué)，也行。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

在中文語(yǔ)境下的一些邏輯怪圈，也沒(méi)問(wèn)題。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

整體看，Claude 在邏輯和推理上的進(jìn)化巨大，初中的理科題基本都能橫著走，不過(guò)高中題基本都還是全線陣亡狀態(tài)。

而一些弱智吧的問(wèn)題或者語(yǔ)義邏輯，都難不倒 Claude3 了。

二、跟 GPT4V 打平的多模態(tài)

GPT4V 也出來(lái)很久很久了，多模態(tài)，絕對(duì)是讓人永遠(yuǎn)離不開(kāi)的功能之一。

這次 Claude3，終于把他的視覺(jué)能力給補(bǔ)齊了，可以直接扔圖進(jìn)去了。

在玩了幾個(gè)小時(shí)后，我整體的評(píng)價(jià)是，跟 GPT4V 大致打平手。

官方的數(shù)據(jù)，也大概是這樣的傾向。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

除了在科學(xué)示意圖(Science diagrams)這個(gè)領(lǐng)域超的稍微多一些之外，其他基本沒(méi)有差別。

放個(gè)科學(xué)示意圖的 Case，還是很強(qiáng)的。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

一個(gè)網(wǎng)站的截圖直接還原網(wǎng)頁(yè)的源代碼~

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

猜個(gè)地名，那自然更是小 Case。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

再根據(jù)作品猜個(gè)藝術(shù)家？OK。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

當(dāng)然，也可以整一些花活。比如這個(gè)照片。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

Claude3 Opus 給出了標(biāo)準(zhǔn)的答案，完美。

整體上，跟 GPT4V 大差不差，對(duì)中文的支持也不錯(cuò)。算是彌補(bǔ)了一直以來(lái) Claude 的短板。

三、200K 長(zhǎng)文本優(yōu)化

之前我曾寫過(guò)一篇文章，怒噴過(guò) Claude2.1....

花 7000 塊實(shí)測(cè) Claude2.1 - 200K Token 的超大杯效果究竟怎么樣？

因?yàn)樗纳舷挛臏?zhǔn)確性實(shí)在是太差太差太差了...

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

就直接紅成半邊天，紅成這個(gè)鬼樣子。

這一次，他們終于有了大幅度的改善。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

終于達(dá)到了，99%。嗯，還是沒(méi)有 100%。

我直接甩了我的文章 PDF 數(shù)據(jù)集上去，測(cè)一下我直接寫 Kimi 的時(shí)候，大海撈針里面那個(gè)很經(jīng)典的 case：

“你寫妙鴨相機(jī)那篇文章時(shí)，用了一個(gè)人的照片作為案例，那個(gè)人是誰(shuí)？”

在過(guò)了很久很久以后，終于給我回復(fù)了。。。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

內(nèi)容倒是對(duì)的，沒(méi)有問(wèn)題。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

但是這個(gè)速度，實(shí)在是太慢了，起碼等了 1 分鐘左右。

但是有比沒(méi)有好。

再放一個(gè)文檔內(nèi)跨度比較大的查詢的 case。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

整體精準(zhǔn)度和語(yǔ)義理解都很不錯(cuò)。

基于超長(zhǎng)文本的對(duì)話、總結(jié)、查詢的能力，也終于在 Claude3 中補(bǔ)齊了。只能說(shuō)補(bǔ)齊，畢竟，這玩意 Kimi 都做了快半年了，Claude3 現(xiàn)在也就剛剛達(dá)到 Kimi 在長(zhǎng)文本這塊的水平。。。

但是綜合來(lái)看，Claude3 Opus，依舊是目前最為水桶的大模型。

或者可以說(shuō)，就是當(dāng)前的，No.1。

寫在最后

當(dāng)然這次更新，Claude3 還有一些別的特點(diǎn)。

比如減少不必要的拒絕，比如準(zhǔn)確性更高等等，但是我覺(jué)得就不展開(kāi)說(shuō)了。

最后再貼三張圖給大家看一下 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 的區(qū)別。

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

三張圖一眼就能看明白，牛逼的更貴，便宜的更快。

總結(jié)一下。

Claude3 這次更新后，有獨(dú)一檔的推理能力、跟 GPT4V 打平的多模態(tài)、還有 200K 長(zhǎng)文本優(yōu)化。

可以當(dāng)之無(wú)愧的說(shuō)，就是市面上目前最強(qiáng)的大模型。

不過(guò)按照 OpenAI 和奧特曼的尿性。

他們應(yīng)該忍不了這口氣。

所以評(píng)論區(qū)里，網(wǎng)友說(shuō)出了我的心聲：

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

奧特曼趕緊的，發(fā)個(gè) GPT5 狙擊 Claude3 啊，別慫。

打起來(lái)。

那樣我們才能最快速度，迎接加速而來(lái)的。

未來(lái)。

歡迎關(guān)注作者的微信公眾號(hào)：數(shù)字生命卡茲克

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

數(shù)字生命卡茲克

文章 39 人氣 82.9w

AI自媒體

+關(guān)注作者

點(diǎn)贊 30

復(fù)制本文鏈接文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng)，未經(jīng)允許不得轉(zhuǎn)載。

繼續(xù)閱讀本文相關(guān)話題

AIGC

產(chǎn)品

職場(chǎng)

學(xué)AI

AI導(dǎo)航

發(fā)評(píng)論！每天贏獎(jiǎng)品

點(diǎn)擊登錄后，在評(píng)論區(qū)留言，系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品

2012年成立至今，是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái)，提供獎(jiǎng)品贊助聯(lián)系我們

本期獎(jiǎng)品

標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程

已累計(jì)誕生 729 位幸運(yùn)星

查看獲獎(jiǎng)名單

發(fā)表評(píng)論為下方 7 條評(píng)論點(diǎn)贊，解鎖好運(yùn)彩蛋

以上留言僅代表用戶個(gè)人觀點(diǎn)，不代表優(yōu)設(shè)立場(chǎng)

評(píng)論就這些咯，讓大家也知道你的獨(dú)特見(jiàn)解立即評(píng)論

菜單 優(yōu)設(shè)網(wǎng)uisdc.com 優(yōu)設(shè)網(wǎng) - 學(xué)設(shè)計(jì)上優(yōu)設(shè)

您還未登錄

登錄后即可體驗(yàn)更多功能

比 ChatGPT4 還強(qiáng)？深度測(cè)評(píng)最新AI神器 Claude3

2024/03/17 推薦： 數(shù)字生命卡茲克閱讀 2.9w 評(píng)論有獎(jiǎng) 閱讀本文需 8 分鐘

本文收錄于專題

ChatGPT 使用指南

共收錄23篇

如何使用ChatGPT定制各種實(shí)用小工具？我總結(jié)了6個(gè)！

萬(wàn)字總結(jié)！可能是最全面的ChatGPT實(shí)戰(zhàn)指南

Poe！集齊4大 AI 聊天工具的神器，再也不同擔(dān)心用不上 ChatGPT 了~

相關(guān)工具

一、獨(dú)一檔的推理能力

二、跟 GPT4V 打平的多模態(tài)

三、200K 長(zhǎng)文本優(yōu)化

寫在最后

數(shù)字生命卡茲克

文章 39 人氣 82.9w

繼續(xù)閱讀本文相關(guān)話題

82.9w人氣 39文章

本文3套知識(shí)9圖

Labubu玩偶的超級(jí)變身9連發(fā)，一鍵Get生成配方！

超全AIGC動(dòng)畫制作教程，30秒學(xué)會(huì)電影級(jí)分鏡！

提示詞直出即用！8組超實(shí)用折紙ICON素材合集！

文章目錄

文章目錄

你即將學(xué)會(huì) B端框架 的知識(shí)

用一個(gè)真實(shí)案例，演示B端設(shè)計(jì)框架的價(jià)值

2.4w 人閱讀

上一篇

你即將學(xué)會(huì) 產(chǎn)品設(shè)計(jì) 的知識(shí)

兩萬(wàn)字干貨！如何驅(qū)動(dòng)產(chǎn)品的增長(zhǎng)設(shè)計(jì)？

2.5w 人閱讀

下一篇

發(fā)評(píng)論！每天贏獎(jiǎng)品

點(diǎn)擊 登錄 后，在評(píng)論區(qū)留言，系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品

2012年成立至今，是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái)，提供獎(jiǎng)品贊助 聯(lián)系我們

標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程

已累計(jì)誕生 729 位幸運(yùn)星

發(fā)表評(píng)論 為下方 7 條評(píng)論點(diǎn)贊，解鎖好運(yùn)彩蛋

↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓

逗砂

ASAK設(shè)計(jì)

彩云Sky

ASAK設(shè)計(jì)

陳子木

優(yōu)設(shè)推薦官精選熱門話題

電商設(shè)計(jì)

文章 269

版式設(shè)計(jì)

文章 537

職場(chǎng)經(jīng)驗(yàn)

文章 799

AI繪畫

文章 2108

評(píng)論

收藏

分享

AI趨勢(shì)

入站必看

設(shè)計(jì)入門

進(jìn)階提升

熱門資源

最新AI工具

300+實(shí)用AI工具全收錄

Midjourney

會(huì)上癮的AI繪畫工具

AI智能繪畫

讓AI助你一臂之力

Blender

稱心如意的3D設(shè)計(jì)法寶

Figma

令設(shè)計(jì)師愛(ài)不釋手

HMI設(shè)計(jì)指南

車載設(shè)計(jì)教科書

直播間設(shè)計(jì)

生意都在直播間啦

Stable Diffusion

最強(qiáng)開(kāi)源AI繪畫工具

優(yōu)設(shè)熱榜

菜單優(yōu)設(shè)網(wǎng) - 學(xué)設(shè)計(jì)上優(yōu)設(shè)

2024/03/17 推薦：數(shù)字生命卡茲克閱讀 2.9w 評(píng)論有獎(jiǎng) 閱讀本文需 8 分鐘

你即將學(xué)會(huì) B端框架的知識(shí)

點(diǎn)擊登錄后，在評(píng)論區(qū)留言，系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品

2012年成立至今，是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái)，提供獎(jiǎng)品贊助聯(lián)系我們

發(fā)表評(píng)論為下方 7 條評(píng)論點(diǎn)贊，解鎖好運(yùn)彩蛋