往期AI圈重磅消息:
OpenAI 的 12 天直播,終于來到了最終章。奧特曼,也在一片圣誕的氣息中終于回歸。為大家帶來了最后的壓軸大戲。
OpenAI o3。
又一次超群,又一次把模型的能力,推到了新的高度。
也向全世界證明了,OpenAI,依然在鐵王座上牢不可摧。
我也想起了 OpenAI 研究員在發布 o1 之前的那句話:
“我們通往 AGI 的路上,已經沒有任何阻礙了”
之所以 OpenAI 直接發布 o3 沒有 o2,原因也挺簡單的。
因為跟英國電信服務提供商 O2 可能存在版權或商標沖突,所以直接跳過了。。。
直接到 o3。
而 OpenAI 直播一完,X 上基本就沸騰了。
o3 的能力,對現在所有模型,幾乎都直接是降維打擊。
看下 o3 的能力吧。
一些粗的評測集簡單過一下。
左邊的是軟件工程考試(SWE-Bench Verified),這就像是一個考寫程序的考試,比如你寫一個軟件要它快速、準確,還不能有 bug(小錯誤)。這是考察 o3 是否能像一流的軟件工程師一樣寫出完美的代碼。
o3 的成績:71.7%,比 o1 還強了不少。
右邊的那個基準比較猛,Codeforces,一個全球著名的編碼競賽平臺。
o3 的得分是 2727,這個得分,相當于整個榜單的第 175 名,已經超越了 99.99%的人類了。
o1 的代碼能力已經強到爆炸了,而 o3,又向 AGI 的山頂,前進了一大步。
數學競賽 AIEM 2024 和博士級科學考試 GPQA Diamond。
AIEM 2024 接近滿分,如果我沒記錯的話,這應該也是第一次 AI 能達到有 AIEM 接近滿分的水平。
博士級科學考試有進化,但沒數學和編程進化的這么猛。
接下來的這個數學基準比較有趣一點。
FrontierMath,Epoch AI 開發的一個數學基準測試,由 60 多位頂尖數學家的合作開發,旨在評估人工智能在高級數學推理方面的能力。
而且為了避免數據污染,所有的題目都是原創的且從來沒有發布過的新題目。
之前 GPT-4 和 Gemini 1.5 Pro 這種模型去評估的時候,成功功率不足 2%,與其他傳統數學基準(如 GSM-8K 和 MATH)中超過 90%的成功率形成鮮明對比。
而這一次,o3 直接達到了 25.2。
當各大其他模型都還在卷傳統數學基準的時候,o3 真的已經進入了另一個世界了。。。
就像大家還在大斗師階段互相卷,你是五星大斗師,我是八星大斗師。
兩者爭論不休,正準備要比試比試,忽然就看到一個斗宗強者踏空而行,留下一地的臥槽。
這還比個鬼。
然后,就是我覺得,整個基準里,最有趣的一個基準了:ARC-AGI。
先說說這是個啥玩意。
ARC-AGI 于 2019 年首次提出,旨在通過一系列抽象和推理任務來測試 AI 系統的能力。
主要是因為傳統的技能測量方法并不能有效代表智能,因為它們往往依賴于先前知識和經驗,而真正的智能應體現在廣泛的適應能力和通用性上。
所以,ARC-AGI 誕生了,里面的這些任務要求 AI 識別模式并解決新問題,每個任務由輸入輸出示例組成。這些任務以網格形式呈現,每個方塊可以是十種顏色中的一種,網格的大小可以從 1x1 到 30x30 不等。參與者需要根據給定的輸入生成正確的輸出,測試其推理和抽象能力。
可以簡單的理解成,找規律。
大概就是這樣的。
非常的難且抽象。
過去幾代模型的評分在此:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 (2024): 32%
- o1 Pro (2024): ~50%
但是今天,o3 的分數,達到了恐怖的 87.5%。
從 0%到 5%,整整花了 5 年的時間,而如今,從 5%到 87.5%,僅僅只花了半年。
而對應的,人類的閾值分數,是 85%。
我們通往 AGI 的路上,已經沒有任何阻礙了。
不過 o3 強歸強,但是又是一個期貨,OpenAI 目前只對紅隊開放,如果是巨佬的話,可以去申請試試。
網址在此: https://openai.com/index/early-access-for-safety-testing/
目前不知道 o3 什么時候放出,但是 OpenAI 又基于 o3,訓了 3 個小尺寸的 o3 模型。
目前 o3-mimi,預估在 1 月底可以對外開放,但是感覺到時候,肯定又是 pro 會員專屬的模型了。
我越來越期待,2025 年 AI 行業的進化了。
推理模型、Agent、AI 硬件、世界模型。
每一個都是比這個中間態的 2024,都更讓人興奮的東西。
2025,必是 AI 行業,真正的星辰大海。
我們也在最后,回顧一下這 12 天的直播吧。
Day 1:滿血 o1 上線,ChatGPT Pro 會員上線,o1 pro 推出。
Day 2:基于 o1 的強化微調。
Day 3:Sora 正式發布。
Day 4:ChatGPT Canvas 全員開放以及小功能更新。
Day 5:給蘋果站臺,宣傳蘋果全系接入 GPT。
Day 6:4o 的實時視頻理解上線。
Day 7:ChatGPT 發布新建文件夾“項目”功能。
Day 8:ChatGPT Search 全量開放,搜索體驗大幅優化。
Day 9:發布了 o1 的 API、更新了實時語音的 API、發布了偏好微調能力(PFT)。
Day 10:物理意義上的可以給 ChatGPT 打電話了。
Day 11:炒冷飯,ChatGPT 桌面版能讀到別的應用。
Day 12:OpenAI o3 正式發布。
這 12 天,稍微有點驚喜的日子大概只有 2、3 天,其他都是垃圾時間。
還好,今天的大貨,補上了之前的陰霾。
最后,還是忍不住感嘆一聲。
這 12 天,像一場漫長的馬拉松。
我們經歷了深夜中數不勝數的垃圾時間。
卻也迎來了最后的高光時刻。
這感覺。
還挺 AI 的。
歡迎關注作者的微信公眾號:數字生命卡茲克
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
標志設計標準教程
已累計誕生 729 位幸運星
發表評論 為下方 3 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓