大半夜的,OpenAI 抽象了整整快半年的新模型。
在沒有任何預告下,正式登場。
正式版名稱不叫草莓,草莓只是內部的一個代號。他們的正式名字,叫:
為什么取名叫 o1,OpenAI 是這么說的:
For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.
翻譯過來是:
對于復雜推理任務來說,這是一個重要的進展,代表了人工智能能力的新水平。鑒于此,我們將計數器重置為 1,并將這一系列命名為 OpenAI o1。
這次模型的強悍,甚至讓 OpenAI 不惜推掉了過去 GPT 系列的命名,重新起了一個 o 系列。
炸了,真的炸了。
我現在,頭皮發麻,真的,這次 OpenAI o1 發布,也標志著,AI 行業,正式進入了一個全新的紀元。
“我們通往 AGI 的路上,已經沒有任何阻礙。”
在邏輯和推理能力上,我直接先放圖,你們就知道,這玩意有多離譜。
AIME 2024,一個高水平的數學競賽,GPT4o 準確率為 13.4%,而這次的 o1 預覽版,是 56.7%,還未發布的 o1 正式版,是 83.3%。
代碼競賽,GPT4o 準確率為 11.0%,o1 預覽版為 62%,o1 正式版,是 89%。
而最牛逼的博士級科學問題 (GPQA Diamond),GPT4o 是 56.1,人類專家水平是 69.7,o1 達到了恐怖的 78%。
我讓 Claude 翻譯了一下 o1 的圖,丑是丑了點,但是能看的懂每項數據意思就行。
什么叫全面碾壓,這就是。
特別是在測試測試化學、物理和生物學專業知識的基準 GPQA-diamond 上,o1 的表現全面超過了人類博士專家,這也是有史以來,第一個獲得此成就的模型。
而整個模型之所以達到如此成就,基石就是 Self-play RL,不知道這個的可以去看我前兩天的預測文章:新模型草莓到底是個啥?
通過 Self-play RL,o1 學會了磨練其思維鏈并完善所使用的策略。它學會了識別和糾正自己的錯誤。
它也學會了將復雜的步驟分解為更簡單的步驟。
而且當當前的方法不起作用時,它也學會了嘗試不同的方法。
他學會的這些,就是我們人類,最核心的思考方式:慢思考。
諾貝爾經濟學獎得主丹尼爾·卡尼曼有一本著作,名叫:《思考,快與慢》。
非常詳細的闡述了人類的兩種思考方式。
第一種是快思考(系統 1),特點是快速、自動、直覺性、無意識,舉幾個例子:
- 看到一個笑臉就知道對方心情很好。
- 1+1=2 這樣簡單的計算。
- 開車時遇到危險情況立即踩剎車。
這些就是快思考,也就是傳統的大模型,死記硬背后學得的快速反應的能力。
第二種是慢思考(系統 2),特點是緩慢、需要努力、邏輯性、有意識,舉幾個例子:
- 解決一道復雜的數學題
- 填寫稅務申報表
- 權衡利弊后做出重要決定
這就是慢思考,我們人類之所以強大的核心,也是 AI 要通往下一步 AGI 路上的基石。
而現在,o1 終于踏出了堅實的一步,擁有了人類慢思考的特質,在回答前,會反復的思考、拆解、理解、推理,然后給出最終答案。
說實話,這些增強的推理能力在處理科學、編碼、數學及類似領域的復雜問題時絕對極度有用。
例如 o1 可以被醫療研究人員用來注釋細胞測序數據,被物理學家用來生成量子光學所需的復雜數學公式,以及被各個領域的開發人員用來構建和執行多步驟工作流,等等等等。
o1 也絕對是全新一代的數據飛輪,如果答案正確,整個邏輯鏈就會變成一個包含正負獎勵的訓練示例的小型數據集。
以 OpenAI 的用戶級別,未來的進化速度,只會更恐怖。
寫到這,我忽然嘆了口氣,我覺得我跟一年以后的 o1 比起來,可能就是個純廢物了,真的。。。
目前,o1 模型已經逐步向所有 ChatGPT Plus 和 Team 用戶開放,未來會考慮對免費用戶開放。
分為兩個模型,o1 預覽版和 o1 mini,o1-mini 就是更快更小更便宜,推理啥的都不錯,極度適合數學和代碼,就是世界知識會差很多,適用于需要推理但不需要廣泛世界知識的場景。
o1 預覽版每周 30 條,o1-mini 每周 50 條。
雪崩,甚至不是按以前的 3 小時來限制的,是每周 30 條,也能從側面看出來,o1 這個模型,有多貴了。
對于開發者來說,只對已經付過 1000 美刀的等級 5 開發者開放,每分鐘限制 20 次。
都挺少的。
而且在功能上閹割挺大,但是畢竟早期,理解。
API 的價格上,o1 預覽版每百萬輸入 15 美元,每百萬輸出 60 美元,這個推理成本...
o1-mini 會便宜一些,每百萬輸入 3 美元,每百萬輸出 12 美元。
輸出成本都是推理成本的 4 倍,對比一下 GPT4o,分別是 5 美元和 15 美元。
o1-mini 還是勉強有一些經濟效應的,不過還是開始,后面等著 OpenAI 打骨折。
既然說 o1 已經對 Plus 用戶開放,我就直接去我的號上看了眼,還不錯,拿到了。
那自然第一時間試一試。
目前不支持曾經的所有功能,也就是沒有圖片理解、圖片生成、代碼解釋器、網頁搜索等等,只有一個可以對話的裸模型。
我先是一個曾經很致命的問題:
“農夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。”
思考了 6 秒時間,給了我一個很完美的回答。
還有之前一個坑遍所有大模型的調休問題:
“這是中國 2024 年 9 月 9 日(星期一)開始到 10 月 13 日的放假調休安排:上 6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。
請你告訴我除了我本來該休的周末,我因為放假多休息了幾天?”
在 o1 思考了整整 30 秒以后,給出了一天不差的極度精準的答案。
無敵,真的無敵。
再來一個更難的,就是曾經姜萍那個比賽的奧數題:
別問我題目什么意思,我看不懂,我是廢物,這題曾經屠殺所有的大模型,這次,我們讓 o1 也來試一下看看。
在 o1 思考了整整 1 分多鐘之后,他給出了答案。
...
全...對...
我裂開了。
目前我自己試下來,感覺 Prompt,未來可能也要重新摸索,在 GPT 為代表的快思考大模型時代,我們有很多所謂的一步一步思考之類的玩意,現在全都無效了,對 o1 甚至還有負效果。
OpenAI 給出的最佳寫法是:
- 保持提示簡單直接:模型擅長理解和響應簡短、清晰的指令,而不需要大量的指導。
- 避免思路鏈提示:由于這些模型在內部進行推理,因此不需要提示它們“逐步思考”或“解釋你的推理”。
- 使用分隔符來提高清晰度:使用三重引號、XML 標簽或章節標題等分隔符來清楚地指示輸入的不同部分,幫助模型適當地解釋不同的部分。
- 限制檢索增強生成 (RAG) 中的附加上下文:提供附加上下文或文檔時,僅包含最相關的信息,以防止模型過度復雜化其響應。
最后,我想說一下這個思考的時長。
現在 o1 是思考了一分鐘,但是,如果是真正的 AGI,說實話,思考的越慢可能會越刺激。
當他真的,可以去做證明數學定理,去做癌癥藥物研發,去做天體研究呢?
每一次的思考,可以達到幾小時、幾天、甚至幾周呢?
最后的結果,可能會讓所有人震驚的難以置信。
現在,沒有人能想象到,那時候的 AI,會是一個什么樣的存在。
而 o1 的未來,在我看到,也絕對不止是一個普普通通的 ChatGPT。
而是我們前往下個時代,最偉大的基石。
“我們通往 AGI 的路上,已經沒有任何阻礙。”
現在,我毫不猶豫的堅信著這句話。
星光熠熠的下一個時代。
在今天。
正式到來了。
歡迎關注作者的微信公眾號:數字生命卡茲克
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
標志設計標準教程
已累計誕生 729 位幸運星
發表評論 為下方 1 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓