OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

大家好,這里是和你們一起探索 AI 的花生。

推薦閱讀

5 月 14 日凌晨 OpenAI 舉辦了首次「春季新品發(fā)布會」,會上 OpenAI 首席技術(shù)官 Mira Murati 從 3 方面介紹了此次更新升級的要點,并實時演示了 OpenAI 最新的旗艦模型 GPT-4o 相關(guān)功能,展示了其強大的實時多模態(tài)交互性能,今天我們就一起來看看此次發(fā)布會的具體內(nèi)容。

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

OpenAI 首席技術(shù)官 Mira Murati 在主持 OpenAI 春季新品發(fā)布會

一、最新旗艦模型 GPT-4o

此次發(fā)布會最大的亮點就是新旗艦模型 GPT-4o 的推出,其中「o」是 “omni(全能)”的意思。GPT-4o 可以接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,且這些內(nèi)容的反饋都是實時的,因此使用 GPT-4o 就像和真人進行互動那樣輕松自然。

比如實時語音交互,之前 ChatGPT 的進行語音對話會有幾秒的延遲,中間的等待時間總讓人覺得不自然。而 GPT-4o 能在 232 毫秒內(nèi)響應音頻輸入,平均響應時間為 320 毫秒,與人類在對話中的響應時間相近。并且即使是面對回答被突然中斷、多人同時談話等復雜的情況,GPT-4o 也能完美理解。

當視頻在手機上無法加載,可前往PC查看。

這樣的提升主要得益于新的模型訓練方式。之前 ChatGPT 的語音模式是由三個獨立模型組成的流水線:一個簡單模型將音頻轉(zhuǎn)錄為文本,GPT-3.5 或 GPT-4 接收文本并輸出文本,第三個簡單模型將文本轉(zhuǎn)換回音頻。這個過程意味著主要的智能源 GPT-4 會丟失很多信息--它不能直接觀察音調(diào)、多人講話或背景噪音,也不能輸出笑聲、歌聲或表達情感。

而 GPT-4o 使用的是在文本、視覺和音頻領域端到端訓練的新模型,這意味著它可以直接理解音頻或者視頻一切內(nèi)容,比如通過你的語氣、語速判斷你的狀態(tài),并做出相對于的反應。官方演示中工作人員特意做出了一個呼吸急促的行為,GPT-4o 能正確識別并理解這種行為對“深呼吸”來說是不對的,還給出的正確的建議。

當視頻在手機上無法加載,可前往PC查看。

基于 GPT-4o 的情緒感知能力、快速反應能力和強大的理解力,它能獨立處理的場景就豐富了。它可以是一個完美的情感伴侶,給你講故事、為你唱歌;也可以是一個專業(yè)的助理,可以在多人對話中扮演翻譯,實時將一種語言翻譯成另一種方便你們溝通;或者是作為客服為用戶提供專業(yè)、耐心的解答幫助。GPT-4o 它的回答方式、說話的語速語調(diào)也可以全憑你的喜好來設置、真實靈活的表現(xiàn)完全不會讓你覺得它是一個機器人。

這樣強大的實時交互能力同樣能在視覺上發(fā)揮作用。GPT-4o 可以根據(jù)你的面部表情判斷你的情緒,從而更好地和你交談;輔導你學習一門新語言或者一步步解開一個方程式;根據(jù)你將要去的場合對你的穿搭給出建議;甚至可以充當盲人的 “眼睛”,描述周圍發(fā)生的一切并為他的下一步動作給出建議,比如該什么時候招手叫停一輛出租車。由此可見 GPT-4o 將給我們的生活帶來多么巨大的改變。

當視頻在手機上無法加載,可前往PC查看。

除了語音和視覺交互功能,GPT-4o 在文本及圖像的生成處理上性能也有大幅提升。根據(jù)傳統(tǒng)基準測試,GPT-4o 在文本、推理和編碼智能方面達到了 GPT-4 Turbo 的級別。有網(wǎng)友測試后反映 GPT-4o 在長文本的處理上表現(xiàn)有明顯提升,可以快速地分析一篇 20 萬字的英文文稿,并對其內(nèi)容進行總結(jié)、人物背景進行分析,這點是其他大模型無法做到的。

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

GPT-4o 的圖像處理功能更是令人驚喜,不但能識別/分析圖像內(nèi)容、根據(jù)文本生成準確的英文文本內(nèi)容,還能充當 “設計師” 完成一些高階的圖像編輯合成任務。比如根據(jù)指令對文本進行排版,將照片動漫化、生成創(chuàng)意字體、根據(jù)一個 logo 生成樣機模板或者周邊、根據(jù)圖像進行 3D 重建、設計一個角色并生成一系列能保持角色形象一致性的場景等等,之前大家說的 “用嘴做設計” 的夢想好像真的要實現(xiàn)了。

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

根據(jù)指令對文本進行排版

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

生成角色以及一系列連貫場景

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

根據(jù)圖像合成海報

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

根據(jù)圖像進行 3D 重建

二、新的桌面應用和 WebUI

此次發(fā)布會上的另一要點是 ChatGPT 將推出桌面端應用,目前已經(jīng)有 Mac 原生應用可以安裝??蛻舳梭w積 134 MB,需要有 ChatGPT 付費賬號以及一些網(wǎng)絡技術(shù)基礎才能順利用上,Windows 客戶端則預計會在晚些時候推出。

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

桌面端 ChatGPT 將幫助我們更便捷的使用它的 AI 服務。使用鍵盤快捷鍵 Option + Space 可以立即向 ChatGPT 提問,發(fā)送網(wǎng)頁截圖或者進行語音對話也更方便,更大地用處是用戶可以直接將整個屏幕分享給 ChatGPT,讓它根據(jù)屏幕內(nèi)容實時處理人物,比如檢測你的代碼寫作過程;參加你的線上會議并記錄內(nèi)容、總結(jié)要點;以及對中國家長來說非常需要的 "輔導孩子寫作業(yè)"。

當視頻在手機上無法加載,可前往PC查看。

三、易用性提升與 AI 普惠

一般來說越強大的性能往往意味著越高昂的獲取代價,但 GPT-4o 的獲取門檻并沒有提高?,F(xiàn)在在 ChatGPT 網(wǎng)頁端,免費用戶也可以體驗 GPT-4o 的文本和圖像功能,不過額度有限,當達到限制后將自動切換到 GPT-3.5 以繼續(xù)和用戶對話;付費用戶的額度則是免費用戶的 5 倍。未來幾周內(nèi) OpenAI 還將在 ChatGPT Plus 中推出新版語音模式的 alpha 版。

開發(fā)人員現(xiàn)在還可以在 API 中訪問 GPT-4o 作為文本和視覺模型。與 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,價格降低一半,速率限制提高 5 倍。官方還計劃在未來幾周內(nèi)在 API 中向一小部分值得信賴的合作伙伴推出對 GPT-4o 新音頻和視頻功能的支持。

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

其實在此次發(fā)布會中,Mira Murati 最先提到的就是 OpenAI 的公司使命 —— To ensure that artificial general intelligence benefits all of humanity(確保人工智能造福全人類),OpenAI 首席執(zhí)行官 Sam Altman 也在發(fā)布會后單獨發(fā)表了一篇博客,同樣強調(diào) “我們使命的一個關(guān)鍵部分是將非常強大的人工智能工具免費(或以優(yōu)惠的價格)提供給人們” 。而他們的團隊也一直致力于此,努力從各方面降低人們使用 AI 的困難。

比如目前用戶可以不用注冊就使用 ChatGPT;CHatGPT 的 WebUI 界面也有了優(yōu)化,以提供給用戶更簡單友好的使用體驗; 還新增 “臨時聊天” 功能,允許用戶和 ChatGPT 進行一次性對話,該對話的聊天內(nèi)容不會被保存到聊天記錄之中,可以幫助用戶避免隱私問題;而桌面端 ChatGPT 的推出則讓人與 AI 的交互變得更加簡單直接。

之前 GPT-3.5 已經(jīng)免費提供給了所有用戶使用,GPT4o 因為在文字方面實現(xiàn)了成本降低,尤其是對于英文以外的語言來說減少了 token 的使用,使得服務更加經(jīng)濟,所以 OpenAI 能夠?qū)?GPT-4o 也免費帶給用戶,包括 GPTs 未來也將免費開放。所有人都能輕松用上 GPT-4 級別的人工智能,還沒有任何廣告或其他干擾,這是 OpenAI 踐行其“AI 普惠” 使命的有力證明。

GPT-4o 的出現(xiàn)不僅意味我們又多了一個強大可用的多模態(tài)模型,更是展示了未來人機交互的一種新范式。Sam Altman 稱 GPT-4o 的語音/視頻模式是他用過的最好的計算機界面,還用科幻電影 《Her》來指代 GPT-4o 給自己的感受(《Her》是一部講述人與人工智能相愛的科幻愛情電影,里面有一個人工智能 “薩曼莎”,是一個比人類更懂人類的 AI)?;蛟S未來每個人都會有一個專屬 AI 助理,我們將把自己的雙手和眼睛從電子屏幕上解放出來,僅通過語音交互就完成大部分的工作和日常任務,而本是科幻電影里的場景也會成為真正的現(xiàn)實。

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

本期為大家介紹的 OpenAI 春季發(fā)布會的相關(guān)內(nèi)容,喜歡的話記得點贊收藏支持一波,我會有更動力為大家推薦新的干貨內(nèi)容~ 想了解更多 AI 新鮮資訊的話,歡迎關(guān)注 優(yōu)設 AI 自學網(wǎng) 和優(yōu)設微信視頻號,每天都會分享最新的 AIGC 資訊和神器,讓你輕松掌握 AI 發(fā)展動態(tài)。

另外我最新制作的課程《零基礎 AI 繪畫入門》已經(jīng)上線,課程包含對 Midjourney 及 Stable Diffusion WebUI 的系統(tǒng)入門教學,并提供配套資源、各類實用工具和提示詞庫,能幫助初學者快速掌握這 2 款目前最熱門的 AI 工具,感興趣的小伙伴可以戳的鏈接了解詳情:夏花生的《零基礎 AI 繪畫錄播課》

也歡迎大家掃描下方的二維碼加入“優(yōu)設 AI 知識交流群”,和我及其他設計師一起交流學習 AI 知識~

OpenAI 發(fā)布新旗艦模型GPT-4o!實時交互猶如真人,免費開放

推薦閱讀:

參考資料:

  1. https://www.youtube.com/watch?v=DQacCB9tDaw
  2. https://weibo.com/u/page/fav/2970341220?layerid=5033781566374337
  3. https://weibo.com/1864645655/OecaFi1ry
  4. https://openai.com/index/hello-gpt-4o/
  5. https://weibo.com/1727858283/OeagdcVmB
  6. https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/
贊賞
收藏 18
點贊 51

復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。