正在播放日韩精品,最新日韩一区,欧美亚洲国产日韩

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

大家好，這里是和你們一起探索 AI 的花生。

如何使用ChatGPT定制各種實用小工具？我總結(jié)了6個！

ChatGPT 的能力讓人難以想象，限制 ChatGPT 能力的只會是使用者的想象力。

5 月 14 日凌晨 OpenAI 舉辦了首次「春季新品發(fā)布會」，會上 OpenAI 首席技術(shù)官 Mira Murati 從 3 方面介紹了此次更新升級的要點，并實時演示了 OpenAI 最新的旗艦模型 GPT-4o 相關(guān)功能，展示了其強大的實時多模態(tài)交互性能，今天我們就一起來看看此次發(fā)布會的具體內(nèi)容。

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

OpenAI 首席技術(shù)官 Mira Murati 在主持 OpenAI 春季新品發(fā)布會

一、最新旗艦模型 GPT-4o

此次發(fā)布會最大的亮點就是新旗艦模型 GPT-4o 的推出，其中「o」是 “omni（全能）”的意思。GPT-4o 可以接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出，且這些內(nèi)容的反饋都是實時的，因此使用 GPT-4o 就像和真人進行互動那樣輕松自然。

比如實時語音交互，之前 ChatGPT 的進行語音對話會有幾秒的延遲，中間的等待時間總讓人覺得不自然。而 GPT-4o 能在 232 毫秒內(nèi)響應音頻輸入，平均響應時間為 320 毫秒，與人類在對話中的響應時間相近。并且即使是面對回答被突然中斷、多人同時談話等復雜的情況，GPT-4o 也能完美理解。

當視頻在手機上無法加載，可前往PC查看。

這樣的提升主要得益于新的模型訓練方式。之前 ChatGPT 的語音模式是由三個獨立模型組成的流水線：一個簡單模型將音頻轉(zhuǎn)錄為文本，GPT-3.5 或 GPT-4 接收文本并輸出文本，第三個簡單模型將文本轉(zhuǎn)換回音頻。這個過程意味著主要的智能源 GPT-4 會丟失很多信息--它不能直接觀察音調(diào)、多人講話或背景噪音，也不能輸出笑聲、歌聲或表達情感。

而 GPT-4o 使用的是在文本、視覺和音頻領域端到端訓練的新模型，這意味著它可以直接理解音頻或者視頻一切內(nèi)容，比如通過你的語氣、語速判斷你的狀態(tài)，并做出相對于的反應。官方演示中工作人員特意做出了一個呼吸急促的行為，GPT-4o 能正確識別并理解這種行為對“深呼吸”來說是不對的，還給出的正確的建議。

當視頻在手機上無法加載，可前往PC查看。

基于 GPT-4o 的情緒感知能力、快速反應能力和強大的理解力，它能獨立處理的場景就豐富了。它可以是一個完美的情感伴侶，給你講故事、為你唱歌；也可以是一個專業(yè)的助理，可以在多人對話中扮演翻譯，實時將一種語言翻譯成另一種方便你們溝通；或者是作為客服為用戶提供專業(yè)、耐心的解答幫助。GPT-4o 它的回答方式、說話的語速語調(diào)也可以全憑你的喜好來設置、真實靈活的表現(xiàn)完全不會讓你覺得它是一個機器人。

這樣強大的實時交互能力同樣能在視覺上發(fā)揮作用。GPT-4o 可以根據(jù)你的面部表情判斷你的情緒，從而更好地和你交談；輔導你學習一門新語言或者一步步解開一個方程式；根據(jù)你將要去的場合對你的穿搭給出建議；甚至可以充當盲人的 “眼睛”，描述周圍發(fā)生的一切并為他的下一步動作給出建議，比如該什么時候招手叫停一輛出租車。由此可見 GPT-4o 將給我們的生活帶來多么巨大的改變。

當視頻在手機上無法加載，可前往PC查看。

除了語音和視覺交互功能，GPT-4o 在文本及圖像的生成處理上性能也有大幅提升。根據(jù)傳統(tǒng)基準測試，GPT-4o 在文本、推理和編碼智能方面達到了 GPT-4 Turbo 的級別。有網(wǎng)友測試后反映 GPT-4o 在長文本的處理上表現(xiàn)有明顯提升，可以快速地分析一篇 20 萬字的英文文稿，并對其內(nèi)容進行總結(jié)、人物背景進行分析，這點是其他大模型無法做到的。

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

GPT-4o 的圖像處理功能更是令人驚喜，不但能識別/分析圖像內(nèi)容、根據(jù)文本生成準確的英文文本內(nèi)容，還能充當 “設計師” 完成一些高階的圖像編輯合成任務。比如根據(jù)指令對文本進行排版，將照片動漫化、生成創(chuàng)意字體、根據(jù)一個 logo 生成樣機模板或者周邊、根據(jù)圖像進行 3D 重建、設計一個角色并生成一系列能保持角色形象一致性的場景等等，之前大家說的 “用嘴做設計” 的夢想好像真的要實現(xiàn)了。

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

根據(jù)指令對文本進行排版

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

生成角色以及一系列連貫場景

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

根據(jù)圖像合成海報

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

根據(jù)圖像進行 3D 重建

二、新的桌面應用和 WebUI

此次發(fā)布會上的另一要點是 ChatGPT 將推出桌面端應用，目前已經(jīng)有 Mac 原生應用可以安裝?？蛻舳梭w積 134 MB，需要有 ChatGPT 付費賬號以及一些網(wǎng)絡技術(shù)基礎才能順利用上，Windows 客戶端則預計會在晚些時候推出。

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

桌面端 ChatGPT 將幫助我們更便捷的使用它的 AI 服務。使用鍵盤快捷鍵 Option + Space 可以立即向 ChatGPT 提問，發(fā)送網(wǎng)頁截圖或者進行語音對話也更方便，更大地用處是用戶可以直接將整個屏幕分享給 ChatGPT，讓它根據(jù)屏幕內(nèi)容實時處理人物，比如檢測你的代碼寫作過程；參加你的線上會議并記錄內(nèi)容、總結(jié)要點；以及對中國家長來說非常需要的 "輔導孩子寫作業(yè)"。

當視頻在手機上無法加載，可前往PC查看。

三、易用性提升與 AI 普惠

一般來說越強大的性能往往意味著越高昂的獲取代價，但 GPT-4o 的獲取門檻并沒有提高?，F(xiàn)在在 ChatGPT 網(wǎng)頁端，免費用戶也可以體驗 GPT-4o 的文本和圖像功能，不過額度有限，當達到限制后將自動切換到 GPT-3.5 以繼續(xù)和用戶對話；付費用戶的額度則是免費用戶的 5 倍。未來幾周內(nèi) OpenAI 還將在 ChatGPT Plus 中推出新版語音模式的 alpha 版。

開發(fā)人員現(xiàn)在還可以在 API 中訪問 GPT-4o 作為文本和視覺模型。與 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，價格降低一半，速率限制提高 5 倍。官方還計劃在未來幾周內(nèi)在 API 中向一小部分值得信賴的合作伙伴推出對 GPT-4o 新音頻和視頻功能的支持。

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

其實在此次發(fā)布會中，Mira Murati 最先提到的就是 OpenAI 的公司使命 —— To ensure that artificial general intelligence benefits all of humanity（確保人工智能造福全人類），OpenAI 首席執(zhí)行官 Sam Altman 也在發(fā)布會后單獨發(fā)表了一篇博客，同樣強調(diào) “我們使命的一個關(guān)鍵部分是將非常強大的人工智能工具免費（或以優(yōu)惠的價格）提供給人們” 。而他們的團隊也一直致力于此，努力從各方面降低人們使用 AI 的困難。

比如目前用戶可以不用注冊就使用 ChatGPT；CHatGPT 的 WebUI 界面也有了優(yōu)化，以提供給用戶更簡單友好的使用體驗；還新增 “臨時聊天” 功能，允許用戶和 ChatGPT 進行一次性對話，該對話的聊天內(nèi)容不會被保存到聊天記錄之中，可以幫助用戶避免隱私問題；而桌面端 ChatGPT 的推出則讓人與 AI 的交互變得更加簡單直接。

之前 GPT-3.5 已經(jīng)免費提供給了所有用戶使用，GPT4o 因為在文字方面實現(xiàn)了成本降低，尤其是對于英文以外的語言來說減少了 token 的使用，使得服務更加經(jīng)濟，所以 OpenAI 能夠?qū)?GPT-4o 也免費帶給用戶，包括 GPTs 未來也將免費開放。所有人都能輕松用上 GPT-4 級別的人工智能，還沒有任何廣告或其他干擾，這是 OpenAI 踐行其“AI 普惠” 使命的有力證明。

GPT-4o 的出現(xiàn)不僅意味我們又多了一個強大可用的多模態(tài)模型，更是展示了未來人機交互的一種新范式。Sam Altman 稱 GPT-4o 的語音/視頻模式是他用過的最好的計算機界面，還用科幻電影《Her》來指代 GPT-4o 給自己的感受（《Her》是一部講述人與人工智能相愛的科幻愛情電影，里面有一個人工智能 “薩曼莎”，是一個比人類更懂人類的 AI）?；蛟S未來每個人都會有一個專屬 AI 助理，我們將把自己的雙手和眼睛從電子屏幕上解放出來，僅通過語音交互就完成大部分的工作和日常任務，而本是科幻電影里的場景也會成為真正的現(xiàn)實。

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

本期為大家介紹的 OpenAI 春季發(fā)布會的相關(guān)內(nèi)容，喜歡的話記得點贊收藏支持一波，我會有更動力為大家推薦新的干貨內(nèi)容~ 想了解更多 AI 新鮮資訊的話，歡迎關(guān)注優(yōu)設 AI 自學網(wǎng) 和優(yōu)設微信視頻號，每天都會分享最新的 AIGC 資訊和神器，讓你輕松掌握 AI 發(fā)展動態(tài)。

另外我最新制作的課程《零基礎 AI 繪畫入門》已經(jīng)上線，課程包含對 Midjourney 及 Stable Diffusion WebUI 的系統(tǒng)入門教學，并提供配套資源、各類實用工具和提示詞庫，能幫助初學者快速掌握這 2 款目前最熱門的 AI 工具，感興趣的小伙伴可以戳的鏈接了解詳情：夏花生的《零基礎 AI 繪畫錄播課》。

也歡迎大家掃描下方的二維碼加入“優(yōu)設 AI 知識交流群”，和我及其他設計師一起交流學習 AI 知識~

OpenAI 發(fā)布新旗艦模型GPT-4o！實時交互猶如真人，免費開放

實現(xiàn)紋理素材自由！8 組紋理材質(zhì)類 Midjourney 關(guān)鍵詞

大家好，這里是和你們一起探索 AI 的花生~ 紋理材質(zhì)是設計中非常重要的一類素材，可以提升畫面質(zhì)感、豐富視覺層次。

閱讀文章 >

清華出品！AI視頻神器 Vidu 橫空出世，效果直追 Sora！

大家好，這里是和你們一起探索 AI 的花生~ 這兩天一款名為 Vidu 的視頻生成模型火爆網(wǎng)絡，它由北京生數(shù)科技與清華大學聯(lián)合發(fā)布，能直接通過文本生成 16 秒 1080P 的高清視頻，且視頻質(zhì)量與 OpenAI Sora 不相上下，因此被認為是 Sora 目前最有力的競爭對手。

閱讀文章 >

參考資料：