大家好,我是言川。
最近 OpenAI 上線了 GPT-4o 模型的生圖功能,這個消息也是刷爆了朋友圈和各大社媒平臺。
這次更新的影響力,我認為堪比春節期間發布的 Deepseek R1 模型。特別是在設計圈,一片“哀鴻遍野”。究其原因還是在于 GPT-4o 模型的生圖能力不僅是改變了傳統設計流程,可能也顛覆了現如今主流的 AI 生圖工作流。
基礎介紹:
今天,想跟大家分享下我的使用體驗,以及 GPT-4o 在生圖領域的應用場景。在文章后面,我也會淺談下它與現如今主流的 AI 圖像模型(Diffusion model)之間的區別,幫助大家客觀、理性地看待 AI 技術。畢竟,有許多的媒體/博主為了流量,非常努力的渲染焦慮......
這篇文章將延續我一貫的深入風格,從基礎介紹和使用方法開始,逐步深入。
非常感謝你愿意花時間閱讀我的文章,讓我們開始吧。
1. GPT-4o 模型介紹
GPT-4o 是由 OpenAI 開發的一款多模態大型語言模型,于 2024 年 5 月 13 日正式發布。?其中,4o中的“o”代表“Omni”,強調其全能的多模態能力。
那多模態模型是啥?
指的是能夠同時處理文本、圖像和音頻輸入,并生成相應的輸出。例如,之前我教過大家如何利用 AI 文本生成工具,通過圖像反推生成提示詞。
反之,多模態模型也能通過提示詞生成圖片。
但是,它所生成的圖像效果是遠遠不如 Midjourney、StableDiffusion 等主流圖像模型的。
直到 2025 年 3 月 26 日,OpenAI 更新了 GPT-4o 的圖像生成功能,使其多模態模型的圖像生成能力達到了與 Midjourney、StableDiffusion 等圖像模型相媲美,甚至在某些方面超越它們的水平。
2. 4o 圖像生成的特點
OpenAI 官方發布了一篇 GPT-4o 圖像生成的介紹
地址: https://openai.com/index/introducing-4o-image-generation/
接下來我分享給大家的介紹,也是引用 OpenAI 這篇文章中的案例。
GPT-4o 圖像生成的特點主要包括六類:文本渲染、多輪生成、遵循指令、情境學習、世界知識、真實風格。
① 文本渲染
GPT-4o 能夠準確生成圖像中的文本內容,支持制作包含文字的圖像,如菜單、邀請函和信息圖等。
② 多輪生成
用戶可以通過多輪對話調整和優化生成的圖像細節,GPT-4o 能夠理解并執行復雜的指令,確保生成的圖像符合用戶的具體需求。
③ 遵循指令
GPT-4o 模型能夠精確遵循用戶的指令,生成符合要求的圖像,即使在復雜的場景和細節中也能保持一致性。
④ 情境學習
GPT-4o 能夠理解上下文信息,將其融入圖像生成過程中,確保生成的圖像與對話內容或提供的提示詞高度相關。
⑤ 世界知識
GPT-4o 模型具備豐富的世界知識,能夠生成包含復雜文本的商業級圖像,如菜單、信息圖表和徽標等
⑥ 真實風格
GPT-4o 支持多種藝術風格的轉換,從寫實照片到插圖等,能夠生成具有真實感的圖像,捕捉細致的紋理和光影效果。
提示詞:“這是一張狗仔隊偷拍的照片,照片中卡爾·馬克思匆匆走過美國購物中心的停車場,他回頭張望,臉上露出驚愕的表情,試圖避開鏡頭。他手里抓著多個裝滿奢侈品的閃亮購物袋。他的外套在風中飄揚,其中一個購物袋擺動著,仿佛他正在邁步。背景模糊,有汽車,購物中心入口發光,以強調運動。相機閃光燈的眩光使圖像部分曝光過度,給人一種混亂的小報感覺。”
提示詞:“逼真的水下場景,海豚從廢棄地鐵車廂的窗戶間游過,氣泡和細致的水流模擬準確。”
提示詞:“水果碗照片,由真實水果和微型行星(木星、土星、火星、地球)混合而成,保持與原始照片一致的真實反射、燈光和陰影,構圖清晰,紋理真實,細節渲染清晰。”
通過上面的介紹和舉例,想必大家對 GPT-4o 生圖能力有了一定的了解。
下面介紹下如何使用。
1. 使用條件
ChatGPT 地址: https://chatgpt.com/
注:需要特定的網絡才可以打開。
GPT-4o 模型的圖像生成功能目前對訂閱賬號開放,部分免費賬號在灰度測試階段也可使用。
但多數賬號應該是沒有的,你可以通過 ChatGPT 的對話輸入框來查看。
例如,我的未訂閱賬號顯示的是“DALL·E”,表明尚未包含在灰度測試中。
注:DALL·E 是 OpenAI 研發的圖像生成模型,屬于擴散模型(Diffusion model)。
GPT-4o 模型最新的生圖功能,正確的顯示狀態如圖:
未訂閱的賬號即時被灰度測試到,但使用生圖功能時,有次數限制(每天最多可生成三張圖像)。
如果你想順暢的使用,還是需要訂閱會員,Plus 版即可(20$)。
2. 使用方式
GPT-4o 生圖的使用方式非常簡單,通過簡短的自然語言指令即可生成圖像。
但我們還是可以將生圖的方式分為兩種:提示詞生成(文生圖)、圖像加提示詞生成(圖生圖)。
需要注意的是,GPT-4o 生圖時會有內容限制,包括禁止生成有害內容、去除水印、知名 IP、模仿在世藝術家的作品,以及生成色情內容和兒童不當圖像等。
① 提示詞生成(文生圖)
兩步操作,首先點擊“創建圖像”,然后輸入提示詞。
提示詞:“生成一張圖像,展示權力的游戲中的丹妮莉絲·坦格利安與指環王中的精靈王子萊戈拉斯在冰雪覆蓋的森林中并肩行走。”
從生成的圖像結果來看,GPT-4o 在遵循提示詞和圖像真實效果方面,表現不遜于 Flux 模型。
說實話,我第一次在大語言模型上體驗到這種高質量的圖片生成,很震驚。
再來測試下插畫風格。
提示詞:“畫一張插畫,內容是魷魚游戲的迷宮般的階梯,梵高的風格。”
生成的結果還不錯,但我打算繼續與它對話,測試它的“多輪對話”能力。
提示詞:“將這張梵高風格的插圖,放在游戲王游戲的卡牌中,要滿星級的卡片。”
它能夠理解并準確生成游戲王卡片、滿星級的圖像,OpenAI 這波更新屬實牛逼,它幾乎能滿足我們各種要求。
但真正有可能改變現有 AI 圖像生成工作流、顛覆市面上幾乎所有 AI 圖像工具的,是圖生圖能力。
② 圖像+提示詞生成(圖生圖)
兩個步驟,上傳圖像(可多張),然后加入提示詞指令描述。
通過提示詞描述,將上傳圖轉換不同的風格,比如,提示詞:“將這張圖片轉換為插畫風格。”
或者是,非常明確的提出轉換某種特定的風格,比如:“將這張圖片轉換為 3D 毛絨風格。”
還可以通過上傳多張圖片,讓 GPT-4o 將圖片中的各個元素組合成一張圖。
比如提示詞:“將襯衫和短褲穿在馬斯克身上。”
當我們知道了 GPT-4o 的生圖能力之后,就能想象出各種應用場景。
接下來的板塊,是我參考了全網優秀的案例,花了 3 天時間測試出來的結果。雖然這些內容可能不夠全面,但希望它們能為你的學習和參考提供價值。
為了更系統的梳理和展示這些應用場景,我將生圖的場景分為兩大類,分別是圖像設計和圖像編輯。
1. 圖像設計
圖像設計主要包含風格轉繪、風格遷移、角色設計、草圖轉繪、模特換裝、產品合成、室內設計和字體設計這 8 種類型。
① 風格轉繪
指將一種特定的藝術風格應用到已有的圖像上,從而將其轉換成該風格的視覺表現。
提示詞:“將這張畫像切換成寫實人像風。”
提示詞:“將這張圖片中的角色,轉換為 3D 毛絨風格,保持角色姿勢不變。”
提示詞:“將這張圖片中的表情包,轉換為 3D 毛絨風格。”
② 風格遷移
與轉繪是一個意思,這里的風格遷移指的是通過參考圖片,遷移到指定圖像中。
提示詞:“將第一張圖片中的圖標,轉換為第二張圖片中的圖標風格,3D 建模質感。”
提示詞:“將第二張圖片的風格遷移到第一張圖片中,第一張圖片中的人物姿勢保持不變。”
③ 角色設計
先玩個角色遷移,將指定角色替換到另一個場景中,并讓該角色代替原場景中的角色,保持角色的特征和風格。
提示詞:“將第一張圖片中的角色,替換到第二張圖片中,3D 風格。”
角色三視圖設計。
提示詞:“根據這張圖片中的角色,生成三視圖,正面、側面和背面,保持角色風格和細節不變。”
④ 草圖轉繪
將簡單的草圖或素描轉化為精細的繪畫作品。在 AIGC 時代,草圖繪制的細節、風格主要由 Prompt 控制。
提示詞:“請為這幅中國古代建筑風格的線稿上色。建筑部分使用溫暖的紅色和金色,屋頂可用傳統的深綠色或深藍色調,搭配一些金色的裝飾。背景的山脈和樹木可以用淡雅的綠色、棕色和灰色來表現,水面則使用深藍和淺藍的漸變色,石塊和植物使用自然的土色系,如灰色、棕色、綠色等,整體色調應柔和而具有傳統中國畫的藝術感。”
草圖換繪還可以結合風格遷移生圖。
提示詞:“ 將第一張的人物線稿圖上色,參考第二張圖的畫風。”
提示詞:“根據這張 web 設計的手繪草圖,生成一張原型圖。”
提示詞:“根據這張原型圖,生成一張 UI 圖,需要填充圖片和文字,有 UI 圖落地的效果。”
⑤ 模特換裝
通過 AI 技術將不同的服裝、配飾等元素應用到模特身上,生成新的穿搭效果。
提示詞:“將第二張圖中的衣服,穿到第一張模特身上。”
提示詞:“將這雙 AJ 鞋穿在模特腳上,畫面只展示鞋子部分。”
提示詞:“將圖中的模特上衣換成紅色的,但要確保上衣細節保持一致,圖片中的其他元素保持不變。”
⑥ 產品合成
通過產品精修和產品場景合成兩步,利用 AI 自動優化產品圖像細節并將其與合適的背景結合。
產品精修——提示詞:“精修圖片中的耳機。”
產品替換——提示詞:“將第二張圖中的耳機,替換第一張圖中的耳機”
產品合成——提示詞:“將第二張圖的耳機,合成到第一張場景圖中。” Logo、光影、產品局部細節處還原度不高。
換一種方式,僅通過提示詞描述合成。
提示詞:“將這款黑金色的 Beats 耳機放置在一個現代科幻風格的展示平臺上,背景是充滿未來感的藍色科技環境,燈光從頂部照射下來,突出耳機的金屬質感和細節,場景應當有光滑的金屬質感和發光的虛擬線條,展示出耳機在未來科技世界中的位置,充滿科技感與未來感。”
光影融合比較自然了,但產品局部細節仍然存在于原圖不符的情況。
人像合成——提示詞:“請將圖中的耳機穿戴在一位亞洲男模特的頭部。”
⑦ 室內設計
通過提示詞描述,讓 AI 根據指定場景進行裝修設計。
提示詞:“請為這間現代化的公寓房間進行裝修設計,現代簡約風格裝修,淺灰色墻壁,淺木地板,窗臺上放置綠植,搭配一張舒適的沙發和簡約的茶幾。”
換一種方式,通過指定的物品,讓 AI 生成室內空間圖。
提示詞:“幫我生成一張室內設計圖,并將我上傳的沙發、茶幾、植物、地毯圖融合在室內空間中。整體設計色調溫暖且簡潔,搭配大面積的自然光。”
⑧ 字體設計
AI 模型越來越會寫文字了,借助多模態大語言模型的能力,即使是中文,GPT-4o 也能很好的理解并生成。
提示詞:“將第一張圖的字體特效遷移到第二張圖中。”
提示詞:“根據這張圖的字體風格,幫我設計“言川真棒” 的標題字體。”
2. 圖像編輯
① 人物換臉
通過 AI 技術將一張圖像中的人物面部特征替換為另一人物的面部,從而生成新的面部表情或形象。
提示詞:“將第二張圖,克里斯汀·斯圖爾特 的臉部換到第一張圖中。”
那么,同樣的思路,用換臉技術生成證件照。
提示詞:“將第二張圖人物的面部,換到第一張證件照中。”
② 圖像擴展
利用 AI 技術對原有圖像進行邊緣延伸或場景拓展,生成一個連貫且符合原始風格的新區域。
提示詞:“ 擴展這張圖片,保留原有的街道和建筑風格。”
提示詞:“擴展這張圖片,16:9 比例的橫圖。”
③ 照片修復
利用 AI 技術對老舊、損壞或缺失部分的照片進行修復,自動修復損壞區域、恢復細節,并改善圖像的清晰度和色彩。
提示詞:“將這張老照片變成彩色。”
提示詞:“修復這張老照片,并上色。”
④ 局部重繪
指在圖像中選擇特定區域進行重新繪制或修復,通過 AI 技術對該區域進行細節的重構、增強或改變,從而改善圖像的視覺效果或替換不需要的元素,同時保持整體畫面的連貫性。
測試下來發現,結果并不理想。雖然說 GPT-4o 能按照我的指令修圖,但會改變原本不需要修改的元素。
提示詞:“刪掉圖中的女人,保持畫面中的其他細節不變。”
提示詞:“刪掉圖中不必要的元素(比如人、電動車等),保留圖片中的場景。”
⑤ 背景摳除
通過 AI 技術或圖像處理工具,將圖像中的人物、物體或其他主體從背景中分離出來。
提示詞:“將圖片中的產品從背景中摳出來,保持產品形態不變,生成 PNG 格式的透明產品圖。”
通過上面的展示你可能不確信真的是 PNG 透明圖,我把生成的頁面放出來。
提示詞:“將圖片中的車從背景中摳出來,保持產品形態不變,生成 PNG 格式的透明產品圖。”
但有個問題,GPT-4o 還是會在圖像處理時,改變原物體中的其他細節。比如車標、Ultra 字母等。
提示詞:“將圖片中的人物從背景中摳出來,保持產品形態不變,生成 PNG 格式的透明產品圖。”
毛發摳除的效果其實算是不錯的了,但人物會發生改變,無解......
提示詞:“將這張圖中的杯子摳出來,確保它的透明度清晰可見,保持杯子的細節和透明質感,去除背景和任何附加元素,生成 PNG 格式的透明產品圖。”
透明的玻璃杯,杯身的透明材質依舊無法摳除。
看完 GPT-4o 生成的案例后,我想給大家分享,或者是說淺談下 GPT-4o 生圖的技術。
疊個甲,OpenAI 并未在本次的更新中發布 GPT-4o 生圖能力的技術實現路徑,我也只能通過閱讀網上其他博主分享的內容來寫,如果說明有誤,請大家及時指出。然后,輕點噴......
首先,GPT-4o 的圖像生成功能采用了“自回歸模型 ”,與傳統的“擴散模型”有所不同。所以,我們還得從它們的介紹開始說起。
1. 擴散模型
擴散模型的核心思想是通過逐步加入噪聲,使數據逐漸變得模糊,再通過逆過程從噪聲中恢復出原始數據。
擴散模型的生成過程可以分為兩個階段:
- 正向擴散(添加噪聲):從原始數據開始,逐步加入噪聲,使數據變得越來越模糊,直到最終變成純噪聲。
- 逆向擴散(去噪):模型學習如何從噪聲中恢復出原始數據,這個過程類似于去噪的過程,最終生成新的數據。
我們熟知的 Stable Diffusion、Midjourney、DALL·E 等都是基于擴散模型的圖像生成模型。
2. 自回歸模型
GPT-4o 的生圖功能依賴于自回歸模型,通過理解自然語言的語義和上下文信息,將這些信息轉化為圖像生成的條件輸入。
自回歸模型通過逐步像素生成圖像的方式,從每一個已生成的像素推測下一個像素,直到完整的圖像生成。
另外,GPT-4o 是一個多模態大語言模型,利用多模態學習技術,結合了文本和圖像數據,允許模型同時處理和生成圖像和文本。
通過一張表格來說明 GPT-4o 生圖與擴散模型的區別:
總結一下:
GPT-4o 生圖主要依賴自回歸模型,能夠通過語言模型結合圖像生成。它生成的圖像通常非常準確地與文本描述匹配。擴散模型則通過噪聲的添加和去噪的過程生成圖像,能夠生成更高質量、細節豐富的圖像,但生成過程相對較慢。
那大家看完以上內容后,想必你心中對 GPT-4o 有了相應的結論,或者說評價。
本篇內容因為是我寫的,所以由我來當大家的嘴替,至于對不對,你也可以在評論區留言,我們互相探討下。
1. GPT-4o 的優點
① 優點一:文本渲染能力
GPT-4o 是一個多模態大語言模型,憑借著大語言模型龐大的數據量,能夠生成多種文字,并且依靠多模態技術,能將這些文字生成圖像,這是擴散模型比擬不了的(主要體現在數據量上)。
② 優點二:提示詞遵循度
GPT-4o 能夠準確地理解復雜的文本指令,并將其轉化為具體的圖像生成任務。與傳統的圖像生成模型不同,GPT-4o 能夠處理帶有多重要求的指令,準確把握每個細節。
③ 優點三:上下文感知能力
GPT-4o 能夠理解并利用對話上下文和用戶提供的視覺線索,生成與上下文高度一致的圖像,使得多輪對話中的圖像生成保持連貫性和一致性。
④ 優點四:多樣的風格表達
GPT-4o 模型支持多種藝術風格的圖像生成,而這些風格數據,也來源于大語言模型。而在擴散模型中,需要單獨訓練特定的風格 Lora 或 微調 Checkpoint 大模型。
2. GPT-4o 的缺點
① 缺點一:圖像裁剪問題
在生成圖像時,GPT-4o 會出現裁剪不當的情況,而且無法準確的控制圖像尺寸生成。
② 缺點二:模型幻覺問題
GPT-4o 在生成圖像時,可能會出現與現實不符的細節,即模型幻覺(大語言模型的通病)。這種情況可能導致圖像中出現不真實或不一致的元素,影響生成內容的可信度。
③ 缺點三:高結合問題
處理包含多個元素的復雜場景時,GPT-4o 可能在將不同對象和特征緊密結合方面遇到困難,導致生成的圖像缺乏協調性和一致性。
④ 缺點四:密集信息問題
當圖像包含大量密集信息時,GPT-4o 可能難以準確呈現所有細節,導致部分內容模糊或缺失,影響圖像的完整性和可讀性。
⑤ 缺點五:原始圖像變形問題
在編輯或生成圖像時,GPT-4o 會對原始圖像進行修改(100%),非常典型的例子,就是人像摳圖了。
⑥ 缺點六:生成速度問題
由于生成高質量圖像需要大量計算資源,GPT-4o 的生成速度可能較慢,尤其在高負載情況下,生成一張圖片可能耗時較長,非常影響體驗。
⑦ 缺點七:數據安全問題
GPT-4o 在生成圖像過程中可能涉及使用大量數據,包括用戶提供的參考圖像。這可能引發數據隱私和安全問題,特別是當生成內容包含敏感信息時。
⑧ 缺點八:IP 版權限制生成問題
有許多 IP 角色、人物的生成會有限制,會出現無法生成的情況,自由度不如 StableDiffusion 高。雖然這也是對版權和原創性的保護,但用起來總是不那么順暢。
那本篇文章就先分享到這,說說我對 OpenAI 這波更新的看法吧。
首先,GPT-4o 圖像生成的技術絕對是目前 AI 圖像領域的一次革新。在次之前,大家都在卷擴散模型,但其實每次擴散模型的更新迭代都只是在圖像效果上表現出色,比如 Midjourney V4 到 V6 模型。
并沒有像這次自回歸模型技術有顛覆性的變化,因為它完全打破了擴散模型極其復雜的工作流,比如 ComfyUI 工作流。現在只需要一句提示詞就能做到老照片修復、產品精修、模特換裝等等圖像效果。
我在 2023 年其實就表達過一個觀點,StableDiffusion 這種復雜的生圖流程在未來一定會被取代。因為 AIGC 時代,AI 最主要的作用就是簡化人類的工作,將標準化的人工流程用 AI 替代。因為 AI 是程序,給它足夠的計算資源就能永不休止的工作。
而 StableDiffusion 雖說能兼顧大部分商業生圖場景,但太復雜了,盡管能優化傳統工作流,能降本增效,但其實不是特別明顯,AI 生產的內容需要大量的人工成本進行修正。
很顯然,GPT-4o 這種在圖像生成領域的自回歸模型做到了,盡管它現在仍然不那么完美,仍然需要人工后期修正。但對比復雜的 ComfyUI 工作流,又能極大的簡化工作流程。
那么問題來了,我們還要不要學習擴散模型,也就是 Midjourney、StableDiffusion。
我的回答是,肯定要學。
在我們的會員社群,大家調侃的說:“再不學就不用學了......”
為什么我會這么說呢?
非常刺痛的一個點,就是數據安全問題。GPT 模型會學習我們上傳的文本信息、圖像信息,這對許多公司而言是不能被允許的,而 StableDiffusion 是本地部署的,不會存在這種問題。
還有各種自定義編輯問題,比如圖像裁剪、特殊的風格、原始圖像的穩定性等等,雖然 GPT-4o 能生成高質量圖像,也很聽話,但商業級的圖像質量水平和對圖像的細節控制,還遠遠不夠,我們只能說它的綜合能力很強。
很顯然,當下最合適的商業級生圖場景的模型,或者說工具,仍然是 StableDiffusion。雖然我上面說它很復雜、學習成本也比較高,甚至是未來會被其他技術取代。
而這次的事件,也會加速圖像模型的研發進度,2024 年圖像模型真的太安逸了......
無論是以前的擴散模型,還是現如今的自回歸模型,都會在這次的行業震動下,再次卷起來!落后就要挨打,我非常期待 4 月份 Midjourney V7 模型的發布,也期待 StableDiffusion 繼續迭代。
最后,大家現在使用 GPT-4o 會存在許多限制,比如網絡、會員、生成速度等等問題。但不要著急,按照行業慣性,可能馬上,國內的字節、騰訊、阿里等大廠就會出類似的功能(自回歸模型,不是現在用的擴散模型技術)。當然,DeepSeek 或許能繼續開源。
以上這段分享,純屬是我個人觀點。
AI 時代下,誰也不能準確的判斷和預測未來會發展到何種地步,唯一可確定的是,AIGC 將會是未來主流的發展趨勢。
而我們,要成為一名終身學習者,以理性、客觀的心理來應對未來行業的變化,切勿因為某次技術的迭代,而產生焦慮、恐懼的情緒。否則,我們或將成為 AI 發展趨勢下的“受害者”。
感謝你的閱讀,希望本篇文章對你有所幫助,我們下期內容再見。
如果你想學習 AIGC,可以加入我主理的《優設 AI 俱樂部》,俱樂部內沉淀有 2000+ 優質 AI 學習資料,涵蓋 AI 繪畫、AI 視頻、AI 提示詞、AI 工具庫、AI 商業設計案例、研究報告......
也可以點擊鏈接: https://wx.zsxq.com/group/15288828142182
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
標志設計標準教程
已累計誕生 729 位幸運星
發表評論 為下方 27 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓