大家好,我是和你們聊設計的花生~

在 6 月份的時候我寫了一篇有關 AI 圖像工具的文章,為大家盤點了當時熱門的 4 款人工智能圖像生成工具,分別是 Disco Difussion、Dall·E 2、Midjounery 和 Tiamat。自今年年初 Disco Difussion 出現后,AI 圖像工具越來越受到大家的關注,各類具有強大圖像處理功能的 AI 工具紛紛暫露頭角。特別是 OpenAI 在今年 4 月份公布的最新技術成果 Dall·E 2,在外網引起熱烈討論,很多主流媒體爭相報道,也因此引起不少互聯網科技巨頭的關注。

在 Dall·E 2 發布后的短短兩三個月內,Google、微軟、Meta(Facebook)三家互聯網科技公司也紛紛推出自己在 AI 圖像工具方面的研究成果,其中很多新的技術都令人眼前一亮,今天就和大家簡單介紹一下這些新的 AI 圖像工具。

Google:Imagen

Imagen 官網地址: https://imagen.research.google/

在 Dall·E 2 公布僅 1 個月的時間,Google 就公布其人工智能系統 Imagen。

Imagen 是一款文本-圖像的擴散(CLIP)模型,由 Google Research 和 Google Brain 團隊研發,打出的標語是“前所未有的寫實感×深層次的語言理解”,即可以根據給定的提示詞,生成高度契合文本含義及具有照片般真實感的圖像。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

我們之前介紹過,Dall·E 2 的功能包括根據文本生成具有圖像、根據文本提示修改圖像內容、根據一張圖像延展出風格內容相似的多張圖像。相比之下,Imagen 則更加專注于根據文本生成極具真實感的圖像。

據 Imagen 官網介紹,為了比較 Imagen 與其他文本-圖像模型(如 DALL-E 2)在圖像生成方面的性能,Google 設立一個名為 DrawBench 的文本-圖像模型評估基準。這是一個具有 200 個提示文本的列表,將這些提示文本分別輸入不同的模型中輸出圖像,再由人類參與測評。Google 表示在此基準下,參與測試的人員普遍認為“在并排比較中,無論是在圖像生成的樣本質量還是在圖像與文本的一致性方面,Imagen 都優于其他模型”。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

在 DrawBench 基準下,Imagen 與其他模型的測試結果對比。圖片來源:Imagen 官網

Google:Parti

Parti 官網地址: https://parti.research.google/

Parti 是 Google 在推出 Imagen 不久后推出的另一款文本-圖像生成模型。二者都是專注于通過文本生成逼真的圖像,區別在于 Imagen 是擴散(CLIP)模型,而 Parti 是路徑自回歸文本-圖像(Pathways Autoregressive Text-to-Image )生成模型,后者可實現高保真、極具真實感的圖像生成。

據官網介紹,Parti 通過研究一組圖像來訓練自身模型來生成另一組新的圖像,可供研究的圖像數量越多,生成的圖像就越逼真。而 Parti 則在訓練過程中,將參照圖像數量由 3.5 億個提升至 200 億個,這也使得生成圖像與文本的契合度達到 75.9% 。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

而且 Google 發現,在圖片參照數量達到 200 億的情況下,Parti 在生成有關抽象、世界通識知識、特定視角、書寫和符號的圖像時特別出色。同時也發現 Parti 可以處理長而復雜的提示,特別是這些提示涉及以下方面:

  • 準確地反映世界知識
  • 有許多參與者和對象,有精細的細節和互動
  • 遵守特定的圖像格式和風格

Google 還列出多組提示文本和輸出圖像作為例子,展示 Parti 是如何對參與者、活動、描述、地點和格式的變化做出反應的。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

雖然在官網中 Google 展示了 Parti 在圖像生成方面的優勢,但也坦言這些展示出來的例子都是從很多實驗結果中精挑細選出來的。并表示雖然 Parti 能根據寬泛的提示文本產生了高質量的輸出,但其模型還是有許多限制,比如對文本數量、特征的錯誤呈現,以及對表示否定和不存在提示詞的錯誤處理等

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

Meta:Make-A-Scene

官方介紹: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation/

Make-A-Scene 是 Meta 在 7 月 14 日宣布推出的一項新的 AI 技術,其最大特點是可以在用戶創作的粗略草圖的基礎上,結合文本提示生成具體的圖像,讓生成圖像的可控性更高。

“為了充分實現人工智能促進創造性表達的目標,人們必須能夠影響和控制這些智能模型產生的內容。用戶應該能夠以他們喜歡的任何方式來表達自己的想法,包括語音、文本、手勢甚至是繪圖,并且應該易于使用和直觀。”這是 Meta 在 Make-A-Scene 的介紹文章提出的觀點,也很好的表現了 Make-A-Scene 的意義所在。

與 Dall·E 2 和 Imagen 這種僅憑提示文本生成圖像的模型相比,Make-A-Scene 創作出的圖像有了更高的可控性。使用者可以通過草圖控制最終圖像的具體效果,包含元素數量、大小、形式、排列方式、構圖、深度等各個方面。這項新技術使 Make-A-Scene 在與其他模型進行對比測試時,在圖像與文本契合度方面的評價明顯高于只根據文本生成的圖像的模型。當然用戶也可以選擇不使用草圖,直接通過文本生成所需的圖像。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

在給定的文本提示下,不同的形狀草圖可以生成不同的圖像

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

在給定的草圖下,不同的提示文本可以生成形式相同但風格不同的圖像

為了進一步開發這種由草圖生成圖像的技術,Meta 邀請了幾位著名藝術家進行合作,共同探索 Make-A-Scene 如何能更好地將人們的想象力變為現實;同時也讓兒童參與到這個研究過程中,讓 Make-A-Scene 將小朋友充滿想象力的繪畫的草圖變為現實。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

藝術家Crespo使用 Make-A-Scene ,用草圖和文字提示創作新的生物插圖,提示文本為:一幅夜間的有花瓣外形的外星水母的畫。Crespo認為這種創作方式“這將有助于更快地發揮創造力,并幫助藝術家使用更直觀的界面工作”

Meta 認為通過 Make-A-Scene 這類的 AI 項目,無論原本的藝術能力如何,人們都將能無限拓展創意表達的邊界,而且無論是在現實世界和虛擬世界中,人們都能將自己的愿景變為現實。熟悉 Meta 的朋友可能知道其在元宇宙方便的布局,而人工智能圖像工具的發展讓人們通過語言或其他方式構建虛擬空間成為可能,這對 Meta 進軍元宇宙的布局也有重要意義。

Microsoft: NUWA-Infinity

官網: https://nuwa-infinity.microsoft.com/#/

Github: https://github.com/microsoft/NUWA

初看到 NUWA 這個單詞你會想到什么?沒錯,就是我們熟知的中國神話人物“女媧”。

NUWA-Infinity 是微軟亞洲研究院聯合北京大學、微軟 Azure AI 一起推出的一款無限視覺合成的生成模型,能根據給定的文本生成任意大小的高分辨率圖像或長時間視頻,也是目前唯一一個能從文本生成的圖像中生成長視頻的 AI 模型。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

NUWA-Infinity官網展示的根據《清明上河圖》生成的新圖像,新圖像大小達到了驚人的 38912*2048 px。

之所以說是任意大小的高分辨,是因為前文提到的 Imagen 和 Parti 目前能生成圖片大小為 1024*1024px,Meta 在其官方文章中表示 Make-A-Scene 的圖像分辨率能達到 2048*2048px,而 NUWA-Infinity 則是真正任意大小的“ Infinity”。

在官網上,NUWA-Infinity 展示了其根據《清明上河圖》生成的新圖像,新圖像的大小達到了驚人的 38912*2048 px。為了更好地適應頁面,官方將完整的圖像分割為 6 個部分,每個部分的分辨率為有 6485* 2048 px。NUWA-Infinity 還將 Windows 系統經典的草原壁紙延展為超寬的新圖像,點開圖片靜靜播放,你能體驗到一種坐著綠皮火車穿過草原山川的感覺。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

受動圖大小限制是截取了一小段,強烈建議大家到官網感受一下

功能一:圖像外延(IMAGE OUTPAINTING)

NUWA-Infinity 能根據給定的圖像,通過學習、想象和生成新內容,將其擴展為任意大小和分辨率的圖像。圖像具有超大尺寸、自我創作能力、局部細節與全局一致這 3 點特征,且這種圖像拓展不限方向。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

NUWA-Infinity對圖像進行不同方向拓展的演示,包括向左、向右、向下、向上以及向同時向四周拓展

功能二:圖像轉視頻( IMAGE TO VIDEO)

NUWA-Infinity 可以將圖像轉化為視頻,給靜態圖片帶來顯目的生動性。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

左圖為原始靜態圖片,右圖為NUWA-Infinity根據靜態圖像生成的動態圖像

功能三:文本轉圖像 (TEXT TO IMAGE)

只需簡單的單詞和句子,NUWA-Infinity 就可以生成各種令人嘆為觀止的高分辨率圖像。

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

NUWA-Infinity根據文本提示生成的各種高清圖像

除了以上 3 項主要功能,NUWA-Infinity 還在其論文中提到可以通過圖像繪制和從自然語言描述中創建卡通動畫,并希望這種技術能夠幫助視覺內容創作者節省時間、降低成本,并提高他們的生產力和創造力。

總結

本篇一共為大家介紹了 4 款由互聯網科技巨頭推出的最新 AI 圖像工具,它們分別是:

  • Imagen:Google 推出的一款文本-圖像的擴散(CLIP)模型,可以根據給定的提示詞,生成高度契合文本含義及具有照片般真實感的圖像;
  • Parti:Google 推出的一款路徑自回歸文本-圖像生成模型,擅長處理長而復雜的提示文本,可生成特定視角、涉及多個參與者和對象、具有精致細節的圖像;
  • Make-A-Scene:Meta 推出的新一代 AI 創意工具,可以在用戶創作的粗略草圖的基礎上,結合文本提示生成具象的圖像,即使用者可以通過草圖控制最終圖像的具體效果;
  • NUWA-Infinity:微軟推出的一款無限視覺合成的生成模型,能根據給定的文本生成任意大小的高分辨率圖像或長時間視頻,也是目前唯一一個能夠從文本生成的圖像中再生成長視頻的 AI 模型。

相比 Dall·E 2,這 4 款 AI 圖像工具在技術上都有不同程度的創新,雖然由于模型訓練數據中存在社會偏見、害怕害怕產生有害的圖像、會被公眾濫用等各種原因,這些工具還不能對公眾開放,但相信等未來技術更加成熟后,這些 AI 工具會給我們的工作和生活帶來顛覆性的改變。

以上就是今天的全部內容,喜歡的小伙伴記得點贊收藏,也可以分享給身邊感興趣的朋友。如果你對文章內容有任何疑問,歡迎在評論區提出,我將會第一時間做出回應~

人工智能快速出圖!盤點 4 款大廠出品的 AI 繪畫神器

贊賞
收藏 133
點贊 57

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。