編者按:這篇文章是來自斯坦福的年輕教授 Maneesh Agrawala,他本人既是斯坦福計算機專業的教授,也是斯坦福大學布朗媒體創新研究所的所長。他在去年 HAI 2022 秋季會議上發布了演講「AI回路:演進中的人類」,而這篇文章正是演講內容修訂后的版本。對于 AIGC 當下存在的深層問題,AI 的邏輯以及未來可能的改進方式,給出了詳盡的解讀和預測。以下是正文:

最近我決定更新一下我的個人網站的圖片資料:

AI繪畫未來如何改進?來看斯坦福教授的預測!

作為一名計算機專業的教授,我覺得現在制作一張高質量照片,最簡單的方法,就是使用 DALL-E2 來生成。所以我寫了一個簡單的 prompt:「Picture of a Professor named Maneesh Agrawala」,然后 DALL-E2 給我生成了……額……這張照片:

AI繪畫未來如何改進?來看斯坦福教授的預測!

根據我文本提示,它生成了一張看起來有著明顯印度裔特征的男性,給他穿上了看起來「專業」的服裝,并且把場景設置在一個學術研究室當中。從整體上來看,物體、燈光、陰影和色彩都是連貫的,是單一且統一的照片。我對于 AI 生成的照片總體上是不會吹毛求疵的,不過手看起來比較奇怪,有一邊眼鏡腿沒了,當然,從我更人需求的角度出發,我很希望它生成這個角色看起來年輕一點。

總體上來看,AI 能夠生成如此之逼真的照片確實是令人驚艷的,這是人類歷史上從未有過的數字超能力。

AI 能生成的不止是圖片內容。先走的生成式 AI 對于用戶而言,是一個巨大的黑箱。將自然語言作為輸入內容,AI 能夠生成素質驚人的文本內容(GPT4,ChatGPT),圖片內容(DALL-E2、Stable Diffusion、Midjourney),視頻內容(Make-a-Video),3D 模型(DreamFusion)甚至程序代碼(Copilot , Codex )。

AI繪畫未來如何改進?來看斯坦福教授的預測!

AI繪畫未來如何改進?來看斯坦福教授的預測!

那么這次我們使用 DALL-E2 重新生成一張照片看看吧。這次, 我想看看如果斯坦福以《銀翼殺手》的風格呈現出來的時候,會是什么樣子。斯坦福最典型的建筑就它的主廣場,中間是被棕櫚樹包圍的紀念教堂,而談及《銀翼殺手》的時候,我能想到的是霓虹燈,擁擠的夜市,連綿的雨水和大排檔。所以我撰寫了 prompt:「stanford memorial church with neon signage in the style of bladerunner」。

AI繪畫未來如何改進?來看斯坦福教授的預測!

在第一次迭代的時候,生成的圖片并沒有呈現主廣場和棕櫚樹,所以我將「And main quad」添加到第二輪的 prompt 當中,在第三輪迭代中,我加入了「with palm tree」,生成的圖像越來越像斯坦福的主廣場,但是和《銀翼殺手》的夜景沒有啥關系。我開始周期性地修改 prompt,嘗試找到更合適的 prompt,以產出我想要的圖片內容。在第 21 次迭代之后,我在 DALL-E2 耗費了好幾個小時,我決定在此止步。

AI繪畫未來如何改進?來看斯坦福教授的預測!

實際上,最終生成的圖片依然不符合我的預期。更糟糕的是,我不清楚如何更改 prompt 以確保 AI 生成的內容能夠進一步靠近我的想法。

這個過程令人沮喪。(這大概才是絕大多數 AIGC 內容產出的真實情況吧?)

事實上,尋求有效的 prompt 是如此之艱難,以至于現在誕生了專門的論壇(比如 PromptHeroArthub.aiReddit/StableDiffusion)來搜集和分享各種 prompt,甚至還誕生了專門買賣 prompt 的市場(promptbase),還誕生了大量的關于 prompt 的研究性的論文。

良好的 UI 提供了可預測的概念模型

要理解為什么寫出有效的 prompt 很困難,我認為唐納德諾曼的《設計心理學》當中提及的一件軼事非常具有啟發意義。這個故事說的是他自己擁有一個冰箱,而冰箱內設置溫度的功能極度難用,因為它的溫控大概是這樣的:

AI繪畫未來如何改進?來看斯坦福教授的預測!

這個冰箱有著典型的冷凍室和冷藏室,它的兩套設溫控設施讓人覺得兩者有著獨立的控制系統,實際上這個冰箱僅有一個冷卻裝置,而控制兩者溫度主要依靠一個閥門,來分配兩者所用的冷氣。這也意味著,原本的控制功能已經很難理解很難用了,而實際上的體系比我們看到的更加復雜,使用一個你看不到的閥門來耦合控制。

AI繪畫未來如何改進?來看斯坦福教授的預測!

使用不正確的概念模型,用戶不僅無法預測輸入的數值,也無法掌控輸出的效果。實際在操作的時候,用戶需要操控 (i) 設置控件進行調整,然后(ii)等待 24 小時等到溫度穩定下來,并且 (iii) 檢查最終的溫度是否符合他們的預期,如果結果穩定且符合預期還好說,如果不符合,需要返回步驟 (i) 。這種操作帶來的沮喪感,其實和當前 AI 給人的感覺類似。

對我來說,這件事情給我的主要啟示有 2 點:

  1. 設計良好的界面能夠給用戶創建一個正確的概念模型,可以大體預測輸入內容是如何控制輸出內容的。
  2. 當概念模型不課預測的時候,用戶就會被迫使用試錯的方法。

UI 設計師的工作之一,就是創建一個用戶可預測的概念模型。

AI 黑匣子不提供預測概念模型

生成式 AI 的黑盒狀態,其實是最糟糕的界面,因為它們還無法給用戶提供可預測的概念模型,目前絕大多數人都不清楚 AI 是如何將自然語言 prompt 轉化為最終的輸出結果,即使是 AI 的設計者通常也無法確知,怎樣去構建一個讓用戶可以理解和預測的概念模型,來幫助用戶更好輸出內容。

現在回到 DALL-E2 ,我試著使用「Picture of a cool, young Computer Science Professor named Maneesh Agrawala」來讓它為我創建一個更好的照片:

AI繪畫未來如何改進?來看斯坦福教授的預測!

很多時候我確實不知道 prompt 是如何影響圖片的,比如我使用「Cool」這個詞,它映射到圖片當中的特征是運動外套和 T恤的組合,還是年輕的面容?而「Computer Science」 是否意味著 DALL-E3 需要輸出寫實的圖片而非插畫?沒有邏輯順暢的預測概念模型,我也不知道答案是什么。我唯一能做的和大家一樣,就是不停輸入和修改 prompt 來等待結果。

人類也是糟糕的 UI,但是比 AI 強一點

AI 的目標之一,是像人一樣創造。你可能會說,自然語言是人和人進行溝通的語言,顯然人是更好的 UI,這一點我不完全同意。人類本身也是產出垃圾內容的 UI。人類的可怕之處和 AI 黑箱的缺陷是完全相同的。當我們面對另外一個人的時候,我們其實面對著同樣的問題,我們通常很難準確預測對方回復你的語言是什么。

AI繪畫未來如何改進?來看斯坦福教授的預測!

就目前而言,人類比起 AI 黑箱更優,這主要有兩方面的原因。

首先,身為人類的我們,在預測人類合作方的「行為模式」的時候,是根據自身響應需求的方式來預測的,也就是「以己度人」。我們對于行為模式和概念模型,有很強的先驗性,因為我們會假設對方和我們一樣。

其次,根據 Herb Clark 等語言學家所指出的,我們可以和人類合作方通過交談,來構建共識,共享相同的語義。我們可以在語言溝通中,逐步消除歧義和誤解,并且完善和調整策略。

共同性、語義共享和修復策略是人類協作的基礎。

盡管人類之間擁有這樣的優勢,和另一個人想要形成高質量的協作,依然需要通過多次迭代才能完成。最有效的合作通常需要數周、數月乃至于數年的對話,才能建立起共同點(想想婚姻關系吧)。

正如我所說的,人類是可怕的 UI,但是依然是比 AI 黑箱更好的 UI。

向擁有對話界面的 AIGC 前進

那么我們要如何才能創建出更好的 AI 工具呢?有一種方法是支持對話式的交互。ChatGPT 等文本生成式工具,已經開始這么做了。這些工具開始支持多輪對話,可以是作為未來人與 AI 進行有效溝通的基礎。上下文環境讓 AI 和用戶都可以參考之前對話中內容的概念,以此為基礎達成共識。不過不清楚目前的 AI 系統包含有多少常識,AI 對語義概念的理解似乎還有所不足。但是人類用戶而言,ChatGPT 到底懂得多少其實是不確知的,因此對話通常需要進行多輪來回,雙方才能構建起基本的共識。此外,AI 和用戶對話本身并不會直接更新 AI 本身的模型,為這些模型增加常識、基礎概念、推理能力,依然是目前 AI 研究的主要推動力。

AI繪畫未來如何改進?來看斯坦福教授的預測!

Prompt-to-Prompt image editing [Hertz 2022]

自然語言通常是模棱兩可的。人類通過對話,來逐步消減歧義,確保大家在討論的是同一件事情。有研究人員已開始將這種修復機制應用到文本生成圖片的 AI 系統當中,比如 Prompt-to-Prompt image editing [Hertz 2022] , 用戶可以先用 prompt 生成圖片,然后優化 prompt 生成新的圖片,這個過程中只需要進行微小的調整即可,上圖中,通過添加額外的關鍵詞,生成了更加準確的內容。這本身就是一種改進的方式。

AI繪畫未來如何改進?來看斯坦福教授的預測!

減少自然語言歧義的另外一種方法,是讓用戶添加約束條件。圖到圖轉化 (Image-to-image translation [Isola 2016])就是一種典型的約束方式,通過機器學習生成對抗網絡(GAN),在這種環境下,當你輸入一種類型的圖像(比如標簽圖、輪廓圖),就能生成另外一類圖像(比如照片或者地圖),輸入的圖像會約束輸入圖像的特征。這樣的約束方式比起用戶模糊的語言描述會顯得更強,提供了更加精確的空間特征。如今我們手底下很多小組在文本轉圖像的 AI 交互中,使用了這種方式來強化上下文環境。

AI繪畫未來如何改進?來看斯坦福教授的預測!

對話式交互能超越自然語言單一命令。在文本轉圖像的 AI 模型研究中,很多 AI 研究者已經開始研究「建立共識」的方法。Textual Inversion [Gal 2022]DreamBooth [Ruiz 2022] 都會讓用戶提供示例圖,AI 模型則會將文本 prompt 和這些圖像示例關聯起來,這樣用戶和 AI 會建立某種共通的信息基礎。

AI繪畫未來如何改進?來看斯坦福教授的預測!

「神經符號法」則提供了另外一種創建 AI 模型對話界面的圖形。一個 AI 模型不是直接生成內容,而是生成某種程序,只有運行了這種程序才能生成內容,這種程序在某種程度上就是 「共識」本身,它是人類和 AI 可以以相同方式理解的東西,而這就是將編程語言語義形式化的基礎。這意味著,即使沒有明確的語義,開發者依然可以通過檢測代碼內容來確定 AI 是否在做「正確的事情」。這個時候,開發者可以在編程語言層面上給 AI 提供修復建議,而不是簡單的使用自然命令。

結語

AIGC 的模型是令人驚嘆的,但是它依然是糟糕的界面,只要輸入和輸出之間的映射不明確,它就一直是個問題。我們可以啟用對話式交互來改進 AI,創建更多的「共識」。

收藏 17
點贊 31

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。