萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

推薦閱讀

原文引自 Maximillian Piras 的文章《When Words Cannot Describe: Designing For AI Beyond Conversational Interfaces》。該譯文并非完整原文,內(nèi)容已做刪減和調(diào)整。

人工智能的不斷發(fā)展給設(shè)計(jì)師打造更直觀的用戶界面創(chuàng)造了機(jī)會(huì)。基于文本的大型語(yǔ)言模型解鎖了許多新的可能性,因此許多人認(rèn)為從圖形界面轉(zhuǎn)向諸如聊天機(jī)器人之類的對(duì)話界面是一種必然。然而,有大量證據(jù)表明,對(duì)許多交互模式來說,對(duì)話界面并不理想。Maximillian Piras 探討了最新的人工智能能力如何在不局限于”對(duì)話”的情況下重塑人機(jī)交互的未來。

很少有技術(shù)創(chuàng)新能徹底改變我們與計(jì)算機(jī)的交互方式。幸運(yùn)的是,我們已經(jīng)獲得了親眼目睹下一次范式(paradigm)轉(zhuǎn)變的機(jī)會(huì)。

這些轉(zhuǎn)變往往會(huì)開啟一個(gè)新的抽象層(abstraction layer),以隱藏子系統(tǒng)的運(yùn)作細(xì)節(jié)。細(xì)節(jié)的泛化使我們的復(fù)雜系統(tǒng)看起來更簡(jiǎn)單、更直觀。這不僅簡(jiǎn)化了計(jì)算機(jī)程序的編碼,也簡(jiǎn)化了交互界面的設(shè)計(jì)。例如,命令行界面創(chuàng)建了一個(gè)抽象層,使得人們通過存儲(chǔ)的程序進(jìn)行交互成為可能。這隱藏了早期計(jì)算機(jī)中暴露的子系統(tǒng)細(xì)節(jié),那些計(jì)算機(jī)只能通過開關(guān)輸入 1 和 0 來編程。

圖形用戶界面(GUI)進(jìn)一步抽象了這一概念,使我們能夠通過視覺隱喻來操控計(jì)算機(jī)。這些抽象化使得計(jì)算機(jī)對(duì)非技術(shù)專業(yè)用戶來說也變得易于上手。

盡管取得了這些進(jìn)步,我們?nèi)匀粵]有找到完全直觀的界面 —— 網(wǎng)絡(luò)上大量相關(guān)文章證明了這一點(diǎn)。然而,人工智能的最新進(jìn)展已經(jīng)使許多技術(shù)專家確信,計(jì)算機(jī)的下一個(gè)進(jìn)化周期已經(jīng)到來。

界面抽象的層次,從底層到頂層依次為:命令行界面、圖形用戶界面和由人工智能驅(qū)動(dòng)的對(duì)話界面。

一、下一個(gè)界面抽象層

機(jī)器學(xué)習(xí)分支,生成式人工智能(generative AI)推動(dòng)了最近大部分創(chuàng)新。它利用對(duì)數(shù)據(jù)集(datasets)的模式識(shí)別(pattern recognition)來建立概率分布(probabilistic distributions),從而實(shí)現(xiàn)文本、媒體和代碼的新建構(gòu)。比爾·蓋茨認(rèn)為這是“自圖形用戶界面以來技術(shù)上最重要的進(jìn)步”,因?yàn)樗梢允箍刂朴?jì)算機(jī)變得更加容易。對(duì)于解釋非結(jié)構(gòu)化數(shù)據(jù)(如自然語(yǔ)言),解鎖了新的輸入和輸出方式,從而使不同以往的形式變得可行。

現(xiàn)在,我們的信息宇宙可以通過一個(gè)與人面對(duì)面交談一樣直觀的界面立即調(diào)用。這就是我們?cè)诳苹眯≌f中夢(mèng)想中的計(jì)算機(jī),類似于《星際迷航》中的數(shù)據(jù)系統(tǒng)。也許到目前為止的計(jì)算機(jī)只是原型,而我們現(xiàn)在正準(zhǔn)備進(jìn)行實(shí)際產(chǎn)品的推出。想象一下,如果構(gòu)建互聯(lián)網(wǎng)就像鋪設(shè)軌道,那么人工智能可能就是以極快的速度運(yùn)輸所有信息的火車,我們將看到當(dāng)它們沖進(jìn)城鎮(zhèn)時(shí)會(huì)發(fā)生什么。

“很快,人工智能出現(xiàn)之前的時(shí)代將變得遙遠(yuǎn),就像使用計(jì)算機(jī)意味著在 C:> 提示符下打字而不是點(diǎn)擊屏幕的日子一樣。

— 比爾·蓋茨,《人工智能時(shí)代已經(jīng)開始》

如果一切即將發(fā)生變化,軟件設(shè)計(jì)師的心智模型也必須跟著改變。正如 Luke Wroblewski 曾經(jīng)推廣移動(dòng)優(yōu)先設(shè)計(jì)一樣,下一個(gè)時(shí)代的主導(dǎo)思潮很可能是 AI 優(yōu)先。只有通過理解 AI 的限制和能力,我們才能打造出令人愉悅的設(shè)計(jì)。它對(duì)界面演變的討論已經(jīng)開始產(chǎn)生影響。

例如,大型語(yǔ)言模型(LLMs)是一種在許多新應(yīng)用中使用的人工智能類型,它們以文本為基礎(chǔ)的特性使許多人相信對(duì)話界面,如聊天機(jī)器人,是未來合適的形式。多年來,AI 是一種可以交流的概念一直在行業(yè)中蔓延。UX 雜志的合作所有者 Robb Wilson 在他的書《無形機(jī)器時(shí)代》(2022)中將對(duì)話稱為“無限可擴(kuò)展的界面”。Figma 的產(chǎn)品設(shè)計(jì)副總裁 Noah Levin 認(rèn)為,“學(xué)會(huì)如何與某物交談是一件非常直觀的事情。”甚至是 GUI 的先驅(qū)比爾·蓋茨也提出,“我們控制計(jì)算機(jī)的主要方式將不再是 pointing and clicking。”

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

微軟 Copilot 是一個(gè)新的對(duì)話式人工智能功能,正在整合到他們的辦公套件中。

希望對(duì)話式計(jì)算機(jī)能夠拉平學(xué)習(xí)曲線。Rabbit 的創(chuàng)始人 Jesse Lyu 斷言,自然語(yǔ)言方法將是“如此直觀,以至于你甚至不需要學(xué)習(xí)如何使用它”。

畢竟,《星際迷航》中的數(shù)據(jù)(Data)并沒有附帶說明手冊(cè)或入門教程。從這個(gè)角度來看,對(duì)話界面取代 GUI 的演化故事似乎是合乎邏輯的,與早期遠(yuǎn)離命令行的轉(zhuǎn)變相呼應(yīng)。但也有一些人持相反的意見,一些人甚至像 Maggie Appleton 一樣稱聊天機(jī)器人等對(duì)話界面為“懶人解決方案”。

乍看之下,這似乎是一種分裂,但其實(shí)更多是界面演化的框架簡(jiǎn)化。命令行遠(yuǎn)未滅絕;技術(shù)用戶仍然更喜歡它們,因?yàn)樗鼈兏`活、更高效。對(duì)于軟件開發(fā)或自動(dòng)化腳本等用例來說,圖形化無代碼工具中的額外抽象層可能會(huì)成為一種障礙,而不是一座橋梁。

圖形用戶界面(GUIs)是革命性的,但并非萬能解決方案。然而,有大量研究表明,對(duì)話界面也不會(huì)成為萬能解決方案。對(duì)于某些交互,相對(duì)于圖形用戶界面(GUIs),它們可能會(huì)降低可用性,增加成本,并引入安全風(fēng)險(xiǎn)。

那么,人工智能應(yīng)用的正確界面是什么?本文旨在通過對(duì)比對(duì)話作為界面的能力和限制來提供設(shè)計(jì)決策的信息。

二、連接像素

我們將從一些歷史背景開始,因?yàn)榱私馕磥淼年P(guān)鍵往往從回顧過去開始。對(duì)話界面看起來很新,但我們幾十年來一直能夠與計(jì)算機(jī)進(jìn)行對(duì)話。

Joseph Weizenbaum 在 1966 年的麻省理工學(xué)院實(shí)驗(yàn)中發(fā)明了第一個(gè)聊天機(jī)器人 ELIZA。這為接下來的語(yǔ)言模型世代奠定了基礎(chǔ),衍生出了從像 Alexa 這樣的語(yǔ)音助手到那些讓人煩惱的電話樹菜單。然而,除了設(shè)置計(jì)時(shí)器等基本任務(wù)外,大多數(shù)聊天機(jī)器人很少投入使用。

似乎大多數(shù)消費(fèi)者畢竟并不那么喜歡與計(jì)算機(jī)交談。但去年發(fā)生了一些變化。我們從 CNET 報(bào)道“72% 的人認(rèn)為聊天機(jī)器人是浪費(fèi)時(shí)間”,到 ChatGPT 獲得了 1 億周活躍用戶。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

與首個(gè)聊天機(jī)器人 ELIZA 的對(duì)話,該機(jī)器人于 1966 年發(fā)明。

是什么讓聊天機(jī)器人從“沉悶”變得“驚人”?大多數(shù)人將其歸功于 OpenAI 在 2018 年發(fā)明的預(yù)訓(xùn)練生成變換器 (GPT) 。這些是一種新型的大型語(yǔ)言模型,具有顯著的自然語(yǔ)言理解能力。然而,GPT 的核心是 2017 年推出的轉(zhuǎn)換器架構(gòu)這一更早的創(chuàng)新。這種架構(gòu)使得捕捉自然語(yǔ)言輸入文本周圍的長(zhǎng)期上下文所需的并行處理成為可能。更深入地說,這種架構(gòu)之所以能實(shí)現(xiàn),要?dú)w功于 2014 年引入的注意力機(jī)制。這使得對(duì)輸入的不同部分進(jìn)行選擇性權(quán)衡成為可能。

通過這一系列相輔相成的創(chuàng)新,對(duì)話式界面現(xiàn)在似乎能夠在更廣泛的任務(wù)上與圖形用戶界面競(jìng)爭(zhēng)。將圖形用戶界面作為命令行的一種可行替代方案,也是通過驚人相似的途徑才得以實(shí)現(xiàn)的。當(dāng)然,這需要鼠標(biāo)等硬件來捕捉鍵盤以外的用戶信號(hào),還需要分辨率足夠高的屏幕。然而,研究人員在多年后發(fā)現(xiàn)了缺失的軟件要素,這就是位圖的發(fā)明。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

1963 年,Ivan Sutherland 使用 Sketchpad 的圖形用戶界面。

位圖允許處理復(fù)雜的像素模式,而早期的矢量顯示則難以處理。例如,Ivan Sutherland 的 Sketchpad 是首個(gè)圖形用戶界面(GUI),但無法支持諸如重疊窗口之類的概念。IEEE Spectrum 的《Of Mice and Menus》(1989)詳細(xì)描述了由 Alan Kay 在 Xerox Parc 的團(tuán)隊(duì)發(fā)明位圖的進(jìn)展。這項(xiàng)新技術(shù)使得革命性的 WIMP(窗口、圖標(biāo)、菜單和指針)范式成為可能,通過直觀的視覺隱喻幫助整整一代人熟悉個(gè)人電腦。

計(jì)算不再需要在開始時(shí)預(yù)先設(shè)定一組步驟。回顧歷史可能會(huì)覺得微不足道,但在 1963 年 Sketchpad 的麻省理工學(xué)院演示中,演示者們已經(jīng)在暗示一個(gè)人工智能系統(tǒng)。這是一個(gè)轉(zhuǎn)折點(diǎn),將一個(gè)復(fù)雜的計(jì)算機(jī)轉(zhuǎn)變?yōu)橐粋€(gè)探索性的工具。設(shè)計(jì)師現(xiàn)在可以為需要探索的體驗(yàn)打造界面,這遠(yuǎn)遠(yuǎn)超越了命令行所提供的靈活性和效率的需求。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

Susan Kare 早期繪制的蘋果圖形用戶界面指針圖標(biāo)草圖

三、并行范式

對(duì)現(xiàn)有技術(shù)的新穎調(diào)整使得每種新的界面都適用于主流使用。在這兩種情況下,基礎(chǔ)系統(tǒng)都已經(jīng)可用,但是不同的數(shù)據(jù)處理決策使輸出變得有意義,足以吸引技術(shù)專家以外的主流用戶。

通過位圖,圖形用戶界面可以將像素組織成網(wǎng)格序列,以創(chuàng)建復(fù)雜的擬態(tài)結(jié)構(gòu)。通過 GPT,對(duì)話界面可以組織非結(jié)構(gòu)化數(shù)據(jù)集,以創(chuàng)建具有類似人類(或更高)智能的響應(yīng)。

這兩種范式的原型界面都是在 20 世紀(jì) 60 年代發(fā)明的,隨后在其發(fā)展時(shí)間上出現(xiàn)了巨大的差異——這本身就是一個(gè)案例研究。現(xiàn)在我們發(fā)現(xiàn)自己又處于另一個(gè)轉(zhuǎn)折點(diǎn):除了計(jì)算機(jī)和探索性工具之外,計(jì)算機(jī)還可以扮演栩栩如生的生命實(shí)體。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

Geoff McFetridge 為電影《她》中展示的對(duì)話界面的早期草圖

但我們的哪些需求需要對(duì)話界面而不是圖形界面呢?在電影《她》中,我們看到了對(duì)我們對(duì)陪伴的需求的理論解決方案,主人公愛上了他的數(shù)字助手。但對(duì)于我們這些滿足于有機(jī)關(guān)系的人來說,有什么好處呢?我們可以期待驗(yàn)證對(duì)話是更直觀界面的假設(shè)。這似乎是合理的,因?yàn)?WIMP 范式的一些核心組件存在著廣為人知的可用性問題。

Nielsen Norman Group 報(bào)告稱,文化差異使得圖標(biāo)的普遍認(rèn)知變得罕見——隨著時(shí)間的推移,菜單趨向于變得混亂不堪,不可用性不斷增加。對(duì)話界面似乎更易用,因?yàn)槟憧梢栽诶Щ髸r(shí)直接告訴系統(tǒng)!但正如我們將在接下來的部分中看到的,它們也有很多可用性問題。

用輸入框代替菜單,我們不禁要問,這是否是在用一個(gè)可用性問題代替另一個(gè)可用性問題?

四、對(duì)話的成本

為什么在科幻電影中對(duì)話界面如此受歡迎?在一篇《根莖》(Rhizome)的文章中,Martine Syms 理論認(rèn)為,它們使得“互動(dòng)更具電影性,制作更簡(jiǎn)潔。”這種成本/效益也同樣適用于應(yīng)用程序開發(fā)。通過書面或口頭交流提供的文本完成是大型語(yǔ)言模型(LLM)的核心功能。從設(shè)計(jì)和工程的角度來看,這使得對(duì)話成為最簡(jiǎn)單的這種功能的包裝。

杰出的 AI 研究工程師 Linus Lee 將其描述為“暴露算法的原始界面”。由于交互模式和組件已經(jīng)在很大程度上定義好,因此沒有太多需要發(fā)明的 —— 一切都可以放入一個(gè)聊天窗口。

“如果你是一名工程師或設(shè)計(jì)師,負(fù)責(zé)將這些模型的力量轉(zhuǎn)化為軟件界面,最簡(jiǎn)單、最自然的方式將這種能力“包裝”到 UI 中就是對(duì)話界面。” — Linus Lee ,《構(gòu)想更好的語(yǔ)言模型界面》

這一觀點(diǎn)得到了《大西洋月刊》對(duì) ChatGPT 發(fā)布的報(bào)道的進(jìn)一步驗(yàn)證,報(bào)道將其描述為“低調(diào)的研究預(yù)覽”。OpenAI 不愿將其定位為產(chǎn)品,表明對(duì)用戶體驗(yàn)缺乏信心。內(nèi)部預(yù)期如此之低,以至于員工對(duì)首周采用情況的最高猜測(cè)僅為 10 萬用戶(比實(shí)際數(shù)字少 90%)。

對(duì)話界面建設(shè)成本低廉,因此它們是一個(gè)合乎邏輯的起點(diǎn),但一分錢一分貨。如果界面不適用,那么后續(xù)的用戶體驗(yàn)債務(wù)可能會(huì)超過任何前期節(jié)省下來的成本。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

一個(gè)可視化的圖示,展示了將 LLM 的原始輸出包裝成對(duì)話界面有多容易。

五、被遺忘的可用性原則

史蒂夫·喬布斯曾說過:“人們不知道自己想要什么,直到你向他們展示。”將這種思維應(yīng)用于界面設(shè)計(jì),與一種稱為“可發(fā)現(xiàn)性”的可用性評(píng)估相呼應(yīng)。Nielsen Norman 集團(tuán)將其定義為用戶“遇到了他們之前不知道的新內(nèi)容或功能”的能力。

設(shè)計(jì)良好的界面應(yīng)能幫助用戶發(fā)現(xiàn)現(xiàn)有的功能。如今,許多流行的生成式人工智能應(yīng)用程序的界面都圍繞著一個(gè)輸入框,用戶可以在其中輸入任何內(nèi)容來提示系統(tǒng)。問題是,用戶往往不清楚應(yīng)該輸入什么內(nèi)容才能獲得理想的輸出結(jié)果。具有諷刺意味的是,解決寫作障礙的理論方案本身可能就存在空白頁(yè)問題。

“我認(rèn)為人工智能在這些缺失的用戶界面方面存在問題,大多數(shù)情況下,它們只是給你一個(gè)空白框讓你輸入,然后就看你能不能想出它能做什么了” — Casey Newton, Hard Fork 博客

對(duì)話界面擅長(zhǎng)模擬人與人之間的互動(dòng),但在其他方面可能表現(xiàn)不佳。例如,一個(gè)名為 Midjourney 的流行圖像生成器起初只支持文本輸入,但現(xiàn)在正在向圖形用戶界面轉(zhuǎn)變,以實(shí)現(xiàn)“更易于使用”。

這提醒我們,在涉足這個(gè)新領(lǐng)域時(shí),我們不能忘記 Don Norman 在其里程碑式著作《日常物品的設(shè)計(jì)》(1988 年)中提出的經(jīng)典的以人為中心的原則。圖形界面似乎更符合他的建議,即提供明確的功能和指示符以增加可發(fā)現(xiàn)性。

此外,Jakob Nielsen 還列出了 10 個(gè)可用性啟發(fā)式;如今的許多對(duì)話界面似乎都忽略了其中的每一個(gè)。第一個(gè)可用性啟發(fā)式解釋了系統(tǒng)狀態(tài)的可見性如何讓用戶了解其行為的后果。它使用了地圖上的 "您在這里 "圖釘來解釋正確的定位是如何為我們的下一步行動(dòng)提供信息的。

導(dǎo)航與聊天機(jī)器人等對(duì)話式界面的關(guān)系比想象的要密切,盡管所有的交互都是在同一個(gè)聊天窗口中進(jìn)行的。ChatGPT 等產(chǎn)品的后臺(tái)會(huì)在神經(jīng)網(wǎng)絡(luò)中進(jìn)行導(dǎo)航,通過將注意力集中在訓(xùn)練數(shù)據(jù)集的不同部分來完成每個(gè)反饋。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

這是一個(gè)可視化示例,演示了在提示工程中進(jìn)行角色扮演是如何寬松地指導(dǎo)人工智能模型制作不同的輸出結(jié)果。

大型語(yǔ)言模型(LLM)是如此的不透明,以至于連 OpenAI 都承認(rèn)它們“不理解它們是如何工作的”。然而,定制輸入是有可能的,這種方式可以松散地引導(dǎo)模型從其知識(shí)的不同領(lǐng)域做出反應(yīng)。

一個(gè)常用的引導(dǎo)注意力的技術(shù)是角色扮演。您可以要求一個(gè) LLM 扮演一個(gè)角色,比如輸入“想象你是一名歷史學(xué)家”,以有效地切換其模式。Prompt 工程研究所解釋說,當(dāng)“在大量不同領(lǐng)域的文本數(shù)據(jù)中進(jìn)行訓(xùn)練時(shí),模型形成了對(duì)各種角色及其相關(guān)語(yǔ)言的復(fù)雜理解。” 扮演角色會(huì)喚起 AI 訓(xùn)練數(shù)據(jù)中的相關(guān)方面,如語(yǔ)氣、技能和理性。

例如,歷史學(xué)家角色會(huì)以事實(shí)細(xì)節(jié)回應(yīng),而講故事者角色則以敘述性描述回應(yīng)。角色還可以通過工具提高任務(wù)效率,例如將數(shù)據(jù)科學(xué)家角色分配給生成 Python 代碼的響應(yīng)。

角色也強(qiáng)化了社會(huì)規(guī)范,正如 Jason Yuan 所言,“您的銀行 AI 代理可能不應(yīng)該能夠與您進(jìn)行深入的哲學(xué)交談。”然而,對(duì)話界面會(huì)將這類系統(tǒng)狀態(tài)隱藏在其消息歷史中,迫使我們將其保留在工作記憶中。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

AI 聊天機(jī)器人使用分段控制器( segmented controller),讓用戶在一次點(diǎn)擊中指定一個(gè)角色。每個(gè)按鈕都會(huì)自動(dòng)調(diào)整 LLM 的系統(tǒng)提示。

缺乏像角色扮演這樣的持續(xù)性上下文標(biāo)志會(huì)導(dǎo)致可用性問題。為了清晰起見,我們必須不斷詢問人工智能的狀態(tài),就像在終端輸入 ls 和 cd 命令一樣。專家可以做到這一點(diǎn),但新手可能會(huì)承受額外的認(rèn)知負(fù)擔(dān)。問題不僅在于人類的記憶,系統(tǒng)也存在類似的認(rèn)知超載問題。由于上下文窗口中的數(shù)據(jù)限制,用戶最終必須恢復(fù)任何低于系統(tǒng)級(jí)別的角色扮演。如果這類信息能在界面中持續(xù)存在,用戶就會(huì)一目了然,并能在每次提示時(shí)自動(dòng)向人工智能重申。

http://character.ai 通過將歷史人物作為熟悉的焦點(diǎn)來實(shí)現(xiàn)這一點(diǎn)。文化線索會(huì)引導(dǎo)我們向 "阿爾-帕西諾 "和 "蘇格拉底 "提出不同類型的問題。人物 "成為一種啟發(fā)式方法,可以設(shè)定用戶期望并自動(dòng)調(diào)整系統(tǒng)設(shè)置。這就像在餐廳張貼菜單一樣,來訪者不再需要詢問有什么吃的,而是直接點(diǎn)餐即可。

“人類的短期記憶有限。促進(jìn)識(shí)別的界面減少了用戶所需的認(rèn)知成本。” — 雅各布·尼爾森(Jakob Nielsen),《用戶界面設(shè)計(jì)的 10 個(gè)可用性啟發(fā)式》

另一個(gè)被遺忘的可用性教訓(xùn)是,有些任務(wù)比解釋更容易完成,尤其是通過圖形用戶界面中流行的直接操作方式。

Photoshop 的新生成 AI 功能通過與其圖形界面集成來強(qiáng)化這一概念。雖然生成填充包括一個(gè)輸入字段,但它也依賴于類似于其經(jīng)典套索工具的擬態(tài)控件。描述要操作圖像的哪一部分要困難得多。

當(dāng)文字交流效率低下時(shí),交互界面應(yīng)當(dāng)保留。對(duì)于調(diào)整大小來說,滑塊似乎更合適,因?yàn)檎f“變大”留下了太多的主觀性。像顏色和縱橫比這樣的設(shè)置比描述更容易選擇。標(biāo)準(zhǔn)化的控件還可以讓系統(tǒng)更好地在幕后組織提示。例如,如果一個(gè)模型接受某個(gè)參數(shù)的特定值,那么界面就可以為如何輸入該參數(shù)提供一個(gè)自然的映射。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

示意圖展示了圖形控件如何幫助系統(tǒng)在界面后組織提示(prompt)

大多數(shù)可用性原則大多已有三十多年的歷史,這可能會(huì)讓一些人懷疑它們是否仍然適用。Jakob Nielsen 最近就這些原則發(fā)表了自己的看法,他認(rèn)為:"如果一件事情在 26 年里都是正確的,那么它很可能也會(huì)適用于未來幾代的用戶界面。然而,遵守這些可用性原則并不需要遵循經(jīng)典的組件。像 Krea 這樣的應(yīng)用程序已經(jīng)在探索新的圖形用戶界面,以操作生成式人工智能。

六、Prompt 工程確實(shí)是一項(xiàng)工程

今天的對(duì)話界面最大的可用性問題是它們將技術(shù)工作轉(zhuǎn)嫁給了非技術(shù)用戶。除了可發(fā)現(xiàn)性差之外,它們與命令行的另一個(gè)相似之處在于,理想的輸出只能通過學(xué)習(xí)命令來實(shí)現(xiàn)。我們將將輸入調(diào)整以與生成式人工智能系統(tǒng)進(jìn)行最佳溝通的做法稱為“提示工程”。這個(gè)名字本身就表明這是一項(xiàng)專家級(jí)的工作,而且精通這項(xiàng)工作可以獲得 20 萬美元的薪水。

用自然語(yǔ)言進(jìn)行編程是一項(xiàng)令人著迷的進(jìn)步,但似乎在消費(fèi)者應(yīng)用中要求這樣做有些不合時(shí)宜。僅僅因?yàn)楝F(xiàn)在任何人都可以說出與計(jì)算機(jī)相同的語(yǔ)言,并不意味著他們知道應(yīng)該說什么或最佳的說法方式 — 我們需要引導(dǎo)他們。盡管所有新技術(shù)都有學(xué)習(xí)曲線,但這個(gè)學(xué)習(xí)曲線似乎太陡峭,會(huì)阻礙進(jìn)一步的應(yīng)用和長(zhǎng)期的發(fā)展。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

Canva 將其人工智能功能稱為 "Magic Studio"

作為高質(zhì)量產(chǎn)出的先決條件,prompt 工程似乎已被賦予了黑暗藝術(shù)的神秘色彩。許多人工智能功能的營(yíng)銷材料通過 "魔法 "等術(shù)語(yǔ)強(qiáng)化了這一點(diǎn)。如果我們假設(shè)有一個(gè)正反饋循環(huán)在起作用,那么這種不透明性一定會(huì)激發(fā)消費(fèi)者的好奇心。

但是,將產(chǎn)品定位在魔法書和巫師的領(lǐng)域,也暗示著一種難以解讀的體驗(yàn)--這是否是一個(gè)好的長(zhǎng)期戰(zhàn)略呢?如果我們假定 Steve Krug 在《別讓我思考》一書中提出的具有影響力的教訓(xùn)仍然適用,那么大多數(shù)人就不會(huì)費(fèi)心去研究適當(dāng)?shù)奶崾荆堑眠^且過。

但在生成式人工智能中,"試錯(cuò) "的問題在于根本不存在任何錯(cuò)誤狀態(tài),你總會(huì)得到回應(yīng)。例如,如果你讓 LLM 做數(shù)學(xué)運(yùn)算,它會(huì)給你提供自信的答案,但這些答案可能是完全錯(cuò)誤的。因此,當(dāng)我們不知道一個(gè)回應(yīng)是否是幻覺時(shí),從錯(cuò)誤中學(xué)習(xí)就變得更加困難。正如 OpenAI 的 Andrej Karpathy 所說,幻覺并不一定是錯(cuò)誤,因?yàn)?LLM 是 "造夢(mèng)機(jī)器",所以這完全取決于界面如何設(shè)定用戶期望。

"但與人一樣,要從人工智能中找到最有意義的答案,就必須提出正確的問題。人工智能既不會(huì)通靈,也不會(huì)心靈感應(yīng)"。— Stephen J. Bigelow ,《成為 prompt 工程師所需的 5 項(xiàng)技能》

使用神奇的語(yǔ)言有可能讓新手誤以為人工智能無所不知。人工智能的知識(shí)僅限于訓(xùn)練數(shù)據(jù),這一點(diǎn)可能并不明顯。

① 當(dāng)達(dá)到這個(gè)數(shù)據(jù)集的極限時(shí),用戶是否知道用 "檢索增強(qiáng)生成"(Retrieval Augmented Generation)來補(bǔ)充?

② 用戶是否知道要探索不同的提示技術(shù),如 "少射"(Few-Shot)或 "思維鏈"(Chain of Thought),以調(diào)整人工智能的推理能力?

一旦魔法塵褪去,軟件設(shè)計(jì)師就會(huì)意識(shí)到,這些決定就是用戶體驗(yàn)!

為完成任務(wù)選擇正確的提示技術(shù)、知識(shí)來源和模型選擇,才能讓用戶感到愉悅。我們應(yīng)該探索如何從用戶手中卸下這些工作。

③ 空狀態(tài)可以解釋人工智能知識(shí)的局限性,并允許用戶根據(jù)需要填補(bǔ)空白。

④ 入門流程可以學(xué)習(xí)用戶目標(biāo),推薦經(jīng)過正確推理調(diào)整的相關(guān)模型。

⑤ 類似于模糊搜索的方法可以對(duì)用戶的輸入進(jìn)行標(biāo)記,以指導(dǎo)他們進(jìn)行有用的調(diào)整。

通過 OpenAI 的圖像生成器,我們已經(jīng)開始看到這方面的蛛絲馬跡,它可以在幕后重寫用戶輸入,以優(yōu)化圖像輸出。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

圖片展示了如何將圖形用戶界面與自主輸入結(jié)合,利用檢索增強(qiáng)生成(RAG)等技術(shù)來自動(dòng)化提示(prompt)。

七、博基尼送披薩外賣

除了可用性問題的認(rèn)知成本外,還有考慮到經(jīng)濟(jì)成本。與在圖形用戶界面內(nèi)點(diǎn)擊按鈕相比,與對(duì)話界面的每次交互都需要通過人工智能來推理響應(yīng)。這需要比在 GUI 內(nèi)進(jìn)行操作更多的計(jì)算資源。在當(dāng)前的計(jì)算成本下,這種開銷可能是禁止性的。在某些任務(wù)中,增加智能可能帶來的價(jià)值可能不值得這個(gè)代價(jià)。

例如,《華爾街日?qǐng)?bào)》認(rèn)為,使用 LLM 來完成電子郵件摘要等任務(wù),"就像讓蘭博基尼來送披薩一樣"。成本較高的部分原因是人工智能系統(tǒng)無法像標(biāo)準(zhǔn)軟件那樣利用規(guī)模經(jīng)濟(jì)。每次交互都需要大量計(jì)算,因此成本與使用量成正比增長(zhǎng)。如果再生產(chǎn)的邊際成本為零,那么常見的軟件訂閱模式就變得不那么站得住腳了。

消費(fèi)者是否愿意為對(duì)話界面支付更高的價(jià)格,還是更青睞以高性價(jià)比的圖形用戶界面包裝的人工智能功能?具有諷刺意味的是,這種困境讓人想起了早期 GUI 面臨的挑戰(zhàn)。僅當(dāng) RAM 芯片價(jià)格幾年后下降時(shí),才能提供所需的處理器邏輯和內(nèi)存速度來支持底層位圖。我們希望歷史能重演。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

施樂 Alto 光柵顯示器的早期草圖,在 RAM 芯片價(jià)格下降之前,這種顯示器的成本難以承受。(圖片來源:Brett Victor)

另一個(gè)需要考慮的成本是安全風(fēng)險(xiǎn):如果你的蘭博基尼在送披薩時(shí)被偷了怎么辦?如果讓人們向人工智能提出任何問題,其中一些問題將具有操縱性。提示注入就是試圖通過自然語(yǔ)言滲透系統(tǒng)。正確的單詞序列可以將輸入字段轉(zhuǎn)化為攻擊載體,讓惡意行為者訪問私人信息和集成。

因此,在將人工智能定位為團(tuán)隊(duì)成員時(shí)一定要謹(jǐn)慎,因?yàn)閱T工已經(jīng)被視為網(wǎng)絡(luò)安全防御中最薄弱的環(huán)節(jié)。錯(cuò)誤的業(yè)務(wù)邏輯可能會(huì)意外優(yōu)化企業(yè)遭受的網(wǎng)絡(luò)釣魚郵件數(shù)量。

好的設(shè)計(jì)可以通過確定人工智能對(duì)用戶最有意義的地方來降低這些成本。在這些時(shí)刻強(qiáng)調(diào)類似人類對(duì)話的互動(dòng),但在其他地方使用更具成本效益的元素。通過對(duì)敏感數(shù)據(jù)進(jìn)行分區(qū),使其只有安全系統(tǒng)才能訪問,從而防止及時(shí)注入。

八、世代預(yù)測(cè)

在我之前的 Smashing 文章中,我解釋了算法友好界面的概念。它們將每次交互視為通過雙向反饋改進(jìn)理解的機(jī)會(huì)。它們向用戶提供系統(tǒng)反饋,同時(shí)向系統(tǒng)報(bào)告性能反饋。它們的成功取決于最大化數(shù)據(jù)收集接觸點(diǎn),以優(yōu)化預(yù)測(cè)。預(yù)測(cè)輸出的準(zhǔn)確性增益往往會(huì)導(dǎo)致更好的用戶保留率。因此,良好的數(shù)據(jù)通過網(wǎng)絡(luò)效應(yīng)增強(qiáng)自身而成倍增值。

盡管我之前的重點(diǎn)是內(nèi)容推薦算法,但我們能否將其應(yīng)用于生成式 AI?盡管輸出非常不同,但它們都是預(yù)測(cè)模型。我們可以使用特定數(shù)據(jù)定制這些預(yù)測(cè),比如個(gè)人用戶的特征、偏好和行為。

因此,就像 Spotify 通過了解你的音樂品味來推薦新歌一樣,理論上我們也可以個(gè)性化生成人工智能。Midjourney 可以根據(jù)過去的使用情況或偏好推薦圖像生成參數(shù)。ChatGPT 可以在正確的時(shí)間調(diào)用正確的角色(希望系統(tǒng)狀態(tài)是可見的)。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

一個(gè)算法友好界面中的反饋循環(huán)。

這一領(lǐng)域仍處于未知階段,因此目前還不清楚對(duì)話式界面對(duì)算法的友好程度。影響其可用性的可發(fā)現(xiàn)性問題也可能影響其分析參與信號(hào)的能力。如果無法將信號(hào)與噪音區(qū)分開來,就會(huì)削弱個(gè)性化的努力。考慮一下像點(diǎn)擊 "喜歡 "按鈕這樣的簡(jiǎn)單交互;它會(huì)向后臺(tái)發(fā)送一個(gè)非常干凈的信號(hào)。

與此相對(duì)應(yīng)的會(huì)話是什么呢?輸入 "喜歡 "一詞似乎并不是一個(gè)可靠的信號(hào),因?yàn)樗赡苁窃谝粋€(gè)比喻或無意識(shí)的感情色彩中被提及的。

也許一種解決方案是使用另一種 LLM 作為推理引擎,將非結(jié)構(gòu)化輸入自動(dòng)格式化為清晰的參與信號(hào)。但在數(shù)據(jù)收集效率明確之前,設(shè)計(jì)者應(yīng)該問一問,對(duì)話式界面的好處是否大于個(gè)性化程度降低的風(fēng)險(xiǎn)。

九、邁向下一個(gè)抽象層

隨著計(jì)算領(lǐng)域新范式的轉(zhuǎn)變,我希望這篇文章能成為思考下一層界面抽象的入門指南。對(duì)話界面必將成為下一個(gè)人工智能優(yōu)先設(shè)計(jì)時(shí)代的主流。增加語(yǔ)音功能將使計(jì)算機(jī)能夠增強(qiáng)我們的能力,而不是只讓我們?cè)诓唤】档钠聊粫r(shí)間里弓起脊柱。然而,僅有對(duì)話是不夠的,我們還必須設(shè)計(jì)出語(yǔ)言無法描述的需求。

因此,如果說任何界面都不是萬能的,那么讓我們避免簡(jiǎn)單化的進(jìn)化論,而要追求卓越體驗(yàn)的原則。我們想要的界面是綜合的、情景化的和多模態(tài)的。它知道有時(shí)我們只能用手勢(shì)或圖表來描述我們的意圖。當(dāng)我們忙得沒時(shí)間交談,但又需要快速提問時(shí),它也會(huì)尊重我們的需求。當(dāng)我們確實(shí)想聊天時(shí),它可以看到我們所看到的,這樣我們就不必再寫冗長(zhǎng)的描述。當(dāng)文字無法表達(dá)我們的意思時(shí),它仍然能理解我們的要點(diǎn)。

十、避免對(duì)未來的局限性想象

這一刻讓我想起了移動(dòng)優(yōu)先設(shè)計(jì)時(shí)代的一個(gè)警世故事。在 iPhone 上市幾年后,觸摸屏成為未來集體愿景的流行主題。但是,蘋果公司受人尊敬的人機(jī)界面發(fā)明家 Bret Victor 將觸摸屏視為對(duì)未來的狹隘看法。

在他對(duì)外設(shè)可能性的簡(jiǎn)短評(píng)論中,他指出這些外設(shè)是如何諷刺性地完全忽略了觸摸。大多數(shù)交互主要利用的是我們的視覺,而不是我們雙手所擁有的豐富觸覺反饋能力。我們?nèi)绾尾拍艽_保人工智能優(yōu)先的設(shè)計(jì)能夠放大我們的所有能力?

“工具通過增強(qiáng)人類的能力來滿足人類的需求。” — Bret Victor,《交互設(shè)計(jì)的未來簡(jiǎn)論》

老實(shí)說,此刻的不確定性讓我無法預(yù)測(cè)新的設(shè)計(jì)原則。我所能做的,就是向 Charlie Munger 學(xué)習(xí),把事情倒過來思考。

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

我們通常通過追求卓越來推進(jìn)設(shè)計(jì),但有時(shí)我們需要通過反轉(zhuǎn)問題來避免愚蠢。

十一、逆向設(shè)計(jì)

如果我們嘗試設(shè)計(jì)下一個(gè)抽象層,我們似乎最終會(huì)得到一個(gè)類似聊天機(jī)器人的東西。我們現(xiàn)在知道為什么這本身就是一個(gè)不完整的解決方案。如果我們向后看問題,找出我們想要避免的不良結(jié)果,會(huì)怎么樣?畢竟,避免愚蠢比追求卓越要更容易。

要避免的一個(gè)明顯錯(cuò)誤就是強(qiáng)迫用戶參與對(duì)話,而不考慮時(shí)間限制。當(dāng)聊天的時(shí)機(jī)成熟時(shí),聊天的方式不應(yīng)該以同樣令人沮喪的新問題取代現(xiàn)有的可用性問題。對(duì)于與送披薩同等重要的基本任務(wù),我們應(yīng)該找到實(shí)用的解決方案,而不是像駕駛蘭博基尼那樣奢侈。此外,我們不應(yīng)該把 prompt 的工程專業(yè)知識(shí)作為對(duì)非專業(yè)用戶的要求。最后一點(diǎn),隨著系統(tǒng)變得越來越像人類,我們也不應(yīng)該輕信它,以免我們的努力在無意中卻使它更容易地獲取到我們的私人數(shù)據(jù)。

一個(gè)更智能的界面不會(huì)犯這些愚蠢的錯(cuò)誤。

歡迎關(guān)注作者微信公眾號(hào):「We-Design」

萬字干貨!11個(gè)章節(jié)深度思考人工智能體驗(yàn)設(shè)計(jì)

收藏 32
點(diǎn)贊 26

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。