阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

阿里巴巴國際UED – 婉語:2018年初,我從新加坡國立大學(xué)博士畢業(yè),加入阿里巴巴國際UED,從語言學(xué)研究領(lǐng)域跨界到語音交互設(shè)計(jì)領(lǐng)域,我將自己的阿里花名取為「婉語」——「婉」來自我的本名,意為美好,「語」是語言,亦是語音。我期待自己為用戶創(chuàng)造美好的語音交互體驗(yàn)。

入職以來,我參與設(shè)計(jì)的項(xiàng)目包括公共服務(wù)領(lǐng)域的大屏語音設(shè)備以及家庭私域場景的智能音箱,這些產(chǎn)品幾乎涵蓋了人機(jī)對(duì)話的全部主要類型。基于各種對(duì)話類型的設(shè)計(jì)經(jīng)驗(yàn),我進(jìn)行了一些整理與總結(jié),希望這些尚為粗淺的專業(yè)沉淀,以及我的語言學(xué)專業(yè)背景,能為同類型設(shè)計(jì)師、跨界設(shè)計(jì)師、UXD設(shè)計(jì)師帶來一些不同的靈感。

文章目錄

  • 為何我們?nèi)绱岁P(guān)注語音交互?
  • 在語音交互中,體驗(yàn)設(shè)計(jì)師扮演著什么角色?
  • 在語音交互中,如何分析用戶的意圖?
  • 如何設(shè)計(jì)符合用戶思維習(xí)慣的對(duì)話劇本?
  • 語音交互需要怎樣的體驗(yàn)設(shè)計(jì)師?
  • 寫在最后的一點(diǎn)感想

為何我們?nèi)绱岁P(guān)注語音交互?

自從計(jì)算機(jī)誕生以來,人機(jī)的交互手段,經(jīng)歷了鍵盤、鼠標(biāo)、觸屏等階段。交互方式的每一次演化都向著更便捷、更自然、更趨近于人類本能的方向前進(jìn)。新一次的交互革命已經(jīng)開始,結(jié)合人類「五感」的多模態(tài)手段,成為未來產(chǎn)品的新趨勢(shì)。

在聽覺、視覺、觸覺、嗅覺、味覺5個(gè)通道中,聽覺通道無疑最為重要。首先,語言是人類傳遞信息、交流溝通的最主要手段,對(duì)于用戶來說,語音交互的學(xué)習(xí)成本最低,也最為自然。同時(shí),在很多場合中,語音可以解放我們的雙手,允許用戶同時(shí)處理多個(gè)任務(wù)。語言還是人類智能的象征,在人類的幻想中,一旦某種生物獲得了人性,首先它就會(huì)「開口說話」。因此,用戶對(duì)于人工智能直觀感知就是語言能力。可見,要想在自然交互、情感交互的體驗(yàn)上取得突破,語音能力必須先行。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

在語音交互中,體驗(yàn)設(shè)計(jì)師扮演著什么角色?

產(chǎn)品的本質(zhì)是滿足用戶需求,「以用戶為中心」的視角永遠(yuǎn)不會(huì)改變。因此,在人機(jī)交互發(fā)展的任何階段,都需要體驗(yàn)設(shè)計(jì)師。技術(shù)只是一種手段,如何讓技能能力服務(wù)于用戶、如何讓用戶在交互過程中獲得良好的體驗(yàn),這是設(shè)計(jì)師的天職。設(shè)計(jì)師搭建起了技術(shù)與用戶之間的橋梁。

從技術(shù)層面來看,語音交互過程就是將用戶的語音信號(hào)轉(zhuǎn)化為文本,再對(duì)文本進(jìn)行語義理解,觸發(fā)不同領(lǐng)域的服務(wù)、內(nèi)容、信息等,并以合成的人聲反饋給用戶,形成對(duì)話式的交互。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

對(duì)應(yīng)技術(shù)框架,設(shè)計(jì)師的主要職責(zé)圍繞兩條主線展開,即分析用戶需求、設(shè)計(jì)對(duì)話體驗(yàn)劇本。

1. 分析用戶需求

語音識(shí)別技術(shù)能夠?qū)⑷说恼Z音轉(zhuǎn)化為文本,計(jì)算機(jī)通過分詞、parsing(句法分析)等方式理解文本中詞與詞的關(guān)系。但是,在真實(shí)世界中,用戶語言和用戶意圖之間的關(guān)聯(lián)卻是很復(fù)雜。在語言學(xué)上,我們稱之為「會(huì)話隱含意(conversational implicature)」。這種語義高度依賴語境,具有不確定性,無法通過分析語法和詞匯而得出。這樣的用戶需求無法完全依靠計(jì)算機(jī)的能力進(jìn)行解析。以最簡單的天氣問詢?yōu)槔附裉斐鲩T要帶傘么?」對(duì)男性用戶來說,關(guān)注點(diǎn)可能是天氣的降雨情況;對(duì)女性用戶來說,關(guān)注點(diǎn)可能是天氣的日曬情況;如果當(dāng)下的天氣狀況是烏云密布,用戶意圖大概率上又是詢問降雨。這時(shí),就需要設(shè)計(jì)師構(gòu)建細(xì)致的判斷邏輯,輔助計(jì)算機(jī)進(jìn)行語義理解。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

2. 設(shè)計(jì)對(duì)話體驗(yàn)劇本

正如前文所說,只有得到符合預(yù)期的反饋,用戶才會(huì)認(rèn)為計(jì)算機(jī)理解了自己的意思。用戶對(duì)于對(duì)話式交互的預(yù)期來源于生活經(jīng)驗(yàn),因此,計(jì)算機(jī)的反饋話術(shù)則需要具備「人格化(impersonated)」的特征。所謂「人格化」的話術(shù)需要具備三點(diǎn)特征:

  • 符合統(tǒng)一的人格設(shè)定和語言特征;
  • 符合自然語言的會(huì)話結(jié)構(gòu)和邏輯;
  • 符合對(duì)話場景中的交際習(xí)慣。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

首先,語言是人類智能的象征,用戶對(duì)語音產(chǎn)品會(huì)產(chǎn)生「移情」效應(yīng),不可避免地認(rèn)為語音產(chǎn)品具有擬人的屬性。因此,設(shè)計(jì)一個(gè)語音產(chǎn)品之前,也應(yīng)該為語音系統(tǒng)設(shè)定一個(gè)固定的人格類型,并設(shè)計(jì)具有一致性的語言體系,避免給用戶造成人格的「分裂感」。

其次,自然語言中存在固有的會(huì)話結(jié)構(gòu)。如,一個(gè)完整的對(duì)話結(jié)構(gòu)必須具備「開始模塊」和「結(jié)束模塊」,跳轉(zhuǎn)話題時(shí)需要一個(gè)「話題樞紐」。「話輪樞紐」可以用一個(gè)簡單的詞語來承上啟下,如「對(duì)了……」、「其實(shí)……」等,也可以是一個(gè)或多個(gè)句子來過渡話題,但少了這個(gè)部分,對(duì)話就會(huì)顯得生硬。不論是什么類型的對(duì)話設(shè)計(jì),都需要按照這樣的模塊細(xì)化展開。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

最后,人在不同場景中,具有不同的語言行為特征。如在公域中,更偏重效率和隱私性,因此公域的服務(wù)場景話題延展性較低,設(shè)計(jì)重心圍繞核心需求展開;而在私域中,則更偏重情感體驗(yàn),話題的延展性較高,設(shè)計(jì)還需考慮更多的交互細(xì)節(jié)。

在語音交互中,如何分析用戶的意圖?

刺激語言表達(dá)的來源有兩種,一種是說話人的內(nèi)在感受,一種是客觀環(huán)境的外部語境。那么,要想知道用戶在語音交互場景中會(huì)「說什么」,首先需要分析用戶是誰,即分析用戶畫像;其次要分析交互場景,除了空間時(shí)間場景外,多模態(tài)的交互界面也是場景語境的一種。除此之外,我們也能夠運(yùn)用一些語言學(xué)上的方法來幫助我們?cè)谇捌谶M(jìn)行用戶意圖的挖掘。

1. 語言的替換組合原理

首先,語言是一個(gè)可以替換組合的裝置。那么,我們從一個(gè)典型意圖開始擴(kuò)散,通過概念拆解,運(yùn)用有規(guī)律的替換,可以發(fā)散出多種用戶需求,并為之設(shè)計(jì)具有針對(duì)性的回復(fù)模式。如在「問天氣」這個(gè)簡單的場景中,最典型的用戶意圖是「今天杭州天氣怎么樣?」,但在現(xiàn)實(shí)中,用戶的需求遠(yuǎn)不會(huì)這么簡單。當(dāng)我們對(duì)這個(gè)意圖進(jìn)行拆解,將其中的三個(gè)組成部分「今天」「杭州」「天氣怎么樣」進(jìn)行有規(guī)律的替換和組合時(shí),就會(huì)生成出復(fù)雜而眾多的用戶需求。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

2. 真實(shí)口語中的語用規(guī)則

其次,中文口語常常是凌亂的,語法不嚴(yán)密的,口語的規(guī)則常常超出句子范圍,我們還需要考慮篇章結(jié)構(gòu)的規(guī)則,這是語言學(xué)中的「語用規(guī)則(Pragmatic Rules)」。例如,一般認(rèn)為中文語法的名詞中心語是后置的,修飾語在中心語前面不斷疊加,如「美麗的風(fēng)景」、「旋轉(zhuǎn)的風(fēng)車」,這稱之為「向心結(jié)構(gòu)」。以點(diǎn)咖啡的場景為例,理想的語法狀況為「我要打包一杯大杯香草口味的熱拿鐵」。但這類結(jié)構(gòu)的句子在實(shí)際生活出現(xiàn)的可能性極低。在口語中,通常以「主題+描述性成分」展開,如「一杯拿鐵,大杯,熱的,加香草,打包,啊……還是冰的吧,那個(gè)……去冰」,呈現(xiàn)出「離心結(jié)構(gòu)」的傾向。

口語中,語言是伴隨思考進(jìn)行的,還受到思維邏輯結(jié)構(gòu)的影響,這是跨句子范圍的「語用規(guī)則」。人在提出需求時(shí),通常遵循「提出 - 補(bǔ)充 - 修改 - 澄清」的邏輯。因此,最核心的需求往往最先提出,隨后對(duì)需求進(jìn)行細(xì)化描述。我們?cè)谡Z音點(diǎn)單機(jī)項(xiàng)目中,運(yùn)用這種邏輯對(duì)何時(shí)截?cái)嘤脩舻恼Z音、何時(shí)執(zhí)行指令、在遇到用戶停頓時(shí)應(yīng)該如何處理,這些前端操作進(jìn)行輔助優(yōu)化后,用戶意圖的識(shí)別率和執(zhí)行的正確率都有了較為明顯的提升。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

如何設(shè)計(jì)符合用戶思維習(xí)慣的對(duì)話劇本?

1. 模擬真實(shí)生活的對(duì)話場景

人和人之間的日常對(duì)話,通常不是直接的功能性問答,也不是單一話題的,而是在不同話題間不斷轉(zhuǎn)換。用戶對(duì)人機(jī)對(duì)話的預(yù)期也是如此,不是冷冰冰的一問一答,而是能夠更加自然真實(shí)。所謂的「自然真實(shí)」,其實(shí)就是與用戶固有的思維習(xí)慣類似。

我們模擬日常生活中的對(duì)話場景,為 AI人物建立「用戶生活參與者」的身份。以天氣問答場景為例,人和人之間關(guān)于天氣的對(duì)話,不僅是獲取資訊,還會(huì)基于天氣進(jìn)行話題擴(kuò)展。因此,我們?cè)趯?duì)傳統(tǒng)的天氣播報(bào)進(jìn)行了「場景話術(shù)包」的升級(jí)方案,在基礎(chǔ)信息模塊的基礎(chǔ)上還增加了人格話術(shù)模塊,依據(jù)天氣類型和氣溫類型,選取了語義網(wǎng)絡(luò)中高關(guān)聯(lián)度的節(jié)點(diǎn)作為話術(shù)維度,在基本的信息模塊基礎(chǔ)上,建立人格話術(shù)模塊,根據(jù) AI人物的性格設(shè)置編寫話術(shù)。這些維度包括,安全、出行、健康、心情等與用戶日常生活息息相關(guān)的方面。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

這種場景話術(shù)包模擬人和人之間真實(shí)的交際場景,會(huì)給用戶帶來符合預(yù)期的對(duì)話體驗(yàn)。同時(shí),在每次與用戶交互時(shí),人格話術(shù)庫都能夠根據(jù)當(dāng)下場景提供不同的對(duì)話內(nèi)容,用戶在每次對(duì)話中都能獲得一些新的體驗(yàn),從而引發(fā)用戶對(duì)再次交互產(chǎn)生好奇。更重要的是,我們基于場景對(duì)用戶表達(dá)主動(dòng)的情感關(guān)懷,營造出「生活參與者」的角色形象,為用戶構(gòu)建起虛擬的人際關(guān)系,滿足用戶更高層的社交需求。從這三個(gè)角度,立體地塑造出具有 EQ 的機(jī)器語言,讓用戶的對(duì)話體驗(yàn)更加生動(dòng)有溫度。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

2. 有邊界的聊天邏輯

傳統(tǒng)的聊天機(jī)器人是無邊界的,依賴于積累語料、標(biāo)注數(shù)據(jù)、搭建知識(shí)圖譜等方式。一般來說,這種回復(fù)內(nèi)容的適用范圍很廣,不受語境的制約,在任何時(shí)候都能差不多兜住用戶的問題,給人一種似乎對(duì),也似乎不對(duì)的感覺。但是這種交互沒有主題,也沒有記憶,完全基于用戶的上一句話術(shù),這就很容易在對(duì)話過程中脫離語境,跳出用戶的預(yù)期。

而在自然語言的會(huì)話結(jié)構(gòu)中,即使跳轉(zhuǎn)話題,也通常有話輪樞紐來承接上下文,整個(gè)對(duì)話始終是在雙方的預(yù)期中進(jìn)行的。脫離語境會(huì)給用戶造成認(rèn)知上的違和感。

以下是某聊天機(jī)器人與用戶的對(duì)話,這兩種情況都屬于用戶的預(yù)期外情況,當(dāng)前話題就只能終結(jié),用戶必須另起話題才能繼續(xù)。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

于是,我們?cè)谛〉拇怪眻鼍埃ㄔ姼桀I(lǐng)域)中做了試驗(yàn)性的嘗試,采取另外一種「有邊界」的閑聊邏輯。

首先,這種交互是有始有終的,圍繞單一話題展開,通過機(jī)器的主動(dòng)引導(dǎo)來完成整個(gè)流程,有獨(dú)立的開場模塊和結(jié)束模塊。

將詩歌能力結(jié)構(gòu)化,變成獨(dú)立的技能模塊,進(jìn)行主動(dòng)輸出,例如猜詩人、猜詩名、詩歌對(duì)句、詩歌釋義、詩歌冷知識(shí)等,為每個(gè)技能模塊設(shè)置引導(dǎo)話術(shù)和對(duì)話模版。一個(gè)模塊作為一個(gè)技能進(jìn)行主動(dòng)輸出,并在主動(dòng)結(jié)束前吸引用戶下一次再來進(jìn)行交互。

用戶的每次交互都被記錄下來,作為下一次交互的話題,這樣,機(jī)器人和用戶之間就有了共同的經(jīng)歷。

在這種有邊界的閑聊邏輯,具有上下文的強(qiáng)關(guān)聯(lián)性,同時(shí)場景明確、主題突出,當(dāng)然也有相應(yīng)的缺點(diǎn),對(duì)場景強(qiáng)依賴、通用性低。從交互平均時(shí)長的絕對(duì)值來看,也許低于無邊界的聊天機(jī)器人。但是,在相對(duì)較窄的垂直應(yīng)用場景中,如游戲和教育,這種思路的閑聊機(jī)器人也許會(huì)有更強(qiáng)的適用性。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

這種閑聊模式是半封閉的,「開場——引導(dǎo)——技能——結(jié)束」是一個(gè)完整的 happy path,但是用戶的思維具有發(fā)散性,很可能由現(xiàn)有語境跳轉(zhuǎn)去其他話題,當(dāng)用戶的意圖跳出話題時(shí),使用百科知識(shí)和兜底話術(shù)應(yīng)對(duì),再通過話輪樞紐將重新引導(dǎo)回話題,盡量完成一個(gè)完整的對(duì)話流程。這種閑聊模式,我們稱之為「對(duì)話情感體驗(yàn)地圖」。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

我們之所以將詩歌作為閑聊主題,是因?yàn)榧夹g(shù)團(tuán)隊(duì)現(xiàn)有一個(gè)較具規(guī)模的詩歌知識(shí)庫。但用戶主動(dòng)去獲取詩歌知識(shí)的場景并不多見,那么這些能力很大程度上是被「閑置」了。如何充分利用計(jì)算機(jī)現(xiàn)有技術(shù)能力和信息儲(chǔ)備,將其轉(zhuǎn)化為活的服務(wù),主動(dòng)觸達(dá)用戶,這是設(shè)計(jì)師需要思考的。在人工智能尚未達(dá)到「全知全能」的現(xiàn)階段,如何充分利用當(dāng)前的已有資源,完成計(jì)算機(jī)能力向用戶需求的轉(zhuǎn)化,我認(rèn)為這是設(shè)計(jì)的核心意義所在。

語音交互需要怎樣的體驗(yàn)設(shè)計(jì)師?

語音交互的特殊性為體驗(yàn)設(shè)計(jì)師提出了新的要求和挑戰(zhàn)。人類的語言能力是天生的,用戶的語言行為模式不會(huì)因?yàn)榻换?duì)象是計(jì)算機(jī)而發(fā)生改變。傳統(tǒng)的交互方式要求用戶學(xué)習(xí)計(jì)算機(jī)的規(guī)則,而在語音交互中,計(jì)算機(jī)必須完全順應(yīng)用戶的邏輯。因此,設(shè)計(jì)師首先要理解「語言」的本質(zhì),理解用戶的「語言邏輯」,才有可能設(shè)計(jì)出流暢自然的語音交互體驗(yàn)。其次,設(shè)計(jì)師還必須理解技術(shù)的實(shí)現(xiàn)機(jī)制,才能和技術(shù)配合,將技術(shù)能力最大化,并和技術(shù)攜手不斷拓寬彼此的邊界。

語音交互滲透人類生活場景的方方面面,這就對(duì)我們?cè)O(shè)計(jì)師提出了更高的綜合素質(zhì)的要求。阿里常說「既要、又要、還要」,對(duì)語音交互的體驗(yàn)設(shè)計(jì)師而言,既要具備語言學(xué)能力、技術(shù)背景、交互設(shè)計(jì)能力,又要有產(chǎn)品思維、營銷思維、結(jié)構(gòu)化能力、可視化能力,甚至是編劇能力,還要有一定高度的哲學(xué)思考。在人工智能的時(shí)代中,產(chǎn)品的形式不斷突破人類的認(rèn)知邊界,如何理解人、如何理解人的認(rèn)知、如何為計(jì)算機(jī)構(gòu)建世界觀,這都是值得我們思考的哲學(xué)命題。

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

寫在最后的一點(diǎn)感想

以上就是我作為語音交互領(lǐng)域中的一個(gè)「異類」設(shè)計(jì)師,在項(xiàng)目過程中的一些經(jīng)驗(yàn)之談。人工智能、機(jī)械智能是一個(gè)長期發(fā)展的過程。在「強(qiáng)人工智能」——機(jī)器自主學(xué)習(xí)和進(jìn)化的階段到來之前,「人工」的因素仍然十分重要。通過模擬人類行為,為計(jì)算機(jī)搭建「世界觀」,為機(jī)器學(xué)習(xí)積累有效數(shù)據(jù),不斷提高人工智能發(fā)展的起跑線,是一個(gè)必然且長期的階段。

所謂「妙語匠心」,人工智能在語音交互中所展現(xiàn)出的每一分「妙語」,不僅僅是強(qiáng)大技術(shù)能力的支撐,實(shí)際上也蘊(yùn)含著設(shè)計(jì)師十分甚至一百分的「匠心」。同時(shí),在設(shè)計(jì)上,我們也在不斷探索設(shè)計(jì)和技術(shù)的結(jié)合方式,在對(duì)話內(nèi)容和對(duì)話劇本的自動(dòng)生成、人格化語言體系的構(gòu)建等方面,我們已經(jīng)開始了一些探索。語音交互行業(yè)才剛剛嶄露頭角,我們?cè)谠O(shè)計(jì)上還有很長的路要探索,設(shè)計(jì)和科技需要攜手不斷拓展邊界,我們共同的目標(biāo)都是提供給用戶更好的服務(wù)、帶給用戶更好的體驗(yàn)。不管技術(shù)如何發(fā)展,時(shí)代如何變遷,不變的是對(duì)人和人的需求的關(guān)注,UXD 時(shí)刻關(guān)注用戶視角、價(jià)值導(dǎo)向。

同時(shí),感謝團(tuán)隊(duì)中與我通力合作的小伙伴們,體驗(yàn)設(shè)計(jì)師的視角和語言學(xué)者的視角碰撞出了很多火花,給了我不少設(shè)計(jì)靈感和有益的幫助,讓我在短短不到一年的工作中,沉淀出了這些心得。同時(shí),我也十分希望能給同行業(yè)的設(shè)計(jì)師們一些不同視角的參考,期待語音交互這個(gè)新興的行業(yè)因?yàn)槲覀兊奶剿鞫优畈匕l(fā)展。

歡迎關(guān)注「AlibabaDesign」的微信公眾號(hào):

阿里設(shè)計(jì)師:參與多個(gè)智能語音交互設(shè)計(jì)項(xiàng)目后,我總結(jié)了這些經(jīng)驗(yàn)!

「如何設(shè)計(jì)出優(yōu)秀的語音交互」

收藏 94
點(diǎn)贊 8

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。