如何打造優秀的語音交互體驗?這兒總結了四個方法

回顧人機交互發展是「技術進步」與「載體創新」交替螺旋促進在推動著人獲取信息的效率不斷提升,成本不斷降低。

AlphaGo先后打敗李世石和柯潔,百度發布自動駕駛系統「阿波羅」這一次由AI引領的技術進步正在發生。基于大量純凈數據的深度學習給人工智能帶來的了巨大的進步,這種進步主要體現在三個維度。

  • ?認知能力 – 基于用戶行為的畫像,將人機交互從「單向」關系帶入「雙向關系」。
  • ?感知能力 – 由觸摸輸入到以語音輸入、圖像識別為核心的全自然交互。
  • ?自然語音輸出能力 – 帶來新的”語音“設計材料。

如何打造優秀的語音交互體驗?這兒總結了四個方法

語音對于體驗設計師來說是新的設計材料,它有哪些設計挑戰?語音設計有框架可尋嗎?有哪些設計方法?我們將在下面的文章與你分享。

二.設計挑戰

從「右邊界」設計到「無邊界」設計

當我們設計App界面,交互設計師會窮舉用戶在固定像素界面內所有可能的操作,一一設計恰到好處的用戶反饋。但是對于語音交互用戶的輸入是沒有邊界的,用戶可能的輸入將遠遠超出你可能的窮舉的范圍。從「有形」的設計到「無形」的設計,視覺的設計規范在語音設計過程中將完全失效。

從「進場」交互到「多距離空間」交互

語音交互主要分為近場交互(例如:度秘/Siri)和中場交互(車載)、遠場交互(智能音箱)。

如何打造優秀的語音交互體驗?這兒總結了四個方法

多距離場景的有以下幾個維度的不同:

(1)場景特征:在非近場交互的場景下用戶可能在其他事情上,而非專注在其他任務,這給如何讓用戶最小成本的獲取當前系統的狀態帶來挑戰,「我喚醒了設備嗎」「我們可以說了嗎」 每一個節點需求都需要多維度的定義。

如何打造優秀的語音交互體驗?這兒總結了四個方法

(2)?輸入方式:常用的輸入方式有實體操作(按鈕/旋鈕等等),觸摸,語音,動作,在近場交互時實體與觸控是第一選擇,而當中遠場交互時語音成為輸入方式的第一選擇。伴隨各種智能音箱、或者Iphone X等采用深度攝像頭應用的普及,中遠場景的動作輸入將逐漸成為重要的輸入方式之一。

三. 設計建議

用「語音交互框架」匹配「使用場景」

語音交互帶來人機交互向更自然的方向提升,人機交互更趨近于「人人交互」,怎樣理解語音交互框架,我們可以從人人交互一探究竟。

現在回想你讓別人幫你把水杯拿過來,你與這個人的交互節點是什么樣子的?

首先你要叫他的名字,如果他聽到了會回答你「干嘛呀」或給你個眼神兒,這時候你知道他在聽你說話,你可以繼續說了「把水杯拿來」。他可能需要想想水杯在哪或者問你,當他去拿水杯你會看到他正在行動。將與人的語音交互節點提煉出來,進行總結就是語音的交互框架:

如何打造優秀的語音交互體驗?這兒總結了四個方法

如上圖所示語音的交互框架由以下四個節點構成,每個節點用戶有相應需求:

  • ?喚醒:用戶有得到「是否喚醒語音」反饋的需求
  • ?輸入:用戶有得到設備正在「聽說話嗎」的需求(相當于loading)
  • ?理解:用戶有得到「在幫我說事情嗎」 的需求
  • ?回答/行動:用戶有查看任務是否完成的需求

語音的交互框架解釋了語音交互流程,等同于觸屏設備定義的「點擊屏幕」「雙指Pinch」「搖一搖」。但是僅僅了解交互框架是遠遠不夠的,比框架更重要的是語音交互場景,在不同場景下以上「喚醒、輸入、理解、回答/行動」四個節點有不同設計方式。

舉個例子:在語音交互的第二個節點 – 輸入中需要用「波形高低」與「語音響度高度」相匹配來給用戶正在聆聽的反饋,在不同場景下波形要采取不同的設計策略:

車載場景:駕車時用戶的視覺注意力被路況占據,這時候一方面需要引入「叮」的一聲語音反饋,另一方面需要設計采取更強的視覺波形確保一瞥既得。

語音音箱:語音音箱的場景雖然不像駕車場景注意力被強占據,但是它是沒有屏幕的,這時候一般會采取帶強弱有呼吸感的燈效解決反饋的問題。

「無形」的語音能「附著」在各種設備上,場景也是千變萬化的。在設計時要時刻記住「喚醒-輸入-理解-回答/行動」的語音交互框架和每個節點的用戶需求,關注用戶的使用環境,和視覺/聽覺注意力的占據情況,不要局限只用聲音做反饋。

喚醒設計

喚醒是語音交互的第一步,聽說剛發布的某國產品牌的AI音箱選了十多個喚醒詞,最后才用了「小愛同學」,Rokid的喚醒詞「若琪」也經過了精心的設計。這充分說明了喚醒設計重要性。

喚醒方式可以是任務的觸發動作,比如點擊,按壓,動作,語音,表情。目前主流的喚醒方式有以下3三種 – 實體按鈕、虛擬按鈕、語音喚醒,每種喚醒方式各有特點,適用于不同場景,下面我們來逐一分析一下:

如何打造優秀的語音交互體驗?這兒總結了四個方法

(1) 實體按鈕:優點是能提供觸覺反饋,使用場景有兩種:

A.當用戶的視覺通道被占據時。

B.近場交互且設備沒有屏幕或屏幕處于熄滅狀態時,例如在熄屏狀態下通過長按Home喚醒。

(2)虛擬按鈕:喚醒方式有兩種操作方式 – 點擊和長按。兩種方式的本質差別有三個:與面部距離、操作成本長按大于點擊、微信養成的語音輸入習慣使得長按更符合用戶習慣。

A.點擊:面部與屏幕距離遠,波形反饋可見,能更好的確認設備是否在收音,且成本較小。大多數的近場交互都可以使用。同時車載場景特別適用,試想在駕車情況下讓用戶長按輸入語音簡直就是災難。

B.長按:離麥克風距離比較近,能帶來更好的收音效果??梢宰鳛橐环N輔助的喚醒方式兼容。

(3)語音喚醒:在雙手被占據和遠距離場景下語音喚醒都是最佳的方式,在設計語音喚醒時要注意以下三個方面:喚醒詞的形象設計、注意喚醒后的聲音反饋、防止誤觸發。

A.喚醒詞的形象設計:喚醒詞的設計是機器人格的一部分。在平常的社會交往中,高雅、深邃的名字,往往會給人留下美好的印象。庸名俗字則給人一種不愉快的厭惡心理或排斥感。比如「靜靜」給人「文琪、秀氣」的感覺?!柑枪菇o人「甜蜜」的感覺。

初期的人工智能的能力是有限的,有時會給出不盡如人意的回答。一個萌萌的有親和力的名字能讓用戶有更高的寬容度。

同時喚醒詞意象要與聲音特色相一致,聽覺情感是非常敏感的,想象一下如果一個萌妹子說話的聲音很粗獷,或者一個壯漢聲音很細你是不是覺得很不舒服。去定義喚醒詞對應的感知意向,在語音合成訓練時匹配這種意向。

B.使用反饋音:語音喚醒一般使用在遠場交互場景,這時候用戶很難能通過視覺確認是否喚醒了設備,就需要給出語音反饋。比如「叮」或「我在呢」等等。

C.防止誤觸發:在日常交流中我們每天會說很多重復的字或詞,比如「你、哎、哦」等等,在設計喚醒詞時要避開這些詞匯。

對話的體驗設計

喚醒之后的對話環節是語音體驗設計的核心,我們如何打造優秀的設計體驗呢?首先需要了解語音交互類產品對話的基本特點,包括:輪流說話的方式、合作式的對話、關注語言的蘊意及語境、具有線索引導、對話具有可修復性。

在具體對話的編寫上,給大家推薦通用的Grice表達準則,可以有效提升語音對話的效果。準則包括以下4方面:

  • 表達質量:陳述的是有效的事物
  • 信息量:不多不少,恰到好處的語言信息含量
  • 關聯性:陳述與話題相關的信息
  • 習慣性:簡明扼要,直奔主題,避免模糊晦澀的表達

根據不同的使用場景對話編寫也有較大差別,主要從以下兩個維度入手:

(1)區分「任務式設計」與「閑聊式設計」。對話式設計主要分為兩種場景:任務式對話和閑聊式對話。

任務式對話:如理財顧問,醫生,購房助手,用戶使用這類對話的型產品是為了盡快得到答案,而不是向人們「調戲」siri一樣。這類的產品應遵循如下原則:

A. 引導用戶如何輸入

語音是無形沒有邊界的,不要讓用戶進來不知道說什么。用戶可能采用各種無法預知的句子輸入。為了避免發生錯誤,應在界面上引導用戶怎樣輸入或主動開啟一個對話。

B.設置邊界

不要試圖去做閑聊型「機器人」,當入用戶的輸入你的產品無法理解或與你產品的主任務無關時,不要裝聰明,給用戶選項提醒用戶他能用的表達方式。

閑聊式對話:如微軟小冰,度秘等。用戶使用這類對話式產品的目的是「娛樂」,效率不在是第一需求,怎樣讓對話有趣避免冷場是新的設計目標:

A. 雙向溝通,主動聯想

避免對話一直是「one shot」式的一問一答。雙向的溝通才能讓對話變得有趣,當用戶打開你的產品時根據天氣,時間等因素做主動的交談,比如當用戶深夜打開你的產品時,設置一段問候的對話會讓你的產品變得富有人文關懷。

B. 迎合用戶情緒

當用戶表達出悲傷或開心等情緒時,用戶會很期待你的產品具有同理心,用圖像或對話與用戶建立情感連接,將使得對話變得富有人情味,增加產品的粘性。

C .鼓勵輸入

閑聊式對話產品的體驗依賴于對用戶數據的收集,你的產品積累的對話數據越多,通過深度學習就越能給出用戶滿意的反饋。在設計時通過獎勵機制和可視化的鼓勵引導用戶來豐富你的數據庫。

(2) 「聽覺形象」的體驗設計

通過「彩、材質、形狀、版式、動效、字體」塑造視覺形象,用視覺形象反映產品氣質、品牌理念是GUI設計師工作之一。人工智能賦予了機器擬人化聲音輸出的能力,帶來的語音設計材料。不同的聲音帶給用戶的感受是不大相同的,低沉的聲音給人「穩重、沉穩」的感覺,尾音語調向上的聲音給人「愉悅、被尊重」的感覺。

如何用「音色、節奏、音調、響度」的語音設計要素設計恰如其分的聽覺形象?

下面我結合項目經驗和一些研究與你分享一些流程的方法。

A.從「先設計后開發」到「先開發后設計」一個全新的實現流程

語音是不可見的,設計師沒有「語音的PS」 ,在語音形象的設計中必須先有「語音基礎形象」設計師基于語音基礎形象進行再設計。對百度feed讀新聞的體驗重新設計時,先進行的是不同新聞情感特色的定義,基于新聞情感收集當量的「語料」數據,通過深度學習來提取每類語料數據的聲音特色形成「基礎形象」,在對基礎形象進行「語調、速度、節奏」的微調進行升級形象設計。

以上流程可抽象出「聽覺形象」的設計流程 :「定義 – 挑選 – 訓練 – 調整」。

如何打造優秀的語音交互體驗?這兒總結了四個方法

定義:根據內容/產品氣質/品牌愿景定義產品的「聽覺形象」,八卦的情感要用「戲謔的」,歷史的聽覺相應要有「滄桑感」。

挑選:去語音庫里挑選具有定義的聽覺形象的語音片段。比如如果要產生的聽覺形象是「滄桑感」時,可以挑選一些單田芳老師語音片段。

如何打造優秀的語音交互體驗?這兒總結了四個方法

訓練:將大量語音片段交由技術人員進行語音合成訓練。

微調:通過調整「語調、速度、節奏」使之給用戶的感覺更接近于先前定義的「聽覺形象」。

如何打造優秀的語音交互體驗?這兒總結了四個方法

B. 保持「聽覺形象」與「品牌情感」的一致性

在進行視覺設計時設計師要通過「色彩、形狀」等設計元素支撐品牌情感,對與大型公司會要求他們的每一個產品遵循一致性的設計規范。進入「聽覺形象」設計時代,當你的產品要使用語音交互時,確保產品的「聽覺形象」與「品牌情感」保持一致,這將能夠強化品牌給用戶的印象。

C. 保持「聽覺形象」與「用戶場景」的一致性

現在回想一下機場內的語音「尊敬的旅客飛往北京的T343航班….」,這種語音形象給用戶「被服務的、受到尊敬」的感覺,與用戶在機場的場景相一致。而在醫院,起碼在中國的醫院,醫療資源與患者數量極不匹配,患者與醫生更像是「求助關系」而非「服務關系」, 使用過于「服務化」的語音形象反而會給用戶帶來強烈的落差感。

D. 保持「聽覺形象」與「內容」一致性

「內容」本身是具有形象屬性的,比如二次元的新聞如果用粗獷的男生讀出來一定會很違和。因此在進行內容消費型設計時要充分考量語音所說的內容與「聽覺形象」相匹配,避免出現違和感。但是在設計工具型產品時,不要頻繁更換語音形象,這會分散用戶注意力使效率下降。

4.利用視覺

如何打造優秀的語音交互體驗?這兒總結了四個方法

語音交互的最大優勢是更加直覺化,可以大大降低用戶學習成本。但是語音輸出的是線性的,因此它無法同時輸出很多內容。這是語音最大的劣勢。

2015年在設計語音管家時有人提出要做個語音點外賣功能。這其實是違背語音場景的,當語音輸出到第十道菜時用戶已經忘了第一道菜是什么了。 所以當時在設計時當用戶發起需要當量信息交互的任務時,會通過PUSH引導用戶查看視覺信息。

在設計時充分利用視覺與聽覺的互補性,聽覺記憶時間短暫的,不要用語音輸出大量信息,尤其輸出的信息是需要用戶記憶時。

四. AI時代的變與不變

AI帶來機器的認知能力和感知能力的提升,給人機交互帶來的改變是根本的,傳統的人機「輸入-反饋」循環,將逐步過渡到「推薦-選擇」循環。人機交互也將由單向從屬關系,向雙向訓練關系過渡。這種改變將重寫「設計思維、方法、流程、規范」。

然而每個時代都會有屬于它的符號和偶像,對于設計師來說,賦予產品以靈魂的精神是始終不變的。

「深入了解!什么是對話式交互

原文地址:ued.baidu

【優設網 原創文章 投稿郵箱:yuan@uisdc.com】

================明星欄目推薦================

優優教程網 UiiiUiii.com 是優設旗下優質中文教程網站,分享了大量PS、AE、AI、C4D等中文教程,為零基礎設計愛好者也準備了貼心的知識樹專欄。開啟免費自學新篇章,按照我們的專欄一步步學習,一定可以迅速上手并制作出酷炫的視覺效果。

設計導航:國內人氣最高的設計網址導航,設計師必備:http://hao.uisdc.com

收藏 44
點贊 2

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。