設計也需要在每個場景中分別做出判斷,行業通用的部分沉淀,以及行業特性的個性化設計思考,都是需要不斷的去嘗試和打磨的。而智能互動設備作為一種趨勢,也是設計師去發揮所長的沃土。
一、5號小蜜:智能互動設備的初期準備
在如今智能硬件設備,語音互動的大趨勢下,我們針對實體智能互動的硬件,從想法 – 設備 – 技術 – 設計 – 場景,總結沉淀了部分探索經驗。
首先交代一下背景:
在阿里小蜜語音助手的形態下,延伸出了很多智能相關的研究和探索,其中智能硬件也是我們想要去發展的一部分。在這種情況下,以「5號小蜜」為名稱的智能互動硬件設備應勢而生。
(名稱解釋:在決定做這個產品的初期,是以落地到公司的5號行政樓為場景的前提下進行的設想,所以叫「5號小蜜」)。
在有了這個想法后,5號小蜜進行了1.0版本的研究和設計,在項目初期我們的承載硬件主要是以55寸,比例為16:9的液晶屏幕為主,用機器人的虛擬形象進行語音的互動,其中的場景設定也是在訪客進入到5號行政樓進行互動的能力。
二、智能互動設備的框架拆解
在有了初步的進展之后,我們以設計師的視角總結了智能互動類設備的基礎框架,為我們之后的升級和完善進行了整體的方向指導。
首先智能互動設備的核心支撐能力一定是算法的能力,而當前市面上的智能硬件大多數是以語音助理的形態出現的,因此對于設計師來說,VUI 是重要的一環,5號小蜜不單單是語音的交互,也是視覺上的交互。因此在感知層面的設計上來說,是「VUI+GUI」也就是聽覺和視覺的互動(但在硬件多樣發展的今天,觸覺類也應該是要考慮到感知層面的一部分)。
VUI+GUI 對比傳統語音交互會有一些優勢體現:在互動方面,語音可以理解為面,單一面傳遞信息是有限的,如果語音和界面結合起來,就是從兩個單一面形成了空間,可以承載更多的信息。
舉個例子:人與人在交流中不止是語言傳遞的互動,可以從面部表情傳遞出喜怒哀樂;肢體語言傳遞出興奮度和性格特質。綜合起來,我們的交流才會更順暢。
在物理層面而言,是硬件設備的選擇:液晶屏幕、玻璃屏幕(透明、非透明)、全息投影等。
在初期,我們的選擇是液晶屏幕,這個是最基礎的承載硬件,也是成本最低的硬件。而其它選擇的硬件也有優劣之分,透明玻璃屏適合導購的場景,背后是否有商品的出現,是從傳統的觸覺互動進行了更多承載信息的進化。非透明玻璃屏適合更沉浸的助理場景,全息投影會更接近真人的感受,也是智能感受最強的一類,每一種硬件方式都有適合的場景,這個是我們需要去權衡的。
在以設計師的身份參與過程中,我們更多的是以設計的視角和硬件、場景、技術等進行搭配合作,所以在過程中,會參考多方面的因素,影響最后落地的結果。
1. 感知層面的設計策略:視覺層
在2.0初期,我們先整理了最直接的感官層的一部分——視覺感受,以此為基礎為產品定調,以最直接的表現層為手段幫助產品建立視覺體系。
首先我們內部腦暴統一同步了本次升級的目標:讓小蜜更智能,更有服務感。一個是本身我們在做的事情就是智能相關的研究,另外在落地的場景訪客中心承載的也是服務的屬性,所以在設計方面就抓取了兩個心智方向的關鍵詞:智能、服務。
在關鍵詞的引導下,先建立情緒板,整合出表現層的特性。
抽出智能感受類的關鍵詞,可以是抽象或者具象的描述。
接著整理出服務相關的視覺屬性。
根據關鍵詞的延展,得到了視覺語言的方向,但是在推導中我們發現智能和服務有些畫面更像是互補色之間的關系,有一定的對立面,所以要從中調和每個關鍵詞在界面中的占比。同時要考慮是不是有減少兩者沖突的辦法,所以在多次嘗試后決定將1.0版本中的機器形象換成真人。
首先在行政樓場景中,真人會帶來更多的親切感,與服務場景更契合;其次界面關鍵詞的分配方面也會有考量,在氛圍中我們更希望帶來智能感受、在對話中我們更希望是親切的服務感,因此真人的形象出現是一個比較合適的策略。
而且服務的視覺概念也從我們常常感知到的二維變成了多維的角度,從單一的界面變成了人設、服裝、肢體語言、面部表情等多方結合的綜合體。因此這兩個關鍵詞延展出來的部分就有了各自的分工:智能感更多的體現在界面氛圍上;服務感更多體現在人物上,兩者結合的會更加潤滑。
下圖是關鍵詞占比的界面嘗試過程灰機稿。
在嘗試過程中,畫面一步步清晰了起來,智能+服務也能更多體現出來,最終通過提煉過程中的視覺語言,形成了最終的畫面。
在整體視覺感受設計的同時,人物的視覺點也在同步進行,我們對人物進行了性別、著裝、動作、面部表情的設定,整體目標以之前服務感中總結出的友善、輕松為關鍵詞。
最終畫面(其中一款服裝是考慮之后場景的拓展性,整個以智能感受為主)。
2. 感知層面的設計策略:聽覺層
在描述完視覺設定后,來看一下聽覺的方面,也就是語音的互動。
首先,語音互動的核心能力還是在算法上面,因此語音交互也是和技術能力相輔相成,5號小蜜的技術手段也比較豐富,主要是以下幾種:ASR、TTS、QA、面部跟蹤、面部重塑面部跟蹤渲染等 AI 技術模塊。理論上只要獲得充足的人物視頻+語音數據,技術可模擬任意指定人物。數據越多,面部和語音的還原度越逼真。
其中,為獲取原始數據,需要進行數據的采集,主要是在采集室里對語音、圖像進行收錄,大致技術的流程如下所示:
在這些技術背景下,語音的互動更多的是考慮如何在與真人的對話中,體驗更加順暢。
下圖為核心的 Flow:
在小蜜與用戶交流的部分做了標記,也是語音交互的核心內容區。為了方便整個流程連貫起來,還是從最初的部分開始,講述一個完整的劇本。
用戶從行政樓走進,一般會有幾種意圖:開會(查找會議室)、來訪(了解阿里文化等)、參觀(閑聊)根據這些場景我們進行了兩個關鍵節點的設定:吸引、交流。由于結束對話屬于弱互動,所以暫不列入重點。
以上為語音互動的核心部分,其余還有用戶結束對話的聲音動作反饋——「再見」+揮手等;未知問題的回復處理——進行多種兜底話術的配置;中途離場的用戶——小蜜15S內回復初始狀態等。
3. 物理層面策略:硬件、場景
在考慮界面語音互動的同時,也要考慮硬件方面帶給體驗的影響,比如設備的主要構成,MIC、音響、支架、外觀顯示器等主要硬件。
MIC 的技術手段是單軌拾音,因此需要保證在有效距離內收音(機器前會張貼最佳距離的腳印貼紙,以保證對話收音)。顯示器會制作可調整的15°角傾斜,考慮反光、身高視角等情況。機器總高度控制在1.8M,用戶眼睛與小蜜眼睛保持平視,最佳觀看高度在1.7M左右的平均值,以覆蓋大部分用戶的使用感受。
△ 年會亮相圖
下圖為整個硬件的構成部分以及運作傳輸圖。
在硬件組裝完畢后,會進行收音的測試,在實際使用場景 – 公共環境(嘈雜環境)下用錄音(ASR識別)的方式來收集不同位置的收音狀況(保證同等條件下,比如分貝相同)來收集數據,最后判定這個 MIC 的硬件是不是最合適的。
經過綜合多方位設計后,設備才能見到雛形,本身智能互動領域就是多維度的綜合體,設計師參與在其中也會從單一的視覺、交互維度去向更全面的維度思考,使每一個環節串聯起來,打造更好的 UX體驗。
最后的思考
從這次的項目來看,我們在做事情的初期就需要有一個完整的目標定義,Lot設備的應用場景考量等等,這次綜合升級只是考慮了單一的行政場景,解決的是咨詢類的問題,因此設計的鏈路也是單一且淺薄的。但是產品的發展一定是要向商業化邁步的,比如:熱門的導購場景,與淘系新零售的戰役契合,結合淘寶生態配合多種垂直行業,機器人作為智能客服出現在售前、售中、售后的服務等等。
設計也需要在每個場景中分別做出判斷,行業通用的部分沉淀,以及行業特性的個性化設計思考,都是需要不斷的去嘗試和打磨的。而智能互動設備作為一種趨勢,也是設計師去發揮所長的沃土。
「如何設計出優秀的智能產品」
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
標志設計標準教程
已累計誕生 729 位幸運星
發表評論 為下方 1 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓