你也是半個心理學家

我之前反復提過,我們體驗設計現在的主流研究方法大部分從社會學或者心理學里移植而來,而可用性測試就直接脫胎于認知心理學的看家研究方法“實驗法”。假如有讀者小時候上幼兒園的職業理想曾經是“做實驗、當科學家”,那么恭喜你,當設計師會做可用性測試,某種程度上也算是部分實現了你當年的心愿。先給自己一點鼓勵。

可用性測試方法

認知心理學的基本思路是把人的心理活動理解成一套像精密機械一樣的信息加工系統,里面的各個零件可以拆開來各自研究的:比如人的注意力、記憶,或者某種感受。它有許多的研究內容都是很微觀的概念和現象,這些(短期)現象發生得非常快、并且在自然環境下受各種因素影響干擾,很難測量。因此為了在現象或概念間建立有力的因果關系,認知心理學作為橫跨社科和自然科學兩個領域的一門學科,向自然科學取經從而發展出了很成熟的控制實驗技術(包括咱們比較常見的眼動儀實驗)。這個方法后來輻射到了各個其他社會學科中,又誕生了“實地實驗”(field experiments,自然實驗/社會實驗)的說法,其思路很像我們今天經常做的 AB test。

還是拿我們上篇文章的“可愛小貓論”作案例,假設你是一個很有才華的心理學家,發現小貓可愛程度會影響人的身心健康,養越可愛的貓越有利于身心健康。你要如何證明這一點?

想做好可用性測試?5個人就夠了!

首先我們需要確定這個現象普遍廣泛存在,而不是僅僅存在在你這個貓奴身上的個例,因此一定需要通過定量的方法做驗證。

其次,在現實生活中能對人的身心健康產生影響的東西太多了,比如這個月老板老給你穿小鞋,導致你身心受到了巨大打擊;下個月你苦練搏擊,身心健康又增長不少,那么如何從這么多因素中抽離出貓咪對你的影響,而過濾職場/鍛煉/飲食等其他因素的影響?

最后,也許養貓和身心健康是有關系,但其實是身心健康較弱的人更不愿意養貓,而非反過來——如何能準確探究這兩個因素的關系?

答案是在實驗室環境下嚴格地控制變量,通過對實驗環境和環節的科學設置、對被試者情況的篩選和抽樣來確保得到精準的結果。比如你可以假設被試對貓的喜愛程度、貓的可愛度都可能影響實驗結果,所以你可以被試分成 4 個單元小組:不可愛的貓配不喜歡貓的人、可愛的貓配不喜歡貓的人、不可愛的貓配喜歡貓的人、可愛的貓配喜歡貓的人。

在測量了人的初始身心健康程度后,讓他們與貓呆 3 小時,然后再次測量人的身心健康程度。此外還需要配備一個對照組,這個組的人只能看 3 小時動畫片——這就是一個很簡單的小實驗。

想做好可用性測試?5個人就夠了!

由此可以看出控制實驗法和其他的研究方法相比,完全脫離了情境,所以實驗室內的結果是否可以推廣到實際生活中去,是需要打一個大大的問號的,但正因為如此,實驗法也為驗證因果關系創造了可能性。這一點也就是我之前在不要從“交互設計定理”入門交互設計中強調的。

說回到咱們的可用性測試,根據《人因學手冊》的說法,可用性測試在 80 年代初被提出后馬上在 80~90 年代風行于業界,影響了施樂(Xerox)、蘋果、IBM 等一代明星公司的產品評估流程。在可用性測試引進之初從業者仍然比較嚴格地遵守控制實驗的方法,對測試的環節設計、環境設置要求十分嚴格,是一種主要用于評估/對比設計方案的、定量的、脫離情景的手段。舉個例子,為了得到比較嚴謹的結果,可用性測試應該:

做預測試:在設計完實驗流程后需要先找一些被試,看看控制變量的手段是否有效

考慮組內實驗還是組間實驗:比如是找同一個用戶測試 3 組設計圖,還是 3 個不同的用戶每人測試 1 組設計圖

考慮實驗順序:假如找同一個用戶測試 3 組設計圖,那么先看哪個、后看哪個

……

此外,各個公司會為了可用性測試搭建專門的、昂貴的可用性實驗室。在實驗室環境下對用戶發布任務、進行測試,主要是為了規避噪音、燈光、外來人員打斷等干擾因素對實驗結果的影響。比如下圖就是一個典型的可用性測試實驗室。

想做好可用性測試?5個人就夠了!

發展與“5 個就夠了”

90 年代后隨著可用性測試相關的應用和研究快速發展,可用性測試的概念也從驗證性研究逐漸擴展到形成性的、探索性研究。對可用性測試的要求也遠遠沒 80 年代那么高了,到今天據我所知很多廠的用戶研究部門把可用性測試理解地很寬泛,只要和用戶有接觸、只要設置了任務,都可以勉強講是“可用性測試”。這樣做測試不再需要嚴格的實驗室環境與變量控制技術,反而更加偏向實地調研,讓用戶在自己熟悉的環境中完成任務。造成這個發展的原因其實有很多。

首先,軟件開發模式變了。70~80 年代盛行的瀑布流式開發,要求軟件的設計開發者一次性完全完成一個環節后,再邁入下一個環節。比如你做設計時,需要提前想好未來需要應對的所有場景,一次把幾千張設計圖全部交付開發,開發開始寫所有的頁面,寫完了這幾千張圖再上市。這種開發模式在 90 年代被敏捷開發或迭代開發逐漸替代,這要求設計者出一版能用的先做出來,根據用戶反饋再迭代之前的想法。因此,設計師對于快速定位設計問題的訴求大大提升,而可用性測試作為一種有用戶參與的評估方式(可能是唯一一種),可以滿足這種訴求。

其次,從調研目的的角度上來講,我們作為設計者說到底和科學家做的事兒是不同的。對于科學家來講研究概念之間的相互關系是有意義的,其最終的目的是形成一個具有解釋力的學說。但對于設計師來說我們需要選出更優的設計,但并不關心究竟是哪個變量導致了設計最優、變量之間相互的關系。比如你可能做了兩個稿子,A 稿紅色按鈕放右邊、B 稿橙色按鈕放左邊,最終用戶覺得 B 稿好,你的研究就結束了;而心理學家需要去思考到底是位置、顏色,還是別的什么因素影響了用戶的什么體驗,最終導致用戶的決策。

對控制變量的嚴格要求,最終導致做一場嚴格的控制實驗成本超高,除去復雜的控制變量帶來的成本以外,為了讓整個實驗可以使用統計學分析,一般會要求每個單元小組的樣本量大于 30——做學術也許可以不那么考慮成本,但企業總是會思考投入產出比。

想做好可用性測試?5個人就夠了!

比如 90 年代軟件業界就曾經把當時出現的專家啟發式評估、認知走查這些無需用戶參與、專家進行即可的方法當成可用性測試的廉價替代品。雖然后來被證實沒有方法可以替代用戶評估——專家走查出來的問題往往不是真實用戶遇到的問題,而往往是一些無傷大雅的小細節。

最后,90 年代尼爾森寫了一篇關于可用性測試樣本量的文章,極大地鼓舞了用可用性測試做探索性研究、尋找可用性問題的做法。這篇文章我最開從《用戶體驗度量》里讀到,我把這個理論叫“5 個就夠了”論。

想做好可用性測試?5個人就夠了!

尼爾森將此前為一些產品做的可用性測試與專家評估結果整理了一下,用一個泊松模型來預測參與可用性測試的用戶數或參與評估的專家數與最后找到的可用性問題的比例之間的關系,最終“發現 5 個用戶就能發現 83%的問題”。下面這張圖能看出來假如拆分了可用性測試和專家評估,那么可用性測試需要的人數稍微多一些,5 個用戶大約能發現 70%的問題。

想做好可用性測試?5個人就夠了!

現在看來尼爾森這個模建得說不上多么精細。注意這個圖里的因變量是百分比,“1”代表“所有被發現的問題”,而不代表“本系統所有可能存在的問題”,所以尼爾森這個結論正確的解讀方式是,假設他們測試了 20 個用戶最終發現了 10 個問題,那么 5 個用戶就能發現其中 8 個問題。

這種問題的重疊很有可能是因為對用戶的不當抽樣帶來的。比如我們現在很多系統存在不同的用戶角色與用戶場景,用戶個體的技能水平也有差異,因此不同用戶組的關注點、問題點可能都是不一樣的,很可能這一組用戶找不到另外一組的問題,這一點在《用戶體驗度量》也有所說明。

后來尼爾森在他公司的網站上對“5 個就夠了”論做出了補充,當前版本的可用性測試結合了設計迭代的動作,更偏向定性的、個案研究的思路。按他現在的話來講,可用性測試這個事情應該多次多輪的進行:首先選取 5 個人可用性測試-然后馬上對設計進行修改和迭代-再找另外 5 個人重復進行可用性測試,看看他們有沒有新的觀點,如此多輪往復,最終打磨出一版好設計。

對尼爾森這套想法感興趣的看這里: https://www.nngroup.com/videos

怎么做更好

我們總結一下:假如你不太熟悉可用性測試的發展脈絡,那可能會對這個東西有點犯迷糊:一會要設置任務,一會要發問卷,一會又要觀察用戶的動作;一會 5 個就夠了,一會又要多找幾個人。簡單來講:

假如你做可用性測試是為了發現問題,5 個人夠了。雖然要設置任務但不需要太嚴謹,以快取勝;假如你做可用性測試是為了對比方案/評估方案的優劣程度,5 個人不夠。嚴格來說每個組至少 30 人,但我們畢竟不做學術,少一點也勉強可接受。雖然今天已經基本不做嚴格的實驗設計,但應該盡量減少對用戶的言語干擾、指導,讓用戶自由體驗產品。

最后關于樣本量的事情我再多說兩句。雖然調研的用戶數量是一個困擾大部分設計師的問題,但根據我個人的經驗來看,可用性測試是“多做比少做好,但做了一定比不做好”的一件事。對上線前的飛機稿來說,即使你只找 1 個用戶看了你的設計,甚至你只找同事看了一眼你的設計,都會比你閉門造車要更好。不要懼怕做體驗調研,也不要認為非要花多大代價才算在做體驗調研。

歡迎關注作者微信公眾號:「白話說交互」

想做好可用性測試?5個人就夠了!

收藏 25
點贊 10

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。