AB測(cè)試的好處相信每個(gè)互聯(lián)網(wǎng)從業(yè)者多少應(yīng)該都知道,簡(jiǎn)單的說(shuō)就是設(shè)置幾組不同方案比較,通過(guò)上線后的數(shù)據(jù)判斷哪個(gè)效果好。操作方式看著很簡(jiǎn)單,但想要做一個(gè)可靠有效的AB測(cè)試并不是這么簡(jiǎn)單,只有掌握一定的實(shí)驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)學(xué)知識(shí)才可能完成一個(gè)有效的AB測(cè)試。接下來(lái)就從實(shí)驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)這兩方面講解如何有效的做AB測(cè)試。
在電商做用研經(jīng)常會(huì)接到交互或設(shè)計(jì)關(guān)于想知道用戶喜歡哪個(gè)的靈魂提問(wèn),面對(duì)這樣的問(wèn)題用研大部分時(shí)候通過(guò)訪談讓用戶表達(dá)偏好,可現(xiàn)實(shí)是用戶說(shuō)的和心里想并不一樣,這就要求在訪談的時(shí)候不能只關(guān)注用戶說(shuō)喜歡哪個(gè),要去深挖背后原因、該場(chǎng)景的心理模型、排除額外因素影響等等。因此,要回答這樣一個(gè)問(wèn)題往往至少要8個(gè)以上用戶,對(duì)用戶各種回答總結(jié)分析才能得到相對(duì)客觀可用的結(jié)論,看似簡(jiǎn)單的提問(wèn)在實(shí)際操作中成本其實(shí)很高。其實(shí)除了訪談外,我們還可以借助眼動(dòng)儀、腦電等儀器和內(nèi)隱實(shí)驗(yàn)測(cè)試了解用戶真實(shí)的反應(yīng),不過(guò)這些總歸是在成本和效率不能適應(yīng)快節(jié)奏的要求。
AB測(cè)試能很好的解決這些問(wèn)題,不僅“見(jiàn)效快,而且療效好”。AB測(cè)試的好處相信每個(gè)互聯(lián)網(wǎng)從業(yè)者多少應(yīng)該都知道,簡(jiǎn)單的說(shuō)就是設(shè)置幾組不同方案比較,通過(guò)上線后的數(shù)據(jù)判斷哪個(gè)效果好。操作方式看著很簡(jiǎn)單,但想要做一個(gè)可靠有效的AB測(cè)試并不是這么簡(jiǎn)單,只有掌握一定的實(shí)驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)學(xué)知識(shí)才可能完成一個(gè)有效的AB測(cè)試。當(dāng)然開(kāi)發(fā)埋點(diǎn)等這些資源也很重要,但不是本文做討論。接下來(lái)就從實(shí)驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)這兩方面講解如何有效的做AB測(cè)試。
AB測(cè)試嚴(yán)格的說(shuō)是一種相對(duì)簡(jiǎn)單的實(shí)驗(yàn)研究。實(shí)驗(yàn)研究是人為地創(chuàng)設(shè)一定的情境,從而操縱或控制變量變,基本目的在于解釋變量之間的因果關(guān)系,即回答“為什么”的問(wèn)題。實(shí)驗(yàn)研究有嚴(yán)格的研究設(shè)計(jì),包括樣本選擇、研究的情境和方式、實(shí)驗(yàn)程序、設(shè)計(jì)方法等等,以保證實(shí)驗(yàn)結(jié)果的科學(xué)性。因此,對(duì)于AB測(cè)試要保證實(shí)驗(yàn)效果,同樣需要對(duì)實(shí)驗(yàn)關(guān)鍵要素做好把控才能獲得準(zhǔn)確的結(jié)論。不過(guò),AB測(cè)試畢竟是線上進(jìn)行的快速驗(yàn)證實(shí)驗(yàn),在有些地方是不可能與實(shí)驗(yàn)室研究相一致的,我們這里只關(guān)注實(shí)驗(yàn)的樣本選擇和設(shè)計(jì)方法。
樣本確認(rèn)從準(zhǔn)確性和數(shù)量?jī)蓚€(gè)方面入手,準(zhǔn)確性是指針對(duì)實(shí)驗(yàn)?zāi)繕?biāo)群體的圈選,數(shù)量則是實(shí)驗(yàn)最低選擇的樣本數(shù)量。大多數(shù)情況下,我們?cè)谶M(jìn)行AB測(cè)試時(shí)是在某個(gè)具體場(chǎng)景下進(jìn)行的,在群體圈選上也都是在該場(chǎng)景下隨機(jī)選擇一定樣本給予不同處理,這種情況下樣本的準(zhǔn)確性基本可以不用考慮了,不會(huì)出現(xiàn)偏差。因此樣本選擇的重點(diǎn)就是在數(shù)量的控制上,落到線上的實(shí)驗(yàn)就是流量的分配上。我們的目標(biāo)是希望盡快完成測(cè)試獲得結(jié)論做決策,另外就是希望收益最大化,所以我們?cè)诹髁糠峙鋾r(shí)要有所權(quán)衡,區(qū)分以下幾種情況:
- 不影響用戶體驗(yàn)類(lèi):這類(lèi)的實(shí)驗(yàn)一般只是在做感知層面的改動(dòng),不會(huì)造成嚴(yán)重的用戶障礙,比如UI實(shí)驗(yàn)、文案類(lèi)測(cè)驗(yàn)等,這類(lèi)的測(cè)試可以均勻分配流量,可快速達(dá)到想要的效果;
- 不確定性強(qiáng)的實(shí)驗(yàn):這類(lèi)實(shí)驗(yàn)主要是在操作或流程上有較大變動(dòng),會(huì)因?yàn)榕c現(xiàn)有用戶習(xí)慣存在差異可能導(dǎo)致較大的數(shù)據(jù)波動(dòng),比如產(chǎn)品新功能或新版本上線,這類(lèi)實(shí)驗(yàn)一般需要小流量實(shí)驗(yàn),在允許的時(shí)間范圍內(nèi)得到結(jié)論;
- 希望收益最大化的實(shí)驗(yàn):這類(lèi)實(shí)驗(yàn)大部分多數(shù)有較確定的方向或手段,只是無(wú)法確定哪個(gè)方向和手段的效果更好,比如運(yùn)營(yíng)活動(dòng)等,這時(shí)應(yīng)盡可能將效果最大化,一般分配較大流量,預(yù)留小部分做對(duì)照組評(píng)估ROI即可;
根據(jù)實(shí)驗(yàn)的假設(shè)和預(yù)期,實(shí)驗(yàn)的用戶量可以通過(guò)統(tǒng)計(jì)檢驗(yàn)的公式去推算最小用戶量是多少,根據(jù)要檢驗(yàn)的變量水平不同使用不同的檢驗(yàn)公式。下面這個(gè)公式是根據(jù)實(shí)驗(yàn)?zāi)繕?biāo)計(jì)算樣本量的:
其中,Zα/2 和 Zβ可以通過(guò)查表求得,根據(jù)檢驗(yàn)樣本所服從的分布不同去查找相應(yīng)的表格,我們多數(shù)用的是T檢驗(yàn)和卡方檢驗(yàn)。S是樣本標(biāo)準(zhǔn)差,即我們要做檢驗(yàn)的那群樣本的標(biāo)準(zhǔn)差。 (μx - μ0)是我們要檢驗(yàn)的差值,其中μx可以理解為要測(cè)試的那群樣本均值,μ0是測(cè)試目標(biāo)要達(dá)到的均值。我們根據(jù)自己有的數(shù)據(jù)帶入公式就能計(jì)算出所需樣本量了。
其實(shí)我們可以通過(guò)一個(gè)專門(mén)的網(wǎng)站來(lái)計(jì)算所需要的樣本量,這里又分為兩種情況,一種是比率型的數(shù)據(jù)驗(yàn)證,一種是數(shù)值型的驗(yàn)證:比率型的數(shù)據(jù),包括轉(zhuǎn)化率、留存率、點(diǎn)擊率等都是可以的。以轉(zhuǎn)化率為例,某個(gè)頁(yè)面的轉(zhuǎn)化率為11.8%,預(yù)期改動(dòng)后能提升0.2pp,網(wǎng)站計(jì)算出來(lái)的最小樣本量是67.8W,如果頁(yè)面每天的流量是20W,那至少要4天以上的時(shí)間才能驗(yàn)證實(shí)驗(yàn)結(jié)論。這里要注意預(yù)期提升效果的設(shè)定,為了保證實(shí)驗(yàn)?zāi)苡薪Y(jié)果,這里可以低估,不可高估,因?yàn)楦吖篮蟮臉颖拘枨罅繒?huì)極劇縮小,會(huì)嚴(yán)重影響實(shí)驗(yàn)結(jié)果。
數(shù)值型的數(shù)據(jù),比如人均時(shí)長(zhǎng)、客單價(jià)等。數(shù)值型的會(huì)更復(fù)雜一些,需要用T檢驗(yàn),這里需要們多次嘗試計(jì)算樣本量,這里其實(shí)還是需要用到公式里面的值,需要將對(duì)比的平均數(shù)、標(biāo)準(zhǔn)差填到工具中,平均數(shù)我們分別填寫(xiě)當(dāng)前的數(shù)據(jù)和預(yù)期的數(shù)據(jù),圖中我填寫(xiě)的左邊是11秒,右面填寫(xiě)預(yù)期是12.5秒。標(biāo)準(zhǔn)差這里則都填寫(xiě)大盤(pán)的標(biāo)準(zhǔn)差,也就是公式里面的S。樣本量上左邊填寫(xiě)大盤(pán)的每日樣本數(shù),右邊就需要進(jìn)行嘗試變動(dòng),直到下方顯著變化時(shí)就是最小樣本數(shù)。
確定樣本量后,其實(shí)只是確定需要投入的時(shí)間,影響實(shí)驗(yàn)效果和結(jié)論的是我們?nèi)绾稳ピO(shè)置實(shí)驗(yàn)方案。這里我們從三個(gè)變量講解如何設(shè)計(jì)好一個(gè)實(shí)驗(yàn)。
首先是因變量的確定。很多情況下做測(cè)試我們沒(méi)有真正搞清楚要驗(yàn)證的目標(biāo)變量是什么,只是提出一個(gè)設(shè)想就開(kāi)始了測(cè)試,而拿到數(shù)據(jù)不知道怎么分析驗(yàn)證了。比如,某會(huì)場(chǎng)目標(biāo)是分流,交互和設(shè)計(jì)側(cè)也做了很多策略,但上線拿到數(shù)據(jù)后卻不知如何下手分析了,不知道“分流”該怎么去評(píng)判。其實(shí)問(wèn)題就出在沒(méi)有事先將目標(biāo)和數(shù)據(jù)變量關(guān)系理清楚。那怎么去解決這個(gè)問(wèn)題呢?這里采用一個(gè)定義和一個(gè)模型來(lái)完成因變量的確定。
一個(gè)定義是“操作性定義”,它是指可以一個(gè)概念由測(cè)定他的程序來(lái)下定義。例如,上面提到的“分流”,測(cè)定方式是有多少流量進(jìn)入到了二級(jí)頁(yè)面,多少流量進(jìn)入二級(jí)頁(yè)面這個(gè)指標(biāo)就是頁(yè)面的點(diǎn)擊率,點(diǎn)擊率越高說(shuō)明分流的效果就越好。那我們?cè)谠O(shè)計(jì)實(shí)驗(yàn)和驗(yàn)證效果的時(shí)候就可以從提升點(diǎn)擊率上入手。
一個(gè)模型是“GSM”模型,分別是目標(biāo)(Goal)、信號(hào)(Signal)和測(cè)量(Metirc)。根據(jù)模型我們通過(guò)目標(biāo)對(duì)應(yīng)到用戶或者產(chǎn)品會(huì)出現(xiàn)的信號(hào),這個(gè)信號(hào)對(duì)應(yīng)某些用戶和產(chǎn)品的行為現(xiàn)象,而這個(gè)行為現(xiàn)象的出現(xiàn)就有一定的測(cè)量指標(biāo)反應(yīng)出來(lái)。還是用“分流”的例子,頁(yè)面分流效果增加這個(gè)是目標(biāo),這個(gè)目標(biāo)下用戶會(huì)更多的去到其他分會(huì)場(chǎng)或者子頁(yè)面,這個(gè)用戶的行為現(xiàn)象就對(duì)應(yīng)了每個(gè)坑位的點(diǎn)擊會(huì)更多,相應(yīng)的就是點(diǎn)擊率的提高。
確定完因變量,接著就是自變量操縱了。自變量簡(jiǎn)單來(lái)說(shuō)就是咱們做ab測(cè)試中要改變的那個(gè)因素,可以是交互方式、頁(yè)面設(shè)計(jì)、新功能等等。自變量在理解上沒(méi)什么問(wèn)題,但我們會(huì)遇到自變量操縱程度和數(shù)量上的錯(cuò)誤。操縱程度是指有些變量變化幅度不夠,不能引起因變量的改變。比如,通過(guò)改變字體大小去提升用戶點(diǎn)擊,如果大小變化不夠是無(wú)法引起用戶注意的,自然也不會(huì)有想要的實(shí)驗(yàn)結(jié)果。自變量數(shù)量是指同時(shí)改變幾個(gè)影響變量,如通過(guò)字體顏色和利益點(diǎn)共同去提升點(diǎn)擊,其中的字體顏色和利益點(diǎn)就是2個(gè)變量,而這兩個(gè)變量怎么搭配就需要根據(jù)變量的水平數(shù)和實(shí)驗(yàn)方式去設(shè)計(jì),不同的實(shí)驗(yàn)設(shè)計(jì)又對(duì)應(yīng)著不同的統(tǒng)計(jì)處理方法,如果展開(kāi)又可以是一個(gè)復(fù)雜的篇幅。因此關(guān)于自變量個(gè)數(shù),我們最好就只設(shè)置一個(gè)變量,這樣得到的結(jié)論會(huì)更有說(shuō)服力。至于其他變量的控制,就是接下來(lái)要說(shuō)的額外變量了。
最后要講的額外變量的控制,這個(gè)往往是容易被忽視但也是最難的部分。我們?cè)谧鯝B測(cè)試的時(shí)候都有意識(shí)的把出了自變量以外的影響因素給控制好,可有時(shí)等到數(shù)據(jù)收回來(lái)才發(fā)現(xiàn)有些額外的因素影響或者有些因素根本沒(méi)能力去控制。這個(gè)時(shí)候我們要掌握常用的幾種額外變量處理手段,以達(dá)到純粹的測(cè)試目標(biāo)。
第一種是“消除法”,即把額外變量排除出去。例如,我們實(shí)驗(yàn)測(cè)試遇到大促,而大促對(duì)頁(yè)面點(diǎn)擊轉(zhuǎn)化都會(huì)有很大影響,這個(gè)時(shí)候就要考慮避開(kāi),將大促影響排除。
第二種是“恒定法”,即使額外變量在實(shí)驗(yàn)中保持恒定不變。例如,我們打算對(duì)比不同的樓層查看方式對(duì)點(diǎn)擊轉(zhuǎn)化的影響,其中坑位數(shù)量是一個(gè)額外的影響因素,這個(gè)是時(shí)候我們就要保證用戶在不同組上看到的商品坑位數(shù)是一樣的,即保持額外因素的恒定。
第三種是“統(tǒng)計(jì)控制法”,就通過(guò)一定的統(tǒng)計(jì)學(xué)手段排除額外變量的干擾。比如在大促期間做測(cè)試,必然會(huì)因?yàn)槊磕甏蟠偻度胭Y源影響對(duì)比,這個(gè)時(shí)候可以通過(guò)回歸或者協(xié)方差分析的方法排除一下每年大促增長(zhǎng)對(duì)實(shí)驗(yàn)頁(yè)面數(shù)據(jù)影響。當(dāng)然除了以上3種外還有一些實(shí)驗(yàn)設(shè)計(jì)的方式去排除額外變量影響,這個(gè)方法就是配合自變量提前做好實(shí)驗(yàn)設(shè)計(jì)即可。
最后來(lái)總結(jié)一下,做好一個(gè)AB測(cè)試主要從2方面入手:一是樣本確認(rèn),確定測(cè)試最小的樣本數(shù),保證實(shí)驗(yàn)驗(yàn)證效果;二是實(shí)驗(yàn)設(shè)計(jì),分別從因變量的確定、自變量的操控和額外變量的控制做好設(shè)計(jì)。以上這些就是如何做好AB測(cè)試前期設(shè)計(jì)的要點(diǎn),后面我們還要對(duì)不同設(shè)計(jì)做數(shù)據(jù)分析和效果檢驗(yàn),要知道如何設(shè)計(jì)多變量的方案,如何選擇合適的統(tǒng)計(jì)分析方法,如何計(jì)算測(cè)試ROI等問(wèn)題,如果這篇文章大家反饋比較多的話,下期再繼續(xù)分享實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)分析方法的問(wèn)題。
歡迎關(guān)注「京東設(shè)計(jì)中心JDC」的微信公眾號(hào):
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 729 位幸運(yùn)星
發(fā)表評(píng)論 為下方 1 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓