2012年,微軟的一位Bing的工程師想改變廣告標(biāo)題在Bing的搜索結(jié)果中的展現(xiàn)方式。實(shí)現(xiàn)這個(gè)想法只需要幾行代碼,但是它被淹沒在成百上千的新提議中,沒有受到重視。直到6個(gè)月后,一名工程師重拾了這個(gè)“遺珠”,在Bing上測試了一個(gè)實(shí)驗(yàn)——A/B Test。通過A/B Test,一部分的用戶可以看到改變后的廣告展示方式,而另一部分用戶看到的界面保持原樣不變,以此測試效果。驚人的是,幾小時(shí)內(nèi)新的廣告展示方式就產(chǎn)生了極高的廣告收入,高到監(jiān)測系統(tǒng)誤認(rèn)為這是一個(gè)程序內(nèi)的bug。這個(gè)小小的改變,成功將Bing的收益提高了12%,即每年1億美金??芍^是Bing史上最厲害的賺錢點(diǎn)子了。
Bing的這個(gè)例子告訴我們,一一測試所有的新點(diǎn)子,絕對是一件大工程。但是人們也開始意識到,如果同時(shí)進(jìn)行多個(gè)版本簡單的測試,性價(jià)比極高。
時(shí)至今日,Microsoft,Amazon,Booking.com,F(xiàn)acebook,和Google,這樣的大體量互聯(lián)網(wǎng)公司每年進(jìn)行的實(shí)驗(yàn)高達(dá)上萬個(gè),測試幾百萬用戶的行為。而初創(chuàng)公司,和對互聯(lián)網(wǎng)依賴程度較低的公司,像Walmart,租車公司,航空公司,也會定期進(jìn)行小規(guī)模測試。因?yàn)闆Q策者們普遍發(fā)現(xiàn),“測試一切”的方法能為公司帶來極大回報(bào)。對Bing來說,A/B測試每月成功地幫助公司敲定了和數(shù)十個(gè)收益相關(guān)的改動,這些改動每年將Bing每次搜索的收益增加了10%-25%。
除此以外,A/B測試也對提升用戶滿意度做出了巨大貢獻(xiàn)。每月數(shù)以百計(jì)的改動,不僅提高了Bing的獲利能力,還將Bing在美國搜索引擎的市場占有率,從初創(chuàng)時(shí)的8%提高至23%。
在這個(gè)網(wǎng)絡(luò)對所有行業(yè)都至關(guān)重要的時(shí)代,嚴(yán)格的在線測試應(yīng)該成為企業(yè)標(biāo)準(zhǔn)操作程序中的一環(huán)。除了網(wǎng)站,A/B測試還能方便快捷地評估商業(yè)模型,企業(yè)決策,產(chǎn)品,服務(wù),營銷活動等不同方面。有了A/B測試,企業(yè)決策的過程變得更科學(xué),告別了依賴直覺,拍腦袋做決定的時(shí)代。但是遺憾的是,很多企業(yè)并不知道如何科學(xué)合理地進(jìn)行測試,或者測試的次數(shù)遠(yuǎn)遠(yuǎn)不夠。
今天我們來看看,如何合理地設(shè)計(jì)、執(zhí)行測試,解讀測試結(jié)果,解決可能的問題。利用文中的例子,舉一反三,你就可以從容應(yīng)對更復(fù)雜的A/B測試。
A/B測試的價(jià)值
A/B測試中,實(shí)驗(yàn)設(shè)計(jì)人員會設(shè)計(jì)兩個(gè)版本的實(shí)驗(yàn)。
A:控制版,通常是已有系統(tǒng),假設(shè)為成功版。
B:實(shí)驗(yàn)版,經(jīng)過改動的版本,借以挑戰(zhàn)現(xiàn)存的成功版。
隨機(jī)分配不同版本給用戶體驗(yàn),并比較兩個(gè)版本的關(guān)鍵性指標(biāo)(單變量測試:比較A/B/C,和A/B/C/D版本。多變量測試:同時(shí)評估多個(gè)變量的不同版本)。不同版本的變量,可以是新功能的增加,用戶界面的更改(例如新的排版),后端的改動(例如改進(jìn)亞馬遜書籍推薦的算法)或不同商業(yè)模型的測試(例如提供免費(fèi)送貨)。對于決策者關(guān)心的,企業(yè)運(yùn)營中的各個(gè)環(huán)節(jié)(比如:銷售量,重復(fù)使用率,點(diǎn)擊率或用戶在頁面停留的時(shí)間),都可以通過線上A/B測試來對其進(jìn)行優(yōu)化。
任何擁有上千日活(Daily Active User)的公司都能實(shí)行A/B測試。通過A/B測試,公司能獲取大量用戶樣本、自動收集網(wǎng)站和APP上大量用戶交互數(shù)據(jù)、以及同時(shí)運(yùn)行多個(gè)版本測試,從而快速精準(zhǔn),低成本地評估許多實(shí)驗(yàn),達(dá)到系統(tǒng)的快速迭代,企業(yè)發(fā)展的迅速轉(zhuǎn)向。在今天,許多科技公司意識到了A/B測試的優(yōu)點(diǎn),這些公司有一個(gè)單獨(dú)的團(tuán)隊(duì)負(fù)責(zé)構(gòu)建、管理和改進(jìn)測試架構(gòu)的工作,為產(chǎn)品組提供服務(wù)。合理利用A/B測試,會為公司提供極大的競爭優(yōu)勢。
1.小改變可能有大影響
一個(gè)常見的商業(yè)誤區(qū)是:只有大投入才會產(chǎn)生大影響。但在互聯(lián)網(wǎng)世界并非如此,成功更多源于很多正確的小改變。雖然商業(yè)世界更推崇大的、顛覆性的想法,實(shí)際上,大多數(shù)成功都是通過累積成百上千的小改進(jìn)來實(shí)現(xiàn)的。
再來看一個(gè)Microsoft微軟的例子,2008年,一名英國的微軟員工提出了一個(gè)看似很小的建議:當(dāng)用戶點(diǎn)擊MSN主頁上的Hotmail鏈接時(shí),自動為Hotmail打開一個(gè)新窗口,而不是在同一個(gè)頁面上跳轉(zhuǎn)至Hotmail。通過在90萬英國用戶中進(jìn)行了測試,微軟發(fā)現(xiàn)了一個(gè)激動人心的結(jié)果:通過MSN主頁打開Hotmail的用戶量增加了8.9%。然而,大家對這個(gè)改變眾說紛紜,因?yàn)楫?dāng)時(shí)幾乎不會有網(wǎng)站會在新的標(biāo)簽頁上打開鏈接,所以微軟只在英國采取了這個(gè)小小的改變。
2010年6月,Microsoft微軟對270萬美國用戶進(jìn)行了同樣的實(shí)驗(yàn),獲得了類似的結(jié)果,因此微軟開始在全球推行這項(xiàng)改變。除此以外,微軟還探尋了此項(xiàng)改變是否能同樣作用于其他功能上。在一項(xiàng)針對美國1200萬用戶的測試中,微軟發(fā)現(xiàn),通過在新的標(biāo)簽頁上展現(xiàn)用戶在MSN的搜索結(jié)果,用戶點(diǎn)擊量增加了5%。新標(biāo)簽中打開鏈接是一個(gè)極易實(shí)現(xiàn)的改變,只需幾行代碼,使這成為了微軟提高用戶參與度的最佳方法之一。除了Microsoft微軟,F(xiàn)acebook臉書、Twitter推特等在內(nèi)的許多網(wǎng)站至今都在使用這項(xiàng)技術(shù)。
微軟的例子并非獨(dú)一無二。亞馬遜在測試中發(fā)現(xiàn),將信用卡優(yōu)惠活動從網(wǎng)站主頁移到購物車頁面,每年可增加數(shù)千萬美元的利潤。
這些公司的經(jīng)驗(yàn)說明,小投資可以產(chǎn)生大回報(bào)。然而,大投資可能只很產(chǎn)生很少,甚至0回報(bào)。比如微軟曾花費(fèi)超過2500萬美元,將Bing必應(yīng)與社交媒體一體化——在搜索結(jié)果頁面的第三窗格內(nèi)展示Facebook和Twitter的相關(guān)內(nèi)容,但此舉在用戶參與度和收入方面產(chǎn)生的影響微乎其微。
2.實(shí)驗(yàn)可以引導(dǎo)投資決策
線上測試可以幫助決策者了解對于潛在改進(jìn)的理想投資數(shù)額。舉個(gè)例子,微軟曾面臨一個(gè)問題:如何縮短Bing顯示搜索結(jié)果所需時(shí)間。當(dāng)然,結(jié)果顯示肯定是越快越好。但是公司該如何量化提高搜索速度所帶來的價(jià)值呢?團(tuán)隊(duì)?wèi)?yīng)該用3個(gè)人、10個(gè)人還是50個(gè)人來提升性能呢?為了解決這些問題,微軟進(jìn)行了一系列的A/B測試:通過為搜索速度添加人為延遲,研究了加載速度的細(xì)微差異所產(chǎn)生的影響。數(shù)據(jù)表明,每100毫秒加載速度差異對公司收益的影響為0.6%。與此同時(shí),Bing必應(yīng)的年收益已經(jīng)超過30億美元,那么每100毫秒的提速就能增加1800萬美元的年收入——足以維持一個(gè)規(guī)??捎^的團(tuán)隊(duì)運(yùn)作。
A/B測試結(jié)果也幫助了必應(yīng)Bing權(quán)衡重要商業(yè)決策,尤其是那些可能提高搜索結(jié)果相關(guān)性,但會減慢軟件響應(yīng)速度的功能。為了避免多個(gè)小改動累積導(dǎo)致的顯著性能下降,Bing會在團(tuán)隊(duì)改良搜索引擎和其他組件性能后,再上線會降低響應(yīng)速度毫秒或以上的新功能。
大浪淘沙始見金
早在100年以前,百貨公司老板John Wanamaker就有一句營銷名言:“我在廣告上的投入有一半都是浪費(fèi),但我不知道是哪一半?!边@句話同樣適用于A/B測試,因?yàn)榻^大部分試圖超越已有版本的新實(shí)驗(yàn)都會以失敗告終,即使是專家也經(jīng)常錯(cuò)誤地估計(jì)實(shí)驗(yàn)結(jié)果。在Google和Bing,只有10%~20%的測試會有積極成果。在Microsoft,1/3的測試有積極影響,1/3的有負(fù)面影響,還有1/3沒有產(chǎn)生影響。這就像青蛙王子的故事,想要發(fā)現(xiàn)好點(diǎn)子,公司需要親吻很多青蛙(進(jìn)行大量的實(shí)驗(yàn))才能找到王子。
A/B測試極易被錯(cuò)誤使用
正式進(jìn)行A/B測試之前,團(tuán)隊(duì)?wèi)?yīng)該確保測試版本既不會降低性能,也不會產(chǎn)生意料之外的結(jié)果。在必應(yīng)Bing,除了一些低風(fēng)險(xiǎn)的bug修復(fù)和硬件類操作系統(tǒng)升級,其余80%的改動會首先以控制變量的實(shí)驗(yàn)方式進(jìn)行。
大部分的科學(xué)測試的基礎(chǔ)框架都需要以下幾項(xiàng):記錄工具(記錄例如用戶點(diǎn)擊、鼠標(biāo)懸停和事件時(shí)間等數(shù)據(jù))、數(shù)據(jù)流和專業(yè)的數(shù)據(jù)科學(xué)家。隨著A/B測試的發(fā)展和普及,網(wǎng)絡(luò)上出現(xiàn)了一些針對A/B測試的第三方工具和服務(wù)。但如果企業(yè)有大規(guī)模測試的需求,第三方工具和服務(wù)很難勝任。穩(wěn)定的基礎(chǔ)框架能降低每次的實(shí)驗(yàn)成本,并提高實(shí)驗(yàn)結(jié)果可靠性。相反,如果基礎(chǔ)框架缺失,企業(yè)測試的成本會居高不下,從而導(dǎo)致決策者不愿進(jìn)一步投入,或進(jìn)行更多試驗(yàn)。
微軟的A/B測試基礎(chǔ)架構(gòu)就是一個(gè)優(yōu)秀范例:Microsoft的分析實(shí)驗(yàn)團(tuán)隊(duì)有80多人,每天可以實(shí)行數(shù)以百計(jì)的產(chǎn)品在線對照試驗(yàn)(包括Bing,Cortana,Exchange,MSN,Office,Skype,Windows和Xbox等各種產(chǎn)品)。每次測試會有數(shù)十萬至千萬用戶參與試用新改動,團(tuán)隊(duì)對測試結(jié)果進(jìn)行嚴(yán)密的統(tǒng)計(jì)分析,并自動生成記分板,一一檢查幾百到上千個(gè)指標(biāo)后,標(biāo)記那些成效顯著的改動。(當(dāng)然如果你的企業(yè)規(guī)模較小,或?qū)?shí)驗(yàn)依賴度較低,實(shí)驗(yàn)團(tuán)隊(duì)投入可以降低)
3.三種企業(yè)常見的實(shí)驗(yàn)團(tuán)隊(duì)人員結(jié)構(gòu):
1.集中型(Centralized model)
集中型結(jié)構(gòu)意味著會有一組數(shù)據(jù)科學(xué)家為整個(gè)公司服務(wù)。這種結(jié)構(gòu)的優(yōu)點(diǎn)是,實(shí)驗(yàn)組人員可以持續(xù)關(guān)注長期項(xiàng)目,比如設(shè)計(jì)更好的實(shí)驗(yàn)工具和開發(fā)更先進(jìn)的統(tǒng)計(jì)算法。但一大缺點(diǎn)是,一個(gè)實(shí)驗(yàn)組在服務(wù)所有產(chǎn)品組時(shí),會對實(shí)驗(yàn)任務(wù)有不同的優(yōu)先級,這可能導(dǎo)致各組之間資源和成本分配的沖突。另一個(gè)問題是,當(dāng)數(shù)據(jù)科學(xué)家著手商業(yè)項(xiàng)目時(shí),可能會因?yàn)槿狈I(yè)知識和商業(yè)經(jīng)驗(yàn)而難以將實(shí)驗(yàn)結(jié)果關(guān)聯(lián)起來,更難看到結(jié)果背后的關(guān)鍵點(diǎn)。除此以外,數(shù)據(jù)科學(xué)家的身份可能缺乏影響力,無法說服決策層相信實(shí)驗(yàn)結(jié)果或者為技術(shù)投資。
2.分離型(Decentralized model)
分離型結(jié)構(gòu)是企業(yè)為不同的業(yè)務(wù)部門配置數(shù)據(jù)科學(xué)家。這種的優(yōu)點(diǎn)是,數(shù)據(jù)科學(xué)家可以成為其負(fù)責(zé)業(yè)務(wù)領(lǐng)域的專家。但缺點(diǎn)也很明顯:對于員工而言,只為一個(gè)業(yè)務(wù)部門工作,數(shù)據(jù)科學(xué)家未來的職業(yè)道路并不明朗,同時(shí)也會缺乏同事的反饋和指導(dǎo)。而對于實(shí)驗(yàn)而言,只針對單個(gè)部門的實(shí)驗(yàn)可能不足以證明改動提案的合理性。
3.衛(wèi)星型(Center-of-excellence model)
衛(wèi)星型是讓一些數(shù)據(jù)科學(xué)家成為團(tuán)隊(duì),集中工作,剩余的數(shù)據(jù)科學(xué)家分散在不同的業(yè)務(wù)部門(微軟采用的結(jié)構(gòu))。團(tuán)隊(duì)中心主要負(fù)責(zé)對照實(shí)驗(yàn)的設(shè)計(jì)、執(zhí)行和結(jié)果分析。有了團(tuán)隊(duì)統(tǒng)一為公司構(gòu)建的實(shí)驗(yàn)平臺和實(shí)驗(yàn)工具,企業(yè)可以顯著降低A/B測試所需的時(shí)間和資源。除此以外,團(tuán)隊(duì)還能基于優(yōu)秀實(shí)驗(yàn)開設(shè)課程,舉辦Lab和會議,在全公司范圍推廣。衛(wèi)星型結(jié)構(gòu)的主要的缺點(diǎn)是,中心團(tuán)隊(duì)和產(chǎn)品團(tuán)隊(duì)的責(zé)任劃分可能并不明晰,比如當(dāng)需要增加測試數(shù)量時(shí),哪個(gè)團(tuán)隊(duì)?wèi)?yīng)為招聘更多的數(shù)據(jù)科學(xué)家來買單呢?
實(shí)驗(yàn)團(tuán)隊(duì)結(jié)構(gòu)的好壞不是絕對的非黑即白。小公司一般會使用第三方服務(wù),或者從集中型結(jié)構(gòu)起步。待公司發(fā)展壯大后,轉(zhuǎn)向其他結(jié)構(gòu)。對于擁有多個(gè)業(yè)務(wù)組的大公司,那些高度依賴測試的業(yè)務(wù)組管理層,會在企業(yè)統(tǒng)一規(guī)劃前實(shí)行測試,那么分離型結(jié)構(gòu)就較為適用這種情況。如果在線實(shí)驗(yàn)是公司決策環(huán)節(jié)中的不可或缺的一環(huán),可以通過衛(wèi)星型結(jié)構(gòu)的中心團(tuán)隊(duì)先構(gòu)建實(shí)驗(yàn)范例,制定實(shí)驗(yàn)標(biāo)準(zhǔn),然后再將其推行至各個(gè)業(yè)務(wù)部門。