你知道這款數據驅動優化的利器嗎?

AB 測試是很強有力的數據驅動優化工具,希望這次分享可以給大家帶來一些產品優化方面的啟發。

什麼是 AB 測試

首先,讓我們來看看什麼是 AB 測試。AB 測試的本質是分離式的組間試驗,也就是對於一個試驗而言,存在對照組和試驗組。通過改變某一個元素,保持其他元素不變,經過一段時間試驗之後再來比較這兩組的效果優劣。以前進行 AB 測試的技術成本和資源成本都比較高,而現在一系列專業化的 AB 測試工具都出現了,所以現在 AB 測試的普及有了可能。

我們舉一個簡單的醫療產業的例子,他們一般使用 AB 測試來進行新葯的藥效測試。比如將患者分為 AB 兩組,一組患者被分配新葯,一組患者被分配外形幾乎與新葯一模一樣的安慰劑,過一段時間以後我們來觀察患者的康復情況,以患者的康復情況為指標來測試新葯是否有效。這是 AB 測試在醫療產業的一種應用,同樣也可以用來解釋什麼是 AB 測試。

為什麼要使用 AB 測試

那麼為什麼要使用 AB 測試呢?因為目前來看,在傳統的產品優化過程中存在以下四個問題:第一個問題是依靠經驗主義進行決策,比如在設計新版本時,很多人會依靠產品直覺或是設計經驗。然而單憑這些產品直覺和設計經驗,會蒙蔽人的創新思維,不去考慮用戶的反饋,甚至會造成內部員工的情緒矛盾,因為公司內部對產品有不同的意見,從而影響產品的健康發展,阻礙產品的增長。

第二點是後驗導致開發成本非常高,現在很多企業已經開始關注數據對於產品的重要性,而他們採取的一般方式是先將產品進行發布,然後埋點採集數據,經過一段時間再來看產品是好是壞。但對於用戶量很大的產品而言,如果不經過小流量測試直接上線的話,風險非常高,尤其是在中國產品同質化競爭非常嚴重的情況下,如果一旦改版失敗,很可能造成用戶流失,甚至使競爭對手從中獲利。

第三個問題是,現在有很多人會忽視細節的改變。所謂細節改變指的是比如 UI 上的按鈕顏色大小、圖片大小、文案等,往往因為忽視了一些關鍵細節,而導致整個產品的表現不佳。嘗試對剛才說的按鈕、圖片、文案等方面進行改變,也許就能得到意想不到的收穫。

最後一點就是流程複雜周期長。現在的企業一般來說設計期有很多方案需要驗證,而一般的做法是進行排期,先上線一個方案,再上線另一個方案。但其實很多方案對應的群體都是不一樣的,一旦改版效果不理想,因長時間驗證而導致的數據損失,可能是企業無法承擔的。

而利用 AB 測試,能很好的解決上面說的四個問題,這也是我們為什麼要使用 AB 測試的原因。

AB 測試其實是一種先驗的試驗體系,屬於預測性理論,與後驗的歸納性結論差別巨大。AB 測試的目的在於通過科學的試驗設計、具有代表性的採樣量本、採用流量分割以及小流量測試等方法,來獲得具有代表性的結論,並確信該結論可以推廣到全部流量並且可信。因此它具有以下三個特徵:先驗性、並行性,以及流量分配的科學性。

使用 AB 測試最典型的兩個公司是 Google 和 Facebook。Google 每年通過 AB 測試找到十幾個有效方案,這些方案大概能提升月營收數2%左右,對於它這樣的體量而言,就是10億元規模。Google 還有個很有趣的試驗發現,就是廣告位左移1個像素,能獲得x%的營收,而左移2個像素,帶來y%的虧損,這些細節都是通過 AB 測試發現的。而 Facebook 善於使用灰度發布這個模式,灰度發布是指用小流量來發布新版本,看是否存在 bug,以及一些指標是否存在異常,所以 Facebook 通過灰度發布獲得了無 bug 的口碑。另外 AB 測試在 Facebook 的增長黑客的過程中也起到了非常重要的作用。

AB 測試能夠幫助您優化什麼

AB 測試能夠應用的範圍非常廣,包括產品 UI、文案內容、頁面布局、產品功能,以及後端的推薦演算法等等。

AB 的應用場景

我們來看幾個 AB 測試的應用場景,分別是元素/控制項層面、功能層面、產品層面和公司層面。

在元素/控制項層面,我們想測試一個購買按鈕顏色對轉化率的影響。我們有 A、B、C 三個版本,一個原始版本,兩個測試版本,原始版本的按鈕是紅色,測試版本我們想把它變成綠色和灰色。通過科學的流量分配,保證 A、B、C 三個組既能保證代表全用戶特徵,又保證每個組用戶的相似度。而最終統計試驗結果時,我們用95%置信區間進行估計,我們得到 B 版本的顏色有95%的可能性讓平均點擊提升27.4%,於是我們決策出 B 版本為最優版本,我們能夠使用 B 版本。

功能層面,比如對於價格展示的例子,我們想知道哪種價格展示方式會更讓人有購買慾望。是主要展示折扣力還是折扣價格呢,400美金的價格,是展示398,還是399會更受歡迎呢,這些都是 AB 測試解決的問題。進一步我們還可以使用受眾定向這個功能,來分析出哪種方案對男性用戶有吸引力,哪種方案對女性用戶有吸引力,這些都是 AB 測試可以應用的方向和方法。

而產品層面,我們就要談一下灰度發布這個功能。這裡有個很典型的例子,一個 iOS 的 APP 在開發並測試完成之後,需要發布到 APP Store,通過大概7天的審核之後才能上架,用戶才能使用到最新版本。如果上架之後用戶安裝到了有 bug 的版本,會造成很差的用戶體驗,以及很負面的影響。通常解決辦法是,連夜修 bug,然後再次提交 APP Store審核,但這中間仍有7天審核期,也就是說用戶在這期間還要持續使用有 bug 的版本大概一周左右,這樣負面影響還要增加。通過 AB 測試優化平台,提交 APP Store,如果發現審核的版本有 bug 的話,可以立即關閉有 bug 的版本,並且退回到原先的無 bug 版本,這樣用戶就是無感知的。因為首先是小流量的用戶在使用這樣一個功能,再者有一鍵關閉這個操作,對於開發者來說,有個非常充分的緩衝期進行 bug 修復,待 bug 修復完成之後再提交到 APP Store 審核,這樣用戶體驗上的影響會降到最低。

灰度發布也是 AB 測試一個非常重要的應用方面。

在公司層面,我們還是要提到 Google。Google 可以說是有 AB 測試基因的公司,它在很多地方都用到了 AB 測試。舉個例子就是 Google 很喜歡針對某個客戶群體推出多款競爭產品,讓客戶來體驗然後選出哪一款是他們真正喜歡的產品。比如即時通信解決方案,包括 Google talk、Google+、Messenger、Messaing,以及 Google Hangouts,最終 Hangouts 勝出,就是現在大家熟悉的環聊軟體。

接下來我們看兩個國際公司的例子。第一個是亞馬遜,不知道大家有沒有注意到亞馬遜的加入購物車的按鈕樣式,是一個黃色底色黑色文字,同時這個頁面還包括綠色的提示文字。這在我們看來是怪異難看的樣式,經過反覆的 AB 測試發現,這樣搭配是客戶購買轉化率最高的一個按鈕樣式。同時他們發現黃色、橙黃色是 CTA 按鈕點擊率最高的按鈕顏色,接下來是最引人注目的綠色。

下面這個例子是亞馬遜信用卡的例子,最早信用卡廣告放在購物頁面內,幾乎沒有人去點擊它,而且浪費了非常寶貴的廣告位。當產品經理嘗試把它放在結算頁面,用戶就發現了信用卡的好處, AB 測試的試驗數據顯示這個改變給亞馬遜帶來了每年上億美元的營收增長。

另一個是 Airbnb 的例子。對於任何一個企業的決策者和產品經理來說,用戶越多,產品複雜度越高,新版本製作的風險就會越大。以 Airbnb 的註冊界面為例,先前的頁面是將 Google 登錄方式放在首位,接下來是 Facebook。但產品經理認為 Airbnb 與 Facebook 的用戶擁有一定共同特徵,於是新方案中他把 Facebook 登錄按鈕放在了第一位,結果上線之後發現,這個方案的轉化率提高了10%。

同樣的,Airbnb 通過 AB 測試發現,根據不同地域的用戶習慣進行優化是很有效的。他們發現在阿姆斯特丹和西班牙等地區的用戶,會先瀏覽當地的美景圖片,再進行註冊。於是就有了這張圖中最右邊這個方案,這樣的優化也為 Airbnb 帶來了10%的註冊轉化率。

AB 測試的實施流程

通過上面的案例介紹,我們可以看到 AB 測試的基本實施流程就是:首先確定新方案,然後發布給部分用戶進行試驗,分為 A 版本和 B 版本。然後讓這兩個組的用戶分別有平均的流量看到 A 版本和 B 版本,當然也可以不平均,這是由你來定的。經過一段時間之後,根據試驗結果決定是發布新版本,還是回滾到老版本。

這裡有高效的 AB 測試的7條經驗,是由微軟的科學家提出來的,我重點講幾個。首先是效果驚人,某些微小的改動可能造成對 KPI 的巨大影響。其次是你很不同,各個產品幾乎完全不同,所以複製他人經驗往往得不到什麼效果。以及快速輕量迭代,盡量不要做複雜的大量改動的大試驗,而是分成很多個簡單的小試驗,累積起來你才能得到好的產品。最後是用戶數量,只有幾千上萬的用戶才容易展開高效的 AB 測試,小的流量是沒有什麼效果的。

目前吆喝科技的 AppAdhoc A/B Testing 是國內唯一一家同時支持前端(Web/H5、iOS、Android)及後端(NodeJS、PHP、java、Python 等)AB 測試工具,適用於從前端展示到後端演算法的全方位的產品優化,下面我們來看我們吆喝科技的用戶案例。

這兩個案例也是從微小處入手來提高轉化率,效果還是不錯的。

先來看一個全球購的用戶案例,他們通過改變某塊區域的設計方案,對顏色、文本、大小等進行了改動,來判斷新的方案在產品展示和購買轉化率方面是否有所提升。我們來具體看一下。

為了提高用戶對於整點搶購產品的關注,試驗版本做了以下的改進,比如對 HOT 這塊區域的顏色和尺寸進行了修改,以便更加吸引用戶的關注。

試驗結果是產品詳情展示頁提升了15%,搶購產品購買轉化率提高了12%,而且從整體活躍及用戶留存的角度來看也得到了很好的提升,這是從小切入的很好的一個 AB 測試的例子。

這裡還有另一個購物類應用的案例,和上面不一樣,這個是通過改變 UI 的布局來判斷新的布局是否能讓用戶觸達這兩塊區域,最後對成交量或者轉化率產生影響。

具體的,為了增加用戶活躍,提升訂單成交量,試驗版本將左圖中的附近「門店」和「我的」兩個版塊的位置放在了底部,並以懸停方式提升用戶體驗。這麼考慮優化是因為之前附近商家的位置不是很明顯,而且也想優化一下「我的」位置的放置。試驗結果表明,新方案點進去的門店詳情信息展示提升了24%,「我的」版塊提升了17%,最終的訂單成交量也提升了3%,這就是很好的用 AB 測試來判斷不同布局的例子。

我們看到上面都是試驗方案優於原始方案的情況,其實並不是試驗方案一定會比原始方案好,只是這樣設計代表了新的版本更加合理,對於這個產品而言。我們也會遇到原始版本比較好的情況,這時候就是要麼再嘗試新的方案,或者是先沿用老版本,直到有試驗顯示新版本優於原始版本,我們再使用新方案。

吆喝科技目前已經服務超過400家企業用戶,月覆蓋設備超過1億,而累積運行的試驗接近3000個。

歡迎大家點擊這裡關注 AppAdhoc A/B Testing 的官方網站,來更加了解 AB 測試這個全新的優化方式。

本文作者:劉飛,吆喝科技高級客戶經理。


推薦閱讀:

優化演算法之梯度下降演算法
小型 Web 頁項目打包優化方案
Unity優化技巧(中)
關於演算法競賽中快速乘的一些優化
看完性能簡報,想不優化好都難!

TAG:AB测试 | 数据 | 优化 |