微博霸氣更新的背後 | 解決了一批開發的bug和開發bug的人
在產品的微觀優化和宏觀構想之間需要一個中觀視角實現平衡與協調。任何一個個體和團隊都不應該在一家公司把持話語權,但是數據試驗可以——尊重試驗數據和試驗文化,就是尊重產品本身。
高收入,往往意味著高壓力,程序員群體便是如此。當全世界都在羨慕西二旗月入5W+的程序員時,或許他們也會在夜半時分苦苦唱起:
不久前,新浪微博的開發小哥哥竟然面臨「生命危險」——在iOS版微博國際版v2.8.0的更新日誌顯示,本次更新的內容有兩項:一是適配iPhone X,二是解決了一些開發的Bug和開發Bug的人……
這和隔壁家的「修復了閃退的Bug,還殺了一個程序員祭天」如出一轍!這種表述往往會成為互聯網圈的佳話。因此,在蝦米音樂「窮逼VIP」事件中,網友們也是自顧自的調侃,並沒有誰真的生氣——畢竟窮逼是一種氣質,與買不買VIP沒有太大關係。
不過,吆喝君在仔細分析整個事件的始末後,發現了一些問題:事件的起因是產品部門搖擺不定的改版需求讓開發們三天兩頭推倒重來,他們只便在日誌中表達自己的積怨(暫時不探討這個行為本身的問題),這種現象反映出一個深刻的問題:產品、運營、技術三者之間,互相無法說服,最終產品方向就像是「薛定諤的貓」,誰對誰錯,全靠天意~
在吆喝君組織的「互聯網時代的超級英雄」活動中,墨刀增長負責人楊過過為大家解釋了不同商業模式的公司的話語權的歸屬問題:偏向技術的公司,技術人員掌握話語權;產品優先的公司,產品經理擁有較高話語權,重運營的公司,運營人也能揚眉吐氣,這些都是正常現象。只是頭頂著光環的科技互聯網公司,卻依靠著「人治」和「宮斗」來維持著產品迭代,這應該是一種風格呢,還是一種退步呢?
數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來——全球知名管理諮詢公司麥肯錫(最早提出「大數據」概念)
在這樣一個時代,對待數據的挖掘和運用,不應該只停留在投資層面,而是思路和模式上的轉變。解決產品、運營和技術之間深層次矛盾的唯一途徑是數據,數據會說明一切。然而,數據作為標準,僅僅解決了問題的前半部分,如何讓數據成為先驗而非「馬後炮」呢?
『答案是A/B測試』
互聯網行業著名的定律數不勝數,為什麼答案是A/B測試?比起那些定律,A/B 測試『資歷』可能更老——它並不是互聯網時代的原生產物。A/B 測試來自於醫療行業,屬於RCT(Randomized Controlled Trial),是一種隨機控制實驗。此前已經被葯監局、藥物管理或者醫療管理單位廣泛應用,他們以A/B測試的實驗結果為依據,是行業內最高標準的測試以及驗證方案。
或許,您對於「什麼是RCT、為何醫療行業會採用A/B測試」並不感冒,那我們不妨換一個更令人信服的視角來解釋A/B測試——運用統計學理論證明,A/B測試為何比定理、經驗和其他工具更科學、高效和穩定。
這次我們選取的是 Appadhoc A/B Testing
雲平台提供的相關數據,我們知道A/B測試本質上是一種對比試驗,工作原理就是統計對照版本和測試版本兩個樣本的數據(樣本數量,樣本平均數和方差等),通過以正態分布為基礎的統計學公式進行計算,衡量測試版本的總體參數(均值)是否比對照版本的總體參數有確定性的提升。從A/B測試的原理可知,A/B 測試是一種假設檢驗(顯著性檢驗)。在試驗過程中存在2個假設——原假設和備擇假設。原假設是我們希望通過試驗結果推翻的假設,在這裡您可以簡化理解為原版本;備擇假設是我們希望通過試驗結果驗證的假設,在這裡您可以簡化理解為試驗版本。
原假設和備擇假設是一個完備事件組,而且相互對立。在一項假設檢驗中,原假設和備擇假設必有一個成立,而且如果其中一個不成立則必須無條件接受另一個。在這裡您需要理解簡單理解為原版本和試驗版本,除需要優化的指標外,其餘條件完全相同,統計上依據小概率思想。
試驗,從不迴避「錯誤」,也可以說我們在「試錯」。可為了得到科學的試驗結果,我們則需要儘可能減少這些可能導致我們隊試驗結果做出誤判的概率。這就會涉及兩類錯誤:棄真錯誤和取偽錯誤。
棄真錯誤就是原假設為真時拒絕了原假設的事件,我們容許此類事件發生的概率(記為 α )被稱為試驗的置信水平,而1-
α則被稱為試驗的置信度。然而,置信水平是人為設定的數值需要通過計算進行驗證,而計算所得數值記為p-value。只有當如果兩個版本無差異,p 才能作為試驗數據的概率。由此可以推導出:當 p ≤α 時,則意味著測試得到了統計顯著的結果, ;當 p 越小時,越能支持小概率事件不會發生的判斷,從而推翻原假設、接受備擇假設。
p 值核算涉及樣本均值,樣本數量,和標準差。
而取偽錯誤,就是原假設為假時接受了原假設,直觀但不嚴謹的理解是,分明原版本在核心指標上落後於測試版本卻依然堅持原版本,這個錯誤的概率在統計學角度也稱為取偽錯誤,記為 β ,這個概率可以相對大一些,業界大約定俗成的一個標準就是10%和20%的概率。
和顯著性水平一樣,為了有效避免取偽錯誤的發生,我們需要通核算 β 從而計算出另一個參數來給我們參考——統計功效,和核算置信區間的置信度類似,它是的思路是 1-β 來得出 (統計功效 power = 1 – β )
統計功效:是指版本差異(效果)為某個指定值時,通過顯著性檢驗能正確地把差異檢驗出來的概率。簡而言之,就是我們能夠正確拒絕原假設獲得統計顯著性結果(95%置信區間中數據)的概率。
統計功效的核算涉及樣本數量,方差,α 、以及最小變化度或者置信區間下限。
由此可見,當棄真錯誤控制在5%以內,而取偽錯誤控制在10%-20%左右,試驗數據才具備參考價值。換句話說,我們在做A/B測試時,試驗結果達到95%的置信度,以及80%-90%的統計功效時,它對我們來說才是有意義、可以作為決策參考的。
A/B 測試並不是簡單粗暴的將多個測試版本同時並行草草測試,而是建立在產品團隊清晰的產品思路和明確的優化需求上,建立在A/B測試平台不斷完善核心演算法的基礎上,是建立在嚴謹邏輯和統計原理基礎上的科學試驗。如果將每次產品迭代都看成一次大型考試,那麼A/B測試就是幫你賭中題目的老師,在其他同學都在「三短一長選一長,但凡不會就蒙C」的過程中浪費機會時,你卻總是能提前給目標用戶交上一份滿意的答卷。拒絕A/B測試,實際上是在拒絕實現成功最正確的道路。
總結:產品不行,你需要中觀視角
吆喝君經常說:一個頂級的產品經理也只能跑贏一半的A/B測試。這並不是否認經驗、魄力和真知灼見在產品發展中的巨大作用,在產品的微觀優化和宏觀構想之間需要一個中觀視角實現平衡與協調—— A/B 測試就是這樣一個中觀工具,試驗便是一種適用於互聯網產品優化的中觀視角。任何一個個體和團隊都不應該在一家公司把持話語權,但是試驗數據可以——尊重試驗數據和試驗文化,就是尊重產品本身。
推薦閱讀:
※如何通過數據找到產品增長的點?附案例
※【活動】增長學院 9 月 8 日首次對外公開報名,訂票享八折優惠
※[增長黑客系列]Github隱秘的超級力量
※隨筆| 「踏過的路都有百億美金市值公司」
※[增長黑客系列]HubSpot 怎樣建立十億美元級別的增長引擎
TAG:AB测试 | 首席增长官:如何用数据驱动增长书籍 | 增长黑客 |