【2018.4】那些目標4個9準確率的業務場景

05-17

來自專欄互聯網在孫嘉龍低維認知中的投影

TL;DR

對於目標4個9準確率的業務場景，低成本、快速、準確修復長尾badcase的能力是核心競爭力，而調模型則未必。

目標4個9準確率

隨著O2O類應用的逐漸拓展、互聯網流量紅利的逐漸消退，每個訂單、每個請求變得越來越重要。甚至在某些場景下，策略的badcase導致的損失會達到幾十塊乃至更高的水平：業務每單虧損，或者是需要高昂的用戶安撫成本，或者是用戶的直接流失的可能。

一個日訂單量100萬單的業務，如果策略準確率有2個9，那麼每天就可能有1萬個用戶投訴電話打進來，就算是做到了4個9，每天也仍然有100個用戶不滿。

很多人對4個9是什麼水平沒有概念，如果換成可靠性的話，一般互聯網大公司線上服務的水平也就是最多4個9，4個9就已經是連機房整體斷電、光纜被挖斷都要管的程度了。而核電廠中各種設備的可靠性要求也就6-8個9的程度，這需要考慮些什麼估計很多人都沒法想像了，事實上這是一個專門的學科（我本科班主任就是做這個的），但福島仍然出事了……

回過頭來想想其實4個9就是badcase率是萬分之一，你做了一個策略，人工看一萬個才能發現一個有問題的，這樣的策略的調校需要多高的人工成本？我覺得互聯網演算法中的所謂專家在非核心的業務場景下一般最多也就做到接近2個9了事，基本策略能做到1個9的水平就算是合格的演算法工程師了（呃）。

所以你就知道為啥現在智能客服是各大廠都想推的了，因為很多業務里的用戶投訴人工都接不過來啊……（智能導購之類的另說）

當每個badcase的成本高到不能無視時？

很多從廣告、推薦領域中溢出的專家其實很少能注意到這個問題，因為廣告、推薦推錯一個結果能多多大影響呢？浪費一個廣告位？而現在可能導致直接流失一個用戶，這個思維轉變真的很大。

某種意義上，這類業務場景我們是否能拿用戶去做那種對體驗傷害很大的A/B test都是值得討論的問題。

從止損的角度上來說，降低badcase率甚至可能是比優化整體效率更值得做的事。

已經有人跟我說，他們已經傾向於不招廣告、推薦的人了……

9的個數決定了產品形態

準確率/可靠性顯著不同的技術在被應用的方式上有很大差異。

這方面有很多的例子，最經常拿來舉例的是語音識別技術。語音識別其實很早就有，但直到最近才開始變得普及起來，是因為準確率達到了接近人的水平。但其實在真實場景中也沒有達到2個9。

基本上1個9的技術只能拿來做人工修正之前的默認值，2個9的技術才能拿來構築新一代業務邏輯，3到4個9的技術才能把人從流程中去掉。

平均修復成本是關鍵

當badcase率的降低變得至關重要時，如何低成本的修復badcase就是成本核心能力。

基本上面對新請求新數據時1個9的準確可以相對容易的通過大家熟悉的ML方案來獲得。但這之後的長尾badcase如何能低成本的修復才是深水區。

在策略系統設計和方案選型的時候就要考慮到如何才能低成本、無其他副作用、快速準確的修復badcase。

這方面關於ML模型的討論可以參考上一篇文章：

孫嘉龍：【ML專欄】可解釋性與修badcase?

zhuanlan.zhihu.com

但很多時候單單一個模型的可干涉是不夠的，需要的是整個系統都具有可干涉性。我後面會寫一篇文章來就一個具體的例子來談下我對此的一些思考。