當產品經理遇上概率論

產品經理是一個涉及面非常廣的職業,包括心理學、經濟學、設計學等等。最近在工作中遇到一個看似容易的數學類概率論方面問題,簡單和大家探討一下。

利益相關:概率論61分強勢飄過。

Situation我們都知道,在搜索引擎中查找一個電話號碼時,如果該號碼此前被一定數量的用戶提交為騷擾電話之類,則搜索引擎會提示用戶該號碼可能有疑問,以下圖為例,搜索詞 query = 83765566:

(該網頁來自公司內部工具,為方便一次性展示多個搜索引擎的結果,也可分別查看不同搜索引擎)

Task判斷不同的搜索引擎給出的結果中,哪一個更能滿足普通用戶的需求,並根據更多的 query 的表現做出分析,最終完成報告供技術等做出相關改進以優化搜索體驗。

Action可能從第一眼看到的結果中,即使是沒有做過搜索相關工作的朋友也能一眼看出來,中間百度的結果似乎展示更好,採用了 onebox 的強展示,非常明確地告知用戶該號碼被一些用戶反應為騷擾號碼,從而給用戶以幫助。

但實際上如果僅此判斷百度的結果更好是非常片面的,還有更多的要點值得我們研究卻被遺漏沒有加以考慮,這也是我最初犯下的一個重要錯誤。

1. 根據指導人的意見,首先我們需要考慮還原一個真實的用戶場景。即 83765566 這個號碼可能並不是唯一的,可能來自不同城市,只不過是用戶沒有寫出區號而已。在這種情況下如果貿然判斷有 onebox 展示的搜索結果更好是有失偏頗的,因為有非常大的可能導致用戶判斷出錯,將其它城市的號碼錯認成自己想要的結果。

2. 當然根據我當初的想法,前面的第一點也是存在一定疑問的,這也就是寫作本文的用意,引入概率論分析如何更公正地判斷電話類 onebox 對搜索結果的收益。我當時考慮的重點是:確實無區號的號碼不能肯定哪一個結果更有幫助,但是是否匯聚更多號碼展示 onebox 的結果更能符合用戶的需求呢?

3. 直到最近幾天,當我第二次遇到類似案例的時候,猛然想起其中還有一個要點。既然我們不能確定用戶到底想找哪一個「83765566」的時候,我們給出一個結果是否存在誤判的可能,畢竟百度僅僅是根據2名用戶的反映就標註了騷擾,即在沒有更多明確依據的前提下,策略上錯誤地「誣陷好人」,將普通號碼識別為騷擾號碼,或者反過來將騷擾號碼識別成普通號碼呢?如果有,那麼哪一個的概率大,對最終判斷的結果會產生多大的影響呢?

4. 經過短暫思考,我認為理論上是將騷擾號碼識別為普通號碼的概率雖然非常小,但依然要比將普通號碼識別為騷擾號碼的概率大非常多。可能數學基礎好的朋友已經知道我接下來要說什麼了,沒錯就是概率論中的貝葉斯公式。事實上關於貝葉斯公式在互聯網中的應用,前輩阮一峰老師已經在他的博客寫得非常詳細了,功底比較好的中學生應該也能獨立推導出來,這裡作為互聯網文章不再過多引入數學知識,可參考博客:貝葉斯推斷及其互聯網應用(一):定理簡介 - 阮一峰的網路日誌可能有朋友對這個公式有遺忘,那麼對下面這個經典問題總能記得:

已知某種疾病的發病率是0.001,即1000人中會有1個人得病。現有一種試劑可以檢驗患者是否得病,它的準確率是0.99,即在患者確實得病的情況下,它有99%的可能呈現陽性。它的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現陽性。現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?

這實際上就是前面電話號碼問題的翻版。

5. 當然寫到這裡還沒有結束,因為當我滿懷希望地和同事提出這個觀點,並以猶太人獲得諾貝爾獎的比例為例簡單說完以後,同事提出了反對意見。原因是我僅僅是從理論上做出分析,然而對於兩個極小概率的比較必須要考慮到實際因素,哪怕是輕微的差異都可能造成想法的結果。在這裡,我此前沒有考慮到實際情況,比如:普通用戶並不會過多考慮並判斷一個來電是否真的是「騷擾」,並且手機衛士也並不是完全按照用戶意願判斷,可能也考慮到通話時間等等。同時一些HR等的號碼也非常容易被標註為騷擾,相信大家都體會過了,有時招聘的簡訊也會被攔截等等。

6. 所以說最終的結果,對於兩個概率都非常小的事件來說,無論哪一個概率大都不足以影響評測,但考慮到 onebox 有非常明顯的指向性,容易對不明真相的群眾造成較大幹擾,我還是傾向於帶有 onebox 的結果對於不含區號的號碼來說沒有正向收益。

Result帶有 onebox 的結果對於不含區號的號碼來說沒有正向收益。

對於這個案例到這裡就全部講完了,可以看到一個看似非常簡單的7或8位電話號碼背後其實包含非常多和深的理念和思想,不僅僅是表面看起來那麼簡單,也需要從實際的用戶場景考慮問題才行。

推薦閱讀:

搜狗的深度學習業務在業界是什麼水平?
達觀數據搜索引擎排序實踐
搜索產品中的一些有趣判斷題
人們討厭或喜歡 Google 的理由是什麼?

TAG:產品經理 | 數學 | 搜索 |