王曦:我所經歷過的數據科學與智能商業決策 | WiseRClub報道

王曦:我所經歷過的數據科學與智能商業決策 | WiseRClub報道

18 人贊了文章

轉載自WiseRClub

作者:劉偉

2017年7月25日

王曦

嘉賓簡介

王曦

本科就讀於北京大學數學科學學院,畢業後獲得斯坦福大學最高級別全額獎學金。2013 年加入谷歌美國總部,擔任全球商業運營部高級商業分析師,並主持了多個全球戰略項目,後加入谷歌虛擬運營商初創項目 Project Fi 並任商業運營高級經理。2016 年回國,同另外三位斯坦福大學博士聯合創立中國第一個真正意義上的人工智慧決策公司杉數科技。

6月25日上午,杉數科技創始人、斯坦福博士王曦先生在經濟樓N402給我們帶來了「數據科學與量化投資系列講座」的精彩第一講:淺談數據科學與智能商業決策。在講座中,王曦先生通過有趣的故事和實踐操作案例向大家展示了數據分析與商業決策中的思維邏輯。下面,我將按照講座結構分三個部分進行內容回顧與乾貨分享~

01

我眼中的數據分析與數據科學

在講座的第一部分,王曦先生通過三個生動形象的故事闡述了自己對數據分析和數據科學的理解。

  第一個故事是一個關於假設檢驗的玩笑:「專家說據實驗證明螃蟹的聽覺器官長在腿上。證明過程如下:對著一隻健康的螃蟹大喊大叫,螃蟹跑了,又找了一隻對其大叫,螃蟹還是跑了;接著控制變數,把螃蟹的腿剪了,這下子不管對著螃蟹怎麼叫螃蟹都不會跑。該實驗可以重複無窮次,並使得p值等於0.000000。所以可以證明,螃蟹的聽覺器官長在腿上! 」

  這個顯然錯誤的荒唐結論引人發笑也令人深思。數據科學首先是一門科學,數據科學家需要通過有科學技術含量的訓練來避免認知錯誤和實驗設計上的問題。更重要的是,在分析過程中要堅守底線,實事求是,做獨立的研究、不被外界干擾。

  那麼,數據科學的目的是什麼呢?在王曦先生看來,數據科學的目的是解釋問題,而不是通過複雜的公式或者pre將信息接受者搞暈。在這一點上,學術界和業界存在一些區別:業界要求數據分析pre簡單易讀,重點關注如何將結論應用到商業實踐中去。

  接下來,王曦先生通過一個貝葉斯的例子為大家展示了如何向不懂統計的人說明統計結論:「假設艾滋病的發病率是十萬分之一,即100000人中會有1個人得病。現有一種試劑可以檢驗患者是否得病,它的準確率是0.95,即在患者確實得病的情況下,它有95%的可能呈現陽性。它的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現陽性。現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?」

  你也許會覺得答案很簡單清晰:萬分之1.98,是一個相當小的概率。但如何對於一位不懂貝葉斯統計的陽性受測者說明他的患病風險呢?由於發艾滋病實在是小概率事件,所以當我們對十萬人做艾滋病篩查時,雖說準確率有95%,但仍然會有相當一部分人(5000)因為誤測而被診斷為艾滋病,這一部分人在人群中的數目比真正艾滋病患者的數目要高得多,所以在解釋過程中應當說明先驗概率的重要性,並強調用必要進行二次檢測來完善判斷機制。

  數據研究pre的核心是用人類語言講人類故事,而不是僅僅用學術語言羅列公式說明研究的科學性卻忘記了給受眾呈現直觀、易懂的結論。

  第三個故事是關於戰鬥機的彈孔分布與防護加強的,也就是今年的高考題:「在統計學家瓦爾德看來,飛機上最應該加裝裝甲的地方不是彈孔多的地方,而是彈孔少甚至沒有彈孔的引擎。飛機各部位中彈的概率應該是一樣的,但為什麼引擎上會很少?這是因為軍方統計的只是返航的飛機,那些遭遇不幸的飛機被忽視掉了。這就是著名的倖存者偏差,人們往往因為過分關注目前的人或物以及倖存的經歷,而忽略了不在視界之內或者無法倖存的人或物,容易在不知不覺中犯下錯誤。」

  這個故事提醒我們,做數據分析應該以支持決策為導向,用決策的思路對分析過程進行檢驗和判斷,以避免倖存者偏差等的問題。

02

商業應用案例分析

在第二部分的演講中,王曦先生通過幾個自己親身參與的案例給大家介紹了數據分析中的常見類型與在實踐操作中可能遇到問題。筆記奉上~

快速消費品的庫存優化問題

預測目標:每一款商品在每一個時間段每一個地區(在促銷狀態下)能賣多少

數據整合:銷售訂單數據+商品信息數據+促銷數據

統計方法:時間序列+機器學習

實踐中的數據問題

①數據不準確:銷售大區記錄習慣不同導致標記不同,線上線下標記不同,用戶需求量定義有歧義(成交單數or提交單數)等。

②數據不足:數據內容多但是真正有用的數據稀疏。

③數據清洗難度大:dirty dirty dirty。

解決方法

①事件管理:對研究對象進行定義,並且盡量統一統計口徑與標度。

②內外部數據融合:引入如天氣之類的外源數據,例如用日照強度預測防晒霜銷量。

手機分期付款申請的徵信問題

手機分期徵信流程:申請分期付款→公司得到個人的信用報告→通過定義多個維度進行否定篩選

該機制使用一段時間後面臨的問題

核心問題A:如何評估現有徵信策略的質量(提出核心指標)?

①批准率(每一百人中批准手機分期的人數)

②欠款率(每一百個被批准手機分期的人中欠款的人數)

經過實踐發現批准率過低,而欠款率遠在警戒線以下,說明篩選策略過於嚴格,有一些該做的訂單卻沒有做,所以應適當通過調整篩選標準提高批准率(伴隨著可控可接受的欠款率增長)。

核心問題B:如何構建更合理的徵信模型以及評審策略?

①明確改進目標(核心問題A)

②確定研究對象(手機分期的申請者而不是已經通過篩選的人,避免selection bias)

③引入統計方法(機器學習)

核心問題C:如何使基於機器學習的徵信策略可解釋可觸摸?

機器學習的結果本身是黑盒子,所以在統計方法的選擇當中往往面臨著,理論解釋性和實踐表現性的trade off,傳統OLS的解釋性很強但是它的實踐表現可能偏弱,與之相反機器學習的預測能力很強,遠遠勝過簡單模型,但是很難解釋特徵如何影響了結果;但是在商業環境中可解釋性是必須要滿足的一個條件,可以嘗試通過以下兩種思路去考慮去解釋黑箱結果:

①利用可解釋的方法做benchmark(回歸分析等)

②利用各樣數據進行模型測試(歷史數據與實踐數據)並以量化的方式展示結果

商務報告中作數據展示

傳統學術paper展示路徑:提出問題→總結別人工作→說明現有不足→提出自己方法→對方法進行應用→結論

商業報告中的數據展示應以可以利用的結論為王,具體建議如下:

①每一頁ppt有一個獨立要點

②不要對自己的背後工作展示太多(如有必要則放在附錄)

③不要陷入對方法、數據、案例、工具、進行討論的汪洋大海

④魔鬼都在細節中,尤其時要注意對於圖片展示的數據指標(圖標標題、數據單位、坐標定義、legend解釋)、分析質量(數據來源、數據時效性、數據適用的業務範圍、計算所需的假設與前提)和頁面美感(不同的圖表類型不要太複雜、圖標的擺放與對齊、保留幾位小數、數字的字體和字型大小是否統一)

03

我們究竟在做怎樣的智能商業決策

  在講座的第三部分,王曦先生為我們簡要介紹了杉數科技的智能決策業務。

  決策是一種不可逆的資源配置問題,在資源有限的前提下就必然存在最優化與機會成本的問題。中國企業的運作模式已經由改革開放初期的摘果子轉變為如今的精耕細作。也就是說,企業經營已經逐步由粗放式管理轉向精細化管理,企業的發展也由紅利驅動轉變為技術驅動。在這個時代,人工智慧與歷史數據相結合必然走向企業決策大舞台,用量化手段解決運營決策層面的優化問題是必然趨勢。

  具體來說,「定義問題→挖掘數據→發現規律→指導決策」是基本的流程。將決策問題轉化為數學模型再基於數據和高效優化演算法進行求解可以幫助企業構建面向複雜決策環境的智能決策系統,大大提升企業決策質量,給成本和收益帶來顯著變化。

  雖然每個公司面對的具體問題不同,但解決優化問題的思路和邏輯是相似的。講座的最後,王曦先生引用了歐拉的一句名言作為結尾:

Nothing at all takes place in the universe in which some rule of maximum or minimum does not appear.

--L.Euler 1707-1783

推薦閱讀:

上班一個月掙10萬,居然全靠它...
ch5 離散型概率分布
豆沙唇膏/口紅行業大數據分析報告:美妝必備好物 |決策狗
看看別人是如何快速成為數據分析師的?
Python可視化與basemap數據地圖

TAG:大數據 | 數據分析 | 數據挖掘 |