比預測未來更重要的,是改變未來 | 數據科學公開課
本文整理自尹相志老師的線上公開講座《數據無所不在》上半部分,更多乾貨內容,請觀看視頻回放。視頻配有字幕。
掃碼免費觀看直播回放,總長120分鐘
http://campus.swarma.org/gcou=10407 (二維碼自動識別)
數據科學心法與機器學習實戰 第一講:數據無所不在
1.「預」的本意是占卜——人類文明中最早的預測
人類幾千年的文明一直都在做預測,占星術就是最早的數據科學。
古埃及人其實是根據尼羅河空中的天狼星,走到一個特定位置,來預測什麼時候就要來大洪水。古人每天看星星,找到規律,開始有年,月的概念。也發現星星位置跟地面上的很多行為有聯繫。
中國也有不輸別人的預測。甲骨文的「預」的原始的意義是什麼?看形狀知道,預測的「預」其實就是龜甲,烏龜腹部的龜甲部分。
不管是中外,預測都跟占星,占卜有關係。
2.數據科學的精髓
——預測並提前採取措施數據科學最常見的用途就是預測。但單純預測類似泰坦尼克號上船員生死之類的問題,遠遠不是數據科學的全部。
如果你可以提前預測,你還能做什麼?根據預測結果做出決策,解決預測發現的問題,可能是數據科學真正的精髓。
你要怎麼確定你能理解這個世界?最好的方法就是你能預測。你能夠預測未來,就代表你對這個東西有透徹完全的了解。
通過一些事物去了解這個世界的本質,去預測後面的一個趨勢,本來就是人類過去的千年的文明一直在做的事情,只不過換了一些更科學的工具。
3.能預測還不夠,
你必須留出足夠時間做出改變
做預測要明確兩件事情。
第一個要明確的是,你要用A去預測B,前提是A必須要發生在B之前。
比如保險公司分析什麼樣的人會理賠,結果發現:只要更改過地址的人都很容易發生理賠。但這是一個偽規則:假如你搬個家,你會告訴保險公司你家搬了嗎?大多數人很容易忘了通知保險公司。因為「我想要理賠,所以我才告訴你搬家」。
第二個要明確的是,在B發生之前,就必須得到 A 的數據,你才能做預測。
使用數據時,你不但要考量預測的時間順序,而且你還必須要考量到在預測的時間點,你拿不拿得到數據。用更嚴格的標準來看,在B發生之前取得A的數據都還不夠,為什麼?你必須還要有足夠的時間讓你改變未來。這個才是重點。
我們預測的真正目的是為了改變未來,就算不能改變未來,你也應該要因為之前知道了這件事情,而讓我可以增加收益,或者是減少損失。
4.運營商客戶留存案例一:
沒法改變未來的數據預測,就是耍流氓
我之前在台灣介入電信運營商的客戶流失分析。這家運營商有自己的客戶流失模型,看起來好像很准,但總是沒用。他們有很大的資料庫,但更新周期以月為單位。每月1號到5號處理數據,到10號左右,上個月數據才能更新到資料庫里。
他們每個月會預測一次客戶流失,用上個月的數據預測本月客戶流失,比如用4月的數據去預測客戶5月會不會走。
4月的數據整理到資料庫里,要等到5月10號,然後要花幾天時間做數據挖掘。出於對個人信息的保護,處理完的數據沒有帶真正的身份,只用一個代用的ID。再返回來真正的客戶清單,又要兩三天。這時5月已經過半,終於挑出了客戶名單,分配給客服,去做客戶挽留。把任務分配出去之後就5月就快過完了,月底打開名單,好准!該走的客戶全都走光了。做數據有一點像醫生,一種是數據法醫,一種是數據名醫。法醫判斷很準確,但是人死了你沒法救活。名醫可能要在發病前一年,就已經知道你有問題了,就開始幫你解決問題去治療。
沒有辦法改變未來的數據預測,就是耍流氓。數據科學未來的一個切入角度,是如何讓預測結果發揮最大的效果。只學一些演算法肯定不夠的,可能你對於營銷、經濟學、心理學也要有了解,這些東西都能夠有助於你去了解怎麼樣去用這些數據。
5.運營商客戶留存案例二:如何根據數據擬定策略,影響未來
台灣手機卡的合約一般是兩年左右,做的客戶留存模型,要提前6個月讓運營商知道這個人可能會走,也就是在合約的第18個月制定策略。
為什麼要到第18個月就開始去做?因為事實上,連消費者自己在第18個月的時候都還沒想到我要不要毀約。
運營商給客戶做一個營銷活動,客戶不一定喜歡,還要給第二次,第三次。但每個月都做營銷讓用戶厭煩。所以運營商希望做一個月營銷活動,休息一個月,三次一共六個月。而在這六個月中還可以換不同的營銷策略。
我畫出來客戶流失危險期,客戶的流失率從第22個月突然反曲點往上升高,幾個月在流失率變平坦,用戶穩定下來。只要撐過這幾個月危險期,後面就穩定了。這個圖的重點就描述出我們的策略——我們無論如何要把這個人留到續約後的八九個月,之後穩了。
為什麼強調講心法?因為同樣看到這張圖,可能大多數人只能簡單告訴你,合約結束後的第二三個月客戶流失最高。但我們還要去確定整體攻防戰術:
- 怎麼樣用數據去擬定商業戰術?
- 怎麼判斷在什麼時候開始防禦?
- 如果在六個月前開始防禦,營銷活動要持續多久
現在演算法的獲取越來越簡單,但怎麼運用數據,怎麼看待數據,怎麼讓數據成為我們解決問題的重要工具,就沒那麼容易知道了 。這個公開課,以及後續系列課,我們會以很實務的案例,來告訴大家如何用數據去設計對應的戰術,這些心法,會比演算法更重要。
講者:尹相志
下半部分預告:
《你應該知道的15種數據推斷低級錯誤》
推薦課程
小夥伴組隊學習折上折:
3人組團959,5人組團899,10人及以上團799
在校學生特惠:5人組團即可享受799的10人團購價
學生組團學習交流群」,進群組隊學習
https://weixin.qq.com/g/AwDHzSt7nOCxJ4Ut (二維碼自動識別)
數據科學家,21世紀最性感的職業!
集智QQ群|292641157
商務合作|zhangqian@swarma.org投稿轉載|wangting@swarma.org◆ ◆ ◆
搜索公眾號:集智俱樂部
加入「沒有圍牆的研究所」
http://weixin.qq.com/r/NDsxKXDEti3JrTRK924m (二維碼自動識別)
讓蘋果砸得更猛烈些吧!
推薦閱讀:
※如何看待在嗶哩嗶哩上搬運Andrew Ng的課程Deep Learning?
※Coursera 上有哪些課程值得推薦?
※如何正確有效地使用 Coursera 的結課證書?
※【fMRI Note】Module 5 Basic MR Physics
※網路課程與學校里的課程的區別是什麼?