公開課 | 獨家首發:微軟Hackathon冠軍隊帶你玩轉新零售,堪比外掛的秘笈分享
大家好,文摘菌又來搞事情啦~
本次公開課,大數據文摘邀請到了【微軟大中華區 零售解決方案新創業黑客松】大賽上海站冠軍團隊成員之一、觀遠數據合伙人周遠(位元組)。他將從賽題背景、數據探索、特徵工程、模型調優等方面,為大家帶來觀遠團隊在剛結束的黑客松大賽上的第一手經驗:
- 銷量數據預測有哪些難點?
- 零售數據有哪些特徵、需要怎樣做預處理?
- 時間序列、樹模型、深度學習模型之間應該怎樣選擇?
- 如何進一步優化模型?
大家掃碼即可加入直播間??
時間:2月5日(周一)18:00
形式:語音+PPT直播
↑可永久回聽↑
文摘菌在這裡也針對公開課內容為大家做個簡要介紹:
黑客松比賽介紹
黑客松(Hackathon)是黑客+馬拉松(Hack+Marathon)的組合詞,又叫編程馬拉松,最初是流行於黑客(Hacker)群體的一種叫法,指多名黑客聚集在一起,以馬拉松(不間斷)的形式進行黑客活動。後來黑客松逐漸演化成一種活動模式,指一群人,在某一段特定的時間內,相聚在一起,以他們共同商定的方式,緊密合作、持續工作,實現一個共同的目標。
本次黑客松大賽由微軟聯合百威英博、可口可樂等零售行業大佬一起舉辦,微軟提供雲計算平台資源和技術支持,零售業大佬提供世界級快消品牌運營中的真實數據問題,參賽隊伍做出庫存需求、銷量預測等創新解決方案。
大賽涉及頂級level+真實場景,與當下火熱的新零售概念不謀而合。參賽隊伍均為已獲得融資的初創企業,成績通過創新性、商業前景、技術可行性、客戶業務結合度、成果展示等指標加權得出。更重要的是,通過線下的密切合作方式,可以與數據技術同行、潛在客戶以及投資方進行近距離的交流。
奪冠歷程
比賽由百威命題,我們(觀遠演算法團隊)選擇的題目是銷售數量預測(POS forecasting)。
這題的數據是百威全國各個渠道門店一年來的POS銷售數據,目標是預測下個月各個門店各個產品的銷量。門店總數有430+,產品總數有820+,總的數據量有400多萬條每日銷量記錄。
比賽現場百威啤酒隨意暢飲~
比賽的數據只有門店、商品ID,所以很多諸如門店位置、天氣情況、當地收入水平、各種體育賽事信息、搜索引擎的關鍵詞趨勢等等特徵都無法加入,給比賽增加了一定的難度。
為此,我們首先查看並分析了數據的統計特徵:
- 缺失值
- 數值分布
- 可視化
商品比較
初步分析後,我們對數據進行了預處理:
- 正則化:基於統計規則、基於模型預測、移動平均、對預測值做log處理
- 日期對齊
- 異常數據清理
接下來,就是特徵選擇了。在篩選了一些基礎特徵後,我們利用XGBoost葉子結點信息來生成新特徵。但是用GBDT生成的特徵進行數值回歸效果一般。
在此基礎上,我們發現了一種更加高效地實現從高維稀疏特徵來自動構建特徵向量空間的embedding方法,其原理類似於著名的Word2vec在自然語言處理領域的應用。針對構建好的特徵,用t-SNE進行降維處理,得到了各個月份,各個門店,各個商品的相關度。
t-SNE降維
門店vs商品的節假日、周期性規律
接下來就是模型的選擇和調試了。我們的基線是歷史平均(平均絕對百分誤差MAPE: 0.744),對比了時間序列模型、樹模型、深度學習相關模型之後我們發現,在沒有GPU的條件下,基於Keras + TensorFlow的神經網路表現一般(MAPE: 0.654),不如XGBoost(MAPE: 0.251)、LightGBM(MAPE: 0.256)。
Embedding
雖然深度學習相關方法看起來很吸引人,感覺不用做複雜的特徵工程了,但實際上各種網路的參數還是相當多的:embedding層的shape,全連接層的數量和大小,dropout設多少,要不要做batch norm,激活函數用什麼,預測值要不要做成分類問題,還是做歸一化轉成sigmoid處理?
最終,我們選擇了融合模型XGBoost、LightGBM、Random Forest,MAPE值為0.236。
模型部署
嘉賓介紹
周遠,花名位元組。畢業於浙江大學電氣工程學院,曾任職於微策略,阿里雲從事軟體性能優化,技術研發等工作。現作為觀遠數據技術合伙人,主要負責數據分析平台後端開發。
↑掃碼進入直播間↑
黑客松冠軍和你分享踩過的坑
推薦閱讀:
TAG:比賽 |