EMC杯智慧校園開放數據大賽
1 比賽背景
面對社會、科研、企業對於大數據人才的緊迫需求,上海交大網路信息中心聯合EMC卓越研究集團,於2015年4月共同舉辦「EMC杯上海交大智慧校園數據分析大賽」。這次數據分析大賽將開放校園數據並啟動數據訓練營,鼓勵同學和社會人士參與到大數據的學習和實踐之中。身為茫茫人海的一枚迷途小碼農,我也奮不顧身地加入了這場比賽中。
2 準備
由於比賽鼓勵使用R進行數據分析,而我對於R同樣也是聽聞已久,所以正好趁著數據訓練營的機會自學了一下R。看的書本是《R語言實戰》,相關的學習筆記也都整理成文章記錄在我的個人博客中。總之,一個多月的時間下來,對於R的基本知識有了一個全面的掌握。
3 初賽
掌握了R的基本知識後,就可以在實戰中驗證自己的學習成果了。本次校園開放數據比賽共開放了三類數據:一卡通消費數據、校園網wifi數據、閔行區氣象數據。說得更詳細一些:
- 商戶信息:共134項觀測,包含32個商戶系統、85個子商戶;
- 用戶信息:共30861項觀測,包含30861個一卡通賬戶、30812個學號,即有49名學生擁有兩個一卡通賬戶;
- 交易記錄:共7915289項交易記錄,時間跨度為2014-09-01至2015-01-31;
- 氣象記錄:共26660項氣象記錄,時間跨度為2014-08-15至2015-03-25;
- 校園網記錄:共12736408項校園網記錄,時間跨度為2014-09-01至2015-01-31。
我做的分析工作主要針對一卡通消費數據,首先是對數據的概要統計,包括用戶分布、商戶結構、歷史降雨和校園網紀錄。接著從消費類別總額、消費類別次數、消費類別均值、男生消費總額和女生消費總額等角度統計食堂就餐紀錄,並且以第三餐飲學生餐廳為例,分析其歷史就餐總額變化趨勢、雨天和晴天就餐情況對比、一天中不同時段的就餐密度等內容,從而研究食堂就餐量和降雨量、校園網活躍人數等因素之間的關係。最後,我分析了不同類別用戶在各個消費類別和商戶的消費分布,包括消費總額和消費次數等,並建立了橫向模式和縱向模式兩種模型來分析不同類別用戶的就餐模式。
最後的報告部署在EMC校園開放大數據比賽,代碼託管於我的Github。
4 決賽
我很幸運地進入了決賽,但主辦方考慮到我是一個人單幹,於是給我推薦了一位同樣單幹的小夥伴——上海同濟大學交通專業的金建棟學弟。學弟實力很強,在數據分析和R的掌握上有著更加深厚的功底。和學弟相比,我們兩做的很多內容有一些類似,也許我在可視化能力和思維邏輯上略勝一籌,但是學弟涉及到了數據質量管理、數據清洗、相關性檢測等偏理論的內容,同時還開發出了四款在線web應用,稱之為全站工程師一點也不過分。
經過一番融合和整理,我和學弟的比賽項目合併到了一起,即基於一卡通消費數據的用戶就餐分析。項目報告部署到了這裡,決賽答辯ppt也可以在上述Github的project.zip中找到。
決賽的最終結果是極為可惜地以2分之差(當然滿分是100分)錯過了「綜合應用數據大獎」,拿到了「最佳R語言應用」獎。第一名的團隊選擇校園網wifi數據作為分析對象,他們理智地看清了wifi流量中所蘊藏的巨大價值。我們反思的結果是,之所以沒有拿到第一名,是因為我們僅僅針對一卡通數據進行了分析,如果能夠結合多源數據,同時挖掘出校園網wifi數據中的有用信息,我們將會作出更精彩的成果。
決賽答辯記錄報道在(EMC杯智慧校園開放數據大賽【最佳R語言開發】 - 沉默的忘了愛《基於校園卡消費數據的行為分析》,成員訪談記錄在【即使你忘了愛,我們也記得你】致沉默的忘了愛(上篇)和一個不說話的暖男——「沉默的忘了愛」張宏倫。
5 分享會
在決賽之後,主辦方還舉辦了一場落地分享會,即邀請決賽中的優秀團隊對他們的作品做進一步的開發和分享,力求能將其產品應用到實際中。
這次我和學弟不僅僅停留於產出一份數據分析報告,我們更希望能呈現出一款完備的應用級系統;數據源也不再只是一卡通消費數據,我們做到了對一卡通消費和校園網wifi數據的360度全面分析。經過一個月的艱苦奮鬥,我們的產品逐漸成型,一款以構建智慧校園數據生態系統為願景的實時監測和分析統計系統——Elite。
Elite的意思是「精英」,即我們致於提取數據中最精華的部分給用戶,同時「E」表示數字化和信息化,「lite」和「life」相近,即智慧校園中的數據生活。
總的來說,Elite的功能包括以下幾個方面,校園實時監測、餐飲分析、學務管理、教學統計、個人顧問、Elite助手、信息共享等。
- 實時監測:包括實時人群監測、人群遷移趨勢和就餐人數預測等;
- 餐飲分析:包括各大商戶今日就餐總額和就餐次數等實時統計、實時就餐總額和歷史日均總額的計算、餐飲人群組成和各大食堂佔比的分析;
- 學務管理:包括男女生上網關鍵辭彙總、不同年級學生對不同關鍵詞的關注程度分析、本碩博學生不同場景不同時間wifi流量分布統計、學生在一卡通消費和wifi用網量上的分布、浴室人群流量實時監測和預測;
- 教學統計:包括校園設備、科研設備、教學設備統計,科研立項、科研到款、科研著作、論文發表統計,各大校區硬性指標對比,和各類別學生數量統計;
- 個人顧問:根據匿名處理後的學號獲取該學生的一卡通消費和校園網wifi數據,從勤奮係數、就餐係數、睡眠係數、清潔係數、恩格爾係數、個人評價、個人關注、用戶群分類等角度展示個性化統計結果;
- Elite助手:提供針對用戶個人定製化的推薦和建議,包括生活預警、學習預警、活動推薦、課程推薦、動態記錄等;
- 信息共享:包括「活動」、「點評」、「比賽」、「二手」、「租房」、「實習」、「校車」七大模塊,聚集校園裡各個方面的動態信息。
我們對於Elite的定位是智慧校園中數據source和sink之間的連接器,更具體的來說,在智慧校園這個不斷進行數據循環流動的生態系統中,學生和校方是數據的生產者,學生、校方以及商戶都是數據的消費者,而Elite則是數據的分解者。Elite實現了數據的處理加工和資源的整合重用,使得生態系統中的各個角色都能互助共贏。
我們使用prezi進行分享會的答辯,用我們的產品Elite得到了大家的認同。Elite部署在Elite - 智慧校園數據生態系統,代碼託管於我的Github,在裡面可以找到分享時使用的prezi。
6 總結
這次的比賽從集訓到分享會結束一共經過了三個多月的時間,在這個過程中,我掌握了R的基本使用和數據分析的流程,進一步強化了數據可視化的能力。我的作品也從一開始簡單的統計分析逐步改善,最終成長為完善強大的智慧校園數據分析系統,並被上海交通大學網路信息中心採納,作為智慧校園項目的初步展示和雛形框架。
推薦閱讀:
※北京為何被稱為是中國互聯網的中心?
※關於產品經理的幾點思考?
※產品經理成長訪談錄·滴滴劉朱坤
※虎牙直播特色是什麼?
※杭州保姆縱火案、羅一笑事件——2017年這些網路熱議話題你還記得嗎?