大數據在未來生活中的運用?
哈爾濱理工大學孫名松談大數據在高校智慧校園中的應用
摘要: 2月15日,哈爾濱理工大學軟體學院院長、教授孫名松在CIO時代APP微講座欄目作了題為《大數據在高校智慧校園中的應用》的主題分享, 關鍵詞:
CIO時代APP
微講座2月15日,哈爾濱理工大學軟體學院院長、教授孫名松在CIO時代APP微講座欄目作了題為《大數據在高校智慧校園中的應用》的主題分享,具體從小數據時代與大數據時代、大數據在高校智慧校園中應用的案例兩部分展開敘述。
一、小數據時代與大數據時代 「數據(data)」在拉丁文里的意思是「已知」,也可以理解為「存在」。所以「數據」就是「存在」,「大數據」就是「大存在」。研究大數據,就是研究大存在,亦即研究一切物質、一切行為、一切思想,以及人類自身。 數據充斥並改造著人們的生活、工作。數據化是指把現象轉變為可指標分析的量化形式的過程,其中包含對世界的梳理、理解,並形成可保存的經驗。計算和記錄共同促成了數據的產生,是數據化的根基。而數字化是把模擬數據轉換成0、1表示的二進位碼,方便人類使用現代技術對數據進行更好的處理。數據化是一種思想,數字化是一種手段;數據化古而有之,數字化方興未艾。小數據時代依靠隨機採樣,其原則是以最少的數據獲得最多的信息。但如此,則無法了解一些微觀細節,不利於對某些特定子類進行分析。而「參差不齊是世界的本質」,細節缺失將會影響到對整個自然活動、人類活動的探索與研究。此外,隨機採樣以研究者的理論前提為設計基礎,只能對已遴選的問題進行解答,而難以慮及其他問題。也就是說小數據時代是以極其有限的信息面對有「偏見」的問題。
大數據時代,意味著將世界數據化,意味著世界的本質就是信息。世界不僅被看成一串事件的組合,更被看做信息的集合,數據的集合。這是世界觀的深刻變革:人類具備以往認識並處理事件的經驗而不盲從於經驗,人類採集「數據」但更明確「所見、所思、所得」皆為「數據」,我們生活在數據的海洋之中,我們自身即為數據。 以上,從小數據時代到大數據時代,伴隨或產生了以下幾種轉變與認識: 1、意識到「樣本」等於總體。用更大、更全、更綜合的態度來觀察、理解、關照世界。 2、大數據對於精確性的要求降低。在小數據時代,因為數據少,所以對數據的精確度要求非常之高,而當大量數據出現時或者要求數據量大時,必然需要接受數據的紛繁複雜。 3、要意識到數據錯誤並不是大數據的固有特性,而是需要處理的實際問題,該問題可能長期存在。 4、混雜絕不等於錯誤。混雜是大數據的常態,且應該是一種基本態和標準態。 5、大數據揭示了傳統樣本無法揭示的細節信息,大數據是通往「精準」處理的基本途徑。 6、大數據時代,不再熱衷於追求因果關係,而是試圖探尋不同事物之間的關係,在此基礎上找到可供觀察的關聯物,以進行預測。而預測,是大數據應用的核心所在。 7、相關關係被闡釋之後,可進行因果關係的分析。但是必須注意到,因果關係只是相關關係的特殊形式,因果關係在大數據時代已經不是解釋世界的基礎;相關關係是一種較為普通的存在,在大數據時代更容易被發掘,可以更高效地指導實踐,甚或隨著大數據的發展,以往的因果關係可能會被證偽,或被視為相關關係。其中第1點是大數據對於認識論的改造;第2—5點體現了大數據時代與傳統時代對數據要求的迥然不同;第6和7點則是數據間邏輯關係的優先性的顛覆。從實踐的角度而言,第1點可以作為前提,第2—5點可以作為數據搜集與處理的準則,第6和7點或可作為數據解釋的指導方向。
二、大數據在高校智慧校園中的應用 2015年國家提出並制定了「互聯網+」行動計劃,將「互聯網+」上升到了國家戰略。「互聯網+」的提出必將給高校智慧校園建設增加新的內涵、注入新的動力。藉助「互聯網+」推動數字校園加速向智慧校園升級,充分利用雲計算、物聯網、移動互聯、大數據等一系列新技術、新理念、新模式,打造全新的大學智慧校園,有力支撐大學未來發展戰略,帶動人才培養及評價方式的創新、提升校務治理水平,提供多層次的個性化服務和智能化管理決策,大學智慧校園建設的核心內涵可以概括為「全面的環境感知、無縫的網路互通、彈性的雲生態圈、海量的數據支撐、開放的學習環境、個性化師生服務、智能化管理決策、高效的校務治理」。 高校在信息化進程中,產生了各類結構化和非結構化的數據,包括教學管理數據、教學資源數據、學生信息數據等,大到高校的治校方針策略,小到學生的日常消費,數據繁多,類型複雜。利用大數據技術對這些數據進行搜集、分析,轉化為高校管理與服務可利用的資源,將對智慧校園建設起到非常重要的作用。 下面舉例說明大數據技術在智慧校園中的應用。 1、綜合校情展示 對學校管理者而言,通過綜合校情分析展示,可以對學校的在校生情況(本科生、研究生)、課程情況、科研成果情況、獎助情況、就業情況、教工情況、教師分布、幹部情況、傢具情況、資產情況、房屋情況、排名情況、消費情況等方面進行直觀的了解和橫向縱向的對比。結合曆年數據變化規律可以為輔助決策提供依據。不同系統之間數據的關聯性或許能夠給管理者決策提供新的思路。 綜合校情展示主要包括基礎數據分析展示和行為數據分析展示。 基本數據分析:如招生數據分析、學生數據分析、畢業數據分析、教師數據分析、課程數據分析、成績數據分析、就業數據分析、高校資產數據分析等。 行為數據分析:學校食堂就餐情況分析、一卡通消費行為分析、上網行為分析、圖書借閱行為分析、圖書館使用時長、上網時長/流量和成績之間的相關性分析、重點人群群體的特徵刻畫分析和預警等等。舉例說明:
(a)高校就業信息統計。從高校學生的畢業去向、就業單位、就業地區、就業行業、就業薪資等多維度進行統計分析,全面呈現高校就業情況,為高校就業辦發現學生就業規律、有針對性的進行學生就業指導提供支撐。 (b)教學信息統計分析。為校領導呈現了高校熱門課程排行、各院系開設課程統計和學生成績統計分析、掛科率分析,全面呈現學生在校期間的學習與成績分布,為指導高校課程開設、提高學生成績提供支撐。 (c)一卡通統計分析。展現了高校學生整體消費能力、消費偏好,為後勤部門了解學生餐飲、購物偏好,有針對性的提升服務水平提供支撐。 (d)各生源地消費能力。按照生源地統計該地區學生的消費能力,來詳細查看在某一段時間學生消費額和消費次數的統計。 (e)學校網路使用狀況分析和學生上網行為統計。通過對學生上網的地址進行統計、分析,結合其基礎的個人信息數據,可按不同的維度,比如性別、籍貫、院系等來統計出不同類別的人群,對於某類網站的使用頻率。如果記錄的日誌足夠詳細,甚至可以統計出學生在網上消費的喜好或偏向,對於後勤或學工等部門也是一個比較重要的參考。 應用到的相關技術有:數據關聯分析、多源數據整合、海量日誌數據處理、benchmark、指標體系建立、AgileBI、全文檢索引擎。 2、公共資源使用情況分析 對於高校而言,食堂就餐、體育場館、教室、圖書館、校醫院等各類公共資源有限,師生沒有很好的途徑獲知這些資源的服務能力情況,導致經常發生排隊、擁擠的情況,給師生學習、生活帶來了不好的體驗。隨著學校信息化的推進,各部門管理信息系統逐步建設並投入使用;隨著技術的發展,特別是物聯網和智能感知設備的出現,使數字校園智能服務成為了可能。 數據來源於一卡通消費、一卡通門禁、無線網、校園安全視頻監控等。(a)食堂、澡堂人員密度狀況及建議各食堂、公共澡堂各時段就餐人員密度情況,各類人員(年級、籍貫、職稱等)就餐愛好、習慣等。
(b)教室使用狀況、人員密度、各時間段教室使用情況、教室人數等;基於無線網路進行考勤。 (c)會議場館、體育場館使用狀況及人員密度。為師生提供會議場館的可用性查詢,體育場館的使用情況(有課、無課等),以及人員密度發布。 (e)圖書館座位使用狀況及人員密度發布,提供圖書館座位空閑情況及圖書館內人數等。 (f)校內人員密度分布。根據學校無線網數據、安全視頻監控信息,識別學校人員熱力分布圖。 應用到的相關技術有:數據關聯分析、數據挖掘(聚類分析)、海量日誌數據處理、多源數據整合(日誌數據與結構化數據整合)、高速內存資料庫、分散式全文檢索引擎。 3、個人數據報告 面向校園師生用戶提供個性化數據服務,展現師生在校園內學習、消費、生活、健康等 方面的個人行為習慣以,幫助學生從嚴謹的數據分析更加了解自己,以及與他人的差異,幫助校園師生感受信息化帶來的人文關懷與改變。 數據來源自一卡通消費、圖書館門禁、圖書借閱系統、校園網路系統、體育場館門禁等。(a)校園卡賬單及消費習慣分析報告;
(b)圖書館進出頻次、時長及借閱習慣分析報告; (c)網路賬單及上網習慣分析報告; (d)體育健身鍛煉學期報告。 通過高校官方微信號、APP進行手機推送,移動互聯網時代方便用戶及時閱讀、分享、傳播。 面向校園師生用戶提供個性化數據服務,展現師生在校園內學習、消費、生活、健康等方面的個人行為習慣以,幫助學生從嚴謹的數據分析更加了解自己,以及與他人的差異,幫助校園師生感受信息化帶來的人文關懷與改變。 應用到的相關技術有:數據關聯分析、數據挖掘(用戶畫像)、海量日誌數據處理、多源數據整合。 4、圖書館電子期刊資源使用效率分析 高校每年花費資金購買著名期刊論文集,為師生用戶提供便捷的文獻檢索和下載服務。圖書館電子期刊資源的使用情況、不同學科對於不同電子期刊資源使用偏好的差異,是圖書館亟需了解的內容。通過對高校用戶期刊文獻檢索記錄的大數據分析,優化論文期刊購買方案,使圖書館可以採購到師生更加需要的資源(傳統紙質+電子資源),提高現有採購效率。 學校通常的做法是向數據商(如萬方、CNKI)購買電子期刊資源訪問統計數據,而這種方式基於學校整體訪問數據做統計分析,無法基於用戶做訪問詳情的分析統計,從而無法獲取到基於不同學科門類、不同學院和專業特點、不同教師等級的不同人群期刊訪問情況分析,也無法了解到不同資源庫的使用情況橫向對比分析。對師生的檢索關鍵詞進行挖掘也是非常重要的方向,而傳統的做法無法了解學校師生用戶檢索電子期刊資源的檢索偏好、檢索熱門等具體信息。出口網路日誌數據記錄了師生訪問電子期刊資源庫的行為,通過大數據技術對出口URL日誌等數據進行處理及關鍵信息提取,關聯學校內部用戶信息數據,將實現圖書館電子資源使用的全面分析以及人群分析,為圖書館採購決策提供輔助。
數據來源自圖書館採購電子期刊資源列表、師生上網URL日誌、師生上網身份認證等。 應用到的相關技術有:數據關聯分析、海量日誌數據處理、多源數據整合(日誌數據與結構化數據整合)、分散式全文檢索引擎。 5、校園輿情監測 在移動互聯網大潮之下,無論是正面信息還是負面信息都會以更快的速度傳播。學校聲譽對學校招生、就業、評優評先等方面有很大影響,隨著移動互聯網和社交媒體的普及,高校越來越重視學校的社會評價。目前部分高校會利用互聯網數據監測學校聲譽,通過大數據的手段通過實時監測互聯網新媒體上與學校相關的新聞、傳播話題和用戶反饋,了解學校輿情、聲譽及影響力。 應用到的相關技術有:文本挖掘、語義分析(正負面判斷)、語義相似度計算、彈性爬蟲引擎、分散式全文檢索引擎。 我所了解的大數據在智慧校園中的應用還包括教學信息統計分析,通過對課程知識結構進行樣本分析,結合教育過程,綜合學生學習成績分布來驗證課程講授過程的合理性和工程教育認證中的達成度來綜合分析課程開設的合理性。 又如,學校資產管理信息分析,藉助於資產管理信息平台實現對校園基礎設施、教學實驗設備、校園通信網路設備等數據的採集分析,為學校基礎建設方向、教學實驗設備的維護、校園網通信設備的升級改造提供數據支持。 「智慧網格學生管理平台」,以高校信息技術和數字化校園建設成果為基礎支撐,建設以社區網格、管理網格、教育網格三個維度的網格為載體,面向學生髮展的綜合管理與服務流程優化的總體框架。對學生培養全生命周期中的生活、學業、思想等發展過程進行主動輔導,形成協同可持續的智慧管理與導引發展新模式,具有學生畫像、學生行為預警(在校狀況、學業、消費、身心健康)、學生家庭經濟狀況分析、學生綜合數據檢索、學生群體分析等功能,能夠輔助學工部門、院系管理者和輔導員開展學生安全教育管理、學生心理健康輔導、精準資助等工作,提升工作效率,促進學生管理工作創新與實踐。 由於時間關係,今天就交流這麼多。謝謝!推薦閱讀:
※「火焰獎」2017中國互聯網年度創新評選活動啟動
※致我們終將湮滅的傳統
※曾經風靡一時的QQ農場為什麼會沒落?
※他被前任劈腿,卻因此賺了幾百萬,666!
※互聯網大佬們的名片原來長這樣!