大數據白皮書(2018)
4月18日,在「2018大數據產業峰會」上,為更好促進大數據與實體經濟融合,研判技術發展路徑,總結管理痛點、描繪發展趨勢,總結行業應用滲透路徑,中國信息通信研究院(以下簡稱「中國信通院」)發布《大數據白皮書(2018年)》(以下簡稱「白皮書」)。(原文來自三個皮匠諮詢文庫,關注「三個皮匠」微信公眾號,每天分享最新行業報告)
中國信通院雲計算與大數據研究所大數據部主任魏凱對白皮書進行了解讀。他表示,在全球數字經濟浪潮下,我國大數據與實體經濟的融合應用不斷擴展。但是目前我國大數據發展仍然存在發展不均衡的現象,分別是業務類型不均衡、地域分布不均衡和行業分布不均衡。在大數據的行業應用上,有四個方面需要重視:一是要建立一體化的大數據平台;二是要形成良好的數據管理體系;三是打造平民化數據應用;四是組建強有力的數據管理部門。
隨著信息技術和人類生產生活交匯融合,全球數據呈現爆發增長、海量集聚的特點, 對經濟發展、社會治理、國家管理、人民生活都產生了重大影響。 近年來,我國的大數據在政策、技術、 產業、 應用等方面均獲得了長足發展。
一、 大數據發展概述
大數據是信息化發展的新階段。隨著信息技術和人類生產生活交匯融合,互聯網快速普及,全球數據呈現爆發增長、海量集聚的特點,對經濟發展、社會治理、國家管理、人民生活都產生了重大影響。在剛剛過去的 2017 年裡,大數據在政策、技術、產業、應用等多個層面都取得了顯著進展。
在政策層面,大數據的重要性進一步得到鞏固。黨的十九大提出「推動互聯網、大數據、人工智慧和實體經濟深度融合」 ,習近平總書記在政治局集體學習中深刻分析了我國大數據發展的現狀和趨勢,對我國實施國家大數據戰略提出了更高的要求。
在技術層面,以分析類技術、事務處理技術和流通類技術為代表的大數據技術得到了快速的發展。 以開源為主導、多種技術和架構並存的大數據技術架構體系已經初步形成。大數據技術的計算性能進一步提升,處理時延不斷降低,硬體能力得到充分挖掘,與各種資料庫的融合能力繼續增強。
在產業層面,我國大數據產業繼續保持高速發展。權威諮詢機構Wikibon 的預測表示,大數據在 2018 年將深入滲透到各行各業(everybusiness) 1。對於我國大數據產業的規模,目前各個研究機構均採取間接方法估算。中國信息通信研究院結合對大數據相關企業的調研測算, 2017 年我國大數據產業2規模為 4700 億元人民幣,同比增長30%。在這其中, 大數據軟硬體產品的產值約為 234 億元人民幣,同比增長 39%。而中國信息通信研究院《中國數字經濟發展與就業白皮書(2018 年) 》中的數據顯示, 2017 年我國數字經濟總量達到 27.2萬億元,同比名義增長超過 20.3%,占 GDP 比重達到 32.9%。在這其中,以大數據為代表的新一代信息技術對於數字經濟的貢獻功不可沒。
二、 大數據政策環境
在剛剛過去的 2017 年裡, 大數據從政策層面備受關注。 在黨的十九大報告「貫徹新發展理念,建設現代化經濟體系」一章中,專門提到「推動互聯網、大數據、人工智慧和實體經濟深度融合」,高屋建瓴地指出了我國大數據發展重點方向。 2017 年 12 月 8 日,十九屆中共中央政治局就實施國家大數據戰略進行了集體學習,習近平總書記深刻分析了我國大數據發展的現狀和趨勢,對我國實施國家大數據戰略提出了五個方面的要求。本章將對國家大數據政策進行梳理,並對國家大數據戰略的內涵進行分析。
三、 大數據技術創新
如今,大數據技術體系紛繁複雜,但其中有諸多技術格外受到關注。隨著社交網路的流行導致大量非結構化數據出現,傳統處理方法難以應對,數據處理系統和分析技術開始不斷發展。從 2005 年 Hadoop的誕生開始,形成了數據分析技術體系這一熱點。伴隨著數據量的急劇增長和核心系統對吞吐量以及時效性的要求提升,傳統資料庫需要向分散式轉型,形成了事務處理技術體系這一熱點。然而,時代的發展使得單個企業、甚至單個行業的數據都難以滿足要求,數據融合的價值更加顯現,形成了數據流通技術體系這一熱點。本章將對數據分析、事務處理、數據流通這三類典型的技術體系的最新進展進行介紹。
事務處理技術
隨著移動互聯網的快速發展,智能終端數量呈現爆炸式增長, 銀行和支付機構傳統的櫃檯式交易模式逐漸被終端直接交易模式替代。以金融場景為例,移動支付以及普惠金融的快速發展,為銀行業、支付機構和金融監管機構帶來了海量高頻的線上小額資金支付行為, 生產業務系統面臨大規模並發事務處理要求的挑戰。傳統事務技術模式以集中式資料庫的單點架構為主,通過提高單機的性能上限適應業務的擴展。而隨著摩爾定律的失效(底層硬體的變化),單機性能擴展的模式走到了盡頭,而數據交易規模的急速增長(上層應用的變化)要求資料庫系統具備大規模並發事務處理的能力。大數據分析系統經過 10 多年的實踐,積累了豐富的分散式架構的經驗, Paxos、 Raft 等一致性協議的誕生為事務系統的分散式鋪平了道路。 新一代分散式資料庫技術在這些因素的推動下應運而生。
如圖 2 所示,經過多年發展, 當前分散式事務架構正處在快速演進的階段, 綜合學術界以及產業界工作成果,目前主要分為三類:
1) 基於原有單機事務處理關係資料庫的分散式架構改造:利用原有單機事務處理資料庫的成熟度優勢,通過在獨立應用層面建立起數據分片和數據路由的規則,建立起一套複合型的分散式事務處理資料庫的架構。
2) 基於新的分散式事務資料庫的工程設計思路的突破。通過全新設計關係資料庫的核心存儲和計算層,將分散式計算和分散式存儲的設計思路和架構直接植入資料庫的引擎設計中,提供對業務透明和非侵入式的數據管理和操作/處理能力。
3) 基於新的分散式關係數據模型理論的突破。通過設計全新的分散式關係數據管理模型,從數據組織和管理的最核心理論層面,構造出完全不同於傳統單機事務資料庫的架構,從資料庫的數據模型的根源上解決分散式關係資料庫的架構。
數據流通技術
數據流通是釋放數據價值的關鍵環節。然而,數據流通也伴隨著權屬、質量、合規性、安全性等諸多問題,這些問題成為了制約數據流通的瓶頸。為了解決這些問題,大數據從業者從諸多方面進行了探索。目前來看,從技術角度的探索是卓有成效和富有潛力的。
從概念上講,基礎的數據流通只存在數據供方和數據需方這兩類角色,數據從供方通過一定手段傳遞給需方。然而,由於數據權屬和安全的需要,不能簡單地將數據直接進行傳送。數據流通的過程中需要完成數據確權、控制信息計算、個性化安全加密等一系列信息生產和再造,形成閉合環路。
除了以上兩種技術框架外, 近年來還湧現出多種數據流通的技術工具, 這裡將其列表總結如下。
四、 大數據與實體經濟融合應用
黨的十九大報告中指出,要加快大數據與實體經濟的深度融合。經過幾年的發展,各行各業對於大數據應用的重要性基本得到統一,但受限於各種各樣的因素,各行業的大數據應用水平還有較大差異。本節將以部分行業為例,分析各行業大數據發展現狀及原因,並給出行業大數據應用發展的路徑。
行業應用大數據的深層分析
企業和行業大數據應用體系其實就是在生產業務系統之外構建統一的企業級數據倉庫。回顧各個領先行業企業級數據倉庫建設路徑,從技術架構上大都經歷了從傳統資料庫或者數據倉庫的架構到 MPP資料庫架構再到 Hadoop 的架構體系。除技術架構外,企業級數據倉庫的建設還包括數據模型、數據管理體系以及數據應用體系的建設,整個企業級數據倉庫最終實施效果依賴於企業內部專業而有力度的組織機構來推動。 以下以金融、 電信、 能源、 交通、 互聯網等幾個行業為例,選取代表企業對其行業大數據應用情況進行簡要梳理。
從上表中不難看出,各行業(以代表性企業為例)在企業級數據倉庫建設方面進展不一。從技術角度來看數據倉庫建設較早的行業經歷了從傳統的數據倉庫過渡到 Hadoop 和 MPP 資料庫架構的過程,而數據倉庫建設較晚的行業由於後發優勢直接使用 Hadoop 或者 MPP 資料庫來了構建企業級數據倉庫。
五、 政務大數據發展
大數據是提升政府治理能力的重要方式之一。我國政府多年的信息化發展積累了海量的政務數據,如何健全和完善政務數據的應用機制、釐清政務存量數據、將數據進行共享開放、從數據中挖掘價值,最終用於政府治理,切實解決人民群眾在同政府打交道時的實際困難、社會企業對於政務數據的迫切需求和提升政府工作效率成為政務大數據深層次應用的最主要問題。
政務信息對外開放
政府數據資源是量體大、集中度高、輻射範圍廣、與社會公眾關聯緊密、開發利用價值高、積聚帶動效應明顯的大數據資源。推進落實政府數據開放建設工程,逐步實現政府數據依託兩大平台向社會開放,是建立健全數據驅動型增長新模式,推動經濟社會全面發展,促進治理能力現代化的重要抓手。
目前,我國各地政府數據開放進程都已起步。從地區來看, 已有十餘個省市依託各自的數據開放平台或專門網站開放了一批數據。如北京、上海、浙江、福建、貴州等試點地區,以及佛山、青島、武漢、長沙等地。截至 2018 年 1 月中旬,北京市數據開放平台已開放 42 個政務部門 18 個領域的 748 個數據集,上海市已開放 42 個政務部門12 個領域的 1564 個數據集,浙江省已開放 39 個政府部門 8 個領域的 292個數據集,貴州省已開放 58個部門 13個領域的 470個數據集,福建省數據開放平台對既有開放數據和數據查詢網站進行了整合。從行業來看,司法、信用、氣象、林業等部門通過專門網站提供數據的瀏覽下載。
六、 地方大數據產業發展
大數據產業對於推動地方經濟發展具有重要推動作用。一直以來,各地政府紛紛把大數據產業作為發展大數據的核心工作。截至 2018年 2 月底,地方政府對外公布了超過 110 份大數據相關政策文件,覆蓋 31 個省級行政區域。總體來看,我國大數據產業目前仍處於蓬勃發展階段,逐步形成區域協調發展局面。
大數據產業發展定位
在已發布大數據政策的地方政府中, 有 20 個省級或地市級政府明確提出了大數據產業發展定位,涉及面向全球、面向全國、面向區域等三個層面, 包括人才、創業創新、 數據資源聚集、 應用、產業中心等不同類型。
從已發布的大數據發展規劃文件來看,多個省市以發展面向全國的大數據產業中心或高地為目標, 部分省市在多方面發展大數據,以廣東為例, 提出了「用 5 年左右時間,打造全國數據應用先導區和大數據創業創新集聚區,搶佔數據產業發展高地,建成具有國際競爭力的國家大數據綜合試驗區」。中部、西部的一些省市也積極面向全國發展大數據, 例如,貴州提出到 2020 年,「大數據、雲計算應用和服務水平居國內領先地位,產業體系健全,成為西部地區重要的、全國有影響力的戰略性新興產業基地」。
七、 數據資產管理體系
近年來,數據治理和數據資產管理的重要性愈發凸顯。有效的數據資產管理是大數據與實體經濟深度融合的必經之路。數據成為資產的概念逐漸深入人心,甚至有人建議將數據計入資產負債表。 數據資產管理將從「理論」走向「實踐」,將影響數據的存量和增量,提升數據的質量和價值,保障數據的安全,為大數據應用及人們未來的便捷生活打下夯實的基礎。
數據資產管理在大數據技術體系中的定位如圖 4 所示,它位於應用和底層平台中間。數據資產管理包括兩個重要方面,一是數據資產管理的核心活動職能,二是確保這些活動職能落地實施的保障措施,包括組織架構、制度體系。數據資產管理在大數據應用體系中,處於承上啟下的重要地位。對上支持以價值挖掘為導向的數據應用開發,對下依託大數據平台實現數據全生命周期的管理。
目前,數據資產管理已經形成了一套科學的管理範疇。根據 DAMA等機構的總結,數據資產管理主要包含 9個活動職能和 2個保障措施,9 個活動職能指的是數據標準管理、數據模型管理、元數據管理、主數據管理、數據質量管理、數據生命周期管理、數據安全管理、數據資產價值評估和數據資產運營流通, 2 個保障措施包括組織架構和制度體系。
八、 數據立法重點
為應對大數據發展帶來的各種問題和需求,各國政府動作頻頻,通過修改原有法律法規、制定新的法律政策等方式,從國家、企業和個人三個維度出發, 完善政府數據開放、數據流通規則以及個人信息保護等方面的制度規定,為大數據的持續健康發展提供法律上的保障。
九、 建議與展望
大數據從概念產生到應用成熟,中間橫亘著一道又一道的障礙。能否突破這些障礙,關係到大數據能否發揮實效,真正成為引領信息技術變革、助力數字經濟發展、提升政府治理能力和公共服務水平的關鍵因素。在《大數據白皮書(2016 年)》中,我們提出了避免盲目跟風、推動數據共享、強調供需對接、完善法律制度、突出地方特色等五點建議。這些問題有些得到了改善,有些仍然是大數據發展過程中較大的問題。站在當下,我們提出針對大數據發展的如下幾點建議:
(一)制度與技術雙管齊下,打破數據孤島
(二)內部與外部多重並舉, 推動數據治理
(三)業務與數據加速融合, 深化數據應用
(四)監管與自律同時推進, 保障數據安全
推薦閱讀:
※R語言學習計劃,我的驅動力,足夠支撐我的選擇么?
※零基礎學大數據 你需要的書籍和視頻教程
※Hive0.13到Hive2.1跨版本升級全姿勢
※大數據入門書籍有哪些(二)
※一份詳細的大數據學習路線圖