政務大數據的物理模型

03-05

宇塵埃 2018-2-24於京

在《政務大數據的邏輯模型》一文中提到，政務大數據在物理上分為「數據存儲、數據計算和數據服務」三個重要層面，其物理模型示意圖如下：

就政務大數據的物理模型整體而言，存儲層是技術基礎、計算層是核心能力、服務層是核心價值。立體、全方位（全面覆蓋數據訪問鑒權認證、數據安全傳輸和數據安全存儲等全過程&全生命周期）的安全保障機制與體系建設是政務大數據提供和使用服務的基本前提。綜合、系統化（充分運用系統工程思想，不斷提升、優化整個鏈條的價值再生&可持續能力）的運營支撐機制與體系建設是為實現政務大數據「自治和自優化」這一最終目標做準備的。註：在《政務大數據的本質》一文中提到：「政務大數據的未來是數據自治」。

有關政務大數據的立體安全保障機制與體系建設將在後續文章《政務大數據的安全》中具體展開，有關政務大數據的綜合運營支撐機制與體系建設將在後續文章《政務大數據的運營》中具體展開，本文重點討論政務大數據的存儲、計算和服務三層物理模型。

如同資源虛擬化是實現雲計算的重要具體技術，大數據也離不開數據倉庫、數據挖掘、決策支持、商業智能、分散式計算等傳統IT技術。然而，大數據是一個更加綜合、龐雜的生態體系，它需要IT技術的支撐但不僅僅是IT技術本身，其本質上還是數據，是能夠資源化的、有商業價值的數據。海量數據始終存在，但以前將其存儲起來是一個問題，隨著存儲軟硬體技術的發展，容量已經不是問題，可以實際利用的海量數據就產生了。還有就是計算能力的快速發展，使得基於海量數據進行全樣本的計算和分析由不可能變成現實。具體到政務大數據而言，很多時候其體量並不大，原因在於長期以來被人為的按照地域、按照職能、按照主題、按照數據類型分割了。這種分割的現狀源於之前對全樣本數據進行存儲、通信和計算的能力局限，以及數據的價值密度過低而持有成本過高。隨著互聯網產業的快速發展，以及物聯網、工業4.0以及機器智能技術的不斷成熟，政務大數據具備了發展的土壤，也具備了發展的時機。歸根到底，政務大數據的核心價值在於政務優化（協同、治理、服務和決策）。如果政務優化比作一個人的綜合價值，存儲層就是其記憶的信息和知識（記憶力和記憶量），計算層是其學和做的能力（智商和反應能力），服務層是其結果規劃、產出能力（大局觀、情商和效率）。

政務大數據的存儲層從大的方面來講就是要解決好結構化和非結構化兩類數據的存儲問題。這兩類數據並不孤立，而且需要相互轉化：非結構化的數據往往需要將其屬性信息結構化，如視頻、圖像、聲音、文檔等非結構化數據所表達的主題、關鍵詞、人物對象等信息往往會以結構化的方式予以展現；同時，結構化的信息也需要轉換成非結構化的形式，比如企業或個人信用信息往往需要形成一份可讀的文檔型的信用報告，還有類似語音導航、智能設備的智能控制，根據矢量數據進行地圖繪製以及三維建模等都是在把結構化的內容進行非結構化。因此，結構化和非結構化數據是緊密聯繫的，也是可以相互轉化的。不太認同劃分出第三類數據「半結構化」，基本上這類數據就是結構化數據和非結構化數據的混合模式。

鑒於政務信息資源的特點，其數據是結構化還是非結構化往往取決於其原始來源和用途目的的綜合作用。如攝像頭採集的是圖形、圖像信息或者音視頻信息，在交通及治安執法時需要識別人物（人臉）、車牌，就需要把非結構化的圖像轉化為結構化的信息。又如相關物聯網設備感測器採集的溫度、濕度、pm2.5、甲醛等結構化數據，往往需要刻畫出圖文並茂的環境質量報告。再如公共資源交易信息，即有非結構化的標書、投標書、技術圖紙等數據，也有結構化的交易主體、交易過程及結果信息、評審專家信息等數據。結構化和非結構化混合是常態，分別開來的時候往往是場景不同。

從具體的資料庫管理平台來講，傳統的資料庫如ORACLE、SQLSERVER、DB2、SYBASE、MYSQL、POSTSQL等以及達夢、人大金倉、南大通用等國產資料庫多為關係型數據（SQL資料庫），適合存儲結構化數據、適合事務處理（強調ACID特性：Atomicity、Consistency、Isolation和Durability）。與之對應的是NOSQL（Not only Sql）資料庫，這個種類比較龐雜，廣義來講面向文檔的MongoDB、CouchDB等，圖形(Graph)資料庫Neo4j、AllegroGrap、GraphDB等，內存資料庫memcached、Redis、ROMA等，面向列的Cassandra、HBase等（強調CAP特性：Consistency、Availability和Partitiontolerance）。從某種程度上來講，NOSQL是在分散式存儲的飛速發展和日益成熟而逐漸登上舞台成為SQL數據的重要補充的。當然，分散式存儲並非NOSQL數據的專屬，傳統的關係型資料庫也同樣對分散式存儲有較好的支持。如果說分散式計算本質是在充分共享利用關鍵計算資源和負載分擔，那麼對應於分散式計算的分散式存儲就是依賴於分散式文件系統，來提高存儲能力的可擴展性。

在搭建政務大數據的物理結構時，可以參考淘寶商城（採用阿里自主研發的Oceanbase和Tair），優酷（採用開放的HBase、MongoDB和Redis）等典型方案。考慮到結構化數據和非結構化數據的綜合支持以及自主可控的指標，也可以採用國產資料庫組合方案（DM/GBase/KingbaseES/OpenBASE/神通資料庫等+SequoiaDB巨杉資料庫等）或者開放的存儲平台（Mysql+HBase、MongoDB和Redis）以及基於全文檢索的ES（ElasticsSearch）/Apache Solr等。伴隨著雲計算的快速發展，致力於DaaS的雲資料庫也會成為搭建政務大數據存儲層的重要選擇（前提是安全、自主和可控三者的良好平衡）。

政務大數據的計算層是圍繞著政務業務來展開的，政務大體上可以分為協同（G2G：政府對政府）、治理（G2S：政府對社會）、服務(G2C：政府對公眾&G2B：政府對企業)和決策（G2S：政府對社會）四個部分。其中，政務大數據的治理和決策是政府對社會的治理和決策的重要組成部分；政務協同是政府對外提供政務服務的基礎，政府各組成部門以及公務員之間通過工作協同使政務數據協同起來、聚合起來形成統一的政務信息資源庫。政務的治理過程既是政府對社會的監督、管理基礎上的治理，也是對政務信息資源庫的數據治理。政務的服務與決策是基於政務信息資源庫的，也是以政務協同和治理為前提的。在提供服務和智慧決策的過程中，政務大數據的作用十分重要。因此，在政務活動中產生的政務大數據的原始信息——政務信息資源庫，需要通過關聯分析、聚類分析、分類、預測、時序模式和偏差分析等數據挖掘技術以及信息組合、數學建模、相關性分析等數據計算。

政務大數據的計算層就是要把分散在各個原始存儲單元中的數據進行重新組合、運算形成更全貌、綜合或者更深層次、全新的數據價值。從政務的特點來看，其實時/准實時計算里既包含面向業務分析的OLAP（實時在線分析），也包含面向業務的OLTP（實時事務處理）;非實時[離線]計算里，既包括面向業務分析的離線分析，也包括面向業務的離線處理。

就政務大數據而言，其計算層主要是面向業務分析的實時/准實時和離線計算。其中，政務大數據的離線計算仍是適用數據倉庫基本理論：如維度表和事實表的深度融合構成維度模型；基於數據立方體實現五種基本操作（consolidation/roll-up、drill-down、slice、dice和pivot）；融合了ROLAP[關係型]和MOLAP[多維]的HOLAP[混合型]分析；以ODS[Operational Data Store]為主要存儲模式等）。政務大數據的離線計算可以採用MapReduce分散式計算模型（如Spark集群計算環境）和Apache Hive基於Hadoop的數據倉庫工具；實時計算可以採用Apache Storm+Redis來實現；日誌處理方面可同時使用Flume（日誌收集管道）和Kafka（分散式消息隊列），日誌流向可以從log到Kafka，再從kafka到Strom上，再由Flume去讀取日誌消息。

政務大數據的服務層是基於計算層的支撐來實現的，按照計算層的政務協同、政務治理、政務服務和政務決策四類政務大數據群組，依次衍生出「協同流程、協同成效」，「治理體系、治理收益」，「服務提供、服務優化」和「政務研判、政務預測」等八大政務業務主題域。

其中，協同流程重點是提供政務活動的業務流程、過程數據支持，協同成效是對政務活動的價值評估、衡量，兩者共同構成政務大數據在協同層面提供的數據基礎服務、增值服務和價值創新；治理體系是政務監管評價、綜合治理在政務數據層面上進行具體保障的系統性規劃以及工具集、作業集，治理收益是治理效果的具體量化、數據展現；服務提供和服務優化也是相輔相成的，前者是基礎、後者是用於政務服務的自我改進、提升；政務研判是對政務活動的研究、分析和判定，核心目標是政務預測，即服務於對政務活動的未來預測、更好支撐未來的政務活動。從技術落地上來講，政務大數據的服務層是需要可視化技術、機器智能技術進行支撐的，前者用於展現展示和基礎互動，後者用於基於AI技術的虛擬「專家」智庫/團隊。其中，可視化技術未來必然是要和VR（Virtual Reality）、AR（Augmented Reality）、MR（Mixed Reality）、HR（Holographic Reality）、ER（Expander Reality）等XR技術相融合，來提高人與數據的互動。

關於政務大數據在服務層的8大業務主題域（政務大數據的本質就是政務，所以也是政務的8大業務主題域），計劃在漫談政務大數據系統文章完稿後，再分別做專題討論，所以本文就不再進一步深入闡述了。

簡言之，政務大數據的物理模型是服務於其概念模型，依據其邏輯模型進行政務大數據的實際實施、落地的。政務大數據的範圍非常廣泛，本文僅對整體脈絡、通用業務、常用技術進行了說明。鑒於作者本人的學識、經驗所限，相關內容難免有偏頗甚至錯誤之處，非常歡迎感興趣的同仁一起研討。同時，也會持續在該領域進行研究，並將心得、體會及時與大家分享。

原文首發：

政務大數據系列6：政務大數據的物理模型mp.weixin.qq.com