第三章：大數據技術在配電網中的應用(數據處理)

02-27

配電大數據特點

配電網大數據主要有以下 4 個特點：1）數據體量大，達到 PB(petabyte)級：常規的調度自動化系統包含數十萬個採集點；配用電、數據中心將達到千萬級；2）數據類型繁多：包括實時數據、歷史數據、文本數據、多媒體數據、時間序列數據等各類結構化、半結構化數據以及非結構化數據； 3）價值密度低：所採集的絕大部分數據都是正常數據，只有極少量的異常數據，而異常數據恰恰是狀態檢修、故障預測和其他智能演算法訓練集等重要的依據；4）需快速處理：需在在毫秒級甚至微秒級時長內對大量數據進行分析，以支持決策制定。豐富的數據源——電力系統各個環節的運行數據和設備狀態在線監測數據將會帶來數據傳輸和存儲問題，這些問題會影響大數據技術的實際應用。
值得注意的是，配電網各類數據源系統中，有一部分數據直接來自底層感測器，比如饋線終端設備(feeder terminal unit，FTU)和數據傳輸單元(data transfer unit，DTU)，感測器直接採集的數據信息不一定能直接應用，測量設備工況的複雜性導致了狀態信息監測數據具有滯後性、不健全性、分散性和冗餘性，如果直接應用，可能導致計算結果產生誤差；還有一部分數據來自人工錄入，比如各類設備的試驗測試數據，人工錄入大量的數據極有可能出現失誤，這類數據的直接應用必然會給目標分析結果帶來一定影響。

配電網多源數據融合中的不良數據辨識

不良數據檢測與辨識方法

不良數據檢測是指判斷某次量測採樣中是否存在不良數據。不良數據辨識是指在發現某次量測採樣中存在不良數據後，確定哪個(或哪些)量測是不良數據。不良數據的處理已經成為一個熱門課題，目前國內外已經提出多種不良數據檢測與辨識的方法，大致分為以下 2類：

傳統的不良數據檢測方法包括目標函數極值檢測法、加權殘差法、檢測法或標準化殘差檢測法、量測量突變檢測法等。傳統的不良數據辨識方法主要有殘差搜索法、非二次準則法、零殘差法、估計辨識法等；
相對傳統的一些新理論和新方法主要有基於數據挖掘的模糊數學法、神經網路法、聚類分析法、間隙統計法等。這些方法大多針對傳統配電網比較簡單的小規模結構化數據。隨著智能配電網規模的不斷擴大、分散式電源的接入以及網路技術在配電系統中的廣泛應用，對於配電網中達到大數據級別的不良數據的檢測與辨識，傳統方法很難達到處理需求。

基於多源數據的不良數據辨識方法

根據配電網大數據多源、多渠道的特點，可基於不同來源的數據進行互校核，實現不良數據的檢測與辨識，包括電度量和量測量的互校核、不同數據系統間的互校核方法、不同結構數據的互校核等，如圖所示。

基於多源數據融合的不良數據辨識方法

基於電度量與量測量互校核的不良數據檢測方法：

按獲得方式分，配電網多源數據可劃分為電度量與量測數據，可採用電度量與量測量互校核辨識不良數據。基於不同系統間數據互校核的不良數據檢測方法。
配電網多源數據按獲得來源分，可分為來自不同系統的數據，來自不同系統間的數據可以進行互校核。如可結合配電網管理信息系統、生產管理系統的信息以及低壓台區互聯信息，確定配變用電類型，按照不同行業需量係數和典型日負荷曲線可擬合出該配變負荷曲線。

基於不同結構數據互校核的不良數據檢測方法。

配電網中含有結構化數據、非結構化數據、半結構化數據，但是不同類型的數據可能包含相同的信息量，如某一線路的長度可由地理信息系統中的非結構化圖形數據獲得，也可從生產管理系統中的結構化數據獲得，通過不同類型的數據進行互校核，可實現不良數據的辨識。
配電網中不同的數據源為配電網研究對象提供了多角度、多時間、多維度的數據描述，為了通過大數據分析充分挖掘有用信息，需要建立數據之間的關係數學模型。

配電網大數據關聯模型建模

配電網數據特徵化

配電網中的研究對象一般使用類進行描述，這種描述可以通過數據特徵化得到，數據特徵化是目標類數據的一般特性或特徵的匯總。特徵是一個數據欄位，表示數據對象的一個特徵。不同配電網研究對象有不同的屬性，不同的屬性有不同的數據類型，一個屬性的類型由該屬性可能具有的值的集合決定。

配電網數據鄰近性模型

數據的相似性和相異性都稱為鄰近性，配電網數據鄰近性模型具有廣泛的應用。例如，同一個負荷可能在不同的應用系統中有著不同的記錄，為了正確高效地進行數據分析，需要在數據集成時將多條記錄合併為一條記錄，因此需要對多條記錄的鄰近性進行計算分析。再如，需要定量描述投運時間對設備性能的影響。同時，鄰近性模型還是進行分類、聚類分析、離群點分析等深入研究的數據基礎。

配電網數據關聯模型

關聯規則由Agrawal、Imielinski和Swami提出，是數據中一種簡單但很實用的規則。配電網故障、狀態與原因之間存在關聯關係，發現故障屬性間的關聯特性可以更好地對設備進行故障監測與診斷。如分析配電網參數和暫態穩定性之間的關聯性，判斷發生故障時系統失穩的概率；如分析系統節點電壓變化特性與故障之間的關係，找出系統中最為敏感的節點；如尋找特定地點諧波電流與其他地點電壓之間的關聯度，確定諧波源位置、特徵及處理方法。也可在電力營銷和負荷管理中引入關聯分析，以指導供電公司制定合理的營銷策略，如在配網規劃中，分析城市用電量與GDP 增長率、第二產業比重、中心性等級、行政級別、氣候類型等因素之間的關聯關係。

配電網大數據分析方法和手段

配電網數據特徵聚類

聚類可用於將數據分割成多個類或子集，在聚類分析中類的數量是未知的。常見的聚類方法有劃分聚類法、層次聚類法、網格聚類法、基於模型的聚類法以及智能聚類法等。根據不同聚類方法的適用範圍及配電網大數據的特徵，通過研究基於配電網時空特性的數據聚類方法，能夠提出處理配電網時空特性的數據聚類解決方案。
從配電網調度系統和負荷監測中提取不同區域、不同類型的用戶負荷曲線，進行負荷特性聚類分析，為電力公司營銷和負荷管理提供依據，是近幾年電力系統聚類分析的研究熱點。通過對負荷曲線的聚類，可以作為負荷預測和電價預測的預處理過程；通過分析配電網線路和設備故障信息，形成具有相似變化的曲線簇，可更好地估計和抑制故障帶來的影響。

配電網數據特徵分類

分類是通過訓練產生的分類函數或分類模型將數據對象映射到 2 個或多個給定類別的方法。從機器學習的觀點，分類分析是一種有指導的學習，即其訓練樣本的分類屬性(類標號)的值是已知的，通過學習過程形成數據對象與類標示間對應的知識，這類知識也可稱為分類規則。
分類通過已訓練好的模型或分類規則來預測、標記未知的數據類。分類方法包括決策樹歸納法、 K 最近鄰法、向量空間模型法、貝葉斯分類法、支持向量機模糊分類及神經網路法等。在配電網配電變壓器故障識別和診斷中，可以通過貝葉斯分類方法將變壓器故障分類為內部或外部的接地和短路故障；也可以用神經網路來識別包括高溫、低能和高能狀態等故障類型。

配電網大數據快速分析技術路線

數據挖掘技術的選擇由相應需要解決的業務問題來決定。要解決一個業務問題，在一個數據挖掘的完整流程中，需要同時利用多種數據挖掘方法。例如在數據預處理階段，可以通過統計性描述方法對數據的本質、質量進行探索和分析，利用無量綱化的模型對數據進行標準化處理，也可以用聚類分析對臨群點進行探索等。基於配電網大數據聚類與分類技術，研究面向大規模配電網大數據的快速數據分析與處理技術，其技術路線如圖所示。

配電網時空特性的快速數據處理方法

數據密集型計算手段

目前分散式並行計算技術是數據密集型計算的主要手段。由於大數據的數據量和分散式的特點，使得傳統的數據管理技術難以勝任這種海量數據。很多企業開始想方設法把大數據存儲起來，不斷地嘗試新的大數據存儲架構、研究大數據分析方法技術。目前，在分散式並行計算與存儲的很多研究和應用中，Hadoop的分散式並行處理應用的比較多，比如互聯網網頁分析和大數據統計挖掘等。電力系統的優化分析方法大多是計算任務/數據密集型的，所以可依靠 Hadoop 較容易地開展分散式並行方面的計算和研究。基於 Hadoop 的分散式並行計算技術在國內電力行業中的應用研究還處於探索階段，研究內容主要集中在系統構想、實現思路和前景展望等方面。在國外，基於 Hadoop 的分散式並行計算應用目前已用于海量數據的存儲和簡單處理，已有實現並運行的實際系統。
分散式並行計算技術能夠為大規模複雜配電網分析計算提供強大的支撐，並能為供電企業和用戶提供大量的高附加值服務，這些增值服務將有利於電網安全監測與控制(包括故障預警與處理、供電與電力調度決策支持和更準確的用電量預測)、客戶用電行為分析與客戶細分、電力企業精細化運營管理、更科學的需求側管理等。
隨著信息技術和人工智慧技術的蓬勃發展，人們已經開始運用各種機器學習技術對海量數據進行有效信息的提取與處理。然而，由於數據分析內部的複雜性，使得利用現有挖掘演算法進行數據分析的時空代價比較大。有學者嘗試通過抽樣技術從數據集中挑選出具有代表性的部分數據，這樣可以大大提高運算效率，降低計算成本。抽樣是從待研究的全部樣品中抽取一部分樣品單位，通過對這些樣本的某些指標的統計來估計總體的指標。其基本要求是保證所抽取的樣品單位對全部樣品具有充分的代表性。抽樣的目的是從被抽取樣品單位的分析、研究結果來估計和推斷全部樣品特性。
抽樣的好處是能降低數據分析綜合成本。如總體樣本數量龐大，對每個樣本都進行研究將會產生大量的計算成本。當然，雖然抽樣方法縮小了數據樣本，但是用部分個體來推斷總體不可避免的存在著一定的誤差，即抽樣風險。
配電網中數據種類複雜多樣，各類樣本數據量龐大，如配電一次設備包含變壓器、開關設備、配電線路等，設備數量龐大、種類多樣、差異顯著，特別對一些價格低廉設備，全部安裝測量設備進行測量顯然是不經濟的；同時，單個設備包括的信息量大，如設備的使用年限、設備的安裝位置、設備使用環境、設備生產廠家、設備的運行數據等。針對該種情況，通過合理抽樣的方式降低單個樣本容量，用少量樣本儘可能反映全局信息，可以在一定程度上提升整體數據的計算能力。基於小樣本學習的機器學習方法是研究熱點之一，這將有助於配電網中大數據的降維。
根據樣本抽選方法，抽樣方法可以分為非概率抽樣和概率抽樣。概率抽樣是以概率理論和隨機原則為依據來控制樣本的抽中概率，非概率抽樣是調查者根據自己的方便或主觀判斷抽取樣本，沒有確定的抽中概率。
隨著高度共享、高效訪問、存儲便捷、處理迅速的雲計算技術的發展，海量數據存儲和結構化數據存儲可輕易實現，大量數據計算可通過雲端資源管理中心動態分配到不同伺服器中完成，然後再合併起來，終實現大計算任務。所以，雲計算的實現對配電網大數據處理意義非常，也使得抽樣技術顯得並非必然。
同時，因為雲計算資源管理可以跨越幾個不同的數據中心，可以根據需求動態分配和供應伺服器，使得同時生成針對不同目標的多個決策或方案成為可能。智能電網能夠共享與利用各類信息，為雲計算的數據基礎實現交互對接，實現電網和設備運行狀態的實時監控；實現用戶對能量流、信息流的實時查看與互動操作。這些都是雲計算的基礎支撐。
配電網數據呈現海量化高維化趨勢，雲計算需要分層分級處理。通過將電網劃分為多個區域 (子云)，可以提升雲計算系統的處理效率並有效緩解上層面向服務的計算平台壓力。而電力系統「分級管理、分層控制」的體系也為雲計算系統提供了子云結構劃分的參考。如圖所示，虛線包圍區域為子云劃分區域，變電站和微網成為基礎的子云單元，根據接線結構不同，子云之間也有關聯和包含關係。基於電力系統分層分散式結構建立起來的雲計算體系不僅實現了各級子云的劃分、整合了系統內部的計算資源，還提高了電網的數據處理和交互能力。

電力系統子云結構劃示意圖

待更新未完......

參考文獻

劉科研, 盛萬興, 張東霞,等. 智能配電網大數據應用需求和場景分析研究[J]. 中國電機工程學報, 2015, 35(2):287-293.
費思源，大數據技術在配電網中的應用綜述[J].中國電機工程學報，2018，38(1)，85-96.