第二章:機器學習對配電網健康指數分析

以配電網健康指數綜合分析與診斷為例,探討如何將機器學慣用於科學研究及實踐應用。配電網健康指數是一個相對較新的研究熱點,對健康指數做了簡要討論 .

配電網健康指數

研究背景

  • 現代配電網是承載高滲透率分散式能源、儲能、電動汽車等的綜合平台,而其物理基礎是新舊設備和網路的集成。據統計,傳統配電網固定設備資產或超過配電公司資產總額的2/3,運維檢修、資產管理投入或超過公司總投入的1/2。
  • 配電網的可靠運行、相關技術發展應用,都基於對現有配電網的感知,特別是對現有設備和網路健康狀況的深刻了解。然而,配電網直接面向終端用戶,運行工況複雜,受到來自電、熱、機械等多物理域信息參量的綜合影響,在配網側發生的故障停電或超過85%。
  • 近年來,在我國分散式新能源滲透率不斷提高,配電網建設改造行動計劃(2015—2020 年),以及輸配電價核定、售電側改革等新形勢下,如何全面系統掌握配電設備和網路健康水平,實現量大面廣配電資產的科學精益管控,以確保電網安全可靠、高效低碳運行,已成為智能配電網發展的關鍵科學命題。
  • 為應對以上問題,借鑒於人體健康指數理念及其在航天器、生物系統等多個領域的成功應用的經驗,開展配電網健康指數(health index,HI)研究,可為配電網綜合智能評估診斷提供可行技術方案。

研究現狀

  • 輸配電設備健康指數概念起源於上世紀八十年代英國電力行業私有化之後。它通過一種相對複雜的信息組合,在對設備各種信息轉化的基礎上,結合現場設備的運行工況,計算出一個在區間[0,10]的單一數值,以表徵設備健康水平。其目的是利用健康指標體系表徵設備的功能和性能,以降低設備運維檢修費用、提高設備可靠性。
  • 其應用對象以變壓器、開關、電纜等一次設備為主。後來,設備健康指數概念逐步發展為一種理念並被逐步推廣應用至供電可靠性、資產管理等多學科領域。
  • 國內在健康診斷方面的研究起步相對較晚,並且研究對象以高壓設備狀態診斷為主,例如發電機、變壓器、斷路器等,而針對低壓設備和配電網的研究則相對很少,健康指數的定義、內涵和外延尚缺乏相對深入的研究,亟需形成一套配電設備與網路健康指數評估診斷的方法,主要局限性有:
  1. 以往研究中,通常以歷史統計信息作為設備健康程度的診斷參數,忽略了實際工作環境的動態變化;對於配電網的綜合評估診斷也往往僅反應設備故障、網架結構、外界環境、運維等諸多要素中的一個或局部,缺乏整體性和多元化。
  2. 配電網涉及的設備種類繁多、量大面廣,同時受到來自電、熱、機械等不同物理域參量的綜合影響,如何有效地收集量化各類設備與運行條件相依的健康指標,構建健康診斷模型,區分健康分級和風險程度,並通過健康狀態指標體系多維度、多層面科學、客觀、完整的展現電網在安全、可靠、經濟、接納綠色能源等方面的性能,亟待深入研究。

配電網健康指數

  • 為應對上述問題,通過借鑒國際先進經驗並結合我國配電網實際情況,將配電網健康指數定義為:衡量和表徵配電網健康狀態的一個數值,可綜合衡量配電網路的能力、性能表現(安全、可靠、經濟、綠色 4 個維度),可基於對象的關鍵特徵量經過複雜的邏輯和數學運算獲得,為配電網規劃、檢修、運行等提供一個科學的新視角和新維度。 HI建模所考慮的因素包括:不同一次設備的健康指數、網路拓撲結構、運行現狀與歷史數據、外部因素(如天氣)等。如下圖所示,配電網健康指數評估診斷,實際上是一個在開放、動態環境下,包含多維多層次輸入特徵參量的非線性多分類問題

配電網健康指數層次結構圖

  • 通過多層次輸入數據的不斷融合,分別獲得各類設備的健康指數。進而,在進行網路健康指數計算時,通過各種技術手段,將大量底層參量融合、降維至9 項關鍵特徵量(為便於運維檢修人員實際工作,該9 項關鍵特徵量均為離散參量。
  • 值得一提的是,在選取特徵參量時,遵循了科學、可行、全面、簡潔等準則。隨著後續研究不斷深入,可對上述特徵量作進一步優化。

健康指數研究對機器學習的需求

  • 對複雜系統的分析診斷,一種典型的方法是以物理解析模型的構建為主。該方法需要對被診斷對象建立較為精確的數學模型,因而對物理模型的完備性、實際工程經驗的豐富性要求極高。然而,由於診斷對象日趨複雜,獲取準確、完備、有效的診斷模型越來越困難。
  • 配電網綜合健康診斷,受到多維度特徵參量的複雜耦合影響,具有不確定性、隨機性、物理解析模型不盡完備等特點,單純依靠物理模型解析求解較為困難,也無法滿足智能電網的發展需求。
  • 實際上,對智能系統而言,具備學習能力是其根本的特徵之一。而機器學習作為人工智慧領域具智能特徵和前沿的研究領域之一,能夠有效獲取、傳遞、處理、再生和利用多源信息,從而實現配電網的健康狀態識別和狀態預測。學界利用機器學習開展了多項研究。這些研究方法中,主要利用了標記樣本或非標記樣本的內部關係,發掘數據內部潛在的結構。
  • 當前,PMS、DA、EMS 等可為配電網健康診斷提供大量基礎數據,但這些歷史數據所對應的健康狀態並未清楚知道,即標記樣本數量少。鑒於配電網健康診斷是在具有隨機性、動態環境下的模式分類問題,因而可通過專業知識和經驗,指導學習器對樣本進行訓練,自適應改進學習模型性能。
  • 綜上,為解決開放、隨機環境下的多模態非線性分類問題,利用引導學習嵌入相關知識經驗,可有效結合專業知識和機器學習方法的優勢,避免傳統學習方法在學習時的欠/過學習、泛化能力不高等問題,提升模型性能。

機器學習「單元」化軟體系統

  • 當前,機器學習在演算法層面研究較多,而應用研究則鮮有報道。本節探討電力系統中機器學習軟體/平台的基本架構。當前,計算機技術和機器學習呈現以下新趨勢:
  1. 分散式計算。隨著問題複雜程度不斷提升,將多個計算任務分布到多個處理器中,將訓練數據及其中間計算結果分布開來,能夠處理更大數據量、更複雜數據結構,並從數據中有效歸納知識和規律。
  2. 現代端到端學習(end to end)。隨著機器學習和大數據技術飛速發展,現代端到端學習將實現更為廣泛複雜的學習任務,特別是對錶征較為抽象的輸入及輸出,不必經過多次數字化轉換和其他中間過程,即完成相關學習任務。
  • 結合電力系統的典型計算、分析及應用需求,為將機器學習系統模塊化、單元化,以便不同專業技術人員各司其職,獨立、並行地開發,可靠、高效地應用,便捷、有效地調試維護,筆者提出「學習單元」的設計開發機制。
  • 以谷歌機器學習系統為例,考慮到機器學習通常循環執行數據收集、數據預處理、模型訓練、模型服務等4 部分,本文給出一種機器學習軟體/平台通用設計框架。如下圖所示,該框架以配電網健康指數診斷為例,探索了一種利用實體數據進行端到端學習的方法。

機器學習平台/系統設計框架

  • 考慮到工程實際中數據種類多、體量大,傳統以單台/多台伺服器構成的集群難以滿足要求,因此可藉助具有高度分散式的雲伺服器、在雲端完成數據的存儲和處理。進而,採用分散式資料庫存儲的方式,將單個關係型資料庫進行橫向擴展,形成資料庫集群,與雲伺服器建立連接,將多源異構數據存儲在相應伺服器上,實現安全、可靠、高效的數據管理與應用。
  • 具體地,在數據預處理單元,雲伺服器根據需求從相應資料庫提取數據;模型訓練單元,通過在雲端利用引導學習演算法進行分散式計算,獲得學習模型,進而利用模型服務單元進行結果展示/解釋分析。
  • 具體軟體實現層面,可採取適用於大數據集並行計算的Map Reduce 分布編程模型,以高效實現並行計算所需的映射和化簡核心功能。數據平台可採用結構化語言(SQL)對資料庫中的數據進行管理,包括查詢、插入、修改和刪除,通過快速I/O 介面實現數據的快速讀寫操作。對於大量半結構化數據(semi-structure data)和非結構化數據,可採用 NoSQL 進行存儲管理,例如 Google 的 Bigtable,Amaze 的 Dynamo,以及 Apache 的 Hbase 等。
  • 針對實際問題需要,可根據經濟性、可靠性、安全性等方面的具體要求,從上圖中選擇相關「單元」搭建所需機器學習系統。

參考文獻

尚宇煒, 馬釗, 彭晨陽,等. 內嵌專業知識和經驗的機器學習方法探索(二):引導學習的應用與實踐[J]. 中國電機工程學報, 2017, 37(20):5852-5861.

推薦閱讀:

Machine Learning: 機器學習項目Top 30 (v.2018)
Fisher Linear Discriminant Analysis(Fisher線性判別分析)
Learning Explanatory Rules from Noisy Data 閱讀筆記1
DeepLearning.AI 學習筆記(一)
為什麼我們需要傳統方法?

TAG:電氣工程 | 機器學習 | 智能電網 |