第一章：機器學習在能源互聯網中的應用綜述(一)

02-27

前言

AlphaGo 擊敗圍棋高手、無人駕駛汽車上路、醫療機器人 Watson 診斷出世界稀有病例，標誌著人工智慧，特別是機器學習(machine learning，ML) 技術正在走向主流，備受各行業關注。
與此同時，電力系統承載著越來越多的可再生新能源和電動汽車等主動式負荷，正在發展為信息與物理系統高度融合的能源互聯網，不斷產生維度高、類型廣、體量大的數據資源。傳統地單純依靠物理建模分析的理念方法，已無法充分適應智能電網高維、時變、非線性、受內外部多物理參量(環境、氣候、工況等)影響所帶來的綜合挑戰。
如何在電力系統管控各環節，全面有效利用 ML 技術，讓計算機從電源出力數據、電網潮流數據、用電負荷數據等諸多實際場景中發現問題、挖掘規律、輔助決策，以支持電力系統規劃、調度、檢修、營銷各生產實踐環節，是當前備受電力領域關注的熱點難點。
傳統 ML 演算法主要對數據的搜索、分類、比較、聚類、關聯等進行分析和歸納，注重挖掘數據集內隱藏的相關性，在計算機視覺、自然語言處理等具有千萬量級有效數據樣本的場景中取得巨大成功。
在電力領域，一些學者應用支持向量機、Logistics 回歸等，在新能源發電預測、用戶用電行為模式識別等多場景中取得有益結果。然而，當前一些機器學習演算法，如深度學習，在電力領域應用時存在局限性，例如：

其輸入一般需要足量且有效的訓練樣本。而在諸如電網故障診斷等應用場景中，獲得足量的表徵電網異常狀態的樣本較困難，且通常代價昂貴；
其任務多針對邊界確定的封閉環境，一旦環境開放、多變，可能導致結果失准、魯棒性差。而電力系統是開放動態系統，源–荷端皆存在不確定性和隨機性，加之運行工況、環境時刻變化，導致現有 ML 演算法尚未在諸如電網調度等對安全性、魯棒性要求高的場景中充分應用；
其演算法多為「黑箱模型」，在樣本訓練過程中，未有效利用電力系統相關知識對學習器進行指導，而僅僅挖掘樣本數據的「表象」規律，導致訓練的模型往往「只知結果，不明就裡」，對電力系統生產實踐的指導能力有限。

事實上，從控制論的角度，電力系統是典型的複雜灰箱系統。技術的不斷發展融合，使電力系統的認知和管控，常常需要採用機理分析與數據驅動相融合的科學研究範式。
一方面，電力領域的知識、經驗或經過嚴格數學論證，或在長期生產實踐中形成，實際指導價值巨大；另一方面，ML 能夠對數據進行智能分析，善於發現潛在問題、挖掘隱性規律。
如果能在 ML 演算法中融入一定的知識經驗，以引導學習器對數據樣本進行挖掘，例如：當學習器沿著正確的方向挖掘規律時予以肯定、強化，反之則進行糾偏、弱化，就可能實現學習器對輸入樣本要求的降低，對輸出結果安全性、魯棒性等性能的提升，並有望開發出更為通用的 ML 方法、覆蓋更廣的學習任務、拓寬其在電力領域的應用價值。

ML 發展歷史

ML 是人工智慧發展的產物。早在 1959 年，美國學者 Arthur 即初步給出 ML 定義：未經過明確編程而使計算機具有學習能力的方法。Arthur 還設計了一個下棋程序，該程序不斷在對弈中學習，歷時 4 年後戰勝了人類。此後數十年，機器學習經歷了多次熱潮和低谷，並於八十年代大發展，決策樹、歸納邏輯程序設計、BP 神經網路等演算法被相繼提出。九十年代中期，支持向量機得到學界認可，「統計學習」逐步走向主流。進入二十一世紀，隨著數據量大幅增加、GPU 並行計算等顯著提升運算性能，具有多層的神經網路——深度學習掀起了新一輪熱潮，並在語音、圖像處理等特定複雜場景中展現優越性能。
目前，ML 已發展為一個充滿活力的交叉研究領域，涉及統計學、逼近論、凸分析、計算複雜性、計算機科學、心理學、哲學等多學科，從初的基於神經元模型以及函數逼近論的方法研究，到以符號演算為基礎的規則學習和決策樹，以及後來認知心理學中歸納、解釋、類比等概念的引入，再到當下計算學習理論和統計學習大發展(包括強化學習)，ML 演算法如雨後春筍般層出不窮。根據輸入樣本的不同，可將 ML 演算法歸為 3 類（值得一提的是，還有另外一種分類方式，在以上三類之外，將半監督學習也單獨歸為一類。）：

監督學習(supervised learning)：樣本i 既有輸入特徵向量 xi，也有對應的輸出標籤 yi，學習器的目標是學習一個將輸入映射到輸出的一般規則，例如回歸分析。
非監督學習(unsupervised learning)：對樣本 i，僅有輸入特徵向量 xi 而沒有標籤 yi，學習器的目標是將樣本空間所有樣本進行分類，例如聚類分析。
強化學習(reinforcement learning)：學習器在一個動態可交互環境中執行某特定目標(例如駕駛汽車)，通過反覆試錯(trial-and-error)，以尋求可獲得大累積獎賞值為目標，尋找對應的參數集，從而得出一組優行為策略。典型應用場景如無人駕駛汽車、無人飛機。

通常，ML 目的是根據給定的訓練樣本或環境，求對某系統輸入輸出之間的依賴關係，使它能夠對未知輸出作出儘可能準確的判斷和預測。通過計算機模擬人的學習行為，自動地學習知識和技能，不斷改善性能，實現自我完善。儘管學界至今尚未對 ML 給出一個公認的定義，目前一種影響較大的是 H. Simon 的觀點：學習是系統中的任何改進，這種改進使得系統在開展同樣或類似工作時，能完成得更好。
實際上，ML 的發展與互聯網、生物醫學、航天航空等不同垂直領域的實際需求緊密相關，是一門應用驅動的科學技術，其理論基礎還遠未完備，甚至在一些方面還存在爭議。考慮這一原因，並受篇幅所限，本文在論述中不追求面面俱到，而是有所側重，著重對引導學習背後的工程背景、科學問題和實現技術等關鍵基礎問題進行分析，以期形成學科交叉協同、促進 ML 在電力系統的進一步發展。

電力系統對 ML 的需求探討

儘管 ML 已在可再生能源發電預測、負荷預測、用電模式分析等多個場景中取得進展，然而，ML 作為人工智慧的「排頭兵」之一，具有強大應用潛力，尚未在電網智能調度、管控、健康診斷等諸多領域發揮其巨大價值。而要達到這一目的，ML 需要在電力工程實際、科學研究機理和生產管理需要等層面，適應電力系統的需求。其中的關鍵一環，是要求 ML 融入領域的知識經驗。

工程實際層面

當前在工業界取得突破的 ML 方法對訓練樣本往往有數量上的要求，例如，機器翻譯的訓練數據通常包含上千萬個雙語句對，語音識別一般使用數千、上萬個小時標註數據，圖像識別需應用百萬、千萬有標籤圖像，而 AlphaGo 則使用了 3 千餘萬個棋局進行訓練。
電力工業數據主要特點如何呢?一方面，電力數據來源廣、體量大、類型多。發、輸、變、配、用電以及調度等各個環節，可產生達 PB 級別的數據體量(例如，調度自動化系統往往可含數十萬個採集點，配用電側直面用戶可達千萬量級)。數據類型涵蓋了結構化、半結構化和非結構化數據，包括實時/歷史數據，文本/多媒體數據、時間序列數據等。
而另一方面，電力大數據往往價值密度較低，即所採集的絕大部分數據通常為正常數據樣本，異常數據樣本很少但卻恰恰是 ML 所需的關鍵(例如，在故障診斷問題中，異常/ 故障的數據很少，而為獲取故障下的數據樣本，通過人為產生故障的方式代價過大)。此外，許多應用場景中未標記樣本量大且較易獲得，標記樣本量少且難於獲得。
為應對上述不足，統計 ML 演算法常常引入一些統計假設，以擴大樣本信息量。然而，當訓練數據不足或基準分布不可信時，演算法本身就可能被樣本數據以及相關假設條件等隱性偏置所誤導，其有效性難以保證。在對未標記樣本進行標記這一問題上，據統計，對於訓練樣例的精確標記不但需要領域中大量專家參與，且標記樣例花費的時間可能達到其獲取時間的 10 倍以上。人工標記大量樣本的方式費時費力，且存在偏頗或錯誤的可能。
因此，如果能藉助專業知識，在 ML 演算法中對大量無標記樣本進行指導，則有可能將大量未標記樣本利用起來，學習演算法的性能就可能提高。
實踐表明，一些 ML 演算法往往在訓練集表現好，而在實例集中表現相對較差，即前文所述的過學習問題。傳統 ML 以數據驅動為主，對於電力系統特別是涉及安全的應用場景，可能無法有效應用。以 Alphago 在 2016 年 3 月 13 日與李世石九段下出的「神之一手」為例，據研發 Alphago 的 Deepmind 團隊揭露，該盤比賽中 Alphago 於第 79 手開始發生錯誤，但機器直至第 87 手才發覺問題。這就表明，即便利用大體量的訓練樣本，仍可能導致輸出錯誤結果。有專家據此推論，人類犯錯，水平可能從九段降到八段。而機器犯錯，水平可能從九段降到業餘。試想，如果在電力調度時發錯指令，後果不堪設想。
因此，如果能將知識經驗融入 ML 演算法，使機器在數據訓練之前先掌握基本的知識經驗，避免單純挖掘數據規律而得出低級錯誤結論。那麼，即便輸出結果存在誤差，至少不會與基本知識相去甚遠。這對於安全性、魯棒性的提升是有益的。

研究機理層面

當有足量有效訓練樣本時，即便沒有任何專業知識，ML 演算法依然能夠產生良好結果。當專業知識完備，即便沒有任何訓練數據，也能夠直接解決問題。處於二者之間，則需要將數據與不盡完備的知識相結合，得到問題的優解。實際上，目前的電力系統技術更新換代迅速、涉及領域廣泛，單純依靠物理建模的方式已無法有效處理許多新問題，往往需要採用「灰箱模型」的方式進行研究探索。

知識資產管理層面

在長期生產實踐中，電力系統規劃、建設、運行、檢修、營銷等各環節，產生了大量有價值的知識經驗。例如，有經驗的調度員對系統運行安全裕度判斷準確，資深檢修工程師通過聽變壓器聲音即可判斷其是否運行良好。有效管理這些無形知識資產，有著重大的現實意義和經濟價值。以電網檢修、資產管理為例，它們皆屬於理論與實踐結合的知識密集型技術工作，對工程師專業知識和實際經驗依賴極強、要求極高。
然而，目前國內外普遍現狀是，一旦有經驗的工程師、技師退休，將造成知識經驗斷層，人才青黃不接，對電力公司造成重大損失。因此，如何有效開發與管理「知識資產」，引起各國電網普遍重視。而如果能在 ML 演算法中融入專業知識經驗，將可能探索出對專家知識經驗的獲取沉澱、共享和推理分析、系統性存儲等新的、系統性解決方法，實現對知識資產的有效管理。

參考文獻

尚宇煒, 馬釗, 彭晨陽,等. 內嵌專業知識和經驗的機器學習方法探索(一):引導學習的提出與理論基礎[J]. 中國電機工程學報, 2017, 37(19):5560-5571.