第一章:機器學習在能源互聯網中的應用綜述(一)
02-27
前言
- AlphaGo 擊敗圍棋高手、無人駕駛汽車上路、醫療機器人 Watson 診斷出世界稀有病例,標誌著人工智慧,特別是機器學習(machine learning,ML) 技術正在走向主流,備受各行業關注。
- 與此同時,電力系統承載著越來越多的可再生新能源和電動汽車等主動式負荷,正在發展為信息與物理系統高度融合的能源互聯網,不斷產生維度高、類型廣、體量大的數據資源。傳統地單純依靠物理建模分析的理念方法,已無法充分適應智能電網高維、時變、非線性、受內外部多物理參量(環境、氣候、工況等)影響所帶來的綜合挑戰。
- 如何在電力系統管控各環節,全面有效利用 ML 技術,讓計算機從電源出力數據、電網潮流數據、用電負荷數據等諸多實際場景中發現問題、挖掘規律、輔助決策,以支持電力系統規劃、調度、檢修、營銷各生產實踐環節,是當前備受電力領域關注的熱點難點。
- 傳統 ML 演算法主要對數據的搜索、分類、比較、聚類、關聯等進行分析和歸納,注重挖掘數據集內隱藏的相關性,在計算機視覺、自然語言處理等具有千萬量級有效數據樣本的場景中取得 巨大成功。
- 在電力領域,一些學者應用支持向量機、Logistics 回歸等,在新能源發電預測、用戶用電行為模式識別等多場景中取得有益結果。然而,當前一些機器學習演算法,如深度學習,在電力領域應用時存在局限性,例如:
- 其輸入一般需要足量且有效的訓練樣本。而在諸如電網故障診斷等應用場景中,獲得足量的表徵電網異常狀態的樣本較困難,且通常代價昂貴;
- 其任務多針對邊界確定的封閉環境,一旦環境開放、多變,可能導致結果失准、魯棒性差。而電力系統是開放動態系統,源–荷端皆存在不確定性和隨機性,加之運行工況、環境時刻變化,導致現有 ML 演算法尚未在諸如電網調度等對安全性、魯棒性要求高的場景中充分應用;
- 其演算法多為「黑箱模型」,在樣本訓練過程中,未有效利用電力系統相關知識對學習器進行指導,而僅僅挖掘樣本數據的「表象」規律,導致訓練的模型往往「只知結果,不明就裡」,對電力系統生產實踐的指導能力有限。
- 事實上,從控制論的角度,電力系統是典型的複雜灰箱系統。技術的不斷發展融合,使電力系統的認知和管控,常常需要採用機理分析與數據驅動相融合的科學研究範式。
- 一方面,電力領域的知識、經驗或經過嚴格數學論證,或在長期生產實踐中形成,實際指導價值巨大;另一方面,ML 能夠對數據進行智能分析,善於發現潛在問題、挖掘隱性規律。
- 如果能在 ML 演算法中融入一定的知識經驗,以引導學習器對數據樣本進行挖掘,例如:當學習器沿著正確的方向挖掘規律時予以肯定、強化,反之則進行糾偏、弱化,就可能實現學習器對輸入樣本要求的降低,對輸出結果安全性、魯棒性等性能的提升,並有望開發出更為通用的 ML 方法、覆蓋更廣的學習任務、拓寬其在電力領域的應用價值。
ML 發展歷史
- ML 是人工智慧發展的產物。早在 1959 年,美國學者 Arthur 即初步給出 ML 定義:未經過明確編程而使計算機具有學習能力的方法。Arthur 還設計了一個下棋程序,該程序不斷在對弈中學習,歷時 4 年後戰勝了人類。此後數十年,機器學習經歷了多次熱潮和低谷,並於八十年代大發展,決策樹、歸納邏輯程序設計、BP 神經網路等演算法被相繼提出。九十年代中期,支持向量機得到學界認可,「統計學習」逐步走向主流。進入二十一世紀,隨著數據量大幅增加、GPU 並行計算等顯著提升運算性能,具有多層的神經網路——深度學習掀起了新一輪熱潮,並在語音、圖像處理等特定複雜場景中展現優越性能。
- 目前,ML 已發展為一個充滿活力的交叉研究領域,涉及統計學、逼近論、凸分析、計算複雜性、計算機科學、心理學、哲學等多學科,從 初的基於神經元模型以及函數逼近論的方法研究,到以符號演算為基礎的規則學習和決策樹,以及後來認知心理學中歸納、解釋、類比等概念的引入,再到當下計算學習理論和統計學習大發展(包括強化學習),ML 演算法如雨後春筍般層出不窮。根據輸入樣本的不同,可將 ML 演算法歸為 3 類(值得一提的是,還有另外一種分類方式,在以上三類之外,將半監督學習也單獨歸為一類。):
- 監督學習(supervised learning):樣本i 既有輸入特徵向量 xi,也有對應的輸出標籤 yi,學習器的目標是學習一個將輸入映射到輸出的一般規則,例如回歸分析。
- 非監督學習(unsupervised learning):對樣本 i,僅有輸入特徵向量 xi 而沒有標籤 yi,學習器的目標是將樣本空間所有樣本進行分類,例如聚類分析。
- 強化學習(reinforcement learning):學習器在一個動態可交互環境中執行某特定目標(例如駕駛汽車),通過反覆試錯(trial-and-error),以尋求可獲得 大累積獎賞值為目標,尋找對應的參數集,從而得出一組 優行為策略。典型應用場景如無人駕駛汽車、無人飛機。
- 通常,ML 目的是根據給定的訓練樣本或環境,求對某系統輸入輸出之間的依賴關係,使它能夠對未知輸出作出儘可能準確的判斷和預測。通過計算機模擬人的學習行為,自動地學習知識和技能,不斷改善性能,實現自我完善。儘管學界至今尚未對 ML 給出一個公認的定義,目前一種影響較大的是 H. Simon 的觀點:學習是系統中的任何改進,這種改進使得系統在開展同樣或類似工作時,能完成得更好。
- 實際上,ML 的發展與互聯網、生物醫學、航天航空等不同垂直領域的實際需求緊密相關,是一門應用驅動的科學技術,其理論基礎還遠未完備,甚至在一些方面還存在爭議。考慮這一原因,並受篇幅所限,本文在論述中不追求面面俱到,而是有所側重,著重對引導學習背後的工程背景、科學問題和實現技術等關鍵基礎問題進行分析,以期形成學科交叉協同、促進 ML 在電力系統的進一步發展。
電力系統對 ML 的需求探討
- 儘管 ML 已在可再生能源發電預測、負荷預測、用電模式分析等多個場景中取得進展,然而,ML 作為人工智慧的「排頭兵」之一,具有強大應用潛力,尚未在電網智能調度、管控、健康診斷等諸多領域發揮其巨大價值。而要達到這一目的,ML 需要在電力工程實際、科學研究機理和生產管理需要等層面,適應電力系統的需求。其中的關鍵一環,是要求 ML 融入領域的知識經驗。
工程實際層面
- 當前在工業界取得突破的 ML 方法對訓練樣本往往有數量上的要求,例如,機器翻譯的訓練數據通常包含上千萬個雙語句對,語音識別一般使用數千、上萬個小時標註數據,圖像識別需應用百萬、千萬有標籤圖像,而 AlphaGo 則使用了 3 千餘萬個棋局進行訓練。
- 電力工業數據主要特點如何呢?一方面,電力數據來源廣、體量大、類型多。發、輸、變、配、用電以及調度等各個環節,可產生達 PB 級別的數據體量(例如,調度自動化系統往往可含數十萬個採集點,配用電側直面用戶可達千萬量級)。數據類型涵蓋了結構化、半結構化和非結構化數據,包括實時/歷史數據,文本/多媒體數據、時間序列數據等。
- 而另一方面,電力大數據往往價值密度較低,即所採集的絕大部分數據通常為正常數據樣本,異常數據樣本很少但卻恰恰是 ML 所需的關鍵(例如,在故障診斷問題中,異常/ 故障的數據很少,而為獲取故障下的數據樣本,通過人為產生故障的方式代價過大)。此外,許多應用場景中未標記樣本量大且較易獲得,標記樣本量少且難於獲得。
- 為應對上述不足,統計 ML 演算法常常引入一些統計假設,以擴大樣本信息量。然而,當訓練數據不足或基準分布不可信時,演算法本身就可能被樣本數據以及相關假設條件等隱性偏置所誤導,其有效性難以保證。在對未標記樣本進行標記這一問題上,據統計,對於訓練樣例的精確標記不但需要領域中大量專家參與,且標記樣例花費的時間可能達到其獲取時間的 10 倍以上。人工標記大量樣本的方式費時費力,且存在偏頗或錯誤的可能。
- 因此,如果能藉助專業知識,在 ML 演算法中對大量無標記樣本進行指導,則有可能將大量未標記樣本利用起來,學習演算法的性能就可能提高。
- 實踐表明,一些 ML 演算法往往在訓練集表現好,而在實例集中表現相對較差,即前文所述的過學習問題。傳統 ML 以數據驅動為主,對於電力系統特別是涉及安全的應用場景,可能無法有效應用。以 Alphago 在 2016 年 3 月 13 日與李世石九段下出的「神之一手」為例,據研發 Alphago 的 Deepmind 團隊揭露,該盤比賽中 Alphago 於第 79 手開始發生錯誤,但機器直至第 87 手才發覺問題。這就表明,即便利用大體量的訓練樣本,仍可能導致輸出錯誤結果。有專家據此推論,人類犯錯,水平可能從九段降到八段。而機器犯錯,水平可能從九段降到業餘。試想,如果在電力調度時發錯指令,後果不堪設想。
- 因此,如果能將知識經驗融入 ML 演算法,使機器在數據訓練之前先掌握 基本的知識經驗,避免單純挖掘數據規律而得出低級錯誤結論。那麼,即便輸出結果存在誤差,至少不會與基本知識相去甚遠。這對於安全性、魯棒性的提升是有益的。
研究機理層面
- 當有足量有效訓練樣本時,即便沒有任何專業知識,ML 演算法依然能夠產生良好結果。當專業知識完備,即便沒有任何訓練數據,也能夠直接解決問題。處於二者之間,則需要將數據與不盡完備的知識相結合,得到問題的 優解。實際上,目前的電力系統技術更新換代迅速、涉及領域廣泛,單純依靠物理建模的方式已無法有效處理許多新問題,往往需要採用「灰箱模型」的方式進行研究探索。
知識資產管理層面
- 在長期生產實踐中,電力系統規劃、建設、運行、檢修、營銷等各環節,產生了大量有價值的知識經驗。例如,有經驗的調度員對系統運行安全裕度判斷準確,資深檢修工程師通過聽變壓器聲音即可判斷其是否運行良好。有效管理這些無形知識資產,有著重大的現實意義和經濟價值。以電網檢修、資產管理為例,它們皆屬於理論與實踐結合的知識密集型技術工作,對工程師專業知識和實際經驗依賴極強、要求極高。
- 然而,目前國內外普遍現狀是,一旦有經驗的工程師、技師退休,將造成知識經驗斷層,人才青黃不接,對電力公司造成重大損失。因此,如何有效開發與管理「知識資產」,引起各國電網普遍重視。而如果能在 ML 演算法中融入專業知識經驗,將可能探索出對專家知識經驗的獲取沉澱、共享和推理分析、系統性存儲等新的、系統性解決方法,實現對知識資產的有效管理。
參考文獻
尚宇煒, 馬釗, 彭晨陽,等. 內嵌專業知識和經驗的機器學習方法探索(一):引導學習的提出與理論基礎[J]. 中國電機工程學報, 2017, 37(19):5560-5571.
推薦閱讀:
※1-5 Unsupervised Learning
※word embedding之GLOVE代碼
※《大演算:機器學習的終極演演算法將如何改變我們的未來,創造新紀元的文明》
※機器學習篇-評估機器學習的模型