當前位置:
首頁 > 最新 > 中國電科院劉威,張東霞等:基於深度強化學習的電網緊急控制策略研究

中國電科院劉威,張東霞等:基於深度強化學習的電網緊急控制策略研究

基於深度強化學習的電網緊急控制策略研究

劉威,張東霞,王新迎,侯金秀,劉麗平

DOI:10.13334/j.0258-8013.pcsee.171747

1

項目背景

隨著新能源、電動汽車等新型供用電模型比重不斷增加,電網運行特性發生變化,傳統基於模型的分析方法往往不能適用於不確定性元素建模。另外,電網結構日趨複雜使電網各元素之間的耦合關係較以前更加緊密,基於物理模型的分析方案涉及簡化、假設等模型變換,其計算結果與電網實際運行結果一致性難以保障。此外,電網運行產生的海量數據未充分利用,雖近年來許多成果將廣域測量信息用於電網暫態穩定分析及控制領域,但本質上仍然以物理模型為核心,未充分利用電網海量運行數據,一定程度上造成資源浪費。再次,電網事故大多數都包含人為因素,如何為電網運行人員提供更全面更準確的輔助決策已成為當前電網發展態勢下的重要課題。因此,需找到新方法解決這些問題。

2

論文所解決的問題及意義

現有電網控制方法往往基於多次的電網模擬計算,然後分析控制效果。然而電網模擬依賴於物理模型的準確性,物理模型很難適用於不確定性因素。在此情況下,考慮利用人工智慧方法構建模型,直接學習電網運行數據中的價值信息,並用於指導生成控制策略,保障電網安全穩定。該方法一定程度上擺脫對電網模型的依賴,減少整個決策過程的人為因素,同時可適用多種運行方式。本文探索人工智慧在電網應用的可行性,所提方法為電網分析運行控制提供了一種全新視角。

3

論文重點內容

深度強化學習(deep reinforcement learning,DRL)能夠學習怎麼去做,怎樣將狀態和動作相互映射,也能夠分析動作後的最大回報。深度強化學習是將深度學習和強化學習結合起來,實現從感知到動作一一對應的學習方法。深度學習主要分析環境信息,從中提取特徵;強化學習將基於這些特徵進一步分析環境特徵,並選擇對應動作,實現目標回報。對於電網控制策略這一複雜決策問題,考慮將人工智慧方法引入決策控制中,實現從電網運行環境中提取有效信息,再結合環境信息和電網運行方式確定控制方式,實現決策控制。

強化學習較監督學習更具有「主動性」,能夠較好地結合環境信息和動作策略,實現智能化選擇行為方式,從而達到目標回報。

回報函數可立即得到動作和環境的優劣評估值,是一種立即回報函數。但強化學習有回報滯後的特點,最終回報由整個過程的動作和環境信息決定。立即回報模型只能針對一個時間點的信息做出評價,無法說明策略的好壞。因此需要定義值函數(value function)表徵策略對於狀態的長期效果。

採用表示策略下狀態s的值函數,常採用式(1)作為值函數:

(1)

式中:s"為下一狀態;為摺合因子,表徵未來回報相對於當前回報的重要程度。

值函數是強化學習的學習目標,對最終學習效果有重要的影響。從數據驅動角度出發,數據方差可表徵能量,因此考慮利用隨機矩陣理論分析多維數據方差,將方差作為評價動作策略的值函數是本文的研究思路。由中心極限定理(central limit theorem,CLT),假設隨機矩陣,協方差矩陣為複平面上協方差矩陣。假設測試函數滿足

。當時收斂於高斯分布,滿足期望,方差滿足式(2):

(2)

式中:;;為隨機矩陣X的4階累積量,滿足 ,;。

本文強化學習採用Q-Learning方式搭建框架。Q-Learning是強化學習的重要方法,應用較為廣泛。Q-Learning通過構建深層Q網路(deep Q-network,DQN)能夠適應強化學習的無標籤樣本數據,從環境信息中不斷調整自身參數,在線尋求最優策略滿足最大回報。Q-Learning的值函數滿足式(3):

(3)

式中:Q(s,a)為目標優化函數;R(s|s",a)表示採用動作a系統由狀態s轉移到狀態s"的回報的集合;P(s|s",a)表示採用動作a系統由狀態s轉移到狀態s"的概率的集合為下一狀態s"可能得到的最大Q值,即最大回報。通過Q-Learning得到的回報值可稱為Q值。但Q-Learning方法往往計算的Q值偏大,且分布不均,容易導致結果錯誤。考慮採用改進的Q-Learning過程:雙重Q-Learning和競爭Q-Learning。雙重Q-Learning不直接採用目標網路生成Q值,而是在主網路計算最大Q值選擇動作,然後從目標網路計算目標Q值。式(3)可改寫為式(4):

(4)

式中:Qtarget為目標網路Q值;Qmain為主網路Q值;為學習係數,可控制目標網路向主網路學習速度,一般可設。每次迭代實際Q值將以學習係數學習目標Q值,目標Q值和實際Q值差值控制在很小的範圍,防止差值過大造成迭代過程發生「跳躍」,增加尋找最優解的難度。競爭Q-Learning將值函數分為兩部分,一部分為環境本身的評估價值V(st),另一部分為動作帶來的額外價值A(at):

(5)

競爭方法將Q值函數分為環境信息回報和動作回報,使得學習的目標更為明確。

深度學習是機器學習的重要組成部分,在人工智慧領域(artificial intelligence,AI)發揮重要的作用。深度學習與多層感知機最大的不同在於多層感知機需要人工選擇特徵輸入網路,深度學習可自主學習特徵。卷積神經網路(convolutional neural network,CNN)對於數據特徵提取有良好的效果。傳統神經網路輸入採用全連接方式,這種方式對於輸入信息比較多的場景效率較差,需訓練的參數較多。卷積神經網路通過權值共享和池化等方法有效降低演算法的複雜度,並有效提取特徵。本文中深度學習只要有兩個目的:第一,聚合信息,提高信息價值密度;第二,增加模型的泛化能力。

圖1 電網切機決策控制邏輯

圖1所示為電網切機決策控制邏輯圖。數據預處理將輸入信息分為運行環境數據和動作信息數據。強化學習演算法採用競爭Q網路和雙重Q網路相結合的方式。競爭Q網路將回報值分為運行環境回報值和動作回報值,兩部分輸入信息不同。雙重Q網路負責選擇動作,並對動作效果做出評價。

圖2 不同切機策略對比

圖2所示為16-17號支路故障不同切機策略發電機偏差對比圖。圖2(b)為深度強化學習模型得到的切機策略,圖2(a)則未在切機策略中。按本文方法選擇動作切除發電機後,發電機速度偏差趨於穩定,發電機速度偏差被抑制在較小範圍波動。圖2(a)切除後發電機速度偏差仍不斷增加,最終將導致電網運行失去穩定性。

4

結論

本文利用數據驅動思維,將人工智慧方法應用電網切機控制。本文所提方法直接分析電網運行環境信息,從中提取有效信息並構建強化學習模型,實現電網切機決策控制。與傳統方法相比,本文方法直接從電網運行數據入手,對於不同故障、故障類型和運行方式的控制策略分析不需調整模型,而傳統方法需要根據不同運行方式、故障類型和拓撲結果調整數學模型。另外,本文方法可以同時考慮多種因素的影響,能夠提供更為全面的輔助決策。

人工智慧方法能夠分析提取環境信息特徵,從而指導物理模型做出正確的動作選擇。深度強化學習方法正是利用這種思維對周邊環境分析提取,通過環境信息指導電網做出正確動作,從而提高電網運行穩定性。人工智慧方法能充分發揮模型的自主性,主動學習周邊環境信息,不斷調整自身參數和網路結構。人工智慧方法應用於電網可有效避免由於人為因素導致的事故,與此同時能夠考慮多維度數據,提高控制方法的準確性。

引文信息

劉威,張東霞,王新迎,等.基於深度強化學習的電網緊急控制策略研究[J].中國電機工程學報,2018,38(1):109-119.

Liu Wei,Zhang Dongxia,Wang Xinying,et al.A decision making strategy for generating unit tripping under emergency circumstances based on deep reinforcement learning [J].Proceedings of the CSEE,2018,38(1):109-119 (in Chinese).

作者簡介

劉威,中國電力科學研究院博士研究生,IEEE學生會員,研究方向包括大數據與人工智慧在電網中的應用,電網調度等。

張東霞,女,清華大學博士,教授級高級工程師,主要研究方向為電力系統分析與規劃、智能電網技術及其標準化、電網大數據與人工智慧等。

聲明

本文為原創作品,所涉文字及圖片版權均屬中國電機工程學報編輯部所有,根據國家版權局最新規定,紙媒、網站、微博、微信公眾號轉載、摘編我編輯部的作品,務必請提前聯繫我編輯部。個人請按本微信原文轉發、分享

聯繫我們


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 中國電機工程學報 的精彩文章:

TAG:中國電機工程學報 |