達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

機器之心報道

機器之心編輯部

5 月 24 日,在機器之心舉辦的「決策智慧產業應用」線上圓桌論壇上,阿里巴巴達摩院決策智慧實驗室的楊超發表了主題演講《Safe RL 介紹及在電網排程中的應用》。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

大家好,我是來自阿里巴巴達摩院決策智慧實驗室的楊超,今天主要分享一下 Safe RL,也就是安全強化學習的內容,及其在電網排程中的應用。

我今天的分享主要分為三部分:第一部分簡單科普一下深度強化學習和電網排程;第二部分介紹一些安全強化學習的方法,及其在電網排程上的應用或和改進;第三部分簡單介紹一下深度強化聚焦和強化學習。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

強化學習本質上是模仿人類去學習和改進的學習方式,需要跟環境不斷互動,然後透過一種試錯的方式來尋找最優策略。最優策略旨在最大化長期或累計收益。我們知道深度學習在感知領域做得非常好,因此深度學習也被拿來加持強化學習,幫助強化學習學到一個更好的最優策略。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

在數學形式上,強化學習可以建模為馬爾可夫決策過程。正如上圖右下角所展示的,強化學習在每次到了一個 state 之後,產生一些 action 或接受環境所給的 word,並不斷重複這個過程。強化學習起初是在遊戲領域和圍棋領域大放異彩,然後在 2016 年的時候 AlphaGo 將監督學習和強化學習聯合起來,並結合蒙特卡羅樹搜尋,擊敗了人類頂尖圍棋選手。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

在工業落地方面,我選了兩個國外的例子,一個是 Google 資料中心的冷卻系統使用一種 Model-based RL 系統來控制溫度,最終會比產品 PID 控制器的效率更高一些。目前谷歌宣稱其冷卻系統已經完全由 AI 自主控制。第二個例子是 MSRA 航運路徑規劃,它採用的是一種稱為競爭合作的多智慧體學習方法,並聲稱每年為其航運節省近千萬美元的運營成本。

下面我再來說一下 DRL 系統的發展和挑戰,下圖是一個其他作者總結的圖。我們可以發現強化學習主要是基於 AC 架構的演算法,而強化學習的很多問題還是開放性問題,或者說還存在一些挑戰,包括學習成本高、學習效率差。另一方面,強化學習要不斷去探索設計新演算法,並且很多強化學習演算法是在模擬環境中改進的,演算法成本確實非常高。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

這就存在諸多挑戰,其中一個挑戰是安全性,一旦強化學習要落地到一些工業場景,安全性就是一個非常重要的問題。在具體講安全強化學習之前,我先簡單介紹一下電力系統,電力系統可以說是目前人工構建的最複雜系統之一,它主要的功能包括電網的執行與控制,電力市場的資源配置以及需求側的響應等等,其中電網的安全執行與控制是一切的基礎。近幾年隨著國家戰略和新能源的發展,以及負荷的快速增長,一些電力電子裝置加入到電網中,電力系統的不確定性和波動性在不斷加劇,對於整個電力系統和電網排程來說,需要有一些更加高效的演算法做出輔助決策。右邊這個圖展示的就是一個電網在不同時間尺度的不同控制方式。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

長期來看,電力系統有一些長期的規劃,比如電力的出清和排程策略的制定。到了日中的話,然後他會去做一些經濟排程的內容一些操作。在整個電網排程中,一個比較基礎也比較關鍵的問題是「最優潮流」,它是電網排程中抽象出的最最佳化問題,旨在保障電網安全執行的前提下最強化發電行業的目標。最最佳化問題本身是一個非線性、非凸問題。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

電網本身可以看成是一個網路的結構,其中包含點和邊的概念,一些點代表變電站、電廠或發電機組,另外一些點代表用電戶,電網中的邊有安全的含義。因此我們一般把這個問題抽象成 ACOPF 問題,大概如右下角所展示的數學模型,這裡面有一個所謂的「潮流」的概念,本身是一個非線性的方程組,最優潮流一般來說求解效率可能會相對稍慢。在電力領域,為了提升求解效率,通常我們會把這個問題做一些近似或者簡化。

第一種簡化方式是把它線性化,線性化後的問題在電力領域裡也是被廣泛使用的,他可以求得一個解,但是由於做過近似,因此安全性並不是完全能夠保障安全,這就又回到安全強化學習的問題。我們希望透過強化學習的方式去應對,或者以更加高效的方式去做電網排程。

安全強化學習的概念,是指我們不僅要在強化學習的基礎上,去找到一個使得累計收益最大的最優策略,同時還要滿足一些系統性的效能指標或滿足安全約束,一般可以建模為 constraint 的 Mark decision process 過程,如下圖右所示。

其中,我們一般會把安全約束或通用性約束寫成期望收益或累計期望收益的形式。相當於這裡面我們會定義每一次的狀態轉移、每一次進行 action、每一個 step,最後我們會有一個 cost 函式來刻畫安全因素是否得到滿足。通常來講的話一般也會把它建模成一個累計期望的形式。

這裡我列舉了 Safe RL 的一些方法,大概有 5 類方法:

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

第一種方法罰函式法通常也可以被稱為 Reward shaping 或 Regularization,也是所謂的正則化方法。通常來說這種方法會將約束的違反程度加入到最佳化目標中,從而構建無約束的最佳化問題,如下圖所示。由於懲罰係數是提前固定的,因此該方法最終效果對係數的選擇很敏感。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

如上圖右下角的另一個實驗所示,我們可以看到當我們採用一些不同的技術,例如採用的懲罰係數比較大,約束不再違法,但是獲得的長期的收益就比較低,如圖中橙色曲線所示,而綠色曲線則不太可能會滿足安全約束,藍色的線是折中方案,如果我們可以將一些經驗知識進行抽象,並把它們直接作用到我們類似的學習中,則可以取得一些不錯的效果。

我們當時在國網比賽中對一個經典的 DDPG 進行了改造,可以看到下圖右紅色曲線的明顯改進,無論是收斂速度還是獲得收益,它的效果都會更好一些。當然需要你對策略做一些精巧的設計。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

第二類方法原始 - 對偶法本質上是透過拉格朗日鬆弛(lagrangian relaxation)技術,原問題(primal problem) 被轉換為對偶問題(dual problem),而對偶問題是原問題的上界,因此最小化對偶問題的解可以逼近原問題的最優解。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

對偶問題一般存在一個二層的最佳化,所以他會去去更新兩種變數,一種變數是原問題的變數,另一個變數就是對偶變數。我們一般會以更高的頻率去更新原始的問題變數,然後以較低的頻率去更新對偶變數。這種方法中有一些問題有待回答和進一步驗證,已有一些論文提到由於這個方法是近似得到一個原問題的最優解,因此存在對偶間隙,這個問題仍需進一步探索。另一方面,這類方法在實踐的過程中收斂比較慢,每一次做最佳化時都要先固定一個對偶變數,然後再做內部原問題的尋優。當原問題收斂得差不多了,我們再更新一下結果變數,其中相當於套用了一個二層迴圈。

如下圖左下角所示,綠色的線是 primal-dual 方法的一個展示,可以發現在整個訓練的過程中安全約束是下降的但收斂較慢,它對於對偶變數的初始值較為敏感。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

第三類方法是直接策略最佳化,這類方法是從策略搜尋的角度出發直接去設計相關演算法,我們可以在做策略最佳化迭代的過程中,每次去最大化策略的收益增量。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

通常這一類方法是將原始最佳化問題的目標或約束替換為一個更易處理的代理函式。比如在 constrained policy optimization(CPO 演算法)中原始問題的目標及約束被分別替換為下界及上界代理函式。當採用信賴域(Trust Region)進行策略搜尋時, 可以使 worst-case 下的約束違反程度被 bound 住,而增量收益是非遞減的。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

因此可以透過對偶問題來求解,尤其是假設每次只違反一個約束,對偶問題可以直接得到解析解。由於存在近似誤差,會採用恢復機制以及回溯線搜尋(backtracking line search)機制來保障代理約束的要求。如上圖右下角所示,以 (b) 為例,我們可以看到 CPO 的藍色曲線在最差情況下也是可以 bound 住的,但是在訓練過程中不一定嚴格滿足原來的約束。

第四類方法就是需要有一種機制,以保證在每一個時刻下或每一個狀態下,都不會違反約束。例如 2018 年有一篇論文就提出一個 safety layer 方法,採用了額外的保護措施。在該方法中,如果 action 違反了一些約束,就把它做一次調整或者做一次投影,以找到一個滿足約束的解。這種方法實際上是把約束做了一些線性的近似,將約束表達成一個關於 action 靈敏度的線性函式。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

靈敏度函式可以透過 NN 提前進行離線學習,沒有一個明確的規則或約束形式,因此這種方法也是一種近似。

強化學習和知識模型本質上存在一些互補的優勢。強化學習的優勢是線上響應時間比較快,適用於不確定性場景;劣勢是學習效率慢、成本高,解存在安全性隱患。而數學建模在電力領域已進行了多年研究,相對成熟。因此在可求解的情況下,解的質量會比較高,可解釋性也比較好。數學建模的劣勢就是對於大規模問題或不確定性問題,它的處理效果不是很好。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

我們可以把強化學習和數學建模兩種方法進行結合,以讓每一時刻都不違反約束,我們以知識模型作為 safety layer 來進行安全約束保障。透過與求解的深度結合,可以使 policy 更好地感知到約束集區域,配合可行性檢驗、warm-start 機制以及冗餘約束識別,從而儘可能減少 safety layer 的呼叫頻次及求解耗時。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

在實現的過程中,我們透過非同步訓練框架及算力資源來加速強化學習的收斂。從效果上講,我們展示了兩類結果,一類是單步最佳化,即如果一個問題能夠透過數學建模表達出來,並且是個凸問題,求得的一定就是最優解,實驗結果如下圖左下角所示,在一個數據集上 96% 的機率下,解都是直接可行的,也滿足安全因素,距離最優的 gap 不到 1%,在另外一個數據集上可行機率幾乎達到 100%。如果每一個問題都用原始的 solver 去求解,提速可以達到 6 倍,甚至說提升了一個量級。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

對於多步最佳化,我們也對比了三類方法:Our Method(A1)、Penalty Method(A2)、以及 Safe Explore(A3)。如上圖右所示,藍色的就是我們方法的結果,基本不會違反約束,並且獲得的結果也是不錯的。

最後我介紹一下我們實驗室,負責人是印臥濤老師,全球 top 1% 高被引數學家,獲得過 NSF CAREER 獎、斯隆研究獎、晨興應用數學金獎、達摩獎、Egon Balas 獎等。我們實驗室致力於機器學習、數學最佳化、時序分析與預測等多種決策技術的研究與創新,構建智慧決策系統、 提升業務運營效率、降低運營成本 。目前我們已取得的成果包括最佳化求解器 MindOpt,多次獲得國際權威榜單第一名;實驗室擁有多篇頂會論文,並獲多項國內外比賽冠軍。2021 我們獲得國家電網 AI 創新大賽電力排程賽道冠軍、新能源預測賽道亞軍;負荷預測落地山東德州達到 98% 的準確率。目前我們正在構建強化學習平臺來支撐第 4 屆南網 AI 大賽電力排程賽道。感興趣的同學可以聯絡我們,加入我們的實驗室,相互學習,一起成長。

達摩院決策智慧實驗室楊超:Safe RL介紹及在電網排程中的應用

TAG: 學習強化約束問題方法