中國儲能網(wǎng)訊:
摘要 針對風光儲聯(lián)合系統(tǒng)的調(diào)度問題,提出了一種基于深度強化學習的風光儲系統(tǒng)聯(lián)合調(diào)度模型。首先,以計劃跟蹤、棄風棄光以及儲能運行成本最小為目標,建立了充分考慮風光儲各個場站約束下的聯(lián)合調(diào)度模型。然后,定義該調(diào)度模型在強化學習框架下的系統(tǒng)狀態(tài)變量、動作變量以及獎勵函數(shù)等,引入了深度確定性策略梯度算法,利用其環(huán)境交互、策略探索的機制,學習風光儲系統(tǒng)的聯(lián)合調(diào)度策略,以實現(xiàn)對聯(lián)合系統(tǒng)功率跟蹤,減少棄風棄光以及儲能充放電。最后,借用西北某地區(qū)風電、光伏、跟蹤計劃的歷史數(shù)據(jù)對模型進行了訓練和算例分析,結(jié)果表明所提方法可以較好地適應不同時期的風光變化,得到在給定風光下聯(lián)合系統(tǒng)的調(diào)度策略。
01 風光儲系統(tǒng)聯(lián)合調(diào)度模型
1.1 風光儲聯(lián)合系統(tǒng)功率控制原理
風光儲聯(lián)合發(fā)電系統(tǒng)是由聯(lián)合調(diào)度層、風光儲場站監(jiān)控層以及場站設(shè)備層組成,其結(jié)構(gòu)如圖1所示。
圖1 風光儲聯(lián)合發(fā)電系統(tǒng)
Fig.1 Wind-photovoltaic-storage hybrid power generation system
可以看出,聯(lián)合調(diào)度層基于場站的監(jiān)控信息實現(xiàn)對風電、光伏以及儲能的協(xié)調(diào)控制,場站監(jiān)控層主要實現(xiàn)對各個子系統(tǒng)的單獨監(jiān)控和各個設(shè)備的運行信息的上傳,而其中場站設(shè)備層主要包括風力發(fā)電系統(tǒng)、光伏發(fā)電系統(tǒng)和儲能系統(tǒng)。
進一步看出,上級調(diào)度機構(gòu)通過聯(lián)合調(diào)度層下達電網(wǎng)的調(diào)度指令,場站監(jiān)控層接收到調(diào)度指令之后,分解后下發(fā)到設(shè)備層的各個風電、光伏以及儲能單元。因此,風光儲聯(lián)合系統(tǒng)的核心功能就是通過統(tǒng)一協(xié)調(diào)分配風電、光伏以及儲能系統(tǒng)的發(fā)電功率,以實現(xiàn)跟蹤電網(wǎng)調(diào)度指令并且減少棄風棄光的目的。
1.2 目標函數(shù)
為了提高風光儲系統(tǒng)的功率跟蹤能力,改善其輸出特性,本文建立了以風光跟蹤考核成本、棄風棄光成本以及儲能運行成本最小為目標的風光儲協(xié)調(diào)控制模型,其目標函數(shù)為
式中:Cwpb為聯(lián)合系統(tǒng)的總成本;Ck為聯(lián)合系統(tǒng)跟蹤偏差考核成本;Cq為棄風棄光成本;Cbt為儲能運行成本,其計算式分別為
式中:T為調(diào)度周期;Pwt(t)、Ppv(t)和Pbt(t)分別是風電、光伏和儲能在t時刻的控制功率;Pwt,max(t)和Ppv,max(t)分別為風電和光伏在t時刻的最大出力,屬于風光的日前預測值;Pplan(t)為上級電網(wǎng)給定的系統(tǒng)在t時刻的跟蹤出力計劃值;csell、cunit,bt和cunit,k分別是風光售電電價、儲能充放電單位成本和風光跟蹤偏差單位考核成本。
為了評估聯(lián)合系統(tǒng)的跟蹤能力,引入跟蹤計劃平方差Es及其最大跟蹤偏差Emax來量化聯(lián)合系統(tǒng)的跟蹤性能,其具體計算式為
1.3 約束條件
(1)風電場出力約束為
式中:Vwt(t)為風電場在t時刻與t–1時刻輸出功率的差值,其功率限值和波動時間尺度和裝機容量相關(guān),詳細可見《西北區(qū)域并網(wǎng)發(fā)電廠輔助服務管理實施細則》和《西北區(qū)域發(fā)電廠并網(wǎng)運行管理實施細則》; Vwt,max 為風電場理論輸出功率的最大值。
(2)光伏電站出力約束為
式中:Vpv(t)為光伏電站在t時刻與t–1時刻輸出功率的差值,其功率變化限值與風電相同; Vpv,max 為光伏電站理論輸出功率的最大值。
(3)儲能電站出力約束。為了引導儲能設(shè)備合理充放電和避免過充過放,延長其使用時間,設(shè)置儲能電站的約束條件為
式中:Pbt,max為儲能設(shè)備的最大充放電功率;Hsoc,max和Hsoc,min分別為儲能荷電狀態(tài)(state of charge,SOC)的上限和下限;Hsoc(t)為儲能設(shè)備在t時刻的荷電狀態(tài),其計算公式為
式中:ρ為儲能電池的自持放電率;ΔHsoc(t)為儲能設(shè)備在t時刻的荷電變化量,取決于儲能設(shè)備的充放電狀態(tài)和充放電功率,具體計算式為
式中:Ebt,max為儲能設(shè)備的最大容量;ηc為儲能設(shè)備的充電效率;ηd為儲能設(shè)備的放電效率。
02 風光儲聯(lián)合調(diào)度模型的深度強化學習框架
強化學習是一種通過訓練智能體與環(huán)境不斷交互來建立環(huán)境狀態(tài)與動作之間映射關(guān)系的自我學習機制。它本質(zhì)上是一個馬爾科夫決策過程,主要由包含狀態(tài)空間S、動作空間A、狀態(tài)轉(zhuǎn)移概率P、折扣因子γ和回報函數(shù)R構(gòu)成的五元數(shù)組{S, A, P, γ, R}。
在強化學習過程中,定義策略π為狀態(tài)空間到動作空間的一個映射(S→A),表示為智能體在狀態(tài)st選擇動作at,執(zhí)行該動作并以概率P (st, at )轉(zhuǎn)移到下一狀態(tài)st+1,同時接受來自環(huán)境反饋的獎賞rt。而在一個多步的強化學習過程中,假設(shè)未來每個時間步所獲的立即獎賞都必須乘以一個折扣因子γ,用于削減遠期決策對應的獎勵,權(quán)重則從t0時刻開始到T時刻情節(jié)結(jié)束時,獎賞之和定義為
因此,智能體根據(jù)得到的獎勵R來調(diào)整自身的策略并針對新的狀態(tài)st+1做出新的決策at+1,以期獲得最大的長期累積獎勵,其原理如圖2所示。
圖2 強化學習原理
Fig.2 Schematic diagram of reinforcement learning
在強化學習過程中,如何根據(jù)現(xiàn)有的優(yōu)化模型定義系統(tǒng)的狀態(tài)變空間、動作空間以及獎勵函數(shù)成為常規(guī)優(yōu)化模型向強化學習模型轉(zhuǎn)化的關(guān)鍵。
(1)狀態(tài)空間S。在風光儲聯(lián)合調(diào)度模型中,選取聯(lián)合電站跟蹤計劃值、儲能的充放電功率、SOC、風電以及光伏的預測出力作為狀態(tài)空間,即
式中:Splan為聯(lián)合電站跟蹤計劃;Sbt和Ssoc分別為儲能電站的充放電功率和SOC;Swt和Spv分別為風電和光伏的預測出力。
(2)動作空間A。在強化學習中,一般選取模型的決策變量作為系統(tǒng)的動作空間,如風電、光伏以及儲能的出力。但是考慮到本文中決策變量之間存在時序耦合特性,直接選取上述設(shè)備出力作為決策變量將難以處理模型中存在的式(2)~(5),因此,為了簡化模型學習的復雜性和考慮決策變量之間的時序耦合性,本文選取風電、光伏以及儲能的出力增量作為動作空間,即
式中:Awt、Apv和Abt分別為風電、光伏和儲能的出力增量。
(3)獎勵函數(shù)R和折扣因子γ。為了訓練智能體學習到在聯(lián)合調(diào)度總成本最低下的調(diào)度策略,設(shè)置目標函數(shù)的負值作為獎勵函數(shù),即中成本越低,獎勵越大,由此鼓勵智能體學習最優(yōu)調(diào)度計劃,得到即時獎勵rt的計算式為
式中:rt為智能體在某個狀態(tài)st=[splan,t, sbt,t, ssoc,t, swt,t, spv,t]下選擇動作at=[awt, apv, abt]得到的即時獎勵。而對于整個調(diào)度周期T,為了最小化整個調(diào)度周期內(nèi)的目標函數(shù),存在累計獎勵函數(shù)R為
式中:R為智能體基于系統(tǒng)外部狀態(tài)變量得到相應的調(diào)度計劃之后的獲得的累計獎勵;γ為折扣因子,表示未來匯報相對于當前的重要程度,γ=0時表示只考慮當前即時匯報而不考慮未來的長期回報,γ=1時表示未來的長期回報和當前的即時回報同等重要。
03 基于DDPG算法的風光儲聯(lián)合優(yōu)化問題求解
3.1 DDPG算法
DDPG是一種無模型的強化學習算法,其由價值網(wǎng)絡(Critic)和策略網(wǎng)絡(Actor)組成,價值網(wǎng)絡用以估計智能體在狀態(tài)s下采取動作a之后得到的期望獎勵Q值,而策略網(wǎng)絡基于系統(tǒng)狀態(tài)s得到使得Q值最大化的動作a。同時,DDPG引入經(jīng)驗回放技術(shù),使得網(wǎng)絡可以學習大量歷史經(jīng)驗數(shù)據(jù)并且沿一個較為穩(wěn)定的方向前進。
3.2 模型訓練機制
(1)價值網(wǎng)絡的訓練。當前價值網(wǎng)絡通過最小化的損失函數(shù)來進行參數(shù)更新,即
式中:Q(st, at|θQ)為當前網(wǎng)絡在t時刻輸出的Q值;yt為目標Q值,其計算公式為
式中:rt為從經(jīng)驗池中提取的t時刻即時獎勵;π?(st+1|θπ?)為目標策略網(wǎng)絡在參數(shù)θπ?下輸入狀態(tài)變量st+1時輸出的動作變量;Q?(st+1,π?(st+1|θπ?)|θQ?)為目標網(wǎng)絡在參數(shù)θQ?下輸入狀態(tài)st+1和動作變量π?(st+1|θπ?)下的輸入Q值。
根據(jù)梯度更新法則,通過對損失函數(shù)L(θQ)求梯度,就可以得到網(wǎng)絡更新公式為
式中:圖片為第k輪學習時的價值網(wǎng)絡參數(shù);μQ為值網(wǎng)絡的學習率;圖片為損失函數(shù)圖片對參數(shù)圖片的梯度。
(2)策略網(wǎng)絡的訓練。策略網(wǎng)絡需要學習使得價值網(wǎng)絡輸出Q值最大,因此價值網(wǎng)絡的輸出Q函數(shù)可以作為策略網(wǎng)絡的損失函數(shù),通過對Q函數(shù)求策略梯度,得到策略網(wǎng)絡的更新公式為
式中:圖片為第k輪學習時的當前策略網(wǎng)絡參數(shù);μπ為策略網(wǎng)絡的學習率;圖片 為策略梯度。
為了確保學習過程的穩(wěn)定性,對于目標網(wǎng)絡通常采取軟更新技術(shù),目標網(wǎng)絡參數(shù)進行緩慢更新為
式中:圖片分別為第k輪學習時的目標價值網(wǎng)絡和目標策略網(wǎng)絡參數(shù);τ為軟更新系數(shù)。
(3)基于DDPG算法的風光儲聯(lián)合調(diào)度模型結(jié)構(gòu)如圖3所示。DDPG算法中策略網(wǎng)絡的輸入是5維的狀態(tài)變量st=[splan,t, sbt,t, ssoc,t, swt,t, spv,t],輸出是3維的動作變量at=[awt,t, apv,t, abt,t],二者分別為狀態(tài)空間S和動作空間A下的子集。而價值網(wǎng)絡的輸入是狀態(tài)變量和動作變量,輸出為評估在該狀態(tài)下所選擇動作效果的值函數(shù)Q(st, at)。網(wǎng)絡的學習機制為DDPG算法通過與風光儲調(diào)度系統(tǒng)的交互獲得樣本數(shù)據(jù){at, st, rt, st+1},將其存入經(jīng)驗池中,然后在學習調(diào)度策略時,隨機從樣本池中采樣m個樣本數(shù)據(jù)按照如上參數(shù)更新公式進行梯度更新。
圖3 基于DDPG算法的強化學習框架
Fig.3 Reinforcement learning framework based on DDPG algorithm
通過離線訓練出策略網(wǎng)絡之后,可以進行在線應用,通過日前風光預測數(shù)據(jù)和調(diào)度計劃,確定聯(lián)合系統(tǒng)的最優(yōu)調(diào)度計劃,其調(diào)度流程如圖4所示。
圖4 基于DDPG算法的風光儲聯(lián)合系統(tǒng)調(diào)度流程
Fig.4 Scheduling flow chart of wind-photovoltaic-storage hybrid system based on DDPG algorithm
04 仿真算例
4.1 算法參數(shù)設(shè)置
本文以西北某省的風光儲聯(lián)合系統(tǒng)為研究對象,選取該聯(lián)合系統(tǒng)一年的風電、光伏的真實和日前預測的歷史出力數(shù)據(jù),而該聯(lián)合系統(tǒng)的跟蹤機制為通過儲能配合風光場站真實出力數(shù)據(jù)跟蹤日前預測結(jié)果,因此,聯(lián)合系統(tǒng)跟蹤計劃為風光日前預測結(jié)果之和。該系統(tǒng)的風電場容量為100 MW,光伏電站容量為60 MW,儲能電站為30 MW/60 MW·h。儲能電站的自放電率ρ=0,充放電效率ηc=ηd=0.9,儲能荷電狀態(tài)上限Hsoc,max為0.8,下限Hsoc,min為0.2。
基于本文狀態(tài)空間和動作空間的維數(shù),本文設(shè)置Actor和Critic網(wǎng)絡中隱含層神經(jīng)元個數(shù)分別為200、50和50,且隱含層均采用ReLU激活函數(shù)。而Actor和Critic網(wǎng)絡的學習率μQ=0.0001,μπ=0.00001,目標網(wǎng)絡的軟更新系數(shù)τ=0.001,mini-batch大小為64,折扣因子為0.95,經(jīng)驗回放池容量為106,采用Adam優(yōu)化器更新網(wǎng)絡參數(shù)。
4.2 模型訓練
在上述參數(shù)基礎(chǔ)上,本文采用Python語言,基于Pytorch的框架在硬件條件為Core i7-9700K CPU的計算機上進行了網(wǎng)絡的訓練??紤]到每次訓練提取不同的風光數(shù)據(jù)導致總回報曲線存在一定的振蕩,因此本文進行了相應的平滑處理,得到總回報收斂曲線如圖5所示。通過不斷的學習與訓練,模型逐漸收斂,形成了可以適應不同風光出力的智能體。
圖5 總回報收斂曲線
Fig.5 Total return convergence curve
4.3 算例對比
為了驗證本文所提方法的有效性與優(yōu)勢,設(shè)置了如下的對比算例進行分析。
方案1:采用本文提出的基于DDPG的風光儲聯(lián)合優(yōu)化方法,確定在不同風光出力下的聯(lián)合系統(tǒng)運行計劃。
方案2:采用風光儲聯(lián)合發(fā)電系統(tǒng)儲能控制策略,建立風光儲聯(lián)合調(diào)度模型,并且通過動態(tài)粒子群(particle swarm optimization,PSO)算法對模型進行求解,得到聯(lián)合系統(tǒng)的運行計劃。
2種不同的方案下的風光儲各自在日內(nèi)(24 h,時間顆粒度為15 min)的運行計劃以及成本指標如圖6和表1所示,其中Pinc是方案1中的各個指標相對方案2中指標的增量百分比。
圖6 不同方案下的調(diào)度計劃
Fig.6 Scheduling plan under different cases
表1 不同方案下的經(jīng)濟指標
Table 1 Economic indicators under different cases
由圖6和表1可知,為了跟蹤上級調(diào)度機構(gòu)給定的運行計劃,聯(lián)合系統(tǒng)需要在棄風棄光和儲能的投入之間取得一個微妙的平衡。而方案2主要通過頻繁使用儲能來跟蹤運行計劃,因此其儲能的充放電成本達到了97350.32元,比方案1高20.85%,方案1則通過合理的棄風棄光和儲能的投入來跟蹤計劃,雖然其棄風棄光成本比方案2高了33.32%,但是其總成本比方案2低13.05%,并且其跟蹤考核成本也比方案2低44.90%。而DDPG算法的巨大優(yōu)勢主要有2個原因,一方面,DDPG通過動作-評估和經(jīng)驗回放學習機制,可以在可行域內(nèi)進行充分的探索,學習到更優(yōu)的聯(lián)合調(diào)度策略;另一方面,對于多時間尺度下的調(diào)度問題,DDPG算法每次實際上只有風光儲出力增量3個決策變量,而粒子群算法卻有288個決策變量,因此粒子群算法很容易因為維數(shù)災而陷入局部最優(yōu)。
同時,在2種方法下聯(lián)合系統(tǒng)的出力計劃如圖7所示,二者的跟蹤性能指標跟蹤偏差平方和Es、最大跟蹤偏差Emax和模型計算時間如表2所示。
圖7 聯(lián)合系統(tǒng)追蹤計劃曲線
Fig.7 Joint system tracking plan curve
表2 不同方案下的性能指標
Table 2 Performance indicators under different cases
由圖7和表2可知,相比粒子群算法(方案2),DDPG算法(方案1)具有更好的跟蹤性能,其跟蹤平方和與最大跟蹤偏差分別為209.79 kW2和2.12%,分別比粒子群算法低27.61%和52.88%。在保持良好跟蹤性能的同時,計算效率也是DDPG算法的巨大優(yōu)勢,其計算時間只需要1.02 s,相比常規(guī)的粒子群算法節(jié)約了98.70%的時間。而由于風光存在間歇性和波動性,因此在聯(lián)合系統(tǒng)中,快速得到風光儲的出力計劃對優(yōu)化儲能輸出、跟蹤計劃以及減少棄風棄光具有重大意義。
05 結(jié)論
本文在深度強化學習的框架下,提出了一種基于DDPG算法的風光儲系統(tǒng)聯(lián)合調(diào)度策略。通過算例的對比,驗證了本文方法的有效性和優(yōu)勢,得到如下結(jié)論。
(1)通過學習風光歷史出力數(shù)據(jù),可以適應風光出力的不確定性,具有很好的魯棒性。
(2)采用離線訓練、在線應用的機制得到的動態(tài)經(jīng)濟模型可以基于風光以及跟蹤計劃等狀態(tài)變量,快速得到聯(lián)合系統(tǒng)的調(diào)度方案。
(3)通過合理的棄風棄光和儲能的充放電,可以較好地跟蹤系統(tǒng)的聯(lián)合運行計劃,實現(xiàn)風光儲聯(lián)合系統(tǒng)的經(jīng)濟運行。




