亚洲天堂1区在线|久久久综合国产剧情中文|午夜国产精品无套|中文字幕一二三四区|人人操人人干人人草|一区二区免费漫画|亚洲一区二区a|91五月天在线观看|9丨精品性视频亚洲一二三区视频|国产香蕉免费素人在线二区

中國儲能網(wǎng)歡迎您!
當前位置: 首頁 >雙碳目標>新能源建設(shè)與消納 返回

基于深度確定性策略梯度算法的風光儲系統(tǒng)聯(lián)合調(diào)度策略

作者:數(shù)字儲能網(wǎng)新聞中心 來源:中國電力 發(fā)布時間:2023-11-15 瀏覽:次

中國儲能網(wǎng)訊:

  摘要 針對風光儲聯(lián)合系統(tǒng)的調(diào)度問題,提出了一種基于深度強化學習的風光儲系統(tǒng)聯(lián)合調(diào)度模型。首先,以計劃跟蹤、棄風棄光以及儲能運行成本最小為目標,建立了充分考慮風光儲各個場站約束下的聯(lián)合調(diào)度模型。然后,定義該調(diào)度模型在強化學習框架下的系統(tǒng)狀態(tài)變量、動作變量以及獎勵函數(shù)等,引入了深度確定性策略梯度算法,利用其環(huán)境交互、策略探索的機制,學習風光儲系統(tǒng)的聯(lián)合調(diào)度策略,以實現(xiàn)對聯(lián)合系統(tǒng)功率跟蹤,減少棄風棄光以及儲能充放電。最后,借用西北某地區(qū)風電、光伏、跟蹤計劃的歷史數(shù)據(jù)對模型進行了訓練和算例分析,結(jié)果表明所提方法可以較好地適應不同時期的風光變化,得到在給定風光下聯(lián)合系統(tǒng)的調(diào)度策略。

  01 風光儲系統(tǒng)聯(lián)合調(diào)度模型

  1.1 風光儲聯(lián)合系統(tǒng)功率控制原理

  風光儲聯(lián)合發(fā)電系統(tǒng)是由聯(lián)合調(diào)度層、風光儲場站監(jiān)控層以及場站設(shè)備層組成,其結(jié)構(gòu)如圖1所示。

圖1 風光儲聯(lián)合發(fā)電系統(tǒng)

Fig.1 Wind-photovoltaic-storage hybrid power generation system

  可以看出,聯(lián)合調(diào)度層基于場站的監(jiān)控信息實現(xiàn)對風電、光伏以及儲能的協(xié)調(diào)控制,場站監(jiān)控層主要實現(xiàn)對各個子系統(tǒng)的單獨監(jiān)控和各個設(shè)備的運行信息的上傳,而其中場站設(shè)備層主要包括風力發(fā)電系統(tǒng)、光伏發(fā)電系統(tǒng)和儲能系統(tǒng)。

  進一步看出,上級調(diào)度機構(gòu)通過聯(lián)合調(diào)度層下達電網(wǎng)的調(diào)度指令,場站監(jiān)控層接收到調(diào)度指令之后,分解后下發(fā)到設(shè)備層的各個風電、光伏以及儲能單元。因此,風光儲聯(lián)合系統(tǒng)的核心功能就是通過統(tǒng)一協(xié)調(diào)分配風電、光伏以及儲能系統(tǒng)的發(fā)電功率,以實現(xiàn)跟蹤電網(wǎng)調(diào)度指令并且減少棄風棄光的目的。

  1.2 目標函數(shù)

  為了提高風光儲系統(tǒng)的功率跟蹤能力,改善其輸出特性,本文建立了以風光跟蹤考核成本、棄風棄光成本以及儲能運行成本最小為目標的風光儲協(xié)調(diào)控制模型,其目標函數(shù)為

  式中:Cwpb為聯(lián)合系統(tǒng)的總成本;Ck為聯(lián)合系統(tǒng)跟蹤偏差考核成本;Cq為棄風棄光成本;Cbt為儲能運行成本,其計算式分別為

  式中:T為調(diào)度周期;Pwt(t)、Ppv(t)和Pbt(t)分別是風電、光伏和儲能在t時刻的控制功率;Pwt,max(t)和Ppv,max(t)分別為風電和光伏在t時刻的最大出力,屬于風光的日前預測值;Pplan(t)為上級電網(wǎng)給定的系統(tǒng)在t時刻的跟蹤出力計劃值;csell、cunit,bt和cunit,k分別是風光售電電價、儲能充放電單位成本和風光跟蹤偏差單位考核成本。

  為了評估聯(lián)合系統(tǒng)的跟蹤能力,引入跟蹤計劃平方差Es及其最大跟蹤偏差Emax來量化聯(lián)合系統(tǒng)的跟蹤性能,其具體計算式為

  1.3 約束條件

  (1)風電場出力約束為

  式中:Vwt(t)為風電場在t時刻與t–1時刻輸出功率的差值,其功率限值和波動時間尺度和裝機容量相關(guān),詳細可見《西北區(qū)域并網(wǎng)發(fā)電廠輔助服務管理實施細則》和《西北區(qū)域發(fā)電廠并網(wǎng)運行管理實施細則》; Vwt,max 為風電場理論輸出功率的最大值。

  (2)光伏電站出力約束為

  式中:Vpv(t)為光伏電站在t時刻與t–1時刻輸出功率的差值,其功率變化限值與風電相同; Vpv,max 為光伏電站理論輸出功率的最大值。

  (3)儲能電站出力約束。為了引導儲能設(shè)備合理充放電和避免過充過放,延長其使用時間,設(shè)置儲能電站的約束條件為

  式中:Pbt,max為儲能設(shè)備的最大充放電功率;Hsoc,max和Hsoc,min分別為儲能荷電狀態(tài)(state of charge,SOC)的上限和下限;Hsoc(t)為儲能設(shè)備在t時刻的荷電狀態(tài),其計算公式為

  式中:ρ為儲能電池的自持放電率;ΔHsoc(t)為儲能設(shè)備在t時刻的荷電變化量,取決于儲能設(shè)備的充放電狀態(tài)和充放電功率,具體計算式為

  式中:Ebt,max為儲能設(shè)備的最大容量;ηc為儲能設(shè)備的充電效率;ηd為儲能設(shè)備的放電效率。

  02 風光儲聯(lián)合調(diào)度模型的深度強化學習框架

  強化學習是一種通過訓練智能體與環(huán)境不斷交互來建立環(huán)境狀態(tài)與動作之間映射關(guān)系的自我學習機制。它本質(zhì)上是一個馬爾科夫決策過程,主要由包含狀態(tài)空間S、動作空間A、狀態(tài)轉(zhuǎn)移概率P、折扣因子γ和回報函數(shù)R構(gòu)成的五元數(shù)組{S, A, P, γ, R}。

  在強化學習過程中,定義策略π為狀態(tài)空間到動作空間的一個映射(S→A),表示為智能體在狀態(tài)st選擇動作at,執(zhí)行該動作并以概率P (st, at )轉(zhuǎn)移到下一狀態(tài)st+1,同時接受來自環(huán)境反饋的獎賞rt。而在一個多步的強化學習過程中,假設(shè)未來每個時間步所獲的立即獎賞都必須乘以一個折扣因子γ,用于削減遠期決策對應的獎勵,權(quán)重則從t0時刻開始到T時刻情節(jié)結(jié)束時,獎賞之和定義為

  因此,智能體根據(jù)得到的獎勵R來調(diào)整自身的策略并針對新的狀態(tài)st+1做出新的決策at+1,以期獲得最大的長期累積獎勵,其原理如圖2所示。

圖2 強化學習原理

Fig.2 Schematic diagram of reinforcement learning

  在強化學習過程中,如何根據(jù)現(xiàn)有的優(yōu)化模型定義系統(tǒng)的狀態(tài)變空間、動作空間以及獎勵函數(shù)成為常規(guī)優(yōu)化模型向強化學習模型轉(zhuǎn)化的關(guān)鍵。

  (1)狀態(tài)空間S。在風光儲聯(lián)合調(diào)度模型中,選取聯(lián)合電站跟蹤計劃值、儲能的充放電功率、SOC、風電以及光伏的預測出力作為狀態(tài)空間,即

  式中:Splan為聯(lián)合電站跟蹤計劃;Sbt和Ssoc分別為儲能電站的充放電功率和SOC;Swt和Spv分別為風電和光伏的預測出力。

  (2)動作空間A。在強化學習中,一般選取模型的決策變量作為系統(tǒng)的動作空間,如風電、光伏以及儲能的出力。但是考慮到本文中決策變量之間存在時序耦合特性,直接選取上述設(shè)備出力作為決策變量將難以處理模型中存在的式(2)~(5),因此,為了簡化模型學習的復雜性和考慮決策變量之間的時序耦合性,本文選取風電、光伏以及儲能的出力增量作為動作空間,即

  式中:Awt、Apv和Abt分別為風電、光伏和儲能的出力增量。

  (3)獎勵函數(shù)R和折扣因子γ。為了訓練智能體學習到在聯(lián)合調(diào)度總成本最低下的調(diào)度策略,設(shè)置目標函數(shù)的負值作為獎勵函數(shù),即中成本越低,獎勵越大,由此鼓勵智能體學習最優(yōu)調(diào)度計劃,得到即時獎勵rt的計算式為

  式中:rt為智能體在某個狀態(tài)st=[splan,t, sbt,t, ssoc,t, swt,t, spv,t]下選擇動作at=[awt, apv, abt]得到的即時獎勵。而對于整個調(diào)度周期T,為了最小化整個調(diào)度周期內(nèi)的目標函數(shù),存在累計獎勵函數(shù)R為

  式中:R為智能體基于系統(tǒng)外部狀態(tài)變量得到相應的調(diào)度計劃之后的獲得的累計獎勵;γ為折扣因子,表示未來匯報相對于當前的重要程度,γ=0時表示只考慮當前即時匯報而不考慮未來的長期回報,γ=1時表示未來的長期回報和當前的即時回報同等重要。

  03 基于DDPG算法的風光儲聯(lián)合優(yōu)化問題求解

  3.1 DDPG算法

  DDPG是一種無模型的強化學習算法,其由價值網(wǎng)絡(Critic)和策略網(wǎng)絡(Actor)組成,價值網(wǎng)絡用以估計智能體在狀態(tài)s下采取動作a之后得到的期望獎勵Q值,而策略網(wǎng)絡基于系統(tǒng)狀態(tài)s得到使得Q值最大化的動作a。同時,DDPG引入經(jīng)驗回放技術(shù),使得網(wǎng)絡可以學習大量歷史經(jīng)驗數(shù)據(jù)并且沿一個較為穩(wěn)定的方向前進。

  3.2 模型訓練機制

  (1)價值網(wǎng)絡的訓練。當前價值網(wǎng)絡通過最小化的損失函數(shù)來進行參數(shù)更新,即

  式中:Q(st, at|θQ)為當前網(wǎng)絡在t時刻輸出的Q值;yt為目標Q值,其計算公式為

  式中:rt為從經(jīng)驗池中提取的t時刻即時獎勵;π?(st+1|θπ?)為目標策略網(wǎng)絡在參數(shù)θπ?下輸入狀態(tài)變量st+1時輸出的動作變量;Q?(st+1,π?(st+1|θπ?)|θQ?)為目標網(wǎng)絡在參數(shù)θQ?下輸入狀態(tài)st+1和動作變量π?(st+1|θπ?)下的輸入Q值。

  根據(jù)梯度更新法則,通過對損失函數(shù)L(θQ)求梯度,就可以得到網(wǎng)絡更新公式為

  式中:圖片為第k輪學習時的價值網(wǎng)絡參數(shù);μQ為值網(wǎng)絡的學習率;圖片為損失函數(shù)圖片對參數(shù)圖片的梯度。

  (2)策略網(wǎng)絡的訓練。策略網(wǎng)絡需要學習使得價值網(wǎng)絡輸出Q值最大,因此價值網(wǎng)絡的輸出Q函數(shù)可以作為策略網(wǎng)絡的損失函數(shù),通過對Q函數(shù)求策略梯度,得到策略網(wǎng)絡的更新公式為

  式中:圖片為第k輪學習時的當前策略網(wǎng)絡參數(shù);μπ為策略網(wǎng)絡的學習率;圖片 為策略梯度。

  為了確保學習過程的穩(wěn)定性,對于目標網(wǎng)絡通常采取軟更新技術(shù),目標網(wǎng)絡參數(shù)進行緩慢更新為

  式中:圖片分別為第k輪學習時的目標價值網(wǎng)絡和目標策略網(wǎng)絡參數(shù);τ為軟更新系數(shù)。

  (3)基于DDPG算法的風光儲聯(lián)合調(diào)度模型結(jié)構(gòu)如圖3所示。DDPG算法中策略網(wǎng)絡的輸入是5維的狀態(tài)變量st=[splan,t, sbt,t, ssoc,t, swt,t, spv,t],輸出是3維的動作變量at=[awt,t, apv,t, abt,t],二者分別為狀態(tài)空間S和動作空間A下的子集。而價值網(wǎng)絡的輸入是狀態(tài)變量和動作變量,輸出為評估在該狀態(tài)下所選擇動作效果的值函數(shù)Q(st, at)。網(wǎng)絡的學習機制為DDPG算法通過與風光儲調(diào)度系統(tǒng)的交互獲得樣本數(shù)據(jù){at, st, rt, st+1},將其存入經(jīng)驗池中,然后在學習調(diào)度策略時,隨機從樣本池中采樣m個樣本數(shù)據(jù)按照如上參數(shù)更新公式進行梯度更新。

圖3 基于DDPG算法的強化學習框架

Fig.3 Reinforcement learning framework based on DDPG algorithm

  通過離線訓練出策略網(wǎng)絡之后,可以進行在線應用,通過日前風光預測數(shù)據(jù)和調(diào)度計劃,確定聯(lián)合系統(tǒng)的最優(yōu)調(diào)度計劃,其調(diào)度流程如圖4所示。

圖4 基于DDPG算法的風光儲聯(lián)合系統(tǒng)調(diào)度流程

Fig.4 Scheduling flow chart of wind-photovoltaic-storage hybrid system based on DDPG algorithm

  04 仿真算例

  4.1 算法參數(shù)設(shè)置

  本文以西北某省的風光儲聯(lián)合系統(tǒng)為研究對象,選取該聯(lián)合系統(tǒng)一年的風電、光伏的真實和日前預測的歷史出力數(shù)據(jù),而該聯(lián)合系統(tǒng)的跟蹤機制為通過儲能配合風光場站真實出力數(shù)據(jù)跟蹤日前預測結(jié)果,因此,聯(lián)合系統(tǒng)跟蹤計劃為風光日前預測結(jié)果之和。該系統(tǒng)的風電場容量為100 MW,光伏電站容量為60 MW,儲能電站為30 MW/60 MW·h。儲能電站的自放電率ρ=0,充放電效率ηc=ηd=0.9,儲能荷電狀態(tài)上限Hsoc,max為0.8,下限Hsoc,min為0.2。

  基于本文狀態(tài)空間和動作空間的維數(shù),本文設(shè)置Actor和Critic網(wǎng)絡中隱含層神經(jīng)元個數(shù)分別為200、50和50,且隱含層均采用ReLU激活函數(shù)。而Actor和Critic網(wǎng)絡的學習率μQ=0.0001,μπ=0.00001,目標網(wǎng)絡的軟更新系數(shù)τ=0.001,mini-batch大小為64,折扣因子為0.95,經(jīng)驗回放池容量為106,采用Adam優(yōu)化器更新網(wǎng)絡參數(shù)。

 4.2 模型訓練

  在上述參數(shù)基礎(chǔ)上,本文采用Python語言,基于Pytorch的框架在硬件條件為Core i7-9700K CPU的計算機上進行了網(wǎng)絡的訓練??紤]到每次訓練提取不同的風光數(shù)據(jù)導致總回報曲線存在一定的振蕩,因此本文進行了相應的平滑處理,得到總回報收斂曲線如圖5所示。通過不斷的學習與訓練,模型逐漸收斂,形成了可以適應不同風光出力的智能體。

圖5 總回報收斂曲線

Fig.5 Total return convergence curve

  4.3 算例對比

  為了驗證本文所提方法的有效性與優(yōu)勢,設(shè)置了如下的對比算例進行分析。

  方案1:采用本文提出的基于DDPG的風光儲聯(lián)合優(yōu)化方法,確定在不同風光出力下的聯(lián)合系統(tǒng)運行計劃。

  方案2:采用風光儲聯(lián)合發(fā)電系統(tǒng)儲能控制策略,建立風光儲聯(lián)合調(diào)度模型,并且通過動態(tài)粒子群(particle swarm optimization,PSO)算法對模型進行求解,得到聯(lián)合系統(tǒng)的運行計劃。

  2種不同的方案下的風光儲各自在日內(nèi)(24 h,時間顆粒度為15 min)的運行計劃以及成本指標如圖6和表1所示,其中Pinc是方案1中的各個指標相對方案2中指標的增量百分比。

圖6 不同方案下的調(diào)度計劃

Fig.6 Scheduling plan under different cases

表1 不同方案下的經(jīng)濟指標

Table 1 Economic indicators under different cases

  由圖6和表1可知,為了跟蹤上級調(diào)度機構(gòu)給定的運行計劃,聯(lián)合系統(tǒng)需要在棄風棄光和儲能的投入之間取得一個微妙的平衡。而方案2主要通過頻繁使用儲能來跟蹤運行計劃,因此其儲能的充放電成本達到了97350.32元,比方案1高20.85%,方案1則通過合理的棄風棄光和儲能的投入來跟蹤計劃,雖然其棄風棄光成本比方案2高了33.32%,但是其總成本比方案2低13.05%,并且其跟蹤考核成本也比方案2低44.90%。而DDPG算法的巨大優(yōu)勢主要有2個原因,一方面,DDPG通過動作-評估和經(jīng)驗回放學習機制,可以在可行域內(nèi)進行充分的探索,學習到更優(yōu)的聯(lián)合調(diào)度策略;另一方面,對于多時間尺度下的調(diào)度問題,DDPG算法每次實際上只有風光儲出力增量3個決策變量,而粒子群算法卻有288個決策變量,因此粒子群算法很容易因為維數(shù)災而陷入局部最優(yōu)。

  同時,在2種方法下聯(lián)合系統(tǒng)的出力計劃如圖7所示,二者的跟蹤性能指標跟蹤偏差平方和Es、最大跟蹤偏差Emax和模型計算時間如表2所示。

圖7 聯(lián)合系統(tǒng)追蹤計劃曲線

Fig.7 Joint system tracking plan curve

表2 不同方案下的性能指標

Table 2 Performance indicators under different cases

  由圖7和表2可知,相比粒子群算法(方案2),DDPG算法(方案1)具有更好的跟蹤性能,其跟蹤平方和與最大跟蹤偏差分別為209.79 kW2和2.12%,分別比粒子群算法低27.61%和52.88%。在保持良好跟蹤性能的同時,計算效率也是DDPG算法的巨大優(yōu)勢,其計算時間只需要1.02 s,相比常規(guī)的粒子群算法節(jié)約了98.70%的時間。而由于風光存在間歇性和波動性,因此在聯(lián)合系統(tǒng)中,快速得到風光儲的出力計劃對優(yōu)化儲能輸出、跟蹤計劃以及減少棄風棄光具有重大意義。

  05 結(jié)論

  本文在深度強化學習的框架下,提出了一種基于DDPG算法的風光儲系統(tǒng)聯(lián)合調(diào)度策略。通過算例的對比,驗證了本文方法的有效性和優(yōu)勢,得到如下結(jié)論。

  (1)通過學習風光歷史出力數(shù)據(jù),可以適應風光出力的不確定性,具有很好的魯棒性。

  (2)采用離線訓練、在線應用的機制得到的動態(tài)經(jīng)濟模型可以基于風光以及跟蹤計劃等狀態(tài)變量,快速得到聯(lián)合系統(tǒng)的調(diào)度方案。

  (3)通過合理的棄風棄光和儲能的充放電,可以較好地跟蹤系統(tǒng)的聯(lián)合運行計劃,實現(xiàn)風光儲聯(lián)合系統(tǒng)的經(jīng)濟運行。


分享到:

關(guān)鍵字:風光儲基地

中國儲能網(wǎng)版權(quán)說明:

1、凡注明來源為“中國儲能網(wǎng):xxx(署名)”,除與中國儲能網(wǎng)簽署內(nèi)容授權(quán)協(xié)議的網(wǎng)站外,未經(jīng)本網(wǎng)授權(quán),任何單位及個人不得轉(zhuǎn)載、摘編或以其它方式使用上述作品。

2、凡本網(wǎng)注明“來源:xxx(非中國儲能網(wǎng))”的作品,均轉(zhuǎn)載與其他媒體,目的在于傳播更多信息,但并不代表中國儲能網(wǎng)贊同其觀點、立場或證實其描述。其他媒體如需轉(zhuǎn)載,請與稿件來源方聯(lián)系,如產(chǎn)生任何版權(quán)問題與本網(wǎng)無關(guān)。

3、如因作品內(nèi)容、版權(quán)以及引用的圖片(或配圖)內(nèi)容僅供參考,如有涉及版權(quán)問題,可聯(lián)系我們直接刪除處理。請在30日內(nèi)進行。

4、有關(guān)作品版權(quán)事宜請聯(lián)系:13661266197、 郵箱:ly83518@126.com