徐弘升,陸繼翔,2,楊志宏,2,李 昀,陸進(jìn)軍,2,黃 華,2
(1. 南瑞集團(tuán)有限公司(國網(wǎng)電力科學(xué)研究院有限公司),江蘇省南京市 211106;2. 智能電網(wǎng)保護(hù)與運(yùn)行控制國家重點(diǎn)實(shí)驗(yàn)室,江蘇省南京市 211106)
在大規(guī)??稍偕茉唇尤腚娋W(wǎng)以及電力市場化改革不斷深化的背景下,需求響應(yīng)(demand response,DR)正向著常態(tài)化、多元化和精細(xì)化發(fā)展[1-3]。隨著售電側(cè)市場逐步開放[4],出現(xiàn)了售電商、集成商等多元化的參與主體,它們與用戶簽訂協(xié)議,把大量分散負(fù)荷整合成可控容量巨大的聚合負(fù)荷,以此參與電力市場環(huán)境下的DR,實(shí)現(xiàn)與用戶的雙贏[5-7]。DR 分為價(jià)格型和激勵(lì)型2 類[8-9],價(jià)格型DR 通過時(shí)變電價(jià)來引導(dǎo)用戶調(diào)整用電行為,而激勵(lì)型DR 則通過補(bǔ)貼或折扣來鼓勵(lì)用戶削減用電量[2]。相比于價(jià)格型DR,激勵(lì)型DR 對(duì)于售電商來說實(shí)施起來更加靈活[10],對(duì)于用戶來說也更有吸引力[11-12]。
國內(nèi)外對(duì)激勵(lì)型DR 的運(yùn)行機(jī)理、決策優(yōu)化、收益評(píng)價(jià)等方面進(jìn)行了大量研究。文獻(xiàn)[13]提出適用于離散制造型工業(yè)負(fù)荷的激勵(lì)型DR,基于混合整數(shù)線性規(guī)劃建模并求解。文獻(xiàn)[14]基于主從博弈模型對(duì)激勵(lì)型DR 建模并求解。上述文獻(xiàn)采用規(guī)劃或博弈等傳統(tǒng)方法,屬于基于模型(model-based)的方法,其依賴于精心設(shè)計(jì)的模型,需要已知全部或者大部分的環(huán)境信息,算法復(fù)雜,可擴(kuò)展性和靈活性不高。
在DR 模型中,對(duì)用戶響應(yīng)度的準(zhǔn)確建模非常關(guān)鍵[2]。對(duì)于價(jià)格型和激勵(lì)型DR,可以采用電力需求價(jià)格彈性來定量描述用戶的響應(yīng)度[15-17]。文獻(xiàn)[18]提出了申報(bào)負(fù)荷彈性化修正方法,并基于此建立了用戶報(bào)量不報(bào)價(jià)模式下電力現(xiàn)貨市場DR 模型。文獻(xiàn)[19]應(yīng)用電量電價(jià)彈性矩陣對(duì)用戶側(cè)進(jìn)行建模,并進(jìn)一步構(gòu)建了售電公司日前小時(shí)電價(jià)決策模型。
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)作為機(jī)器學(xué)習(xí)的范式之一[20],已經(jīng)被廣泛應(yīng)用于DR 優(yōu)化決策問題[21-23]。文獻(xiàn)[23]應(yīng)用Q 學(xué)習(xí)求解微電網(wǎng)動(dòng)態(tài)定價(jià)優(yōu)化問題,但使用的是查表(Q-table)法,隨著問題規(guī)模的增長容易出現(xiàn)維數(shù)災(zāi)難[24]。文獻(xiàn)[25]基于價(jià)格彈性系數(shù)建立用戶響應(yīng)模型,使用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)預(yù)測用戶負(fù)荷和批發(fā)市場電價(jià),應(yīng)用Q 學(xué)習(xí)求解激勵(lì)型DR 的最優(yōu)決策;但其使用的仍然是Q-table 法,并且在制定策略時(shí)只考慮了當(dāng)前單次響應(yīng)的收益最大化,而忽略了前次響應(yīng)對(duì)當(dāng)前響應(yīng)的影響。文獻(xiàn)[26]建立了一種考慮售電商長期收益最大化的激勵(lì)型DR 模型,并使用淺層神經(jīng)網(wǎng)絡(luò)逼近Q 值函數(shù)。
深度RL(deep RL,DRL)是人工智能領(lǐng)域的研究熱點(diǎn)之一[27],已經(jīng)在電腦游戲和圍棋等復(fù)雜決策應(yīng)用場景中獲得了成功[28-29]。深度Q 學(xué)習(xí)網(wǎng)絡(luò)(deep Q-learning network,DQN)[28]作為DRL 領(lǐng)域重要的開創(chuàng)性工作,引起了眾多研究團(tuán)隊(duì)的關(guān)注,得到了持續(xù)的擴(kuò)展和完善[30]。本文基于一種分層電力市場環(huán)境下綜合考慮售電商和用戶收益的激勵(lì)型DR,借助時(shí)間-價(jià)格彈性系數(shù),改進(jìn)了用戶響應(yīng)模型,考慮了前次響應(yīng)對(duì)當(dāng)前響應(yīng)的影響,建立了相應(yīng)的馬爾可夫決策過程模型,設(shè)計(jì)了基于DQN 求解的算法,以離線學(xué)習(xí)在線評(píng)估的方式,實(shí)現(xiàn)了激勵(lì)型DR 的最優(yōu)決策。通過對(duì)算例的求解證明了模型的合理性和算法的有效性。
本文基于分層電力市場構(gòu)建激勵(lì)型DR 模型。如圖1 所示,在該分層電力市場架構(gòu)中,售電商一方面通過發(fā)布激勵(lì)措施引導(dǎo)用戶積極參與DR;另一方面通過參與電力批發(fā)市場(主要是現(xiàn)貨市場)的競價(jià)出售聚合資源(如電能削減),以此獲得自身的收益。因此,作為一個(gè)營利性組織,售電商通過尋求最優(yōu)的激勵(lì)價(jià)格,達(dá)到最大化自身收益的目的,可表示為如下的優(yōu)化問題。
式中:ct,i為售電商向用戶i在t時(shí)段提供的補(bǔ)貼價(jià)格,且cmin≤ct,i≤cmax,其中cmin和cmax分別為補(bǔ)貼價(jià)格的下限和上限,該約束范圍由售電商和客戶通過合同的形式確定[14];pt=pw,t?pd,t,其中pw,t和pd,t分別為現(xiàn)貨市場實(shí)時(shí)電價(jià)和中長期市場電價(jià);Δdt,i為用戶i在t時(shí)段的負(fù)荷削減量;I為所有用戶的集合;H為一天中所有時(shí)段的集合。
圖1 分層電力市場架構(gòu)Fig.1 Framework of hierarchical electricity market
激勵(lì)型DR 用戶在收到售電商發(fā)布的補(bǔ)貼信號(hào)后會(huì)綜合考慮獲得的經(jīng)濟(jì)補(bǔ)償和付出的舒適成本,做出使自身收益最大化的響應(yīng)行為,可建模為如下的優(yōu)化問題。
式中:η為用戶在獲得經(jīng)濟(jì)補(bǔ)償和付出舒適成本之間的權(quán)衡因子,η∈[0,1];pr,t為售電商制定的零售電價(jià);(ct,i+pr,t)Δdt,i為用戶i在t時(shí)段以Δdt,i獲得的補(bǔ)償收益和減少的電量成本;φt,i為不滿意度函數(shù),用以表征用戶付出的舒適成本。
Δdt,i反應(yīng)的是用戶對(duì)補(bǔ)貼價(jià)格信號(hào)的響應(yīng)度。對(duì)于Δdt,i的估算,現(xiàn)有用戶響應(yīng)模型認(rèn)為其僅與t時(shí)段的補(bǔ)貼價(jià)格有關(guān),并基于自彈性系數(shù)進(jìn)行建模[25],但現(xiàn)有模型忽略了用戶對(duì)相鄰時(shí)段補(bǔ)貼價(jià)格差的反應(yīng)。在電力現(xiàn)貨市場環(huán)境下,售電商根據(jù)時(shí)前公布的批發(fā)電價(jià)和預(yù)估的用戶用電需求計(jì)算出最優(yōu)補(bǔ)貼價(jià)格,并在t時(shí)段之前發(fā)布給用戶,用戶除了根據(jù)剛發(fā)布的本次補(bǔ)貼價(jià)格做出響應(yīng),還與前次補(bǔ)貼價(jià)格進(jìn)行對(duì)比,并根據(jù)價(jià)格差對(duì)響應(yīng)做出調(diào)整。如果本次補(bǔ)貼價(jià)格比前次補(bǔ)貼價(jià)格高,則會(huì)額外激發(fā)出用戶參與響應(yīng)的熱情,Δdt,i相應(yīng)增加;反之,Δdt,i相應(yīng)減少。因此,本文引入負(fù)荷的時(shí)間-價(jià)格彈性的概念[31],對(duì)現(xiàn)有用戶響應(yīng)模型做如下修正。
式中:εt,i為用戶i在t時(shí)段的自彈性系數(shù),其含義為t時(shí)段補(bǔ)貼發(fā)生1%的偏差而引起該時(shí)段負(fù)荷需求調(diào)整的百分?jǐn)?shù);ξt,t?1,i為用戶i在t時(shí)段相對(duì)于t?1 時(shí)段的時(shí)間-價(jià)格彈性系數(shù),其含義為時(shí)段間存在價(jià)格差時(shí),從前時(shí)段“轉(zhuǎn)移”到當(dāng)前時(shí)段的負(fù)荷削減量;Δdt,i的約束范圍是Dmin≤Δdt,i≤Dmax,其中Dmin和Dmax分別為用戶負(fù)荷削減量的下限和上限,由售電商和客戶在激勵(lì)型DR 的合同中約定[32];dt,i為用戶i在t時(shí)段的用電需求量;cˉ為各時(shí)段的平均補(bǔ)貼價(jià)格。
用戶不滿意度函數(shù)也被稱為響應(yīng)成本函數(shù)或負(fù)效益函數(shù)[23],是對(duì)用戶在削減自身用電量時(shí)承受的不舒適代價(jià)的量化。該函數(shù)一般被認(rèn)為是一個(gè)隨著負(fù)荷削減量增加而函數(shù)值快速增大的凸函數(shù)。本文采用被廣泛使用的二次函數(shù)來表示用戶不滿意度函數(shù)φt,i。
式中:αi為大于0 的常數(shù),用以表征用戶i對(duì)于舒適性的敏感度,該值越大則表示用戶愿意犧牲的舒適性越低,削減負(fù)荷的意愿也越低,反之亦然;βi為輔助系數(shù),用戶的不舒適度越高該系數(shù)值越大[14]。
目標(biāo)函數(shù)的設(shè)計(jì)綜合考慮了售電商和用戶的收益[25],其表達(dá)式為:
式中:rt,i為t時(shí)段售電商在用戶i上的收益和用戶i自身收益之和;ρ為售電商收益和用戶收益的重要性比例,ρ∈[0,1]。
RL 的基本思想是通過智能體(agent)和環(huán)境的交互,學(xué)習(xí)到達(dá)成累計(jì)獎(jiǎng)勵(lì)值最大化或?qū)崿F(xiàn)特定目標(biāo)的最優(yōu)策略[20]。在RL 求解問題中,環(huán)境通常被規(guī)范為馬爾可夫決策過程(Markov decision process,MDP)。MDP 是一種序貫決策的數(shù)學(xué)模型,由狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)3 個(gè)基本元素構(gòu)成,其特性可以理解為當(dāng)前狀態(tài)下智能體采取的動(dòng)作不僅影響當(dāng)前的反饋,還會(huì)對(duì)下一個(gè)狀態(tài)以及反饋造成影響[20]。本文將所關(guān)注的激勵(lì)型DR 的補(bǔ)貼價(jià)格決策優(yōu)化問題建模成一個(gè)以售電商為智能體進(jìn)行學(xué)習(xí)的有限MDP。如圖2 所示,在t時(shí)段即將到來之前,售電商獲取用戶i的狀態(tài)信息st,i=(dt,i,εt,i,ξt,t?1,i,ct?1,i),并基于該狀態(tài)信息做出動(dòng)作決策at,i=ct,i,即售電商為用戶i在t時(shí)段提供的補(bǔ)貼,s0,i為用戶i的初始狀態(tài)信息。用戶根據(jù)發(fā)布的補(bǔ)貼信息決定自身的響應(yīng)行為,由式(6)可得出整個(gè)系統(tǒng)(包含售電商和用戶)所獲得的獎(jiǎng)勵(lì)rt,i。接著,售電商繼續(xù)獲取下一時(shí)段的狀態(tài)信息st+1,i,并做出t+1 時(shí)段的動(dòng)作決策at+1,i。
圖2 MDP 流程示意圖Fig.2 Flow chart of MDP
綜上所述,該模型的最終目標(biāo)是尋求系統(tǒng)長期收益的最大化,該長期收益定義為Gt。
式中:K為一個(gè)完整的優(yōu)化周期被分割成的時(shí)段總數(shù);γ為折扣因子,表示未來獎(jiǎng)勵(lì)的重要性,即未來第k時(shí)段獲得的獎(jiǎng)勵(lì)等于當(dāng)前時(shí)段獲得的獎(jiǎng)勵(lì)的γk倍,γ∈[0,1],γ的值為0 意味著智能體只考慮當(dāng)前獎(jiǎng)勵(lì)。
RL 中最經(jīng)典且被最廣泛應(yīng)用的方法是Q 學(xué)習(xí)算法,其基本思想是通過狀態(tài)-動(dòng)作對(duì)的值函數(shù)進(jìn)行估計(jì)以求得最優(yōu)策略,Q 值函數(shù)依據(jù)貝爾曼方程(Bellman equation)進(jìn)行迭代更新直至最終收斂,該方程可以按照以下形式表述[20]。
式中:Q(st,at)為t時(shí)段下的動(dòng)作值函數(shù);α為學(xué)習(xí)率,表示Q 值迭代的速度;a為st+1下Q 值最大的動(dòng)作決策;A為所有動(dòng)作決策的集合。
Q 學(xué)習(xí)最基本的求解方法是Q-table 法,該方法通過建立一個(gè)表格來存儲(chǔ)每一個(gè)狀態(tài)-動(dòng)作對(duì)的Q值,并依據(jù)式(8)更新表格直至最終收斂。但是Qtable 法不適用連續(xù)狀態(tài)和動(dòng)作問題,且即便是求解離散狀態(tài)和動(dòng)作問題,當(dāng)狀態(tài)和動(dòng)作空間過大時(shí),Q-table 法需要巨大的存儲(chǔ)和計(jì)算資源,限制了其應(yīng)用性。本文提出一種基于DQN 的求解算法,并為此設(shè)計(jì)了一個(gè)深度前饋網(wǎng)絡(luò),即多層感知機(jī)(multilayer perceptron,MLP)用以逼近最優(yōu)Q 值函數(shù)。如圖3 所示,該網(wǎng)絡(luò)由1 個(gè)輸入層、1 個(gè)輸出層和若干個(gè)隱層組成,層與層之間均是由權(quán)重Wi和偏置bi所定義的全連接結(jié)構(gòu),激活函數(shù)采用修正線性單元(rectified linear unit,ReLU)[33]。
圖3 Q 值函數(shù)逼近DNN 結(jié)構(gòu)Fig.3 Structure of DNN for approximating Q-value function
基于DQN 的求解算法的偽碼表述如表1 所示。該算法使用了經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)分離技術(shù)來提升收斂性和穩(wěn)定性[28],經(jīng)驗(yàn)回放如表1 中第10 至11 行所述,先將智能體與環(huán)境交互得到的四元組轉(zhuǎn)移樣本存儲(chǔ)到記憶單元D中,訓(xùn)練時(shí)每次從D中隨機(jī)抽取批量的樣本。目標(biāo)網(wǎng)絡(luò)分離如表1 中第13 至14行所述,該方法建立了2 個(gè)獨(dú)立的DNN,分別記為網(wǎng)絡(luò)Q和目標(biāo)網(wǎng)絡(luò)Q?,其中網(wǎng)絡(luò)Q的權(quán)重θ是實(shí)時(shí)更新的,而網(wǎng)絡(luò)Q?的權(quán)重θ?則每經(jīng)過C輪迭代才通過復(fù)制當(dāng)前值網(wǎng)絡(luò)的權(quán)重θ實(shí)現(xiàn)延遲更新。
表1 基于DQN 的求解算法Table 1 Solution algorithm based on DQN
實(shí)驗(yàn)考慮由1 個(gè)售電商和多個(gè)用戶組成的激勵(lì)型DR,以一天24 h 作為一個(gè)完整的優(yōu)化周期,共分為24 個(gè)時(shí)段,每個(gè)時(shí)段1 h。用戶負(fù)荷數(shù)據(jù)和同一天的批發(fā)市場電價(jià)數(shù)據(jù)參考文獻(xiàn)[34]。用戶彈性系數(shù)的設(shè)置參考文獻(xiàn)[35],設(shè)為谷(01:00—06:00)、平(07:00—16:00,23:00—24:00)、峰(17:00—22:00)3 個(gè)區(qū)間,具體的參數(shù)設(shè)置如表2 所示,其中ε和ξ分別為式(3)中定義的自彈性系數(shù)和時(shí)間-價(jià)格彈性系數(shù)。其他與用戶相關(guān)的參數(shù)的具體設(shè)置情況如表3 所示,其中pmin為式(1)中pt的最小值。
表2 不同時(shí)刻下的彈性系數(shù)Table 2 Elasticity coefficients at different moments
表3 用戶相關(guān)參數(shù)Table 3 Related parameters of customers
為了對(duì)比本文提出的改進(jìn)用戶響應(yīng)模型和現(xiàn)有模型的應(yīng)用效果,附錄A 圖A2 展示了采用相同DQN 算法求解不同模型的補(bǔ)貼價(jià)格和削減電量的結(jié)果。用戶1 相比于用戶2,自彈性系數(shù)和時(shí)間-價(jià)格彈性系數(shù)均較低。對(duì)比補(bǔ)貼價(jià)格的結(jié)果可以看出,谷、峰區(qū)間價(jià)格變化不大,平區(qū)間價(jià)格則略有提升;對(duì)比削減電量的結(jié)果可以看出,采用改進(jìn)模型后2 種類型用戶的總削減電量都有所提升,特別值得注意的是,峰值區(qū)間(17:00—22:00)部分時(shí)段的負(fù)荷削減量得到提升。這說明改進(jìn)后的DR 模型考慮到用戶負(fù)荷在相鄰時(shí)段之間的轉(zhuǎn)移能力,可以獲得比現(xiàn)有模型更好的用戶響應(yīng),從而獲得更高的收益。
為了驗(yàn)證改進(jìn)模型和設(shè)計(jì)算法的應(yīng)用有效性,以自彈性系數(shù)和時(shí)間-價(jià)格彈性系數(shù)均適中的用戶3 為例,分析不同的用戶舒適權(quán)衡因子η對(duì)補(bǔ)貼價(jià)格決策和用戶響應(yīng)行為的影響。從附錄A 圖A3 中可以看出,補(bǔ)貼價(jià)格隨時(shí)間變化的整體趨勢和批發(fā)電價(jià)相似,這是因?yàn)榕l(fā)電價(jià)的峰值區(qū)間也是用戶負(fù)荷的高峰期,同樣的負(fù)荷削減量需要增加更多的補(bǔ)貼來激勵(lì)用戶。此外,較高的用戶舒適權(quán)衡因子(如η=0.9)下得出的補(bǔ)貼價(jià)格平均值要比較低的用戶舒適權(quán)衡因子(如η=0.1)的補(bǔ)貼價(jià)格平均值要高,進(jìn)而增加了負(fù)荷削減總量;這是因?yàn)橄鄬?duì)較高的用戶舒適權(quán)衡因子意味著用戶對(duì)削減電量換取補(bǔ)貼的意愿更強(qiáng)烈,忍受因削減電量帶來的不適的能力更強(qiáng)。附錄A 圖A4 展示了以用戶1 和用戶2 為例的不同用戶參與激勵(lì)型DR 的不同結(jié)果??梢钥闯觯垭娚探o予不同用戶以不同的補(bǔ)貼價(jià)格,雖然補(bǔ)貼價(jià)格曲線的趨勢相似,但是用戶2 的補(bǔ)貼價(jià)格比用戶1 的高,這也導(dǎo)致了用戶2 的負(fù)荷削減量明顯大于用戶1。這是因?yàn)橛脩? 不僅自彈性系數(shù)和時(shí)間-價(jià)格彈性系數(shù)高于用戶1,而且有著更低的不滿意度系數(shù)(α1=0.8,α2=0.3)。因此,相比之下,用戶1 更加保守,響應(yīng)能力有限,而用戶2 對(duì)補(bǔ)貼價(jià)格更敏感,更容易在高補(bǔ)貼的激勵(lì)下響應(yīng)更多的負(fù)荷削減量。
最后,對(duì)比在不同權(quán)衡因子η下得到的售電商支出成本,該成本包括了購電成本和補(bǔ)貼成本,如附錄A 圖A5 所示。可以看出,隨著權(quán)衡因子η的增大,售電商節(jié)省的支出成本越多,分別節(jié)省了12.3%、20.9%和31.4%。
本文針對(duì)電力現(xiàn)貨市場環(huán)境下售電商、集成商等參與主體,提出一個(gè)基于DRL 的激勵(lì)型DR 決策優(yōu)化模型和求解算法,售電商通過向不同的用戶發(fā)布不同的補(bǔ)貼價(jià)格來引導(dǎo)用戶減少其用電負(fù)荷,以實(shí)現(xiàn)某一規(guī)定時(shí)間范圍內(nèi)售電商和用戶的綜合收益最大化。引入時(shí)間-價(jià)格彈性以刻畫用戶對(duì)相鄰時(shí)段補(bǔ)貼價(jià)格差的反應(yīng),改進(jìn)現(xiàn)有僅考慮當(dāng)前時(shí)段價(jià)格彈性的用戶響應(yīng)模型,構(gòu)建了有限MDP 問題。在此基礎(chǔ)上設(shè)計(jì)了一個(gè)基于DQN 的補(bǔ)貼價(jià)格優(yōu)化決策求解算法,并選取了3 個(gè)不同類型用戶的實(shí)際用電數(shù)據(jù)進(jìn)行訓(xùn)練,算例結(jié)果驗(yàn)證了基于DQN 的DRL 算法的收斂性和有效性,同時(shí)證明了使用改進(jìn)模型求解得出的最優(yōu)補(bǔ)貼價(jià)格相比現(xiàn)有模型的最優(yōu)解,可以提高部分時(shí)段尤其是用電高峰時(shí)段的負(fù)荷削減量,并有效提高售電商和用戶的綜合效益。
本文基于簡化的市場結(jié)構(gòu)和激勵(lì)型DR 決策機(jī)制,后續(xù)應(yīng)尋找更完善的購售電決策機(jī)制進(jìn)行優(yōu)化,考慮多個(gè)售電商之間競爭作用的影響。本文采用的DQN 方法雖然能很好地解決連續(xù)狀態(tài)空間問題,但是仍然需要離散動(dòng)作空間,因此基于策略搜索的DRL 方法值得進(jìn)一步的研究和應(yīng)用。此外,本文采用需求價(jià)格彈性系數(shù)來描述用戶的響應(yīng),難以反映出實(shí)際情況中用戶響應(yīng)的不確定性,因此如何更準(zhǔn)確地把握用戶負(fù)荷需求的不確定性需要進(jìn)一步的研究。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。