国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分類DQN的建筑能耗預(yù)測(cè)①

2022-11-07 09:07傅啟明陳建平王蘊(yùn)哲吳宏杰
關(guān)鍵詞:類別能耗精度

李 可,傅啟明,陳建平,陸 悠,王蘊(yùn)哲,吳宏杰

1(蘇州科技大學(xué) 電子與信息工程學(xué)院,蘇州 215009)

2(蘇州科技大學(xué) 江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室,蘇州 215009)

3(蘇州科技大學(xué) 建筑與城市規(guī)劃學(xué)院,蘇州 215009)

4(重慶工業(yè)大數(shù)據(jù)創(chuàng)新中心有限公司,重慶 400707)

近年來,建筑已逐漸成為全球能耗占比最高的領(lǐng)域[1],建筑能耗的增加不僅提升了二氧化碳的排放量,還加劇了能源危機(jī)及溫室效應(yīng).因此,提升建筑能效、實(shí)現(xiàn)節(jié)能減排,進(jìn)一步實(shí)現(xiàn)建筑碳中和是社會(huì)發(fā)展的重要任務(wù).建筑能耗預(yù)測(cè)作為提升建筑能效的重要組成部分,在提高電網(wǎng)效率[2],改善需求響應(yīng)[3],評(píng)估建筑設(shè)計(jì)方案及建筑運(yùn)營(yíng)策略等方面發(fā)揮著重要作用[4].

建筑能耗預(yù)測(cè)的解決方法可大致分為兩類: 一類是工程方法,另一類是數(shù)據(jù)驅(qū)動(dòng)方法.其中,工程方法也稱白盒方法,其利用建筑傳熱原理和物理學(xué)方程對(duì)建筑系統(tǒng)進(jìn)行分析建模,從而計(jì)算建筑的能源消耗[5].然而,這種方法需要詳細(xì)的建筑結(jié)構(gòu)信息和環(huán)境參數(shù).一旦仿真設(shè)備參數(shù)不夠準(zhǔn)確,將會(huì)導(dǎo)致較高的預(yù)測(cè)誤差[6].相比之下,數(shù)據(jù)驅(qū)動(dòng)方法無需了解建筑內(nèi)部信息,可在使用歷史數(shù)據(jù)的情況下進(jìn)行能耗預(yù)測(cè).不僅如此,先前的研究已經(jīng)表明,數(shù)據(jù)驅(qū)動(dòng)方法可借助其解決非線性問題的能力獲得優(yōu)于工程方法的預(yù)測(cè)精度[7].

一般而言,數(shù)據(jù)驅(qū)動(dòng)方法可分為機(jī)器學(xué)習(xí),深度學(xué)習(xí)兩類.在機(jī)器學(xué)習(xí)領(lǐng)域,Li 等人[8]采用支持向量機(jī)(support vector machine,SVM)構(gòu)建了辦公建筑冷負(fù)荷能耗預(yù)測(cè)模型,其預(yù)測(cè)結(jié)果的均方根誤差和平均相對(duì)誤差約為BP 神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)的50%,驗(yàn)證了SVM 算法在能耗預(yù)測(cè)領(lǐng)域的優(yōu)越性.Wang 等人[9]使用集成模型隨機(jī)森林(random forest,RF)進(jìn)行每小時(shí)的建筑能耗預(yù)測(cè),并將其與傳統(tǒng)的機(jī)器學(xué)習(xí)算法回歸樹(regression tree,RT)及支持向量回歸(support vector regression,SVR)進(jìn)行比較.實(shí)驗(yàn)結(jié)果表明,RF 可以取得更高的預(yù)測(cè)精度,具有更強(qiáng)的預(yù)測(cè)能力.文獻(xiàn)[10]提出了一種基于決策樹(decision tree,DT)的能耗預(yù)測(cè)模型,該方法可以準(zhǔn)確分類并預(yù)測(cè)建筑能耗水平,同時(shí)自動(dòng)排序影響建筑能耗的關(guān)鍵因素.與其他機(jī)器學(xué)習(xí)方法相比,該方法的競(jìng)爭(zhēng)優(yōu)勢(shì)在于預(yù)測(cè)結(jié)果具備較強(qiáng)的可解釋性.

然而,與深度學(xué)習(xí)相比,傳統(tǒng)機(jī)器學(xué)習(xí)的特征提取能力稍顯欠缺,其僅能挖掘出輸入數(shù)據(jù)的淺層特征.而深度學(xué)習(xí)具有多個(gè)處理層,可將輸入數(shù)據(jù)進(jìn)行多次轉(zhuǎn)換,獲取數(shù)據(jù)內(nèi)部潛藏的深層特征[11].因此,深度學(xué)習(xí)在建筑能耗預(yù)測(cè)領(lǐng)域受到了廣泛關(guān)注.Fan 等人[12]將無監(jiān)督學(xué)習(xí)提取的特征作為網(wǎng)絡(luò)輸入,而后利用深度神經(jīng)網(wǎng)絡(luò) (deep neural networks,DNN)預(yù)測(cè)建筑冷負(fù)荷,發(fā)現(xiàn)可以顯著提高預(yù)測(cè)精度.文獻(xiàn)[13]則提出了一種深度遞歸神經(jīng)網(wǎng)絡(luò) (recursive neural network,RNN)預(yù)測(cè)模型,以小時(shí)為單位預(yù)測(cè)辦公建筑的能耗,與傳統(tǒng)的多層感知器 (multilayer perceptron,MLP)相比,其預(yù)測(cè)的相對(duì)誤差較低.

深度強(qiáng)化學(xué)習(xí)作為深度學(xué)習(xí)的一個(gè)重要分支,其將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,近年來在機(jī)器人,自動(dòng)駕駛等方向都獲得了快速發(fā)展[14,15].而在建筑領(lǐng)域,深度強(qiáng)化學(xué)習(xí)常被用做優(yōu)化控制,例如Zhang 等人[16]將深度強(qiáng)化學(xué)習(xí)算法用于HVAC系統(tǒng)控制,實(shí)現(xiàn)15%的供熱節(jié)能.Kazmi 等人[17]則利用深度強(qiáng)化學(xué)習(xí)控制建筑的空間加熱,并通過實(shí)驗(yàn)結(jié)果證明其性能優(yōu)于基于規(guī)則的控制方法.但深度強(qiáng)化學(xué)習(xí)的能力遠(yuǎn)不止于此,它可將能耗預(yù)測(cè)建模為高維連續(xù)狀態(tài)空間中的優(yōu)化問題進(jìn)行求解,這吸引了眾多研究者的關(guān)注.Liu 等人[18]探究了深度確定性策略梯度 (deep deterministic policy gradient,DDPG)算法與異步優(yōu)勢(shì)行動(dòng)者評(píng)論家算法(asynchronous advantage actor-critic,A3C),并將其與BPNN,RF 等算法進(jìn)行比較,發(fā)現(xiàn)DDPG 算法建筑能耗預(yù)測(cè)精度最高.Zhang等人[19]則在DDPG 的基礎(chǔ)上,添加了自適應(yīng)早期預(yù)測(cè)方法及獎(jiǎng)賞激勵(lì)機(jī)制,進(jìn)一步提高預(yù)測(cè)精度并確保算法的收斂性.但現(xiàn)有的研究多關(guān)注于DDPG 算法,而忽視了經(jīng)典的DQN.一個(gè)可能的原因是DQN 算法只能處理離散動(dòng)作空間問題.但和DDPG 相比,其優(yōu)勢(shì)在于可以花費(fèi)更少的訓(xùn)練時(shí)間.

為在少于DQN 算法訓(xùn)練時(shí)間的情況下,取得優(yōu)于DDPG 算法的預(yù)測(cè)精度,本文提出一種K-DQN 算法框架.其將深度Q 網(wǎng)絡(luò) (deep Q-network,DQN)算法與K 近鄰 (K-nearest neighbor,KNN)分類器相結(jié)合,構(gòu)建縮減動(dòng)作空間進(jìn)行能耗預(yù)測(cè).具體而言,K-DQN算法將預(yù)測(cè)下一時(shí)刻的能耗轉(zhuǎn)換為動(dòng)作選擇的形式,并針對(duì)動(dòng)作空間大而導(dǎo)致的算法收斂慢及精度低的問題,將原始動(dòng)作空間平分為多個(gè)子動(dòng)作空間,并將每個(gè)子動(dòng)作空間對(duì)應(yīng)的狀態(tài)全部劃分為一類,以此訓(xùn)練KNN 分類器.而后在借助KNN 分類器的基礎(chǔ)上,對(duì)不同類別相同次序的動(dòng)作進(jìn)行統(tǒng)一表示,從而將原始動(dòng)作空間映射至單一子動(dòng)作空間,實(shí)現(xiàn)對(duì)原始動(dòng)作空間的縮減,使算法更易尋找最優(yōu)值.此外,考慮到縮減的動(dòng)作空間內(nèi)每個(gè)動(dòng)作具有多重含義,故將原始狀態(tài)及其對(duì)應(yīng)的類別概率相結(jié)合,構(gòu)建出新狀態(tài)作為網(wǎng)絡(luò)輸入,幫助確定動(dòng)作含義并提高算法的收斂速率及預(yù)測(cè)精度.實(shí)驗(yàn)結(jié)果表明,K-DQN 算法在建筑能耗預(yù)測(cè)方面優(yōu)于DQN、DDPG 算法,且花費(fèi)更少的訓(xùn)練時(shí)間.

1 理論基礎(chǔ)

1.1 深度強(qiáng)化學(xué)習(xí)

1.1.1 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,它與監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)不同,其目標(biāo)是最大化Agent 獲得的累積折扣獎(jiǎng)賞的期望[20].通常,強(qiáng)化學(xué)習(xí)問題可以被建模為馬爾科夫決策過程進(jìn)行求解.一個(gè)馬爾科夫決策過程可以表示為一個(gè)五元組 (S,A,P,R,γ),其中S表示狀態(tài)集合,A表示動(dòng)作集合,P為轉(zhuǎn)移函數(shù),R為獎(jiǎng)賞函數(shù),γ為折扣因子.五元組可看作是Agent 與環(huán)境進(jìn)行交互產(chǎn)生的結(jié)果.在一次交互過程中,Agent 觀察到狀態(tài)st,根據(jù)策略 π選擇動(dòng)作at,并通過轉(zhuǎn)移函數(shù)P(st+1|st,at)轉(zhuǎn)移到狀態(tài)st+1,獲得立即獎(jiǎng)賞rt+1.此處,策略 π的具體含義為狀態(tài)空間S到動(dòng)作空間A的映射,P(st+1|st,at)則表示 Agent 在狀態(tài)st下執(zhí)行動(dòng)作at,轉(zhuǎn)移到下一狀態(tài)st+1的概率.

Agent 的最終目標(biāo)是最大化累積折扣獎(jiǎng)賞的期望,而這一目標(biāo)可通過找尋最優(yōu)策略實(shí)現(xiàn).策略 π可利用動(dòng)作價(jià)值函數(shù)與最優(yōu)動(dòng)作價(jià)值函數(shù)進(jìn)行評(píng)估與改進(jìn),從而產(chǎn)生最優(yōu)策略 π*,實(shí)現(xiàn)最終目標(biāo).其中,動(dòng)作價(jià)值函數(shù)Q表示在狀態(tài)s下執(zhí)行動(dòng)作a的累計(jì)折扣獎(jiǎng)賞的期望:

最優(yōu)動(dòng)作價(jià)值函數(shù)則表示在狀態(tài)s下執(zhí)行最優(yōu)動(dòng)作時(shí)的累計(jì)折扣獎(jiǎng)賞的期望為:

1.1.2 深度Q 網(wǎng)絡(luò)

傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法,例如Q-learning,SARSA[21,22],只能解決狀態(tài)空間較小或離散的相關(guān)問題.雖然采用函數(shù)逼近等方式可以打破這一限制,但這些方法通常不夠穩(wěn)定,不易收斂[23].而深度Q 網(wǎng)絡(luò)利用經(jīng)驗(yàn)回放機(jī)制和目標(biāo)網(wǎng)絡(luò)解決了這一問題.

經(jīng)驗(yàn)回放機(jī)制,即將Agent 與環(huán)境交互的數(shù)據(jù)樣本存入經(jīng)驗(yàn)池中,而后從經(jīng)驗(yàn)池隨機(jī)采樣訓(xùn)練神經(jīng)網(wǎng)絡(luò).這種方式破壞了輸入數(shù)據(jù)之間的相關(guān)性,使神經(jīng)網(wǎng)絡(luò)更易收斂.其次,DQN 新構(gòu)建目標(biāo)Q網(wǎng)絡(luò)用于Q網(wǎng)絡(luò)的更新.具體而言,在網(wǎng)絡(luò)第i次迭代時(shí),Q網(wǎng)絡(luò)的loss函數(shù)為:

其中,(s,a,r,s′)為一個(gè)經(jīng)驗(yàn)池樣本,目標(biāo)Q網(wǎng)絡(luò)的輸出值為Q網(wǎng)絡(luò)輸出值為Q(s,a|θi).目標(biāo)Q網(wǎng)絡(luò)的引進(jìn)一定程度上降低了Q值和目標(biāo)Q值的相關(guān)性,提升了DQN 算法的穩(wěn)定性.此外,目標(biāo)Q網(wǎng)絡(luò)的更新依賴于Q網(wǎng)絡(luò)參數(shù).每過J步,Q網(wǎng)絡(luò)的所有參數(shù)將復(fù)制到目標(biāo)Q網(wǎng)絡(luò)中,完成目標(biāo)Q網(wǎng)絡(luò)的更新.

1.2 K 近鄰算法

KNN 是一種基本的機(jī)器學(xué)習(xí)方法,該算法用作分類時(shí),以樣本的特征向量為輸入,輸出樣本的類別.其基本原理如下: 對(duì)于給定的新樣本,計(jì)算其與所有訓(xùn)練樣本的距離,而后找出距離最近的K個(gè)點(diǎn)投票得出分類結(jié)果.K值不同,其分類的最終結(jié)果也不同.

K值選擇的問題本質(zhì)是一個(gè)超參數(shù)問題.選擇較小K值時(shí),算法的近似誤差會(huì)降低,但估計(jì)誤差會(huì)增大.同時(shí),算法結(jié)果對(duì)近鄰的樣本點(diǎn)會(huì)非常敏感[24].一旦近鄰樣本為噪聲,分類結(jié)果就會(huì)出錯(cuò).而選擇較大K值時(shí),算法的估計(jì)誤差會(huì)減少,但近似誤差會(huì)增大.與樣本點(diǎn)相關(guān)性較弱的其他樣本可能也會(huì)參與投票,降低分類結(jié)果的正確性.故在實(shí)際應(yīng)用中,常采用交叉驗(yàn)證法選擇最優(yōu)K值.

2 基于K-DQN 算法的能耗預(yù)測(cè)模型

2.1 K-DQN 算法的能耗預(yù)測(cè)模型

圖1 展示了K-DQN 算法進(jìn)行建筑能耗預(yù)測(cè)的模型框架.在數(shù)據(jù)預(yù)處理階段,能耗數(shù)據(jù)按日期劃分為訓(xùn)練集和測(cè)試集,并采用異常值檢測(cè)方法對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行異常值檢測(cè).同時(shí),在考慮能耗數(shù)據(jù)日期屬性及所屬時(shí)刻兩種因素的前提下,采用均值法對(duì)異常能耗數(shù)據(jù)進(jìn)行替換.特征提取是選取一定數(shù)量的歷史能耗數(shù)據(jù)作為特征的過程.可將待預(yù)測(cè)時(shí)刻的能耗當(dāng)作標(biāo)簽,待預(yù)測(cè)時(shí)刻前的一定數(shù)量的歷史能耗當(dāng)作特征,對(duì)替換異常值后訓(xùn)練集數(shù)據(jù)進(jìn)行重構(gòu),生成新的樣本及標(biāo)簽.

圖1 K-DQN 算法能耗預(yù)測(cè)模型框架

在訓(xùn)練過程中,歸一化后的新樣本首先傳入KDQN 模塊中的KNN 分類器對(duì)其進(jìn)行訓(xùn)練.待KNN 分類器訓(xùn)練完成后,該樣本重新輸入至分類器獲取分類概率.此時(shí),再將分類概率與歸一化后的新樣本進(jìn)行合并,構(gòu)建出t時(shí)刻的狀態(tài)st.Q網(wǎng)絡(luò)將st看作輸入,計(jì)算動(dòng)作空間下所有動(dòng)作的Q值.同理,利用分類概率和歸一化樣本構(gòu)建狀態(tài)st+1傳入目標(biāo)Q網(wǎng)絡(luò),計(jì)算所有動(dòng)作的目標(biāo)Q值.利用目標(biāo)Q值與Q值構(gòu)建損失函數(shù)進(jìn)行Q網(wǎng)絡(luò)的更新.

在測(cè)試過程中,歸一化后的新樣本首先傳入訓(xùn)練完成的KNN 分類器獲取分類概率,而后與分類概率組成新狀態(tài)傳入Q網(wǎng)絡(luò).Q網(wǎng)絡(luò)計(jì)算出動(dòng)作空間下的所有動(dòng)作的Q值,選取最優(yōu)動(dòng)作作為預(yù)測(cè)的能耗.

2.2 數(shù)據(jù)預(yù)處理

研究采用上海某一辦公建筑能耗數(shù)據(jù),數(shù)據(jù)采集范圍為2015.1.1 至2016.12.31,采集頻率為1 h/次.此外,由于2016.2.29 全天數(shù)據(jù)缺失,故總數(shù)據(jù)個(gè)數(shù)為17 520.

由于建筑內(nèi)部可能存在電表混用或空調(diào)末端接入插座的現(xiàn)象,故需采用局部異常因子 (local outlier factor,LOF)算法和均值法對(duì)能耗數(shù)據(jù)分別進(jìn)行異常值的檢測(cè)和替換,以提高能耗預(yù)測(cè)的準(zhǔn)確性.LOF是基于密度的高精度離群點(diǎn)檢測(cè)算法[25],其計(jì)算每個(gè)樣本對(duì)其鄰域的局部密度偏差 (即LOF值),以發(fā)現(xiàn)可能的異常值.LOF值計(jì)算公式如式(4):

其中,ρk(P)表示點(diǎn)P的局部可達(dá)密度,即點(diǎn)P第k鄰域內(nèi)的所有點(diǎn)到P點(diǎn)的平均可達(dá)距離.Nk(P)表示點(diǎn)P的第k距離鄰域.

直接丟棄異常數(shù)據(jù)會(huì)破壞能耗數(shù)據(jù)的時(shí)序周期性,故采用均值法進(jìn)行異常值的替換.異常值的替換考慮日期和時(shí)刻兩種因素.具體而言,若工作日的能耗數(shù)據(jù)存在異常,則需將前一個(gè)工作日相同時(shí)刻的正常能耗和后一個(gè)工作日相同時(shí)刻的正常能耗求和取平均,替換異常數(shù)據(jù).若節(jié)假日的能耗數(shù)據(jù)存在異常,則利用節(jié)假日相同時(shí)刻的正常能耗進(jìn)行替換.此外,研究設(shè)定訓(xùn)練集數(shù)據(jù)的日期范圍為2015.1.1 至2016.10.31,即異常值的檢測(cè)和替換操作的數(shù)據(jù)均在此日期范圍,不使用測(cè)試集的任何信息.

替換異常值后的訓(xùn)練集數(shù)據(jù)需進(jìn)行特征提取構(gòu)建新樣本和標(biāo)簽,方能傳入K-DQN 模塊.例如,若預(yù)測(cè)t時(shí)刻能耗,則選擇t-h至t-1時(shí)刻h個(gè)歷史能耗數(shù)據(jù)作為特征.此時(shí)(E~t-h,E~t-h-1,···,E~t-1)看作樣本,Et看作其對(duì)應(yīng)的標(biāo)簽.在訓(xùn)練集數(shù)據(jù)總數(shù)為M時(shí),可將訓(xùn)練集重構(gòu)為M-h個(gè)新樣本和標(biāo)簽.同時(shí),為了降低不同特征間的影響,提高能耗預(yù)測(cè)精度,對(duì)新樣本按特征進(jìn)行歸一化操作:

其中,和分別表示第i樣本j特征的原始值和歸一化值,μ(j)和σ(j)分別表示j特征的均值和方差.

2.3 MDP 建模

使用K-DQN 進(jìn)行能耗預(yù)測(cè)時(shí),需將能耗預(yù)測(cè)問題轉(zhuǎn)化為MDP 過程進(jìn)行求解,并對(duì)狀態(tài),動(dòng)作,獎(jiǎng)賞等進(jìn)行設(shè)置.

K-DQN 算法的MDP 建模本質(zhì)上是DQN 算法建模的一種改進(jìn).在使用DQN 進(jìn)行能耗預(yù)測(cè)時(shí),狀態(tài)由一定數(shù)量的歷史能耗數(shù)據(jù)組成,動(dòng)作則根據(jù)訓(xùn)練集能耗數(shù)據(jù)范圍進(jìn)行設(shè)置.最低的能耗值可看作第一個(gè)動(dòng)作,而最高的能耗值為最后一個(gè)動(dòng)作.具體而言,假設(shè)歷史能耗數(shù)據(jù)范圍為[x,z],在步長(zhǎng)為g的情況下,其動(dòng)作空間大小為{x,x+g,x+2g,···,z},動(dòng)作總個(gè)數(shù)為(zx)/g+1.

而DQN 算法的MDP 建模缺陷在于,一旦動(dòng)作空間增大,動(dòng)作總個(gè)數(shù)則隨之增長(zhǎng).Q網(wǎng)絡(luò)需計(jì)算更多動(dòng)作的Q值,從而影響該算法進(jìn)行能耗預(yù)測(cè)的精度和收斂速度.相比之下,K-DQN 算法采用縮減動(dòng)作空間的方式進(jìn)行MDP 建模,通過減少原有動(dòng)作空間大小及動(dòng)作總個(gè)數(shù),提升能耗預(yù)測(cè)的精度及收斂速度.現(xiàn)以能耗數(shù)據(jù)范圍[10,59],步長(zhǎng)為1 為例進(jìn)行說明.如圖2 所示,原始動(dòng)作空間X共包含50 個(gè)動(dòng)作,且其內(nèi)部動(dòng)作值等同于Agent 預(yù)測(cè)的能耗值.實(shí)際上,原始動(dòng)作空間X的動(dòng)作值均可寫作在某一動(dòng)作值基礎(chǔ)上進(jìn)行增加的形式.轉(zhuǎn)換結(jié)果如圖2 中間部分,此時(shí)動(dòng)作空間X轉(zhuǎn)換為動(dòng)作空間Y,且動(dòng)作空間大小未發(fā)生改變.

圖2 縮減動(dòng)作空間示例

對(duì)動(dòng)作空間Y而言,每行可看作一個(gè)子動(dòng)作空間.若將每一子動(dòng)作空間對(duì)應(yīng)的狀態(tài)劃分為一類,則動(dòng)作空間Y對(duì)應(yīng)的所有狀態(tài)被劃分為5 類,即C0,C1,C2,C3,C4.此時(shí),不同類別相同次序的動(dòng)作可表示為:

其中,N表示狀態(tài)類別總個(gè)數(shù),i表示第i類狀態(tài),j表示第j個(gè)動(dòng)作,x,z為能耗數(shù)據(jù)范圍的最低值10 和最高值59.由此動(dòng)作空間Y可被動(dòng)作空間Z替代,總動(dòng)作個(gè)數(shù)由50 減少至10.更進(jìn)一步考慮步長(zhǎng)為g時(shí)的情況,此時(shí)不同類別相同次序的動(dòng)作可表示為:

最終,N×n個(gè)總動(dòng)作可減少至n,實(shí)現(xiàn)原始動(dòng)作空間的縮減.

此外,由于縮減后的動(dòng)作空間是由不同類別相同次序的動(dòng)作組合而成,因此每個(gè)動(dòng)作具有多重含義.例如,縮減后的動(dòng)作空間第一個(gè)動(dòng)作可表示每一個(gè)子動(dòng)作空間的第一個(gè)動(dòng)作.映射至神經(jīng)網(wǎng)絡(luò)中,則意味著一個(gè)神經(jīng)元具備多種含義,這影響了Q網(wǎng)絡(luò)的收斂速率及算法的預(yù)測(cè)精度.

為解決上述問題,我們將類別概率與歸一化后的新樣本進(jìn)行組合,構(gòu)造出狀態(tài)st傳入至Q網(wǎng)絡(luò)中.在訓(xùn)練過程中,狀態(tài)類別概率可以確定當(dāng)前狀態(tài)類別,從而將縮減后的動(dòng)作空間映射至唯一確定的子動(dòng)作空間.如圖3 所示,當(dāng)狀態(tài)類別為C0時(shí),縮減后的動(dòng)作空間可看作是第一個(gè)子動(dòng)作空間,從而確定每一動(dòng)作的具體含義,提高Q網(wǎng)絡(luò)的收斂速率及算法預(yù)測(cè)精度.

圖3 縮減動(dòng)作空間與原始動(dòng)作空間的映射

K-DQN 算法利用縮減的動(dòng)作空間進(jìn)行能耗預(yù)測(cè)時(shí),狀態(tài)st由歸一化樣本及其對(duì)應(yīng)的各類別的概率組成,表示為其中,表示歸一化處理后的歷史能耗數(shù)據(jù)樣本,Pi表示該樣本被判斷為i類的概率.動(dòng)作at表示Agent 在t時(shí)刻的預(yù)測(cè)能耗值,rt為t時(shí)刻Agent 獲得的立即獎(jiǎng)賞,具體表示為:

其中,Et表示t時(shí)刻的真實(shí)能耗.由式(8)可知,獎(jiǎng)賞越接近0,Agent 預(yù)測(cè)能耗的誤差越低.

2.4 K-DQN 算法流程

將能耗預(yù)測(cè)問題建模為MDP 模型后,便可利用K-DQN 算法進(jìn)行建筑能耗的預(yù)測(cè).具體來說,首先按照日期將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,并對(duì)其進(jìn)行異常值的檢測(cè)和替換.而后根據(jù)訓(xùn)練集能耗范圍及設(shè)定的狀態(tài)類別總數(shù)N,將原始動(dòng)作空間的動(dòng)作總個(gè)數(shù)縮減N倍,構(gòu)建縮減的動(dòng)作空間.其次,對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行特征提取及歸一化,生成新樣本及標(biāo)簽訓(xùn)練KNN 分類器.

K-DQN 算法在訓(xùn)練時(shí),每回合從經(jīng)驗(yàn)池中隨機(jī)選擇樣本作為原始狀態(tài),同時(shí)利用KNN 分類器獲取該樣本的各類別概率,并將二者結(jié)合構(gòu)建新狀態(tài)st傳入Q網(wǎng)絡(luò).同理,構(gòu)建新狀態(tài)st+1傳入目標(biāo)Q網(wǎng)絡(luò).而后利用兩個(gè)網(wǎng)絡(luò)各自輸出的結(jié)果,構(gòu)建損失函數(shù)(yj-Q(sj,aj;θ))2更新Q網(wǎng)絡(luò),直至其收斂.算法1 詳細(xì)描述了此訓(xùn)練過程.

算法1.K-DQN 算法進(jìn)行能耗預(yù)測(cè)1)初始化狀態(tài)類別總數(shù)D N 2)初始化經(jīng)驗(yàn)池Q Qθθ-=θ 3)初始化 網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò) 參數(shù),4)按日期劃分?jǐn)?shù)據(jù)集5)對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行異常值檢測(cè)和替換6)構(gòu)建縮減的動(dòng)作空間7)特征提取及歸一化8)訓(xùn)練KNN 分類器9)每一回合:10)隨機(jī)選擇樣本11)使用KNN 分類器獲取當(dāng)前樣本的各類別概率st 12)構(gòu)建新狀態(tài)13)每一步:14)在縮減的動(dòng)作空間中,概率選擇隨機(jī)動(dòng)作,概率選擇1-ε max(st,a;θ)ε 15)執(zhí)行所選動(dòng)作獲取立即獎(jiǎng)賞st+1 rt 16)構(gòu)建新狀態(tài)(st,at,rt,st+1)D 17)將存入經(jīng)驗(yàn)池(sj,a j,rj,sj+1)18)從經(jīng)驗(yàn)池中采樣19)計(jì)算y j=■■■■■■■■■rj,j+1步結(jié)束r j+γmax a′images/BZ_163_584_2354_605_2385.pngimages/BZ_163_605_2331_627_2361.pngQ(sj+1,a′|θ-),否則(y j-Q(sj,a j;θ))2Q 20)利用更新 網(wǎng)絡(luò)J?Q=Q 21)每步設(shè)置22)23)Until 最終狀態(tài) or 最大步數(shù)24)Until 最大回合數(shù)st←st+1

3 實(shí)驗(yàn)仿真

在本節(jié)中,我們將采用DQN,K-DQN,DDPG 算法進(jìn)行建筑能耗預(yù)測(cè)的分析與比較.第4.1 節(jié)描述了3 種算法的基本實(shí)驗(yàn)設(shè)置.第4.2 節(jié)選取了3 種評(píng)價(jià)指標(biāo)比較不同算法的預(yù)測(cè)結(jié)果.第4.3 節(jié)從預(yù)測(cè)精度,收斂速率,訓(xùn)練時(shí)間3 個(gè)角度分析3 種算法的優(yōu)劣.

3.1 基本實(shí)驗(yàn)設(shè)置

在特征提取階段,實(shí)驗(yàn)采用前24 個(gè)時(shí)刻歷史能耗數(shù)據(jù)作為特征,預(yù)測(cè)下一時(shí)刻的能耗.由此3 種算法的超參數(shù)設(shè)置如下: DQN,DDPG 算法輸入層神經(jīng)元個(gè)數(shù)為24,K-DQN 輸入層神經(jīng)元個(gè)數(shù)為 24+N(N為狀態(tài)類別總數(shù)).此外,由于訓(xùn)練集能耗數(shù)據(jù)范圍為 [24,2703],故DQN,K-DQN 算法采用步長(zhǎng)為1 的方式,將連續(xù)動(dòng)作空間轉(zhuǎn)換為離散動(dòng)作空間進(jìn)行能耗的預(yù)測(cè).同時(shí),為保證算法比較的公平性,3 種算法均使用相同學(xué)習(xí)率及相同網(wǎng)絡(luò)架構(gòu).對(duì)輸出層而言,DQN,K-DQN 算法的輸出層神經(jīng)元個(gè)數(shù)取決于動(dòng)作總個(gè)數(shù),而DDPG 算法由于自身處理連續(xù)問題的性質(zhì),需將其設(shè)置為1.表1詳細(xì)列舉了3 種算法所使用的超參數(shù).

表1 超參數(shù)設(shè)置

此外,由于K-DQN 算法內(nèi)部使用KNN 分類器,且K值選擇問題是超參數(shù)問題,故實(shí)驗(yàn)采用6 折交叉驗(yàn)證選取最優(yōu)K值.

3.2 評(píng)價(jià)指標(biāo)

為比較3 種算法的預(yù)測(cè)精度,選取平均絕對(duì)誤差(mean absolute error,MAE),均方根誤差 (root mean square error,RMSE),決定系數(shù)(coefficient of determination),作為評(píng)價(jià)指標(biāo).其計(jì)算公式分別為:

其中,m表示樣本總個(gè)數(shù),yi和y′i表示第i樣本的真實(shí)值及預(yù)測(cè)值,為整體樣本的均值.

3.3 結(jié)果與分析

研究使用的實(shí)驗(yàn)結(jié)果均建立在表1 超參數(shù)設(shè)置的基礎(chǔ)上,且為降低訓(xùn)練過程中其他隨機(jī)因素的影響,每一實(shí)驗(yàn)結(jié)果都取自10 次實(shí)驗(yàn)結(jié)果的平均值.

圖4 展示了DQN,DDPG 以及不同類別總數(shù)情況下K-DQN 算法的整體預(yù)測(cè)情況.其中,橫軸表示算法的預(yù)測(cè)能耗值,縱軸表示真實(shí)能耗.藍(lán)色實(shí)線為經(jīng)過原點(diǎn)的斜率為1 的直線,代表預(yù)測(cè)值和真實(shí)能耗值相同.故圖像中的散點(diǎn)越靠近該直線,則說明算法的預(yù)測(cè)精度越高.此外,藍(lán)色虛線是20%的誤差線,靠近縱軸的藍(lán)色虛線意味著預(yù)測(cè)能耗值是真實(shí)能耗值80%,靠近橫軸的藍(lán)色虛線則表示預(yù)測(cè)能耗值是真實(shí)能耗的120%.二者組成的陰影部分為預(yù)測(cè)值和真實(shí)值相差20% 的誤差帶.從這個(gè)角度看,DQN 算法在真實(shí)能耗值低于500 時(shí)有較多的預(yù)測(cè)點(diǎn)處于誤差帶之外,說明預(yù)測(cè)精度較差.相比之下,DDPG 算法的預(yù)測(cè)結(jié)果整體偏向于左上方,說明該算法的整體預(yù)測(cè)值均偏小.對(duì)KDQN 算法而言,由于其算法內(nèi)部使用KNN 分類器對(duì)狀態(tài)進(jìn)行了劃分,故預(yù)測(cè)出的能耗點(diǎn)呈現(xiàn)出一定的分類趨勢(shì).例如狀態(tài)類別總數(shù)為6 和8 的K-DQN 中,有較為明顯的簇.

圖4 3 種算法預(yù)測(cè)結(jié)果 (其中,橫坐標(biāo)表示算法的預(yù)測(cè)能耗值 (kWh),縱坐標(biāo)表示真實(shí)能耗 (kWh))

表1 和表2 描述了3 種算法的具體預(yù)測(cè)精度.從MAE角度看,DQN 算法預(yù)測(cè)精度最低,為51.566,而狀態(tài)類別總數(shù)為7 的K-DQN 算法預(yù)測(cè)精度最高,其MAE值為39.852.DDPG 與狀態(tài)類別總數(shù)為14 的KDQN 算法預(yù)測(cè)精度相近,其預(yù)測(cè)結(jié)果的MAE值均為44 以上.在比較RMSE指標(biāo)的情況下,不同類別總數(shù)的K-DQN 預(yù)測(cè)精度均高于DQN,DDPG 算法,其整體RMSE值處于70 以下.類別總數(shù)為3 時(shí)的K-DQN是個(gè)特例,其原因可能是測(cè)試過程中KNN 分類器對(duì)新樣本分類錯(cuò)誤導(dǎo)致.R2指標(biāo)反映了算法模型的擬合精度,越靠近1 則說明算法的預(yù)測(cè)精度越高.由表1、表2 可知,K-DQN 算法的預(yù)測(cè)精度均高于DQN、DDPG 算法,且類別數(shù)為6、7 的K-DQN 算法預(yù)測(cè)精度最高.

此外,對(duì)K-DQN 算法而言,類別數(shù)越多,動(dòng)作空間總動(dòng)作個(gè)數(shù)越低,算法的預(yù)測(cè)精度越高.但由于其內(nèi)部分類器的分類準(zhǔn)確率會(huì)隨類別數(shù)的增加而逐漸降低,從而影響算法預(yù)測(cè)精度,故表3 中K-DQN 的預(yù)測(cè)精度整體呈先上升后下降的趨勢(shì).綜合來看,類別總數(shù)為7 的K-DQN 模型效果最優(yōu),預(yù)測(cè)精度最高.

圖5 展現(xiàn)了3 種算法訓(xùn)練過程中的MAE變化趨勢(shì).其中,DQN 算法的收斂速度最次,且收斂后的MAE值高于DDPG 及K-DQN 算法.此外,由于DQN及N=2 時(shí)的K-DQN 算法起始MAE值較高,以致圖5不易比較分析DDPG 及其他分類總數(shù)下的K-DQN 算法.故將二者去除,生成圖6.圖6 由第3 回合開始進(jìn)行展示,可以看出DDPG 算法與類別總數(shù)為8 的K-DQN算法收斂趨勢(shì)相近,但收斂后的MAE值略高.對(duì)KDQN 算法而言,KNN 分類使得K-DQN 具有較低的MAE初始值,且狀態(tài)類別數(shù)越多,K-DQN 算法收斂速率越快,收斂后的MAE值越低.故該實(shí)驗(yàn)中,類別總數(shù)為14 的K-DQN 算法收斂速率最快.

圖5 3 種算法的MAE 變化趨勢(shì)

圖6 3 種算法的MAE 變化趨勢(shì) (從第3 回合開始)

表2 和表3 同時(shí)展示了3 種算法的訓(xùn)練時(shí)間.其中,DDPG 算法的訓(xùn)練時(shí)間最長(zhǎng),為1 353.058 s.DQN算法訓(xùn)練時(shí)間其次,為1 190.733 s.而K-DQN 算法的訓(xùn)練時(shí)間則取決于狀態(tài)類別總數(shù).一般而言,狀態(tài)類別總數(shù)越多,動(dòng)作空間越小,網(wǎng)絡(luò)訓(xùn)練所需的參數(shù)越少,訓(xùn)練時(shí)間越低,故K-DQN 算法的訓(xùn)練時(shí)間隨類別數(shù)增加整體呈下降趨勢(shì).但由于實(shí)驗(yàn)過程中隨機(jī)因素?zé)o法完全消除,以致于出現(xiàn)個(gè)別偏差值,例如類別數(shù)為10 時(shí)的K-DQN 算法情況.

表2 DQN 和DDPG 算法的預(yù)測(cè)精度及訓(xùn)練時(shí)間

表3 K-DQN 算法的預(yù)測(cè)精度及訓(xùn)練時(shí)間

4 結(jié)論與展望

K-DQN 是一種將KNN 分類器與DQN 相融合的算法框架,可在減少網(wǎng)絡(luò)訓(xùn)練時(shí)間的情況下,獲得優(yōu)于DQN、DDPG 算法的建筑能耗預(yù)測(cè)精度.該算法首先對(duì)原始動(dòng)作空間進(jìn)行平均劃分,產(chǎn)生多個(gè)子動(dòng)作空間,而后將每個(gè)子動(dòng)作空間視作一類訓(xùn)練KNN 分類器.并在此基礎(chǔ)上,對(duì)不同類別相同次序的動(dòng)作進(jìn)行統(tǒng)一表示,從而將原始動(dòng)作空間映射至單一子動(dòng)作空間中,實(shí)現(xiàn)原始動(dòng)作空間的縮減.縮減后的動(dòng)作空間與原始動(dòng)作空間相比,動(dòng)作個(gè)數(shù)更少,算法更易尋找最優(yōu)值,進(jìn)而提升建筑能耗預(yù)測(cè)的精度.此外,K-DQN 算法將歷史能耗數(shù)據(jù)及其對(duì)應(yīng)的分類概率組合構(gòu)建為 Q 網(wǎng)絡(luò)的輸入,確定了單一動(dòng)作在網(wǎng)絡(luò)中的具體含義,提高了算法的收斂速率及預(yù)測(cè)精度.最終的實(shí)驗(yàn)結(jié)果證明,與DQN,DDPG 算法相比,類別為7 的K-DQN 算法在預(yù)測(cè)精度,收斂速率,訓(xùn)練時(shí)間方面均取得更優(yōu)結(jié)果,驗(yàn)

證了K-DQN 算法的有效性.此外,由于K-DQN 算法的本質(zhì)是縮減動(dòng)作空間,故在建筑能耗范圍較大時(shí),算法特性會(huì)發(fā)揮得更加明顯.在后續(xù)工作中將對(duì)這一特性進(jìn)行討論說明,提升K-DQN 算法框架的通用性.

猜你喜歡
類別能耗精度
基于不同快速星歷的GAMIT解算精度分析
嚴(yán)寒區(qū)太陽能資源分區(qū)與集裝箱房供暖期能耗
公共建筑年能耗強(qiáng)度影響因素交互作用
國(guó)網(wǎng)浙江電力 多措并舉抓好電力保供和能耗雙控“頭等大事”
一起去圖書館吧
水下飛起滑翔機(jī)
簡(jiǎn)析基于概率預(yù)測(cè)的網(wǎng)絡(luò)數(shù)學(xué)模型建構(gòu)
近似邊界精度信息熵的屬性約簡(jiǎn)
電力系統(tǒng)短期負(fù)荷預(yù)測(cè)方法與預(yù)測(cè)精度
選相紙 打照片
康平县| 施秉县| 洪洞县| 密云县| 杂多县| 辉县市| 武功县| 长乐市| 海原县| 江陵县| 万山特区| 塔河县| 天全县| 都兰县| 秦安县| 中宁县| 乌鲁木齐县| 万年县| 青岛市| 虎林市| 阜阳市| 塘沽区| 渝北区| 鱼台县| 垣曲县| 丹巴县| 沛县| 花莲市| 梅州市| 高阳县| 新邵县| 曲麻莱县| 晋江市| 大邑县| 寻甸| 肇东市| 襄城县| 许昌县| 桦甸市| 辽宁省| 昂仁县|