唐明武,張津育,劉依然,吳小舟
(1.大連理工大學(xué)土木工程學(xué)院,遼寧 大連 116024;2.大連理工大學(xué)經(jīng)濟(jì)管理學(xué)院,遼寧 大連 116024)
建筑熱環(huán)境控制對(duì)于提高人們工作質(zhì)量和改善生活環(huán)境至關(guān)重要.各種外界因素變化將引起室內(nèi)熱環(huán)境發(fā)生劇烈變化,故建筑的熱工調(diào)節(jié)是維持室內(nèi)熱環(huán)境的基本條件.而暖通空調(diào)系統(tǒng)運(yùn)行是建筑能耗的主要方面,占比大約為50%[1].因此,為了降低能耗節(jié)約資源,暖通空調(diào)系統(tǒng)優(yōu)化控制就顯得尤為重要.
影響建筑熱環(huán)境控制的因素可大致分為三個(gè)部分:暖通空調(diào)系統(tǒng)本身相關(guān)的因素、建筑物本身的環(huán)境因素、人為因素.雖然因?yàn)榫幼≌叩闹饔^因素導(dǎo)致對(duì)環(huán)境的感受不同,但是研究的重點(diǎn)在于如何在滿足大多數(shù)人的同時(shí),讓暖通空調(diào)系統(tǒng)在動(dòng)態(tài)化多變的環(huán)境條件下調(diào)整系統(tǒng)中的狀態(tài)設(shè)定值和運(yùn)行策略,即如何去創(chuàng)造一個(gè)更先進(jìn)更智能的控制器.
對(duì)于建筑熱環(huán)境的優(yōu)化控制,除了最早的基于規(guī)則的啟??刂?,目前的控制數(shù)學(xué)方法一般分為兩類(lèi):一類(lèi)是基于模型的控制,如PID控制、模糊方程控制、模型預(yù)測(cè)控制(MPC)等;另一類(lèi)是基于學(xué)習(xí)的控制,如強(qiáng)化學(xué)習(xí)控制.其中MPC是受到廣泛關(guān)注并被證明是有效的[2-4],是通過(guò)一個(gè)建筑完整的熱力模型,并在每個(gè)設(shè)置的時(shí)間步長(zhǎng)內(nèi),通過(guò)對(duì)未來(lái)建筑的室內(nèi)狀況和室外環(huán)境情況進(jìn)行預(yù)測(cè),從而獲得控制策略.但是MPC對(duì)建筑熱力模型的依賴性很高,模型的完整性嚴(yán)重影響MPC控制的準(zhǔn)確度,模型不完整,控制會(huì)表現(xiàn)出隨機(jī)行為,而建造一個(gè)完整的建筑熱力模型這對(duì)于一般的普通家庭不是經(jīng)濟(jì)可行的.此外,基于模型的方法難以精確地模擬熱動(dòng)力學(xué)的復(fù)雜性和各種因素的影響,并且受到特定建筑環(huán)境的限制,難以得到一個(gè)廣義通用的模型方法.而采用強(qiáng)化學(xué)習(xí)控制,將免受模型的限制,通過(guò)數(shù)據(jù)自身驅(qū)動(dòng),經(jīng)過(guò)不斷嘗試,獲取環(huán)境反饋信息來(lái)不斷更新和優(yōu)化控制策略,降低了對(duì)先驗(yàn)知識(shí)的依賴.
近些年來(lái),隨著強(qiáng)化學(xué)習(xí)[5]和神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,以及在其他工程優(yōu)化控制以及工程預(yù)測(cè)[6]中的良好表現(xiàn),采用基于強(qiáng)化學(xué)習(xí)控制方法被用到暖通空調(diào)控制系統(tǒng)中[7-11].Zenger等[12]采用了狀態(tài)動(dòng)作-獎(jiǎng)勵(lì)-狀態(tài)動(dòng)作與環(huán)境交互,在降低能耗的同時(shí)達(dá)到所需的舒適度.但是Liu等[13]在空調(diào)蓄冷裝置中應(yīng)用強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行系統(tǒng)優(yōu)化控制時(shí),發(fā)現(xiàn)Q-learning算法存在因?yàn)楦呔暥葼顟B(tài)空間學(xué)習(xí)效率低下的問(wèn)題.之后Wei等[14]采用基于神經(jīng)網(wǎng)絡(luò)的深度Q學(xué)習(xí)方法進(jìn)行HVAC系統(tǒng)的控制,而Wang等[13]采用加入長(zhǎng)短期記憶(LSTM)遞歸神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)方法增強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)暖通系統(tǒng)環(huán)境狀態(tài)之間的時(shí)間關(guān)聯(lián)性和整體邏輯性的理解.最近Zhang等[15]提出了一種新的深度強(qiáng)化學(xué)習(xí)(DRL)框架,將邊界元應(yīng)用于暖通空調(diào)系統(tǒng)的運(yùn)行中心,使其適用于建筑整體能量模型從而實(shí)現(xiàn)節(jié)能.因?yàn)榭刂七^(guò)程中溫濕度等參數(shù)都是連續(xù)變化的,Gao等[16]通過(guò)確定性策略梯度的方法來(lái)避免控制變量的離散化.
目前針對(duì)暖通控制的深度強(qiáng)化學(xué)習(xí)控制方法多數(shù)是應(yīng)用在空調(diào)送風(fēng)方面,針對(duì)地板供暖的研究相對(duì)較少[17].地板供暖作為一個(gè)慢熱工控制系統(tǒng),動(dòng)作和狀態(tài)之間存在大時(shí)間差,這意味著控制器要特別關(guān)注動(dòng)作和狀態(tài)之間的時(shí)間相關(guān)性和狀態(tài)彼此之間的整體相關(guān)性.
總體而言,強(qiáng)化學(xué)習(xí)在暖通控制方面還有很大的發(fā)展前景和潛力,如何使控制效果更加的貼近實(shí)際生活以及優(yōu)化和改善強(qiáng)化學(xué)習(xí)控制器是目前的重點(diǎn).加入神經(jīng)網(wǎng)絡(luò)后的強(qiáng)化學(xué)習(xí),解決了一般強(qiáng)化學(xué)習(xí)方法不適合大空間狀態(tài)作用的問(wèn)題,并提高了神經(jīng)網(wǎng)絡(luò)的泛化能力.但大部分的深度強(qiáng)化學(xué)習(xí)控制器還存在訓(xùn)練時(shí)間過(guò)長(zhǎng)和實(shí)際生活中應(yīng)用較少的問(wèn)題.本文將加入神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法應(yīng)用到地板供暖系統(tǒng)控制中,將綜合考慮人體熱舒適、工作效率及系統(tǒng)能耗,并分別與傳統(tǒng)的PID和通斷控制效果進(jìn)行對(duì)比分析.
根據(jù)當(dāng)前室內(nèi)溫度和外環(huán)境太陽(yáng)輻射、供水溫度等的干擾,地暖系統(tǒng)需保持房間內(nèi)的溫度為目標(biāo)溫度.而下一步的房間溫度僅由當(dāng)前系統(tǒng)狀態(tài)和環(huán)境干擾以及輸入供水溫度所決定.它獨(dú)立于建筑物以前的狀態(tài).因此,地板供暖控制可以看作是一個(gè)馬爾可夫過(guò)程[16],如圖1所示.
圖1 強(qiáng)化學(xué)習(xí)過(guò)程圖示
環(huán)境狀態(tài):依據(jù)對(duì)仿真環(huán)境當(dāng)前狀態(tài)的觀測(cè),確定下一步最優(yōu)的動(dòng)作.這一步考慮的是房間溫度和外環(huán)境因素的干擾.為了更貼近實(shí)際情況,反應(yīng)真實(shí)天氣對(duì)調(diào)控的影響,選擇國(guó)家氣象局公布的權(quán)威數(shù)據(jù),并按照時(shí)間序列逐步反映在仿真環(huán)境中.
控制方法:地板供暖的供水溫度和閥門(mén)可調(diào),閥門(mén)的狀態(tài)有S={開(kāi)、關(guān)}兩種,供水溫度可從多個(gè)離散級(jí)別中進(jìn)行選取,可表示為T(mén)={t1,t2,…,tm},那么整個(gè)輸出空間n=2×m.如果房間數(shù)目過(guò)多且供水溫度離散更加細(xì)致,動(dòng)作空間的維數(shù)會(huì)迅速增加,從而增大訓(xùn)練時(shí)間難以收斂,降低控制性能.可將供水溫度交由函數(shù)根據(jù)環(huán)境參數(shù)計(jì)算得出,或者通過(guò)連續(xù)控制水溫的方法進(jìn)行實(shí)驗(yàn).
回饋獎(jiǎng)勵(lì):目的是將房間溫度控制在指定的目標(biāo)范圍內(nèi).根據(jù)我們的動(dòng)作狀態(tài)空間A={a1,a2,…},在上一個(gè)狀態(tài)St-1執(zhí)行動(dòng)作后,環(huán)境會(huì)變成新的狀態(tài)St,準(zhǔn)備進(jìn)行下一個(gè)動(dòng)作.而這個(gè)時(shí)候需要一個(gè)機(jī)制來(lái)對(duì)此次的動(dòng)作的好壞進(jìn)行判定,并給出獎(jiǎng)勵(lì).
.
(1)
期望獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)對(duì)強(qiáng)化學(xué)習(xí)算法速度和控制結(jié)果有著重要的影響.
計(jì)算不僅包括對(duì)本次的動(dòng)作,還包括之前所有動(dòng)作獎(jiǎng)勵(lì)的累計(jì),獲得最佳訓(xùn)練效果.我們可以通過(guò)衰減因子γ[0,1]來(lái)表示當(dāng)前動(dòng)作對(duì)未來(lái)獎(jiǎng)勵(lì)的影響程度,γ=1就表示對(duì)未來(lái)獎(jiǎng)賞和立即獎(jiǎng)賞同樣看重.上述公式(1)是狀態(tài)價(jià)值函數(shù),表示從某一個(gè)狀態(tài)St開(kāi)始采樣直到所有獎(jiǎng)勵(lì)的衰減之和.但考慮動(dòng)作的價(jià)值影響,目標(biāo)Q值的計(jì)算公式為
(2)
建筑物的狀態(tài)轉(zhuǎn)換是隨機(jī)的,受到環(huán)境干擾的影響,沒(méi)法精確測(cè)量,于是將按照Q學(xué)習(xí)的方法來(lái)更新最佳Q值估計(jì),如公式(3)所示.
Q(st,at)=Qt(st,at)+α(Q*(st,at)-Qt(st,at)),
(3)
公式中:α∈[0,1]為學(xué)習(xí)率,較大可加快收斂但效果不一定好,較小可以使算法穩(wěn)定,但是會(huì)延長(zhǎng)訓(xùn)練的時(shí)間[17].
具體控制,如圖2所示[15].
圖2 DRL算法控制建筑流程圖
Q-learning算法是通過(guò)將“動(dòng)作-價(jià)值”對(duì)以表格的形式進(jìn)行存儲(chǔ),它是關(guān)于離散狀態(tài)和動(dòng)作空間的馬爾科夫決策過(guò)程,但實(shí)際問(wèn)題中隨著各種可能動(dòng)作和狀態(tài)的組合會(huì)形成大規(guī)模的狀態(tài)和動(dòng)作空間,這將對(duì)一般強(qiáng)化學(xué)習(xí)帶來(lái)數(shù)據(jù)維度災(zāi)難,使計(jì)算難以進(jìn)行.使用隨機(jī)樹(shù)、神經(jīng)網(wǎng)絡(luò)來(lái)逼近Q值的泛化方法通常有效.實(shí)驗(yàn)使用權(quán)重ω神經(jīng)網(wǎng)絡(luò)來(lái)逼近值函數(shù)Q(s,a,ω).函數(shù)逼近器都有著不穩(wěn)定和發(fā)散的風(fēng)險(xiǎn),特別是針對(duì)非線性逼近器神經(jīng)網(wǎng)絡(luò)而言.但通過(guò)經(jīng)驗(yàn)回放和確定目標(biāo)Q值的方法,證明神經(jīng)網(wǎng)絡(luò)是有效且穩(wěn)定的.神經(jīng)網(wǎng)絡(luò)目的是解決如何在大狀態(tài)空間下去更快速和更優(yōu)的獲得Q值,神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)如圖3所示.
圖3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
DRL的控制策略包括基于氣候補(bǔ)償?shù)耐〝嗫刂坪妥兯疁乜刂?但是兩種策略使用的網(wǎng)絡(luò)結(jié)構(gòu)是相同的,輸入的狀態(tài)參數(shù)也是相同的,但是輸出的動(dòng)作Q值表格不同.變水溫控制動(dòng)作將會(huì)根據(jù)實(shí)際需要被離散為有限的動(dòng)作,比如以0.5 ℃作為間隔,而通斷控制只有開(kāi)和關(guān)兩個(gè)動(dòng)作輸出.實(shí)驗(yàn)考慮到的輸入狀態(tài)參數(shù)包括:太陽(yáng)輻射、供回水溫度、室內(nèi)干球溫度、室外溫度、送風(fēng)溫度、風(fēng)速等多個(gè)可觀測(cè)參數(shù),還有部分無(wú)量綱參數(shù)將通過(guò)標(biāo)準(zhǔn)化以及和目標(biāo)狀態(tài)通過(guò)向量距離算法得出.考慮到的狀態(tài)參數(shù)越多且越接近于實(shí)際時(shí),對(duì)DRL的挑戰(zhàn)性也會(huì)更大,也更具實(shí)際意義.
根據(jù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在狀態(tài)S輸入后經(jīng)神經(jīng)網(wǎng)絡(luò)分級(jí)傳遞可直接獲得所有控制動(dòng)作的Q值,這可以大大提高貪心算法和softmax選擇的效率.ReLU作為隱藏層的激活函數(shù),在最后的全連接線性層輸出.
深度神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,而且它要求樣本之間是獨(dú)立分布的.但通過(guò)強(qiáng)化學(xué)習(xí)智能體獲取的樣本量較稀疏且有一定的延遲,獲得的樣本也是連續(xù)的.
通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)完成值函數(shù)的逼近要解決神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)結(jié)合所帶來(lái)的問(wèn)題,總結(jié)為兩個(gè)關(guān)鍵點(diǎn):
圖4 DRL與環(huán)境交互的算法流程圖
圖5 DRL算法模型的內(nèi)循環(huán)流程圖
(1)樣本池(Experience Reply):智能體采集的狀態(tài)樣本放入樣本池,然后再?gòu)臉颖境刂须S機(jī)抽取樣本進(jìn)行訓(xùn)練,這種處理打破了樣本間的關(guān)聯(lián)性使得樣本獨(dú)立并解決了非靜態(tài)分布的問(wèn)題.而且通過(guò)樣本池,學(xué)習(xí)當(dāng)前以及之前經(jīng)歷過(guò)的狀態(tài),可提高神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效率.
(2)固定目標(biāo)Q值網(wǎng)絡(luò)(Fixed Q-Target):相當(dāng)于針對(duì)Q值的相關(guān)性打亂機(jī)制.計(jì)算網(wǎng)絡(luò)的目標(biāo)值要用到現(xiàn)有的Q值,而用一個(gè)更新較慢的網(wǎng)絡(luò)提供該Q值,可以提高算法的穩(wěn)定性和收斂性.Q-Target使得算法當(dāng)中出現(xiàn)了兩個(gè)Q值輸出,它們使用相同神經(jīng)網(wǎng)絡(luò),但輸入的參數(shù)卻不同.預(yù)測(cè)Q值輸入當(dāng)前狀態(tài)量,而目標(biāo)Q值輸入舊狀態(tài)量.通過(guò)損失函數(shù)均方差公式(4)去獲取當(dāng)前Q值和目標(biāo)Q值的誤差損失并更新權(quán)重參數(shù)ω.
(4)
(5)
運(yùn)行時(shí)地暖仿真環(huán)境根據(jù)動(dòng)作指令不斷進(jìn)行狀態(tài)反饋用以改進(jìn)控制策略.環(huán)境的控制時(shí)間長(zhǎng)度決定一次迭代的訓(xùn)練次數(shù),算法內(nèi)部則根據(jù)環(huán)境設(shè)置更新批次和時(shí)間步.
初始化設(shè)置:首先確定迭代輪數(shù)T,特征狀態(tài)St的特征維度n,回報(bào)獎(jiǎng)勵(lì)R的算法和衰減因子γ,如果使用ε貪心算法還要確定探索率ε,Q網(wǎng)絡(luò)結(jié)構(gòu),更新網(wǎng)絡(luò)的頻率C,隨機(jī)初始化Q網(wǎng)絡(luò)權(quán)重參數(shù)ω.還要注意對(duì)經(jīng)驗(yàn)回放存儲(chǔ)合集M,每次最近過(guò)渡的元組(St,At,Rt,St-1)都會(huì)被推入M中,并不斷被抽出,將其初始化為空集并合理設(shè)置其大小.神經(jīng)網(wǎng)絡(luò)的總層數(shù)設(shè)置為3,算法過(guò)程描述如表1所示,流程如圖4、圖5所示.
表1 地板供暖系統(tǒng)的DRL算法過(guò)程表
地板供暖系統(tǒng)作為一個(gè)慢響應(yīng)控制系統(tǒng),在控制時(shí)會(huì)更加的考慮到動(dòng)作對(duì)未來(lái)影響,所以將獎(jiǎng)勵(lì)折扣因子γ設(shè)置在一個(gè)較高的值,內(nèi)部參數(shù)如表2所示.其中DRL算法的獎(jiǎng)勵(lì)政策考慮的是所控區(qū)域的環(huán)境溫度.
表2 DRL算法的內(nèi)部參數(shù)
圖6 通斷控制訓(xùn)練過(guò)程中Q值得分情況圖7 變水溫控制訓(xùn)練過(guò)程中Q值得分情況
確定參數(shù)后系統(tǒng)的訓(xùn)練過(guò)程如圖6和圖7所示,兩種方法的DRL控制訓(xùn)練過(guò)程中,獎(jiǎng)勵(lì)評(píng)分逐漸隨著訓(xùn)練次數(shù)的增加趨于平穩(wěn),這表明在DRL代理通過(guò)與環(huán)境不斷進(jìn)行狀態(tài)、動(dòng)作數(shù)據(jù)的交互過(guò)程中,學(xué)到了對(duì)該系統(tǒng)的控制方法和策略,也印證了內(nèi)部參數(shù)調(diào)試的合理性.兩種方法只在輸出動(dòng)作上出現(xiàn)差別,且發(fā)現(xiàn)二者在同一參數(shù)下有著良好表現(xiàn),所以并未因?yàn)榉椒ú煌ジ淖儍?nèi)部參數(shù).
基于深度強(qiáng)化學(xué)習(xí)的地板供暖系統(tǒng)運(yùn)行控制模擬計(jì)算模塊如圖8所示.
圖8 TRNSYS模擬計(jì)算界面
模擬計(jì)算模塊主要包括五個(gè)模塊:室外氣象參數(shù)模塊、濕空氣計(jì)算模塊、天空溫度計(jì)算模塊、供水溫度調(diào)節(jié)計(jì)算模塊(通斷控制方式還包括氣候補(bǔ)償供水溫度預(yù)測(cè)模塊)和建筑熱平衡計(jì)算模塊.建筑熱平衡計(jì)算模塊是本模擬的核心,主要包括建筑房間及復(fù)合系統(tǒng)的能量平衡計(jì)算.前面四個(gè)模塊都是為建筑熱平衡計(jì)算所需提供邊界條件.其中,室外氣象參數(shù)模塊提供各種輻射參數(shù),濕空氣計(jì)算模塊提供相對(duì)濕度及干球溫度,天空溫度計(jì)算模塊提供等效天空溫度,供水溫度調(diào)節(jié)模塊通過(guò)室外溫度及室內(nèi)目標(biāo)溫度計(jì)算得出所需供水溫度.
圖9 典型辦公房間
DRL與TRNSYS的通信通過(guò)內(nèi)部的type155模塊進(jìn)行數(shù)據(jù)交互,根據(jù)控制算法的不同需要提前預(yù)編譯type155模塊所需調(diào)用的MATLAB的m文件.
本模擬選取某一低能耗辦公建筑標(biāo)準(zhǔn)層南向辦公房間作為研究對(duì)象,房間總面積為18.8 m2,如圖9所示.房間長(zhǎng)×寬×高為(4.7×4.0×2.7)m,外窗長(zhǎng)×高為(3.2×1.8)m,房間圍護(hù)結(jié)構(gòu)傳熱參數(shù)如表3所示.
表3 圍護(hù)結(jié)構(gòu)傳熱參數(shù)
針對(duì)冬天太陽(yáng)對(duì)建筑供暖的有益貢獻(xiàn),不安裝任何遮陽(yáng)措施.對(duì)于冬季典型辦公室,考慮到人體熱舒適及人員工作效率,本文設(shè)定室內(nèi)設(shè)計(jì)溫度為19 ℃,房間設(shè)計(jì)負(fù)荷和地暖系統(tǒng)設(shè)計(jì)參數(shù)如表4所示.
表4 房間設(shè)計(jì)負(fù)荷和地暖系統(tǒng)設(shè)計(jì)參數(shù)
室內(nèi)計(jì)算機(jī)功率為150W;工作日期間人員辦公時(shí)間為9:00-17:00;供暖系統(tǒng)運(yùn)行時(shí)間根據(jù)當(dāng)?shù)貙?shí)際運(yùn)行時(shí)間計(jì)算(實(shí)驗(yàn)中三個(gè)地區(qū)供暖時(shí)長(zhǎng)不同).
為了跟DRL控制進(jìn)行對(duì)比,TRNSYS仿真模型分別采用基于氣候補(bǔ)償?shù)耐〝嗫刂品椒ê蚉ID變水溫控制方法,具體如下所示.
(1)基于氣候補(bǔ)償?shù)耐〝嗫刂?/p>
基于氣候補(bǔ)償?shù)牡嘏块g供水溫度調(diào)節(jié),如公式(6)所示.推導(dǎo)過(guò)程見(jiàn)參考文獻(xiàn)[17].根據(jù)TRNSYS內(nèi)置的通斷算法啟停水泵,具體為當(dāng)室內(nèi)空氣溫度低于19 ℃時(shí)啟動(dòng)水泵,而當(dāng)室內(nèi)空氣溫度高于19 ℃時(shí)停止水泵運(yùn)行.
(6)
(2)PID變水溫控制
水溫變化范圍為19.0 ℃~26.0 ℃,PID的具體參數(shù)如表5所示.
表5 PID參數(shù)表
圖10 三個(gè)地區(qū)室內(nèi)空氣干球溫度變化曲線
根據(jù)上述搭建的TRNSYS仿真模型,采用基于氣候補(bǔ)償?shù)耐〝嗫刂品椒ê妥兯疁乜刂品椒ㄟM(jìn)行地板供暖系統(tǒng)優(yōu)化控制,并以室內(nèi)溫度、人體熱感覺(jué)、人員工作效率及系統(tǒng)能耗作為評(píng)價(jià)參數(shù).其中人體熱感覺(jué)參考ISO 7730根據(jù)冬季標(biāo)準(zhǔn)辦公室人員活動(dòng)(1.2 met)及著裝(1.0 clo)計(jì)算PMV得到,計(jì)算的地面輻射供暖系統(tǒng)供熱量作為系統(tǒng)能耗,人員工作效率計(jì)算方法參考文獻(xiàn)[18]中公式計(jì)算得到
(7)
公式中:P為平均人體工效(%);top為室內(nèi)操作溫度;y0=
89.320 92,xc=19.933 61,w=0.129 55,A=70.756 91.
采用傳統(tǒng)通斷控制算法與DRL通斷控制算法分別對(duì)地板供暖系統(tǒng)進(jìn)行優(yōu)化控制,得到的結(jié)果如圖10所示.
圖10中三個(gè)地區(qū)的兩種方法都是通過(guò)算法執(zhí)行閥門(mén)通斷來(lái)控制系統(tǒng),設(shè)定的目標(biāo)最低室內(nèi)溫度為19 ℃,可以看出,經(jīng)訓(xùn)練后的DRL通斷控制和傳統(tǒng)通斷控制在溫度的保證方面有著相同的效應(yīng),都能保證室溫在19 ℃附近或不低于19 ℃.而時(shí)間的后半段北京和哈爾濱地區(qū)因?yàn)樘?yáng)輻射加劇,導(dǎo)致室溫增加,DRL挑選任何控制動(dòng)作指令都難以避免太陽(yáng)輻射所帶來(lái)的副影響,狀態(tài)回饋都會(huì)獲得低評(píng)價(jià)獎(jiǎng)勵(lì),從而導(dǎo)致錯(cuò)誤的學(xué)習(xí)使得無(wú)端的開(kāi)泵致使能耗增加,室溫略微升高.
溫度控制的目的是為了使得居住者更加舒適,根據(jù)圖11和圖12可知,兩種通斷控制方法針對(duì)三個(gè)地區(qū)的計(jì)算人體PMV值統(tǒng)計(jì)和對(duì)比可以看出,在人體舒適和人體工作效率方面DRL算法和傳統(tǒng)通斷控制二者具有幾乎相同的效應(yīng).整體而言,DRL在人體舒適方面略微優(yōu)于傳統(tǒng)通斷控制,而人體工作效率方面,北京和哈爾濱地區(qū)則因?yàn)楹笃谔?yáng)輻射影響溫度劇增,DRL算法不能得到有效的獎(jiǎng)勵(lì)回饋而進(jìn)行了錯(cuò)誤學(xué)習(xí),導(dǎo)致在室溫在19 ℃時(shí)依舊選擇開(kāi)泵,而致使人體功效有所下降.這也表明,獎(jiǎng)勵(lì)政策制定的準(zhǔn)確性對(duì)深度強(qiáng)化學(xué)習(xí)模型算法的重要性.
圖11 傳統(tǒng)通斷控制與DRL通斷控制室內(nèi)人體熱感覺(jué)分布
圖12 傳統(tǒng)通斷控制與DRL通斷控制室內(nèi)人體工效分布
圖13 傳統(tǒng)通斷控制與DRL通斷控制能耗對(duì)比
圖14 三個(gè)地區(qū)室內(nèi)空氣干球溫度變化曲線
傳統(tǒng)通斷控制與DRL通斷控制能耗對(duì)比,如圖13所示.DRL通斷控制總體能耗略高于傳統(tǒng)通斷控制,北京、哈爾濱、哥本哈根地區(qū)分別多消耗了7.5%、3.8%、5.1%的能量.但從室溫控制效果來(lái)看,DRL優(yōu)于傳統(tǒng)通斷控制,對(duì)系統(tǒng)供水的利用率更高,這也是是其能耗較高的原因.
總的來(lái)說(shuō),DRL在通斷控制方面能滿足室溫控制和人體需求,但是在低溫輻射供暖方面受環(huán)境影響嚴(yán)重,當(dāng)出現(xiàn)環(huán)境狀態(tài)嚴(yán)重影響室溫的情況下,DRL在多種控制情況下可能都會(huì)收到負(fù)面評(píng)價(jià)導(dǎo)致動(dòng)作挑選出現(xiàn)一定的隨機(jī)性,這也是DRL能耗略高的原因,也表明DRL的獎(jiǎng)勵(lì)機(jī)制設(shè)置十分重要.
采用PID變水溫控制算法與DRL變水溫控制算法分別對(duì)地板供暖系統(tǒng)進(jìn)行優(yōu)化控制,得到的結(jié)果如圖14所示.
圖14中三個(gè)地區(qū)的室內(nèi)空氣干球溫度變化曲線,都是PID和DRL都是對(duì)供水溫度進(jìn)行連續(xù)控制.就整體的控制效果而言,兩種控制方法都使得室溫都達(dá)到并高出設(shè)定的目標(biāo)期望值19 ℃,雖然DRL控制會(huì)在某幾小時(shí)出現(xiàn)低于19 ℃的室溫波動(dòng)情況,但是依舊在允許范圍之內(nèi).可以看出,在控制室溫方面,兩種控制方法基本具有相同的效應(yīng).
圖15 PID變水溫控制與DRL變水溫控制室內(nèi)人體熱感覺(jué)分布
圖16 PID變水溫控制與DRL變水溫控制室內(nèi)人體工效分布
在提供居住的舒適環(huán)境方面,根據(jù)圖15中計(jì)算人體PMV值的統(tǒng)計(jì)對(duì)比可以看出,北京與哈爾濱地區(qū)的DRL變水溫控制比PID變水溫控制在人體舒適方面略占優(yōu)勢(shì),哥本哈根地區(qū)的PID變水溫控制比DRL變水溫控制具有相同的人體舒適效益;而依據(jù)圖16可以得出在人體工作效率方面,北京與哈爾濱地區(qū)的DRL變水溫控制略低于PID變水溫度控制、哥本哈根地區(qū)的PID變水溫控制比DRL變水溫控制略占優(yōu)勢(shì).但總體而言,在人體舒適和工作效率方面,二者都能滿足需求.
圖17 PID與DRL的能耗對(duì)比
PID與DRL的能耗對(duì)比,如圖17所示.北京、哈爾濱地區(qū)DRL控制的能耗相較于PID分別多消耗了21.0%、7.2%,而哥本哈根地區(qū)的DRL控制卻相對(duì)節(jié)省了4.9%的能耗.哥本哈根地區(qū)的數(shù)據(jù)較其他地區(qū)有一定的差別,原因主要是相對(duì)于北京和哈爾濱地區(qū),哥本哈根地區(qū)室外溫度和太陽(yáng)輻射的變化突變情況較少,相對(duì)比較穩(wěn)定,且存在一定的過(guò)渡時(shí)間.
外擾急劇變化的地區(qū)會(huì)導(dǎo)致室溫變化超出控制范圍,會(huì)導(dǎo)致無(wú)論DRL算法挑選任何動(dòng)作指令都會(huì)導(dǎo)致本次動(dòng)作被獎(jiǎng)勵(lì)政策判斷為負(fù)分,而這將影響到DRL模型的整體優(yōu)化,會(huì)導(dǎo)致DRL算法經(jīng)常出現(xiàn)動(dòng)作誤判,而使得控制效果下降.哥本哈根地區(qū)外擾(太陽(yáng)輻射)波動(dòng)小,DRL算法在進(jìn)行訓(xùn)練控制時(shí)能經(jīng)常挑選出最優(yōu)控制動(dòng)作,優(yōu)化模型相對(duì)也更加徹底.而啟停控制表現(xiàn)相對(duì)較差也是因?yàn)閱⑼?刂苿?dòng)作指令少,時(shí)常出現(xiàn)無(wú)論選擇任何控制動(dòng)作都得不到良好反饋的情況,難以進(jìn)行有效的學(xué)習(xí),從而導(dǎo)致一些無(wú)效的開(kāi)泵行為.
總的來(lái)看,在應(yīng)用變水溫控制方法調(diào)節(jié)室內(nèi)溫度時(shí),DRL變水溫控制在室內(nèi)舒適度略微優(yōu)于PID變水溫控制,而在能耗方面略遜于PID,但是可以看出DRL在地板輻射供暖系統(tǒng)控制方面的可行性和潛力.
通過(guò)以上兩個(gè)對(duì)比實(shí)驗(yàn)可以看出,深度強(qiáng)化學(xué)習(xí)策略在地板輻射供暖系統(tǒng)控制方面具有較大的發(fā)展?jié)摿?而且隨著更多深度強(qiáng)化學(xué)習(xí)方面策略的開(kāi)發(fā)和應(yīng)用,及對(duì)其內(nèi)部參數(shù)和獎(jiǎng)勵(lì)策略的調(diào)整修改,能使其達(dá)到更好更優(yōu)的控制效果.
本文以地面輻射供暖房間為研究對(duì)象并結(jié)合三個(gè)不同地區(qū)的天氣變化進(jìn)行實(shí)驗(yàn),對(duì)比研究發(fā)現(xiàn)DRL控制在室內(nèi)熱舒適度方面優(yōu)于傳統(tǒng)通斷控制及PID變水溫控制,而人體工效和能耗方面相對(duì)略差一些.針對(duì)單區(qū)域控制的研究,狀態(tài)動(dòng)作空間相對(duì)較小,熱惰性影響較小,DRL控制的優(yōu)越性不夠明顯.若對(duì)多房間或多區(qū)域控制時(shí),狀態(tài)作用空間的復(fù)雜程度會(huì)增加,不同區(qū)域熱惰性影響較大,傳統(tǒng)通斷控制及PID變水溫控制很難保證每個(gè)區(qū)域人體熱感覺(jué)及工作效率均處于最佳范圍內(nèi),此時(shí)DRL控制也許會(huì)有不同的表現(xiàn),這也是之后我們繼續(xù)深入研究的方向,而且隨著更多DRL策略的研究開(kāi)發(fā)和應(yīng)用,未來(lái)其在系統(tǒng)控制方面會(huì)有更加良好的表現(xiàn).