基于深度強(qiáng)化學(xué)習(xí)的地面輻射供暖系統(tǒng)優(yōu)化控制

2022-09-06 02:04唐明武張津育劉依然吳小舟

東北電力大學(xué)學(xué)報(bào) 2022年2期

唐明武，張津育，劉依然，吳小舟

(1.大連理工大學(xué)土木工程學(xué)院，遼寧大連 116024；2.大連理工大學(xué)經(jīng)濟(jì)管理學(xué)院，遼寧大連 116024)

建筑熱環(huán)境控制對(duì)于提高人們工作質(zhì)量和改善生活環(huán)境至關(guān)重要.各種外界因素變化將引起室內(nèi)熱環(huán)境發(fā)生劇烈變化，故建筑的熱工調(diào)節(jié)是維持室內(nèi)熱環(huán)境的基本條件.而暖通空調(diào)系統(tǒng)運(yùn)行是建筑能耗的主要方面，占比大約為50%[1].因此，為了降低能耗節(jié)約資源，暖通空調(diào)系統(tǒng)優(yōu)化控制就顯得尤為重要.

影響建筑熱環(huán)境控制的因素可大致分為三個(gè)部分：暖通空調(diào)系統(tǒng)本身相關(guān)的因素、建筑物本身的環(huán)境因素、人為因素.雖然因?yàn)榫幼≌叩闹饔^因素導(dǎo)致對(duì)環(huán)境的感受不同，但是研究的重點(diǎn)在于如何在滿足大多數(shù)人的同時(shí)，讓暖通空調(diào)系統(tǒng)在動(dòng)態(tài)化多變的環(huán)境條件下調(diào)整系統(tǒng)中的狀態(tài)設(shè)定值和運(yùn)行策略，即如何去創(chuàng)造一個(gè)更先進(jìn)更智能的控制器.

對(duì)于建筑熱環(huán)境的優(yōu)化控制，除了最早的基于規(guī)則的啟?？刂?，目前的控制數(shù)學(xué)方法一般分為兩類(lèi)：一類(lèi)是基于模型的控制，如PID控制、模糊方程控制、模型預(yù)測(cè)控制(MPC)等；另一類(lèi)是基于學(xué)習(xí)的控制，如強(qiáng)化學(xué)習(xí)控制.其中MPC是受到廣泛關(guān)注并被證明是有效的[2-4]，是通過(guò)一個(gè)建筑完整的熱力模型，并在每個(gè)設(shè)置的時(shí)間步長(zhǎng)內(nèi)，通過(guò)對(duì)未來(lái)建筑的室內(nèi)狀況和室外環(huán)境情況進(jìn)行預(yù)測(cè)，從而獲得控制策略.但是MPC對(duì)建筑熱力模型的依賴性很高，模型的完整性嚴(yán)重影響MPC控制的準(zhǔn)確度，模型不完整，控制會(huì)表現(xiàn)出隨機(jī)行為，而建造一個(gè)完整的建筑熱力模型這對(duì)于一般的普通家庭不是經(jīng)濟(jì)可行的.此外，基于模型的方法難以精確地模擬熱動(dòng)力學(xué)的復(fù)雜性和各種因素的影響，并且受到特定建筑環(huán)境的限制，難以得到一個(gè)廣義通用的模型方法.而采用強(qiáng)化學(xué)習(xí)控制，將免受模型的限制，通過(guò)數(shù)據(jù)自身驅(qū)動(dòng)，經(jīng)過(guò)不斷嘗試，獲取環(huán)境反饋信息來(lái)不斷更新和優(yōu)化控制策略，降低了對(duì)先驗(yàn)知識(shí)的依賴.

近些年來(lái)，隨著強(qiáng)化學(xué)習(xí)[5]和神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展，以及在其他工程優(yōu)化控制以及工程預(yù)測(cè)[6]中的良好表現(xiàn)，采用基于強(qiáng)化學(xué)習(xí)控制方法被用到暖通空調(diào)控制系統(tǒng)中[7-11].Zenger等[12]采用了狀態(tài)動(dòng)作-獎(jiǎng)勵(lì)-狀態(tài)動(dòng)作與環(huán)境交互，在降低能耗的同時(shí)達(dá)到所需的舒適度.但是Liu等[13]在空調(diào)蓄冷裝置中應(yīng)用強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行系統(tǒng)優(yōu)化控制時(shí)，發(fā)現(xiàn)Q-learning算法存在因?yàn)楦呔暥葼顟B(tài)空間學(xué)習(xí)效率低下的問(wèn)題.之后Wei等[14]采用基于神經(jīng)網(wǎng)絡(luò)的深度Q學(xué)習(xí)方法進(jìn)行HVAC系統(tǒng)的控制，而Wang等[13]采用加入長(zhǎng)短期記憶(LSTM)遞歸神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)方法增強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)暖通系統(tǒng)環(huán)境狀態(tài)之間的時(shí)間關(guān)聯(lián)性和整體邏輯性的理解.最近Zhang等[15]提出了一種新的深度強(qiáng)化學(xué)習(xí)(DRL)框架，將邊界元應(yīng)用于暖通空調(diào)系統(tǒng)的運(yùn)行中心，使其適用于建筑整體能量模型從而實(shí)現(xiàn)節(jié)能.因?yàn)榭刂七^(guò)程中溫濕度等參數(shù)都是連續(xù)變化的，Gao等[16]通過(guò)確定性策略梯度的方法來(lái)避免控制變量的離散化.

目前針對(duì)暖通控制的深度強(qiáng)化學(xué)習(xí)控制方法多數(shù)是應(yīng)用在空調(diào)送風(fēng)方面，針對(duì)地板供暖的研究相對(duì)較少[17].地板供暖作為一個(gè)慢熱工控制系統(tǒng)，動(dòng)作和狀態(tài)之間存在大時(shí)間差，這意味著控制器要特別關(guān)注動(dòng)作和狀態(tài)之間的時(shí)間相關(guān)性和狀態(tài)彼此之間的整體相關(guān)性.

總體而言，強(qiáng)化學(xué)習(xí)在暖通控制方面還有很大的發(fā)展前景和潛力，如何使控制效果更加的貼近實(shí)際生活以及優(yōu)化和改善強(qiáng)化學(xué)習(xí)控制器是目前的重點(diǎn).加入神經(jīng)網(wǎng)絡(luò)后的強(qiáng)化學(xué)習(xí)，解決了一般強(qiáng)化學(xué)習(xí)方法不適合大空間狀態(tài)作用的問(wèn)題，并提高了神經(jīng)網(wǎng)絡(luò)的泛化能力.但大部分的深度強(qiáng)化學(xué)習(xí)控制器還存在訓(xùn)練時(shí)間過(guò)長(zhǎng)和實(shí)際生活中應(yīng)用較少的問(wèn)題.本文將加入神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法應(yīng)用到地板供暖系統(tǒng)控制中，將綜合考慮人體熱舒適、工作效率及系統(tǒng)能耗，并分別與傳統(tǒng)的PID和通斷控制效果進(jìn)行對(duì)比分析.

1 基于深度強(qiáng)化學(xué)習(xí)的模型算法設(shè)計(jì)

1.1 地板供暖系統(tǒng)的馬爾可夫過(guò)程

根據(jù)當(dāng)前室內(nèi)溫度和外環(huán)境太陽(yáng)輻射、供水溫度等的干擾，地暖系統(tǒng)需保持房間內(nèi)的溫度為目標(biāo)溫度.而下一步的房間溫度僅由當(dāng)前系統(tǒng)狀態(tài)和環(huán)境干擾以及輸入供水溫度所決定.它獨(dú)立于建筑物以前的狀態(tài).因此，地板供暖控制可以看作是一個(gè)馬爾可夫過(guò)程[16]，如圖1所示.

圖1 強(qiáng)化學(xué)習(xí)過(guò)程圖示

環(huán)境狀態(tài)：依據(jù)對(duì)仿真環(huán)境當(dāng)前狀態(tài)的觀測(cè)，確定下一步最優(yōu)的動(dòng)作.這一步考慮的是房間溫度和外環(huán)境因素的干擾.為了更貼近實(shí)際情況，反應(yīng)真實(shí)天氣對(duì)調(diào)控的影響，選擇國(guó)家氣象局公布的權(quán)威數(shù)據(jù)，并按照時(shí)間序列逐步反映在仿真環(huán)境中.

控制方法：地板供暖的供水溫度和閥門(mén)可調(diào)，閥門(mén)的狀態(tài)有S={開(kāi)、關(guān)}兩種，供水溫度可從多個(gè)離散級(jí)別中進(jìn)行選取，可表示為T(mén)={t1，t2，…，tm}，那么整個(gè)輸出空間n=2×m.如果房間數(shù)目過(guò)多且供水溫度離散更加細(xì)致，動(dòng)作空間的維數(shù)會(huì)迅速增加，從而增大訓(xùn)練時(shí)間難以收斂，降低控制性能.可將供水溫度交由函數(shù)根據(jù)環(huán)境參數(shù)計(jì)算得出，或者通過(guò)連續(xù)控制水溫的方法進(jìn)行實(shí)驗(yàn).

回饋獎(jiǎng)勵(lì)：目的是將房間溫度控制在指定的目標(biāo)范圍內(nèi).根據(jù)我們的動(dòng)作狀態(tài)空間A={a1，a2，…}，在上一個(gè)狀態(tài)St-1執(zhí)行動(dòng)作后，環(huán)境會(huì)變成新的狀態(tài)St，準(zhǔn)備進(jìn)行下一個(gè)動(dòng)作.而這個(gè)時(shí)候需要一個(gè)機(jī)制來(lái)對(duì)此次的動(dòng)作的好壞進(jìn)行判定，并給出獎(jiǎng)勵(lì).

(1)

期望獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)對(duì)強(qiáng)化學(xué)習(xí)算法速度和控制結(jié)果有著重要的影響.

計(jì)算不僅包括對(duì)本次的動(dòng)作，還包括之前所有動(dòng)作獎(jiǎng)勵(lì)的累計(jì)，獲得最佳訓(xùn)練效果.我們可以通過(guò)衰減因子γ[0，1]來(lái)表示當(dāng)前動(dòng)作對(duì)未來(lái)獎(jiǎng)勵(lì)的影響程度，γ=1就表示對(duì)未來(lái)獎(jiǎng)賞和立即獎(jiǎng)賞同樣看重.上述公式(1)是狀態(tài)價(jià)值函數(shù)，表示從某一個(gè)狀態(tài)St開(kāi)始采樣直到所有獎(jiǎng)勵(lì)的衰減之和.但考慮動(dòng)作的價(jià)值影響，目標(biāo)Q值的計(jì)算公式為

(2)

建筑物的狀態(tài)轉(zhuǎn)換是隨機(jī)的，受到環(huán)境干擾的影響，沒(méi)法精確測(cè)量，于是將按照Q學(xué)習(xí)的方法來(lái)更新最佳Q值估計(jì)，如公式(3)所示.

Q(st，at)=Qt(st，at)+α(Q*(st，at)-Qt(st，at))，

(3)

公式中：α∈[0，1]為學(xué)習(xí)率，較大可加快收斂但效果不一定好，較小可以使算法穩(wěn)定，但是會(huì)延長(zhǎng)訓(xùn)練的時(shí)間[17].

具體控制，如圖2所示[15].

圖2 DRL算法控制建筑流程圖

1.2 值函數(shù)逼近

Q-learning算法是通過(guò)將“動(dòng)作-價(jià)值”對(duì)以表格的形式進(jìn)行存儲(chǔ)，它是關(guān)于離散狀態(tài)和動(dòng)作空間的馬爾科夫決策過(guò)程，但實(shí)際問(wèn)題中隨著各種可能動(dòng)作和狀態(tài)的組合會(huì)形成大規(guī)模的狀態(tài)和動(dòng)作空間，這將對(duì)一般強(qiáng)化學(xué)習(xí)帶來(lái)數(shù)據(jù)維度災(zāi)難，使計(jì)算難以進(jìn)行.使用隨機(jī)樹(shù)、神經(jīng)網(wǎng)絡(luò)來(lái)逼近Q值的泛化方法通常有效.實(shí)驗(yàn)使用權(quán)重ω神經(jīng)網(wǎng)絡(luò)來(lái)逼近值函數(shù)Q(s，a，ω).函數(shù)逼近器都有著不穩(wěn)定和發(fā)散的風(fēng)險(xiǎn)，特別是針對(duì)非線性逼近器神經(jīng)網(wǎng)絡(luò)而言.但通過(guò)經(jīng)驗(yàn)回放和確定目標(biāo)Q值的方法，證明神經(jīng)網(wǎng)絡(luò)是有效且穩(wěn)定的.神經(jīng)網(wǎng)絡(luò)目的是解決如何在大狀態(tài)空間下去更快速和更優(yōu)的獲得Q值，神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)如圖3所示.

圖3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

DRL的控制策略包括基于氣候補(bǔ)償?shù)耐〝嗫刂坪妥兯疁乜刂?但是兩種策略使用的網(wǎng)絡(luò)結(jié)構(gòu)是相同的，輸入的狀態(tài)參數(shù)也是相同的，但是輸出的動(dòng)作Q值表格不同.變水溫控制動(dòng)作將會(huì)根據(jù)實(shí)際需要被離散為有限的動(dòng)作，比如以0.5 ℃作為間隔，而通斷控制只有開(kāi)和關(guān)兩個(gè)動(dòng)作輸出.實(shí)驗(yàn)考慮到的輸入狀態(tài)參數(shù)包括：太陽(yáng)輻射、供回水溫度、室內(nèi)干球溫度、室外溫度、送風(fēng)溫度、風(fēng)速等多個(gè)可觀測(cè)參數(shù)，還有部分無(wú)量綱參數(shù)將通過(guò)標(biāo)準(zhǔn)化以及和目標(biāo)狀態(tài)通過(guò)向量距離算法得出.考慮到的狀態(tài)參數(shù)越多且越接近于實(shí)際時(shí)，對(duì)DRL的挑戰(zhàn)性也會(huì)更大，也更具實(shí)際意義.

根據(jù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，在狀態(tài)S輸入后經(jīng)神經(jīng)網(wǎng)絡(luò)分級(jí)傳遞可直接獲得所有控制動(dòng)作的Q值，這可以大大提高貪心算法和softmax選擇的效率.ReLU作為隱藏層的激活函數(shù)，在最后的全連接線性層輸出.

深度神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練，而且它要求樣本之間是獨(dú)立分布的.但通過(guò)強(qiáng)化學(xué)習(xí)智能體獲取的樣本量較稀疏且有一定的延遲，獲得的樣本也是連續(xù)的.

通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)完成值函數(shù)的逼近要解決神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)結(jié)合所帶來(lái)的問(wèn)題，總結(jié)為兩個(gè)關(guān)鍵點(diǎn)：

圖4 DRL與環(huán)境交互的算法流程圖

圖5 DRL算法模型的內(nèi)循環(huán)流程圖

(1)樣本池(Experience Reply)：智能體采集的狀態(tài)樣本放入樣本池，然后再?gòu)臉颖境刂须S機(jī)抽取樣本進(jìn)行訓(xùn)練，這種處理打破了樣本間的關(guān)聯(lián)性使得樣本獨(dú)立并解決了非靜態(tài)分布的問(wèn)題.而且通過(guò)樣本池，學(xué)習(xí)當(dāng)前以及之前經(jīng)歷過(guò)的狀態(tài)，可提高神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效率.

(2)固定目標(biāo)Q值網(wǎng)絡(luò)(Fixed Q-Target)：相當(dāng)于針對(duì)Q值的相關(guān)性打亂機(jī)制.計(jì)算網(wǎng)絡(luò)的目標(biāo)值要用到現(xiàn)有的Q值，而用一個(gè)更新較慢的網(wǎng)絡(luò)提供該Q值，可以提高算法的穩(wěn)定性和收斂性.Q-Target使得算法當(dāng)中出現(xiàn)了兩個(gè)Q值輸出，它們使用相同神經(jīng)網(wǎng)絡(luò)，但輸入的參數(shù)卻不同.預(yù)測(cè)Q值輸入當(dāng)前狀態(tài)量，而目標(biāo)Q值輸入舊狀態(tài)量.通過(guò)損失函數(shù)均方差公式(4)去獲取當(dāng)前Q值和目標(biāo)Q值的誤差損失并更新權(quán)重參數(shù)ω.

(4)

(5)

1.3 深度Q網(wǎng)絡(luò)算法

運(yùn)行時(shí)地暖仿真環(huán)境根據(jù)動(dòng)作指令不斷進(jìn)行狀態(tài)反饋用以改進(jìn)控制策略.環(huán)境的控制時(shí)間長(zhǎng)度決定一次迭代的訓(xùn)練次數(shù)，算法內(nèi)部則根據(jù)環(huán)境設(shè)置更新批次和時(shí)間步.

初始化設(shè)置：首先確定迭代輪數(shù)T，特征狀態(tài)St的特征維度n，回報(bào)獎(jiǎng)勵(lì)R的算法和衰減因子γ，如果使用ε貪心算法還要確定探索率ε，Q網(wǎng)絡(luò)結(jié)構(gòu)，更新網(wǎng)絡(luò)的頻率C，隨機(jī)初始化Q網(wǎng)絡(luò)權(quán)重參數(shù)ω.還要注意對(duì)經(jīng)驗(yàn)回放存儲(chǔ)合集M，每次最近過(guò)渡的元組(St，At，Rt，St-1)都會(huì)被推入M中，并不斷被抽出，將其初始化為空集并合理設(shè)置其大小.神經(jīng)網(wǎng)絡(luò)的總層數(shù)設(shè)置為3，算法過(guò)程描述如表1所示，流程如圖4、圖5所示.

表1 地板供暖系統(tǒng)的DRL算法過(guò)程表

地板供暖系統(tǒng)作為一個(gè)慢響應(yīng)控制系統(tǒng)，在控制時(shí)會(huì)更加的考慮到動(dòng)作對(duì)未來(lái)影響，所以將獎(jiǎng)勵(lì)折扣因子γ設(shè)置在一個(gè)較高的值，內(nèi)部參數(shù)如表2所示.其中DRL算法的獎(jiǎng)勵(lì)政策考慮的是所控區(qū)域的環(huán)境溫度.

表2 DRL算法的內(nèi)部參數(shù)

圖6 通斷控制訓(xùn)練過(guò)程中Q值得分情況圖7 變水溫控制訓(xùn)練過(guò)程中Q值得分情況

確定參數(shù)后系統(tǒng)的訓(xùn)練過(guò)程如圖6和圖7所示，兩種方法的DRL控制訓(xùn)練過(guò)程中，獎(jiǎng)勵(lì)評(píng)分逐漸隨著訓(xùn)練次數(shù)的增加趨于平穩(wěn)，這表明在DRL代理通過(guò)與環(huán)境不斷進(jìn)行狀態(tài)、動(dòng)作數(shù)據(jù)的交互過(guò)程中，學(xué)到了對(duì)該系統(tǒng)的控制方法和策略，也印證了內(nèi)部參數(shù)調(diào)試的合理性.兩種方法只在輸出動(dòng)作上出現(xiàn)差別，且發(fā)現(xiàn)二者在同一參數(shù)下有著良好表現(xiàn)，所以并未因?yàn)榉椒ú煌ジ淖儍?nèi)部參數(shù).

2 模擬仿真環(huán)境

2.1 仿真模型

基于深度強(qiáng)化學(xué)習(xí)的地板供暖系統(tǒng)運(yùn)行控制模擬計(jì)算模塊如圖8所示.

圖8 TRNSYS模擬計(jì)算界面

模擬計(jì)算模塊主要包括五個(gè)模塊：室外氣象參數(shù)模塊、濕空氣計(jì)算模塊、天空溫度計(jì)算模塊、供水溫度調(diào)節(jié)計(jì)算模塊(通斷控制方式還包括氣候補(bǔ)償供水溫度預(yù)測(cè)模塊)和建筑熱平衡計(jì)算模塊.建筑熱平衡計(jì)算模塊是本模擬的核心，主要包括建筑房間及復(fù)合系統(tǒng)的能量平衡計(jì)算.前面四個(gè)模塊都是為建筑熱平衡計(jì)算所需提供邊界條件.其中，室外氣象參數(shù)模塊提供各種輻射參數(shù)，濕空氣計(jì)算模塊提供相對(duì)濕度及干球溫度，天空溫度計(jì)算模塊提供等效天空溫度，供水溫度調(diào)節(jié)模塊通過(guò)室外溫度及室內(nèi)目標(biāo)溫度計(jì)算得出所需供水溫度.

圖9 典型辦公房間

DRL與TRNSYS的通信通過(guò)內(nèi)部的type155模塊進(jìn)行數(shù)據(jù)交互，根據(jù)控制算法的不同需要提前預(yù)編譯type155模塊所需調(diào)用的MATLAB的m文件.

2.2 房間熱負(fù)荷計(jì)算及地暖系統(tǒng)設(shè)計(jì)

本模擬選取某一低能耗辦公建筑標(biāo)準(zhǔn)層南向辦公房間作為研究對(duì)象，房間總面積為18.8 m2，如圖9所示.房間長(zhǎng)×寬×高為(4.7×4.0×2.7)m，外窗長(zhǎng)×高為(3.2×1.8)m，房間圍護(hù)結(jié)構(gòu)傳熱參數(shù)如表3所示.

表3 圍護(hù)結(jié)構(gòu)傳熱參數(shù)

針對(duì)冬天太陽(yáng)對(duì)建筑供暖的有益貢獻(xiàn)，不安裝任何遮陽(yáng)措施.對(duì)于冬季典型辦公室，考慮到人體熱舒適及人員工作效率，本文設(shè)定室內(nèi)設(shè)計(jì)溫度為19 ℃，房間設(shè)計(jì)負(fù)荷和地暖系統(tǒng)設(shè)計(jì)參數(shù)如表4所示.

表4 房間設(shè)計(jì)負(fù)荷和地暖系統(tǒng)設(shè)計(jì)參數(shù)

室內(nèi)計(jì)算機(jī)功率為150W；工作日期間人員辦公時(shí)間為9：00-17：00；供暖系統(tǒng)運(yùn)行時(shí)間根據(jù)當(dāng)?shù)貙?shí)際運(yùn)行時(shí)間計(jì)算(實(shí)驗(yàn)中三個(gè)地區(qū)供暖時(shí)長(zhǎng)不同).

2.3 地暖運(yùn)行控制方法

為了跟DRL控制進(jìn)行對(duì)比，TRNSYS仿真模型分別采用基于氣候補(bǔ)償?shù)耐〝嗫刂品椒ê蚉ID變水溫控制方法，具體如下所示.

(1)基于氣候補(bǔ)償?shù)耐〝嗫刂?/p>

基于氣候補(bǔ)償?shù)牡嘏块g供水溫度調(diào)節(jié)，如公式(6)所示.推導(dǎo)過(guò)程見(jiàn)參考文獻(xiàn)[17].根據(jù)TRNSYS內(nèi)置的通斷算法啟停水泵，具體為當(dāng)室內(nèi)空氣溫度低于19 ℃時(shí)啟動(dòng)水泵，而當(dāng)室內(nèi)空氣溫度高于19 ℃時(shí)停止水泵運(yùn)行.

(6)

(2)PID變水溫控制

水溫變化范圍為19.0 ℃～26.0 ℃，PID的具體參數(shù)如表5所示.

表5 PID參數(shù)表

圖10 三個(gè)地區(qū)室內(nèi)空氣干球溫度變化曲線

3 結(jié)果分析

根據(jù)上述搭建的TRNSYS仿真模型，采用基于氣候補(bǔ)償?shù)耐〝嗫刂品椒ê妥兯疁乜刂品椒ㄟM(jìn)行地板供暖系統(tǒng)優(yōu)化控制，并以室內(nèi)溫度、人體熱感覺(jué)、人員工作效率及系統(tǒng)能耗作為評(píng)價(jià)參數(shù).其中人體熱感覺(jué)參考ISO 7730根據(jù)冬季標(biāo)準(zhǔn)辦公室人員活動(dòng)(1.2 met)及著裝(1.0 clo)計(jì)算PMV得到，計(jì)算的地面輻射供暖系統(tǒng)供熱量作為系統(tǒng)能耗，人員工作效率計(jì)算方法參考文獻(xiàn)[18]中公式計(jì)算得到

(7)

公式中：P為平均人體工效(%)；top為室內(nèi)操作溫度；y0=

89.320 92，xc=19.933 61，w=0.129 55，A=70.756 91.

3.1 基于氣候補(bǔ)償?shù)耐〝嗫刂品椒▽?duì)比

采用傳統(tǒng)通斷控制算法與DRL通斷控制算法分別對(duì)地板供暖系統(tǒng)進(jìn)行優(yōu)化控制，得到的結(jié)果如圖10所示.

圖10中三個(gè)地區(qū)的兩種方法都是通過(guò)算法執(zhí)行閥門(mén)通斷來(lái)控制系統(tǒng)，設(shè)定的目標(biāo)最低室內(nèi)溫度為19 ℃，可以看出，經(jīng)訓(xùn)練后的DRL通斷控制和傳統(tǒng)通斷控制在溫度的保證方面有著相同的效應(yīng)，都能保證室溫在19 ℃附近或不低于19 ℃.而時(shí)間的后半段北京和哈爾濱地區(qū)因?yàn)樘?yáng)輻射加劇，導(dǎo)致室溫增加，DRL挑選任何控制動(dòng)作指令都難以避免太陽(yáng)輻射所帶來(lái)的副影響，狀態(tài)回饋都會(huì)獲得低評(píng)價(jià)獎(jiǎng)勵(lì)，從而導(dǎo)致錯(cuò)誤的學(xué)習(xí)使得無(wú)端的開(kāi)泵致使能耗增加，室溫略微升高.

溫度控制的目的是為了使得居住者更加舒適，根據(jù)圖11和圖12可知，兩種通斷控制方法針對(duì)三個(gè)地區(qū)的計(jì)算人體PMV值統(tǒng)計(jì)和對(duì)比可以看出，在人體舒適和人體工作效率方面DRL算法和傳統(tǒng)通斷控制二者具有幾乎相同的效應(yīng).整體而言，DRL在人體舒適方面略微優(yōu)于傳統(tǒng)通斷控制，而人體工作效率方面，北京和哈爾濱地區(qū)則因?yàn)楹笃谔?yáng)輻射影響溫度劇增，DRL算法不能得到有效的獎(jiǎng)勵(lì)回饋而進(jìn)行了錯(cuò)誤學(xué)習(xí)，導(dǎo)致在室溫在19 ℃時(shí)依舊選擇開(kāi)泵，而致使人體功效有所下降.這也表明，獎(jiǎng)勵(lì)政策制定的準(zhǔn)確性對(duì)深度強(qiáng)化學(xué)習(xí)模型算法的重要性.

圖11 傳統(tǒng)通斷控制與DRL通斷控制室內(nèi)人體熱感覺(jué)分布

圖12 傳統(tǒng)通斷控制與DRL通斷控制室內(nèi)人體工效分布

圖13 傳統(tǒng)通斷控制與DRL通斷控制能耗對(duì)比

圖14 三個(gè)地區(qū)室內(nèi)空氣干球溫度變化曲線

傳統(tǒng)通斷控制與DRL通斷控制能耗對(duì)比，如圖13所示.DRL通斷控制總體能耗略高于傳統(tǒng)通斷控制，北京、哈爾濱、哥本哈根地區(qū)分別多消耗了7.5%、3.8%、5.1%的能量.但從室溫控制效果來(lái)看，DRL優(yōu)于傳統(tǒng)通斷控制，對(duì)系統(tǒng)供水的利用率更高，這也是是其能耗較高的原因.

總的來(lái)說(shuō)，DRL在通斷控制方面能滿足室溫控制和人體需求，但是在低溫輻射供暖方面受環(huán)境影響嚴(yán)重，當(dāng)出現(xiàn)環(huán)境狀態(tài)嚴(yán)重影響室溫的情況下，DRL在多種控制情況下可能都會(huì)收到負(fù)面評(píng)價(jià)導(dǎo)致動(dòng)作挑選出現(xiàn)一定的隨機(jī)性，這也是DRL能耗略高的原因，也表明DRL的獎(jiǎng)勵(lì)機(jī)制設(shè)置十分重要.

3.2 變水溫控制方法對(duì)比

采用PID變水溫控制算法與DRL變水溫控制算法分別對(duì)地板供暖系統(tǒng)進(jìn)行優(yōu)化控制，得到的結(jié)果如圖14所示.

圖14中三個(gè)地區(qū)的室內(nèi)空氣干球溫度變化曲線，都是PID和DRL都是對(duì)供水溫度進(jìn)行連續(xù)控制.就整體的控制效果而言，兩種控制方法都使得室溫都達(dá)到并高出設(shè)定的目標(biāo)期望值19 ℃，雖然DRL控制會(huì)在某幾小時(shí)出現(xiàn)低于19 ℃的室溫波動(dòng)情況，但是依舊在允許范圍之內(nèi).可以看出，在控制室溫方面，兩種控制方法基本具有相同的效應(yīng).

圖15 PID變水溫控制與DRL變水溫控制室內(nèi)人體熱感覺(jué)分布

圖16 PID變水溫控制與DRL變水溫控制室內(nèi)人體工效分布

在提供居住的舒適環(huán)境方面，根據(jù)圖15中計(jì)算人體PMV值的統(tǒng)計(jì)對(duì)比可以看出，北京與哈爾濱地區(qū)的DRL變水溫控制比PID變水溫控制在人體舒適方面略占優(yōu)勢(shì)，哥本哈根地區(qū)的PID變水溫控制比DRL變水溫控制具有相同的人體舒適效益；而依據(jù)圖16可以得出在人體工作效率方面，北京與哈爾濱地區(qū)的DRL變水溫控制略低于PID變水溫度控制、哥本哈根地區(qū)的PID變水溫控制比DRL變水溫控制略占優(yōu)勢(shì).但總體而言，在人體舒適和工作效率方面，二者都能滿足需求.

圖17 PID與DRL的能耗對(duì)比

PID與DRL的能耗對(duì)比，如圖17所示.北京、哈爾濱地區(qū)DRL控制的能耗相較于PID分別多消耗了21.0%、7.2%，而哥本哈根地區(qū)的DRL控制卻相對(duì)節(jié)省了4.9%的能耗.哥本哈根地區(qū)的數(shù)據(jù)較其他地區(qū)有一定的差別，原因主要是相對(duì)于北京和哈爾濱地區(qū)，哥本哈根地區(qū)室外溫度和太陽(yáng)輻射的變化突變情況較少，相對(duì)比較穩(wěn)定，且存在一定的過(guò)渡時(shí)間.

外擾急劇變化的地區(qū)會(huì)導(dǎo)致室溫變化超出控制范圍，會(huì)導(dǎo)致無(wú)論DRL算法挑選任何動(dòng)作指令都會(huì)導(dǎo)致本次動(dòng)作被獎(jiǎng)勵(lì)政策判斷為負(fù)分，而這將影響到DRL模型的整體優(yōu)化，會(huì)導(dǎo)致DRL算法經(jīng)常出現(xiàn)動(dòng)作誤判，而使得控制效果下降.哥本哈根地區(qū)外擾(太陽(yáng)輻射)波動(dòng)小，DRL算法在進(jìn)行訓(xùn)練控制時(shí)能經(jīng)常挑選出最優(yōu)控制動(dòng)作，優(yōu)化模型相對(duì)也更加徹底.而啟停控制表現(xiàn)相對(duì)較差也是因?yàn)閱⑼？刂苿?dòng)作指令少，時(shí)常出現(xiàn)無(wú)論選擇任何控制動(dòng)作都得不到良好反饋的情況，難以進(jìn)行有效的學(xué)習(xí)，從而導(dǎo)致一些無(wú)效的開(kāi)泵行為.

總的來(lái)看，在應(yīng)用變水溫控制方法調(diào)節(jié)室內(nèi)溫度時(shí)，DRL變水溫控制在室內(nèi)舒適度略微優(yōu)于PID變水溫控制，而在能耗方面略遜于PID，但是可以看出DRL在地板輻射供暖系統(tǒng)控制方面的可行性和潛力.

通過(guò)以上兩個(gè)對(duì)比實(shí)驗(yàn)可以看出，深度強(qiáng)化學(xué)習(xí)策略在地板輻射供暖系統(tǒng)控制方面具有較大的發(fā)展?jié)摿?而且隨著更多深度強(qiáng)化學(xué)習(xí)方面策略的開(kāi)發(fā)和應(yīng)用，及對(duì)其內(nèi)部參數(shù)和獎(jiǎng)勵(lì)策略的調(diào)整修改，能使其達(dá)到更好更優(yōu)的控制效果.

4 結(jié) 論

本文以地面輻射供暖房間為研究對(duì)象并結(jié)合三個(gè)不同地區(qū)的天氣變化進(jìn)行實(shí)驗(yàn)，對(duì)比研究發(fā)現(xiàn)DRL控制在室內(nèi)熱舒適度方面優(yōu)于傳統(tǒng)通斷控制及PID變水溫控制，而人體工效和能耗方面相對(duì)略差一些.針對(duì)單區(qū)域控制的研究，狀態(tài)動(dòng)作空間相對(duì)較小，熱惰性影響較小，DRL控制的優(yōu)越性不夠明顯.若對(duì)多房間或多區(qū)域控制時(shí)，狀態(tài)作用空間的復(fù)雜程度會(huì)增加，不同區(qū)域熱惰性影響較大，傳統(tǒng)通斷控制及PID變水溫控制很難保證每個(gè)區(qū)域人體熱感覺(jué)及工作效率均處于最佳范圍內(nèi)，此時(shí)DRL控制也許會(huì)有不同的表現(xiàn)，這也是之后我們繼續(xù)深入研究的方向，而且隨著更多DRL策略的研究開(kāi)發(fā)和應(yīng)用，未來(lái)其在系統(tǒng)控制方面會(huì)有更加良好的表現(xiàn).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡