葛 雙,付保川,許馨尹
(蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇蘇州 215009)
室內(nèi)環(huán)境對(duì)人體的舒適度有著決定性作用,經(jīng)濟(jì)發(fā)展和生活水平不斷提高使得室內(nèi)環(huán)境問題日益突出[1]。據(jù)國(guó)內(nèi)外學(xué)者研究發(fā)現(xiàn),若室內(nèi)環(huán)境質(zhì)量得以改善,其室內(nèi)工作人員的效率將提高15%~20%[2]。而在室內(nèi)環(huán)境中,室內(nèi)的熱濕環(huán)境、光環(huán)境和空氣品質(zhì)對(duì)人的影響尤為突出。因此通過對(duì)室內(nèi)設(shè)備進(jìn)行調(diào)節(jié)控制提高室內(nèi)熱濕環(huán)境、光環(huán)境和空氣品質(zhì)也就意味著提高了在室人員的舒適度。
環(huán)境舒適度的控制優(yōu)化研究,Diouns AI等學(xué)者利用一種新的算法Fuzzy-PD用來控制建筑內(nèi)的有關(guān)設(shè)備并提高室內(nèi)舒適度,通過仿真實(shí)驗(yàn)表明該算法較傳統(tǒng)的模糊算法性更好[3]。FJ Lin等學(xué)者結(jié)合模糊控制和神經(jīng)網(wǎng)絡(luò),利用該方法對(duì)系統(tǒng)輸入的參數(shù)進(jìn)行跟蹤并對(duì)該系統(tǒng)進(jìn)行控制[4]。段永培等通過改進(jìn)粒子群算法尋解被控系統(tǒng)的最佳參數(shù),實(shí)現(xiàn)動(dòng)態(tài)舒適度的最優(yōu)控制[5]。劉運(yùn)城將模糊規(guī)則與雙線性控制算法相結(jié)合對(duì)室內(nèi)溫度進(jìn)行控制,實(shí)驗(yàn)結(jié)果表明該算法的魯棒性和穩(wěn)定性較好[6]。除以上方法外,強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)算法也逐漸用于智能控制領(lǐng)域,Cho S H提出了一種對(duì)建筑暖通空調(diào)進(jìn)行控制基于強(qiáng)化學(xué)習(xí)的控制器的可能性,并對(duì)其進(jìn)行了理論分析[7];Dalamagkids K等學(xué)者則通過對(duì)強(qiáng)化學(xué)習(xí)算法改進(jìn),提出了一種基于遞歸最小乘法的強(qiáng)化學(xué)習(xí)控制器用于建筑設(shè)備的控制[8];Bielskis等學(xué)者提出一種基于強(qiáng)化學(xué)習(xí)的室內(nèi)照明控制器,該算法可自動(dòng)調(diào)節(jié)照明系統(tǒng)從而優(yōu)化室內(nèi)光環(huán)境的同時(shí)減少照明能耗[9];Li等學(xué)者提出一種能在線學(xué)習(xí)最優(yōu)控制策略的多網(wǎng)絡(luò)Q學(xué)習(xí)方法用于建筑節(jié)能,實(shí)驗(yàn)表明該算法的收斂速度比未改進(jìn)的Q學(xué)習(xí)算法快[10]。綜上可看出,越來越多的學(xué)者注重室內(nèi)環(huán)境的質(zhì)量,運(yùn)用在建筑設(shè)備的控制技術(shù)手段也層出不窮。
在研究控制建筑內(nèi)相關(guān)系統(tǒng)時(shí),常見的方法如模糊控制、PID控制[11-12]等,這些傳統(tǒng)方法在控制較為復(fù)雜的系統(tǒng)或多個(gè)被控對(duì)象時(shí)存在收斂速度慢或者收斂性能較差等缺點(diǎn)。本文提出了一種基于同策蒙特卡羅 (On-policy Monte Carlo,OMC)算法的控制器,用于控制建筑內(nèi)的相關(guān)設(shè)備,在提供室內(nèi)人員最基本環(huán)境需求的同時(shí)提高室內(nèi)環(huán)境舒適度。蒙特卡羅算法是強(qiáng)化學(xué)習(xí)里的一種算法,通過狀態(tài)和動(dòng)作得到獎(jiǎng)賞值從而評(píng)估策略的好壞[13-14]。
強(qiáng)化學(xué)習(xí)就是學(xué)習(xí)如何將場(chǎng)景映射到動(dòng)作,以獲取最大數(shù)值獎(jiǎng)賞信號(hào)[15]。強(qiáng)化學(xué)習(xí)解決問題的過程簡(jiǎn)單說就是一個(gè)智能體 (Agent)采取行動(dòng) (Action)從而改變自身狀態(tài) (State)獲得回報(bào)值 (Reward)并與環(huán)境 (Environment)不斷的發(fā)生交互的一個(gè)過程。強(qiáng)化學(xué)習(xí)包括多種不同的算法,是否需要模型是區(qū)別這些算法的一種重要特征,其中同策蒙特卡羅方法是一種不需要模型僅需要經(jīng)驗(yàn)的算法——從與環(huán)境在線或模擬交互中獲得狀態(tài)、動(dòng)作和回報(bào)。
影響室內(nèi)舒適度的因素主要有室內(nèi)的熱濕環(huán)境、光環(huán)境和室內(nèi)空氣質(zhì)量。需要考慮的狀態(tài)因素有:室內(nèi)溫度,二氧化碳濃度、相對(duì)濕度和照度。室內(nèi)溫度需要空調(diào)設(shè)備對(duì)其進(jìn)行調(diào)節(jié)控制;二氧化碳濃度通過通風(fēng)系統(tǒng)進(jìn)行控制;濕度的改變需通過加濕器和除濕器;調(diào)節(jié)照度需通過照明設(shè)備進(jìn)行控制。所以動(dòng)作因素有:空調(diào)系統(tǒng)、通風(fēng)系統(tǒng)、加濕器、除濕器和照明系統(tǒng)這幾個(gè)設(shè)備的運(yùn)行情況。
改善室內(nèi)環(huán)境舒適度需從室內(nèi)的熱濕環(huán)境、光環(huán)境和空氣質(zhì)量等因素進(jìn)行分析。室內(nèi)的熱濕環(huán)境中干球溫度和相對(duì)濕度對(duì)人舒適度影響最為突出;室內(nèi)光環(huán)境取決于室內(nèi)照度情況;而室內(nèi)空氣質(zhì)量二氧化碳濃度對(duì)人舒適度的影響比重最大。對(duì)于Agent,假設(shè)外部環(huán)境為一個(gè)獨(dú)立的只包含溫濕度、照度、二氧化碳濃度這4個(gè)參數(shù)的普通辦公室。故涉及到的參數(shù)有:室內(nèi)溫度T(℃),設(shè)定范圍為[Tmin,Tmax],Tmin是設(shè)定的最小溫度值,Tmax是設(shè)定的最大溫度值;室內(nèi)相對(duì)濕度h(HR)(相對(duì)濕度是用百分比表示的,為了簡(jiǎn)化參數(shù)本文中直接用整數(shù)表示)設(shè)定范圍為[hmin,hmax],hmin是最小值,hmax是設(shè)定的最大值;室內(nèi)照度I(Lx),范圍為 [Imin,Imax];室內(nèi)二氧化碳濃度 ρco2(ppm),設(shè)定范圍為 [ρmin,ρmax]。若這些參數(shù)的值都超過上述設(shè)定的最大值,人將感覺不舒適。為了滿足人對(duì)環(huán)境舒適度的要求,各個(gè)參數(shù)都需設(shè)置一個(gè)舒適值并保證該設(shè)定值都在給定的范圍內(nèi)。
本文中的被控對(duì)象為空調(diào)、可調(diào)光的照明設(shè)備、通風(fēng)系統(tǒng)、加濕器和除濕器。環(huán)境狀態(tài)的改變需要通過被控對(duì)象的狀態(tài)的改變才能實(shí)現(xiàn)。被控對(duì)象即被控設(shè)備如空調(diào)系統(tǒng)、通風(fēng)系統(tǒng)等根據(jù)當(dāng)前的環(huán)境狀態(tài)對(duì)設(shè)備動(dòng)作進(jìn)行選取從而改變?cè)O(shè)備狀態(tài),如圖1所示。
圖1 狀態(tài)更新示意圖
某一時(shí)刻的狀態(tài)如室內(nèi)溫濕度、CO2濃度和照度等;根據(jù)當(dāng)前時(shí)刻的環(huán)境狀態(tài)通過策略選擇器和動(dòng)作選擇器產(chǎn)生下一時(shí)刻的動(dòng)作,包括空調(diào)系統(tǒng)、通風(fēng)系統(tǒng)、照明系統(tǒng)、除濕器和加濕器等設(shè)備的動(dòng)作;再通過動(dòng)作執(zhí)行器對(duì)策略進(jìn)行評(píng)估改進(jìn),直至判斷是否為最優(yōu)策略。其基本流程圖如圖2所示。
每個(gè)時(shí)間步t,agent都得到若干環(huán)境狀態(tài)st∈S,其中S是所有可能狀態(tài)的集合,在此基礎(chǔ)上根據(jù)策略(狀態(tài)到動(dòng)作的映射,s→a)選擇一個(gè)動(dòng)作at∈A(st),其中A(st)是可選動(dòng)作的集合。一個(gè)時(shí)間步后,agent得到一個(gè)獎(jiǎng)賞值r←s×a,并得到下一個(gè)狀態(tài)st+1,根據(jù)獎(jiǎng)賞值進(jìn)行策略的評(píng)估與改進(jìn)。
圖2 算法框架流程圖
算法中的關(guān)改變?cè)O(shè)備狀態(tài)的動(dòng)作a被建模為一個(gè)矩陣。水平維度是五維向量,用來表示各個(gè)不同設(shè)備的動(dòng)作。第一維AC(Air Conditioning)表示空調(diào)的動(dòng)作,可以用a1=[a10,a11,a12,a13,a14] 的向量表示,共有 5種動(dòng)作:0表示關(guān)閉,1表示熱風(fēng) (小風(fēng)),2表示冷風(fēng) (小風(fēng)),3表示熱風(fēng) (大風(fēng)),4表示冷風(fēng) (大風(fēng))。第二維 VS(Ventilation system)表示通風(fēng)系統(tǒng)的動(dòng)作,通風(fēng)系統(tǒng)的動(dòng)作向量表示為 a2=[a20,a21,a22],共3種動(dòng)作:0表示關(guān)閉,1表示小檔位,2表示大檔位。第三維H(Humidifier)表示加濕器的動(dòng)作a3=[a30,a31,a32],共3種動(dòng)作:0表示關(guān)閉,1表示小檔,2表示大檔。第四維 DH(Dehumidifier)表示除濕機(jī)的動(dòng)作:0表示關(guān)閉,1表示小檔,2表示大擋;除濕器的動(dòng)作可用向量a4=[a40,a41,a42]表示。最后一位L(Light)表示燈的動(dòng)作,照明設(shè)備的動(dòng)作向量a5=[a50,a51,a52]表示:0表示關(guān)閉,1表示提高照度,2表示降低照度。
OMC中的環(huán)境狀態(tài)s=[Tt,ht,ρt,It]這幾個(gè)參數(shù)組成,見式 (1)到式 (5)。
在式 (1)中,Ts是設(shè)置的最舒適溫度,Tmax是在范圍內(nèi)的最大值。
hs為設(shè)室內(nèi)最合適的相對(duì)濕度為,如式 (2)所示,分母表示取值范圍的最大值hmax減去最適濕度值hs的差。
設(shè)在這間獨(dú)立的普通辦公室內(nèi),照度參考平面及其高度為0.75 m水平面,Is表示的是設(shè)置的室內(nèi)最佳照度,Imax是設(shè)定的最大照度值,照度若超過Imax人眼會(huì)感覺不舒適,在式 (3)中,分母表示兩者之差。
在式 (4)中,ρs是設(shè)定的目標(biāo)值,是室外CO2濃度可以達(dá)到的最低水平;ρmax是設(shè)定的最大值,若超出該值舒適感則會(huì)消失。
r值是系統(tǒng)最終的評(píng)估標(biāo)準(zhǔn)。在本文中,r的值被控制在[-1,0]之間,式 (5)表示各個(gè)參數(shù)在不同權(quán)重下獎(jiǎng)賞值的疊加。在式 (1)至 (4)中,各個(gè)參數(shù)的取值偏離設(shè)定值越大,r值就越接近-1(越小),反之越大;所以式(5)中用負(fù)號(hào)來表示。這里的權(quán)重 w=[0.6,0.1,0.1,0.2]是通過多次實(shí)驗(yàn)得到的,這確保了r值在 [-1,0]之間,并能使系統(tǒng)保持良好的性能。
本算法中狀態(tài)轉(zhuǎn)移函數(shù)如式 (6)到 (10)。式 (6)表示的是溫度隨時(shí)間的變化,但在空調(diào)運(yùn)行時(shí),打開通風(fēng)系統(tǒng)會(huì)影響室內(nèi)溫度,所以在等式中表現(xiàn)通風(fēng)系統(tǒng)對(duì)溫度的影響是加入一個(gè)弱化參數(shù)0.2。Tc表示的是溫度變化率,它與空調(diào)產(chǎn)生的風(fēng)的強(qiáng)弱有關(guān),見式 (7)。式 (8)、(9)、(10)分別表示的是濕度、CO2濃度和照度的狀態(tài)轉(zhuǎn)移函數(shù)。
算法流程:
1)初始化r=0,動(dòng)作a
2)對(duì)于每個(gè)情節(jié),初始化狀態(tài)
3)根據(jù)狀態(tài)轉(zhuǎn)移函數(shù)確定下一時(shí)刻的狀態(tài)s'
4)根據(jù)式1)至5)更新r值
5)對(duì)情節(jié)中的每個(gè)狀態(tài)s:
6)重復(fù)每個(gè)情節(jié),直至s滿足終止條件
在強(qiáng)化學(xué)習(xí)里這個(gè)問題沒有確定的終止條件,所以為了方便實(shí)驗(yàn),需設(shè)置確定的情節(jié)數(shù),并置每個(gè)情節(jié)有N個(gè)單位時(shí)間步數(shù),當(dāng)t+1=N時(shí),結(jié)束運(yùn)行一個(gè)情節(jié)。
本文中使用了OMC算法優(yōu)化室內(nèi)環(huán)境舒適度,控制室內(nèi)的相關(guān)設(shè)備。為了驗(yàn)證該算法的有效性,在Python2.7環(huán)境中做了仿真實(shí)驗(yàn),具體步驟如下:
步驟1:建立獎(jiǎng)賞函數(shù)如公式 (1)~(5)、狀態(tài)轉(zhuǎn)移函數(shù)如公式 (6)~(10)。
步驟2:初始化動(dòng)作值函數(shù)Q(st,at)、學(xué)習(xí)率α和折扣率γ。其中,s是狀態(tài)參數(shù),由室內(nèi)溫度Tt、室內(nèi)二氧化碳濃度ρt、室內(nèi)照度It、室內(nèi)濕度Ht和實(shí)時(shí)能耗Et;a是動(dòng)作參數(shù),由空調(diào)系統(tǒng)動(dòng)作、照明系統(tǒng)動(dòng)作、加濕器和除濕器動(dòng)作和通風(fēng)系統(tǒng)動(dòng)作構(gòu)成。學(xué)習(xí)率和折扣率根據(jù)經(jīng)驗(yàn)得到:α=0.1,γ=0.9。
步驟3:對(duì)于每個(gè)情節(jié),設(shè)置情節(jié)的參數(shù)包括N=4 000個(gè)單位時(shí)間步,令t=0,也就是使各個(gè)狀態(tài)和動(dòng)作性參數(shù)保持初始狀態(tài)。
步驟4:在每個(gè)情節(jié)中每個(gè)時(shí)間步的運(yùn)行包括對(duì)當(dāng)前狀態(tài)st,計(jì)算出在該時(shí)刻下動(dòng)作因素at;當(dāng)采取這個(gè)時(shí)刻的動(dòng)作時(shí),根據(jù)建立的狀態(tài)轉(zhuǎn)移函數(shù)計(jì)算該狀態(tài)的轉(zhuǎn)移情況,得出下一刻相應(yīng)的狀態(tài)st+1; 然后根據(jù)上述建立的獎(jiǎng)賞函數(shù)公式,計(jì)算出在當(dāng)前狀態(tài)st和動(dòng)作at下的獎(jiǎng)賞值rt。
步驟5:判斷終止條件,如下:
對(duì)觀察所有狀態(tài)因素下的動(dòng)作值函數(shù)的值判斷是否是預(yù)設(shè)值,若不滿足則返回到步驟3進(jìn)行新的情節(jié)的運(yùn)行,若滿足則結(jié)束循環(huán)。
本章節(jié)主要驗(yàn)證了同策蒙特卡洛控制算法的有效性并將該算法與PID控制和模糊控制的收斂性能進(jìn)行了比較。在本文中,設(shè)置了200個(gè)情節(jié)。并將每個(gè)情節(jié)的步數(shù)設(shè)置為4 000步。
參考實(shí)際情況,各個(gè)參數(shù)設(shè)定的范圍為:室內(nèi)溫度T(℃),設(shè)定范圍為 [0,40];室內(nèi)濕度 h(HR),設(shè)定范圍為 [0,100];室內(nèi)照度I(Lx),設(shè)定范圍為 [0,800];室內(nèi)二氧化碳濃度ρ(ppm),設(shè)定范圍為 [200,1 000]。設(shè)定滿足室內(nèi)舒適度時(shí)各個(gè)參數(shù)值為:溫度25℃、濕度50 HR、CO2濃度300 ppm、照度300 lx。本文做了多組實(shí)驗(yàn),選取其中兩組實(shí)驗(yàn)說明該算法的收斂性能。實(shí)驗(yàn)a各個(gè)參數(shù)設(shè)置的初始狀態(tài)為sa=[35,70,700,100],實(shí)驗(yàn)b的初始狀態(tài)為sb=[10,20,850,600]。實(shí)驗(yàn)數(shù)據(jù)如圖3、圖4、圖5、圖6、圖7、圖8所示。
室內(nèi)熱濕環(huán)境是影響室內(nèi)舒適度的一個(gè)重要影響因素,圖3和4分別表示隨著步數(shù)的增加,在不同控制算法下室內(nèi)溫度和濕度的變化情況。
圖3是兩組溫度收斂變化實(shí)驗(yàn)圖,由圖3(a)可知,OMC方法在1 800步左右收斂到設(shè)定的參數(shù)值即25℃,并能保持在這個(gè)值,具有良好的精度和穩(wěn)定性;而實(shí)驗(yàn)b改變了初始狀態(tài)值,大約在2 200步達(dá)到收斂預(yù)設(shè)值,其收斂的效果和實(shí)驗(yàn)1是一樣的。相比較而言,在兩組實(shí)驗(yàn)中PID算法和模糊算法雖然在達(dá)到預(yù)設(shè)值前有更平滑的下降或上升趨勢(shì),但是PID算法在收斂后的穩(wěn)定性較差,在設(shè)定的溫度值上下浮動(dòng);而模糊算法的穩(wěn)定性較好但收斂精度較差,并不能完全收斂到預(yù)設(shè)值。實(shí)驗(yàn)表明,OMC比PID算法和模糊算法具有更好的穩(wěn)定性和收斂精度。圖4是兩組室內(nèi)濕度收斂實(shí)驗(yàn)圖。圖4(a)大約在1 000步達(dá)到收斂效果,因改變了濕度的初始設(shè)定值,圖4(b)大約在1 600步收斂到設(shè)定的最適濕度值50 HR;從圖4中可以看出PID在實(shí)驗(yàn) (a)和實(shí)驗(yàn) (b)中大約分別在1 200和1 800步達(dá)到預(yù)設(shè)的舒適值,但并不能穩(wěn)定在預(yù)設(shè)的舒適值;模糊算法分別大約在1 200步和1 600步開始收斂,但其收斂精度不高。實(shí)驗(yàn)結(jié)果表明:OMC方法的性能優(yōu)于PID和模糊控制,能給室內(nèi)提供良好舒適的熱濕環(huán)境。
圖3 室內(nèi)溫度收斂
圖4 室內(nèi)濕度收斂
圖5表示的是隨著步數(shù)的增加,室內(nèi)CO2濃度在不同算法控制下的變化情況。通過CO2濃度的不同顯示了室內(nèi)空氣質(zhì)量的品質(zhì)的高低。
圖5是CO2濃度的變化圖。兩個(gè)實(shí)驗(yàn)的區(qū)別在于實(shí)驗(yàn)(a)設(shè)定的初始狀態(tài)值不同,實(shí)驗(yàn) (a)中設(shè)定的初始值比實(shí)驗(yàn) (b)的設(shè)定的值要低一些。圖5(a)中OMC大約在1 000步收斂,圖5(b)大約在1 400步達(dá)到收斂效果。PID在圖5(a)中大約在1 200步收斂,圖5(b)在1 600步收斂;Fuzzy在實(shí)驗(yàn) (a)中1 000步左右開始收斂,在實(shí)驗(yàn)(b)中1 600步左右收斂。將OMC算法與這兩種算法相比較,這兩種算法的收斂速度和精度都差于OMC。實(shí)驗(yàn)結(jié)果表明:OMC方法在保證擁有良好的室內(nèi)空氣環(huán)境同時(shí)能在更短的時(shí)間內(nèi)對(duì)通風(fēng)系統(tǒng)進(jìn)行調(diào)節(jié)控制,提高室內(nèi)空氣品質(zhì)。
室內(nèi)的光環(huán)境對(duì)在室人員的舒適感也有較大影響,圖6表示的是隨著步數(shù)的增加,室內(nèi)照度在不同控制算法下的變化情況圖。
圖5 CO2濃度收斂
圖6 室內(nèi)照度收斂
圖6是控制照度的變化曲線圖,由圖可知OMC方法在第一組實(shí)驗(yàn)中的收斂步數(shù)大約為1 000,在第二組實(shí)驗(yàn)中的收斂步數(shù)大約為1 400步。使用PID算法,圖6(a)顯示在1 200步左右收斂,圖6(b)在1 500步左右收斂并在300 lx左右波動(dòng);通過Fuzzy控制照明系統(tǒng),如圖所示,實(shí)驗(yàn)(a)在1 200左右開始收斂,實(shí)驗(yàn) (b)在1 600左右收斂且收斂值與預(yù)設(shè)值有一定偏差。實(shí)驗(yàn)結(jié)果表明實(shí)驗(yàn)OMC算法進(jìn)行控制,更能提供室內(nèi)良好的光環(huán)境。比較兩組實(shí)驗(yàn)中各個(gè)參數(shù)使用OMC方法的收斂曲線圖,室溫的收斂時(shí)間最長(zhǎng),其原因可能與通風(fēng)系統(tǒng)和室內(nèi)濕度環(huán)境有關(guān)。更多參數(shù)和動(dòng)作的加入意味著需要更復(fù)雜的控制過程和收斂步驟。從上述幾組圖中,對(duì)比OMC方法和PID、Fuzzy算法,發(fā)現(xiàn)OMC方法的收斂速度與精度更好。
圖7是本實(shí)驗(yàn)中200個(gè)情節(jié)的獎(jiǎng)賞值的收斂變化圖。實(shí)驗(yàn) (a)在前50個(gè)情節(jié),回報(bào)收斂的波動(dòng)較大,振動(dòng)幅度大于2 000,在此期間agent處在試錯(cuò)階段;經(jīng)過前60個(gè)情節(jié)的學(xué)習(xí),回報(bào)值漸漸穩(wěn)定在-7 000左右。實(shí)驗(yàn) (b)是第二組實(shí)驗(yàn)過程中的回報(bào)收斂圖,大約經(jīng)過100個(gè)情節(jié)的學(xué)習(xí),回報(bào)值漸漸穩(wěn)定在-1 300左右。
圖7 200個(gè)情節(jié)的回報(bào)值變化
圖8 200個(gè)情節(jié)的收斂步數(shù)
圖8是收斂步數(shù)圖,表示的是200個(gè)情節(jié)中每個(gè)情節(jié)的收斂步數(shù)的變化情況。從第一個(gè)圖中看出,在一開始的幾個(gè)情節(jié)里,收斂步數(shù)維持在初設(shè)值并沒有發(fā)生變化,之后情節(jié)的收斂步才開始改變。從圖中可看出,收斂步數(shù)發(fā)生較大變化大約在3~60個(gè)情節(jié)之間,說明OMC在這個(gè)階段處于學(xué)習(xí)階段;大約在60~90個(gè)情節(jié)之后,系統(tǒng)的震蕩幅度較小,此時(shí)OMC處于調(diào)整階段;在90個(gè)情節(jié)之后OMC收斂在1 400步左右,說明系統(tǒng)找到最優(yōu)策略。圖8(b)在70個(gè)情節(jié)前震蕩幅度較大,在70~110個(gè)情節(jié)期間震蕩較小,在110個(gè)情節(jié)后達(dá)到收斂,大約在1 600步左右。
為了提高人在室內(nèi)的舒適感,采用基于同策蒙特卡羅算法控制辦公室內(nèi)的空調(diào)系統(tǒng)、加濕器、照明系統(tǒng)和通分系統(tǒng)等設(shè)備,并對(duì)這些設(shè)備進(jìn)行了簡(jiǎn)單的模型構(gòu)建。對(duì)輸入的溫濕度、照度和二氧化碳濃度等參數(shù)進(jìn)行智能調(diào)整,進(jìn)而將各個(gè)參數(shù)值控制在設(shè)定的最適值以優(yōu)化室內(nèi)舒適度。本文基于構(gòu)造的模型進(jìn)行了仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:(1)該方法在不同參數(shù)設(shè)置下都能達(dá)到良好的收斂性和穩(wěn)定性,能很好的改善室內(nèi)環(huán)境舒適度;(2)在控制建筑設(shè)備等方面,和PID算法和模糊控制方法進(jìn)行比較,發(fā)現(xiàn)該算法具有收斂速度較快、魯棒性好、精度較高等優(yōu)勢(shì)。