董如意,王 通,田冬旭
(吉林化工學(xué)院 信息與控制工程學(xué)院,吉林 吉林 132022)
倒立擺控制系統(tǒng)是一個(gè)經(jīng)典的快速、不穩(wěn)定、多變量、非線性、強(qiáng)耦合且具有高階次特性的復(fù)雜控制系統(tǒng)[1].通過(guò)對(duì)倒立擺控制系統(tǒng)的研究,能夠有效反映出控制理論中諸多典型問(wèn)題,如非線性、魯棒性及跟蹤問(wèn)題等[2].目前對(duì)于倒立擺的研究已經(jīng)應(yīng)用于雙足機(jī)器人關(guān)節(jié)、運(yùn)載火箭、衛(wèi)星發(fā)射架、鉆井平臺(tái)等各類伺服控制系統(tǒng)當(dāng)中[3].對(duì)倒立擺的控制設(shè)計(jì)進(jìn)行研究不僅能夠反映控制理論中的穩(wěn)定性、魯棒性、能控性以及跟蹤性問(wèn)題,而且對(duì)于軍事工業(yè)、機(jī)械臂控制領(lǐng)域[4]、航天儀器和一般工業(yè)進(jìn)程也有著重大理論指導(dǎo)意義,是控制理論與實(shí)際應(yīng)用的橋梁[5].近年,國(guó)內(nèi)外眾多研究員運(yùn)用各種控制算法對(duì)倒立擺進(jìn)行研究,如模糊控制[6]、滑??刂芠7]、智能控制[8]等.
本文基于智能控制領(lǐng)域,建立倒立擺智能控制模型[9],運(yùn)用PSO算法[10]對(duì)倒立擺智能控制模型所需權(quán)重進(jìn)行優(yōu)化并選取最優(yōu),通過(guò)仿真實(shí)驗(yàn)并對(duì)比分析影響倒立擺穩(wěn)定性的關(guān)鍵參數(shù),最終實(shí)現(xiàn)短時(shí)間內(nèi)對(duì)倒立擺系統(tǒng)的穩(wěn)定控制.
運(yùn)用牛頓力學(xué)的方法構(gòu)造直線一級(jí)倒立擺的數(shù)學(xué)模型.為簡(jiǎn)化該運(yùn)動(dòng)系統(tǒng),本文在物理建模時(shí)忽略了各種摩擦力及空氣阻力,將倒立擺擺桿視為一個(gè)剛體,進(jìn)而將直線一級(jí)倒立擺系統(tǒng)抽象為由一輛運(yùn)動(dòng)小車和勻質(zhì)桿相連構(gòu)成的運(yùn)動(dòng)系統(tǒng),如圖1所示.
圖1 直線一級(jí)倒立擺系統(tǒng)的數(shù)學(xué)模型
圖2 擺桿受力分析
水平方向受力方程為:
(1)
豎直方向受力方程為:
(2)
兩個(gè)受力分析方程合并:
(3)
當(dāng)擺桿與垂直方向之間的夾角相比很小時(shí),則可以進(jìn)行如下處理:
線性化得到數(shù)學(xué)模型方程為:
(4)
拉普拉斯變換可得到:
(5)
求解方程(5)中第1個(gè)方程:
(6)
把(6)代入方程組(5)中得到:
(7)
整理得傳遞函數(shù)為:
(8)
其中,q=[(M+m)(I+ml2)-(ml)2].
由現(xiàn)代控制理論知,系統(tǒng)狀態(tài)空間方程為:
(9)
得到狀態(tài)空間方程:
(10)
如圖3所示,控制模型原理與神經(jīng)網(wǎng)絡(luò)類似,但結(jié)構(gòu)要比神經(jīng)網(wǎng)絡(luò)簡(jiǎn)化很多,可以視作一個(gè)單神經(jīng)元結(jié)構(gòu).加入4個(gè)權(quán)值,通過(guò)優(yōu)化權(quán)重值來(lái)控制倒立擺控制決策(policy),即加權(quán)和Hsum=w1p+w2a+w3v+w4r+b,若加權(quán)和Hsum的符號(hào)為正則輸出為1,否則為0,而0和1分別代表倒立擺向左或向右.初始神經(jīng)元接收到了倒立擺系統(tǒng)的位置p、桿子與豎直方向的夾角a、速度v、以及角度的變化率r,之后會(huì)相應(yīng)地輸出一個(gè)動(dòng)作,使得倒立擺向左或向右.為得到一組較好權(quán)值從而有效控制倒立擺穩(wěn)定,本文采用粒子群算法[11]優(yōu)化這4個(gè)權(quán)重以訓(xùn)練神經(jīng)元能夠讓倒立擺系統(tǒng)維持穩(wěn)定狀態(tài).若通過(guò)粒子群算法篩選出來(lái)的4個(gè)權(quán)重能夠讓倒立擺系統(tǒng)保持200次不倒,說(shuō)明該系統(tǒng)已達(dá)到理想穩(wěn)定狀態(tài),即證明這4個(gè)權(quán)重值已被粒子群算法優(yōu)化成理想值,這4個(gè)權(quán)重即為理想權(quán)重,該神經(jīng)元即為理想神經(jīng)元.
圖3 倒立擺智能控制模型
粒子群算法優(yōu)化倒立擺智能控制模型參數(shù)流程:
(1)初始化神經(jīng)元5個(gè)參數(shù),其中包括設(shè)置粒子群規(guī)模、隨機(jī)位置、速度;
(2)評(píng)價(jià)參數(shù)適應(yīng)度,適應(yīng)度為倒立擺系統(tǒng)穩(wěn)定的次數(shù);
(3)將每個(gè)參數(shù)的適應(yīng)值和它到達(dá)的最好位置即局部最優(yōu)(pbest)進(jìn)行比較,對(duì)比結(jié)果較好,則將它選為目前最好位置即局部最優(yōu)(pbest);
(4)將每個(gè)參數(shù)的適應(yīng)值和它到達(dá)的最好位置即全局最優(yōu)(gbest)進(jìn)行比較,若結(jié)果較好,則將它作為目前最好位置即全局最優(yōu)(gbest);
(5)通過(guò)公式調(diào)整粒子位置及速度;
(6)不滿足結(jié)束條件則轉(zhuǎn)向步驟2.
粒子群算法優(yōu)化倒立擺智能控制模型參數(shù)的流程圖如圖4所示.
圖4 粒子群算法優(yōu)化倒立擺智能控制模型參數(shù)流程圖
通過(guò)粒子群算法優(yōu)化倒立擺智能控制系統(tǒng)[12]的5個(gè)參數(shù),并選取其最優(yōu)值,最終使倒立擺系統(tǒng)穩(wěn)定,仿真結(jié)果如圖5所示.
圖5 倒立擺系統(tǒng)穩(wěn)定仿真結(jié)果
仿真結(jié)果顯示了通過(guò)粒子群算法經(jīng)過(guò)不斷迭代優(yōu)化獲取到了5個(gè)最優(yōu)參數(shù)值,并且這5個(gè)參數(shù)能夠確保Gym環(huán)境下的倒立擺維持200步內(nèi)穩(wěn)定不倒,經(jīng)過(guò)多輪200步迭代測(cè)試后仍能維持倒立擺穩(wěn)定不倒?fàn)顟B(tài),即該倒立擺已經(jīng)實(shí)現(xiàn)穩(wěn)定控制.
如圖6~9所示,分析了粒子群算法中種群規(guī)模、迭代次數(shù)、學(xué)習(xí)因子以及慣性權(quán)重對(duì)倒立擺系統(tǒng)穩(wěn)定的影響.
種群規(guī)模數(shù)量圖6 種群規(guī)模對(duì)倒立擺堅(jiān)持次數(shù)的影響曲線圖
迭代次數(shù)圖7 迭代次數(shù)對(duì)倒立擺堅(jiān)持次數(shù)的影響曲線圖
學(xué)習(xí)因子圖8 學(xué)習(xí)因子對(duì)倒立擺堅(jiān)持次數(shù)的影響曲線圖
慣性權(quán)重圖9 慣性權(quán)重對(duì)倒立擺堅(jiān)持次數(shù)的影響曲線圖
由圖6可知,粒子規(guī)模較小的時(shí)候,隨著粒子群規(guī)模的不斷增大,使得粒子群算法選取的權(quán)重越好,進(jìn)而倒立擺系統(tǒng)穩(wěn)定次數(shù)不斷增大.當(dāng)粒子的種群規(guī)模在40以上時(shí),粒子群算法的優(yōu)化性能達(dá)到了上限,繼續(xù)增加粒子的規(guī)模,對(duì)倒立擺系統(tǒng)的穩(wěn)定已無(wú)作用.
據(jù)圖7可得,迭代次數(shù)較小的時(shí)候,倒立擺系統(tǒng)的穩(wěn)定次數(shù)明顯偏低,隨迭代次數(shù)的增大,倒立擺系統(tǒng)的穩(wěn)定次數(shù)不斷增加,當(dāng)?shù)螖?shù)在60時(shí),倒立擺系統(tǒng)穩(wěn)定性已達(dá)到較高水平,隨著迭代次數(shù)的進(jìn)一步增加,迭代次數(shù)80時(shí)倒立擺穩(wěn)定次數(shù)達(dá)到上限.
根據(jù)圖8可知,粒子群算法的學(xué)習(xí)因子對(duì)倒立擺系統(tǒng)的穩(wěn)定也具有一定程度的影響,當(dāng)學(xué)習(xí)因子取2時(shí),倒立擺系統(tǒng)穩(wěn)定的效果比其他值要好.
圖9表明了慣性權(quán)重對(duì)倒立擺穩(wěn)定性的影響,慣性權(quán)重的大小直接決定粒子對(duì)上一次迭代速度的記憶程度,慣性權(quán)重代表在多少數(shù)量的情況下表示原先的權(quán)重,越大就會(huì)表示整個(gè)全局的搜索能力越強(qiáng),局部搜索的能力也就越弱;反之,則會(huì)表示整個(gè)全局搜索的能力就越弱,局部搜索的能力就越強(qiáng).當(dāng)慣性權(quán)重為1的情況下,可以清楚地看出這種粒子群的算法已經(jīng)陷入局部搜索,慣性權(quán)重在0.6的時(shí)候能夠讓倒立擺系統(tǒng)更穩(wěn)定.
上述分別討論了PSO算法中種群規(guī)模、迭代次數(shù)、學(xué)習(xí)因子以及慣性權(quán)重對(duì)倒立擺系統(tǒng)穩(wěn)定性的影響,通過(guò)實(shí)驗(yàn)探究了以上4種因素對(duì)倒立擺系統(tǒng)穩(wěn)定性的影響程度,分析得到了這4種影響因素的最優(yōu)取值狀況.當(dāng)粒子的種群規(guī)模在40、迭代次數(shù)80、學(xué)習(xí)因子為2、慣性權(quán)重取0.6時(shí),倒立擺系統(tǒng)的穩(wěn)定次數(shù)達(dá)到200上限,即其穩(wěn)定性達(dá)到峰值.通過(guò)調(diào)節(jié)上述4種影響因素至最優(yōu),最終實(shí)現(xiàn)了基于粒子群算法對(duì)直線一級(jí)倒立擺的最優(yōu)穩(wěn)定智能控制.
基于粒子群優(yōu)化算法(PSO)具有的智能式動(dòng)態(tài)搜索、漸進(jìn)式搜索優(yōu)化、不易重復(fù)出現(xiàn)或者局部最優(yōu)且容易被快速實(shí)現(xiàn)的基本特征,對(duì)倒立擺智能系統(tǒng)5個(gè)關(guān)鍵參數(shù)進(jìn)行優(yōu)化并選取最優(yōu),通過(guò)仿真驗(yàn)證并實(shí)現(xiàn)了基于粒子群優(yōu)化算法的倒立擺智能控制系統(tǒng)的優(yōu)化設(shè)計(jì),通過(guò)對(duì)比分析影響倒立擺穩(wěn)定的因素并調(diào)節(jié)影響因素的參數(shù)值,最終在較短時(shí)間內(nèi)實(shí)現(xiàn)了對(duì)倒立擺系統(tǒng)的穩(wěn)定控制.