基于強(qiáng)化學(xué)習(xí)的切換系統(tǒng)綜合性能優(yōu)化設(shè)計(jì)

2022-12-09 09:25孫振東王苗苗

廈門(mén)大學(xué)學(xué)報(bào)（自然科學(xué)版） 2022年6期

孫振東,王苗苗

(1.山東科技大學(xué)電氣與自動(dòng)化工程學(xué)院，山東青島266590;2.中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院系統(tǒng)控制重點(diǎn)實(shí)驗(yàn)室，北京100190)

切換線性系統(tǒng)由多個(gè)線性子系統(tǒng)和一個(gè)在子系統(tǒng)間進(jìn)行切換的監(jiān)控裝置組成.這類系統(tǒng)包含取值于連續(xù)空間的系統(tǒng)動(dòng)態(tài)、取值于離散空間的切換動(dòng)態(tài)、及其相互作用，是一類基本而典型的混合動(dòng)態(tài)系統(tǒng).切換系統(tǒng)為復(fù)雜系統(tǒng)建模和控制設(shè)計(jì)提供了行之有效的體系架構(gòu).經(jīng)過(guò)近30年研究，對(duì)切換系統(tǒng)的探索已取得巨大進(jìn)展，包括能控性、能穩(wěn)性、魯棒性、適應(yīng)性等性能[1-5].已有的部分工作表明，切換控制在改進(jìn)系統(tǒng)暫態(tài)性能方面具有巨大潛力[6-7].然而，現(xiàn)有的多數(shù)切換設(shè)計(jì)方法可能引起高頻切換或控制信號(hào)躍變，損害整體系統(tǒng)的暫態(tài)性能，從而限制了切換控制的可應(yīng)用性.

經(jīng)典頻域方法在工程應(yīng)用上的一個(gè)突出優(yōu)勢(shì)是可以對(duì)系統(tǒng)的暫態(tài)性能進(jìn)行評(píng)估和優(yōu)化[8].與之相比，基于時(shí)域分析的現(xiàn)代控制理論尚缺乏優(yōu)化復(fù)雜系統(tǒng)暫態(tài)性能的基本工具.即便對(duì)線性系統(tǒng)，針對(duì)暫態(tài)性能的研究成果還遠(yuǎn)未完善[9-10]，而對(duì)非線性系統(tǒng)超調(diào)控制的研究更是鳳毛麟角[11-12].利用多模型切換優(yōu)化系統(tǒng)暫態(tài)性能的文獻(xiàn)參見(jiàn)文獻(xiàn)[13-14].

本文探索連續(xù)時(shí)間切換線性自治系統(tǒng)的綜合性能優(yōu)化，力圖通過(guò)有效的切換策略設(shè)計(jì)實(shí)現(xiàn)包括狀態(tài)模超調(diào)，調(diào)節(jié)時(shí)間和指數(shù)收斂速率的多目標(biāo)優(yōu)化.該多目標(biāo)優(yōu)化是建立在整個(gè)時(shí)間空間的分階段優(yōu)化，各階段的時(shí)間窗口依賴于初始條件，因此無(wú)法通過(guò)預(yù)測(cè)控制進(jìn)行滾動(dòng)式優(yōu)化.另一方面，優(yōu)化的變量是切換策略而非傳統(tǒng)的控制輸入，缺乏基于變分法的最優(yōu)控制方法.

強(qiáng)化學(xué)習(xí)是3種基本機(jī)器學(xué)習(xí)范式之一，它關(guān)注智能體如何在不確定環(huán)境/非平穩(wěn)過(guò)程中采取行動(dòng)以獲得最大獎(jiǎng)賞或最小成本[15].對(duì)于給定的成本和初態(tài)，智能體要尋求適當(dāng)?shù)男袆?dòng)策略以獲取最優(yōu)的長(zhǎng)期(強(qiáng)化)收益[16].切換系統(tǒng)具有多模態(tài)切換和清晰的執(zhí)行-監(jiān)控雙層結(jié)構(gòu)，所以將切換信號(hào)構(gòu)成行動(dòng)策略空間，利用強(qiáng)化學(xué)習(xí)對(duì)切換規(guī)則的優(yōu)化設(shè)計(jì)可以探索切換系統(tǒng)的最優(yōu)控制和最優(yōu)資源配置等優(yōu)化問(wèn)題.但是，對(duì)二次型(積分)形式的優(yōu)化函數(shù)，盡管基于自適應(yīng)動(dòng)態(tài)規(guī)劃/強(qiáng)化學(xué)習(xí)的最優(yōu)控制方法已成功應(yīng)用于離散時(shí)間切換系統(tǒng)的優(yōu)化設(shè)計(jì)[17-18]；對(duì)連續(xù)時(shí)間切換系統(tǒng)，由于行動(dòng)取值于連續(xù)空間，難以實(shí)現(xiàn)有效搜索[19]，迄今為止，在文獻(xiàn)上仍未見(jiàn)強(qiáng)化學(xué)習(xí)對(duì)連續(xù)時(shí)間切換系統(tǒng)的有效處理.

本文借鑒強(qiáng)化學(xué)習(xí)的算法思路[20-21]，通過(guò)分路徑模壓縮的設(shè)計(jì)方法，在無(wú)窮的切換策略中汲取有限個(gè)行為策略，通過(guò)對(duì)有限行為策略的串接擴(kuò)展實(shí)現(xiàn)強(qiáng)化信號(hào)(系統(tǒng)性能)的迭代優(yōu)化.選擇強(qiáng)化學(xué)習(xí)方法的優(yōu)勢(shì)包括:1) 利用行為→獎(jiǎng)賞模式模擬切換邏輯動(dòng)態(tài)與連續(xù)動(dòng)態(tài)性能的交互；2) 對(duì)切換策略空間進(jìn)行有效離散化，可在優(yōu)化目標(biāo)收斂性和計(jì)算復(fù)雜度間取得良好平衡；3) 對(duì)切換策略的離散化(而不是采樣)可避免Zeno現(xiàn)象的發(fā)生.由于優(yōu)化策略是依賴于系統(tǒng)初始狀態(tài)的，不同初態(tài)會(huì)對(duì)應(yīng)截然不同的行為動(dòng)作.本文發(fā)展有效結(jié)合動(dòng)態(tài)系統(tǒng)分析和策略驅(qū)動(dòng)學(xué)習(xí)的優(yōu)化算法，分別給出超調(diào)、調(diào)節(jié)時(shí)間和指數(shù)收斂率的優(yōu)化估計(jì).

1 預(yù)備知識(shí)

本文考慮不含輸入的連續(xù)時(shí)間切換線性自治系統(tǒng)

(1)

切換路徑是定義在有限時(shí)間區(qū)間的切換信號(hào).設(shè)切換路徑θ是定義在區(qū)間[0，s)上的，則定義|θ|=s.給定切換路徑θ1和θ2，定義其串接(coneatenation)θ1∧θ2為

(θ1∧θ2)(t)=

多個(gè)切換路徑的串接可類同定義.

設(shè)t0，t1，…，tk是切換路徑θ的切換時(shí)間，則此路徑對(duì)應(yīng)的狀態(tài)轉(zhuǎn)移矩陣為

Φθ=

eAσ(tk)(|θ|-tk)eAσ(tk-1)(tk-tk-1)…eAσ(t1)(t2-t1)eAσ(t0)(t1-t0).

定義1稱切換系統(tǒng)(1)為可指數(shù)鎮(zhèn)定的，若存在正實(shí)數(shù)α,β及切換信號(hào)σ，使得

‖φ(t;0,x0,σ)‖≤βe-αt‖x0‖,

?x0∈Rn,t≥0.

這里α稱為指數(shù)收斂率.

引理1[2]切換系統(tǒng)(1)是可指數(shù)鎮(zhèn)定的充要條件是對(duì)任意γ>0,存在有限個(gè)切換路徑θi，i=1，2,…,l，滿足

?x0∈Rn.

(2)

定義2對(duì)切換系統(tǒng)(1)，設(shè)初態(tài)x0≠0,定義x0對(duì)應(yīng)的(狀態(tài)模)超調(diào)是

注1上述關(guān)于系統(tǒng)超調(diào)的定義與經(jīng)典概念有區(qū)別：這里考慮的是切換系統(tǒng)在鎮(zhèn)定設(shè)計(jì)基礎(chǔ)上的超調(diào)量，因此假設(shè)狀態(tài)收斂到原點(diǎn)且初值非零.這實(shí)際上結(jié)合了經(jīng)典控制中的超調(diào)和欠調(diào)概念.顯見(jiàn)，若系統(tǒng)可指數(shù)鎮(zhèn)定，則每個(gè)非原點(diǎn)初態(tài)對(duì)應(yīng)的超調(diào)是有限的.

定義3對(duì)切換系統(tǒng)(1)，設(shè)初態(tài)x0≠0,給定∈(0,1).定義x0對(duì)應(yīng)的-調(diào)節(jié)時(shí)間是

TS(x0,‖x0‖}.

注2可以證明，如果系統(tǒng)可指數(shù)鎮(zhèn)定，那么對(duì)任給正實(shí)數(shù)，系統(tǒng)具有有限的-調(diào)節(jié)時(shí)間.反之亦然.

2 問(wèn)題的提出和分解

本文針對(duì)切換系統(tǒng)(1)，探索系統(tǒng)綜合性能的優(yōu)化設(shè)計(jì)，針對(duì)給定的系統(tǒng)初態(tài)，實(shí)現(xiàn)包括超調(diào)量、調(diào)節(jié)時(shí)間和指數(shù)收斂率的優(yōu)化計(jì)算.為此，作以下假設(shè)：

假設(shè)1系統(tǒng)(1)可指數(shù)鎮(zhèn)定.

k=1,2,…,

類似可定義Γ∞.

固定初態(tài)x0≠0和≠(0,1).不妨設(shè)‖x0‖=1(否則令x0x0/‖x0‖).

考慮到優(yōu)化目標(biāo)的基本特征，分3個(gè)階段進(jìn)行設(shè)計(jì).

第一階段，優(yōu)化指標(biāo)為超調(diào)，即

這里VEO是VO(x0)的上界估計(jì).

第二階段，在超調(diào)約束下優(yōu)化調(diào)節(jié)時(shí)間，即

TES=min{|θ|:?θ∈?！辳.t.‖φ(τ;0,x0,

第三階段，在超調(diào)和優(yōu)化時(shí)間約束下優(yōu)化指數(shù)收斂率，即

進(jìn)一步，選取θ(近似)滿足上述要求.

完成這3步設(shè)計(jì)后，切換信號(hào)θ即為尋求的優(yōu)化解.

3 主要結(jié)果

3.1 系統(tǒng)分析

記H1為Rn上的單位球面.對(duì)任一壓縮基路徑θi，i=1，2,…,l,定義其對(duì)應(yīng)的單位球上的壓縮區(qū)域

Ωi={x0∈H1:‖φ(si;0,x0,θi)‖≤γ‖x0‖},

i=1,2,…,l.

進(jìn)一步，定義

利用S-步驟(S-procedure)技術(shù)，可以證明

(3)

其中Vsmin是矩陣的最小奇異值.從計(jì)算角度，利用上式通過(guò)自適應(yīng)采樣和奇異值分解技術(shù)可求得Li.記L=max{L1,L2,…,Ll}.

引理2VO≤L.

證明對(duì)任意x0∈H1,利用文獻(xiàn)[2]§4.4.1給出的分路徑狀態(tài)反饋切換策略，存在切換路徑

θ=θj1∧θj2∧…∈?！?

使得系統(tǒng)軌線φ(t;0，x0，θ)指數(shù)收斂.令

ti=|θji|,xi=φ(ti;0,xi-1,θ),i=1,2,….

注意到xi∈Ωji,i=1,2,…，于是有

引理得證.

注3引理2給出系統(tǒng)超調(diào)的上界估計(jì).這一估計(jì)的精度取決于基壓縮路徑庫(kù)的豐度.一般地，系統(tǒng)超調(diào)是難以精確求得的.

引理3對(duì)任意的初態(tài)x0，在分路徑狀態(tài)反饋切換策略下有

‖φ(t;0,x0,θ)‖≤β0e-α0t‖x0‖.

(4)

證明在分路徑狀態(tài)反饋切換策略下有

‖φ(|θj1|+|θj2|+…+|θjk|;0,x0,θ)‖≤γk,

k=1,2,….

由此可知

由此可知系統(tǒng)漸近收斂率不小于α0.另一方面，考慮系統(tǒng)在[0,|θj1|)上的動(dòng)態(tài)，設(shè)τ滿足

eα0τ‖φ(τ;0,x0,θ)‖=

利用軌線端點(diǎn)狀態(tài)模信息，可得

消去τ，可知

記x1=φ(|θj1|;0,x0,θ)類似可以證明

eα0t‖φ(t;0,x0,θ)‖≤eα0(t-|θj1|)‖φ(t-|θj1|;

0,x1,θ)‖≤β0,t∈[|θj1|,|θj1|+|θj2|).

如此繼續(xù)下去，引理得證.

‖φ(t;0,x0,θ)‖≤‖x0‖.

(5)

由定義3，引理得證.

3.2 優(yōu)化算法

對(duì)特定的初態(tài)，其對(duì)應(yīng)的超調(diào)和調(diào)節(jié)時(shí)間一般遠(yuǎn)小于系統(tǒng)的超調(diào)和調(diào)節(jié)時(shí)間.借鑒強(qiáng)化學(xué)習(xí)的優(yōu)化思路，以下分別給出求解超調(diào)和調(diào)節(jié)時(shí)間的算法設(shè)計(jì).

3.2.1 求解超調(diào)估計(jì)量VEO的學(xué)習(xí)算法

第k步：對(duì)Λ中每個(gè)路徑θ，逐一進(jìn)行以下計(jì)算.

2) 判斷是否Λ=?

(a) 若是，輸出VEO,算法結(jié)束

注4在此算法中，切換策略庫(kù)Λ一方面隨著k增加進(jìn)行了更多層的串接，同時(shí)又不斷被修剪(pruning).數(shù)值計(jì)算中，系統(tǒng)軌線{φ(t;0,x0,θ):t∈[0,|θ|]}可以用Runge-Kutta四階法數(shù)值求解.由于系統(tǒng)軌線可視作多條局部軌線的聯(lián)接，其求解可分配到不同的計(jì)算步驟中，每步只需保存末端狀態(tài)值即可.

命題1求解超調(diào)估計(jì)量VEO的學(xué)習(xí)算法在有限步結(jié)束.

3.2.2 求解調(diào)節(jié)時(shí)間估計(jì)量TES的學(xué)習(xí)算法

第k步：對(duì)Λ中每個(gè)路徑θ，逐一進(jìn)行以下計(jì)算.

(b) 若否，進(jìn)一步檢查是否VOθ≤L

2) 判斷是否Λ=?

(a) 若是，輸出TES,算法結(jié)束

注5容易證明，本算法在有限步結(jié)束，給出在超調(diào)約束下的調(diào)節(jié)時(shí)間優(yōu)化估計(jì)VEO.

3.2.3 求解收斂速率估計(jì)量REC的學(xué)習(xí)算法

第k步：對(duì)Λ中每個(gè)路徑θ，逐一進(jìn)行以下計(jì)算.

2) 判斷是否Λ=?

(a) 若是，輸出REC算法結(jié)束

注6容易證明，本算法在有限步結(jié)束，給出在超調(diào)和調(diào)節(jié)時(shí)間約束下收斂速率的優(yōu)化估計(jì)REC.

4 仿真例子

考慮帶兩個(gè)子系統(tǒng)的三階切換系統(tǒng)：

(6)

其中

可以證明，不存在切換路徑實(shí)現(xiàn)整個(gè)狀態(tài)空間的模壓縮[參見(jiàn)文獻(xiàn)[22]，Corollary 3.12].另一方面，取γ=0.95,通過(guò)計(jì)算可以設(shè)計(jì)12個(gè)切換路徑對(duì)整個(gè)狀態(tài)空間分段模壓縮.進(jìn)一步，依據(jù)引理2和引理4可以分別求出系統(tǒng)超調(diào)和調(diào)節(jié)時(shí)間的上界

表1 學(xué)習(xí)算法執(zhí)行的相關(guān)參數(shù)

圖1是優(yōu)化后的系統(tǒng)軌線仿真.

圖1 超調(diào)優(yōu)化的系統(tǒng)軌線Fig.1System trajectory for overshoot optimization

進(jìn)一步，在超調(diào)約束下執(zhí)行求解調(diào)節(jié)時(shí)間估計(jì)量TES的學(xué)習(xí)算法，獲得優(yōu)化的調(diào)節(jié)時(shí)間16.715 5 s.有趣的是，對(duì)應(yīng)的超調(diào)為1.243 3,比單純優(yōu)化超調(diào)得到更優(yōu)的超調(diào).在此基礎(chǔ)上，給定時(shí)間區(qū)間[0,100],繼續(xù)優(yōu)化指數(shù)收斂率.圖2是整體性能優(yōu)化后的系統(tǒng)軌線仿真.

圖2 整體性能優(yōu)化的系統(tǒng)軌線Fig.2System trajectory for overall performance optimization

5 結(jié) 論

針對(duì)連續(xù)時(shí)間切換線性自治系統(tǒng)，借鑒強(qiáng)化學(xué)習(xí)思路和分路徑模壓縮的設(shè)計(jì)方法，通過(guò)對(duì)有限行為策略的串接擴(kuò)展實(shí)現(xiàn)系統(tǒng)性能的迭代優(yōu)化.進(jìn)一步，發(fā)展有效結(jié)合動(dòng)態(tài)系統(tǒng)分析和策略驅(qū)動(dòng)學(xué)習(xí)的優(yōu)化算法，分別給出超調(diào)、調(diào)節(jié)時(shí)間和指數(shù)收斂率的優(yōu)化估計(jì).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于強(qiáng)化學(xué)習(xí)的切換系統(tǒng)綜合性能優(yōu)化設(shè)計(jì)

1 預(yù)備知識(shí)

2 問(wèn)題的提出和分解

3 主要結(jié)果

3.1 系統(tǒng)分析

3.2 優(yōu)化算法

4 仿真例子

5 結(jié) 論