基于改進(jìn)強(qiáng)化學(xué)習(xí)的PID參數(shù)整定原理及應(yīng)用

2014-03-05 08:23高瑞娟吳梅

現(xiàn)代電子技術(shù) 2014年4期

高瑞娟+吳梅

摘要：控制系統(tǒng)的響應(yīng)特性取決于控制律參數(shù)，經(jīng)典的 PID 方法難以實(shí)現(xiàn)參數(shù)的自整定。強(qiáng)化學(xué)習(xí)能夠通過(guò)系統(tǒng)自身和環(huán)境的交互實(shí)現(xiàn)參數(shù)的自動(dòng)調(diào)整，但是在控制律參數(shù)需要頻繁調(diào)整的應(yīng)用場(chǎng)合，常規(guī)的強(qiáng)化學(xué)習(xí)方法無(wú)法滿足實(shí)時(shí)性要求，而且容易陷入局部收斂。對(duì)傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法加以改進(jìn)后，加快了在線學(xué)習(xí)速度，提高了強(qiáng)化學(xué)習(xí)算法的尋優(yōu)能力。仿真結(jié)果表明，該方法可以在一定范圍內(nèi)快速求得全局最優(yōu)解，提高控制系統(tǒng)的自適應(yīng)性，為控制系統(tǒng)參數(shù)的自整定提供了依據(jù)。

關(guān)鍵字： PID；參數(shù)整定；強(qiáng)化學(xué)習(xí)；控制系統(tǒng)

中圖分類號(hào)： TN911?34 文獻(xiàn)標(biāo)識(shí)碼： A 文章編號(hào)： 1004?373X（2014）04?0001?04

Principle and application of PID parameter tuning based on improved reinforcement learning

GAO Rui?juan， WU Mei

（College of Automation， Northwestern Polytechnical University， Xian 710129， China）

Abstract： The response characteristics of control system depend on the control law parameter.The classic PID method is difficult to achieve the parameter self?tuning.Through the interaction of system itself and the environment， parameters can be adjusted automatically by reinforcement learning.However， in the application occasions where the control law parameters requires to be adjusted frequently， the conventional reinforcement learning methods cannot meet the real?time requirements， and is easy to fall into local convergence.Based on the traditional reinforcement learning methods， an improvement method which can accelerate the learning speed and improve the optimizing ability of reinforcement learning algorithm is proposed.The simulation results show that this method can get global optimal solution quickly and improve the adaptivity of the control system in a certain range.It provided a basis for the improvement of control systems parameter self?tuning.

Keywords： PID； parameter tuning； reinforcement learning； control system

0 引言

在現(xiàn)代技術(shù)高速發(fā)展的今天，反饋的概念已被廣泛應(yīng)用于自動(dòng)控制理論中。測(cè)量，比較，執(zhí)行為反饋概念的三個(gè)基本要素。通常來(lái)說(shuō)，輸入量先與測(cè)量量做比較，得到了系統(tǒng)誤差后，相應(yīng)的指標(biāo)將通過(guò)這個(gè)誤差來(lái)加以糾正和控制。在過(guò)去的幾十年里，反饋技術(shù)被廣泛運(yùn)用于實(shí)踐中，其中，使用比例積分微分控制技術(shù)的發(fā)展是最為突出的。如今，在許多高級(jí)控制領(lǐng)域里，到處活躍著 PID控制的身影[1]。

一般的控制理論存在諸多問(wèn)題（如理論難以實(shí)現(xiàn)，或被控對(duì)象參數(shù)不容易得到，或得不到精確數(shù)學(xué)模型），PID作為工業(yè)控制的主要技術(shù)，它可以一一解決，這與其優(yōu)良的性能是分不開(kāi)的。它的結(jié)構(gòu)簡(jiǎn)單，魯棒性好和工作可靠性高且調(diào)整方便。因此，如何高效地調(diào)整和優(yōu)化PID的控制參數(shù)成了人們競(jìng)相研究的問(wèn)題。目前，常用的PID控制算法有理論計(jì)算和工程整定兩類，其中，工程整定主要有：臨界比例法，反應(yīng)曲線法和衰減法等。然而，在復(fù)雜控制系統(tǒng)設(shè)計(jì)中，由于參數(shù)優(yōu)化困難，PID的效果卻有待提高。因此，越來(lái)越多的人把目光轉(zhuǎn)向了自適應(yīng)控制。如神經(jīng)網(wǎng)絡(luò)，模糊，進(jìn)化等[1?2]。

本文在分析了各個(gè)研究成果的基礎(chǔ)上，針對(duì)基于強(qiáng)化學(xué)習(xí)的PID控制算法的收斂速度快，實(shí)時(shí)性好等優(yōu)點(diǎn)，提出了一種改進(jìn)的強(qiáng)化算法的 PID 參數(shù)整定算法。通過(guò)改進(jìn)強(qiáng)化學(xué)習(xí)算法對(duì) PID 參數(shù)進(jìn)行整定與尋優(yōu)，基于控制系統(tǒng)的性能具體要求，對(duì)各項(xiàng)動(dòng)態(tài)指標(biāo)進(jìn)行了適當(dāng)?shù)募訖?quán)，采用改進(jìn)強(qiáng)化學(xué)習(xí)算法對(duì)PID的參數(shù)進(jìn)行了全局多目標(biāo)尋優(yōu)。其與傳統(tǒng)控制算法相比，在尋優(yōu)時(shí)間和參數(shù)調(diào)整上都有了很大的提高。

1 PID控制器

典型PID控制器原理圖如圖1所示[2?3]。

圖1 PID控制系統(tǒng)原理圖

圖中控制系統(tǒng)由控制器和被控對(duì)象及反饋回路組成。

PID控制器根據(jù)給定輸入值r（t）和實(shí)際輸出值y（t）之間的偏差[e（t）=r（t）-y（t）]，將其按照比例，積分，微分的形式，通過(guò)線性組合的方法構(gòu)成控制量，然后對(duì)被控對(duì)象進(jìn)行控制，控制規(guī)律為[3]：

[u（t）=KPe（t）+1KI0Ietdt+KDde（t）dt] （1）

式中：[KP]是比例系數(shù)；[KI]是積分時(shí)間常數(shù)；[KD]是微分時(shí)間常數(shù)[2]。

在本文中，首先，串聯(lián)PID 控制器和被控對(duì)象將系統(tǒng)的型別提高了。其次，由于附帶兩個(gè)負(fù)實(shí)部的零點(diǎn)，使得系統(tǒng)的穩(wěn)定性和優(yōu)越性有了很大的提高。詳細(xì)原理為：積分的存在，導(dǎo)致 PID 控制系統(tǒng)消除誤差；微分存在，使得 PID 控制系統(tǒng)的動(dòng)態(tài)性能指標(biāo)超調(diào)量縮小了；從頻域的角度分析問(wèn)題，由于低頻段和高頻段分別有積分和微分的作用亦滿足如上表述的內(nèi)容。

2 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）是從統(tǒng)計(jì)學(xué)、心理學(xué)等相關(guān)學(xué)科發(fā)展而來(lái)的[4]，為人工智能領(lǐng)域一個(gè)古老又嶄新的課題。最早可以追溯到巴普洛夫的條件反射試驗(yàn)。早在1911年，Tomdlike就提出了效果律，大體原理為：哪種行為會(huì)被動(dòng)物“記住”，會(huì)與刺激建立聯(lián)系，取決于動(dòng)物行為產(chǎn)生的效果，包括搜索和記憶兩層含義。1954年，Minsky將該知識(shí)運(yùn)用于試錯(cuò)學(xué)習(xí)。同年，Clark和Farley亦在此方向上展開(kāi)過(guò)研究，他們建立了隨機(jī)學(xué)習(xí)模型。1957年，Bellman提出了動(dòng)態(tài)規(guī)劃理論及著名的馬爾科夫決策過(guò)程。直到20世紀(jì)八九十年代，該技術(shù)才分別在人工智能和自動(dòng)控制等領(lǐng)域中得到廣泛應(yīng)用[5?6]。

在強(qiáng)化學(xué)習(xí)是一個(gè)不斷地“試探”?“評(píng)價(jià)”過(guò)程[2]。系統(tǒng)中，根據(jù)教師信號(hào)所提供的訓(xùn)練信息，學(xué)習(xí)方法有如下三種分類：監(jiān)督學(xué)習(xí)（Supervised Learning、無(wú)監(jiān)督學(xué)習(xí)（Unsupervised Learning）和強(qiáng)化學(xué)習(xí)（Reinforcement Learning）[2，7]。

強(qiáng)化學(xué)習(xí)的基本框架如圖2所示[2，8]。

圖2 強(qiáng)化學(xué)習(xí)原理圖

強(qiáng)化學(xué)習(xí)與前兩種算法不同，環(huán)境產(chǎn)生的信號(hào)作為學(xué)習(xí)系統(tǒng)動(dòng)作的評(píng)價(jià)指標(biāo)，但是該信號(hào)不能立即反饋給系統(tǒng)如何才能產(chǎn)生正確動(dòng)作。強(qiáng)化學(xué)習(xí)主要由RL兩部分組成：World（工作環(huán)境）和Agent（智能體）。智能體Agent又可以分成三個(gè)部分： P（策略單元）、I（輸入單元）和R（強(qiáng)化單元）。首先，輸入單元感知環(huán)境狀態(tài)后，采取一個(gè)動(dòng)作作用于環(huán)境，環(huán)境給出一個(gè)強(qiáng)化信號(hào)，然后將它轉(zhuǎn)化為智能體的輸入；接著，強(qiáng)化單元將評(píng)價(jià)智能體所采取的動(dòng)作[a（t）]，并將其反饋給強(qiáng)化學(xué)習(xí)系統(tǒng)，策略單元更新Agent當(dāng)前已存儲(chǔ)的知識(shí)的，系統(tǒng)選擇下一個(gè)動(dòng)作，其選擇原則是獎(jiǎng)勵(lì)值最大 [2，6]。

智能體Agent與環(huán)境W的交互時(shí)，在每個(gè)時(shí)刻t會(huì)發(fā)生如下事件：

（1）智能體Agent感知時(shí)刻t的環(huán)境的狀態(tài)[s（t）]；

（2）根據(jù)當(dāng)前的狀態(tài)[s（t）]和強(qiáng)化信息P，系統(tǒng)選擇然后執(zhí)行某一個(gè)動(dòng)作[a（t）]，該動(dòng)作[a（t）]作用于當(dāng)前的環(huán)境，環(huán)境發(fā)生相應(yīng)的變化；

（3）當(dāng)前環(huán)境狀態(tài)變換為新的狀態(tài)，即[s（t）→s（t+1）]，系統(tǒng)反饋及時(shí)的獎(jiǎng)賞或懲罰回報(bào)函數(shù)[r（t）]；

（4）回報(bào)函數(shù)[r（t）]被智能體Agent接收，現(xiàn)有的策略P將發(fā)生變化，即[t←t+1]；

（5）系統(tǒng)返回第一步，繼續(xù)重復(fù)上述步驟，在取得滿意的目標(biāo)狀態(tài)時(shí)，該循環(huán)停止[2，6]。

其中，及時(shí)回報(bào)函數(shù)[r（t）]由環(huán)境狀態(tài)W和智能體Agent的執(zhí)行動(dòng)作[a（t）]共同決定。動(dòng)作[a（t）∈A]，A即為智能體Agent的所有動(dòng)作的集合[5，8]。

算法里，首先要考慮選擇適當(dāng)?shù)膭?dòng)作[a（t）]，使得值函數(shù)得到最大值，從而能夠得到獎(jiǎng)賞，這個(gè)過(guò)程即為Exploitation；同時(shí)，為了得到最優(yōu)策略，智能體Agent要盡量選擇不同的動(dòng)作而且智能體Agent還要盡可能選擇不同的動(dòng)作[a（t）]，即Exploration。對(duì)于在線學(xué)習(xí)來(lái)說(shuō)，Exploration是非常重要的，探索的方法主要有：直接探索和間接探索兩種；間接探索的方法最常見(jiàn)的策略為greedy策略，通過(guò)為每個(gè)可能被選擇的動(dòng)作[a（t）]賦予其對(duì)應(yīng)的執(zhí)行概率[?]，然后嘗試完成所有可能的動(dòng)作。即智能體Agent一直選擇有最高評(píng)價(jià)函數(shù)的動(dòng)作[a（t）]，目的是為了獲取最大及時(shí)回報(bào)函數(shù)。

2.1 強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)基本算法有三種：動(dòng)態(tài)規(guī)劃算法、蒙特卡羅算法和時(shí)間差分算法。強(qiáng)化學(xué)習(xí)是一種無(wú)模型的增強(qiáng)學(xué)習(xí)形式，它是Watkins等人于1989年提出的，是從動(dòng)態(tài)規(guī)劃算法發(fā)展而來(lái)，把Q?學(xué)習(xí)看成一個(gè)增量式動(dòng)態(tài)規(guī)劃，用一步方式來(lái)決定策略[9]。

先假定環(huán)境W是一個(gè)有限狀態(tài)的離散馬爾科夫過(guò)程。并且，強(qiáng)化學(xué)習(xí)系統(tǒng)每選取一個(gè)動(dòng)作[a（t）]都是在單步中進(jìn)行的，環(huán)境一旦接受該動(dòng)作[a（t）]后便發(fā)生狀態(tài)轉(zhuǎn)移，然后給出評(píng)價(jià)函數(shù)[r]。環(huán)境狀態(tài)發(fā)生轉(zhuǎn)換過(guò)程時(shí)，概率公式如下：

[prob[s=st+1st，at]=P[st，at，st+1]] （2）

強(qiáng)化學(xué)習(xí)系統(tǒng)必須決定一個(gè)最優(yōu)策略[π]，從而使得獎(jiǎng)勵(lì)值函數(shù)達(dá)到最大。在策略[π]的作用下，狀態(tài)[st]的值如下：

[Vπ（st）=r（πst）+γP[st，at，st+1]Vπ（st+1）] （3）

動(dòng)態(tài)規(guī)劃至少得保證有一個(gè)策略[π?]，使得[Vπ?（st）=max{r（πst）+γP[st，at，st+1]Vπ*（st）}] （4）

Q?學(xué)習(xí)核心的思想是不估計(jì)環(huán)境模型，直接優(yōu)化可迭代計(jì)算的Q函數(shù)，Watkin等人定義此Q函數(shù)為在狀態(tài)[st]時(shí)執(zhí)行動(dòng)作[at]，并且此后按最優(yōu)動(dòng)作序列執(zhí)行時(shí)，累計(jì)折扣得到的強(qiáng)化值，如下：

[Q（st，at）=rt+γmaxa∈A{Q（st+1，at）at∈A}] （5）

Watkin有效地證明了Q?學(xué)習(xí)在特定條件下的收斂性。Q?學(xué)習(xí)可通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)，其中，每一個(gè)網(wǎng)絡(luò)的輸出對(duì)應(yīng)于一個(gè)動(dòng)作的Q值，即[Q（s，ai）]。實(shí)現(xiàn)Q?學(xué)習(xí)的關(guān)鍵是學(xué)習(xí)算法的確定。

根據(jù)Q函數(shù)的定義：

[Q（st+1，at）=rt+γmaxa∈A{Q（st+1，at）}] （6）

只有達(dá)到最優(yōu)策略時(shí)式（6）才能成立。

在學(xué)習(xí)過(guò)程中，誤差信號(hào)為：

[ΔQ=rt+γmaxa∈A{Q（st+1，at）-Q（st，a）}] （7）式中[Q（st+1，at）]表示下一狀態(tài)所對(duì)應(yīng)的Q值[2，9?10]。

2.2 改進(jìn)的強(qiáng)化學(xué)習(xí)算法

在上述強(qiáng)化學(xué)習(xí)的原理上，為了提高系統(tǒng)自適應(yīng)度，從而推廣該算法的使用范圍，本文采用隨機(jī)辦法產(chǎn)生數(shù)組，并對(duì)動(dòng)作[a（t）]進(jìn)行尋優(yōu)，其算法流程圖見(jiàn)圖3。

圖3 算法流程圖

由于雙曲正切函數(shù)在[-1，1]范圍內(nèi)有良好的性能，相應(yīng)的回報(bào)函數(shù)設(shè)定為：

[r（t）=tanh Q（t）10] （8）

對(duì)于PID參數(shù)取值優(yōu)劣的評(píng)價(jià)，通?？赡闷罘e分指標(biāo)來(lái)衡量。常用的偏差積分指標(biāo)有如下三個(gè)：

[IE=0∞e（t）dt] （9）

[ISE=0∞e2（t）dt] （10）

[IAE=0∞|e（t）|dt] （11）

估計(jì)不同的過(guò)渡過(guò)程需要選擇不同的積分指標(biāo)函數(shù)，如果著重于抑制過(guò)渡過(guò)程中的大偏差，則通常選用ISE準(zhǔn)則，而懲罰過(guò)渡時(shí)間過(guò)長(zhǎng)的問(wèn)題時(shí)則應(yīng)選擇ITAE準(zhǔn)則[11]。

綜合考慮以上因素，本文選擇了IE與IAE的線性組合作為評(píng)價(jià)函數(shù)：

[V（t）=0∞e（t）dt+0∞|e（t）|dt10] （12）

該算法實(shí)現(xiàn)了在其初始運(yùn)行階段（最初較大時(shí)）進(jìn)行均勻搜索，而在其后期運(yùn)行階段（較接近于0時(shí)）搜索范圍逐漸減小。滿足了初期大范圍，后期小范圍搜索的要求，有利于收斂于全局最優(yōu)值和提高搜索精度。

改進(jìn)的強(qiáng)化學(xué)習(xí)PID調(diào)參，在線學(xué)習(xí)速度加快，從而提高了系統(tǒng)的快速性，且動(dòng)態(tài)性能指標(biāo)得到了優(yōu)化。

3 仿真驗(yàn)證

本文利用某型飛艇進(jìn)行仿真，飛艇初始狀態(tài)為水平平飛，高度H=2 000 m，速度V=20 m/s，只研究縱向，配平線性化后得到飛艇縱向的線性化方程為：

[x=Ax+Buy=Cx] （13）

式中：[x=[V，α，q，θ]]，分別代表速度、迎角、俯仰角速度、俯仰角。

給定俯仰角跟蹤指令[θg=10°]，并且考慮縱向風(fēng)干擾，為簡(jiǎn)化問(wèn)題，假設(shè)風(fēng)干擾通過(guò)以下方式引入飛艇系統(tǒng)：

[v=v+vwq=q+qwa=a+aw] （14）式中：[vw，qw，aw]是在風(fēng)對(duì)飛艇狀態(tài)的量化影響。

對(duì)于改進(jìn)強(qiáng)化學(xué)習(xí)算法，設(shè)置仿真參數(shù)如下：[KP]取值范圍為[0，50]；[KI]取值范圍為[0，0.5]；[KD]取值范圍為[0，0.5]；迭代次數(shù)選為100，系數(shù)[γ]選為0.9。

分別用傳統(tǒng)離線設(shè)計(jì)好的PID控制器和改進(jìn)后基于強(qiáng)化學(xué)習(xí)在線調(diào)參的PID控制器進(jìn)行控制[10]。

仿真結(jié)果如圖4所示。

圖4 仿真結(jié)果圖

從仿真結(jié)果可以看出，傳統(tǒng)離線設(shè)計(jì)好的控制器，在有風(fēng)干擾的條件下，難以實(shí)現(xiàn)俯仰跟蹤，而基于改進(jìn)強(qiáng)化學(xué)習(xí)的控制器，在風(fēng)干擾條件下，通過(guò)對(duì)參數(shù)的在線調(diào)整，實(shí)現(xiàn)了俯仰指令的跟蹤，各項(xiàng)指標(biāo)在可以接受的范圍內(nèi)。

4 結(jié) 語(yǔ)

本文在分析各個(gè)研究成果的基礎(chǔ)上，根據(jù) PID 控制器具有多目標(biāo)優(yōu)化的特點(diǎn)，提出了改進(jìn)的強(qiáng)化學(xué)習(xí)的PID控制器參數(shù)整定算法，選擇了自適應(yīng)度大的個(gè)體所對(duì)應(yīng)的控制參數(shù)作為采樣時(shí)間下的參數(shù)，對(duì) PID 的參數(shù)進(jìn)行多目標(biāo)尋優(yōu)，通過(guò)比較傳統(tǒng)強(qiáng)化學(xué)習(xí)算法，收斂速度更快，實(shí)時(shí)性更好，Matlab上的仿真結(jié)果表明，在 PID 參數(shù)的尋優(yōu)過(guò)程中，該改進(jìn)后的強(qiáng)化學(xué)習(xí)算法具有更強(qiáng)的尋優(yōu)能力。因此為PID控制系統(tǒng)提供了一種新的優(yōu)化方法。

參考文獻(xiàn)

[1] 張巍，盧宇清.基于在線自適應(yīng)遺傳算法的 PID參數(shù)整定和優(yōu)化[J].計(jì)算機(jī)仿真，2011（12）：154?157.

[2] 朱衛(wèi)華.基于強(qiáng)化學(xué)習(xí)PID控制器的柴油機(jī)調(diào)速仿真研究[D].哈爾濱：哈爾濱工程大學(xué)，2011.

[3] 陳丹，方康玲，陳喬禮.遺傳算法在 PID 參數(shù)優(yōu)化中的應(yīng)用[J].微計(jì)算機(jī)信息，2007，23（3）：35?36.

[4] 戰(zhàn)忠麗，王強(qiáng)，陳顯亭.強(qiáng)化學(xué)習(xí)的模型，算法及應(yīng)用[J].電子科技，2011（1）：47?49.

[5] 王醒策，張汝波，顧國(guó)昌.基于強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)方法研究[J].計(jì)算機(jī)工程，2002，28（6）：15?16.

[6] 姜沛然.基于模糊理論和強(qiáng)化學(xué)習(xí)的自主式水下機(jī)器人運(yùn)動(dòng)規(guī)劃技術(shù)[D].哈爾濱：哈爾濱工程大學(xué)，2005.

[7] 付成偉.基于分層強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃[D].哈爾濱：哈爾濱工程大學(xué)，2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路徑規(guī)劃中的應(yīng)用[D].哈爾濱：哈爾濱工程大學(xué)，2004.

[9] 魏英姿，趙明揚(yáng).強(qiáng)化學(xué)習(xí)算法中啟發(fā)式回報(bào)函數(shù)的設(shè)計(jì)及其收斂性分析[J].計(jì)算機(jī)科學(xué)，2005（3）：190?193.

[10] 張汝波，顧國(guó)昌，劉照德，等.強(qiáng)化學(xué)習(xí)理論，算法及應(yīng)用[J].控制理論與應(yīng)用，2000，17（5）：637?640.

[11] 田豐，邊婷婷.基于自適應(yīng)遺傳算法的交通信號(hào)配時(shí)優(yōu)化[J].計(jì)算機(jī)仿真，2010（6）：305?308.