何府強(qiáng) 王 垚
(91913部隊(duì) 大連 116041)
動(dòng)態(tài)規(guī)劃在測(cè)控裝備效費(fèi)分析中的應(yīng)用*
何府強(qiáng) 王 垚
(91913部隊(duì) 大連 116041)
文章從動(dòng)態(tài)規(guī)劃的基本概念出發(fā),并根據(jù)多階段決策的性質(zhì)特點(diǎn),通過對(duì)問題進(jìn)行合理的分析和假設(shè),建立了裝備最大效益的動(dòng)態(tài)規(guī)劃模型。運(yùn)用反向遞推算法求得其最優(yōu)經(jīng)費(fèi)投入方案,從而最大化的發(fā)揮其軍事效益。
動(dòng)態(tài)規(guī)劃;效益;決策;模型
(No. 91913 Troops of PLA, Dalian 116041)
Class Number E951
測(cè)控裝備是指具備遙測(cè)、外測(cè)、安控、光學(xué)跟蹤等功能的裝備,在靶場(chǎng)中主要擔(dān)負(fù)導(dǎo)彈的彈道測(cè)量和安全控制等任務(wù)。隨著靶場(chǎng)職能使命的拓展,測(cè)控裝備將發(fā)揮越來越重要的作用,如何對(duì)測(cè)控裝備進(jìn)行科學(xué)化、制度化的管理,使其發(fā)揮最大的軍事效益,是擺在裝備管理人員面前的一個(gè)非常重要的問題。優(yōu)化問題,一般是指用“最好”的方式,使用或分配有限的資源,即勞動(dòng)力、原材料、機(jī)器、資金等,使得費(fèi)用最小或者利潤(rùn)最大,最優(yōu)化模型就是根據(jù)優(yōu)化問題的具體情況建立的數(shù)學(xué)模型。由于裝備的效益與投入的費(fèi)用息息相關(guān),那么關(guān)鍵的問題便是投入一定的裝備經(jīng)費(fèi)后,如何對(duì)其進(jìn)行有效的分配,才能發(fā)揮出裝備的最大效益,文章運(yùn)用動(dòng)態(tài)規(guī)劃的方法建立測(cè)控裝備的效費(fèi)模型[1],提出經(jīng)費(fèi)分配方案,從而最大化地發(fā)揮出其軍事價(jià)值。
動(dòng)態(tài)規(guī)劃是20世紀(jì)50年代前后由美國(guó)數(shù)學(xué)家貝爾曼等建立和發(fā)展起來的一種解決多階段決策問題的優(yōu)化方法[2],主要包括以下幾個(gè)方面的要素:
1) 階段(Stage)
求解多階段決策問題必須把所給問題的過程,恰當(dāng)?shù)貏澐譃槿舾蓚€(gè)相互聯(lián)系的階段,以便于求解。通常用k表示階段變量,k=1,2,…,n。n表示階段總數(shù)。
2) 狀態(tài)(State)
狀態(tài)就是某一階段的出發(fā)位置,同時(shí)它又是前一階段的結(jié)束位置。用狀態(tài)變量Sk表示第k階段所有狀態(tài)的集合,sk表示第k階段的某個(gè)狀態(tài),式(1)表示第k階段有r個(gè)狀態(tài)。
Xk={sk(1),sk(2),…,sk(r)}
(1)
3) 決策(Decision)
決策就是某階段的狀態(tài)給定以后,從該狀態(tài)演變到下一狀態(tài)的選擇。描述決策的變量稱為決策變量。常用xk(sk)表示第k階段處于狀態(tài)sk時(shí)的決策,用Dk(sk)表示第k階段處于狀態(tài)sk時(shí)的允許決策集合,顯然有xk(sk)∈Dk(sk)。
4) 策略(Policy)
由過程的第一階段開始到終點(diǎn)為止的整個(gè)過程,稱為問題的全過程。式(2)表示由每段的決策xi(si)(i=1,2,…,n)組成的決策序列就稱為全過程策略(簡(jiǎn)稱策略),記為p1,n。
p1,n={x1(s1),x2(s2),…,xn(sn)}
(2)
由第k階段到終點(diǎn)的過程稱為原過程的后部子過程(或稱為k子過程),其決策序列{xk(sk),xk+1(sk+1),…,xn(sn)}稱為k子過程策略,如式(3)所示:
pk,n={xk(sk),xk+1(sk+1),…,xn(sn)}
(3)
用P表示所有允許策略的集合,從中找出的效果最好的策略稱為最優(yōu)策略。
5) 狀態(tài)轉(zhuǎn)移方程
只要sk及xk一經(jīng)確定,第k+1階段的狀態(tài)變量sk+1的值就完全確定,寫成關(guān)系式為:sk+1=Tk(sk,xk),這個(gè)式子稱為狀態(tài)轉(zhuǎn)移方程,表示第k階段到第k+1階段狀態(tài)的轉(zhuǎn)移規(guī)律。
6) 指標(biāo)函數(shù)
指標(biāo)函數(shù)是一個(gè)定義在全過程策略和所有后部子過程策略上的數(shù)量函數(shù),是評(píng)價(jià)一個(gè)策略效果的數(shù)量指標(biāo),用Vk,n表示如式(4)所示[3]:
Vk,n=Vk,n(sk,pk,n(sk))
=Vk,n(sk,xk,sk+1,…,sn+1) (k=1,2,…,n)
(4)
用fk(sk)表示Vk,n的最優(yōu)值。
測(cè)控裝備的效費(fèi)分析實(shí)際上是一個(gè)單目標(biāo)多階段決策問題,首先決策者根據(jù)投入經(jīng)費(fèi)的多少計(jì)算出測(cè)控裝備的效費(fèi)模型,即效益—費(fèi)用模型,然后將各型裝備效益值進(jìn)行累加,將效益總和作為目標(biāo)函數(shù),最后將總的裝備經(jīng)費(fèi)對(duì)各型裝備進(jìn)行分配,在各型裝備滿足其最低效益的前提下,計(jì)算出其最優(yōu)解,為決策者提供最優(yōu)的決策,從而得到最大的軍事效益[4]。
根據(jù)測(cè)控裝備的實(shí)際服役情況,其效益值與裝備的初始效益值、測(cè)控裝備允許達(dá)到的最大效益值、效益增長(zhǎng)系數(shù)以及投入的經(jīng)費(fèi)等因素有關(guān),一般可用式(5)表示[5]:
(5)
其中:N(x)為投入經(jīng)費(fèi)后的裝備效益,N0為投入經(jīng)費(fèi)之前的裝備效益值,Nm為測(cè)控裝備允許達(dá)到的最大效益值,r0為效益值較低時(shí)的增長(zhǎng)系數(shù),x為投入的經(jīng)費(fèi)。
以上建立的阻滯增長(zhǎng)模型—Logistic模型,考慮了效益值與投資經(jīng)費(fèi)之間的關(guān)系,比較符合裝備在實(shí)際應(yīng)用中的數(shù)學(xué)規(guī)律,可用于對(duì)測(cè)控裝備效益的計(jì)算。
測(cè)控裝備的效益值是屬于多階段決策問題,由于在靶場(chǎng)應(yīng)用中有多型裝備,如遙測(cè)、雷測(cè)、光測(cè)等,作為裝備管理人員,考慮該問題的決策過程實(shí)際上是一種在多個(gè)相互聯(lián)系的階段分別做出決策以形成決策序列的過程,而這些決策都是根據(jù)總體最優(yōu)化這一共同的目標(biāo)而采取的。對(duì)測(cè)控裝備進(jìn)行效益分析時(shí),決策者能夠根據(jù)總的經(jīng)費(fèi)投入情況,對(duì)經(jīng)費(fèi)進(jìn)行科學(xué)高效的分配,合理地確立每一階段的經(jīng)費(fèi)投入情況,最終達(dá)到裝備的最大效益值[6]。
動(dòng)態(tài)規(guī)劃的最優(yōu)化原理為:“作為整個(gè)過程的最優(yōu)策略具有這樣的性質(zhì):即無論過去的狀態(tài)和決策如何,對(duì)前面的決策所形成的狀態(tài)而言,余下的諸決策必須是最優(yōu)策略?!备鶕?jù)這個(gè)原理,可以把多階段決策問題的求解過程看成是對(duì)若干個(gè)相互聯(lián)系的子問題逐個(gè)求解的反向遞推過程[7]。
一般地,一維效益模型問題可歸結(jié)為:有n型裝備,總的經(jīng)費(fèi)為a,每型裝備的經(jīng)費(fèi)投入為xk,帶來的裝備效益為Nk(xk)。問如何分配經(jīng)費(fèi),使總的總效益最大。
此問題可寫成如下規(guī)劃問題,如式(6)所示[8]:
(6)
用動(dòng)態(tài)規(guī)劃方法處理這類問題時(shí),通常以把分配給某型裝備的經(jīng)費(fèi)的過程作為一個(gè)階段,把規(guī)劃問題中的變量取為決策變量,將累計(jì)的量或隨遞推過程變化的量作為狀態(tài)變量。
除此之外,在研究裝備的最大效益值時(shí),不單要考慮總的效益情況,也要考慮各型裝備的最小效益值,這是因?yàn)樵趯?shí)際應(yīng)用中,每型裝備具有不可或缺性,不能因?yàn)槠湫б嫘』蛘咝б嬖鲩L(zhǎng)速度慢而對(duì)其減少經(jīng)費(fèi)投入或者不投入經(jīng)費(fèi)[9]。
下面用動(dòng)態(tài)規(guī)劃的方法求解,為此建立它的動(dòng)態(tài)規(guī)劃模型。
設(shè)階段變量:以n型裝備來劃分階段,有k=1,2,…,n;
決策變量xk,表示分配給第k階段(即第k型裝備)的經(jīng)費(fèi);
狀態(tài)變量sk,表示分配給第k至第n型裝備的經(jīng)費(fèi);
狀態(tài)轉(zhuǎn)移方程,如式(7)所示:
sk+1=sk-xk
(7)
允許決策集合,如式(8)所示:
Dk(xk)={xk|0≤xk≤sk}
(8)
階段指標(biāo)函數(shù)vk(xk),表示投入經(jīng)費(fèi)xk時(shí)得到的效益值,如式(9)所示:
(9)
最優(yōu)指標(biāo)函數(shù)fk(sk),表示投入經(jīng)費(fèi)sk時(shí)分配給第k至第n型裝備,在各種決策方案下獲得的最大軍事效益,如式(10)所示:
(10)
基于這種分析,根據(jù)動(dòng)態(tài)規(guī)劃最優(yōu)化原理,結(jié)合式(5)的裝備效益模型,建立裝備效益的動(dòng)態(tài)規(guī)劃模型如下,如式(11)所示:
(11)
其中,Nmi為第i型測(cè)控裝備允許達(dá)到的最大效益值,N0i為投入經(jīng)費(fèi)之前第i型裝備效益值,r0i為第i型裝備效益值較低時(shí)的增長(zhǎng)系數(shù),ci表示第i型裝備的最小效益值(i=1,2,3,…,n)。
假設(shè)某靶場(chǎng)有遙測(cè)、外測(cè)、脈沖雷達(dá)和光測(cè)四種型號(hào)的測(cè)控裝備,各型裝備的參數(shù)Nmi、N0i、r0i和ci如表1所示,總的經(jīng)費(fèi)為100萬元。
表1 各型測(cè)控裝備的參數(shù)值
根據(jù)表1參數(shù)值,假設(shè)遙測(cè)、外測(cè)、脈沖雷達(dá)和光測(cè)四種型號(hào)的測(cè)控裝備分別表示四個(gè)階段,則建立動(dòng)態(tài)規(guī)劃模型如下,如式(12)所示:
(12)
根據(jù)動(dòng)態(tài)規(guī)劃的基本思想,可以把經(jīng)費(fèi)分配的過程看成是對(duì)若干個(gè)相互聯(lián)系的子問題,然后逐個(gè)求解的反向遞推過程。
具體解決方法如下:
根據(jù)各型測(cè)控裝備的參數(shù)值,得出各階段的指標(biāo)函數(shù)為[10]
v1(x1)=N1(x1)=0.95/(1+0.19×e-0.02x1)
v2(x2)=N2(x2)=0.95/(1+0.22×e-0.03x2)
v3(x3)=N3(x3)=0.92/(1+0.13×e-0.02x3)
v4(x4)=N4(x4)=0.93/(1+0.33×e-0.03x4)
設(shè)s4=x4,s4+x3=s3,s3+x2=s2,s2+x1=s1=100,則有s4=x4,0≤x3≤s3,0≤x2≤s2,0≤x1≤s1=100。
通過編寫Matlab程序,計(jì)算結(jié)果如下[11]:
第4階段:
第3階段:
=0.92/(1+0.13×e-0.02x3)
+0.93/(1+0.33×e-0.03s4)
同理可得,在第2階段:
第1階段:
根據(jù)以上結(jié)果,當(dāng)遙測(cè)、外測(cè)、脈沖雷達(dá)和光測(cè)四種測(cè)控裝備的投入經(jīng)費(fèi)分別為15.5萬元、30.9萬元、3.8萬元和49.8萬元時(shí),可以達(dá)到最大的效益值,最大效益值為3.39。
動(dòng)態(tài)規(guī)劃是一個(gè)復(fù)雜而系統(tǒng)的過程,涉及到諸多因素和各因素之間的內(nèi)部關(guān)系,動(dòng)態(tài)規(guī)劃就是為解決這一多階段決策問題而產(chǎn)生的一種數(shù)學(xué)分析方法,其原理概括了動(dòng)態(tài)規(guī)劃方法的基本思想,把一個(gè)較復(fù)雜的問題,按照其階段劃分,分解成若干個(gè)較小的局部問題,然后根據(jù)局部問題的遞推關(guān)系,依次做出一系列決策,直到整個(gè)問題達(dá)到總體最優(yōu)的目標(biāo),從而為決策者提供最優(yōu)的控制策略。
[1] 馮尚友.多目標(biāo)決策理論方法與應(yīng)用[M].武漢:華中理工大學(xué)出版社,1990.
[2] 姜啟源.數(shù)學(xué)模型(第三版)[M].北京:高等教育出版社,2003.
[3] 邊馥萍,侯文華, 梁馮珍.數(shù)學(xué)模型方法與算法[M].北京:高等教育出版社,2005,163-168.
[4] 陳廷. 多目標(biāo)群決策方法及應(yīng)用研究[D].北京:中國(guó)人民解放軍信息工程大學(xué),2005.
[5] 華東師范大學(xué)數(shù)學(xué)系編.《數(shù)學(xué)分析》[M].北京:人民教育出版社,1980:149.
[6] 陳守煜,模糊優(yōu)選理論與模型[J].控制與決策,1993,8(1):25-29.
[7] 厲洋峰. 動(dòng)態(tài)規(guī)劃及其在數(shù)學(xué)模型中的應(yīng)用[J]. 中國(guó)新技術(shù)新產(chǎn)品,2009,16:244-245.
[8] 陳開周. 最優(yōu)化計(jì)算方法[M].西安:西安電子科技大學(xué)出版社,1985.
[9] 趙登虎. 定量分析在軍事決策中的作用[J]. 南京政治學(xué)院學(xué)報(bào),2009,06:87-89.
[10] 蒲俊,吉家鋒,伊良忠.MATLAB6.0數(shù)學(xué)手冊(cè).(2002年1月第一版)[M].上海:浦東電子出版社,2002:95.
[11] 劉衛(wèi)國(guó).MATLAB 程序設(shè)計(jì)與應(yīng)用[M].北京:高等教育出版社,2006.
Application of Dynamic Programming in the Cost Effectiveness Analysis of Measurement and Control Equipment
HE Fuqiang WANG Yao
This paper started from the basic concept of dynamic programming, according to the characteristics of the multi stage decision, and then established the dynamic programming model for the maximum benefit of equipment through rational analysis and hypothesis. By using the backward recursive algorithm, the optimal investment scheme was obtained, which can maximize its military effectiveness.
dynamic programming, benefit, decision, model
2016年6月10日,
2016年7月28日
何府強(qiáng),男,助理工程師,研究方向:裝備管理工程。王垚,男,工程師,研究方向:裝備管理工程。
E951
10.3969/j.issn.1672-9730.2016.12.031