国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強化學(xué)習(xí)的戰(zhàn)時保障力量調(diào)度策略研究

2022-02-16 06:51:30李厚樸
關(guān)鍵詞:分隊分配調(diào)度

曾 斌, 王 睿, 李厚樸, 樊 旭

(1. 海軍工程大學(xué)管理工程與裝備經(jīng)濟系, 湖北 武漢 430033; 2. 海軍工程大學(xué)教研保障中心, 湖北 武漢 430033; 3. 海軍工程大學(xué)導(dǎo)航工程系, 湖北 武漢 430033)

0 引 言

當(dāng)前智能技術(shù)的迅猛發(fā)展以及在軍事領(lǐng)域的廣泛應(yīng)用,加速了戰(zhàn)爭形態(tài)從信息化向智能化演變,并在諸如自動目標(biāo)識別等方面去得了較大進展,同時戰(zhàn)爭的智能化也必然需要后裝保障的智能化。

戰(zhàn)時保障力量可看作由多個保障分隊組成,當(dāng)保障區(qū)域(作戰(zhàn)地點)發(fā)出保障申請時,基地保障調(diào)度系統(tǒng)需要按照某種策略,決定分派具體保障分隊完成該次申請或者暫時不分派。當(dāng)戰(zhàn)況激烈時,保障申請發(fā)生率較高,所有保障分隊可能處于繁忙狀態(tài),這時優(yōu)化的調(diào)度策略則尤為重要,它可以取得較高的性能指標(biāo),比如總體響應(yīng)時間更短、高優(yōu)先級申請能及時得到保障服務(wù)等。當(dāng)前保障調(diào)度領(lǐng)域的研究可分為靜態(tài)調(diào)度和動態(tài)調(diào)度兩種,靜態(tài)調(diào)度只考慮當(dāng)前時刻的調(diào)度方案,可能在當(dāng)前時刻最優(yōu),但全時域做不到最優(yōu)。動態(tài)調(diào)度需要考慮不斷出現(xiàn)新保障申請的情況,又可分為兩種:無預(yù)測性的動態(tài)調(diào)度和有預(yù)測性的動態(tài)調(diào)度。當(dāng)新的保障申請出現(xiàn)時,無預(yù)測性的動態(tài)調(diào)度只能被動的調(diào)整原調(diào)度方案,由于原保障方案沒有預(yù)測性,這種調(diào)整可能會導(dǎo)致較大開銷;預(yù)測性的動態(tài)調(diào)度在設(shè)計當(dāng)前調(diào)度方案時就考慮了后面可能出現(xiàn)的情況。

相關(guān)研究包括:基于啟發(fā)式算法的裝備維修任務(wù)分配和基于優(yōu)先級的保障力量調(diào)度分別利用遺傳算法解決了維修任務(wù)-維修單元的指派,但假設(shè)在調(diào)度前已知各項保障任務(wù)的優(yōu)先級、位置等屬性,則屬于靜態(tài)調(diào)度??紤]不確定因素影響的保障任務(wù)調(diào)度利用混合Petri網(wǎng)建立了流程模型并提出了基于退火進化的保障單元調(diào)度算法,雖然考慮了保障任務(wù)執(zhí)行時間的不確定性,但仍然屬于靜態(tài)調(diào)度。多目標(biāo)動態(tài)調(diào)度研究了保障任務(wù)動態(tài)增加時,如何減少調(diào)度方案的重新調(diào)整次數(shù)和開銷,但每次重調(diào)度還是會不可避免地打斷現(xiàn)行任務(wù)執(zhí)行,影響全局保障效能,屬于無預(yù)測的動態(tài)調(diào)度。巡回維修任務(wù)調(diào)度策略研究問題與本文類似,并通過仿真得出預(yù)測性調(diào)度策略性能高于就近策略,但以裝備故障率來預(yù)測保障需求到達時間,不適用于戰(zhàn)時情況。

現(xiàn)有相關(guān)研究在數(shù)學(xué)上可歸類于車間調(diào)度問題(job shop scheduling, JSP)或項目資源調(diào)度問題,適合于伴隨保障或保障范圍不大的情況。但當(dāng)需要實施大范圍的基地級保障時,例如分布式作戰(zhàn),相較于伴隨保障,保障分隊和待保障部隊數(shù)量有限,雖然不需要類似遺傳算法的規(guī)劃方法尋優(yōu),但各作戰(zhàn)地點相距較遠,保障分隊經(jīng)常處于忙碌狀態(tài),這時調(diào)度策略中的任務(wù)分派方案則尤為重要。例如,假設(shè)當(dāng)前某區(qū)域發(fā)出保障申請,沒有預(yù)測能力的調(diào)度策略會分派給基地空閑的保障分隊執(zhí)行該次任務(wù),但如果下一時間該基地附近出現(xiàn)了優(yōu)先級更高的保障申請,就近的維修分隊卻都已分派出去,就會導(dǎo)致當(dāng)前保障工作失敗。而優(yōu)化的調(diào)度策略,能夠根據(jù)歷史數(shù)據(jù)學(xué)習(xí)經(jīng)驗,預(yù)測到可能出現(xiàn)的高優(yōu)先級保障申請,從長遠回報考慮,暫時保留附近空閑的保障分隊。因此迫切需要具有時間維度動態(tài)預(yù)測能力的調(diào)度策略提供支持。

作為序貫決策的關(guān)鍵技術(shù)之一,以馬爾可夫決策過程(Markov decision process,MDP)為基礎(chǔ)結(jié)構(gòu)的強化學(xué)習(xí)逐漸在智能化應(yīng)急服務(wù)中得到了應(yīng)用并取得顯著成果,這些應(yīng)急服務(wù)包括:救護車的調(diào)度、醫(yī)療資源的分配、災(zāi)后救援優(yōu)化策略、戰(zhàn)場傷員的疏散方案、應(yīng)急電力系統(tǒng)的自適應(yīng)控制等。但尚未發(fā)現(xiàn)強化學(xué)習(xí)在后裝保障方面的應(yīng)用研究。

本文提出了基于MDP模型的戰(zhàn)時預(yù)測性保障調(diào)度策略,并針對保障調(diào)度MDP模型中的不確定性、計算復(fù)雜性和維度災(zāi)問題,分別采用了蒙特卡羅模擬、決策后狀態(tài)變量和基于基函數(shù)的近似函數(shù)來解決,最后通過仿真對調(diào)度策略的有效性和性能進行了驗證。

1 技術(shù)路線

圖1為本文的解決思路,強化學(xué)習(xí)的第一步是構(gòu)造問題的MDP模型,為此論文首先建立了MDP的要素。狀態(tài):刻畫當(dāng)前保障過程的運行狀態(tài);動作:表示保障力量與戰(zhàn)場環(huán)境交互所采取的行動;獎勵:保障力量采取行動而從戰(zhàn)場環(huán)境中獲得的正面或負面的強化評價;調(diào)度策略:保障力量調(diào)度系統(tǒng)的核心,由于其計算復(fù)雜度過大,本文用基于基函數(shù)集的近似函數(shù)表示,輸入為當(dāng)前狀態(tài),輸出為最佳行動及對應(yīng)的預(yù)測價值;戰(zhàn)場環(huán)境:表示與保障調(diào)度交互的現(xiàn)實環(huán)境。

圖1 調(diào)度策略強化學(xué)習(xí)流程圖Fig.1 Flow chart of scheduling policy reinforcement learning

強化學(xué)習(xí)時假設(shè)戰(zhàn)場環(huán)境處于一個特定的狀態(tài),當(dāng)采取動作時,會變?yōu)闋顟B(tài)′。對于這個特定的動作,在環(huán)境中觀察到的即時獎勵是,該過程不斷反復(fù),直到循環(huán)終止,得到的總回報為累積獎勵,調(diào)度策略需要能夠從所有可能的動作中估計哪一個動作將帶來最大的回報。因此第二步是訓(xùn)練代表調(diào)度策略的近似函數(shù),即估計其權(quán)重參數(shù),通過不斷迭代更新,最小化最終預(yù)測的狀態(tài)價值與觀察到的狀態(tài)價值的誤差。最后訓(xùn)練完畢的近似函數(shù)代表預(yù)測性調(diào)度策略。

2 馬爾可夫決策過程模型

MDP包含5個模型要素,狀態(tài)(state)、動作(action)、策略(policy)、獎勵(reward)和回報(return)。

2.1 過程狀態(tài)

當(dāng)發(fā)生事件時,保障調(diào)度系統(tǒng)需要進行決策,設(shè)={1,2,…}表示決策時刻集合,∈表示決策時刻。事件包括2種類型:① 作戰(zhàn)部隊發(fā)出保障申請;② 保障分隊完成當(dāng)前保障工作,由忙到閑。時刻的系統(tǒng)狀態(tài)由以下復(fù)合四元組表示,=(,,,)。其中表示決策時刻所處的當(dāng)前系統(tǒng)時間,用時間變量表示;表示時刻多個保障分隊狀態(tài),用6元組列表表示;表示保障申請隊列狀態(tài),用四元組列表表示;表示當(dāng)前保障申請狀態(tài),用三元組表示。下面進一步描述系統(tǒng)狀態(tài)的各個組成元素。

設(shè)′={1,2,…,|′|}表示保障分隊集合,則可表示為各個保障分隊狀態(tài):

=[]∈ ′=[1,2,…,| ′|]

其中某一個保障分隊的狀態(tài)由以下六元組表示:

設(shè)′={1,2,…,|′|}表示保障申請隊列,則可表示為隊列中各個保障申請狀態(tài):

=[]∈′=[1,2,…,|′|]

其中某一個保障申請的狀態(tài)由以下四元組表示:

如果時刻隊列為空時,=(0,0,0,0)。出隊列規(guī)則為:首先按優(yōu)先級出隊列,當(dāng)優(yōu)先級相同時,按入隊時間出隊。

根據(jù)戰(zhàn)時保障要求,建立了保障申請的準(zhǔn)入控制機制,設(shè)計了當(dāng)前申請狀態(tài)元組,如果當(dāng)前保障申請的狀態(tài)特征不滿足保障分隊出動規(guī)則,可以不允許其進入隊列或轉(zhuǎn)移該申請至其他機構(gòu)。當(dāng)前保障申請狀態(tài)由以下三元組表示:

2.2 決策動作

(1)

式中:() 為指示函數(shù),當(dāng)=(0,0,0)時表示當(dāng)前沒有保障申請,這時()=0;否則,即≠(0,0,0)時,()=1。

第2個決策約束用下式表示:

(2)

該約束表示如果已經(jīng)拒絕了當(dāng)前保障申請,則不再分派保障分隊處理;如果接受當(dāng)前申請,最多派遣一支保障分隊處理。

為了描述所有可行的決策動作,再增設(shè)兩個指示函數(shù),如果()≠,即存在可用保障分隊時,()=1,否則()=0。如果|′|≠0,即申請隊列不為空時,()=1,否則()=0。并設(shè)申請隊列的最大長度為,則調(diào)度過程所有可行決策可表示如下:

(3)

2.3 立即獎勵

影響調(diào)度獎勵的因素可以歸納為4種,分別為:發(fā)出保障申請的作戰(zhàn)部隊位置、該申請的工作量、該申請的優(yōu)先級以及保障分隊所處的位置。為此獎勵函數(shù)設(shè)計如下:

(4)

2.4 最優(yōu)決策函數(shù)

設(shè)()為決策函數(shù),表示當(dāng)系統(tǒng)處于狀態(tài)時,在給定策略的情況下返回的動作為。本文馬爾可夫決策過程的目標(biāo)就是找到最優(yōu)策略,最大化整個保障系統(tǒng)的總回報,所以模型的目標(biāo)可用下式表示:

式中:∈[0,1)為折扣因子,是一個固定常數(shù),用來計算累積獎勵。最優(yōu)策略可以用Bellman迭代方程計算得到:

(5)

式中:()為價值函數(shù);(,)為第22節(jié)所述獎勵函數(shù);(+1|,)為在當(dāng)前時刻處于狀態(tài)時,采取第32節(jié)所述動作后進入狀態(tài)+1的價值。因為動作可以有多個,所以狀態(tài)價值是根據(jù)轉(zhuǎn)移概率計算的平均回報,利用期望值形式E[(+1|,)]表示。

3 近似求解算法

求解保障調(diào)度MDP模型,即對式(5)進行計算,面臨兩個難點。第1個難點是:對于式(5),如何計算期望值E[(+1|,)]的最大值。如果采取精確算法,則需要遍歷下一決策時刻的各個狀態(tài);如果采用近似算法,則需要通過仿真來估計期望值,兩種方式不僅都會帶來巨大的計算量,而且會導(dǎo)致統(tǒng)計誤差,即出現(xiàn)信息空間的維度災(zāi)難。針對該難點,本文在后文設(shè)計了決策后狀態(tài)變量來解決。

如上文分析,系統(tǒng)狀態(tài)空間過大,這時無法用常規(guī)表結(jié)構(gòu)來表示價值量,這是求解式(4)的第2個難點,為此需要用一個函數(shù)來估計值函數(shù),稱之為價值函數(shù)的逼近或近似。

3.1 決策后狀態(tài)變量的設(shè)計

決策后狀態(tài)變量用于描述處于決策動作發(fā)生之后和外部隨機事件(保障分隊完成任務(wù)或出現(xiàn)保障申請)到達之前的系統(tǒng)狀態(tài),它將原來只用一步的狀態(tài)轉(zhuǎn)移函數(shù)+1=(,)分成兩步:

圖2 階段3的決策前和決策后狀態(tài)關(guān)系Fig.2 Relationship between pre-decision and post-decision states of stages 3

(6)

同理可得

(7)

把式(7)代入式(5),決策前狀態(tài)的價值可由下式計算:

(8)

(9)

式(5)需要計算期望值的極值,而式(9)是先計算極大值再計算期望值,這屬于確定性優(yōu)化問題,可以用迭代方法計算。

盡管通過引入決策后狀態(tài)變量,式(9)把模型(5)的不確定性問題轉(zhuǎn)換為確定性優(yōu)化問題,但狀態(tài)空間過大的問題仍然存在,這需要利用近似函數(shù)解決。

3.2 近似函數(shù)的框架設(shè)計

當(dāng)前強化學(xué)習(xí)中,為了解決大型狀態(tài)空間以及連續(xù)狀態(tài)問題,較為有效的方法是利用基函數(shù)集來近似價值函數(shù),這種方法的關(guān)鍵技術(shù)是如何選取識別MDP中的基函數(shù)和特征量,在本文中它直接影響了能否得到高質(zhì)量的調(diào)度策略。

本文設(shè)計了8類基函數(shù)來捕捉保障系統(tǒng)的調(diào)度特征。第1類基函數(shù)用來描述保障分隊的可用性,數(shù)量為|′|個,函數(shù)表達式如下:

中國特色社會主義道路、中國特色社會主義理論體系以及中國特色社會主義制度,三者是內(nèi)在的統(tǒng)一,從實踐、理論和制度不同維度闡釋了中國特色社會主義。對此,十八大報告強調(diào)指出:高舉中國特色社會主義偉大旗幟,最根本的就是要倍加珍惜、始終堅持、不斷發(fā)展中國特色社會主義道路、中國特色社會主義理論體系以及中國特色社會主義制度。

第2~第5類基函數(shù)捕捉保障分隊處理保障申請的服務(wù)質(zhì)量。第2類基函數(shù)數(shù)量為|′|個,反映了保障分隊的響應(yīng)速度,用下式表示:

第3類基函數(shù)數(shù)量為|′|個,反映了保障分隊的期望保障時間,用下式表示:

第4類基函數(shù)數(shù)量為|′|個,反映了保障分隊處理申請的優(yōu)先級,用下式表示:

第5類基函數(shù)數(shù)量為|′|個,反映了保障分隊的服務(wù)工作量,用下式表示:

最后3類基函數(shù)用于捕捉申請隊列的處理特征。當(dāng)?shù)趥€保障分隊分派處理隊列中第個申請時,第6類基函數(shù)反映了期望總保障時間,包括等待時間(在隊列中等待的時間)、路上運輸時間和服務(wù)時間(故障設(shè)備的維修時間或物質(zhì)的卸貨時間),數(shù)量為|′|(|′|,用下式表示:

式中:表示第個保障分隊分派處理隊列中第個申請時所花費的總時間。

第7類基函數(shù)反映了隊列中每一個等待的申請的優(yōu)先級,它數(shù)量為|′|,用下式表示:

第8類基函數(shù)隊列中每一個處于等待狀態(tài)的申請所需工作量,它數(shù)量為|′|,用下式表示:

(10)

3.3 近似函數(shù)的訓(xùn)練

當(dāng)確定了基函數(shù)集結(jié)構(gòu)后,只需要計算出權(quán)重矢量,就可以得到近似價值函數(shù)。作為當(dāng)前主流強化學(xué)習(xí)求解算法,時序差分法可以快速靈活的更新狀態(tài)的價值估計,方差較低,且對初始值敏感,所以本文采用基于時序差分的策略迭代算法,流程圖如圖3所示。

圖3 基于時序差分的策略迭代算法流程圖Fig.3 Flow chart policy iteration algorithm based on time difference

()=+-

(11)

為了避免策略評估迭代中采集的差分樣本值出現(xiàn)過擬合現(xiàn)象,本文采用嶺回歸來減小泛化誤差。設(shè)代價函數(shù)為時序差分值的平方,即(),基于嶺回歸的更新算法主要步驟如下。

利用嶺回歸法按下式計算估計值。

設(shè)計多項式步長按下式平滑估計值。

按下式更新θ值。

(12)

的更新算法中步驟1的公式為標(biāo)準(zhǔn)嶺回歸公式,是正則化項,是單位矩陣。

步驟2中設(shè)計步長的目的是加快算法的收斂速度,的下標(biāo)值與策略改進迭代次數(shù)一致,表示隨著策略改進迭代次數(shù)的增加,減小的速度取決于,較小的值能夠減緩減小速度。

算法中、、和都屬于超參數(shù),其中為策略改進迭代閾值,是策略評估迭代閾值,是嶺回歸的正則化項,是步長參數(shù)。

圖3中步驟21采用貪婪法決定通過探索或利用確定動作,有的概率選擇探索方式,即按式(3)在可行決策集中隨機生成新的動作作為下一步;有1-的概率選用利用方式,選擇當(dāng)前已產(chǎn)生的最佳動作為作為下一步,本文根據(jù)文獻[30]自適應(yīng)調(diào)整的值,在迭代前期值較大,允許更多的探索,后期值逐步減小,盡量使用已收斂的優(yōu)化決策。

3.4 蒙特卡羅模擬

蒙特卡羅模擬主要用于兩個方面,一是用于策略迭代算法的狀態(tài)演進,在迭代算法的步驟23中,當(dāng)系統(tǒng)處于決策后狀態(tài)時,需要通過蒙特卡羅模擬產(chǎn)生的事件表往前推進。二是用于性能比較,在蒙特卡羅模擬上進行仿真,可以比較強化學(xué)習(xí)分派策略與就近分派策略在不同想定下的性能。

保障申請出現(xiàn)和保障完成這兩個事件,促進了保障系統(tǒng)狀態(tài)的變化。本文使用泊松分布生成保障需求的產(chǎn)生概率(事件發(fā)生率),為了能夠接近實戰(zhàn)背景,泊松分布的發(fā)生率由下式生成:

=

(13)

式中:為保障申請到達率;為條件概率,表示當(dāng)發(fā)生保障申請時,該申請是從作戰(zhàn)區(qū)域發(fā)出的概率;為條件概率,表示當(dāng)出現(xiàn)保障申請且該申請從作戰(zhàn)區(qū)域發(fā)出時,該申請優(yōu)先級為的概率。、需要保障指揮員給定。

為了生成保障完成事件,其服務(wù)率為,表示保障分隊為作戰(zhàn)部隊的保障時間,該服務(wù)率由保障指揮人員通過參數(shù)估計方法給定,應(yīng)該能捕捉保障分隊從基地出發(fā)到申請點并完成保障的總時長。

3.5 調(diào)度步驟

建立的近似函數(shù)可以看作一個具有預(yù)測能力的調(diào)度機。其使用時機為:當(dāng)戰(zhàn)場態(tài)勢變化,例如出現(xiàn)新的保障申請,如第21節(jié)描述的當(dāng)前系統(tǒng)狀態(tài)隨之改變。

這時采用以下步驟得到最優(yōu)決策。

在第22節(jié)描述的決策約束下,生成各種可能的決策動作,形成下一步狀態(tài)集合;

把下一步狀態(tài)集中的每一個狀態(tài)作為第32節(jié)敘述的近似函數(shù)輸入,這時近似函數(shù)的輸出為下一步狀態(tài)的價值(),該價值為第31節(jié)Bellman方程迭代計算的“期望”價值;

當(dāng)狀態(tài)集合中的每一個狀態(tài)都經(jīng)過步驟2,計算出相應(yīng)期望價值后(該過程可以并行執(zhí)行),導(dǎo)致下一步狀態(tài)價值最大的決策可看作當(dāng)前最優(yōu)決策。

4 仿真實例分析

4.1 仿真方案設(shè)計

圖4為仿真流程圖。初始化模塊中,仿真時鐘清零,保障分隊一開始都位于所屬基地且處于空閑狀態(tài),且統(tǒng)計變量記錄器和申請隊列初始化為空,統(tǒng)計變量記錄器用于記錄仿真實驗需要保存的性能指標(biāo),包括累積獎勵、事件響應(yīng)時間、保障分隊利用率等。事件列表在初始化階段存儲1條初始事件,仿真開始后在第34節(jié)中按照式(13)根據(jù)發(fā)生率生成新的事件。

圖4 仿真流程圖Fig.4 Simulation flow chart

時鐘處理程序模塊中,從事件列表中選擇下一個待處理事件并把時鐘推進到事件標(biāo)記的仿真時刻。

事件處理程序模塊中,根據(jù)已訓(xùn)練完畢的近似函數(shù)(表示調(diào)度策略)輸出保障分隊分派決策動作,統(tǒng)計變量及系統(tǒng)狀態(tài)也相應(yīng)改變,并生成新的事件加入事件列表中。如果到達預(yù)定仿真時間(本文實驗設(shè)置為24 h)則退出仿真,否則返回時鐘處理模塊進入下一次仿真循環(huán)。

4.2 仿真參數(shù)設(shè)置

為了驗證強化學(xué)習(xí)模型在后裝保障調(diào)度領(lǐng)域的適用性,本文采用聯(lián)想工作站ThinkStation P710及Matlab并行計算工具箱(Parallel Computing Toolbox)作為計算平臺,工作站CPU配置為雙核Xeon E5-2603 v4,內(nèi)存為128 GB。

圖5為仿真實驗的場景設(shè)置,出于數(shù)據(jù)安全考慮刪除了背景地圖,圖中有兩個保障基地和兩個前進基地,與保障基地相比,前進基地較小,當(dāng)沒有申請所需物質(zhì)裝備時,需要從保障基地補充。設(shè)4個保障分隊分屬4個基地管理,由一個統(tǒng)一的聯(lián)合保障指揮中心協(xié)調(diào)運行,在空閑時回到自己的分管基地休整。

圖5 作戰(zhàn)行動場景Fig.5 Operational case

另外圖5中還包括54個交戰(zhàn)地點,為了便于與精確策略迭代算法比較,分屬12個交戰(zhàn)區(qū)域。由其代表區(qū)域內(nèi)作戰(zhàn)部隊的保障申請,交戰(zhàn)區(qū)域數(shù)量可以根據(jù)調(diào)度計算機的性能調(diào)整,最高數(shù)量可以與交戰(zhàn)地點數(shù)量相等,但此時受保障分隊-保障請求對的影響,計算空間會變得過大,導(dǎo)致精確算法無法執(zhí)行,近似算法的執(zhí)行時間也會增大。

按式(13)產(chǎn)生各交戰(zhàn)區(qū)域不同優(yōu)先級保障申請的發(fā)生概率,其參數(shù)配置如表1表示。從式(4)中立即獎勵函數(shù)的表達式可以看出,立即獎勵與保障需求事件的優(yōu)先級權(quán)重、響應(yīng)時間和工作量有關(guān),在仿真實驗中工作量都設(shè)為相同,優(yōu)先級權(quán)重的設(shè)置為=09、=009、=001。保障分隊至各區(qū)域的運輸時間通過蒙特卡羅模擬過程得到,如表2所示,可以看出它與圖5中保障分隊-保障區(qū)域距離及保障分隊的運輸速度有關(guān)。最后可以通過式(4)計算得到立即獎勵,為了節(jié)省篇幅,本處沒有顯示立即獎勵值。

表1 按區(qū)域-優(yōu)先級分類的保障申請概率

表2 保障分隊至各區(qū)域運輸時間均值

4.3 敏感性分析

影響圖3所示策略迭代算法的計算復(fù)雜性和性能的主要參數(shù)為內(nèi)循環(huán)次數(shù)和外循環(huán)次數(shù),為此本文設(shè)計了不同參數(shù)級別的9種方案進行測試,共測試20次,表3為設(shè)計方案及對應(yīng)的計算時間均值。

表3 設(shè)計方案對應(yīng)的計算時間

圖6中1/表示了保障申請的到達時間間隔,它某種程度上可以反映戰(zhàn)況的激烈程度,表示保障申請的優(yōu)先級別,1為緊急,2為重要。從圖6中可以發(fā)現(xiàn),當(dāng)戰(zhàn)況激烈,保障申請率較高時,保障分隊負載加重,導(dǎo)致保障響應(yīng)時間延長。而且優(yōu)先級較高的保障申請能夠得到較快的響應(yīng)。另外第5號設(shè)計方案在不同仿真參數(shù)下取得的效果較好,從表2可以看出,其對應(yīng)的外循環(huán)次數(shù)為10,內(nèi)循環(huán)次數(shù)為10 000,因此本文在仿真實驗中以該設(shè)計方案為基線方案。

圖6 不同設(shè)計方案下的保障響應(yīng)時間Fig.6 Response time according to different design schemas

4.4 功能驗證

表4 不同場景下優(yōu)化分配策略

本文優(yōu)化分配算法與文獻[7]描述的常規(guī)“最近分配”策略進行了比較,表3中帶“+”的數(shù)字表示與“最近分配”策略不同的分配結(jié)果。從表4可以看出,由于緊急保障優(yōu)先級高且立即獎勵較大,所以大多數(shù)情況下優(yōu)化分配與最近分配結(jié)果相同,但也有不同情況,例如在場景1、場景2、場景4和場景5下當(dāng)7號區(qū)域發(fā)出緊急保障申請時,二者分配結(jié)果不同。例如在場景1下所有保障分隊空閑時,如果7號區(qū)域發(fā)出緊急保障申請,優(yōu)化算法分配第4隊保障分隊執(zhí)行任務(wù),而這時按表2第7行數(shù)據(jù),最近分配應(yīng)該派遣第3隊(離7號區(qū)域最近)處理。造成二者分配結(jié)果不同的原因與表1的保障申請概率和表2的響應(yīng)時間有關(guān),從表2可以看出第3分隊和第4分隊到達7號區(qū)域的時間分別為45.847分鐘和45.999分鐘,相差很小,然而從表1可以看出6號區(qū)域的保障申請發(fā)生概率為0.049 6+0.049 6+0.210 9≈0.31,大于7號區(qū)域的保障申請概率0.22,而第3分隊與6號區(qū)域的距離(58.221)比第4分隊的距離(68.596)要近得多,為了應(yīng)對6號區(qū)域可能出現(xiàn)的保障申請,優(yōu)化策略選擇第4分隊處理該次申請。

4.5 性能驗證

第一個性能驗證實驗比較隨著保障申請概率變化,優(yōu)化算法性能的變化情況,算法的外循環(huán)(策略改進迭代次數(shù))設(shè)為10,內(nèi)循環(huán)(策略評估迭代次數(shù))設(shè)為10 000,式(13)中保障申請到達率分別設(shè)為1/30,1/60和1/120,即平均30 min、60 min和120 min發(fā)生一次保障申請,結(jié)果如表5所示。

表5 實驗比較結(jié)果

其中性能改進率impr=(-)/,為優(yōu)化算法計算得到的價值,為最近分配策略計算得到的價值,置信度為95%,URT為緊急保障的等待時間,IRT為重要保障的等待時間,Busy為保障分隊的平均忙碌率,CT為計算時間??梢钥闯鲭S著的增加,優(yōu)化算法在較少的計算時間范圍內(nèi),性能明顯強于最近分配策略。

圖7表示隨著策略改進迭代次數(shù)的增加,性能改進率impr的變化情況,可以看出,在嶺回歸算法的步驟2中增加了平滑函數(shù)后,計算結(jié)果質(zhì)量得到了進一步改善。

圖7 平滑函數(shù)對算法性能的影響Fig.7 Performance impact on algorithm performance by smoothing function

另外,從優(yōu)化算法得到的基函數(shù)權(quán)重結(jié)果來看,第4類基函數(shù)對應(yīng)的權(quán)重最大,反映的是保障分隊正在處理的申請的優(yōu)先級,權(quán)重大表示它對分配策略的影響最大。反映保障分隊距離保障申請點的距離和工作量的基函數(shù)權(quán)重也相對較大,只有第1類基函數(shù)的權(quán)重最小,這表示它在回歸中所起的作用也最小,這應(yīng)該是由于優(yōu)化算法對保障分隊的空閑程度缺乏懲罰。由于系統(tǒng)維度較高,影響因素較多,所以僅靠原則或者經(jīng)驗難以決定預(yù)留哪一個保障分隊以及預(yù)留多久等決策變量,必須需要較好的學(xué)習(xí)算法才能得到較好質(zhì)量的分配結(jié)果。

通過調(diào)整來改變保障申請率,從中發(fā)現(xiàn)優(yōu)化算法相比最近分配策略的性能改進,如圖8所示,在不同設(shè)計方案下,隨著的減小,保障申請率也相應(yīng)較小,優(yōu)化算法針對最近分配的改進率也逐漸減小。這意味著當(dāng)作戰(zhàn)烈度較小,需要后裝保障的頻率也不大時,預(yù)留保障分隊的效用也被削弱。特別是當(dāng)發(fā)出保障申請的時間間隔均值為2 h時,在仿真背景下,圖8中顯示優(yōu)化算法性能可能還不如最近分配,這說明基函數(shù)及其在它們基礎(chǔ)之上建立的近似價值函數(shù)存在著優(yōu)化限制,在保障強度很小時,優(yōu)化算法與最近分配策略的性能差異可以忽略不計。

圖8 相較最近分配的性能改進率Fig.8 Performance improvement with closest dispatch

再來檢驗保障優(yōu)先級比例不同給算法性能帶來的影響,如圖9所示,不管優(yōu)先級比例如何變化,優(yōu)化算法性能都要顯著高于最近分配,而且隨著緊急保障申請(高優(yōu)先級)的比例增加,優(yōu)化性能更為顯著。

圖9 優(yōu)先級比例變化的影響Fig.9 Impact by priority ratio changes

最后比較了當(dāng)運輸工具速度提高時不同調(diào)度策略性能的變化情況,這里只調(diào)整了保障分隊的平均運輸速度,其他參數(shù)還是保持不變,表6和表7分別顯示了最近分配和優(yōu)化分配策略的計算性能。從數(shù)據(jù)安全考慮基準(zhǔn)速度值沒有顯示,Spd Inc表示相對于基準(zhǔn)速度的提高百分比。

表6 速度提高時最近分配策略的性能

表7 速度提高時優(yōu)化分配策略的性能

從表6和表7中可以看出,對于最近分配和優(yōu)化分配兩種策略而言,都能利用運輸速度的提高改善調(diào)度性能。對于優(yōu)化分配策略,當(dāng)速度提高了25%后,緊急保障申請和重要保障申請的平均響應(yīng)時間分別為117.2 min和141.7 min,特別是重要保障申請的響應(yīng)時間從236.5 min減少為141.7 min,這是相當(dāng)大的性能改進。盡管當(dāng)速度提高后,表5中最近分配的性能改進程度還要高于表6中優(yōu)化分配策略的改進程度,但優(yōu)化分配策略還是能夠較大程度的利用速度優(yōu)勢來改進調(diào)度效果。

5 結(jié) 論

智能化后裝保障是智能化戰(zhàn)爭的主要組成部分,在激烈作戰(zhàn)時,當(dāng)指揮人員接收到作戰(zhàn)部隊發(fā)出的保障申請后,需要在較短時間內(nèi)給出調(diào)度指令。在滿足各項保障條例情況下,一個常規(guī)做法是派遣離申請部隊最近的保障分隊執(zhí)行此次任務(wù),然而這種直覺方式可能會造成較大損失。例如當(dāng)保障分隊被派遣執(zhí)行一個低優(yōu)先級的任務(wù)后,如果隨后在附近發(fā)生了高優(yōu)先級保障申請,就會出現(xiàn)這種局面。而由于影響調(diào)度的因素較多,指揮人員僅憑經(jīng)驗或條令條例很難在短時間內(nèi)給出優(yōu)化決策。為此提出了基于強化學(xué)習(xí)的調(diào)度方法,該方法具有學(xué)習(xí)能力,能夠從有折扣長期效益出發(fā),在派遣合適保障力量的同時為下一步可能出現(xiàn)的保障事件預(yù)留保障力量。仿真實驗從功能和性能兩方面驗證了具有強化學(xué)習(xí)能力的調(diào)度方法的優(yōu)越性。

猜你喜歡
分隊分配調(diào)度
傷情驅(qū)動在衛(wèi)生分隊演訓(xùn)中的初步探索
《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護手冊》正式出版
應(yīng)答器THR和TFFR分配及SIL等級探討
一種基于負載均衡的Kubernetes調(diào)度改進算法
新編制下陸軍信息通信分隊保障能力評估模型
虛擬機實時遷移調(diào)度算法
遺產(chǎn)的分配
一種分配十分不均的財富
績效考核分配的實踐與思考
基于深度強化學(xué)習(xí)的陸軍分隊?wèi)?zhàn)術(shù)決策問題研究
正定县| 黔西| 吕梁市| 宣武区| 蒲城县| 万安县| 玉门市| 宝山区| 建始县| 原平市| 邳州市| 安远县| 大英县| 西畴县| 晋州市| 乌兰察布市| 甘谷县| 图片| 东乡族自治县| 西盟| 大厂| 安仁县| 巢湖市| 和顺县| 湾仔区| 阳春市| 进贤县| 大石桥市| 积石山| 莒南县| 绥化市| 岚皋县| 南阳市| 大埔县| 定州市| 扎兰屯市| 连南| 渭源县| 长顺县| 班玛县| 大竹县|