高 龍, 曹軍海, 宋太亮, 邢 彪, 閆 旭
(1. 陸軍裝甲兵學(xué)院裝備保障與再制造系, 北京 100072; 2. 中國(guó)國(guó)防科技信息中心, 北京 100142;3. 武警工程大學(xué)烏魯木齊校區(qū)裝甲車技術(shù)系, 新疆 烏魯木齊 830049)
在信息化聯(lián)合作戰(zhàn)條件下,分布式保障指揮與控制將是網(wǎng)絡(luò)化裝備保障體系的主要指揮控制形式[1-3]。它突破了集中式指控方式的局限性,秉承“權(quán)利下放”和“去中心化”的思想,各指控節(jié)點(diǎn)在保障體系運(yùn)行中能根據(jù)當(dāng)前戰(zhàn)場(chǎng)態(tài)勢(shì)與保障態(tài)勢(shì)等進(jìn)行自主決策與信息共享,采用對(duì)話、協(xié)商和談判等方式靈活調(diào)整任務(wù)分配方案,最大程度地滿足裝備體系的保障需求[4]。
目前,裝備保障任務(wù)分配研究主要針對(duì)集中式保障任務(wù)分配問(wèn)題[5-7],較少涉及分布式保障任務(wù)分配問(wèn)題,而在其他領(lǐng)域中有關(guān)分布式任務(wù)分配問(wèn)題研究主要是對(duì)分配問(wèn)題的框架、方法、模型及求解算法等進(jìn)行了探索。如:李娟等[8]提出了基于改進(jìn)合同網(wǎng)算法的異構(gòu)多自主式水下航行器(Autonomous Underwater Vehicle,AUV)協(xié)同任務(wù)分配策略;費(fèi)愛(ài)國(guó)等[9]基于多Agent拍賣算法提出了分布式多機(jī)協(xié)同火力分配方法和模型,可同時(shí)考慮任務(wù)分配的收益和代價(jià);黎子芬等[10]設(shè)計(jì)了基于分布式拍賣算法的多機(jī)編隊(duì)協(xié)同攻擊目標(biāo)分配方法,可最大程度地發(fā)揮編隊(duì)的攻擊能力;陳俠等[11]提出了基于分布式邀請(qǐng)拍賣算法的多機(jī)協(xié)同空戰(zhàn)決策方法,采用邀請(qǐng)機(jī)制來(lái)解決多機(jī)任務(wù)協(xié)同問(wèn)題。
綜合來(lái)看,一方面受經(jīng)濟(jì)學(xué)中市場(chǎng)機(jī)制的啟發(fā),研究者先后提出了適用于分布式控制機(jī)制的合同網(wǎng)算法[12]和拍賣算法[13],特別是拍賣算法因其具有良好的并行計(jì)算、分布式通信、可擴(kuò)展性和魯棒性特點(diǎn),在分布式任務(wù)分配問(wèn)題中被廣泛應(yīng)用;另一方面,由于分布式人工智能中的Agent系統(tǒng)具有自主性、分布性和協(xié)調(diào)性,并表現(xiàn)出較好的自組織能力、自學(xué)習(xí)能力和推理能力等[14-16],被廣泛用于分布式任務(wù)分配的描述與建模。同時(shí),在許多復(fù)雜系統(tǒng)的任務(wù)分配問(wèn)題中,將多Agent系統(tǒng)理論和基于市場(chǎng)機(jī)制的算法相結(jié)合,利用Agent理論對(duì)實(shí)際問(wèn)題的描述能力和基于市場(chǎng)機(jī)制的算法求解能力來(lái)實(shí)現(xiàn)分布式任務(wù)分配問(wèn)題的建模與求解,已取得了良好效果。因此,為了突破集中式保障指控形式下任務(wù)分配的局限性,構(gòu)建適用于未來(lái)作戰(zhàn)中分布式裝備保障體系任務(wù)分配方法與模型,筆者針對(duì)面向作戰(zhàn)任務(wù)的分布式裝備保障體系任務(wù)分配的要求和特點(diǎn),建立基于多Agent的分布式保障任務(wù)分配框架,基于裝備體系任務(wù)成功率構(gòu)建保障任務(wù)分配模型,并通過(guò)分布式拍賣算法進(jìn)行求解。
由于在分布式裝備保障體系任務(wù)分配過(guò)程中,涉及的保障實(shí)體類型與數(shù)量眾多,保障過(guò)程交互頻繁、復(fù)雜,保障需求分布地域范圍廣、結(jié)構(gòu)分散、管理獨(dú)立,導(dǎo)致分布式保障任務(wù)分配問(wèn)題描述困難、建模復(fù)雜。Agent理論與技術(shù)能夠較好地解決分布式環(huán)境中的系統(tǒng)問(wèn)題,對(duì)于復(fù)雜系統(tǒng)的行為與特性等研究?jī)?yōu)勢(shì)明顯[15-19]。Agent具有良好的自主性、反應(yīng)性、社交性和智能性,非常適合描述裝備保障體系中保障單元的自主性、智能化等特性;多Agent系統(tǒng)具有自治性、協(xié)作性和自適應(yīng)性,可較好地描述裝備保障體系中保障單元在完成保障任務(wù)過(guò)程中的交互與協(xié)同等特性;分布式多Agent系統(tǒng)的松散耦合、去中心化的組織結(jié)構(gòu)形態(tài)能夠較好地反映裝備保障體系的分布式保障指控形式,滿足信息化聯(lián)合作戰(zhàn)對(duì)裝備保障體系反應(yīng)速度快、靈活性高、適應(yīng)性強(qiáng)等要求。因此,筆者基于多Agent理論構(gòu)建分布式保障任務(wù)分配框架來(lái)描述分布式保障任務(wù)分配問(wèn)題。
分布式裝備保障體系以信息網(wǎng)絡(luò)為支撐,以裝備保障態(tài)勢(shì)實(shí)時(shí)感知共享為基礎(chǔ),將各級(jí)保障要素融為一體,形成一個(gè)部署空間離散、能力依網(wǎng)聚合的模塊化有機(jī)整體。其在面向任務(wù)、分布交互和科學(xué)規(guī)范的保障指揮下,基于態(tài)勢(shì)需求驅(qū)動(dòng)和行動(dòng)規(guī)則約束進(jìn)行廣泛的協(xié)同,實(shí)現(xiàn)保障信息共享、保障力量協(xié)同、保障資源優(yōu)化配置與調(diào)度[1-4,17]。根據(jù)分布式保障指揮的特征、保障任務(wù)分配的特點(diǎn)與要求及Agent理論與技術(shù)的優(yōu)勢(shì),筆者構(gòu)建了基于多Agent的分布式裝備保障體系任務(wù)分配框架,如圖1所示。
在分布式保障任務(wù)分配中,保障任務(wù)來(lái)源于裝備體系遂行作戰(zhàn)或訓(xùn)練任務(wù)時(shí)產(chǎn)生的裝備保障需求。根據(jù)保障需求的地域、類型及保障力量體系的特點(diǎn),可將保障需求分解為一系列待分配的保障任務(wù)。裝備保障單元是裝備保障體系中遂行保障任務(wù)的主體,可被抽象描述為具有不同屬性、狀態(tài)、行為的保障單元Agent(簡(jiǎn)稱“單元Agent”),典型單元Agent的結(jié)構(gòu)如圖2所示。其中:具有分散特征且相對(duì)獨(dú)立的單元Agent通過(guò)保障網(wǎng)絡(luò)集成為一個(gè)分布式的多Agent系統(tǒng),且單元Agent具有如下屬性:1)單元Agent能在一定環(huán)境下獨(dú)立自主地運(yùn)行,既作用于環(huán)境又受環(huán)境影響,且能通過(guò)從環(huán)境中獲取知識(shí)來(lái)提高自身的能力;2)單元Agent在保障任務(wù)分配時(shí)可根據(jù)自身的屬性、狀態(tài)及交互規(guī)則等進(jìn)行競(jìng)爭(zhēng)、談判及協(xié)商等;3)單元Agent執(zhí)行保障任務(wù)的效能通過(guò)作戰(zhàn)單元Agent完成作戰(zhàn)任務(wù)的結(jié)果來(lái)評(píng)判;4)單元Agent在多次交互與調(diào)整中完成保障任務(wù)分配,最終實(shí)現(xiàn)單元Agent與保障任務(wù)之間的最佳匹配。
1.2.1 保障單元
單元Agent具有單獨(dú)承擔(dān)某項(xiàng)或某幾項(xiàng)保障任務(wù)的能力,在保障任務(wù)分配時(shí)段內(nèi)單元Agent可描述為
W={{Wi},YW,{AWi}|i=1,2,…,NW},
(1)
式中:W為所有單元Agent構(gòu)成的多Agent系統(tǒng);Wi為第i個(gè)單元Agent,NW為保障單元數(shù);YW為保障單元間存在的指控、隸屬等約束關(guān)系構(gòu)成的集合;AWi為單元Wi的屬性構(gòu)成的集合。
?Wi∈W,其屬性主要有:?jiǎn)卧狝gent的位置DWi=(XWi,YWi),其中XWi和YWi分別為單元Agent的位置橫、縱坐標(biāo);單元Agent的移動(dòng)速度VWi;保障單元具備的初始保障能力向量CWi=(CWil)1×L,L為所有保障單元所具有的保障能力類型數(shù),其中CWil為保障單元Wi的第l(1≤l≤L)項(xiàng)保障能力,若CWil=0,則表示保障單元Wi不具備第l項(xiàng)保障能力。
1.2.2 保障任務(wù)
裝備作戰(zhàn)單元在執(zhí)行作戰(zhàn)任務(wù)過(guò)程中會(huì)產(chǎn)生多種不同的保障需求,從而形成不同的裝備保障任務(wù),為了便于分工協(xié)同,需要將其進(jìn)一步分解為可執(zhí)行的任務(wù)序列。具體描述如下:
T={{Tj},ET,ATj|j=1,2,…,NT},
(2)
(3)
假設(shè)在保障體系中至少有一個(gè)保障單元能夠完成保障任務(wù)Tj,則保障任務(wù)的能力需求向量CTj=(CTjl)1×L,其中CTjl為成功完成保障任務(wù)Tj所需的第l(1≤l≤L)項(xiàng)保障能力。
1.2.3 保障任務(wù)分配收益
(4)
1) 保障任務(wù)價(jià)值vj
裝備保障體系是為裝備體系執(zhí)行作戰(zhàn)任務(wù)提供支持的系統(tǒng),保障任務(wù)分配需要面向作戰(zhàn)任務(wù),以確保裝備體系獲得最大的任務(wù)成功性。因此,保障任務(wù)Tj的價(jià)值vj可通過(guò)裝備體系的任務(wù)成功率來(lái)間接度量。
設(shè)ESoS={Ub|b=1,2,…,N},為給定的裝備體系,其中Ub={ubf|f=1,2,…,Fb},為第b個(gè)裝備作戰(zhàn)單元,其由Fb個(gè)相互獨(dú)立的基本作戰(zhàn)單元ubf并聯(lián)而成,N為裝備作戰(zhàn)單元數(shù);Ybf為ubf的當(dāng)前狀態(tài)變量,Yb為Ub的當(dāng)前狀態(tài)變量,則
(5)
(6)
設(shè)pbf為狀態(tài)完好的ubf執(zhí)行作戰(zhàn)任務(wù)時(shí)產(chǎn)生裝備保障需求的概率,則下一個(gè)任務(wù)結(jié)束時(shí)ubf的任務(wù)成功率(即ubf在作戰(zhàn)任務(wù)結(jié)束時(shí)的完好概率)
Pr(Xbf=1)=(1-pbf)·Xbf,
(7)
(8)
式中:rubf為ubf的任務(wù)可靠度;θbf為作戰(zhàn)任務(wù)的環(huán)境因子??梢钥闯觯鹤鲬?zhàn)任務(wù)持續(xù)時(shí)間越長(zhǎng)、環(huán)境越惡劣,作戰(zhàn)單元產(chǎn)生保障需求的概率越大。
對(duì)于裝備作戰(zhàn)單元Ub,若有rb個(gè)基本作戰(zhàn)單元ubf成功完成任務(wù),則判定Ub成功完成了所擔(dān)負(fù)的作戰(zhàn)任務(wù),因此作戰(zhàn)單元Ub的任務(wù)成功率
(9)
對(duì)于裝備體系ESoS,若有r個(gè)裝備作戰(zhàn)單元Ub成功完成任務(wù),則判定裝備體系ESoS成功完成了所擔(dān)負(fù)的作戰(zhàn)任務(wù),則裝備體系ESoS的任務(wù)成功率
(10)
(11)
(12)
式中:
(13)
(14)
(15)
(16)
(17)
(18)
1.2.4 保障任務(wù)分配決策變量
定義xij為單元Wi和保障任務(wù)Tj之間的分配決策變量,且
1.2.5 保障任務(wù)關(guān)系
(19)
綜上所述,面向作戰(zhàn)任務(wù)并考慮保障任務(wù)邏輯約束關(guān)系的裝備保障體系任務(wù)分配問(wèn)題可描述為:在某一時(shí)段內(nèi),裝備保障體系有NW個(gè)保障單元,裝備保障需求轉(zhuǎn)化分解后形成NT個(gè)保障任務(wù),并被劃分為NR個(gè)獨(dú)立的任務(wù)子集,1個(gè)保障單元可執(zhí)行多個(gè)不同任務(wù)子集中的任務(wù),1個(gè)保障單元最多只能執(zhí)行同一任務(wù)子集中的1個(gè)任務(wù),保障任務(wù)分配的目標(biāo)是使分配方案的整體收益最大化。其數(shù)學(xué)模型為
(20)
(21)
拍賣算法的基本思想是拍賣品對(duì)應(yīng)任務(wù),任務(wù)的分配方和接收方分別根據(jù)自己的收益函數(shù)和出價(jià)策略對(duì)任務(wù)進(jìn)行拍賣和競(jìng)拍[9-11,14],在保障任務(wù)分配問(wèn)題中的應(yīng)用如下:保障任務(wù)都存在一個(gè)變動(dòng)的價(jià)格pj,獲得該任務(wù)的保障單元必須支付pj,每個(gè)單元Agent都希望分配到價(jià)值最大的任務(wù),當(dāng)所有單元Agent都分配到價(jià)值最大的保障任務(wù)時(shí),則稱整個(gè)任務(wù)分配方案收益與價(jià)格達(dá)到均衡,即
(22)
(23)
(24)
在裝備保障體系中,當(dāng)滿足式(24)時(shí),則認(rèn)為單元Wi是滿意的,當(dāng)所有保障單元都達(dá)到滿意時(shí),則認(rèn)為整個(gè)保障任務(wù)分配方案收益與價(jià)格達(dá)到均衡。為了避免多個(gè)保障單元競(jìng)爭(zhēng)價(jià)值相同的任務(wù),但出價(jià)不變而導(dǎo)致算法陷入死循環(huán)的情況,筆者給定增量ε>0來(lái)保證出價(jià)是遞增的,即確保每次出價(jià)后價(jià)格至少以ε增加。若分配給單元Wi的所有保障任務(wù)都滿足條件
(25)
則認(rèn)為單元Wi是滿意的。
(26)
(27)
在傳統(tǒng)拍賣算法中,默認(rèn)存在一個(gè)拍賣中心或共享存儲(chǔ)中心來(lái)負(fù)責(zé)收集價(jià)格信息,并向所有競(jìng)拍對(duì)象通告。但在分布式裝備保障體系中則不存在能夠感知全局的保障指控中心,單元Wi并不能直接獲取保障任務(wù)Tj的全局最高價(jià)格,只能通過(guò)與其相鄰的保障單元進(jìn)行信息交互來(lái)獲取。因此,筆者在傳統(tǒng)拍賣算法的基礎(chǔ)上,通過(guò)增加保障單元信息交互環(huán)節(jié),設(shè)計(jì)了不帶拍賣中心或共享存儲(chǔ)中心的分布式求解算法,具體改進(jìn)如下:
設(shè)裝備保障體系網(wǎng)絡(luò)是連通的,即在網(wǎng)絡(luò)中任意2個(gè)節(jié)點(diǎn)至少存在一條鏈路,任意2個(gè)保障單元在通信距離之內(nèi)就可直接進(jìn)行信息交互。因此,在每輪迭代開(kāi)始之前,單元Wi只通過(guò)與其相連的鄰接節(jié)點(diǎn)更新本地任務(wù)價(jià)格,即
(28)
設(shè)pij為裝備保障體系中單元Wi對(duì)保障任務(wù)Tj的出價(jià),分布式拍賣算法的具體實(shí)現(xiàn)步驟如下:
1) 初始化參數(shù)。設(shè)置τ=0,pj(τ)=0,j=1,2,…,NT。
2) 存儲(chǔ)價(jià)格更新。單元Wi通過(guò)網(wǎng)絡(luò)并依據(jù)式(28)更新本地任務(wù)價(jià)格。
4) 任務(wù)價(jià)格一致性檢驗(yàn)。令pj(τ+1)=max(pij(τ+1)),j=1,2,…,NT,并通過(guò)網(wǎng)絡(luò)傳遞價(jià)格信息pj(τ+1),同時(shí)標(biāo)記出價(jià)為pj(τ+1)的保障單元。若pj(τ+1)=pj(τ),則運(yùn)算終止;否則,令τ=τ+1,轉(zhuǎn)向步驟2)。
以某戰(zhàn)區(qū)陸軍裝備體系執(zhí)行地面防御作戰(zhàn)任務(wù)保障為例,構(gòu)建仿真實(shí)驗(yàn)并驗(yàn)證所提算法的合理性與有效性。
根據(jù)作戰(zhàn)部署,執(zhí)行地面防御作戰(zhàn)任務(wù)的裝備體系由3個(gè)作戰(zhàn)單元構(gòu)成,整體呈現(xiàn)環(huán)形防御態(tài)勢(shì),裝備保障體系中有4個(gè)保障單元,防御作戰(zhàn)整體部署情況如圖4所示。裝備體系遂行作戰(zhàn)任務(wù)時(shí)各作戰(zhàn)單元與作戰(zhàn)任務(wù)的基本參數(shù)如表1所示。裝備體系中各基本作戰(zhàn)單元在執(zhí)行作戰(zhàn)任務(wù)過(guò)程中會(huì)產(chǎn)生多種不同的保障需求,并形成多個(gè)不同的裝備保障任務(wù)。設(shè)裝備體系在作戰(zhàn)任務(wù)通知時(shí)刻的保障需求分解形成一個(gè)包含21個(gè)可執(zhí)行的保障任務(wù)集合,該集合中各保障任務(wù)的具體屬性如表2所示。
裝備保障任務(wù)集合T={Tj|j=1,2,…,21}中各保障任務(wù)之間的時(shí)序與邏輯關(guān)系如圖5所示。
筆者采用AnyLogic平臺(tái)進(jìn)行仿真實(shí)驗(yàn)與分析。在分布式拍賣算法中,ε(ε>0)為其關(guān)鍵參數(shù),直接影響算法的求解效率和解的性能。在其他參數(shù)設(shè)置不變的前提下,ε的取值對(duì)保障任務(wù)分配方案總體收益的影響如圖6所示。
表1 各作戰(zhàn)單元與作戰(zhàn)任務(wù)的基本參數(shù)
表2 保障任務(wù)屬性
裝備保障單元是遂行保障任務(wù)的主體,在作戰(zhàn)任務(wù)通知時(shí)刻裝備保障體系中各保障單元的屬性如表3所示。裝備保障單元執(zhí)行保障任務(wù)獲得收益的控制因子α=0.25,β=0.15,則單元Wi單獨(dú)完成保障任務(wù)Tj的保障時(shí)間矩陣TW為
表3 裝備保障單元屬性
由圖6可以看出:當(dāng)ε逐漸增大時(shí),裝備保障體系任務(wù)分配方案的總收益逐漸減??;當(dāng)ε增大到某一閾值后,分配方案的總收益趨于穩(wěn)定,但卻大幅度增加了仿真平臺(tái)的運(yùn)行時(shí)間,則此時(shí)的總收益為最優(yōu)任務(wù)分配方案的總收益。
ε的取值對(duì)分布式拍賣算法迭代次數(shù)的影響如圖7所示??梢钥闯觯寒?dāng)ε不斷增大時(shí),算法停止所需迭代次數(shù)(即保障單元投標(biāo)次數(shù))逐漸減少;當(dāng)ε>2.5時(shí),算法迭代次數(shù)基本保持在20次左右。
綜合分析圖6、7可知:參數(shù)ε的取值對(duì)算法的求解效率和解的性能影響較大,ε的取值范圍[0.1,4.5]為算法的敏感區(qū)。當(dāng)ε=0.1時(shí),總收益雖然接近最優(yōu)任務(wù)分配方案的總收益,但此時(shí)迭代次數(shù)接近110次,求解速度較慢;當(dāng)ε=3.5時(shí),算法迭代15次左右即可收斂,且解的誤差不超過(guò)3%。
綜合考慮分布式裝備保障體系任務(wù)分配中解的性能和求解效率,筆者以ε=2.0來(lái)確定保障任務(wù)分配方案,該方案中保障單元與保障任務(wù)之間的匹配關(guān)系如表4所示。裝備保障體系中的保障單元按照該方案執(zhí)行保障任務(wù)可獲得的總收益為7.316 9。
保障單元Wi保障任務(wù)TjW1T7?T13?T11?T12?T15?T10W2T1?T5?T8?T14?T19?T10W3T2?T20?T9?T3?T4?T21W4T16?T17?T9?T6?T18?T21
與傳統(tǒng)的集中式保障任務(wù)分配框架和模型相比,筆者搭建的分布式保障任務(wù)分配框架及構(gòu)建的分配模型在可擴(kuò)展性和魯棒性上都有較大程度的提升,為裝備保障體系運(yùn)行指揮方式由集中式向分布式轉(zhuǎn)變提供了一定的參考價(jià)值。下一步,將重點(diǎn)研究分布式裝備保障體系中保障單元的智能行為與決策、分布式保障指控網(wǎng)絡(luò)的分析與建模及保障信息交互中的網(wǎng)絡(luò)特性等。