李 珣,南愷愷,趙征凡,王曉華,景軍鋒
(1. 西安工程大學 電子信息學院,陜西 西安 710048; 2. 工業(yè)和信息化部 電子第五研究所,廣東 廣州 510610)
無人化、智能化的生產(chǎn)加工環(huán)境是近年紡織產(chǎn)業(yè)升級的主流方向,因此,將機器人設(shè)置在生產(chǎn)環(huán)節(jié)中替代一部分簡單的人力工作是紡織企業(yè)所采用的初步升級方式。對于紡織產(chǎn)品生產(chǎn)的基本單元車間而言,特別是紡織車間的棉卷搬運,以及某一特定棉卷裝卸需求,存在時間上的連續(xù)性和狀態(tài)上的離散性特征,所以需要多個移動機器人協(xié)作完成,但是,當大量的機器人出現(xiàn)在生產(chǎn)現(xiàn)場,各機器人之間的對抗關(guān)系會顯著增加,系統(tǒng)生產(chǎn)效率會大大減??;因此,將機器人個體間的信息與資源共享,對多機器人系統(tǒng)進行智能化改造,能夠互補機器人狀態(tài)未知造成的任務(wù)完成時間斷續(xù)、累積,提升系統(tǒng)的魯棒性和容錯能力。多機器人智能系統(tǒng)中,多任務(wù)的分配方案最優(yōu)化,是保障整體工作有序完成的基本條件,同時也是提高生產(chǎn)效率和降低機器人使用成本的前提。
當前多機器人任務(wù)分配的研究尚未有直接應(yīng)用在紡織制造領(lǐng)域的研究方案,但針對其他不同的應(yīng)用場景,國內(nèi)外學者提出了諸多卓有成效的任務(wù)分配實現(xiàn)方法[1-2]。從宏觀上主要可劃分為集中式和分布式2類。集中式的任務(wù)分配,如多維旅行商模型[3]、多維動態(tài)網(wǎng)絡(luò)流優(yōu)化模型[4],能夠得到在靜態(tài)環(huán)境中的任務(wù)分配最優(yōu)解。隨著計算機運行能力的提升和機器人個體智能化發(fā)展的需求,分布式的任務(wù)分配方法已成為主流的研究方向。其中,基于行為的分配方法,如Tang等[5]提出了一種基于啟發(fā)式搜索的多機器人系統(tǒng)任務(wù)分配算法,實現(xiàn)了異構(gòu)多機器人系統(tǒng)中的任務(wù)分配。雖然實時性和魯棒性較好,但是不能獲得全局最優(yōu)解。市場機制的任務(wù)分配方法[6-7]是基于市場經(jīng)濟的原則,在求解過程中充分考慮各個平臺間的信息交互和協(xié)商:如段俊花等[8]提出的基于視覺的閾值模型和基于通信的顯式協(xié)商協(xié)調(diào)機制相結(jié)合的多模態(tài)融合算法,解決了多機器人對未知區(qū)域有害廢棄物的清理問題;齊心躍等[9]提出的基于市場機制的多機器人救火任務(wù)分配策略,能較好地實現(xiàn)不同工況下動態(tài)分布式任務(wù)的分配。但該類方法工作時各系統(tǒng)獨立運行,應(yīng)變能力較差,通信成本高,當網(wǎng)絡(luò)通信較差時,系統(tǒng)性能將大大降低。
基于多智能體的任務(wù)分配算法[10]能夠較好解決未知環(huán)境中多機器人的自組織任務(wù)分配問題,且具有隨機性,任務(wù)探索范圍廣,對于動態(tài)的任務(wù)分配適應(yīng)性強。秦新立等[11]提出的改進蟻群算法,實現(xiàn)了發(fā)電廠清潔機器人對太陽能電池板清潔工作的任務(wù)分配;劉淑華等[12]針對大規(guī)模多機器人系統(tǒng)中任務(wù)的緊密耦合性,采用了層次結(jié)構(gòu),分別使用基于蟻群、粒子群蟻群和量子蟻群實現(xiàn)機器人集合,產(chǎn)生緊密耦合型任務(wù)解;Fang等[13]考慮到情感對行為和決策自主性和多樣化的影響,將情緒感染引入到機器人任務(wù)分配中,提出了一種基于情感傳染的尋蹤任務(wù)分配算法(PTA-EC),該算法描述了機器人之間情感的相互影響對任務(wù)分配的積極影響。但這些算法收斂速度較慢且易陷入局部極值。近年來,借鑒經(jīng)濟學中的博弈論[14],將其進行啟發(fā)式改進應(yīng)用于任務(wù)分配中,較好地解決了上述智能體在資源分配中存在的問題。
綜上,現(xiàn)有多機器人系統(tǒng)中任務(wù)分配研究,多以分布式方法解決非特定環(huán)境下的任務(wù)分配,基于啟發(fā)式的智能算法在面向特定環(huán)境下的任務(wù)分配的解決上已初現(xiàn)優(yōu)勢。本文通過調(diào)研相關(guān)紡織企業(yè),根據(jù)當前紡織廠所存在的提高車間物料調(diào)度效率、減少人工成本等問題,針對具體的棉卷搬運過程:多任務(wù)、多機器人、分配任務(wù)隨機等復(fù)雜動態(tài)任務(wù)分配問題,以及任務(wù)分配過程中的個體間的沖突、化解的最優(yōu)化問題,根據(jù)實際生產(chǎn)空間、時間、效率等限制,進行了針對多機器人多任務(wù)分配模型和優(yōu)化算法的研究。引入博弈論思想,并進行啟發(fā)式改進,提出基于智能體博弈理論分布式自主決策框架,在該決策框架下任務(wù)的分配能夠得到全局最優(yōu)解,具有較強的可擴展性、良好的魯棒性與收斂性能和合理的分配結(jié)果。
1.1.1 車間物理環(huán)境及機器人狀態(tài)
圖1 精梳車間工藝流程圖Fig.1 Process flow chart of combing workshop
由于傳統(tǒng)的人工上料存在這些較長的延誤時間,大大影響車間生產(chǎn)效率,因此,本文從消除以上時間延誤著手對精梳車間智能化改造,將實際車間生產(chǎn)環(huán)境構(gòu)造為多機器人隨機分布的精梳機車間示意圖,如圖2所示。每個機器人只有負載1個棉卷的能力,只要并條機某一工位有任務(wù)需求則機器人就能夠響應(yīng),使得各工位之間獨立運行,換料時間互不等待。針對工序特征,將每個工作點位獨立作為供料對象,存在條并卷機8臺,工作點位8個/臺,充電位1個,棉卷供給機1臺,替代人工的機器人若干。
圖2 紡織車間生產(chǎn)任務(wù)抽象簡化示意圖Fig.2 Abstract description and simplified schematic of textile workshop production task. (a)Combing workshop; (b) Machine distribution in combing workshop; (c) Simplified task abstraction diagram of workshop
1.1.2 智能體及任務(wù)抽象描述
由于多任務(wù)的完成需要智能體具有彼此合作、協(xié)調(diào)和談判的能力,移動機器人需要進行自身判斷和信息共享,所以將搬運機器人抽象成一個具有簡單邏輯判斷的智能體Agent。同時,由于從精梳機上下料的棉卷在厚度上存在一定的差異,并且任意2個并條機的不同工作點在工作完成時間上不同步,所以對于順序執(zhí)行和分配僅存在于車間內(nèi)機器首次開車工作時。本文研究內(nèi)容是針對正常生產(chǎn)需求時的多任務(wù)分配工作,任務(wù)與機器人狀態(tài)均為隨機,因此,紡織車間棉卷搬運任務(wù)分配問題是一個動態(tài)決策問題,從實現(xiàn)的角度來看,可以看作是3個基本對象:時間、任務(wù)環(huán)境狀態(tài)信息和智能體之間的交互,該問題符合在時間上迭代求解[15]。將具體的紡織生產(chǎn)過程中的任務(wù)環(huán)境進行抽象簡化,如圖2(c)所示。圖中:方框表示生產(chǎn)工位;T1~Tn代表存在n個任務(wù)需求(即任務(wù)分布情況);圓點表示具有簡單思維判斷的智能移動機器人。
綜上,以現(xiàn)實需求的場景為例:當某時刻、某工位處有任務(wù)執(zhí)行需求(裝載/卸載),則會向分布在工位周邊的多個智能體發(fā)出任務(wù)請求,智能體根據(jù)自身狀態(tài)進行應(yīng)答。為完備智能體工作環(huán)境,根據(jù)生產(chǎn)環(huán)境對任務(wù)分配研究背景進行以下假設(shè)。
1) 任務(wù)環(huán)境地圖已知,以某精梳車間為例,如圖2(b)所示,任務(wù)位置和智能體位置存在于已知的環(huán)境地圖中,即本文中智能體在獲得任務(wù)分配時不需要考慮創(chuàng)建環(huán)境地圖。
2) 智能體移動范圍有界,由于生產(chǎn)車間通信和場地范圍限制,智能體僅于有界范圍內(nèi)移動。
3) 智能體任務(wù)獲得過程不存在復(fù)雜障礙物的干擾,無人化生產(chǎn)環(huán)境,除生產(chǎn)設(shè)備和工作機器人自身的相互位置沖突外,無其他突發(fā)障礙物對智能體的任務(wù)獲得過程造成干擾。
4) 智能體的運動路徑不受約束,實際生產(chǎn)對象為非循跡機器人,智能體在任務(wù)分配過程中自主決策,路徑除受固定設(shè)備約束外不受隨機障礙約束。
5) 智能體與任務(wù)之間的強通信連接,智能體能夠?qū)崟r獲取與發(fā)送任務(wù)需求與自身狀態(tài)。
6) 智能體移動速度相同,考慮實際工作中所有的搬運機器人是同構(gòu)的,則要求智能體的運動速度恒定且相同,僅在啟停時存在加速度和減速度。
7) 智能體預(yù)知的信息:每個智能體實時獲取自身的狀態(tài)StateAj,通信獲知其余智能體狀態(tài),以及該智能體當前時刻可選擇的某個任務(wù)Ti。
1.2.1 靜態(tài)任務(wù)分配
靜態(tài)任務(wù)主要出現(xiàn)在系統(tǒng)第1次上線情況,即在任務(wù)分配初始時刻所有工位均處于未分配狀態(tài),智能體處于空閑狀態(tài);或是車間中某臺機器進行檢修,首次加入到車間生產(chǎn)系統(tǒng)中時,該并條機整機工位均處于未分配狀態(tài)。則任務(wù)分配決策過程中,每個智能體根據(jù)目標函數(shù)值,選擇最適合自己的任務(wù),如果有智能體選擇了相同的任務(wù),則它們之間呈現(xiàn)協(xié)作關(guān)系。任務(wù)執(zhí)行時,由于每個智能機器人被認為單獨完成任務(wù)的能力有限,因此,每個智能體在時刻t只能選擇1個任務(wù)T執(zhí)行,每個任務(wù)需要由多個智能體協(xié)作且智能體處于空閑狀態(tài)才能響應(yīng)任務(wù)的請求。
1.2.2 動態(tài)任務(wù)智能體響應(yīng)
在實際生產(chǎn)中存在動態(tài)情況發(fā)生時,定義動態(tài)情況為系統(tǒng)中某一時刻t有新任務(wù)的產(chǎn)生或任務(wù)丟失事件發(fā)生時,環(huán)境的動態(tài)變化會導致任務(wù)完成的代價發(fā)生變化,從而導致目標函數(shù)值的變化,故系統(tǒng)需要根據(jù)智能體的能力約束和目標值,盡量在不改變原期望結(jié)果的情況下快速尋找最優(yōu)調(diào)整策略。這就要求將1組任務(wù)分配給1組機器人的同時,要將能力約束與任務(wù)調(diào)度結(jié)合起來,在約束條件中建立和時間有關(guān)的目標函數(shù)找到1組任務(wù)的最優(yōu)分配給1個智能體子集,該子集將負責完成任務(wù)。
在對紡織生產(chǎn)過程中的機器人基本任務(wù)類型歸類的基礎(chǔ)上,針對車間任務(wù)類型簡單,任務(wù)數(shù)量較大的特點,依據(jù)多智能體和多任務(wù)間“多對多”的協(xié)作關(guān)系、擾動關(guān)系,首先需要分別對智能體和任務(wù)狀態(tài)建立數(shù)學模型;其次,對于任務(wù)和資源的時間上連續(xù),狀態(tài)離散特征,借助復(fù)雜博弈論對此類問題進行建模,已被證明較其他方法具有先進性[16]。因此,本文針對特定環(huán)境下的任務(wù)分配,根據(jù)任務(wù)和對象特點,對復(fù)雜博弈論根據(jù)文中優(yōu)化決策對象進行啟發(fā)式算法改進,建立多任務(wù)分配模型,解決紡織車間多智能體任務(wù)分配問題。
借助博弈理論中個體博弈以及Nash均衡的描述,同時結(jié)合1.2節(jié)中車間任務(wù)需求和智能體的任務(wù)狀態(tài),對任務(wù)與智能體進行模型建立。
2.2.1 物理集合
(1)
執(zhí)行任務(wù)Ti,智能體所需代價為Pi,代價矩陣為
Pn×m=(bi,j)
(2)
式中,bi,j表示任務(wù)Ti與智能體Aj之間的歐氏距離,距離越遠,代價越高。
物理集合中,本文根據(jù)任務(wù)等待時間確定了任務(wù)的優(yōu)先級,將任務(wù)優(yōu)先級轉(zhuǎn)化為任務(wù)收益;根據(jù)任務(wù)與智能體之間的物理距離確定了每個智能體對應(yīng)不同任務(wù)的代價矩陣。
2.2.2 工位任務(wù)狀態(tài)
2.2.3 智能體狀態(tài)
在t時刻智能體Aj的狀態(tài)用函數(shù)StateAj(t)=〈posj(t),ej(t),vj,q(t)〉描述。其中,posj(t)為智能體Aj在t時刻的位置信息;ej(t)為智能體Aj在t時刻相應(yīng)的能量存儲值;vj為智能體Aj的速度值;q(t)為t時刻的智能體Aj任務(wù)分配狀態(tài)矩陣。
(3)
qi,j(t)=1表示t時刻將目標任務(wù)Ti分配給智能體Aj;qi,j(t)=0表示未將任務(wù)Ti分配給Aj,即智能體Aj處于空閑狀態(tài)。智能體間信息交互能力用con表示,為n×n矩陣,其元素conij表示智能體之間的通信網(wǎng)絡(luò)連接強度,conij=k。k∈[0,1],其中1表示強連接,0表示無連接。同時,t時刻智能體Aj完成任務(wù)Ti的能力用式(4)表示:
capi,j(t)=ej(t)-FPi
(4)
式中:F是阻力常量;Pi是執(zhí)行任務(wù)Ti所需的距離代價。任務(wù)分配映射關(guān)系:T×A?{S1,S2,…,Si},Si是對任務(wù)Ti特定的任務(wù)集合。
2.2.4 目標函數(shù)
本文中對某一時刻進行多任務(wù)分配的目的,是計算該時刻多個任務(wù)機器人完成收益,并尋找到全局收益最大化的分配,根據(jù)式(1)和(2),要求該時刻機器人全局消耗最優(yōu),任務(wù)收益最大。即本文中智能體獲得任務(wù)后保留最大能量存儲和最大任務(wù)收益,因此認為系統(tǒng)目標函數(shù)是整個智能體個體能力與收益的總和。目標效用函數(shù)的定義如下:
(5)
(Ti,l)表示對完成任務(wù)Ti所形成的智能體集合。
上式滿足條件:
dij∈{0,1}, ?Ti∈T, ?Aj∈A
(6)
這里的dij是智能體的二進制決策變量,指是否將執(zhí)行任務(wù)Ti。
以往在完全連接的網(wǎng)絡(luò)中,在每次迭代中只選擇1個智能體(領(lǐng)導者)來做出決策,而本文中提出的分布式的決策算法,將紡織車間搬運機器人任務(wù)分配問題轉(zhuǎn)化為一個博弈事件,建立一個針對特定任務(wù)無需領(lǐng)導機制的智能體集合決策框架,當有任務(wù)需求時,其中每個智能體會根據(jù)自己的狀態(tài)StateAj(t)加入一個集合。
2) Nash穩(wěn)定性分區(qū)的建立:對智能體建立不相交分區(qū)∏={S1,S2,…,Si},如果對于任意一個智能體Aj∈A,存在maxA(T∏(j),|S∏(j)|)≥maxA(Ti,|Si∪{Aj}|),?Si∈∏。則稱這個分區(qū)∏是Nash穩(wěn)定的。即在Nash穩(wěn)定分區(qū)中,與其他任何集合相比,每個智能體都更傾向于其當前所在的集合。每個智能體在該分區(qū)內(nèi)無需任何形式的信息和通信技術(shù),任何智能體不得單方面偏離其目前的決定,系統(tǒng)保持一種穩(wěn)定狀態(tài)。
3) 決策結(jié)果:在智能體尋找強偏好任務(wù)的決策過程中Nash均衡理論決定任務(wù)的最終分配結(jié)果。Nash穩(wěn)定分區(qū)一旦建立,任意一個智能體都不可能在其他智能體任務(wù)完成策略不變時,單方面改變?nèi)蝿?wù)完成策略增加其整體收益,即對任務(wù)目標生成了一種最優(yōu)策略組合。
4) 對不確定性問題的適應(yīng):本文將紡織車間多機器人系統(tǒng)的不確定性主要歸結(jié)為機器的機械故障、搬運機器人的動作輸出故障、噪聲所造成的通信的不確定性和傳感器的不確定性。當前主要考慮車間環(huán)境下的多任務(wù)分配問題,在任務(wù)分配過程中智能體只對任務(wù)需求作響應(yīng),即任務(wù)層面的協(xié)調(diào),而不考慮多機器人運動控制層面的協(xié)同,所以搬運機器人動作輸出的不確定性和傳感器所造成的運動上的不確定性不在本文考慮范圍;機械故障所造成的工位停工,任務(wù)需求中止,屬于任務(wù)動態(tài)的發(fā)生;另外由于任務(wù)分配很難保證每個智能體之間能夠強通信連接,因此將噪聲所造成的通信的不確定性和傳感器信息感知的不確定性歸結(jié)為通信失效,而針對通信失效的問題,本文多智能體博弈的分布式智能算法中,以局部信息廣播的形式做個體信息的交互,對通信具備很好的自適應(yīng)能力,具體在模型中體現(xiàn)為每個智能體只需根據(jù)自己的目標效用函數(shù)maxA選擇加入一個任務(wù)分區(qū)∏,只需將自己的決策狀態(tài)dij廣播出去,而其他智能體只根據(jù)自身所獲得的局部信息State(t)做出決策,并同時影響其相鄰智能體。決策實現(xiàn)的算法流程如圖3所示。
圖3 算法流程圖Fig.3 Algorithm flow chart
1) 實驗環(huán)境描述。根據(jù)實際生產(chǎn)需求,本文實驗中的任務(wù)為緊耦合型任務(wù),即每個任務(wù)的完成需要多個智能體的合作,要求將m個智能體合理地分配給n個工位的任務(wù),任務(wù)的分配決策過程應(yīng)該由智能體以分布式、自組織的方式完成。
從分析結(jié)果可以看出,電機的溫度分布中,最高溫度產(chǎn)生在繞組部位為130℃。對于一般電機來說完全不是問題,也就是說該電機完全可以滿足長時工作的需求。
2) 數(shù)據(jù)初始化及實驗流程。本實驗在MatLab R2016a上實現(xiàn)。實驗結(jié)果如圖4所示,圖中X,Y為偽坐標,用于描述智能體位置之間的相互關(guān)系。
圖4 任務(wù)分配迭代完成過程Fig.4 Iterative completion process of task allocation. (a) Iteration 79th; (b) Iteration 139th; (c) Iteration 189th; (d) Iteration 331th; (e) Iteration 597th; (f) Iteration 682th; (g) Iteration 771th; (h) Iteration 804th
圖4示出用于任務(wù)(n=6)分配的多個智能體(m=60)的分布式?jīng)Q策過程,任務(wù)分布在1 000×1 000的范圍,智能體分布在800×800的范圍。圖中,圓表示智能體,正方形則表示任務(wù),圓之間的線代表智能體的通信網(wǎng)絡(luò)。為了直觀,本文任務(wù)分配結(jié)果根據(jù)顏色的區(qū)分將有色智能體被分配給相同顏色的任務(wù),例如黃色智能體(圖中黃點)屬于執(zhí)行黃色任務(wù)(黃色方框?qū)?yīng)任務(wù)t4)的集合。如圖4(a)中,初始時刻智能體針對任務(wù)需求決策處于隨機狀態(tài),隨著時間的推移,算法迭代,智能體之間以局部交互的方式做出對任務(wù)的臨時決策(迭代過程如圖4中(b)~(g)所示)。最終如圖4(h)所示,經(jīng)過804次算法迭代之后,各智能體集合形成Nash穩(wěn)定分區(qū),系統(tǒng)得到穩(wěn)定的決策結(jié)果。
3) 實驗結(jié)果及分析。為驗證本文算法針對不同任務(wù)的完成效率,首先進行了弱通信網(wǎng)絡(luò)強度下不同任務(wù)需求數(shù)量的任務(wù)分配結(jié)果比較,完成了智能體個數(shù)m=60,任務(wù)個數(shù)分別為n=5,6,7,8狀態(tài)下的任務(wù)分配。以算法迭代次數(shù)作為性能評價依據(jù),實驗結(jié)果如圖5所示。
圖5 相同數(shù)量智能體在不同任務(wù)數(shù)量下的完成結(jié)果Fig.5 Results of the same quantity of agents in different task quantities
在相同執(zhí)行智能體數(shù)量下,任務(wù)數(shù)n=5,6,7,8時任務(wù)分配完成算法迭代次數(shù)分別為722、748、767、758??梢钥闯觯谌跬ㄐ啪W(wǎng)絡(luò)強度狀態(tài)下任務(wù)的增加對本文任務(wù)分配決策的完成效率影響并不顯著。
本文任務(wù)分配算法在強通信網(wǎng)絡(luò)強度下,分別取任務(wù)數(shù)n=4,5,6,7,8的不同數(shù)量級智能體的任務(wù)分配完成性能實驗,結(jié)果如表1所示。
針對緊耦合型任務(wù)中智能體數(shù)量m略多于任務(wù)數(shù)量n時算法均能快速迭代完成分配。在表1結(jié)果中觀察每一行實驗數(shù)據(jù),不論智能體數(shù)量m的值取多少,任務(wù)數(shù)n=4,5,6,7,8算法迭代結(jié)果比較接近,不存在明顯異常情況,那么同樣可以得到如前述結(jié)果,即本文算法在同一數(shù)量級智能體情況下,每一行中任務(wù)的增加對決策的完成效率影響并不顯著。
從表1數(shù)據(jù)還可看出,隨著智能體數(shù)量的增加,算法中智能體需要更多的信息交互,因此算法迭代次數(shù)也會如表1結(jié)果所示隨之增加。當n=4,m=120時;n=5,m=130時;n=6,7,8,m=135時,在有限的空間內(nèi)智能體數(shù)量達到飽和,此時當智能體數(shù)量繼續(xù)增加,算法無法完成任務(wù)的分配。
表1 不同數(shù)量級m,n下算法迭代性能結(jié)果Tab.1 Iterative performance results of algorithms under different order of magnitude m and n
圖6 3種不同方法的任務(wù)分配收益情況Fig.6 Task allocation income of three different methods
從實驗結(jié)果可以看出,在任務(wù)完成的總收益值上本文特定模型下的多智能體博弈任務(wù)分配算法具有明顯優(yōu)勢,本文算法的任務(wù)總收益值明顯高于文獻[9]基于市場法的任務(wù)分配算法,略高于文獻[14]中救火任務(wù)模型中的空閑型實驗。這是由于市場法中參加招標的智能體并不能保證其他個體選擇與其相同的任務(wù)策略,個體之間存在競爭和干擾關(guān)系,因此需要更多的迭代次數(shù)算法才能達到收斂,系統(tǒng)獲得的收益值較少。而文獻[14]所提出的救火模型不僅計算其自身的最優(yōu)效用函數(shù),還計算其他可能參與合作滅火的機器人的效用函數(shù),雖然獲得的總收益高于市場法,與本文算法收益值接近,但是需要更多的計算,且算法在迭代65次之后才能達到穩(wěn)定狀態(tài);而本文算法能夠在保證獲得穩(wěn)定的高收益值的情況下,僅需要迭代45次即可得到穩(wěn)定的分配結(jié)果,因此,本文算法在緊耦合型任務(wù)分配中的系統(tǒng)收益和分配效率明顯優(yōu)于另外2種算法。
在實際生產(chǎn)加工環(huán)境中,存在大功率電動機等強電磁干擾,任務(wù)信號的丟失與干擾信號的出現(xiàn)也是本文算法需要考慮的問題,因此,對提出的決策框架進行了動態(tài)環(huán)境擾動實驗,如意外的任務(wù)添加或丟失。以m=15,n=10進行實驗。算法在第1階段迭代45次后完成分配決策獲得穩(wěn)定收益,本文設(shè)置了在a點處隨機丟失1個任務(wù),b點處增加該任務(wù),結(jié)果如圖7所示。
圖7 任務(wù)發(fā)生動態(tài)變化時系統(tǒng)收益Fig.7 System benefits in dynamic task change
本文算法在迭代105次時隨機丟失1個任務(wù),此時系統(tǒng)收益值明顯下降,但是依舊能夠達到穩(wěn)定狀態(tài),當穩(wěn)定狀態(tài)持續(xù)一段時間后又增加該任務(wù),算法仍能快速收斂獲得穩(wěn)定收益。這是因為智能體博弈過程中能夠根據(jù)自身收益決定對任務(wù)的偏好關(guān)系,快速組成新的任務(wù)集合收斂到Nash穩(wěn)定分區(qū),可以響應(yīng)于任何動態(tài)任務(wù)環(huán)境變化。
為驗證本文所述算法對通信網(wǎng)絡(luò)動態(tài)環(huán)境的魯棒性,以相同數(shù)量的智能體和任務(wù)對不同網(wǎng)絡(luò)通信情況下的任務(wù)分配效率進行比較,實驗結(jié)果如圖8所示。圖8(a)為強通信連接;圖8(b)為通信失效30%的弱通信連接。
圖8 不同通信網(wǎng)絡(luò)強度下的任務(wù)分配結(jié)果Fig.8 Task allocation results under different communication network strength. (a) Strong communication; (b) Weak communication
當智能體之間的通信網(wǎng)絡(luò)是強連接時,本文的分布式?jīng)Q策算法能夠快速完成129次迭代,達到良好的任務(wù)分配結(jié)果。以同一實驗對象,在智能體弱通信網(wǎng)絡(luò)情況下,通過193次算法迭代完成分配,雖然在弱通信網(wǎng)絡(luò)連接下算法迭代次數(shù)多于強通信網(wǎng)絡(luò)下,但同樣具有良好的任務(wù)分配結(jié)果表現(xiàn)。
為進一步探討本文算法的魯棒性,實驗對本文算法和常見的基于粒子群算法(PSO)及基于市場法的任務(wù)分配,在無通信失效的強網(wǎng)絡(luò)連接和通信失效30%的弱通信網(wǎng)絡(luò)進行任務(wù)數(shù)為6,不同數(shù)量級智能體任務(wù)完成時間比較,實驗結(jié)果如表2、3所示。
表2 強通信網(wǎng)絡(luò)連接實驗結(jié)果Tab.2 Experimental results of strong communication network connection
表3 通信失效30%的弱通信網(wǎng)絡(luò)連接實驗結(jié)果Tab.3 Test results of weak communication network connection with 30% communication failure
從表2、3結(jié)果可以看出,通信部分失效使得系統(tǒng)完成任務(wù)的時間均有所增加。在強通信網(wǎng)絡(luò)下,市場法優(yōu)于PSO算法,但收斂速度不及本文算法。在弱通信的情況下,本文算法能更快地收斂,找到最優(yōu)的任務(wù)分配方案,此時PSO算法的魯棒性較優(yōu)于市場法。這是由于基于市場機制的任務(wù)分配算法本身應(yīng)變能力較差,而且對通信成本要求很大,當網(wǎng)絡(luò)通信較差時,系統(tǒng)性能大大降低,任務(wù)分配完成時間受通信失效的影響較大;而PSO算法由于粒子之間不需要全連接,所以通信魯棒性較好。但粒子隨機運動中允許不可行解的存在,因此存在部分死鎖解的情況,而死鎖解的存在使得PSO解空間減小,因而全局尋優(yōu)能力受到影響,在強通信連接下收斂較慢。而本文博弈論中在Nash穩(wěn)定性區(qū)間建立過程中個體以自身收益值作為目標函數(shù)的關(guān)聯(lián)度,進行局部的廣播式的信息交互使得該決策框架對通信部分失效具有很好的魯棒性,同時在相同的任務(wù)環(huán)境下,博弈論任務(wù)完成時間明顯優(yōu)于PSO和市場法,因此,本文的多智能體博弈的任務(wù)分配算法更適合于紡織車間這種環(huán)境復(fù)雜、通信覆蓋不穩(wěn)定、對任務(wù)分配完成時間有嚴格限制的實際生產(chǎn)場合。
為驗證該任務(wù)分配決策框架的可擴展性和大規(guī)模任務(wù)分配的效率,分別取5~8個任務(wù),采用大規(guī)模智能體群體做實驗驗證,分別針對不同任務(wù)以165~210個智能體作為實驗對象,實驗結(jié)果如圖9所示。
圖9 不同情況下任務(wù)分配實驗Fig.9 Task allocation experiments under different conditions. (a) Allocation of efficiency in different situations; (b) Isometric map for allocation efficiency
對比發(fā)現(xiàn),任務(wù)分配的完成效率和智能體的數(shù)量相關(guān)性較強,隨著智能體數(shù)量的增加,任務(wù)完成的迭代次數(shù)呈現(xiàn)正相關(guān)性。而任務(wù)數(shù)量的增加對迭代次數(shù)的影響較為微弱,在圖9(b)等高線圖中呈現(xiàn)出清晰的分布和均勻的過渡,所以該任務(wù)分配決策框架不論在任務(wù)還是智能體上均表現(xiàn)出良好的擴展性能。
本文將多智能體博弈論的思想引入紡織服裝生產(chǎn)過程中搬運機器人的任務(wù)分配決策中,將移動機器人定義為能夠獨立思考的智能體,智能體間各自通過局部狀態(tài)信息的交互,追求利益的最大化,實現(xiàn)了隨機環(huán)境下多機器人系統(tǒng)的分布式自組織任務(wù)分配。文中深入探討了智能體集合建立過程中的關(guān)鍵問題和博弈論中Nash穩(wěn)定性分區(qū)建立的過程。最后對算法實現(xiàn)了仿真,仿真結(jié)果表明該決策框架具有良好的魯棒性、可擴展性和良好的動態(tài)任務(wù)分配結(jié)果表現(xiàn)。對特定問題的模型構(gòu)建和算法求解是解決精梳車間具體問題的關(guān)鍵,也是下一步在機器人本體應(yīng)用調(diào)試的重要基礎(chǔ)。在今后的研究中,將根據(jù)實際生產(chǎn)需求完善約束條件,進一步改進任務(wù)模型和決策框架,進行初步的多機器人多任務(wù)應(yīng)用研究,使之適用更多的實際任務(wù)分配需求。