摘 要隨著科技水平的不斷提升,智能化的機(jī)器人組群系統(tǒng)在工業(yè)生產(chǎn)、火災(zāi)救援等方面的運(yùn)用愈發(fā)廣泛,有力的推動(dòng)了傳統(tǒng)行業(yè)的發(fā)展。而由于機(jī)器人組群系統(tǒng)是由一定數(shù)量的機(jī)器人組成的,每個(gè)個(gè)體機(jī)器人都會(huì)分配到各自的任務(wù),通過合理的分工和調(diào)配來完成機(jī)器人組群系統(tǒng)整體任務(wù),因此,機(jī)器人組群系統(tǒng)的工作績(jī)效,就與個(gè)體機(jī)器人分配任務(wù)的水平有直接的關(guān)聯(lián)。本文通過闡述博弈論的基本內(nèi)涵,對(duì)機(jī)器人組群系統(tǒng)進(jìn)行了分析,并提出了機(jī)器人組群系統(tǒng)個(gè)體任務(wù)分配算法,為優(yōu)化機(jī)器人組群系統(tǒng)結(jié)構(gòu),合理分配個(gè)體機(jī)器人任務(wù)起到了借鑒和參考作用。
【關(guān)鍵詞】博弈論 組群系統(tǒng) 機(jī)器人
機(jī)器人組群系統(tǒng)主要是由多種一定數(shù)量的個(gè)體機(jī)器人組成的,通過合理的分工和調(diào)配,可以使機(jī)器人組群系統(tǒng)達(dá)到個(gè)體機(jī)器人所無法達(dá)成的工作目標(biāo)。而機(jī)器人組群系統(tǒng)所具有的優(yōu)越性,主要是通過合理的對(duì)個(gè)體任務(wù)分配達(dá)成的。由于機(jī)器人組群系統(tǒng)所處的環(huán)境會(huì)不斷的發(fā)生變化,這也就導(dǎo)致了個(gè)體機(jī)器人的決策方向會(huì)發(fā)生相應(yīng)的轉(zhuǎn)變,給任務(wù)的分配帶來維數(shù)災(zāi)難,這種高度的動(dòng)態(tài)性和復(fù)雜性,為任務(wù)分配帶來極大的難度的同時(shí),也會(huì)導(dǎo)致傳統(tǒng)的規(guī)劃方法無法繼續(xù)使用。因此,可以利用博弈論的基本原理,將每個(gè)個(gè)體機(jī)器人看做機(jī)器人組群系統(tǒng)的一部分,將其融入到環(huán)境之中,讓個(gè)體機(jī)器人能根據(jù)自身對(duì)周圍環(huán)境變化的理解,以及對(duì)其他機(jī)器人工作的預(yù)測(cè),在一定任務(wù)的集合之中挑選出最符合實(shí)際情況的任務(wù)執(zhí)行,從而有效的提升機(jī)器人組群系統(tǒng)個(gè)體任務(wù)分配的水平。
1 博弈論的基本內(nèi)涵
機(jī)器人群組主要是由多個(gè)結(jié)構(gòu)和功能簡(jiǎn)單的個(gè)體機(jī)器人組成的,通過個(gè)體機(jī)器人的合作,來完成預(yù)先設(shè)計(jì)好的任務(wù)。而由于每個(gè)機(jī)器人都屬于一個(gè)個(gè)體,如何將整體的任務(wù)進(jìn)行合理的分工與分配,讓每個(gè)機(jī)器人都能夠發(fā)揮出優(yōu)勢(shì),優(yōu)化機(jī)器人群組的組織結(jié)構(gòu),提高整體的運(yùn)行績(jī)效,也就成為了機(jī)器人群組研究的重點(diǎn)問題。而博弈論主要研究的就是智能設(shè)備或機(jī)器人之間相互合作和依存的關(guān)系,可以將機(jī)器人群組中每個(gè)個(gè)體的競(jìng)爭(zhēng)與沖突利用形式化的方式進(jìn)行表達(dá),并通過合理的分配使機(jī)器人群組效益最大化,或風(fēng)險(xiǎn)最小化。而由于機(jī)器人群組是一個(gè)整體的系統(tǒng),其中每一個(gè)個(gè)體機(jī)器人在進(jìn)行決策之前都需要從其他個(gè)體機(jī)器人的角度,對(duì)其他個(gè)體的行為進(jìn)行預(yù)測(cè),才能得出最合理的決策任務(wù),這也就是在機(jī)器人群組中,博弈論應(yīng)用的基本內(nèi)容。博弈論主要存在以下三種元素:
(1)個(gè)體機(jī)器人集合,可以將其表示為:
(2)假設(shè)每個(gè)個(gè)體機(jī)器人i都有一定數(shù)量的決策方向可供選擇,那么每個(gè)個(gè)體機(jī)器人所構(gòu)成的純策略空間可以表示為。其中,在純策略空間Ai上的一個(gè)概率分布,也就是個(gè)體機(jī)器人i的混合策略。Xim表示為選擇λim的概率,可得公式:
個(gè)體機(jī)器人i所能夠選擇的策略記為,是個(gè)體機(jī)器人i的一個(gè)可選任務(wù)計(jì)劃,也是在博弈的過程中,每個(gè)環(huán)節(jié)個(gè)體機(jī)器人i所分配到一個(gè)任務(wù)的概率函數(shù),因此,πi,個(gè)體機(jī)器人i所能選擇的所有策略集合為={πi1,πi2,……,π}。
(3)機(jī)器人群組中每個(gè)個(gè)體機(jī)器人都會(huì)有對(duì)應(yīng)的獎(jiǎng)賞函數(shù),記為ri(π),其中π={π1,π2,……,πN}表示了第N個(gè)個(gè)體機(jī)器人的決策局勢(shì)。個(gè)體決策的每一個(gè)決策都可以用公式=
在博弈論中,主要可以根據(jù)個(gè)體機(jī)器人對(duì)任所提出的協(xié)議進(jìn)行強(qiáng)制性分析,如果協(xié)議的強(qiáng)制性較高, 在個(gè)體機(jī)器人之間達(dá)成協(xié)議后就不能輕易的更改,而如果強(qiáng)制較低,也就進(jìn)入到了非合作博弈中來,每個(gè)個(gè)體機(jī)器人互相獨(dú)立,不形成機(jī)器人群組,也就不會(huì)形成相應(yīng)的協(xié)議。
2 機(jī)器人組群系統(tǒng)分析
機(jī)器人的群組系統(tǒng)具有以下幾種特點(diǎn):
(1)機(jī)器人組群系統(tǒng)是由多種個(gè)體機(jī)器人所組成的,這些機(jī)器既有可能是同構(gòu)機(jī)器人,還有可能是異構(gòu)機(jī)器人??梢杂眉媳硎緸锳=(a1,a2,……,aN)。
(2)機(jī)器人組群系統(tǒng)會(huì)呈現(xiàn)在一定的環(huán)境狀態(tài)之中,這種環(huán)境狀態(tài)會(huì)隨著時(shí)間的變化而變化。在某一時(shí)段t內(nèi),機(jī)器人組群系統(tǒng)的狀態(tài)可以表示為st'∈s'。
(3)機(jī)器人組群系統(tǒng)所處的環(huán)境狀態(tài)是可觀測(cè)的,個(gè)體機(jī)器人通過利用自身所攜帶的各種通信、感應(yīng)設(shè)備可以直觀的觀測(cè)到機(jī)器人組群系統(tǒng)所處的環(huán)境。利用公式表述為
。
(4)個(gè)體機(jī)器人可以通過進(jìn)行聯(lián)合任務(wù)的方式,改變機(jī)器人組群系統(tǒng)所處的環(huán)境狀態(tài)。假設(shè)機(jī)器人組群系統(tǒng)的任務(wù)合集為B,Bi也就是個(gè)體機(jī)器人i的任務(wù)合集,因此,
。個(gè)體機(jī)器人為了改變整個(gè)機(jī)器人組群系統(tǒng)的外部環(huán)境,會(huì)通過觀測(cè)來選擇一個(gè)恰當(dāng)?shù)娜蝿?wù)bi∈Bi,通過執(zhí)行該任務(wù)來達(dá)到影響外部環(huán)境的目的。而從宏觀的角度來看,機(jī)器人組群系統(tǒng)中的每個(gè)個(gè)體機(jī)器人可以通過聯(lián)合任務(wù)來改變自身所處的環(huán)境狀態(tài)。
(5)由于機(jī)器人組群系統(tǒng)是一種智能化的系統(tǒng),其中每一個(gè)個(gè)體機(jī)器人帶有一定的學(xué)識(shí),包括對(duì)于整個(gè)系統(tǒng)流程的掌握、周圍環(huán)境、其他個(gè)體機(jī)器人的工作和預(yù)測(cè)、對(duì)自身任務(wù)的和決策等,這也就體現(xiàn)出了個(gè)體機(jī)器人的任務(wù)和決策會(huì)隨著與外界環(huán)境的不斷流通而發(fā)生變化。
(6)個(gè)體機(jī)器人具有自我決策的功能,自我決策功能是個(gè)體機(jī)器人通過對(duì)外界環(huán)境、其他個(gè)體及機(jī)器人的任務(wù)及趨勢(shì)預(yù)測(cè)等,從而對(duì)自身任務(wù)進(jìn)行合理的決策和規(guī)劃,由于個(gè)體機(jī)器人具有決策功能,這也就使得機(jī)器人組群系統(tǒng)的工作績(jī)效水平會(huì)有極大的提高。
(7)個(gè)體機(jī)器人的決策并不是一成不變的,隨著機(jī)器人工作的不斷開展,會(huì)隨著外部環(huán)境的變化,或是所產(chǎn)生的獎(jiǎng)懲來判斷自己的決策是否合理,通過不斷的更新決策觀念,可以保證個(gè)體機(jī)器人的決策方向大體正確,并且具有較高的績(jī)效水平,這從本質(zhì)上而言也是一種反思和學(xué)習(xí)的過程。
(8)機(jī)器人組群系統(tǒng)中的目標(biāo)眾多,每個(gè)個(gè)體機(jī)器人在不同的工作階段,都會(huì)產(chǎn)生不同的工作目標(biāo),同時(shí),機(jī)器人組群系統(tǒng)整體又存在一個(gè)宏觀的工作目標(biāo)。機(jī)器人組群系統(tǒng)的工作目標(biāo)主要有以下幾種特點(diǎn):
首先,機(jī)器人組群系統(tǒng)的工作目標(biāo)具有一致性的特點(diǎn),無論每個(gè)個(gè)體機(jī)器人的工作目標(biāo)如何變動(dòng),其整體的工作目標(biāo)依然具有一致性的特點(diǎn)。一個(gè)個(gè)體機(jī)器人在完成目標(biāo)的同時(shí),還會(huì)刺激其他個(gè)體機(jī)器人的工作,使其目標(biāo)能夠更快的達(dá)成,雙方不具備沖突。
其次,雖然個(gè)體機(jī)器人在工作目標(biāo)上具有一致性,但在資源的分配上具有一定的沖突,每個(gè)個(gè)體機(jī)器人都需要利用資源才能完成工作,如果資源沒有得到合理的分配,就會(huì)導(dǎo)致個(gè)體機(jī)器人工作產(chǎn)生沖突,這也就需要在機(jī)器人組群系統(tǒng)的設(shè)計(jì)中,注重對(duì)資源的合理分配,從而減少個(gè)體機(jī)器人之間因?yàn)橘Y源分配而產(chǎn)生的沖突。
3 機(jī)器人組群系統(tǒng)個(gè)體任務(wù)分配算法
3.1 機(jī)器人組群系統(tǒng)個(gè)體任務(wù)的分配
隨著機(jī)器人組群系統(tǒng)工作和外部環(huán)境的不斷變化,其中的個(gè)體機(jī)器人之間的交流與互動(dòng)都會(huì)發(fā)生相應(yīng)的轉(zhuǎn)變。因此,在個(gè)體機(jī)器人的任務(wù)決策上,需要采用動(dòng)態(tài)決策的方法,通過合理的分析外部環(huán)境和其他個(gè)體機(jī)器人工作的預(yù)判,來選擇最合理的決策方向,從而達(dá)到工作效率和效果最大化的目的。在機(jī)器人組群系統(tǒng)個(gè)體任務(wù)分配算法中,通過與博弈論的內(nèi)容相結(jié)合,可以將每一個(gè)個(gè)體機(jī)器人都看做博弈體系內(nèi)的一部分,并與其他的個(gè)體機(jī)器人形成博弈局勢(shì),機(jī)器人組群系統(tǒng)中的個(gè)體任務(wù)分配,就是在博弈局勢(shì)中按照宏觀任務(wù)目標(biāo)進(jìn)行設(shè)計(jì)的任務(wù)決策思路,在機(jī)器人組群系統(tǒng)的個(gè)體任務(wù)分配上,可以用博弈公式來表示:
其中,N代表了整個(gè)機(jī)器人組群系統(tǒng)中個(gè)體機(jī)器人的總數(shù),Si代表了每個(gè)個(gè)體機(jī)器人i所有可能處于的狀態(tài)的合集,Bi代表了每個(gè)個(gè)體機(jī)器人i可能執(zhí)行或接受的任務(wù)的合集,Qi代表了每個(gè)個(gè)體機(jī)器人i在觀測(cè)期間內(nèi),執(zhí)行聯(lián)合任務(wù)的過程中所獲得的效用,也就是個(gè)體機(jī)器人i所獲得的獎(jiǎng)賞函數(shù)。Q則代表了整個(gè)機(jī)器人組群系統(tǒng)在進(jìn)行聯(lián)合任務(wù)的過程中所獲得的整體效用。
從本質(zhì)上而言,機(jī)器人組群系統(tǒng)的個(gè)體任務(wù)分配過程,也就是統(tǒng)籌考慮多方面因素,來尋求一個(gè)最合理的任務(wù)分配策略的過程。由于機(jī)器人組群系統(tǒng)的工作目標(biāo)具有一致性的特點(diǎn),并且個(gè)體機(jī)器人i執(zhí)行聯(lián)合任務(wù)的過程中所獲得的效用Qi與整個(gè)機(jī)器人組群系統(tǒng)在進(jìn)行聯(lián)合任務(wù)的過程中所獲得的整體效用Q是呈現(xiàn)出單調(diào)遞增態(tài)勢(shì)的,這樣一來一旦個(gè)體機(jī)器人i的效用Qi最大化,整個(gè)機(jī)器人組群系統(tǒng)的效用Q也能夠達(dá)到最大化,因此,要注重合理的分配,來使得個(gè)體機(jī)器人i的效用達(dá)到最大化,從而促使整個(gè)機(jī)器人組群系統(tǒng)的運(yùn)行績(jī)效得以最大化的提升。
如以機(jī)器人火災(zāi)救援為例,在火災(zāi)救援中,機(jī)器人組群系統(tǒng)為了最高效的完成火災(zāi)救援任務(wù),會(huì)主要從兩個(gè)方面著手:首先,機(jī)器人組群系統(tǒng)要嚴(yán)格的遵守火災(zāi)緊急程度,通過先救援火勢(shì)較大,并且隨著火勢(shì)的蔓延會(huì)有較大風(fēng)險(xiǎn)的地方,其次,要設(shè)置獎(jiǎng)勵(lì)值和懲罰值。由于每一處火災(zāi)的燃燒時(shí)間都有限,只有在燃燒結(jié)束之前對(duì)火災(zāi)進(jìn)行撲救,才能最大限度的挽回火災(zāi)損失,因此,對(duì)于火災(zāi)而言,要保證在燃燒時(shí)間內(nèi)盡快進(jìn)行撲救,如果在火災(zāi)燃燒結(jié)束之前還沒有將其撲滅,則需要為個(gè)體機(jī)器人給出懲罰值?;馂?zāi)救援任務(wù)一方面要注重對(duì)火災(zāi)的撲救工作,另一方面要有足夠高的效率,在最短時(shí)間內(nèi)進(jìn)行撲救,將二者整合考慮,賦予相應(yīng)的獎(jiǎng)勵(lì)值和懲罰值,火災(zāi)救援質(zhì)量就可以用獎(jiǎng)勵(lì)值減去懲罰值來直觀的標(biāo)識(shí),差值越高則證明火災(zāi)救援工作越成功。
而對(duì)于整體而言,由于火災(zāi)救援工作是一項(xiàng)系統(tǒng)性的工作,并非撲滅幾處火源就可以解決,而一些較大型的火源,個(gè)體機(jī)器人很難撲滅,因此,為了保證整個(gè)機(jī)器人組群系統(tǒng)的運(yùn)行績(jī)效最大化,經(jīng)常會(huì)出現(xiàn)一些個(gè)體機(jī)器人放棄正在撲救的緊急程度較低的火源,轉(zhuǎn)而去撲救大型火源的現(xiàn)象,這也就體現(xiàn)出了機(jī)器人組群系統(tǒng)的工作目標(biāo)具有一致性的特點(diǎn)。
3.2 博弈論視角下的機(jī)器人組群系統(tǒng)個(gè)體任務(wù)分配步驟
博弈論視角下的機(jī)器人組群系統(tǒng)個(gè)體任務(wù)分配步驟關(guān)鍵任務(wù)就是設(shè)置合理的函數(shù),使得整個(gè)機(jī)器人組群系統(tǒng)的函數(shù)與個(gè)體機(jī)器人的函數(shù)呈現(xiàn)出單調(diào)遞增的狀態(tài)。而想要設(shè)計(jì)這種單調(diào)遞增函數(shù),就要按照以下幾個(gè)步驟進(jìn)行,層層選擇最優(yōu)的設(shè)置策略,從而保證整個(gè)機(jī)器人組群系統(tǒng)的工作績(jī)效最大化。
(1)要對(duì)整個(gè)機(jī)器人組群系統(tǒng)的工作環(huán)境進(jìn)行檢測(cè)。工作環(huán)境對(duì)于機(jī)器人組群系統(tǒng)的工作狀態(tài)有直接的影響,需要從復(fù)雜的工作環(huán)境中提取出與個(gè)體機(jī)器人任務(wù)分配的參數(shù)相關(guān)的向量,并將向量加入到分配參數(shù)公式中來。
(2)要評(píng)價(jià)機(jī)器人組群系統(tǒng)及個(gè)體機(jī)器人在執(zhí)行任務(wù)時(shí)的效用值,并挑選出一個(gè)某時(shí)間段t上的一個(gè)任務(wù)bit作為參照時(shí)間點(diǎn)。
(3)要在這一時(shí)間點(diǎn)內(nèi),對(duì)機(jī)器人組群系統(tǒng)及個(gè)體機(jī)器人的狀態(tài)進(jìn)行觀測(cè),得到結(jié)論Si(t+1),并從中得到獎(jiǎng)賞函數(shù)。
(4)要在這一時(shí)間點(diǎn)內(nèi),對(duì)機(jī)器人組群系統(tǒng)及個(gè)體機(jī)器人的任務(wù)效用值進(jìn)行更新,提取出最新的數(shù)據(jù)。
(5)要對(duì)以上步驟進(jìn)行重復(fù),不斷的更新新數(shù)據(jù),直到整個(gè)工作流程結(jié)束。
4 結(jié)語
博弈論的理論思想在機(jī)器人群組系統(tǒng)中的應(yīng)用,主要體現(xiàn)在機(jī)器人群組系統(tǒng)的整體性上,其中每一個(gè)個(gè)體機(jī)器人都是機(jī)器人群組系統(tǒng)的重要組成部分,互相之間存在著直接的影響,據(jù)個(gè)體機(jī)器人對(duì)任所提出的協(xié)議進(jìn)行強(qiáng)制性分析,如果協(xié)議的強(qiáng)制性較高,在個(gè)體機(jī)器人之間達(dá)成協(xié)議后就不能輕易的更改,而如果強(qiáng)制較低,也就進(jìn)入到了非合作博弈中來,每個(gè)個(gè)體機(jī)器人互相獨(dú)立,不形成機(jī)器人群組,也就不會(huì)形成相應(yīng)的協(xié)議。同時(shí),通過制訂獎(jiǎng)勵(lì)值和懲罰值,讓每個(gè)個(gè)體機(jī)器人都能夠遵循獎(jiǎng)勵(lì)值最優(yōu)化的處理方法,可以有效的提升機(jī)器人組群系統(tǒng)的整體效用。機(jī)器人組群系統(tǒng)個(gè)體任務(wù)分配算法既要采取動(dòng)態(tài)決策的方法,針對(duì)機(jī)器人群組系統(tǒng)的外部環(huán)境變化,選擇合理的決策方向,要基于宏觀的任務(wù)目標(biāo),制定獎(jiǎng)勵(lì)值和懲罰值,保證個(gè)體機(jī)器人的任務(wù)分配能最大限度的提升獎(jiǎng)勵(lì)值與懲罰值的差值,從而提升機(jī)器人群組的整體工作效果。另外,在個(gè)體任務(wù)分配的函數(shù)設(shè)計(jì)上,要通過選取合適的時(shí)間點(diǎn),對(duì)整個(gè)工作流程的任務(wù)效用值數(shù)據(jù)不斷更新和提取,從而實(shí)現(xiàn)機(jī)器人群組系統(tǒng)的個(gè)體任務(wù)優(yōu)化分配。
參考文獻(xiàn)
[1]徐心和.從計(jì)算機(jī)博弈到機(jī)器人足球——人工智能長(zhǎng)期而持續(xù)的挑戰(zhàn)[J].機(jī)器人技術(shù)與應(yīng)用,2010(01):10-13.
[2]劉小梅,田彥濤,楊茂.基于博弈論的多機(jī)器人任務(wù)分配算法[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,28(03):256-263.
[3]柳長(zhǎng)安,王靜,劉春陽(yáng).基于合作4人博弈的足球機(jī)器人協(xié)作防守模型研究[J].系統(tǒng)仿真學(xué)報(bào),2009,21(01):132-134.
作者簡(jiǎn)介
王韓(2001-),男,高中生。主要研究方向?yàn)橛?jì)算機(jī)信息技術(shù)。
作者單位
衡水市第二中學(xué) 河北省衡水市 053000endprint