方志耕, 夏悅馨,*, 張靖如, 熊 儀, 陳靜邑
(1. 南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院, 江蘇 南京 211100;2. 南京航空航天大學(xué)灰色系統(tǒng)研究所, 江蘇 南京 211100)
圖示評(píng)審技術(shù)(graphic evaluation and review technique, GERT)[1]是由Elmaghraby和Pritsker提出的一種概率型隨機(jī)網(wǎng)絡(luò),近年來,GERT在項(xiàng)目進(jìn)度規(guī)劃[2]、災(zāi)害應(yīng)急預(yù)警[3]、供應(yīng)鏈優(yōu)化流程[4]、衛(wèi)星網(wǎng)絡(luò)[5]等領(lǐng)域得到廣泛的應(yīng)用。GERT網(wǎng)絡(luò)可以通過概率分支決定下一節(jié)點(diǎn)的狀態(tài),網(wǎng)絡(luò)節(jié)點(diǎn)具有決策功能,能夠很好地研究具有決策過程的現(xiàn)實(shí)問題。陳東平等[6]將GERT網(wǎng)絡(luò)應(yīng)用于工程計(jì)劃管理中,通過模擬解模型過程的分析從而尋找GERT網(wǎng)絡(luò)解,決策出關(guān)鍵線路。楊保華等[7]基于GERT網(wǎng)絡(luò)構(gòu)建突發(fā)事件情景推演耦合模型,為“情景-應(yīng)對(duì)”決策研究提供了新思路。郭本海等[8-10]通過對(duì)GERT網(wǎng)絡(luò)模型節(jié)點(diǎn)決策概率的研究,分析了產(chǎn)業(yè)價(jià)值流動(dòng)、資源優(yōu)化配置等問題。張海濤等[11]構(gòu)建了網(wǎng)絡(luò)信息價(jià)值流動(dòng)的GERT網(wǎng)絡(luò)模型,通過分析網(wǎng)絡(luò)模型的傳遞參數(shù)描述信息生態(tài)鏈中各信息主體之間的價(jià)值流動(dòng)過程。通過以上研究不難看出,GERT網(wǎng)絡(luò)在解決網(wǎng)絡(luò)流程分析、邏輯決策等方面發(fā)揮了重要的作用。但GERT網(wǎng)絡(luò)在應(yīng)用決策過程中通常都設(shè)定節(jié)點(diǎn)傳遞概率是靜態(tài)不變的,而在實(shí)際決策過程中,傳遞概率的大小很大程度上決定了鏈路的優(yōu)劣,在不確定環(huán)境以及不同系統(tǒng)目標(biāo)的影響下,網(wǎng)絡(luò)傳遞概率會(huì)發(fā)生動(dòng)態(tài)變化,決策結(jié)果也會(huì)相應(yīng)改變。
另一方面,隨著人工智能技術(shù)的不斷發(fā)展,基于智能體(Agent)的學(xué)習(xí)決策[12-14]已成為決策問題研究的熱點(diǎn)之一。關(guān)于Agent的定義,Wooldrige等[15]認(rèn)為Agent不僅具有自適應(yīng)性、社會(huì)性、反應(yīng)性和能動(dòng)性,還具備一些人類才有的信念、意圖等性質(zhì)?;贏gent的決策系統(tǒng)具有很好的學(xué)習(xí)能動(dòng)性和環(huán)境自適應(yīng)性,因此將Agent應(yīng)用于GERT網(wǎng)絡(luò)中研究決策問題可以形成良好的互補(bǔ)關(guān)系。研究Agent的GERT網(wǎng)絡(luò)決策問題主要包含兩個(gè)方面:一是決策節(jié)點(diǎn)能夠無(wú)阻礙有效識(shí)別路徑,即減少回路的概率流動(dòng),最大程度地規(guī)劃有效路徑;二是根據(jù)不同的目標(biāo)要求,實(shí)現(xiàn)最優(yōu)路徑的概率最大化。目前雖然已有蔣子涵等[16]將GERT網(wǎng)絡(luò)和Agent技術(shù)結(jié)合起來,但主要關(guān)注的是Agent學(xué)習(xí)算法的一致性分析,較少?gòu)腉ERT網(wǎng)絡(luò)模型的角度研究路徑概率學(xué)習(xí)決策問題。
以上兩個(gè)決策問題本質(zhì)上即是決策節(jié)點(diǎn)的反饋學(xué)習(xí)問題,在研究Agent的學(xué)習(xí)問題中,迭代學(xué)習(xí)的概念[17]自Uchiyama首次提出后便引起了廣泛關(guān)注,由于迭代學(xué)習(xí)具有能夠從以前迭代的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)的優(yōu)點(diǎn),可以有效地實(shí)現(xiàn)對(duì)Agent系統(tǒng)的精確跟蹤。在早期的迭代學(xué)習(xí)研究[18-19]中,學(xué)習(xí)算法通過增加固定的效益來進(jìn)行迭代,但削弱了不確定性所帶來的影響。之后,Chi等[20]和Lin等[21]引入了自適應(yīng)控制的思想,提出了一種自適應(yīng)迭代學(xué)習(xí)方法。Chen等[22-23]針對(duì)非線性系統(tǒng)提出了模糊自適應(yīng)迭代學(xué)習(xí)方法。但在自適應(yīng)迭代學(xué)習(xí)過程分析中仍需要一些先驗(yàn)?zāi)P托畔?如線性參數(shù)和系統(tǒng)狀態(tài)等。而隨著系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化,模型過強(qiáng)的非線性也導(dǎo)致學(xué)習(xí)分析十分困難。針對(duì)迭代學(xué)習(xí)存在的自適應(yīng)性以及非線性問題,約翰霍蘭教授提出的復(fù)雜適應(yīng)系統(tǒng)(complex adaptive system, CAS)[24]理論中最為核心的概念就是適應(yīng)性主體,簡(jiǎn)稱主體。主體與外部環(huán)境之間能動(dòng)的不斷學(xué)習(xí)的交互作用所體現(xiàn)的就是適應(yīng)性。刺激-反應(yīng)模型[25-27]作為CAS理論中的基本模型在自適應(yīng)學(xué)習(xí)以及決策領(lǐng)域得到了廣泛應(yīng)用,主體通過外界刺激反饋驅(qū)動(dòng)系統(tǒng)做出反應(yīng),僅利用輸入輸出實(shí)現(xiàn)對(duì)復(fù)雜系統(tǒng)的迭代學(xué)習(xí),對(duì)于研究非線性系統(tǒng)有較強(qiáng)的適應(yīng)性。
綜上所述,就GERT網(wǎng)絡(luò)決策以及Agent學(xué)習(xí)研究而言,存在的局限性主要有以下3個(gè)方面:① 多數(shù)GERT網(wǎng)絡(luò)研究主要針對(duì)活動(dòng)過程的描述分析,傳遞概率通常都是靜態(tài)不變的,未考慮網(wǎng)絡(luò)節(jié)點(diǎn)本身因環(huán)境影響所帶來的傳遞概率的變化,決策節(jié)點(diǎn)不具備學(xué)習(xí)能動(dòng)性。② 在Agent技術(shù)與GERT網(wǎng)絡(luò)結(jié)合的研究中,大多針對(duì)學(xué)習(xí)算法本身的分析研究,很少?gòu)木W(wǎng)絡(luò)決策節(jié)點(diǎn)的角度去探討概率的路徑優(yōu)化學(xué)習(xí)。③ 在Agent迭代學(xué)習(xí)方面,系統(tǒng)的環(huán)境自適應(yīng)性與模型過強(qiáng)的非線性問題導(dǎo)致迭代學(xué)習(xí)十分困難。
因此,本文針對(duì)以上局限性,首先將Agent技術(shù)與GERT網(wǎng)絡(luò)節(jié)點(diǎn)結(jié)合起來,形成智能決策節(jié)點(diǎn);然后在A-GERT網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合刺激-反應(yīng)模型,通過網(wǎng)絡(luò)節(jié)點(diǎn)的傳遞效用值進(jìn)一步拓展刺激-反應(yīng)模型,建立迭代學(xué)習(xí)反饋機(jī)制,并運(yùn)用動(dòng)態(tài)規(guī)劃原理依次對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行概率學(xué)習(xí);最后給出了基于Agent的A-GERT網(wǎng)絡(luò)“刺激-反應(yīng)”模型的設(shè)計(jì)步驟,并以創(chuàng)新技術(shù)開發(fā)活動(dòng)資源配置決策問題為例,驗(yàn)證本模型的有效性和合理性。
系統(tǒng)是由相互關(guān)聯(lián)的要素構(gòu)成的整體。而體系則是由系統(tǒng)所構(gòu)成的一個(gè)協(xié)同(聯(lián)盟)整體,因?yàn)轶w系中的系統(tǒng)可能具有較強(qiáng)的獨(dú)立性,甚至有時(shí),某(幾個(gè))系統(tǒng)可以部分(完全)地代表它的總體。因此,體系與系統(tǒng)的一個(gè)重要區(qū)別在于,體系一般都具有一定的可靠性結(jié)構(gòu)和量值韌性,而系統(tǒng)一般卻很難具有這樣的性質(zhì)。
定義 1體系過程Ψ(t):若某體系是一種由若干系統(tǒng)Si(i=1,2,…,n)組成,且協(xié)同完成某種(些)任務(wù)的隨機(jī)(網(wǎng)絡(luò))過程,則稱其為體系任務(wù)網(wǎng)絡(luò)隨機(jī)過程,簡(jiǎn)稱隨機(jī)過程,用Ψ(t)表示。
定義 2自學(xué)習(xí)體系過程ΨAgent(t):在Ψ(t)過程中,若把某個(gè)(些)系統(tǒng)(組織)看作Agent,具有向過程或歷史學(xué)習(xí)的機(jī)制和能力,則稱該體系為具有Agent自學(xué)習(xí)機(jī)制的過程,其本質(zhì)是一種由若干智能代理人Agent構(gòu)成的協(xié)作過程,用ΨAgent(t)表示。
定義 3體系自學(xué)習(xí)網(wǎng)絡(luò)ΨAgent(N(t),S(t)):若將ΨAgent(t)過程用廣義活動(dòng)網(wǎng)絡(luò)(generalized active network, GAN)[28]的邏輯機(jī)制進(jìn)行表征,則稱所得到的網(wǎng)絡(luò)為具有Agent自學(xué)習(xí)機(jī)制的體系過程網(wǎng)絡(luò),用ΨAgent(N(t),S(t))表示,其中:N(t)和S(t)分別表示某系統(tǒng)具有自學(xué)習(xí)機(jī)制的網(wǎng)絡(luò)節(jié)點(diǎn)和邊。
根據(jù)隨機(jī)網(wǎng)絡(luò)原理,對(duì)于任一客觀體系過程,可以看作是基于任務(wù)目標(biāo)的各系統(tǒng)之間相互協(xié)作過程,一般情況下,這種任務(wù)的協(xié)作過程可以運(yùn)用GAN進(jìn)行表征,邏輯節(jié)點(diǎn)構(gòu)成見圖1。這里值得注意的是,N(t)和S(t)分別表示各系統(tǒng)(組織)經(jīng)過學(xué)習(xí),其狀態(tài)和過程可能都會(huì)逐步改善或得到完善,其(t)表示是一個(gè)時(shí)間的映射。為了便于區(qū)別,在其邏輯節(jié)點(diǎn)上加注點(diǎn)(見圖1、圖2)。
圖1 GAN網(wǎng)絡(luò)節(jié)點(diǎn)類型Fig.1 Type of GAN network node
圖2 ΨAgent(N(t),S(t))網(wǎng)絡(luò)的要素Fig.2 Elements of ΨAgent(N(t),S(t)) networks
定義 4ΨAgent(N(t),S(t))網(wǎng)絡(luò):在ΨAgent(N(t),S(t))網(wǎng)絡(luò)中,若依據(jù)邏輯轉(zhuǎn)換規(guī)則,將其所有節(jié)點(diǎn)都轉(zhuǎn)換成異或型,則稱該網(wǎng)絡(luò)為具有自學(xué)習(xí)機(jī)制的A-GERT,為簡(jiǎn)便,該網(wǎng)絡(luò)用ΨA-GERT(N(t),S(t))表示。
例 1某體系中,節(jié)點(diǎn)i保持其在原狀態(tài)的概率為pii,到后續(xù)節(jié)點(diǎn)jk(k=1,2,…,K)的概率分別為pij1,pij2,…,pijK,試畫出該節(jié)點(diǎn)與其后續(xù)節(jié)點(diǎn)的ΨA-GERT(N(t),S(t))圖。
利用上述各定義中的A-GERT網(wǎng)絡(luò)邏輯畫出其ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)圖,如圖3所示。
圖3 某體系節(jié)點(diǎn)i到j(luò)k(k=1,2,…,K)的ΨA-GERT(N(t),S(t)) 網(wǎng)絡(luò)示意圖Fig.3 Schematic diagram of the ΨA-GERT(N(t),S(t)) network of system nodes i to jk(k=1,2,…,K)
A-GERT網(wǎng)絡(luò)與常規(guī)的GERT網(wǎng)絡(luò)的區(qū)別主要體現(xiàn)在決策節(jié)點(diǎn)的學(xué)習(xí)能動(dòng)性,節(jié)點(diǎn)在外界環(huán)境刺激下可以動(dòng)態(tài)地調(diào)整傳遞概率,從而改善體系活動(dòng)過程。
定義 5[28]ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)的解析算法:假設(shè)隨機(jī)變量tijK為活動(dòng)ijK的完成時(shí)間,要知道活動(dòng)ijK的執(zhí)行情況,就要知道活動(dòng)ijK被執(zhí)行的概率以及tijK的概率分布或概率密度函數(shù)。
令f(tijK)為活動(dòng)ijK的條件概率密度函數(shù),P(tijK)為活動(dòng)ijK的條件概率分布函數(shù),則隨機(jī)變量的矩母函數(shù)為
(1)
定義WijK(s)為活動(dòng)ijK的傳遞函數(shù),則WijK(s)=pjk·Mijk(s)。如圖4所示,ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)主要包含串聯(lián)結(jié)構(gòu)、并聯(lián)結(jié)構(gòu)以及自環(huán)結(jié)構(gòu)。
圖4 ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)串聯(lián)、并聯(lián)、自環(huán)結(jié)構(gòu)圖Fig.4 ΨA-GERT(N(t),S(t)) network in series, parallel and self-loop structure diagram
(1) 對(duì)于串聯(lián)結(jié)構(gòu),節(jié)點(diǎn)i與k之間等效傳遞函數(shù)為
Wik=Wij+Wjk=Mij(s)pij+Mjk(s)pjk
(2)
(2) 對(duì)于并聯(lián)結(jié)構(gòu),節(jié)點(diǎn)i與j之間等效傳遞函數(shù)為
(3)
(3) 對(duì)于自環(huán)結(jié)構(gòu),節(jié)點(diǎn)i與j之間等效傳遞函數(shù)為
(4)
定理 1設(shè)WEijk(s)(k=1,2,…,K)為節(jié)點(diǎn)i到節(jié)點(diǎn)jk的直達(dá)路徑的等價(jià)傳遞函數(shù),節(jié)點(diǎn)i到節(jié)點(diǎn)jk的等價(jià)傳遞概率pEijk等于s=0時(shí)的WEijk(s)的值。節(jié)點(diǎn)i到節(jié)點(diǎn)jk的傳遞隨機(jī)變量tijk的期望時(shí)間TEijk等于矩母函數(shù)MEijk(s)的一階導(dǎo)數(shù)在s=0時(shí)的值。
證明兩節(jié)點(diǎn)的等價(jià)傳遞函數(shù)WEijk(s)=MEijk(s)·pEijk,由ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)矩母函數(shù)的特性可知,在s=0時(shí),
(5)
因此,等價(jià)傳遞概率pEijk等于s=0時(shí)的WEijk(s)的值。
根據(jù)矩母函數(shù)的基本性質(zhì),即矩母函數(shù)的一階導(dǎo)數(shù)在s=0處的數(shù)值,就是網(wǎng)絡(luò)傳遞的隨機(jī)變量的一階原點(diǎn)矩,因此有
(6)
證畢
如今隨著系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)的日益復(fù)雜化,體系過程學(xué)習(xí)模型的建立和分析也更加困難,系統(tǒng)的自適應(yīng)學(xué)習(xí)已成為研究的重點(diǎn)之一。而CAS理論中最為核心的概念就是適應(yīng)性主體,簡(jiǎn)稱主體。刺激-反應(yīng)模型[25-27]是CAS理論中的基本模型,模型主體僅利用輸入輸出實(shí)現(xiàn)對(duì)復(fù)雜系統(tǒng)的迭代學(xué)習(xí),具有較強(qiáng)的適應(yīng)性。因此,本文通過對(duì)刺激-反應(yīng)模型的分析研究,并結(jié)合A-GERT網(wǎng)絡(luò)進(jìn)一步拓展刺激-反應(yīng)模型。
定義 6刺激-反應(yīng)模型[25]:刺激-反應(yīng)模型主要由一個(gè)主體(探測(cè)器)、If/Then規(guī)則集合和一個(gè)主體行為(效應(yīng)器)組成,系統(tǒng)所處環(huán)境刺激主體,主體從刺激信號(hào)中抽取信息,信息通過規(guī)則集反復(fù)處理,尋找最優(yōu)匹配,根據(jù)If/Then規(guī)則集合判斷,傳達(dá)到效應(yīng)器,由效應(yīng)器做出反應(yīng),即主體行為,見圖5。
圖5 刺激-反應(yīng)模型Fig.5 Stimulus-response model
定義 7網(wǎng)絡(luò)節(jié)點(diǎn)i的傳遞效用函數(shù):在ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)中,決策節(jié)點(diǎn)集合N(t)中某節(jié)點(diǎn)i在決策行動(dòng)后,從節(jié)點(diǎn)i到j(luò)k的活動(dòng)均經(jīng)歷相應(yīng)參數(shù),即某條道路(i,jk)選擇所導(dǎo)致成功或者失敗的節(jié)點(diǎn)jk效用值Vjk、路徑(i,jk)實(shí)現(xiàn)期望概率pEijk、路徑(i,jk)所消耗的期望時(shí)間TEijk,該節(jié)點(diǎn)i行動(dòng)的傳遞效用值函數(shù)Fi可以定義為
(7)
其中,終節(jié)點(diǎn)效用值指標(biāo)Vjk可直接給出,例如活動(dòng)經(jīng)濟(jì)效益、活動(dòng)效能等。由式(7)可知,節(jié)點(diǎn)i行動(dòng)的傳遞效用值函數(shù)Fi與TEijk成反比,與pEijk和Vjk成正比。此外,需注意的是在計(jì)算Fi時(shí),節(jié)點(diǎn)jk不包含回路節(jié)點(diǎn),因?yàn)榛芈饭?jié)點(diǎn)jk的效用值Vjk可認(rèn)為是0。
定義 8ΨAF-GERT(N(t),S(t))智能反饋網(wǎng)絡(luò):在ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)中,各決策節(jié)點(diǎn)i均能對(duì)其決策后果的效用值函數(shù)Fi值進(jìn)行觀察、評(píng)價(jià),并能利用這一結(jié)果效用值Fi來改善其下一步的決策,則稱該網(wǎng)絡(luò)為具有反饋機(jī)制的智能網(wǎng)絡(luò),記為ΨAF-GERT(N(t),S(t))。
例2試畫出某體系節(jié)點(diǎn)i到j(luò)k的ΨA-GERT(N(t),S(t))的智能反饋網(wǎng)絡(luò)ΨAF-GERT(N(t),S(t))圖。
依據(jù)定義7和定義8,設(shè)計(jì)節(jié)點(diǎn)的反饋節(jié)點(diǎn)與反饋回路(圖中虛線),如圖6所示。節(jié)點(diǎn)i到達(dá)節(jié)點(diǎn)jk(k=1,2,…,K)時(shí),均會(huì)獲得不同程度的效果值Vjk。再通過Agent反饋的Fi值來判斷下一步路徑(i,jk)的概率值。
圖6 某體系節(jié)點(diǎn)i到j(luò)k的ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.6 Schematic diagram of ΨAF-GERT(N(t),S(t)) network structure from system node i to jk
(8)
(9)
證畢
(10)
故,式(10)得證。
證畢
(11)
(12)
式中:ξai和ξbi分別為“正”“負(fù)”政策激勵(lì)強(qiáng)度系數(shù)調(diào)節(jié)參數(shù)。
證畢
推論 2節(jié)點(diǎn)i中ξai和ξbi的取值:對(duì)于節(jié)點(diǎn)i,ξai和ξbi取值范圍滿足0≤ξbi<ξai≤1且0≤ξaiξbi≤1/4。
2014年8月20日,郭恒信又一次來到阿里甫·司馬義家中,將2000元的學(xué)費(fèi)遞到兒子買買江·阿里甫手中,又一次圓了孩子上學(xué)的夢(mèng)想。
證畢
通過對(duì)“刺激-反應(yīng)”模型反饋機(jī)制的分析,進(jìn)一步將AF-GERT網(wǎng)絡(luò)逐個(gè)分解,建立動(dòng)態(tài)的迭代秩序,實(shí)現(xiàn)決策節(jié)點(diǎn)路徑概率學(xué)習(xí)的最優(yōu)化。
定理 5“刺激-反應(yīng)”智能學(xué)習(xí)決策動(dòng)態(tài)迭代秩序:在ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)中,進(jìn)行“刺激-反應(yīng)”智能學(xué)習(xí)決策動(dòng)態(tài)迭代時(shí),保證全網(wǎng)絡(luò)最優(yōu)的秩序是,與網(wǎng)絡(luò)概率傳遞方向相反,由終節(jié)點(diǎn)N向始節(jié)點(diǎn)1進(jìn)行迭代,其秩序?yàn)?/p>
N→(N-1)→…→i→(i-1)→…→2→1
(13)
由于ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)是一種有向動(dòng)態(tài)網(wǎng)絡(luò),在該網(wǎng)絡(luò)中通過“刺激-反應(yīng)”的智能學(xué)習(xí)方式進(jìn)行最優(yōu)路徑發(fā)現(xiàn)決策的本質(zhì)是一個(gè)多階段動(dòng)態(tài)規(guī)劃問題。運(yùn)用動(dòng)態(tài)規(guī)劃的Bellman原理,可構(gòu)造出該問題的動(dòng)態(tài)迭代秩序(見式13)。
步驟 1建立Agent反饋網(wǎng)絡(luò)ΨAF-GERT(N(t),S(t))。
依據(jù)定義8,把定義4的ΨA-GERT(N(t),S(t))轉(zhuǎn)換成具有效用反饋結(jié)構(gòu)的ΨAF-GERT(N(t),S(t))體系,如圖6所示。由于體系網(wǎng)絡(luò)往往由很多節(jié)點(diǎn)和邊構(gòu)成,按照從終節(jié)點(diǎn)N向始節(jié)點(diǎn)1依次進(jìn)行迭代的規(guī)則,將原始的A-GERT網(wǎng)絡(luò)分解為多個(gè)單一AF-GERT結(jié)構(gòu),以便后續(xù)概率迭代計(jì)算。
步驟 2建立網(wǎng)絡(luò)體系ΨAF-GERT(N(t),S(t))的初始假設(shè)與迭代規(guī)則。
初始條件與假設(shè):根據(jù)已知條件,對(duì)網(wǎng)絡(luò)需要迭代的節(jié)點(diǎn)和邊進(jìn)行賦值,主要包括節(jié)點(diǎn)活動(dòng)間的傳遞概率與傳遞時(shí)間,以及終節(jié)點(diǎn)N效用價(jià)值的分析設(shè)定(例如體系要求評(píng)定的經(jīng)濟(jì)效益、效能、利潤(rùn)等指標(biāo))。
迭代秩序設(shè)計(jì):在智能反饋網(wǎng)絡(luò)體系中,運(yùn)用推論1進(jìn)行動(dòng)態(tài)迭代秩序設(shè)計(jì),迭代秩序見圖7。
圖7 迭代程序圖Fig.7 Iterative program diagram
步驟 3第i(i∈N(t))個(gè)節(jié)點(diǎn)的n+1步迭代。
在對(duì)第i個(gè)節(jié)點(diǎn)進(jìn)行路徑概率迭代時(shí),當(dāng)?shù)窂街挥袃蓷l時(shí),可任選一條進(jìn)行概率迭代;當(dāng)?shù)窂酱笥趦蓷l時(shí),則任選兩條路徑進(jìn)行概率學(xué)習(xí),且此時(shí)其他路徑概率保持原始值不變,直至達(dá)到節(jié)點(diǎn)路徑均衡解時(shí),即停止迭代。
(14)
當(dāng)體系網(wǎng)絡(luò)概率學(xué)習(xí)同時(shí)考慮效用值及網(wǎng)絡(luò)傳遞時(shí)間時(shí),節(jié)點(diǎn)i第n步和第n-1步的傳遞效用值為
(15)
根據(jù)式(6)可得:當(dāng)ijk為最優(yōu)路徑時(shí),
(16)
當(dāng)ijk為非最優(yōu)路徑時(shí),
(17)
步驟 4第i(i∈N(t))個(gè)節(jié)點(diǎn)的智能自學(xué)習(xí)概率配置迭代解。
步驟 5ΨAF-GERT(N(t),S(t))的路徑智能自學(xué)習(xí)選擇最滿意解決方案。
根據(jù)圖7的“刺激-反應(yīng)”學(xué)習(xí)動(dòng)態(tài)迭代程序,在ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)體系中,按步驟3和步驟4進(jìn)行各智能決策節(jié)點(diǎn)的逐個(gè)迭代,最終會(huì)得到該網(wǎng)絡(luò)路徑學(xué)習(xí)的最滿意解決方案。
證畢
在創(chuàng)新開發(fā)資源有限的情況下,根據(jù)不同目標(biāo)動(dòng)態(tài)選擇最優(yōu)的技術(shù)開發(fā)路徑、明確資源流動(dòng)方向是典型的體系活動(dòng)決策問題。根據(jù)文獻(xiàn)[11]以及傳統(tǒng)的創(chuàng)新技術(shù)開發(fā)項(xiàng)目情況,依據(jù)定義4,構(gòu)成的技術(shù)開發(fā)A-GERT體系網(wǎng)絡(luò)如圖8所示,各節(jié)點(diǎn)之間信息流動(dòng)的傳遞函數(shù)用Wij表示。節(jié)點(diǎn)1表示創(chuàng)新技術(shù)生成與評(píng)價(jià)、節(jié)點(diǎn)2表示市場(chǎng)調(diào)研與需求預(yù)測(cè)、節(jié)點(diǎn)3表示項(xiàng)目方案總體設(shè)計(jì)、節(jié)點(diǎn)4、5分別表示2種新技術(shù)A、B的研究,節(jié)點(diǎn)6、7分別表示對(duì)新技術(shù)A、B進(jìn)行試驗(yàn),節(jié)點(diǎn)8表示技術(shù)開發(fā)試驗(yàn)成功,節(jié)點(diǎn)9表示技術(shù)開發(fā)試驗(yàn)失敗。
圖8 技術(shù)開發(fā)體系ΨA-GERT(N(t),S(t))網(wǎng)絡(luò)Fig.8 ΨA-GERT(N(t),S(t)) network of technology development system
步驟 1依據(jù)定義8,根據(jù)圖8構(gòu)建的技術(shù)開發(fā)體系過程智能反饋AF-GERT網(wǎng)絡(luò),如圖9所示。
圖9 技術(shù)開發(fā)體系ΨAF-GERT(N(t),S(t))網(wǎng)絡(luò)Fig.9 ΨAF-GERT(N(t),S(t)) network of technology development system
步驟 2網(wǎng)絡(luò)體系的初始假設(shè)。
各節(jié)點(diǎn)間的初始概率與時(shí)間如表1所示。已知到達(dá)節(jié)點(diǎn)8與到達(dá)節(jié)點(diǎn)9分別可獲得的經(jīng)濟(jì)效益為V8=200,V9=-100。每個(gè)決策節(jié)點(diǎn)均實(shí)施管控措施,各節(jié)點(diǎn)管控措施的正、負(fù)刺激因子分別為εa6=0.2,εb6=0.04;εa4=0.3,εb4=0.01;εa7=0.2,εb7=0.01;εa3=0.3,εb3=0.03;εa2=0.3,εb2=0.05。此外,設(shè)定網(wǎng)絡(luò)學(xué)習(xí)的初始概率增值Δp1為0.01。
表1 活動(dòng)初始傳遞概率與傳遞時(shí)間
步驟 3根據(jù)圖9所示的AF-GERT網(wǎng)絡(luò)依次對(duì)節(jié)點(diǎn)進(jìn)行迭代學(xué)習(xí)。
步驟 3.1針對(duì)節(jié)點(diǎn)6與節(jié)點(diǎn)8、9間鏈路概率進(jìn)行自學(xué)習(xí)。
根據(jù)定義5,節(jié)點(diǎn)6到節(jié)點(diǎn)8、9之間的等效傳遞函數(shù)WE68、WE69為WE68=W68=p68e8s和WE69=W69=p69e8s。
由式(5)、式(6)可得相應(yīng)的等效傳遞概率與期望時(shí)間為pE68=p68,TE68=8和pE69=p69,TE69=8。
已知V8=200,V9=-100,當(dāng)企業(yè)只考慮經(jīng)濟(jì)效益影響時(shí),由式(14)可得網(wǎng)絡(luò)傳遞效用值為F6=pE68×V8+pE69·V9=200p68-100p69。
當(dāng)企業(yè)不僅考慮經(jīng)濟(jì)效益,還考慮傳遞時(shí)間影響時(shí),由式(15)可得網(wǎng)絡(luò)傳遞效用值為
根據(jù)式(16)、式(17)依次進(jìn)行概率迭代學(xué)習(xí),對(duì)節(jié)點(diǎn)6而言,可任選路徑概率p68和p69進(jìn)行迭代,當(dāng)?shù)窂礁怕蕄68時(shí),p69=1-p68;當(dāng)?shù)窂礁怕蕿閜69時(shí),p68=1-p69。迭代學(xué)習(xí)的結(jié)果如圖10所示,從中不難發(fā)現(xiàn),無(wú)論迭代p68還是p69,最終的概率均衡值都相同。
圖10 節(jié)點(diǎn)6迭代概率圖Fig.10 Iteration probability diagram of node 6
由此可得節(jié)點(diǎn)6最終的路徑學(xué)習(xí)概率為p68=0.833 3,p69=0.166 7,節(jié)點(diǎn)概率達(dá)到均衡狀態(tài)時(shí),此時(shí)網(wǎng)絡(luò)傳遞效用值即為節(jié)點(diǎn)6最終的效用值。因此,當(dāng)企業(yè)只追求經(jīng)濟(jì)效益時(shí),節(jié)點(diǎn)6最終的效用值為
V6=200×0.833 3-100×0.166 7=149.99
當(dāng)企業(yè)不僅考慮經(jīng)濟(jì)效益,還考慮傳遞時(shí)間影響時(shí),網(wǎng)絡(luò)傳遞效用值為
步驟 3.2針對(duì)節(jié)點(diǎn)4與節(jié)點(diǎn)6間鏈路概率進(jìn)行自學(xué)習(xí) 。
根據(jù)定義5,節(jié)點(diǎn)4到節(jié)點(diǎn)6之間的等效傳遞函數(shù)WE46為WE46=W46/(1-W44)=p46e6s/(1-p44e8s)
由式(5)、式(6)可得相應(yīng)的等效傳遞概率與期望時(shí)間為
當(dāng)企業(yè)只考慮經(jīng)濟(jì)效益影響時(shí),此時(shí)由于pE46=1,該情況由p46代替pE46進(jìn)行迭代計(jì)算。節(jié)點(diǎn)4的傳遞效用值為F4=p46·V6=149.99p46。
當(dāng)企業(yè)不僅考慮經(jīng)濟(jì)效益,還考慮傳遞時(shí)間影響時(shí),由式(15)可得節(jié)點(diǎn)4的傳遞效用值為
同樣根據(jù)式(16)、式(17)依次進(jìn)行迭代學(xué)習(xí),迭代學(xué)習(xí)的結(jié)果如圖11所示。
圖11 節(jié)點(diǎn)4迭代概率值Fig.11 Iteration probability diagram of node 4
節(jié)點(diǎn)4最終的路徑學(xué)習(xí)概率為p46=0.967 7,p44=0.032 3,當(dāng)企業(yè)只追求經(jīng)濟(jì)效益時(shí),節(jié)點(diǎn)4最終的效用值V4=149.99×0.967 7=95.802 3;當(dāng)企業(yè)不僅考慮經(jīng)濟(jì)效益,還考慮傳遞時(shí)間影響時(shí),節(jié)點(diǎn)4最終的效用值為
步驟 3.3針對(duì)節(jié)點(diǎn)7與節(jié)點(diǎn)8、9間鏈路概率進(jìn)行自學(xué)習(xí)。
根據(jù)定義5,節(jié)點(diǎn)7到節(jié)點(diǎn)8、9之間的等效傳遞函數(shù)WE78、WE79為
由式(5)、式(6)可得相應(yīng)的等效傳遞概率與期望時(shí)間為
當(dāng)企業(yè)只追求經(jīng)濟(jì)效益時(shí),由式(14)可得節(jié)點(diǎn)7的傳遞效用值為F7=200p78/(1-p75)-100p79/(1-p75);當(dāng)企業(yè)不僅考慮經(jīng)濟(jì)效益,還考慮傳遞時(shí)間影響時(shí),由式(15)可得節(jié)點(diǎn)7的傳遞效用值為F7=200pE78/TE78-100pE79/TE79=(200p78-100p79)/(10+10p75)。
根據(jù)式(16)、式(17)依次進(jìn)行迭代學(xué)習(xí),對(duì)節(jié)點(diǎn)7而言,可任選兩個(gè)路徑概率p75、p78和p79進(jìn)行迭代,例如首先固定p78=0.6保持不變,當(dāng)?shù)窂礁怕蕿閜75時(shí),p79=1-0.6-p75,然后繼續(xù)固定某路徑概率保持不變(例如p79),迭代路徑概率為p78時(shí),p75=1-p79-p78,重復(fù)上述操作,直到路徑概率達(dá)到均衡值。迭代學(xué)習(xí)的結(jié)果如圖12所示。
圖12 節(jié)點(diǎn)7迭代概率值Fig.12 Iteration probability diagram of node 7
當(dāng)企業(yè)只考慮經(jīng)濟(jì)效益影響時(shí),節(jié)點(diǎn)7最終的效用值
此時(shí)V5=V7p57=190.690 8。
當(dāng)企業(yè)不僅考慮經(jīng)濟(jì)效益,還考慮傳遞時(shí)間影響時(shí),節(jié)點(diǎn)7最終的效用值為
此時(shí)V5=18.455 3/10=1.845 53。
步驟 3.4針對(duì)節(jié)點(diǎn)3與節(jié)點(diǎn)4、5間鏈路概率進(jìn)行自學(xué)習(xí)。
根據(jù)定義5,節(jié)點(diǎn)3到節(jié)點(diǎn)4、5之間的等效傳遞函數(shù)WE34、WE35為WE34=W34=p34T34,WE35=W35=p35T35。
由式(5)、式(6)可得相應(yīng)的等效傳遞概率與期望時(shí)間為pE34=p34,pE35=p35和TE34=4,TE35=6。
當(dāng)企業(yè)只追求經(jīng)濟(jì)效益時(shí),由式(14)可得節(jié)點(diǎn)3的效用值為
F3=p34V4+p35V5=95.802 3p34+190.690 8p35
當(dāng)企業(yè)不僅考慮經(jīng)濟(jì)效益,還考慮傳遞時(shí)間影響時(shí),由式(15)可得節(jié)點(diǎn)3的效用值為
根據(jù)式(16)、式(17)依次進(jìn)行迭代學(xué)習(xí),對(duì)節(jié)點(diǎn)3而言,可任選路徑概率p34和p35進(jìn)行迭代,迭代學(xué)習(xí)的結(jié)果如圖13所示。
圖13 節(jié)點(diǎn)3迭代概率值Fig.13 Iteration probability diagram of node 3
由此可得當(dāng)企業(yè)只追求經(jīng)濟(jì)效益時(shí),節(jié)點(diǎn)3最終的效用值
V3=95.802 3×0.090 9+190.690 8×0.909 1=182.065 4
當(dāng)企業(yè)不僅考慮經(jīng)濟(jì)效益,還考慮傳遞時(shí)間影響時(shí),節(jié)點(diǎn)3最終的效用值為
步驟 3.5針對(duì)節(jié)點(diǎn)2與節(jié)點(diǎn)3間鏈路概率進(jìn)行自學(xué)習(xí)。
根據(jù)定義5,節(jié)點(diǎn)2到節(jié)點(diǎn)3之間的等效傳遞函數(shù)為WE23=W23/(1-W12W21)=p23e2s/(1-p21e5s)。
由式(5)、式(6)相應(yīng)的等效傳遞概率與期望時(shí)間為pE23=p23/(1-p21),TE23=(1/pE23)·(?WE23/?s|s=0)=(2+3p21)/p23;當(dāng)企業(yè)只追求經(jīng)濟(jì)效益時(shí),由式(14)可得節(jié)點(diǎn)2的傳遞效用值為F2=182.065 4p23。
當(dāng)企業(yè)不僅考慮經(jīng)濟(jì)效益,還考慮傳遞時(shí)間影響時(shí),由式(15)可得節(jié)點(diǎn)2的傳遞效用值為F2=pE23V3/TE23=0.707 9p23/(2+3p21)。
根據(jù)式(16)、式(17)依次進(jìn)行迭代學(xué)習(xí),對(duì)節(jié)點(diǎn)2而言,可任選路徑概率p23和p21進(jìn)行迭代,迭代學(xué)習(xí)的結(jié)果如圖14所示。
圖14 節(jié)點(diǎn)2迭代概率值Fig.14 Iteration probability diagram of node 2
步驟 4各節(jié)點(diǎn)路徑概率配置均衡解。
節(jié)點(diǎn)6、4、7最優(yōu)的路徑學(xué)習(xí)概率為p68=0.833 3,p46=0.967 7,p78=0.952 4;節(jié)點(diǎn)3最優(yōu)的路徑學(xué)習(xí)概率有兩種情況,當(dāng)只考慮經(jīng)濟(jì)效益時(shí),p35=0.909 1,當(dāng)考慮經(jīng)濟(jì)效益和時(shí)間時(shí),p34=0.909 1;節(jié)點(diǎn)2最優(yōu)的路徑學(xué)習(xí)概率為p23=0.857 1。
步驟 5技術(shù)開發(fā)體系網(wǎng)絡(luò)最優(yōu)路徑方案決策。
綜上,當(dāng)傳遞效用值只考慮經(jīng)濟(jì)效益驅(qū)動(dòng)影響時(shí),網(wǎng)絡(luò)決策的最優(yōu)路徑為1-2-3-5-7-8;當(dāng)考慮經(jīng)濟(jì)效益和完成時(shí)間影響時(shí),網(wǎng)絡(luò)決策的最優(yōu)路徑為1-2-3-4-6-8;并且智能節(jié)點(diǎn)經(jīng)過學(xué)習(xí),回路路徑的傳遞概率大大減少,資源配置效率也相應(yīng)提高。當(dāng)系統(tǒng)主體只追求經(jīng)濟(jì)效益時(shí),創(chuàng)新開發(fā)資源將逐漸流向技術(shù)B的開發(fā),而當(dāng)系統(tǒng)主體既考慮經(jīng)濟(jì)效益,又考慮完工時(shí)間時(shí),創(chuàng)新開發(fā)資源將逐漸流向技術(shù)A的開發(fā)。
文中涉及的參數(shù)主要包括初始概率增值Δp1以及刺激因子ξa、ξb,其中參數(shù)Δp1是啟動(dòng)迭代方程的引子,并不影響節(jié)點(diǎn)最終的概率均衡值。以節(jié)點(diǎn)6為例,對(duì)Δp1進(jìn)行敏感度分析以說明其影響。
由圖15可知,對(duì)于不同的初始概率增值Δp1=0.001,0.01,0.1,0.2,0.3,0.4,最終的概率均衡值不變,迭代步數(shù)也僅差1~2步。因此,Δp1的取值并不影響迭代過程。理論上,Δp1≤1-p0,但實(shí)際應(yīng)用過程中,Δp1值不宜過大,否則不符合現(xiàn)實(shí)初始概率增加的情況,建議取值范圍為0<Δp1≤0.1。
圖15 節(jié)點(diǎn)6不同Δp1的敏感性分析Fig.15 Sensitivity analysis of different Δp1 for node 6
由推論2可知,正、負(fù)刺激因子的取值范圍為0≤ξbi<ξai≤1且0≤ξaiξbi≤1/4。由定理4可知,均衡解為ξai/ξai+ξbi=ξai/ξbi/(1+ξai/ξbi),因此為了研究刺激因子的具體影響,針對(duì)不同的ξai/ξbi值,對(duì)節(jié)點(diǎn)刺激因子進(jìn)行靈敏度分析,如圖16~圖18所示。
圖16 節(jié)點(diǎn)6不同ξa和ξb的敏感性分析Fig.16 Sensitivity analysis of different ξa and ξb for node 6
圖17 節(jié)點(diǎn)4和7不同ξa和ξb的敏感性分析Fig.17 Sensitivity analysis of different ξa and ξb for nodes 4 and 7
圖18 節(jié)點(diǎn)2和3不同ξa和ξb的敏感性分析Fig.18 Sensitivity analysis of different ξaand ξb for nodes 2 and 3
由圖16~圖18所示,對(duì)于相同的ξb,ξai/ξbi的值越大,最優(yōu)路徑最終迭代的概率均衡值越大。這說明正刺激相對(duì)于負(fù)刺激的效應(yīng)越大,最終的迭代效果也就越好。此外,對(duì)于相同的ξai/ξbi值,ξb越大,迭代曲線的波動(dòng)會(huì)更大,這可能是因?yàn)樨?fù)刺激因子的作用在破壞概率改進(jìn)的過程。因此在實(shí)際應(yīng)用過程中,應(yīng)努力促進(jìn)正刺激因子的改善,避免負(fù)刺激的產(chǎn)生。
本節(jié)通過3種方式(不學(xué)習(xí)、固定激勵(lì)系數(shù)學(xué)習(xí)、變激勵(lì)系數(shù)學(xué)習(xí))進(jìn)行效果分析,其中固定激勵(lì)系數(shù)學(xué)習(xí)指的是學(xué)習(xí)迭代方程中不考慮效用值的驅(qū)動(dòng)影響,但學(xué)習(xí)迭代方程中仍保留方向函數(shù)的存在,方向函數(shù)保證了迭代方向的正確,如若不考慮方向函數(shù),則在迭代錯(cuò)誤路徑概率時(shí),該路徑概率也會(huì)一直增加。由于迭代過程中涉及迭代步數(shù)以及迭代概率兩個(gè)關(guān)鍵值,因此分別從達(dá)到均衡概率值的迭代步數(shù)以及迭代步數(shù)相同時(shí)迭代路徑的概率兩個(gè)角度進(jìn)行對(duì)比分析。其中a表示固定激勵(lì)系數(shù)學(xué)習(xí)(考慮經(jīng)濟(jì)效益);b表示固定激勵(lì)系數(shù)學(xué)習(xí)(考慮經(jīng)濟(jì)效益和時(shí)間);c表示變激勵(lì)系數(shù)學(xué)習(xí)(考慮經(jīng)濟(jì)效益);d表示變激勵(lì)系數(shù)學(xué)習(xí)(考慮經(jīng)濟(jì)效益和時(shí)間)。
(1) 迭代步數(shù)對(duì)比分析
如表2以及圖19所示,傳遞效用值無(wú)論是否考慮活動(dòng)時(shí)間,變激勵(lì)系數(shù)學(xué)習(xí)都比固定激勵(lì)學(xué)習(xí)的迭代步數(shù)要少,說明考慮目標(biāo)效益驅(qū)動(dòng)影響可以加快學(xué)習(xí)迭代的速度。
表2 達(dá)到均衡解時(shí)的迭代步數(shù)對(duì)比
圖19 迭代步數(shù)對(duì)比圖Fig.19 Comparison diagram of iteration steps
(2) 迭代概率對(duì)比分析
為便于節(jié)點(diǎn)迭代路徑概率的比較,不同學(xué)習(xí)方式取相同的迭代步數(shù)。例如,在變激勵(lì)學(xué)習(xí)中節(jié)點(diǎn)6到節(jié)點(diǎn)8、9之間的路徑概率迭代到第23步時(shí),p68=0.833 3,p69=0.166 7,因此在固定激勵(lì)系數(shù)學(xué)習(xí)中,取第23步時(shí)的路徑迭代概率進(jìn)行比較。不同學(xué)習(xí)方式的最優(yōu)路徑概率以及創(chuàng)新技術(shù)開發(fā)項(xiàng)目成功的期望概率、期望時(shí)間對(duì)比如表3所示。
表3 不同學(xué)習(xí)方式迭代概率對(duì)比
根據(jù)表3可以看出,一方面,與不學(xué)習(xí)相比,經(jīng)過學(xué)習(xí)后的最優(yōu)路徑概率均有不同程度的增加,成功的期望概率是不學(xué)習(xí)的1.3到1.47倍,完工時(shí)間也縮短了26.99%到42.66%。另一方面,當(dāng)系統(tǒng)目標(biāo)只考慮經(jīng)濟(jì)效益影響時(shí),變激勵(lì)系數(shù)學(xué)習(xí)比固定激勵(lì)系數(shù)學(xué)習(xí)效果略有提高,成功的期望概率是固定激勵(lì)系數(shù)學(xué)習(xí)的1.003 5倍;當(dāng)系統(tǒng)目標(biāo)考慮經(jīng)濟(jì)效益與完工時(shí)間影響時(shí),變激勵(lì)系數(shù)學(xué)習(xí)成功的期望概率是固定激勵(lì)系數(shù)學(xué)習(xí)的1.001倍,完工時(shí)間縮短了0.02%。因此,變激勵(lì)系數(shù)學(xué)習(xí)方式無(wú)論是在迭代步數(shù)還是迭代概率方面均有不同程度的改進(jìn)。
(3) 與其他方法對(duì)比分析
文獻(xiàn)[11]給出了GERT網(wǎng)絡(luò)多目標(biāo)決策的資源優(yōu)化求解方法,與本文相比,文獻(xiàn)[11]雖然改善了網(wǎng)絡(luò)節(jié)點(diǎn)傳遞概率,指明了資源流動(dòng)方向,但網(wǎng)絡(luò)不具備學(xué)習(xí)能動(dòng)性。經(jīng)過案例數(shù)據(jù)計(jì)算,路徑概率對(duì)比如表4所示,利用本文方法,最終的期望概率可提高10.89%,期望時(shí)間縮短26%。
表4 與其他方法迭代概率對(duì)比
綜上所述,通過自身學(xué)習(xí)方式以及其他方法的對(duì)比分析,驗(yàn)證了基于A-GERT網(wǎng)絡(luò)“刺激-反應(yīng)”學(xué)習(xí)模型的合理性和有效性。
本文主要研究基于GERT網(wǎng)絡(luò)的體系過程決策問題,例如在工程計(jì)劃管理、產(chǎn)業(yè)價(jià)值流動(dòng)以及作戰(zhàn)編配體系等需要在不同階段做出最優(yōu)決策的體系活動(dòng)中,GERT網(wǎng)絡(luò)雖然可以很好地描述活動(dòng)過程,但網(wǎng)絡(luò)節(jié)點(diǎn)的決策模式較為靜態(tài)單一,無(wú)法體現(xiàn)活動(dòng)過程中決策的能動(dòng)性。因此,首先以GERT網(wǎng)絡(luò)為基礎(chǔ)架構(gòu),構(gòu)建Agent系過程A-GERT網(wǎng)絡(luò),結(jié)合改進(jìn)的刺激-反應(yīng)模型研究體系網(wǎng)絡(luò)活動(dòng)的概率學(xué)習(xí)機(jī)制。刺激-反應(yīng)模型可通過輸出反饋進(jìn)行主動(dòng)學(xué)習(xí),具有良好的自適應(yīng)性。此外,從目標(biāo)效益驅(qū)動(dòng)的角度出發(fā),通過計(jì)算網(wǎng)絡(luò)傳遞效用值改進(jìn)刺激-反應(yīng)學(xué)習(xí)迭代方程,構(gòu)建A-GERT網(wǎng)絡(luò)“刺激-反應(yīng)”模型的學(xué)習(xí)決策機(jī)制。最后,以技術(shù)開發(fā)方案決策問題進(jìn)行分析研究,結(jié)果表明,在管控措施激勵(lì)以及不同的目標(biāo)效益驅(qū)動(dòng)下,傳遞概率會(huì)產(chǎn)生相應(yīng)的動(dòng)態(tài)變化,資源也會(huì)流向更優(yōu)的技術(shù)開發(fā)路徑。并且通過對(duì)比分析,該模型的效果更好。A-GERT網(wǎng)絡(luò)“刺激-反應(yīng)”模型的構(gòu)建為解決體系網(wǎng)絡(luò)過程學(xué)習(xí)決策問題提供了一種新思路。