楊依蕓,唐矛寧,孟慶欣
(1.浙江師范大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,浙江 金華 321004;2.湖州師范學(xué)院 理學(xué)院,浙江 湖州 313000)
最優(yōu)控制是在所有可能的控制方案中尋找最優(yōu)方案,使控制系統(tǒng)能夠最優(yōu)地實現(xiàn)期望目標(biāo).在最優(yōu)控制的基礎(chǔ)上,當(dāng)控制系統(tǒng)的狀態(tài)方程為線性方程,且性能指標(biāo)為二次時,最優(yōu)控制可以以線性反饋的形式給出,這樣的問題被稱為線性二次(LQ)最優(yōu)控制問題.在隨機控制理論中,單個個體的狀態(tài)不僅取決于其自身的狀態(tài),還取決于整個系統(tǒng)的平均值.這種被稱為平均場模型(MF)的系統(tǒng)越來越受到學(xué)者們的關(guān)注.1956年,Kac首次考慮帶平均場的隨機微分方程(MF-SDE)[1].2013年,Yong研究了在有限時域內(nèi)由布朗運動驅(qū)動的確定性系數(shù)的MF-SDE最優(yōu)控制問題[2].2017年,Sun探討了MF-LQ最優(yōu)控制問題的開環(huán)可解性與性能指標(biāo)(一致)凸性之間的關(guān)系[3].
在處理金融問題中的意外情況時,有必要用帶跳系統(tǒng)來刻畫.因此,對帶跳線性二次最優(yōu)控制問題的研究也是非常重要的.Boel等首次討論了帶跳過程的最優(yōu)控制問題[4].2019年,Tang等探索了由布朗運動和泊松隨機鞅測度共同驅(qū)動的MF-SDE的LQ最優(yōu)控制問題[5],利用經(jīng)典的凸變分原理[6]證明了最優(yōu)控制的存在唯一性,并推導(dǎo)出兩個Riccati方程,同時證明了最優(yōu)控制具有狀態(tài)反饋表示.最近一些學(xué)者還研究了與一般Lévy過程相關(guān)的Teugel鞅驅(qū)動的線性二次最優(yōu)控制問題,獲得了最優(yōu)控制相應(yīng)的對偶表示和狀態(tài)反饋表示[7]。
由于我們觀察到的信息并非總是完整的,這使得對MF-LQ問題在部分信息下的研究變得愈發(fā)深入,這類問題通常與濾波理論有關(guān).2008年,Xiong系統(tǒng)地介紹了隨機濾波理論[8].2016年,Ma等研究了在部分觀測下MF-FBSDE的LQ最優(yōu)控制問題[9].
對比最優(yōu)控制問題,微分對策理論是研究當(dāng)兩個或多個決策人的控制作用同時施加于一個由微分方程描述的運動系統(tǒng)時,其各自實現(xiàn)最優(yōu)目標(biāo)對策過程的理論.該問題的研究可追溯到1965年Ho等的工作[10].1979年,Bernhard從閉環(huán)角度研究了DG問題[11].2020年,Moon研究了帶有仿射項和隨機系數(shù)的零和微分對策問題,并構(gòu)建一個直接方法——配方法,以刻畫精確的(反饋)納什均衡,從而得到最優(yōu)對策值[12].之后,Moon等對帶跳的不定線性二次平均場類型的隨機零和微分對策問題(I-LQ-MF-SZSDG-JD)的反饋納什均衡進(jìn)行了精確刻畫[13].2021年,Sun討論了帶有確定性系數(shù)的二人零和隨機線性二次微分對策問題,研究其開環(huán)鞍點與開環(huán)上下值函數(shù)的關(guān)系,并推導(dǎo)出開環(huán)上下值有限性的必要條件和開環(huán)鞍點存在性的充分條件[14].
本文主要討論在部分信息下帶跳線性二次平均場類型的二人零和微分對策(MF-LQSDG)問題.其創(chuàng)新有:①狀態(tài)方程包含仿射項,是一個由二維布朗運動和泊松隨機鞅測度共同驅(qū)動的隨機微分方程;②狀態(tài)方程和性能指標(biāo)中不僅含有狀態(tài)X(·)和控制u1(·),u2(·),還包含它們的期望,即所謂的平均場類型的微分對策問題;③在部分信息下,狀態(tài)X(·)是Ft-適應(yīng)的,控制u1(·),u2(·)是Gt-可測的,其中Gt?Ft.
假設(shè)T是一個給定的正實數(shù),(Ω,F,{Ft}0≤t≤T,P)是一個完備概率空間,定義W(t)={W1(t),W2(t)}0≤t≤T是一個標(biāo)準(zhǔn)的二維布朗運動.記P為[0,T]×Ω上的Ft-可料的σ-代數(shù),B(Λ)為任何拓?fù)淇臻gΛ的Borelσ-代數(shù).設(shè)(,B(),ν)是滿足ν(E)<∞,?E∈B()的可測空間,η:Ω×Dη→是具有特征測度ν的Ft-適應(yīng)的平穩(wěn)泊松點過程,其中Dη是(0,∞)的可數(shù)子集.那么由η誘導(dǎo)的計數(shù)測度為:
μ((0,t]×A)#{s∈Dη;s≤t,η(s)∈A},對t>0,A∈B(),
在現(xiàn)實的很多情形中,控制u(·)只能在部分信息下觀測.在這種情況下的可允許控制過程u(·)是Gt-可料過程,滿足Gt?Ft.記G={Gt}0≤t≤T表示t時刻控制者的有效信息.假設(shè)Gt=Ft-δ,其中δ>0是一個固定的信息延遲.
Lν,2(;H)為全體H-值可測函數(shù)r:→H構(gòu)成的空間,且滿足:
(1)
其中,ui(·)∈Ai是[t,T]內(nèi)決策者i在部分信息下的可允許開環(huán)控制過程;A1×A2稱為決策者的可允許開環(huán)控制集;系統(tǒng)(1)的強解記作X(·)或X(x,u1,u2)(·),稱為在初始時刻t以x為初始狀態(tài)的狀態(tài)過程;(X(·),u1(·),u2(·))稱為可允許控制三元組.
性能指標(biāo)定義為如下形式的二次泛函:
J(t,x;u1(·),u2(·))=[X(T)],[X(T)]〉]+[u1(s)],[u1(s)]〉+[u2(s)],
(2)
(3)
為下文符號的簡便,記m=m1+m2,定義
自然地,A=A1×A2.基于以上符號,狀態(tài)方程(1)可改寫為:
(4)
性能指標(biāo)(2)可改寫為:
J(t,x;u(·))=[X(T)],[X(T)]〉]+[u(s)],
(5)
下面介紹本文所需的基本假設(shè):
假設(shè)3設(shè)t∈[0,T],存在常數(shù)δ>0,其滿足:
在給出本文的重要結(jié)果前,首先引入兩個Riccati方程:
(6)
(7)
(8)
其次給出以下BSDE:
(9)
以及常微分方程:
(10)
本文的主要結(jié)果:
u*(s)=-[N(s)-1M(s){(X*(s)-[X*(s)])|Gs}+N(s)-1{∑1(s)|Gs}+{∑2(s)|Gs}],
(11)
(12)
相應(yīng)的對策值函數(shù)表示為:
V(t,x)=〈Π(t)x+2η2(t),x〉+[〈P(s)σ1(s)+ξ1(s),σ1(s)〉+〈P(s)σ2(s)+〈P(s)h(s,θ)+ζ(s,θ),h(s,θ)〉ν(dθ)+2〈η1(s),b(s)-[b(s)]〉+ 2〈η2(s),
(13)
(14)
不難得到:
下面令
J(t,x;u(·))=[X(T)],[X(s)],[X(s)]〉+[u(s)],
(15)
J1(t,x;u(·))=[X(s)],[X(s)]〉+[X(s)],[u(s)]〉+[u(s)],[u(s)]〉+ 2[σ1(s)]+[σ2(s)]+[ξ2(s)]}+[h(s,θ)]+[ζ(s,θ)]}ν(dθ),[X(s)]〉+[σ1(s)]+[σ2(s)]+[ξ2(s)]}+[h(s,θ)]+[ζ(s,θ)]}ν(dθ),[u(s)]〉+〈P(s)h(s,θ),h(s,θ)〉ν(dθ)+〈ζ(s,θ),h(s,θ)〉ν(dθ)+2〈η1(s),b(s)-
(16)
類似地,對〈Π(s)[X(s)]+2η2(s),[X(s)]〉,應(yīng)用公式得:
J2(t,x;u(·))=〈Π(t)x+2η2(t),x〉+[X(s)],[X(s)]〉+[u(s)],[u(s)],[u(s)]〉+[b(s)],[X(s)]〉+[u(s)]〉+2〈η2(s),
(17)
綜合式(15)至式(17)有:
J(t,x;u(·))=〈Π(t)x+2η2(t),x〉+〈P(s)σ1(s)+ξ1(s),σ1(s)〉+〈P(s)σ2(s)+ξ2(s),σ2(s)〉+〈P(s)h(s,θ)+ζ(s,θ),h(s,θ)〉ν(dθ)+2〈η1(s),b(s)-[b(s)]〉+ 2〈η2(s),
(18)
當(dāng)控制u(·)滿足
(19)
時,對策值函數(shù)
J(t,x;u(·))=〈Π(t)x+2η2(t),x〉+〈P(s)h(s,θ)+ζ(s,θ),h(s,θ)〉ν(dθ)+ 2〈η1(s),b(s)-[b(s)]〉+2〈η2(s),[b(s)]〉-
(20)
在部分信息下,u(·)是Gt-可測的,只需對式(19)利用條件數(shù)學(xué)期望[·|G]的性質(zhì),即可得到式(11),則相應(yīng)的最優(yōu)對策值函數(shù)滿足式(13).
當(dāng)b(·),σ1(·),σ2(·),h(·,·)=0時,記對應(yīng)的最優(yōu)對策值函數(shù)為V0(t,x):
V0(t,x)=〈Π(t)x,x〉.
第2節(jié)得到了開環(huán)鞍點u(·)的狀態(tài)反饋表示,但{(X(s)-[X(s)])|Gs}的形式仍是未知的.為寫出濾波方程,給出以下特例:
(21)
特殊地,假設(shè)Gt=σ{W2(t),0≤t≤T},則控制u1(·),u2(·)是Gt-適應(yīng)的.假設(shè)觀測方程為:
y(s)=W2(s),
為得到最優(yōu)控制更精確的表達(dá),可以利用濾波理論.假設(shè)
根據(jù)文獻(xiàn)[8]的引理5.4,有下面的命題:
(22)
且得到開環(huán)鞍點的反饋表示:
(23)
(24)
(25)
(26)
以及常微分方程:
(27)
本文主要研究了部分信息下帶跳MF-LQSDG問題,利用配方法得到了開環(huán)鞍點的反饋表示,且將MF-LQ問題看作MF-LQSDG問題的一個特殊情況.本文研究的系數(shù)是確定性的,時間區(qū)間是有限的,對隨機系數(shù)和無限時區(qū)的研究可為后續(xù)的學(xué)習(xí)提供方向.