国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

模型Sloppy屬性及相關(guān)特性綜述

2023-03-29 14:18:28紅,康
計(jì)算機(jī)仿真 2023年2期
關(guān)鍵詞:流形參數(shù)估計(jì)矩陣

王 紅,康 玲

(1. 大連東軟信息學(xué)院計(jì)算機(jī)學(xué)院,遼寧 大連 116023;2. 大連東軟信息學(xué)院 軟件學(xué)院,遼寧 大連 116023)

1 概述

近年來隨著計(jì)算能力的進(jìn)步,數(shù)學(xué)模型的規(guī)模以及描述范圍不斷拓寬。大量描述各種現(xiàn)象的復(fù)雜模型不斷出現(xiàn),從生物化學(xué)反應(yīng)網(wǎng)絡(luò)、到氣候變化模型再到經(jīng)濟(jì)發(fā)展動態(tài)模型,依托數(shù)學(xué)模型進(jìn)行科學(xué)探究已經(jīng)成為當(dāng)今的核心關(guān)注點(diǎn)[1,2]。這些模型的復(fù)雜性呈現(xiàn)出很多新的特征也為基于這些模型開展科學(xué)研究提出了新的問題和挑戰(zhàn)。

1.1 Sloppy模型

數(shù)學(xué)模型中通常包含大量的未知參數(shù),由于費(fèi)用、時(shí)間或?qū)嶒?yàn)條件等因素的制約,這些參數(shù)的值只能通過和已有實(shí)驗(yàn)數(shù)據(jù)的擬合來確定,通常把這一過程稱作模型校準(zhǔn)[3]。通過模型校準(zhǔn),原則上參數(shù)可以被實(shí)驗(yàn)數(shù)據(jù)唯一確定[4]。但有些模型中的某些參數(shù)值,即使給出再多的實(shí)驗(yàn)數(shù)據(jù)依然不能唯一被確定[5]。這主要是因?yàn)槟P椭胁煌膮?shù)組合對模型的輸出呈現(xiàn)出不同數(shù)量級的影響[6],進(jìn)而表現(xiàn)為如下特征:微小擾動部分參數(shù)組合會使模型輸出變化非常大,而大規(guī)模擾動某些參數(shù)或其組合,模型輸出卻沒有明顯變化。因此所謂的sloppy模型是指模型的行為只被幾個(gè)有限參數(shù)組合所控制的模型。小擾動大變化的參數(shù)組合是stiff參數(shù)(屬性)組合,而大擾動小變化的參數(shù)組合是sloppy參數(shù)(屬性)組合[7]。

有人認(rèn)為sloppy屬性和魯棒性(robustness)的表現(xiàn)很相似。但從傳統(tǒng)概念上來講,二者截然不同。當(dāng)一個(gè)系統(tǒng)被認(rèn)定為具有魯棒性特征時(shí),意味著有一個(gè)特定的定量行為對于特定的擾動不敏感,且這種擾動可以是參數(shù)值的變化、系統(tǒng)外界影響因素的變化甚至系統(tǒng)結(jié)構(gòu)的變化[8]。而sloppy屬性則相反,當(dāng)關(guān)注系統(tǒng)的定量行為時(shí),它的敏感性和參數(shù)的組合變化相關(guān)。甚至一個(gè)sloppy模型可能對于每個(gè)參數(shù)的變化都不具有魯棒性[9]。

但從運(yùn)作原理上來看,sloppy屬性和魯棒性之間又有著密切的聯(lián)系。比如許多生物系統(tǒng)規(guī)模大且形式復(fù)雜,某些構(gòu)件相對于功能實(shí)現(xiàn)來說還有冗余,但這種冗余卻是系統(tǒng)應(yīng)對內(nèi)外環(huán)境的突變或噪聲而產(chǎn)生的魯棒性反應(yīng)。因?yàn)閺木W(wǎng)絡(luò)動態(tài)性與網(wǎng)絡(luò)構(gòu)成關(guān)系角度來看,這種冗余是當(dāng)構(gòu)件具有sloppy屬性時(shí),網(wǎng)絡(luò)所呈現(xiàn)出的合作響應(yīng)模式[10]。

1.2 Sloppy屬性研究意義

Sloppy屬性廣泛存在于系統(tǒng)生物學(xué)模型、加速器物理學(xué)模型、放射性衰變系統(tǒng)、臨界模型、昆蟲飛行模型等諸多領(lǐng)域模型中[11]。

近年來,模型中sloppy屬性的存在也為研究系統(tǒng)背后的運(yùn)行機(jī)理提供了新的研究視角。如在生物領(lǐng)域可以基于sloppy屬性,研究神經(jīng)元活動隨時(shí)間發(fā)展的進(jìn)化規(guī)律、神經(jīng)網(wǎng)絡(luò)中的可塑性調(diào)整機(jī)制及運(yùn)動過程中顯著性變量的穩(wěn)定性控制問題、預(yù)測肌酸肌酶對ATP組的催化反應(yīng)效果,以及探求生物神經(jīng)網(wǎng)絡(luò)初始過密的凸起和神經(jīng)元剪枝優(yōu)化背后的運(yùn)作機(jī)制;也可用于系統(tǒng)動態(tài)進(jìn)化的強(qiáng)壯性和組件衰退性背后的一般理論研究;在電子能源領(lǐng)域還可以利用模型的sloppy屬性特征,研究存儲環(huán)在加速時(shí)如何降低發(fā)散率進(jìn)而提高衰減環(huán)的亮度,以及在震動、電子環(huán)境和量子機(jī)制等自由度不可控條件下,如何提高能量傳輸?shù)挠行约翱煽啃詥栴}。

Sloppy屬性的存在也為研究模型與模型屬性的關(guān)系提供了可能。如將sloppy屬性和敏感度分析[12]、實(shí)驗(yàn)設(shè)計(jì)[13]、系統(tǒng)及參數(shù)可認(rèn)定[14]、系統(tǒng)強(qiáng)壯性以及反向工程[15]等方面的研究建立起了聯(lián)系。因?yàn)閟loppy屬性體現(xiàn)的是模型對于外部環(huán)境擾動及內(nèi)部構(gòu)建交互變化的強(qiáng)壯性,而該屬性是生物集體得以進(jìn)化的關(guān)鍵特征,因此在計(jì)算生物學(xué)領(lǐng)域,sloppy屬性是否存在也成為判斷構(gòu)建的生物模型是否具有實(shí)際可行性的重要依據(jù)之一。

此外,sloppy屬性的存在也為模型的參數(shù)估計(jì)以及模型預(yù)測研究帶來挑戰(zhàn)。由于sloppy屬性的存在,使得模型中參數(shù)估計(jì)問題演變成不適定問題且模型中的參數(shù)不能逐一被認(rèn)定[11],即使可以得到對應(yīng)參數(shù)的估計(jì)值,但其置信區(qū)間也會變大[9]。使用sloppy模型進(jìn)行功能預(yù)測時(shí)可能會引發(fā)預(yù)測結(jié)果的統(tǒng)計(jì)性錯(cuò)誤[9,16]也為分析模型預(yù)測不確定性引入計(jì)算困難。因此,sloppy屬性的存在也促進(jìn)了相關(guān)優(yōu)化算法的研究,如對優(yōu)化算法提出改進(jìn),基于幾何原理理解提出更有效更適用的計(jì)算方法[6]等。

1.3 Sloppy屬性判定依據(jù)

(1)

該損失函數(shù)在參數(shù)的最優(yōu)擬合點(diǎn)的曲率就是Hessian矩陣的定義,如式(2)的形式。

(2)

如果此時(shí)Hmn的最大特征值λmax與最小特征值λmin的度量差超過三個(gè)數(shù)量級時(shí)(如式(3)所示),則可判定該模型具有sloppy屬性[14]。

(3)

因?yàn)楹芏嗄P椭械膮?shù)有不同的度量單位且變化范圍大,為了消除相對變化對參數(shù)值的影響,在計(jì)算Hessian矩陣的時(shí)候通??梢圆捎胠og10對數(shù)的形式,如式(4)所示[17],這就是特征值譜的對數(shù)尺度寬度。

wλ=log10CF

(4)

當(dāng)w≥6時(shí)模型也可被認(rèn)定為sloppy模型,而非sloppy模型的寬度一般約等于2。此時(shí)參數(shù)的stiff和sloppy屬性可以通過分析Hessian矩陣Hmn的特征值進(jìn)行確定。因?yàn)镠essian矩陣具有正定及對稱的特征,因此它的特征值和特征向量都是實(shí)數(shù)。分析Hessian矩陣對應(yīng)的近似曲面可以看出和系統(tǒng)響應(yīng)的偏離。該界面是一個(gè)Np維度的橢球體,Np是模型中參數(shù)的數(shù)目,橢球的主軸是Hessian矩陣的特征向量,橢球沿著每個(gè)主軸的寬度正比于對應(yīng)特征值λi平方根的倒數(shù),如式(5)所示[17]。

(5)

其中最窄的軸對應(yīng)stiff屬性對模型行為有很大影響,最寬的軸對應(yīng)sloppy屬性對模型行為有微小的影響[4]。

對式(2)做近似處理,省略掉第二部分,就得到了Fisher信息矩陣[18],如式(6)所示,其中J 是衡量參數(shù)敏感度的Jacobian矩陣。

(6)

Dufresne研究小組組合代數(shù)與幾何知識,在參數(shù)空間引入等價(jià)關(guān)系,借助等價(jià)關(guān)系給出sloppy屬性的統(tǒng)一數(shù)學(xué)框架,將其所能描述的模型類型也從依賴于時(shí)間尺度的模型擴(kuò)展到了統(tǒng)計(jì)模型[18]。

定義sloppy屬性時(shí),基于Hessian矩陣或Fisher信息矩陣值的判斷是依賴于它所評價(jià)的參數(shù)空間的。當(dāng)采用MCMC(Markov Chain Monte Carlo)后分布得到的多個(gè)參數(shù)集合進(jìn)行計(jì)算時(shí),盡管會得到相似的特征值譜但卻有不同的特征值。由此可見,這種sloppy屬性判定方法是基于局部特征,因此不夠精確。主成分分析可用于對點(diǎn)空間中的協(xié)方差矩陣進(jìn)行特征分解,第一主成分就是最大特征值對應(yīng)的特征向量,對應(yīng)著點(diǎn)變化量最大的方向且各成分間彼此正交。因此可以用主成分分析類比Hessian矩陣。通過使用主成分分析MCMC參數(shù)集合或中間參數(shù)集合[9],則可得到分析sloppy屬性的全局視角。

2 Sloppy屬性的起因及消除

由于參數(shù)估計(jì)遇到了困難,研究者們才將參數(shù)劃分成了sloppy和stiff類型。因此對于sloppy屬性的起源、本質(zhì)及消除的探索一定是和參數(shù)估計(jì)聯(lián)系在一起的。

2.1 從特征值譜角度探索起因

Waterfall小組基于“損失函數(shù)對稱依賴于模型參數(shù)”這一強(qiáng)假設(shè)前提,探索sloppy屬性的起因[19]。在此假設(shè)下將損失函數(shù)中的殘差r寫成參數(shù)多項(xiàng)式和的形式如式(7)所示。

(7)

再假定參數(shù)變化都被限定在一個(gè)微小的范圍內(nèi)pi∈[p±ε],可以得到εi=pi-p,則Jacobian矩陣可以改寫為式(8)所示。

(8)

當(dāng)K無窮大時(shí),Hessian矩陣可以分解為H=JTJ=VTATAV,這里的V就是范德蒙矩陣。通過比較sloppy和非sloppy屬性的范德蒙特征值發(fā)現(xiàn),對于非sloppy模型來說,當(dāng)ε →0時(shí)相鄰參數(shù)的相對空間是寬度趨近于1的固定值。但真實(shí)世界中的sloppy模型并不總是滿足此假設(shè)前提,由此可見,sloppy的產(chǎn)生是因?yàn)閷?shí)驗(yàn)的封裝或描述的需要扭曲了參數(shù)的自然屬性而造成的,而這種扭曲則是為了達(dá)到描述復(fù)雜模型的目的。

同樣是針對Hessian矩陣的特征值譜,Tnsing研究小組針對多領(lǐng)域中普遍采用的ODEs(ordinary differential equations)模型進(jìn)行研究[20]。無需知道系統(tǒng)結(jié)構(gòu)以及任何測量觀察信息,他們使用隨機(jī)矩陣?yán)碚摲治鰠f(xié)方差矩陣的結(jié)構(gòu)發(fā)現(xiàn),當(dāng)敏感矩陣的平均特征值寬度達(dá)到0.985的時(shí)候,模型即可呈現(xiàn)出清晰的非sloppy屬性。因此消除sloppy屬性,本質(zhì)就是控制Hessian矩陣特征值譜的寬度。具體可以采用的方法有:1)只選擇有特色的數(shù)據(jù)點(diǎn),以使敏感矩陣中變量之間的相關(guān)性變得簡單,進(jìn)而抑制sloppy屬性的發(fā)生[21];2)選擇最優(yōu)實(shí)驗(yàn)方法或執(zhí)行特定的實(shí)驗(yàn)擾動,使得敏感矩陣的水平方向結(jié)構(gòu)收斂到每個(gè)參數(shù)自身,也會降低特征值譜的寬度,從而將sloppy屬性減弱到最小。該研究小組從他們的研究結(jié)果出發(fā),認(rèn)為sloppy屬性的出現(xiàn)只是實(shí)驗(yàn)設(shè)計(jì)引發(fā)的一種巧合,因此在不討論實(shí)驗(yàn)設(shè)計(jì)的前提下就說某模型具有sloppy屬性是不準(zhǔn)確的。

2.2 實(shí)例檢測發(fā)現(xiàn)起因

實(shí)驗(yàn)例證是尋找模型特性的一種常用方法,通過類比大量模型的共有特征,也可發(fā)現(xiàn)sloppy屬性的起源。Gutenkunst小組從文獻(xiàn)中抽取17個(gè)典型系統(tǒng)生物學(xué)模型,通過構(gòu)建預(yù)測模型檢測預(yù)測結(jié)果,總結(jié)出sloppy屬性產(chǎn)生的原因如下[22]:1)參數(shù)空間中的裸參數(shù)和控制系統(tǒng)行為的特征參數(shù)之間存在著特殊的坐標(biāo)變換關(guān)系,這可能是sloppy屬性產(chǎn)生的最根本原因,因此可以通過實(shí)施坐標(biāo)變換予以消除;2)sloppy屬性和它要擬合的實(shí)驗(yàn)數(shù)據(jù)相關(guān)。如果實(shí)驗(yàn)數(shù)據(jù)不充分,屬性間的耦合性會增強(qiáng),造成模型的sloppy屬性也會增強(qiáng)。此外在擬合具有時(shí)間序列特征的實(shí)驗(yàn)數(shù)據(jù)時(shí),Tafintseva小組使用主成分分析法分析發(fā)現(xiàn),sloppy屬性和特定的非線性子空間結(jié)構(gòu)之間有著特定的對應(yīng)關(guān)系[23]。上述情況都可以通過增加實(shí)驗(yàn)的數(shù)據(jù)量,達(dá)到解耦待估參數(shù)之間的耦合性或消除此特定子結(jié)構(gòu)的目的,進(jìn)而達(dá)到消除sloppy屬性的效果。很多非線性模型同時(shí)又具有多時(shí)間尺度特性,對這樣的模型進(jìn)行參數(shù)擬合時(shí),變量的變化軌跡可以明顯的區(qū)分為跳躍性變化的快片和緩慢變化的慢片,快片對應(yīng)的是stiff屬性方向,而慢片對應(yīng)的是sloppy屬性方向。通過將研究初始條件敏感度的李雅普諾夫指數(shù)(Lyapunov exponents)和Hessian矩陣做類比,發(fā)現(xiàn)李雅普諾夫指數(shù)空間既可以解釋指數(shù)范圍的sloppy參數(shù)空間,也可以解釋具有相同尺度的非sloppy空間,因此在系統(tǒng)層面上將時(shí)間尺度和sloppy屬性的敏感性建立了聯(lián)系,進(jìn)而認(rèn)定多參數(shù)系統(tǒng)中出現(xiàn)sloppy屬性可以歸因于動態(tài)變化的多時(shí)間尺度屬性。此時(shí)通過時(shí)間尺度切分即可消除sloppy屬性。3)一些簡單模型會因?yàn)椴煌瑓?shù)組合的冗余性呈現(xiàn)出sloppy屬性,這是因?yàn)檠芯空邔ο到y(tǒng)理解的不夠充分造成的,此時(shí)sloppy的消除可以通過獲取先驗(yàn)知識加深對系統(tǒng)的理解予以消除。

2.3 信息幾何角度認(rèn)定起因

信息幾何組合信息理論和差分幾何理論來探索參數(shù)化的模型,通過更多地關(guān)注數(shù)據(jù)空間而不是參數(shù)空間來理解模型的屬性,因此更能達(dá)到使用數(shù)字技術(shù)探索模型本質(zhì)的目的。本質(zhì)上來說,模型是從參數(shù)空間到數(shù)據(jù)空間的一種映射,因此可以將模型看做嵌入到數(shù)據(jù)空間的一個(gè)流形[9]。

從信息幾何角度看待sloppy模型時(shí)發(fā)現(xiàn),Hessian矩陣的特征值在某些情況下具有層次結(jié)構(gòu),即嵌入到數(shù)據(jù)空間D的模型流形M所對應(yīng)的預(yù)測流形有邊界,使得橫斷面的寬度呈現(xiàn)層次結(jié)構(gòu),所以整體形成了一個(gè)長而窄的超脊形結(jié)構(gòu)[24]。而超脊結(jié)構(gòu)的產(chǎn)生是因?yàn)閷?shí)驗(yàn)者對其所研究系統(tǒng)的本質(zhì)特性了解的不夠深入,使得選擇的參數(shù)化模型違背了數(shù)學(xué)規(guī)律造成的,這也是sloppy屬性產(chǎn)生的原因。因此可以通過對模型進(jìn)行重新參數(shù)化或通過修訂實(shí)驗(yàn)、測量標(biāo)準(zhǔn)來降低sloppy屬性的產(chǎn)生。

Quinn小組在前人工作的基礎(chǔ)上,采用更一般的多項(xiàng)式方法探求超脊結(jié)構(gòu)的成因[6]。假定有非線性模型連續(xù)依賴輸入?yún)?shù)θ={θ1,θ2,…θk},由該模型產(chǎn)生的預(yù)測結(jié)果為yθ(t),假定有多項(xiàng)式基為{Φi}i=0,則預(yù)測結(jié)果可以表示為式(9)

(9)

讓P(θ)=(P0,…PN-1)定義模型的流形,其中

(10)

t是時(shí)間序列t={t0,…tN-1}T,則預(yù)測模型可以改寫為

P(θ)=Xb

(11)

其中,Xij=Φij(ti-1),b=(b0(θ),…bN-1(θ))T,因此X構(gòu)成了從參數(shù)空間到預(yù)測空間的線性映射。假定‖b‖2

3 Sloppy模型的參數(shù)估計(jì)

使用數(shù)學(xué)模型描述真實(shí)系統(tǒng)時(shí)有如下兩種選擇:大而復(fù)雜模型可能和真實(shí)情況更接近,但因?yàn)閰?shù)眾多會存在參數(shù)的不確定性,簡單模型只抽取最本質(zhì)構(gòu)成,但模型本身會有不確定性。Sloppy模型是復(fù)雜模型,因此對該類模型進(jìn)行參數(shù)估計(jì)時(shí)面臨的最大挑戰(zhàn)就是因?yàn)閰?shù)的不確定性而引發(fā)的病態(tài)問題(ill-condition)[25]。參數(shù)的病態(tài)源于對噪聲數(shù)據(jù)的高敏感性,這種病態(tài)對模型而言是固有的但對數(shù)據(jù)卻不是。因此一些研究者認(rèn)為模型應(yīng)該具有唯一性才能克服病態(tài)性[26]。還有些研究者認(rèn)為在參數(shù)估計(jì)之前應(yīng)該先認(rèn)定冗余參數(shù)以避免病態(tài)模型或者錯(cuò)誤的收斂過程[27]。

在實(shí)驗(yàn)數(shù)據(jù)有限的前提下要對復(fù)雜模型中的參數(shù)進(jìn)行估計(jì),有兩種可行的方法:一種是通過實(shí)驗(yàn)設(shè)計(jì)產(chǎn)生出更多的數(shù)據(jù);另一種是執(zhí)行模型規(guī)約,在保留模型核心工作機(jī)制的前提下使得模型可以和提供的數(shù)據(jù)相匹配。實(shí)驗(yàn)設(shè)計(jì)就是決定對哪個(gè)組件實(shí)施擾動,以及在哪個(gè)時(shí)間點(diǎn)進(jìn)行測量。其本質(zhì)就是如何獲取最大化信息,使用的方法可以是基于貝葉斯后取樣[28],信息理論以及敏感分析[29]。而不同方法的區(qū)別在于如何定義最大化的信息,貝葉斯標(biāo)準(zhǔn)是最大化期望值,信息論的方法是利用熵和交互信息定義額外信息量,敏感度分析是希望找到最大化減小待估參數(shù)不確定性和方差的實(shí)驗(yàn),常用的衡量實(shí)驗(yàn)好壞的標(biāo)準(zhǔn)就是A-optimality和D-optimality。而模型規(guī)約可以是基于時(shí)間尺度[30]、基于模塊性、也可以是基于敏感性[31]。

這兩種參數(shù)估計(jì)方法看似無關(guān)但實(shí)際上有很深的聯(lián)系,使用模型流形和子集似然(profile likelihood)這個(gè)統(tǒng)一框架可以將二者聯(lián)系起來[32]。從幾何角度來講,實(shí)驗(yàn)數(shù)據(jù)是數(shù)據(jù)空間中的一個(gè)點(diǎn),數(shù)學(xué)模型是存在于數(shù)據(jù)空間的流形,參數(shù)估計(jì)是數(shù)據(jù)點(diǎn)到流形上的投影,通過檢測投影點(diǎn)在流形投影附近的特征值,既可以執(zhí)行實(shí)驗(yàn)設(shè)計(jì)也可以進(jìn)行模型規(guī)約。實(shí)驗(yàn)設(shè)計(jì)認(rèn)定新的實(shí)驗(yàn)點(diǎn),因此可以擴(kuò)展流形并且移走奇異點(diǎn)。而模型規(guī)約認(rèn)定的是流形最近的邊界,它是最近的特異點(diǎn),所以是執(zhí)行規(guī)約模型的最合適形式。

故此針對sloppy模型,進(jìn)行參數(shù)估計(jì)的思路也可歸結(jié)為這兩大類,再加上對已有優(yōu)化算法的改進(jìn),下面就從這三個(gè)方面進(jìn)行介紹。

3.1 模型規(guī)約

模型規(guī)約就是使用低精度模型代替原始復(fù)雜模型,但低精度模型保留了原始復(fù)雜模型的核心機(jī)制。模型規(guī)約廣泛應(yīng)用于航空、水文地質(zhì)及石油鉆采等多個(gè)領(lǐng)域。

從統(tǒng)計(jì)學(xué)集合角度解釋來看,Sloppy模型中幾個(gè)剛性參數(shù)的組合可以被理解為原始模型的低維有效模型,這自然引發(fā)了使用低維模型近似高維模型的模型規(guī)約問題。規(guī)約后的模型有利于發(fā)現(xiàn)系統(tǒng)行為的新興控制機(jī)制,這種規(guī)約不同于為了避免參數(shù)過適應(yīng)效果而討論的模型簡化。流形中超脊結(jié)構(gòu)的存在使得模型流形邊界具有層次結(jié)構(gòu),因此可以利用這種層次性來實(shí)現(xiàn)模型規(guī)約。Transtrum研究小組據(jù)此提出MBAM算法(Manifold Boundary Approximation Method)實(shí)現(xiàn)模型規(guī)約[33],該方法分為4步:1)基于Fisher信息矩陣解析認(rèn)定最小敏感度參數(shù)組合;2)數(shù)值構(gòu)建模型流形測地線認(rèn)定流形邊界;3)如果發(fā)現(xiàn)了流形的邊界,則初始模型的近似模型得以認(rèn)定 4)通過讓近似模型擬合初始模型的行為來認(rèn)定參數(shù)的值。Pare研究團(tuán)隊(duì)使用MBAM到系統(tǒng)的不同參數(shù)集合得到不一樣的近似結(jié)果[34],說明模型規(guī)約也會產(chǎn)生不同的近似模型,而這些近似模型本質(zhì)上是對應(yīng)著一個(gè)流形的同一個(gè)邊界,進(jìn)而驗(yàn)證了模型流形是模型參數(shù)的一個(gè)特定選擇結(jié)果且模型流形是嵌入到樣例空間的。MBAM方法不僅被用于研究生物系統(tǒng),還被用于探索微生物控制土壤時(shí)碳循環(huán)系統(tǒng)中的參數(shù)認(rèn)定問題以及核能密度函數(shù)中sloppy模型的規(guī)約及函數(shù)的約減,以及電力系統(tǒng)模型的規(guī)約問題。

Sloppy模型除了具有超脊結(jié)構(gòu)之外,還有一些呈現(xiàn)出多峰值結(jié)構(gòu),此時(shí)模型流形的適應(yīng)能力比參數(shù)數(shù)目所表示的能力要大得多,同時(shí)也為參數(shù)擬合提出了更高的挑戰(zhàn)。多峰值模型在參數(shù)估計(jì)時(shí)面臨的主要問題是需要為了跳出局部最小值而增加搜索參數(shù)空間的范圍,但很多常用的搜索算法因?yàn)橹荒苷业揭粋€(gè)局部最小值且不是全局最小值而對多峰值問題失效[35]。另外此類sloppy模型的高有效維度也反映出已有的度量標(biāo)準(zhǔn)不能精確捕獲模型中感興趣的信息。Francis研究小組針對這種高有效維度sloppy模型參數(shù)估計(jì)問題,從構(gòu)建新的相似性標(biāo)準(zhǔn)開始,引入信號處理方法解決該問題[36]。具體做法是:

首先對參數(shù)進(jìn)行敏感度分析;再根據(jù)參數(shù)的尺度行為對參數(shù)組合進(jìn)行分類;對于Hessian特征值來說,不同的尺度行為對應(yīng)著損失界面的不同結(jié)構(gòu)及模流形,因此再根據(jù)最大特征值行為對模型進(jìn)行分類。引入winding frequency和模型流形上的曲率來估計(jì)參數(shù)空間中局部最小值的密度,通過合適的選擇距離度量尺度,模型流形不僅可以移除局部最小值而且保持距離的相對物理解釋,更有助于認(rèn)定復(fù)雜系統(tǒng)中的未知結(jié)構(gòu)。

減少待估參數(shù)數(shù)目在一定程度上也有助于在有限的實(shí)驗(yàn)數(shù)據(jù)下提高參數(shù)估計(jì)的準(zhǔn)確性,因此也是模型規(guī)約的一種。Tafintseva研究團(tuán)隊(duì)通過在不同初始條件下提供的大量實(shí)驗(yàn)數(shù)據(jù)集合,通過多輪擬合確認(rèn)參數(shù)中的sloppy參數(shù),以達(dá)到減少待估參數(shù)的目的[23]。Kardynska等基于sloppy/stiff參數(shù)敏感度分析方法創(chuàng)建參數(shù)階排序,以此來找到重要的參數(shù)以降低需要精確估計(jì)的參數(shù)數(shù)目[17]。但使用Fisher信息矩陣計(jì)算的參數(shù)敏感性是基于局部信息的,它只有在測量不確定性特別小的前提下才有效果。同樣是基于敏感度對參數(shù)在系統(tǒng)中的角色進(jìn)行認(rèn)定,Liu研究組針對噪聲數(shù)據(jù)下很難直接對所有參數(shù)進(jìn)行認(rèn)定的問題,基于敏感度認(rèn)定結(jié)果,采用三階段策略實(shí)現(xiàn)對sloppy系統(tǒng)的參數(shù)估計(jì)[37]。首先采用一個(gè)比較粗糙且計(jì)算費(fèi)用低的算法為sloppy參數(shù)初步指定參數(shù)值,其次采用更嚴(yán)格的取樣接受標(biāo)準(zhǔn)來估計(jì)stiff參數(shù)值,最后在近似貝葉斯計(jì)算框架下使用自適應(yīng)算法逐步縮減錯(cuò)誤誤差。針對測量的不確定性不可忽略的情況,Raman小組引入多尺度sloppy屬性方法,將敏感性的各向異性定義為擾動長度尺度相對于固定數(shù)據(jù)集或模型預(yù)測的函數(shù),從而為不可認(rèn)定性檢測問題提出了將參數(shù)空間的不可認(rèn)定橫截面作為優(yōu)化控制問題的數(shù)值解決方法,為模型簡化和參數(shù)約減提供支持[38]。此外還給出了似然率檢測和多尺度sloppy之間的理論關(guān)系如式(12)所示,其中δ 是相對于θ帶來的擾動θ*的長度尺度。

(12)

3.2 借助先驗(yàn)信息

在貝葉斯統(tǒng)計(jì)分析里,先驗(yàn)一般是指參數(shù)空間的先驗(yàn)可能分布,該分布給出了隨著參數(shù)變化時(shí)模型的可能密度信息。因?yàn)橄闰?yàn)可以最大化參數(shù)和預(yù)測之間的交互信息,從有限的數(shù)據(jù)里學(xué)習(xí)最多的知識。因此先驗(yàn)不僅有助于在模型選擇時(shí)找到最有效低維模型,而且在參數(shù)識別過程中更有助于得到更快的收斂速度以及更小的認(rèn)定錯(cuò)誤[39]。同時(shí)先驗(yàn)信息還可以阻止優(yōu)化過程中參數(shù)組合引發(fā)的參數(shù)蒸發(fā)問題[24]。

Transtrum組通過將參數(shù)擬合問題看做插值過程,從差分幾何角度分析sloppy參數(shù)估計(jì)過程發(fā)現(xiàn),基于最小平方損失函數(shù)進(jìn)行數(shù)據(jù)擬合的困難主要源于模型流形的層次邊界中存在很窄的邊界。當(dāng)參數(shù)擬合執(zhí)行到這些窄邊界時(shí),優(yōu)化收斂過程變得緩慢,外在表現(xiàn)就是sloppy參數(shù)值變化很大但損失函數(shù)卻變化很小。為了克服窄邊界的局限性,研究者引入?yún)?shù)空間圖來構(gòu)建模型圖,既可以移除流形圖的邊界問題也可以克服參數(shù)空間圖移動不連續(xù)問題,同時(shí)也提供了一種解釋數(shù)據(jù)空間和參數(shù)空間自然方向的方法。通常使用下列式(13)定義模型圖。

(13)

其中第一部分是模型流形的度量,第二部分是參數(shù)空間的度量。當(dāng)模型圖無效的時(shí)候,可以引入先驗(yàn)。為每個(gè)參數(shù)增加兩個(gè)先驗(yàn),如式(14)示[24]。

(14)

前者用來懲罰大值,后者用來懲罰小值。增加先驗(yàn)后,模型圖修訂為式(15)所示。

(15)

Mikhail研究小組發(fā)現(xiàn)已有的實(shí)驗(yàn)先驗(yàn)信息在點(diǎn)估計(jì)時(shí)并不能提高參數(shù)的估計(jì)效果,究其原因是因?yàn)閿?shù)據(jù)內(nèi)容提供的信息量過少[40]。據(jù)此他們提出基于組合實(shí)際數(shù)據(jù)和人工生成數(shù)據(jù)共同作為實(shí)驗(yàn)先驗(yàn)的全貝葉斯變體方法,以達(dá)到限制參數(shù)分布的目的。全貝葉斯實(shí)驗(yàn)先驗(yàn)方法是之前實(shí)驗(yàn)先驗(yàn)點(diǎn)估計(jì)的直接擴(kuò)展,直接擬合池化后的每層后驗(yàn)分布,該擴(kuò)展使得參數(shù)估計(jì)不確定性可以直接反映在實(shí)驗(yàn)先驗(yàn)中。由于每個(gè)變量都對應(yīng)多個(gè)數(shù)據(jù)點(diǎn),使得以組合方式估計(jì)多變量部件中的每一個(gè)變量的協(xié)方差成為可能。但該方法并沒有在參數(shù)估計(jì)時(shí)表現(xiàn)出更明顯的優(yōu)勢,因此研究者們建議應(yīng)該把目標(biāo)轉(zhuǎn)向到如何獲取或提升實(shí)驗(yàn)獲得的量方面

3.3 改進(jìn)優(yōu)化算法

L-M(Levenberg-Marquardt)算法被廣泛應(yīng)用于非線性函數(shù)的參數(shù)估計(jì)問題。該方法主要用來處理Jacobian矩陣秩的虧損,同時(shí)也為高斯牛頓算法提供了一個(gè)全局的策略[41]。將置信區(qū)間方法應(yīng)用到高斯-牛頓算法中用于近似Hessian矩陣,即可基于式(4)得到L-M迭代更新參數(shù)公式為式(16)。

δθ=-(JTJ+λDTD)-1g

(16)

其中λ是拉格朗日乘子用來控制步長的邊界,而g=JTr是梯度。如果λ和步長選擇的合適,甚至可以達(dá)到全局收斂的效果。

L-M算法有很多優(yōu)點(diǎn),比如在原子能模擬領(lǐng)域,通過將L-M算法合并到常用的potfit方法里,將其作為求解局部最小值的最新算法,使得構(gòu)建出來的原子間勢能更擬合sloppy模型。但多數(shù)情況下,如果將L-M直接應(yīng)用于sloppy模型的參數(shù)估計(jì)有很大困難,因?yàn)槌菇Y(jié)構(gòu)下參數(shù)估計(jì)會面臨在平坦寬闊區(qū)域參數(shù)消失、在狹窄尋優(yōu)區(qū)域進(jìn)展緩慢、以及優(yōu)化結(jié)果對初始值依賴程度大等問題[42]。Transtrum小組對標(biāo)準(zhǔn)L-M算法從三個(gè)角度進(jìn)行修訂以克服上述困難[42]。1)在假定模型圖形的外曲率非常小的情況下,對殘基引入泰勒近似的二階項(xiàng)來調(diào)節(jié)L-M算法的步長,以幫助L-M算法對初始條件保持魯棒性,使得在降低計(jì)算Jacobian矩陣耗費(fèi)的情況下能以很高的成功率找到最優(yōu)值;2)針對狹窄區(qū)域搜索緩慢但卻很少發(fā)散的特征,適度接受上坡的移動可能有助于加快尋優(yōu)的進(jìn)程;3)因?yàn)槊枯喌夹枰匦掠?jì)算Jacobian矩陣,以往的研究者們采用不同的方法減輕此計(jì)算負(fù)擔(dān),如使用Jacobian矩陣的主子矩陣,對Jacobian分區(qū)切塊處理,同時(shí)擾動Jacobian矩陣。Transtrum研究小組則采用擬牛頓根發(fā)現(xiàn)方法替代Jacobian矩陣的每輪計(jì)算,公式如式(17)所示,只在1-2次拒絕接受步長后再重新啟動計(jì)算過程,也可以節(jié)省計(jì)算時(shí)間。

(17)

Transtrum小組在L-M殘基中引入高階項(xiàng)之后,又提出將高階項(xiàng)作為測地線加速的方法[43]。通過差分幾何導(dǎo)出測地線加速項(xiàng),這里的測地線加速并沒有試圖提高高斯-牛頓近似的Hessian矩陣,而是將小殘基近似擴(kuò)展到了立方階。在導(dǎo)出測地線加速時(shí),小殘基近似被小曲率近似替代,后者為高斯牛頓近似和L-M算法提供了更寬廣的調(diào)整空間。即使最好擬合時(shí)殘基特別大也可以調(diào)整,因?yàn)檫@是模型的屬性而不是數(shù)據(jù)適應(yīng)的屬性,這個(gè)思想貫穿到算法的整個(gè)階段而不只是在最優(yōu)值附近。為了節(jié)省計(jì)算負(fù)擔(dān),該算法還將測地線加速中需要計(jì)算的二階導(dǎo)數(shù)替換為二階方向?qū)?shù),只需對殘基進(jìn)行一次評價(jià)計(jì)算即可完成。

Brunel小組研究發(fā)現(xiàn)[44],L-M在尋找最優(yōu)參數(shù)時(shí)敏感矩陣扮演了至關(guān)重要的角色。即使在提供大量實(shí)驗(yàn)數(shù)據(jù)的前提下,如果參數(shù)θ在狀態(tài)Xθ是稀疏取樣,也會對擬合結(jié)果造成很大的偏差。因此特異敏感矩陣的存在是參數(shù)估計(jì)反問題成為不適定性問題的元兇。據(jù)此,針對ODE模型,該研究小組基于廣義光滑算法[45]定義了一個(gè)兩步程序,通過改寫ODE方程為其近似形式如式(18)。

(18)

再通過使用被殘基u(t)控制的ODE的軌跡Xθ,u達(dá)到規(guī)避求解Fisher矩陣,明確控制估計(jì)的近似偏差,以及獲得偏差測量的目的。

4 參數(shù)估計(jì)相關(guān)問題

4.1 可認(rèn)定性與不確定性的影響

參數(shù)估計(jì)又稱參數(shù)可認(rèn)定性,是指從一個(gè)已知系統(tǒng)的實(shí)驗(yàn)及信息中獲得所有未知參數(shù)值的能力[27]??烧J(rèn)定性分為結(jié)構(gòu)可認(rèn)定性與實(shí)際可認(rèn)定性[46],結(jié)構(gòu)可認(rèn)定性是指從實(shí)驗(yàn)數(shù)據(jù)得到的參數(shù)值具有唯一性,實(shí)際可認(rèn)定性是指參數(shù)估計(jì)值的置信區(qū)間具有有限尺寸。一個(gè)參數(shù)在結(jié)構(gòu)可認(rèn)定基礎(chǔ)上,仍然可能是實(shí)際不可認(rèn)定的,這歸因于兩個(gè)點(diǎn),一是所提供實(shí)驗(yàn)數(shù)據(jù)的質(zhì)和量不夠充分,二是由于測量時(shí)間點(diǎn)的選取不合適。此時(shí),盡管有時(shí)似然估計(jì)目標(biāo)值對這個(gè)參數(shù)具有最小值,但置信區(qū)間卻無限大,因此估計(jì)得到的參數(shù)值變得沒有意義。當(dāng)參數(shù)之間有補(bǔ)償效果的時(shí)候,通過以和的方式作為目標(biāo)函數(shù)來認(rèn)定模型中的每一個(gè)參數(shù)是困難的[16]。

參數(shù)估計(jì)值的不確定性是指以多大的可信度確認(rèn)參數(shù)值的準(zhǔn)確性,參數(shù)估計(jì)的結(jié)果當(dāng)然是希望不確定性越小越好。但參數(shù)估計(jì)的不確定性受到模型的復(fù)雜度、數(shù)據(jù)的充分性、數(shù)據(jù)的噪聲以及sloppy屬性等諸多因素的影響[21]。降低參數(shù)估計(jì)不確定性的方法主要集中在對數(shù)據(jù)集的處理,如通過不斷對調(diào)控參數(shù)的數(shù)據(jù)增加擾動[13],使得一個(gè)數(shù)據(jù)集中參數(shù)不確定性大的方向?qū)?yīng)另一個(gè)數(shù)據(jù)集中參數(shù)不確定性小的方向,即讓不同的數(shù)據(jù)集之間具有互補(bǔ)效果[16,19],或者進(jìn)一步探索實(shí)驗(yàn)不確定性和實(shí)驗(yàn)條件之間的關(guān)系。

4.2 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)設(shè)計(jì)的影響

模型中的未知參數(shù)需要基于實(shí)驗(yàn)中觀察到的數(shù)據(jù)進(jìn)行估計(jì),但相對于模型的復(fù)雜性而言,當(dāng)實(shí)驗(yàn)提供的數(shù)據(jù)數(shù)目有限的情況下可能不足以限制住參數(shù)[47]。因此截然不同的數(shù)據(jù)集可能會產(chǎn)生相同擬合效果的參數(shù)集[23],這就是模型復(fù)雜性和數(shù)據(jù)之間信息差異的顯現(xiàn)。那么是否提供足夠多的實(shí)驗(yàn)數(shù)據(jù),就可以認(rèn)定模型中的sloppy參數(shù)?實(shí)驗(yàn)設(shè)計(jì)對參數(shù)估計(jì)有什么樣的影響?不同學(xué)者從不同的角度進(jìn)行了探索。

一些研究者發(fā)現(xiàn),sloppy屬性和“結(jié)構(gòu)不可認(rèn)定”之間不存在等價(jià)關(guān)系[5,14]。通過增加實(shí)驗(yàn)數(shù)據(jù)的確可以提高參數(shù)估計(jì)的精確性[12],而且在sloppy區(qū)域的誤差也很小,在可提供噪聲自由的實(shí)驗(yàn)數(shù)據(jù)條件下,有可能為待估參數(shù)找到唯一的值,但基于此模型的預(yù)測結(jié)果和實(shí)際實(shí)驗(yàn)結(jié)果偏差卻很大。該情況說明在模型構(gòu)建時(shí)細(xì)節(jié)沒有考慮清楚的條件下,為了估計(jì)出參數(shù)需要不斷補(bǔ)充實(shí)驗(yàn)數(shù)據(jù),使得之前模型中不相關(guān)的部分變得相關(guān)同時(shí)也引入了系統(tǒng)錯(cuò)誤。因此,與其一味地增加實(shí)驗(yàn)數(shù)據(jù)提高參數(shù)的可估計(jì)性,不如在參數(shù)估計(jì)前先確定哪些參數(shù)和模型的運(yùn)行機(jī)制密切相關(guān),再做參數(shù)認(rèn)定能更有效。從這點(diǎn)來看,實(shí)驗(yàn)數(shù)據(jù)的增加應(yīng)該讓位于模型規(guī)約以及參數(shù)化簡。再有,因?yàn)閟loppy屬性和模型結(jié)構(gòu)之間的關(guān)系還不能完全被研究者掌握,因此依據(jù)一定的可信度計(jì)算出待估參數(shù)的值比唯一認(rèn)定參數(shù)值更具有現(xiàn)實(shí)意義。

實(shí)驗(yàn)方案的選擇同樣對參數(shù)估計(jì)結(jié)果有影響,研究者們提出了很多實(shí)驗(yàn)方案的改進(jìn)方法以有利于參數(shù)估計(jì)[48]。Chis研究小組發(fā)現(xiàn)在不同的實(shí)驗(yàn)實(shí)現(xiàn)條件下,sloppy參數(shù)的估計(jì)值不同[5,14],針對不同的最優(yōu)實(shí)驗(yàn)標(biāo)準(zhǔn),相對置信區(qū)間的分布也不同。因此對所有參數(shù)而言提高認(rèn)定比例在某種程度上一定會使置信區(qū)間降低,但sloppy屬性仍會保持不變,因此實(shí)驗(yàn)設(shè)計(jì)應(yīng)該使用E-優(yōu)化[49]或D-優(yōu)化[50]而不是追求sloppy最小化。限制實(shí)驗(yàn)中的噪聲可能會將sloppy模型轉(zhuǎn)換為非sloppy模型,但并不意味著參數(shù)的可靠性估計(jì)不能被計(jì)算。而且經(jīng)過精心選擇取樣時(shí)間對于sloppy屬性消除的效果好于單純增加實(shí)驗(yàn)數(shù)目的效果。Apgar和Chachra小組則發(fā)現(xiàn),當(dāng)實(shí)驗(yàn)數(shù)據(jù)通過不同方式產(chǎn)生時(shí),所有數(shù)據(jù)均能以較高的精確度對參數(shù)進(jìn)行認(rèn)定(真實(shí)值的10%范圍內(nèi)),也就是實(shí)驗(yàn)方法的多樣性更有助于參數(shù)認(rèn)證[13]。因?yàn)榇藭r(shí)不同數(shù)據(jù)集合之間是互補(bǔ)關(guān)系,每個(gè)集合都包含了其他集合成員不能提供的信息,此時(shí)一個(gè)實(shí)驗(yàn)大的不確定性方向?qū)?yīng)著至少其他一個(gè)實(shí)驗(yàn)的小確定方向,因此就數(shù)據(jù)整體來說所有的信息都是充分的。

Transtrum小組還針對參數(shù)估計(jì)問題給出了實(shí)驗(yàn)選擇算法[51]。他們首先定義參數(shù)估計(jì)精度的公式如下式(19)所示:

(19)

據(jù)此提出對參數(shù)擬合而言的實(shí)驗(yàn)應(yīng)通過如下步驟得到:

1)找到提供的所有數(shù)據(jù)中,參數(shù)擬合最好地那組數(shù)據(jù);2)假定1)中得到的參數(shù)就是參數(shù)的真實(shí)值,據(jù)此對所有其它數(shù)據(jù)再次執(zhí)行擬合過程;3)根據(jù)參數(shù)估計(jì)精度公式對潛在的實(shí)驗(yàn)重新進(jìn)行評價(jià);4)對每個(gè)實(shí)驗(yàn)找到降低擬合錯(cuò)誤的方法;5)不斷增加新數(shù)據(jù)重復(fù)實(shí)驗(yàn)直到估計(jì)錯(cuò)誤足夠小時(shí)停止。

4.3 對模型預(yù)測的影響

構(gòu)建數(shù)學(xué)模型一方面是研究系統(tǒng)的工作機(jī)理,另一方面就是對系統(tǒng)未來的行為進(jìn)行預(yù)測,因此參數(shù)估計(jì)結(jié)果的好壞也影響著模型預(yù)測的準(zhǔn)確性[13]。即使模型中的每個(gè)參數(shù)只有一個(gè)適度的錯(cuò)誤,都會導(dǎo)致預(yù)測結(jié)果在一個(gè)很寬的范圍[52]。當(dāng)一個(gè)模型中包含很多參數(shù),即使每個(gè)參數(shù)都只有很少的精確性,只要在模型預(yù)測時(shí)把這些不精確性的相關(guān)性考慮進(jìn)去,也能產(chǎn)生有用的預(yù)測[16]。集合性適應(yīng)一定數(shù)量的數(shù)據(jù)可以嚴(yán)格的限制模型的行為但卻無法限制參數(shù)的組合效果,此時(shí)在沒有關(guān)于每個(gè)參數(shù)的精確值時(shí),可能會做出低確定性的預(yù)測,因此精確的參數(shù)值對于可靠性預(yù)測而言至關(guān)重要[21]。

并不是所有的參數(shù)對該預(yù)測都重要,因此如果一個(gè)模型在某個(gè)特定預(yù)測時(shí)只和某些參數(shù)組合相關(guān),則參數(shù)認(rèn)定時(shí)只認(rèn)定這些參數(shù)即可[13]。而且實(shí)際情況是,sloppy模型下的參數(shù)估計(jì)都有不確定性,那么參數(shù)值的變化能在多大程度上影響預(yù)測的結(jié)果,這就需要一種能評價(jià)預(yù)測能力的評價(jià)方法。參數(shù)敏感度分析研究的是參數(shù)值的變化對模型輸出的影響程度[53],因此評價(jià)預(yù)測效果的方法一定和敏感度分析息息相關(guān)。還有的研究人員通過定義相對剛性敏感度和相對敏感度如式(20-21)所示來探索此問題[54]。

(20)

其中

(21)

s=J′JW是常數(shù)

當(dāng)預(yù)測模型比擬合模型更敏感時(shí)RSS可能會提供更多信息,而RS通常適用于參數(shù)只負(fù)責(zé)預(yù)測情況的場合。當(dāng)這兩個(gè)相對測量值趨近于0時(shí),表明參數(shù)估計(jì)是從非常低精確率的擬合中得來的,因此不足以給出有效的預(yù)測。

為了考慮參數(shù)間的相關(guān)性這種模型不確定性的來源,他們又定義了相關(guān)性測量公式如式(22)所示。同樣,趨近于0的RCM表明參數(shù)認(rèn)定效果差會影響預(yù)測的精確性。

(22)

模型的過度參數(shù)化會導(dǎo)致基于模型的預(yù)測性能的退化,因?yàn)轭A(yù)測性能依賴于模型參數(shù)的精確估計(jì)而每個(gè)參數(shù)的不確定性疊加又會造成預(yù)測性能的降低[55]。因此,一開始建模時(shí)就面臨這樣一個(gè)兩難的選擇:是選擇增加參數(shù)的數(shù)目提高數(shù)據(jù)擬合的效果還是減小參數(shù)數(shù)目以提高模型預(yù)測的效果?在考慮這兩點(diǎn)因素情況下的預(yù)測性能優(yōu)化通??梢允褂肁IC(Akaike information criterion)[56]或BIC(Bayesian information criterion)[57]最小化進(jìn)行度量。但這些標(biāo)準(zhǔn)在很多應(yīng)用中失效,失效的根本原因無非是參數(shù)的不確定性以及模型的多峰值性[58],而這兩個(gè)特性對sloppy模型來說都存在。當(dāng)Sloppy模型中存在參數(shù)的不確定性時(shí),此時(shí)AIC會高估真實(shí)情況的復(fù)雜性,如果sloppy模型有多峰值時(shí),AIC又會低估真實(shí)系統(tǒng)的復(fù)雜性。針對此情況Lamont小組提出一個(gè)新的模型選擇標(biāo)準(zhǔn)FIC[59]:

FIC(X,Μ)≡h(X|X)+R

(23)

其中h的負(fù)無偏定義及R定義為

(24)

該標(biāo)準(zhǔn)是AIC的更一般形式,不僅在數(shù)據(jù)量有限時(shí)效果優(yōu)于AIC,而且不受ad hoc先驗(yàn)分布和正則的影響,因此特別適用于貝葉斯模型的選擇,即使模型沒有解析表達(dá)式提供的情況下,計(jì)算效率也有優(yōu)勢。

5 總結(jié)及未來研究方向展望

近20年間,數(shù)學(xué)模型Sloppy屬性的特征、起因、與模型其它屬性的關(guān)系及由此引發(fā)的參數(shù)估計(jì)及模型預(yù)測問題得到了廣大研究者的廣泛關(guān)注和深入研究。這些研究的發(fā)展及取得的研究成果使得人們在面對sloppy模型屬性時(shí)有可以借鑒的理論依據(jù)及有效的解決方法。在本文中,基于所能接觸到的文獻(xiàn)對sloppy屬性的相關(guān)工作進(jìn)行了綜述總結(jié),從分析sloppy屬性在各類數(shù)學(xué)模型中的普遍性及廣泛用途,到判斷該屬性的方法,以及從不同角度分析該屬性產(chǎn)生的起因及消除,然后針對具有該屬性特征的模型如何進(jìn)行有效的參數(shù)估計(jì)都做了總結(jié)?;谝陨系木C述,針對該問題提出一些研究主題,以便持續(xù)推進(jìn)該領(lǐng)域的未來發(fā)展。

1) 針對sloppy屬性估計(jì)的特定優(yōu)化算法研究

前述討論優(yōu)化算法的目標(biāo)函數(shù)多采用點(diǎn)估計(jì)的最小平方和形式,對已有算法的改進(jìn)也是從如何讓最小平方和形式更有效的角度出發(fā)的。對于參數(shù)之間具有補(bǔ)償效果的情形而言,和形式作為目標(biāo)函數(shù)并不是一個(gè)很好的選擇。那么針對sloppy參數(shù)估計(jì)而言,什么樣的目標(biāo)函數(shù)才是一個(gè)好的目標(biāo)函數(shù)卻幾乎沒有文獻(xiàn)予以討論。有效低維和有效高維有何判定特征,以及如何針對不同特征設(shè)計(jì)高效的參數(shù)估計(jì)算法也是未來值得探討的問題。

2) sloppy屬性全局評判標(biāo)準(zhǔn)研究

研究者們都意識到基于Hessian矩陣或Fisher矩陣認(rèn)定sloppy屬性是和特定數(shù)據(jù)相關(guān)的,因此是一種局域性的判定標(biāo)準(zhǔn)。盡管有研究指出可以使用主成分分析多數(shù)據(jù)集以獲得全局視角,但分析多少數(shù)據(jù)集是足夠的?是否有可以脫離數(shù)據(jù)集而存在的全局視角也是未來深入探討的問題之一。

3) 保障模型預(yù)測精確性的參數(shù)估計(jì)標(biāo)準(zhǔn)定義

模型規(guī)約及增加實(shí)驗(yàn)數(shù)據(jù)都可以提高參數(shù)估計(jì)的精確性,但精確到什么程度的參數(shù)估計(jì)可以保證使用該模型預(yù)測的結(jié)果也是精確的,二者之間的定量關(guān)系怎樣,目前研究涉及到的很少。

4) 一體化參數(shù)估計(jì)及模型預(yù)測的框架研究

模型構(gòu)建以及基于模型進(jìn)行預(yù)測是基于模型研究真實(shí)系統(tǒng)的兩個(gè)不同階段,二者相輔相成。但目前的認(rèn)知通常把二者截然分開,且認(rèn)為構(gòu)建好的模型在預(yù)測過程中不應(yīng)改變。這也是造成擬合好的模型預(yù)測效果差的原因之一。應(yīng)該從一體化的角度構(gòu)建這兩個(gè)階段的模型調(diào)控框架,讓彼此之間有反饋和鏈接才能更好提升模型的預(yù)測效果。這樣兩個(gè)階段的模型都是可以動態(tài)調(diào)整的,

5) 人工合成數(shù)據(jù)對參數(shù)估計(jì)及預(yù)測的影響研究

實(shí)驗(yàn)條件的限制造成能獲取到的實(shí)驗(yàn)數(shù)據(jù)就那么多,有時(shí)因?yàn)槌杀镜脑?,甚至最?yōu)實(shí)驗(yàn)設(shè)計(jì)也未必能實(shí)施。因此使用人工合成數(shù)據(jù)提高參數(shù)估計(jì)和模型預(yù)測的準(zhǔn)確率就變得尤為重要,但人工方式合成的實(shí)驗(yàn)數(shù)據(jù)對參數(shù)估計(jì)和模型預(yù)測是否有影響以及有怎樣的影響,這方面的研究幾乎沒有涉及,因此也是未來的研究方向之一。

猜你喜歡
流形參數(shù)估計(jì)矩陣
基于新型DFrFT的LFM信號參數(shù)估計(jì)算法
緊流形上的Schr?dinger算子的譜間隙估計(jì)
迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
Logistic回歸模型的幾乎無偏兩參數(shù)估計(jì)
基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
初等行變換與初等列變換并用求逆矩陣
基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
矩陣
南都周刊(2015年4期)2015-09-10 07:22:44
矩陣
南都周刊(2015年3期)2015-09-10 07:22:44
紫云| 广元市| 吐鲁番市| 通州区| 金沙县| 收藏| 沧州市| 万荣县| 静乐县| 长岛县| 福清市| 乐亭县| 奉节县| 开平市| 辽阳县| 文化| 门头沟区| 德昌县| 浙江省| 鄂尔多斯市| 西吉县| 启东市| 天峨县| 东辽县| 宁远县| 邢台县| 永顺县| 富宁县| 融水| 延长县| 永德县| SHOW| 米泉市| 墨竹工卡县| 仲巴县| 宕昌县| 衡山县| 亳州市| 读书| 鄂托克旗| 沾益县|