施賽楠,高季娟,李東宸
(1.南京信息工程大學(xué)電子與信息工程學(xué)院,江蘇南京 210044;2.中國(guó)船舶工業(yè)系統(tǒng)工程研究院,北京 100094)
復(fù)合高斯模型(Compound-Gaussian Model,CGM)[1]將海雜波建模為一個(gè)慢變紋理調(diào)制一個(gè)快變復(fù)高斯散斑的過(guò)程,已廣泛使用于海雜波建模中。在CGM 中,不同的紋理分布產(chǎn)生不同的海雜波幅度分布。典型的有,具有伽馬紋理的K 分布[2-3],具有逆伽馬紋理的廣義Pareto 分布[4]、具有逆高斯紋理的復(fù)合高斯分布[5]和具有對(duì)數(shù)正態(tài)紋理的復(fù)合高斯分布[6]。這些雜波分布在研究雜波仿真、雜波抑制、最優(yōu)或近最優(yōu)檢測(cè)器設(shè)計(jì)等方面起著至關(guān)重要的作用。
目前,K分布已廣泛用于描述中低分辨率海雜波的幅度分布[2-3]。該分布的特性參數(shù)包括形狀參數(shù)和尺度參數(shù),前者決定雜波的非高斯特性,后者反映雜波功率水平。通常,采用以下三大類方法獲得雜波參數(shù)的估計(jì)值。第一類,基于概率密度函數(shù)(Probability Density Function, PDF)的估計(jì)方法,比如最大似然(Maximum Likelihood,ML)估計(jì)法[7]和矩估計(jì)法(Method of Moment,MoM)[8]。ML估計(jì)精度高,但沒(méi)有顯式解析表達(dá)式且計(jì)算復(fù)雜度高??紤]到實(shí)際雷達(dá)系統(tǒng)要求實(shí)時(shí)估計(jì)的要求,發(fā)展了結(jié)構(gòu)簡(jiǎn)單且快速估計(jì)的MoM 估計(jì),比如2-4 階矩估計(jì)、1-2 階矩估計(jì)、分?jǐn)?shù)階矩估計(jì)[9-10]等。此外,為了進(jìn)一步挖掘矩信息,Yang 等人將原點(diǎn)矩偏導(dǎo)和原點(diǎn)矩之間的關(guān)系用于參數(shù)估計(jì)中[11]。針對(duì)小形狀參數(shù)下矩估計(jì)誤差大的問(wèn)題,Blacknell等人提出zlog(z)期望的參數(shù)估計(jì)方法[12]。同時(shí),在該方法上進(jìn)行拓展,Hu 等人得到了zrlog(z)期望法[13]。第二類,基于累積分布函數(shù)(Cumulative Distribution Function, CDF)的估計(jì)方法,比如分位點(diǎn)估計(jì)法(Method of Percentile, MoP)[14-15]。Yu 提出基于三分位點(diǎn)估計(jì)器(Tri-percentile Estimator,TPE)[15],兩個(gè)分位點(diǎn)比值用于估計(jì)形狀參數(shù),第三個(gè)分位點(diǎn)用于估計(jì)尺度參數(shù),適用于存在較多異常值的雜波環(huán)境中。由于K 分布存在貝塞爾函數(shù),因而很難獲得分位點(diǎn)比值和形狀參數(shù)之間的函數(shù)關(guān)系,必須借助表格法獲得。第三類,基于非線性網(wǎng)絡(luò)的參數(shù)估計(jì)方法,引入人工智能網(wǎng)絡(luò)建立觀測(cè)值和參數(shù)之間的函數(shù)關(guān)系。Fernández 等人[16]提出先對(duì)數(shù)據(jù)功率進(jìn)行歸一化處理,然后將直方圖作為神經(jīng)網(wǎng)絡(luò)的輸入來(lái)估計(jì)形狀參數(shù),只需單個(gè)網(wǎng)絡(luò)。但是,歸一化處理需要提前估計(jì)尺度參數(shù),其誤差勢(shì)必會(huì)影響后續(xù)形狀參數(shù)的估計(jì)。因此,在設(shè)計(jì)估計(jì)器時(shí),必須解決形狀參數(shù)和尺度參數(shù)獨(dú)立估計(jì)的問(wèn)題。
為了進(jìn)一步提高參數(shù)估計(jì)精度,本文提出了一種基于多維矩特征聯(lián)合的K 分布雜波參數(shù)估計(jì)方法。主要?jiǎng)?chuàng)新有以下三個(gè)方面。第一,聯(lián)合提取多個(gè)線性矩和對(duì)數(shù)矩,構(gòu)建一個(gè)特征向量用于估計(jì)形狀參數(shù),拓展矩信息的維度,進(jìn)而提高數(shù)據(jù)信息的利用率。第二,將傳統(tǒng)基于統(tǒng)計(jì)分布的參數(shù)估計(jì)問(wèn)題轉(zhuǎn)換為非線性優(yōu)化問(wèn)題,引入梯度提升樹(shù)(Gradient Boosting Decision Tree,GBDT)算法[17],建立特征向量和形狀參數(shù)之間的非線性關(guān)系,提高估計(jì)精度。第三,精心設(shè)計(jì)矩特征,并推導(dǎo)證明特征向量與尺度參數(shù)相互獨(dú)立,并且二階矩只依賴于尺度參數(shù),實(shí)現(xiàn)形狀參數(shù)和尺度參數(shù)的獨(dú)立估計(jì)。
根據(jù)海雜波的物理散射機(jī)理,海雜波可表述為一個(gè)慢變分量調(diào)制一個(gè)快變分量,即
式中:τ稱為紋理分量,是一個(gè)正的隨機(jī)變量,由大尺度的涌浪產(chǎn)生;u稱為散斑分量,服從零均值、單位方差的復(fù)高斯分布,由小尺度的毛細(xì)波產(chǎn)生。在CGM 中,不同的紋理分布會(huì)產(chǎn)生不同的雜波幅度分布。當(dāng)紋理服從伽馬分布時(shí),海雜波幅度x=服從K分布。K分布的PDF表達(dá)式為
式中,Γ(·)為伽馬函數(shù),Kv-1(·)為v-1 階的第二類修正Bessel 函數(shù),v為形狀參數(shù),b為尺度參數(shù)。形狀參數(shù)決定分布的非高斯性,尺度參數(shù)與雜波功率相關(guān)。
根據(jù)式(2),計(jì)算出r階矩為
式中,E為期望運(yùn)算符。通常,理論矩是未知的,需要通過(guò)獲取實(shí)際環(huán)境中的N個(gè)樣本獲得。假設(shè)N個(gè)樣本x1,x2,…,xN服從K分布且相互獨(dú)立,則樣本矩為當(dāng)樣本數(shù)目N趨向于無(wú)窮時(shí),樣本矩等于理論矩。
在實(shí)際雷達(dá)探測(cè)場(chǎng)景中,通常需要快速獲得K分布的參數(shù)估計(jì)值。因而,矩估計(jì)方法得到了廣泛的應(yīng)用。理論上,MoM 估計(jì)可使用任意兩個(gè)矩來(lái)估計(jì)形狀參數(shù)和尺度參數(shù)。在式(3)中,令r=2,則
可見(jiàn),二階矩只決定于尺度參數(shù)b。根據(jù)式(4),得到尺度參數(shù)的估計(jì)為
因此,矩估計(jì)的重點(diǎn)在于如何獲得形狀參數(shù)的估計(jì)。典型地,2-4 階矩估計(jì)法(MoM 2-4)、1-2 階矩估計(jì)法(MoM 1-2)的形狀參數(shù)估計(jì)分別為[8]
此外,為了更好地?cái)M合重雜波拖尾的雜波,文獻(xiàn)[13]采用對(duì)數(shù)矩,稱為zrlog(z)期望法,其形狀參數(shù)的表達(dá)式為
式中,z=x2為雜波功率,ψ(·)為Digamma 函數(shù)。同樣,zrlog(z)期望法無(wú)法獲得形狀參數(shù)的顯式解析表達(dá)式,只能借助數(shù)值法求解。
下面,討論不同矩估計(jì)器的形狀參數(shù)估計(jì)性能。由于尺度參數(shù)估計(jì)方法一致,采用形狀參數(shù)的相對(duì)均方根誤差(Relative Root Mean Square Error,RRMSE)作為衡量指標(biāo):
式中,v和?分別為形狀參數(shù)的真實(shí)值和估計(jì)值。圖1 給出了不同形狀參數(shù)下的6 種矩估計(jì)器的RRMSE 曲線。在圖1(a)中,低階矩MoM 1-2 的估計(jì)誤差明顯小于高階矩MoM 2-4 的估計(jì)誤差。因而,實(shí)際矩估計(jì)器的矩階數(shù)一般不會(huì)高于4。相對(duì)于MoM 1-2 估計(jì)器,MoM 1-2-3 估計(jì)器增加一個(gè)高階矩后,在中等形狀參數(shù)下有一定的性能提升。這意味著,合理地增加矩的個(gè)數(shù)是一種提升估計(jì)性能的潛在途徑。在圖1(b)中,當(dāng)形狀參數(shù)v<2 時(shí),對(duì)數(shù)矩的估計(jì)誤差明顯小于矩估計(jì)。但是,當(dāng)形狀參數(shù)v>10 時(shí),情況正好相反。此外,不同階數(shù)r明顯影響估計(jì)性能。當(dāng)r<1 時(shí),適合估計(jì)具有小形狀參數(shù)的雜波;當(dāng)r>1 時(shí),適合估計(jì)具有大形狀參數(shù)的雜波。從整體上來(lái)看,MoM 估計(jì)器在形狀參數(shù)較大時(shí)的估計(jì)性能較好,而zrlog(z)估計(jì)器在形狀參數(shù)較小時(shí)的估計(jì)性能較好,兩種估計(jì)器具有一定的互補(bǔ)性。因此,可以考慮將兩者的優(yōu)勢(shì)結(jié)合起來(lái),以降低整體的參數(shù)估計(jì)誤差。
圖1 不同估計(jì)器的性能互補(bǔ)性分析
事實(shí)上,海雜波幅度分布的參數(shù)受到多種因素的影響[1-2],主要包括雷達(dá)工作參數(shù)和實(shí)時(shí)海洋環(huán)境參數(shù)。雷達(dá)工作參數(shù)一般有距離分辨率、擦地角、極化方式等。在高分辨率小擦地角下,海雜波的幅度分布明顯偏離高斯分布,其分布的形狀參數(shù)變小。海洋環(huán)境參數(shù)包含風(fēng)速、風(fēng)向、海況、溫度等多種氣象因素。通常,氣象環(huán)境是隨著時(shí)間不斷變化的。不同環(huán)境下采集的雜波參數(shù)特性是不同的。因此,一種可靠有效的手段是收集當(dāng)前環(huán)境下的雷達(dá)回波后實(shí)時(shí)估計(jì)雜波的參數(shù)。此外,在時(shí)間上,海雜波時(shí)間序列呈現(xiàn)出短時(shí)平穩(wěn)而長(zhǎng)時(shí)非平穩(wěn)特性。在空間上,海雜波具有局部均勻而整體非均勻的特性。然而,通常要求用于雜波參數(shù)估計(jì)的樣本是獨(dú)立同分布的,這意味著只有局部區(qū)域中短時(shí)的雜波序列可用于參數(shù)估計(jì)。幸運(yùn)的是,高分辨雷達(dá)一旦開(kāi)機(jī)后,可收集大量的局部短時(shí)雜波序列。因此,在大場(chǎng)景雜波環(huán)境下,需要對(duì)不同空間的雜波進(jìn)行劃分,實(shí)時(shí)估計(jì)雜波特性。
對(duì)于K 分布雜波,需要估計(jì)形狀參數(shù)和尺度參數(shù)。尺度參數(shù)反映了雜波的平均功率水平,可根據(jù)式(6)中的幅度二階矩,獲得其估計(jì)值。形狀參數(shù)反映了雜波的非高斯特性,更能表征雜波的本質(zhì),并且其與最優(yōu)相干檢測(cè)器相關(guān)。因而,亟需解決的是K分布雜波的形狀參數(shù)估計(jì)。
本質(zhì)上,矩估計(jì)法是通過(guò)幅度分布的PDF 建立了兩個(gè)線性矩和形狀參數(shù)之間的函數(shù)關(guān)系進(jìn)行參數(shù)估計(jì)的。這種方法的核心在于找到函數(shù)關(guān)系,最終估計(jì)器是否存在顯式解析表達(dá)式與采用的兩個(gè)矩戚戚相關(guān),比如式(7)中的MoM 2-4 和MoM 1-2。啟發(fā)于這種思路,本文提出了一種基于多維矩特征聯(lián)合(Multidimensional Moment Feature Combination,MMFC)的估計(jì)器框架,通過(guò)豐富估計(jì)器可用信息以提升形狀參數(shù)的估計(jì)性能,如圖2所示。首先,提取了海雜波時(shí)間序列c(n),n=1,2,…,N中的矩特征,包含線性矩特征和對(duì)數(shù)矩特征兩大類。其次,聯(lián)合所有的特征,構(gòu)成一個(gè)特征向量ξ。在高維特征空間中,該向量凝聚了海雜波時(shí)間序列的顯著特征。然后,K分布參數(shù)估計(jì)問(wèn)題轉(zhuǎn)換為高維空間中的一個(gè)非線性優(yōu)化問(wèn)題。該優(yōu)化問(wèn)題最終找到一個(gè)最優(yōu)的非線性函數(shù)F,建立特征向量ξ和形狀參數(shù)v之間的函數(shù)映射關(guān)系,實(shí)現(xiàn)形狀參數(shù)估計(jì)。最后,根據(jù)式(6)中的幅度二階矩,獲得尺度參數(shù)的估計(jì)。
圖2 MMFC估計(jì)的流程圖
MMFC 估計(jì)法的核心在于特征提取和非線性函數(shù)獲取。由于K 分布是雙參數(shù)模型,式(3)中的原點(diǎn)矩往往由兩個(gè)參數(shù)決定。但是,在實(shí)際參數(shù)估計(jì)中,為了降低估計(jì)誤差,往往要求兩個(gè)參數(shù)的估計(jì)是獨(dú)立的。這意味著提取的特征必須只包含單個(gè)參數(shù)的信息。因而,特征設(shè)計(jì)的首要原則是必須只依賴于形狀參數(shù),完全獨(dú)立于尺度參數(shù)。并且,如何從海雜波序列中提取有效的特征,這也是特征提取的難點(diǎn)和重點(diǎn)。在傳統(tǒng)矩估計(jì)中,雖然用了兩個(gè)矩,但實(shí)際上只有單個(gè)矩比值,屬于一維優(yōu)化問(wèn)題。根據(jù)雜波分布的PDF,一般都可以尋找到非線性函數(shù),且在特殊情況下具有顯式解析表達(dá)式,如MoM 2-4 估計(jì)器。不同于傳統(tǒng)矩估計(jì),特征向量包含了多個(gè)矩的信息,需要在三維甚至更高維的特征空間中尋找非線性函數(shù)F。因此,以尋找與真實(shí)形狀參數(shù)誤差最小的F為目標(biāo),可構(gòu)建如下的最優(yōu)化問(wèn)題:
式中,F(xiàn)(.|v)表示只依賴于v的高維非線性函數(shù)且?,高維空間維度取決于特征向量的維度。通常,為了提升估計(jì)性能,需要聯(lián)合更多的矩特征,勢(shì)必會(huì)增加非線性函數(shù)的維度。因此,式(11)的優(yōu)化問(wèn)題很難從理論上獲得具體解析函數(shù)表達(dá)式。此外,基于多維特征的估計(jì)方法是一個(gè)開(kāi)放的框架,可以自由地設(shè)計(jì)特征以及尋找非線性函數(shù)。同時(shí),該框架不局限于K 分布雜波,不依賴于雜波的概率分布,后續(xù)可用其他不同的雜波分布。
在海雜波分布參數(shù)估計(jì)中,可用的信息全部來(lái)自于當(dāng)前局部區(qū)域獲得的海雜波時(shí)間序列。通常,從海雜波時(shí)間序列中獲得統(tǒng)計(jì)矩,用于估計(jì)雜波分布的形狀參數(shù)和尺度參數(shù)。本文將反映雜波特性的統(tǒng)計(jì)特征,統(tǒng)稱為特征。相對(duì)于海雜波時(shí)間序列,特征凝聚了雜波特性,大大減少了數(shù)據(jù)的存儲(chǔ)空間。在這種情況下,如何提取有效特征是估計(jì)的核心。目前,K分布下發(fā)展了大量的矩估計(jì)器,這表明統(tǒng)計(jì)矩是一種有效的特征。
那么,下一步是如何設(shè)計(jì)矩特征。需要指出的是,在式(3)中,除了二階矩,其他任意r階矩由尺度參數(shù)和形狀參數(shù)同時(shí)決定。若直接使用矩特征,需要同時(shí)估計(jì)尺度參數(shù)和形狀參數(shù),因?yàn)檫@兩者是相互關(guān)聯(lián)的。這無(wú)疑大大增加了參數(shù)估計(jì)的困難。目前,有兩種途徑可以解決上述問(wèn)題。第一種途徑,先采用二階矩估計(jì)尺度參數(shù),然后將海雜波時(shí)間序列的功率除以尺度參數(shù),獲得歸一化的海雜波時(shí)間序列,去除尺度參數(shù)影響[17]。這種方式易于尋找特征,但尺度參數(shù)的估計(jì)誤差勢(shì)必會(huì)進(jìn)入形狀參數(shù)的估計(jì)中,從而降低估計(jì)性能。第二種途徑,設(shè)計(jì)不依賴于尺度參數(shù)的特征,比如MoM 2-4中四階矩比二階矩的平方,完全去除尺度參數(shù)和形狀參數(shù)的相關(guān)性,使兩個(gè)參數(shù)的估計(jì)誤差不再相互影響,有利于提升估計(jì)性能。但這就需要設(shè)計(jì)者具有一定的先驗(yàn)知識(shí)去尋找具體的特征。
為了減少估計(jì)性能的損失,本文采用第二種途徑。假設(shè)存在a,c,d階的3個(gè)矩,矩比值定義為
當(dāng)a=c+d時(shí),矩比值僅取決于形狀參數(shù)v,獨(dú)立于尺度參數(shù)b。
綜合考慮現(xiàn)有的MoM 估計(jì)器和式(12)特性,本文精心提取了7個(gè)矩比值,構(gòu)成一個(gè)線性矩向量
該線性矩向量凝聚了0.5 階、1.5 階、2.5 階、3.5 階分?jǐn)?shù)矩和1 階、2 階、3 階、4 階矩的信息,豐富了信息的多樣性,同時(shí)拓展了信息的維度。
同樣地,根據(jù)式(9),可證明對(duì)數(shù)矩比值只與形狀參數(shù)有關(guān)。因此,本文提取了3個(gè)對(duì)數(shù)矩比值特征,構(gòu)成一個(gè)對(duì)數(shù)矩向量
考慮到對(duì)數(shù)矩和線性矩估計(jì)器兩者的互補(bǔ)性,將兩個(gè)矩向量聯(lián)合,構(gòu)建一個(gè)高維特征空間。相應(yīng)地,得到一個(gè)10維的特征向量
顯然,該特征向量ξ只與形狀參數(shù)v有關(guān)。由于式(12)和式(9)中存在伽馬函數(shù)和Digamma 函數(shù),理論上很難推出ξ和v之間的顯式解析表達(dá)式。
在高維特征空間中,式(11)的優(yōu)化問(wèn)題需要找到一個(gè)高維函數(shù)關(guān)系,實(shí)現(xiàn)從特征向量中估計(jì)出形狀參數(shù),且該函數(shù)必須保證估計(jì)值與真實(shí)值之間的誤差最小。理論上,存在這樣的高維函數(shù)關(guān)系。但是,由于高維函數(shù)的非線性和復(fù)雜性,實(shí)際上很難給出這樣的數(shù)學(xué)解析表達(dá)式。因此,本文引入模式識(shí)別里的GBDT算法[17],獲得非線性函數(shù)F的最優(yōu)表達(dá)式。
GBDT 算法是一種以分類回歸樹(shù)(Classification And Regression Tree, CART)為基學(xué)習(xí)器的集成學(xué)習(xí)算法。它能夠?qū)W習(xí)輸入向量中蘊(yùn)含的多維信息,建立輸入向量和真實(shí)值之間的復(fù)雜函數(shù)關(guān)系,在小樣本數(shù)據(jù)上具有較好的估計(jì)性能。假設(shè)存在M棵CART 樹(shù),每棵樹(shù)的深度為D,級(jí)聯(lián)構(gòu)成GBDT模型。對(duì)于任意一棵樹(shù),按照損失函數(shù)的最小值進(jìn)行迭代更新參數(shù)。損失函數(shù)定義為平方誤差,即
式中,f(·)表示某棵CART 樹(shù)的函數(shù)。與式(11)中的優(yōu)化問(wèn)題一致,所有的CART 樹(shù)都尋找與真實(shí)形狀參數(shù)值誤差最小的函數(shù)。最終,將M棵CART樹(shù)的結(jié)果累加獲得最終的估計(jì)結(jié)果。當(dāng)GBDT 的輸入為式(15)中的特征向量ξ時(shí),最終輸出為
式中,fM(·)表示第M棵CART 樹(shù)的參數(shù)函數(shù)。因此,借助GBDT 算法,fM(·)可以作為式(11)中最終優(yōu)化函數(shù)F的近似解。當(dāng)然,后續(xù)也可以采用其他的算法,獲得優(yōu)化問(wèn)題的最優(yōu)解或近似最優(yōu)解。
下面,問(wèn)題的關(guān)鍵是如何獲得GBDT 模型的參數(shù)。這就需要從大量的海雜波時(shí)間序列中自主學(xué)習(xí)模型的最優(yōu)參數(shù)。假設(shè)訓(xùn)練集Ω包含Q個(gè)特征向量ξi,i= 1,2,…,Q和相對(duì)應(yīng)的真實(shí)形狀參數(shù)值vi,i= 1,2,…,Q,簡(jiǎn)記為
需要指出的是,訓(xùn)練集樣本需要盡可能地覆蓋不同形狀參數(shù),保證建立較為穩(wěn)健的特征向量和形狀參數(shù)之間的關(guān)系。此外,需要保證不同形狀參數(shù)下的樣本數(shù)量是足夠的,能深入挖掘到特征向量所包含的形狀參數(shù)信息。
圖3 給出了GBDT 模型的訓(xùn)練過(guò)程,用于獲取模型的最優(yōu)權(quán)重參數(shù),具體步驟如下。
圖3 GBDT模型訓(xùn)練過(guò)程
步驟1:初始化
對(duì)于輸入的訓(xùn)練集Ω,初始化參數(shù)為式中,γ表示使損失函數(shù)達(dá)到最小的常數(shù)。
步驟2:生成第m棵CART樹(shù)
對(duì)于第i個(gè)樣本,計(jì)算損失函數(shù)的負(fù)梯度
由此,得到J個(gè)葉節(jié)點(diǎn)以及其對(duì)應(yīng)的葉節(jié)點(diǎn)區(qū)域Rmj,j= 1,2,…,J。然后,計(jì)算第j個(gè)節(jié)點(diǎn)的最佳殘差擬合值
最后,生成第m棵CART樹(shù)的參數(shù)函數(shù)
式中,ρ∈[0,1]為學(xué)習(xí)率,避免過(guò)擬合現(xiàn)象。當(dāng)ξi∈Rmj成立時(shí),I(ξi∈Rmj)取值為1,反之為0。
步驟3:生成第M棵CART樹(shù)
重復(fù)步驟2,直到生成第M棵CART樹(shù)。最終,GBDT的輸出為
至此,獲得給定訓(xùn)練樣本下的GBDT 模型的最優(yōu)權(quán)重參數(shù),完成式(11)中的最優(yōu)化問(wèn)題求解。
事實(shí)上,形狀參數(shù)的估計(jì)精度在很大程度上依賴于GBDT 模型的參數(shù)。通常,GBDT 模型主要分為結(jié)構(gòu)參數(shù)和學(xué)習(xí)參數(shù)兩大類。結(jié)構(gòu)參數(shù)決定了GBDT模型的結(jié)構(gòu),比如CART樹(shù)的數(shù)目M,每棵樹(shù)的最大深度D,學(xué)習(xí)率ρ等。學(xué)習(xí)參數(shù)需要從訓(xùn)練集中學(xué)習(xí)獲得,比如葉子節(jié)點(diǎn)數(shù)J,葉子節(jié)點(diǎn)對(duì)應(yīng)的最佳殘差擬合值等。當(dāng)訓(xùn)練集更改時(shí),學(xué)習(xí)參數(shù)必須重新從訓(xùn)練集中學(xué)習(xí)獲得,即高度依賴于數(shù)據(jù)。然而,結(jié)構(gòu)參數(shù)對(duì)數(shù)據(jù)的依賴度較小,可以提前設(shè)置。理論上,結(jié)構(gòu)參數(shù)設(shè)置得越大,即聯(lián)合更多和更深的基分類器,可以提高估計(jì)性能。但同時(shí)也帶來(lái)了過(guò)擬合和計(jì)算量高的問(wèn)題。因此,有必要研究如何設(shè)置合理的結(jié)構(gòu)參數(shù)。
圖4 給出了不同結(jié)構(gòu)參數(shù)下估計(jì)器的平均RRMSE 曲線,其中平均RRMSE 為形狀參數(shù)從0 到20 之間的平均誤差值。在圖4(a)中,隨著CART樹(shù)的數(shù)目增加,平均RRMSE 的值逐步減少。這表明多個(gè)弱分類器聯(lián)合后,確實(shí)可以提高估計(jì)性能。但是,這種性能增加不是無(wú)止盡的。當(dāng)M>100后,估計(jì)性能趨于穩(wěn)定。在圖4(b)中,隨著樹(shù)的深度D的增加,平均RRMSE 的值呈現(xiàn)先下降后上升的趨勢(shì)。這說(shuō)明較大的深度可以提升估計(jì)性能,但過(guò)大的D值,導(dǎo)致GBDT 算法存在過(guò)擬合的問(wèn)題。類似地,在圖4(c)中,隨著學(xué)習(xí)率ρ的增加,導(dǎo)致GBDT 算法過(guò)度依賴于先前的數(shù)據(jù)特性而性能降低。因此,綜合考慮性能和計(jì)算量,在后續(xù)的實(shí)驗(yàn)中,設(shè)置M=200,D=15,ρ=0.1。
圖4 結(jié)構(gòu)參數(shù)對(duì)估計(jì)器性能的影響
除了結(jié)構(gòu)參數(shù),GBDT 的估計(jì)性能還受到學(xué)習(xí)參數(shù)的影響。GBDT 模型需要根據(jù)當(dāng)前的數(shù)據(jù)不斷更新學(xué)習(xí)數(shù)據(jù)本身包含的形狀參數(shù)和矩特征之間的關(guān)系。因此,需要合理地設(shè)置訓(xùn)練集,以保證GBDT 模型估計(jì)性能的廣泛性和優(yōu)越性。考慮到K 分布的特性,設(shè)置形狀參數(shù)的范圍從0.1 到20,間隔為0.1 均勻取值。由于矩特征不依賴于尺度參數(shù),因而尺度參數(shù)可任意取,比如設(shè)定為1。對(duì)于每個(gè)給定的形狀參數(shù)v,生成長(zhǎng)度為104服從K分布的海雜波時(shí)間序列,按照式(13)和式(14),提取對(duì)應(yīng)的線性矩特征和對(duì)數(shù)矩特征,最終構(gòu)成式(15)中的特征向量。該特征向量和真實(shí)的形狀參數(shù),構(gòu)成一個(gè)樣本。為了增加樣本數(shù)目,該過(guò)程重復(fù)1 000次。因此,對(duì)于式(18)的訓(xùn)練集,總樣本數(shù)為Q=200 000,用于訓(xùn)練GBDT模型的最優(yōu)學(xué)習(xí)參數(shù)。
圖5 給出了5 種估計(jì)器的RRMSE 誤差曲線。隨著形狀參數(shù)的增加,所有誤差曲線呈現(xiàn)出增大的趨勢(shì)。這是因?yàn)樵诖笮螤顓?shù)下K 分布海雜波趨向于高斯分布,導(dǎo)致PDF 曲線之間差異性變小。MoM 1-2 估計(jì)器[8]性能整體優(yōu)于MoM 2-4 估計(jì)器[8],再次驗(yàn)證了低階矩在估計(jì)性能上的優(yōu)勢(shì)。然而,zlogz估計(jì)器[12]性能與MoM 1-2 估計(jì)器[8]接近,并且在形狀參數(shù)v<2 時(shí),其估計(jì)誤差最小。為了提升估計(jì)器性能,TPE估計(jì)器[15]的一個(gè)分位點(diǎn)設(shè)置為0.9。該估計(jì)器在形狀參數(shù)v<2 時(shí)具有較好的性能,但在形狀參數(shù)較大時(shí),性能損失嚴(yán)重。這是由其估計(jì)器本身特性決定的。不同于矩估計(jì),分位點(diǎn)估計(jì)只采用了3個(gè)分位點(diǎn)的信息,因而信息量非常有限。在大形狀參數(shù)情況下,存在一定的性能損失。但這些有限的信息,在異常環(huán)境下,具有較好的抗噪聲性能。從整體上來(lái)說(shuō),本文所提的MMFC 估計(jì)器的平均RRMSE 值最小,具有最佳的估計(jì)性能。相較于MoM 1-2[8]和zlog(z)估計(jì)器[12],MMFC 估計(jì)器不僅在小形狀參數(shù)(v<2)時(shí)獲得更精準(zhǔn)的估計(jì)結(jié)果,并且大大降低了在大形狀參數(shù)(v>10)下的估計(jì)誤差。這種性能優(yōu)勢(shì)主要得益于多個(gè)線性矩特征和對(duì)數(shù)矩特征的聯(lián)合使用,集成了線性矩估計(jì)和對(duì)數(shù)矩估計(jì)的優(yōu)勢(shì)。
圖5 不同形狀參數(shù)下估計(jì)器性能對(duì)比
為了更加量化性能對(duì)比結(jié)果,表1 列出了不同形狀參數(shù)區(qū)間下,5 種估計(jì)器的平均RRMSE值。從整體來(lái)看,即ν∈(0,20],所提估計(jì)器的平均RRMSE 最小。相對(duì)于MoM 1-2 估計(jì)器[8]、MoM 2-4 估計(jì)器[8]、zlogz估計(jì)器[12]和TPE 估計(jì)器[15],所提MMFC 估計(jì)器分別有23%,34%,33%,48%的估計(jì)性能提升。 當(dāng)形狀參數(shù)非常小時(shí),即ν∈(0,0.5],K 分布海雜波完全偏離高斯分布,其概率密度函數(shù)表現(xiàn)出嚴(yán)重的重拖尾現(xiàn)象。通常,這種雜波出現(xiàn)在高海況、低擦地角條件下。此時(shí),MMFC 估計(jì)器僅次于最優(yōu)的zlogz估計(jì)器,具有部分性能損失。 當(dāng)形狀參數(shù)較小時(shí),即ν∈(0.5,2],此時(shí)K 分布海雜波具有重拖尾現(xiàn)象,出現(xiàn)在中高海況下,這也是大多數(shù)雷達(dá)工作的環(huán)境。相對(duì)次最優(yōu)zlogz估計(jì)器[12],MMFC 估計(jì)器的性能最優(yōu),具有19%的性能提升空間。當(dāng)形狀參數(shù)中等大小時(shí),即ν∈(2,10],此時(shí)K 分布海雜波較為平穩(wěn),出現(xiàn)在低中海況下。除了TPE 估計(jì)器[15]存在較大的性能損失,剩下的4 種估計(jì)器性能接近。當(dāng)形狀參數(shù)較大時(shí),即ν∈(10,20],K 分布海雜波接近高斯分布,往往出現(xiàn)在低海況下或遠(yuǎn)海區(qū)。所提估計(jì)器能夠充分利用多個(gè)矩的信息,相對(duì)于次優(yōu)MoM 1-2 估計(jì)器具有36%的性能提升。綜上,所提MMFC 估計(jì)器具有最佳的綜合性能,有望應(yīng)用于不同的雜波環(huán)境下。
表1 不同形狀參數(shù)區(qū)間下的平均RRMSE值
在仿真實(shí)驗(yàn)中,RRMSE 可以用來(lái)準(zhǔn)確地衡量形狀參數(shù)的估計(jì)誤差。但是,該指標(biāo)要求已知真實(shí)形狀參數(shù),這在實(shí)際探測(cè)環(huán)境下是不可能實(shí)現(xiàn)的。因此,當(dāng)用實(shí)測(cè)數(shù)據(jù)評(píng)估性能時(shí),采用KS 距離(Kolmogorov-Smirnov Distance,KSD)
式中,C(·)表示K 分布的CDF。在實(shí)際雜波環(huán)境中,K 分布雜波的所有真實(shí)參數(shù)都是未知的。此時(shí),雜波序列真實(shí)的CDF 通常用經(jīng)驗(yàn)CDF 代替。因此,KSD 反映了由參數(shù)估計(jì)值得到的經(jīng)驗(yàn)CDF與真實(shí)CDF 之間的差值大小。KSD 值越小,表明擬合誤差越小,估計(jì)精度越高。
實(shí)測(cè)數(shù)據(jù)來(lái)自X 波段Fynmeet 雷達(dá)于2006 年8 月1 日采集的數(shù)據(jù)[18],文件名為TFC15_004。該雷達(dá)架設(shè)在岸邊,工作在VV 極化下的駐留模式,距離分辨率為15 m,脈沖重復(fù)頻率為5 kHz,探測(cè)范圍距離岸邊3 km到4.4 km。圖6(a)畫出了時(shí)間-距離的雜波幅度圖,呈現(xiàn)出明暗交替的“斑馬”條紋現(xiàn)象。顏色越亮,表明雜波幅度值越高,反之雜波幅度越低。區(qū)域A 包含大量的亮點(diǎn),雜波幅度起伏較大。區(qū)域B同時(shí)包含亮點(diǎn)和暗點(diǎn),雜波幅度起伏中等。區(qū)域C包含大量的暗點(diǎn),雜波幅度起伏較小。這3個(gè)區(qū)域作為不同雜波特性的典型區(qū)域,用于驗(yàn)證不同估計(jì)器的性能,結(jié)果如圖6(b)~(d)所示。
圖6 Fynmeet數(shù)據(jù)上5種估計(jì)器的擬合結(jié)果
表2 列出了各個(gè)估計(jì)器的形狀參數(shù)估計(jì)值和KSD 值。在區(qū)域A 內(nèi),形狀參數(shù)v的值較小,雜波具有很強(qiáng)的非高斯性。MMFC 估計(jì)器的KSD 值最小,其次是zlogz估計(jì)器[12],剩下3 種估計(jì)器都遭受了較為嚴(yán)重的性能損失。在區(qū)域B內(nèi),形狀參數(shù)的值中等,雜波幅度較為均勻。因而,5 種估計(jì)器的KSD 值較為接近,但MMFC 估計(jì)器的KSD 值仍是最小的。在區(qū)域C 內(nèi),形狀參數(shù)v的值較大,雜波趨向于高斯分布。MMFC估計(jì)器的估計(jì)精度最高,zlog(z)估計(jì)器[12]的估計(jì)誤差最大。由此可見(jiàn),5 種估計(jì)器在實(shí)測(cè)數(shù)據(jù)3 個(gè)區(qū)域內(nèi)的參數(shù)估計(jì)結(jié)果和仿真實(shí)驗(yàn)的結(jié)果一致。并且,所提MMFC 估計(jì)器在3 個(gè)區(qū)域內(nèi)都實(shí)現(xiàn)了最佳的擬合,這表明MMFC估計(jì)器具有較好的穩(wěn)健性,能適用于不同的K 分布雜波環(huán)境。
表2 3個(gè)典型區(qū)域雜波擬合值
本文主要研究了K 分布雜波的參數(shù)估計(jì)方法。不同于基于概率密度函數(shù)的矩估計(jì)法,將參數(shù)估計(jì)問(wèn)題轉(zhuǎn)換為高維特征空間中的非線性最優(yōu)化問(wèn)題。因此,提出了一種基于多維矩特征聯(lián)合的估計(jì)方法,豐富了參數(shù)估計(jì)的信息量。所提出的估計(jì)器具有穩(wěn)健的估計(jì)性能,能運(yùn)用于實(shí)際復(fù)雜雜波環(huán)境。此外,本文給出的是一種新的參數(shù)估計(jì)框架,后續(xù)可根據(jù)雜波特性深入研究特征提取和非線性函數(shù)獲取的問(wèn)題。