葛泉波 程惠茹 張明川 鄭瑞娟 朱軍龍 吳慶濤
在復(fù)雜水域中,無人船(Unmanned surface vehicle,USV)需要準(zhǔn)確地了解自身的位置、姿態(tài)和運(yùn)動(dòng)狀態(tài),以便進(jìn)行自主導(dǎo)航和避障.位姿測(cè)量是無人船實(shí)現(xiàn)自主導(dǎo)航和避障的關(guān)鍵技術(shù)之一.位姿測(cè)量可以通過多種傳感器來實(shí)現(xiàn),如GPS、慣性測(cè)量單元、視覺傳感器等.這些傳感器可以提供無人船的位置、速度、加速度、角速度等信息.在無人機(jī)-無人船協(xié)同降落場(chǎng)景中,無人船需要面對(duì)各種復(fù)雜的環(huán)境 (風(fēng)浪流),這些環(huán)境會(huì)對(duì)無人船的運(yùn)動(dòng)狀態(tài)以及后續(xù)無人機(jī)相對(duì)位姿的準(zhǔn)確估計(jì)產(chǎn)生影響,因此需要準(zhǔn)確的位姿測(cè)量來保證無人船的安全和穩(wěn)定性.
在位姿估計(jì)或目標(biāo)跟蹤狀態(tài)估計(jì)算法中,通常使用的是基于卡爾曼濾波的方法,文獻(xiàn)[1]中基于EKF 給出了三種典型非線性集中式融合算法,并在非線性系統(tǒng)中推廣與完善;Fu 等[2]提出了一種基于動(dòng)態(tài)遞歸標(biāo)稱協(xié)方差估計(jì)和改進(jìn)變分貝葉斯推理的增強(qiáng)自適應(yīng)卡爾曼濾波;Gao 等[3]提出了一種基于馬氏距離的自適應(yīng)加權(quán)聯(lián)邦卡爾曼濾波方法,提高了導(dǎo)航濾波計(jì)算的精度;文獻(xiàn)[4]中提出一種復(fù)合自適應(yīng)濾波算法,解決了一類過程噪聲統(tǒng)計(jì)特性未知且系統(tǒng)狀態(tài)分量可觀測(cè)度差的狀態(tài)估計(jì)問題.在卡爾曼濾波中,存在過程噪聲和測(cè)量噪聲兩個(gè)噪聲源.如果過程噪聲和測(cè)量噪聲都服從高斯分布,那么卡爾曼濾波器能夠提供一個(gè)最優(yōu)的線性無偏估計(jì);如果噪聲是非高斯的,那么卡爾曼濾波器可能無法準(zhǔn)確地描述數(shù)據(jù)的真實(shí)分布,從而導(dǎo)致估計(jì)誤差的增大.因此,對(duì)這些不確定噪聲的高斯性和非高斯性進(jìn)行判別是后續(xù)建模的關(guān)鍵,而隨機(jī)噪聲變量的非高斯性/高斯性判別主要依賴于隨機(jī)變量概率分布曲線的峰度與偏度系數(shù)的檢驗(yàn),因此,對(duì)峰度與偏度系數(shù)的高性能估計(jì)成為關(guān)鍵.
近些年,有許多學(xué)者對(duì)基于峰度和偏度的非高斯判別方法進(jìn)行研究[5-8],Mardia[5]基于偏度和峰度建立了多維正態(tài)性檢驗(yàn)統(tǒng)計(jì)量.此后,許多學(xué)者對(duì)這一類型的檢驗(yàn)進(jìn)行了研究,使其理論不斷豐富和發(fā)展.Srivastava[6]對(duì)偏度和峰度在多維情形下做出了不同的推廣,提出了自己的多維正態(tài)性檢驗(yàn)統(tǒng)計(jì)量;文獻(xiàn)[6]中所提到的多維正態(tài)性檢驗(yàn)方法,對(duì)于高維和大樣本情形,可以考慮T 型多維峰度作為正態(tài)性檢驗(yàn)統(tǒng)計(jì)量,許多國內(nèi)學(xué)者也針對(duì)多維數(shù)據(jù)降維技術(shù)進(jìn)行了研究和實(shí)驗(yàn)[9-12].孫平安和王備戰(zhàn)[13]驗(yàn)證了主成分分析(Principal component analysis,PCA) 存在會(huì)損失部分有用信息并且容易受到噪聲影響的缺陷;Zhou 等[14]對(duì)基于PCA 和CCA 的特征降維算法進(jìn)行了有效的研究.Sharma 和Saroha[15]將PCA 方法與特征排序相結(jié)合,最終驗(yàn)證將PCA 與特征排序相結(jié)合的方式可以在提升分類精度的基礎(chǔ)上實(shí)現(xiàn)降維.劉文博等[16]提出一種基于加權(quán)核主成分分析的維度約簡(jiǎn)算法,證明隨著數(shù)據(jù)維度的增加,多核學(xué)習(xí)的優(yōu)勢(shì)更明顯.如何構(gòu)造更加多樣化的核函數(shù)以提高數(shù)據(jù)處理效率成為了研究重點(diǎn).
本文在現(xiàn)有技術(shù)的基礎(chǔ)上,提出了一種基于PCA 和獨(dú)立成分分析 (Independent component analysis,ICA)模式融合的非高斯特征檢測(cè)識(shí)別方法,以期得到更優(yōu)的檢測(cè)效果.
1) 提出一種基于標(biāo)準(zhǔn)化加權(quán)平均和信息熵的數(shù)據(jù)預(yù)處理方法.首先采用標(biāo)準(zhǔn)化加權(quán)平均對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,然后通過計(jì)算信息熵和信息偏差度來消除一些數(shù)據(jù)的不確定性.
2) 提出一種基于混合加權(quán)核函數(shù)的主成分分析方法.該方法使用加權(quán)核函數(shù)對(duì)PCA 進(jìn)行改進(jìn),旨在對(duì)高維數(shù)據(jù)特征進(jìn)行維度約簡(jiǎn),降低數(shù)據(jù)的復(fù)雜度,從而實(shí)現(xiàn)簡(jiǎn)便的數(shù)據(jù)降維,同時(shí)提出一種改進(jìn)的灰狼優(yōu)化(Grey wolf optimization,GWO)算法來優(yōu)化參數(shù).
3) 提出一種基于ICA 和PCA 聯(lián)合的相關(guān)性分析方法進(jìn)行數(shù)據(jù)降維.該方法使用改進(jìn)的PCA 算法對(duì)數(shù)據(jù)進(jìn)行降維,將降維后的數(shù)據(jù)與經(jīng)過ICA 處理的數(shù)據(jù)進(jìn)行相關(guān)性分析,以確定最終的降維成分.
4) 在降維數(shù)據(jù)的基礎(chǔ)上綜合T 型多維偏度峰度檢驗(yàn)方法和KS (Kolmogorov-Smirnov)檢驗(yàn)方法進(jìn)行檢測(cè)識(shí)別,對(duì)數(shù)據(jù)進(jìn)行多元正態(tài)分布擬合并且考慮到樣本容量和樣本分布狀況.
PCA 是一種數(shù)據(jù)分析技術(shù),它可以高效地找出數(shù)據(jù)中的主要部分,將原有的數(shù)據(jù)降維并去除整個(gè)數(shù)據(jù)中的噪聲和冗余.
1) 傳統(tǒng)利用PCA 進(jìn)行降維處理的方法用零均值化對(duì)數(shù)據(jù)進(jìn)行特征縮放.簡(jiǎn)單的均值相減并不能達(dá)到數(shù)據(jù)預(yù)處理的目的,因此需要考慮對(duì)數(shù)據(jù)預(yù)處理過程進(jìn)行改進(jìn)和完善,以保障后續(xù)的計(jì)算結(jié)果.
2) PCA 只能解決數(shù)據(jù)分布是線性的情況.實(shí)際工程系統(tǒng)中,需要考慮到非線性噪聲的處理.文獻(xiàn)[17]中通過使用核主成分分析把非線性的數(shù)據(jù)映射到高維空間實(shí)現(xiàn)線性模式轉(zhuǎn)化,然后用PCA來進(jìn)行降維處理[18],但其計(jì)算相對(duì)復(fù)雜,需考慮提高其處理效率.
3) PCA 整個(gè)計(jì)算過程就是通過一個(gè)協(xié)方差矩陣的特征值分解來起到降維效果的.PCA 降維是選取方差最大的主成分,難免會(huì)損失一些信息[19],因此,研究過程中需要考慮的是如何有效降維并且獲得精確的降維結(jié)果.
本文主要研究基于PCA 降維的非高斯特征判別在多維數(shù)據(jù)中的應(yīng)用.PCA 在數(shù)據(jù)特征提取方面具有一定優(yōu)勢(shì),但在多維數(shù)據(jù)降維處理過程中,仍存在以下幾個(gè)問題:
1) 零均值化處理得到的數(shù)據(jù)難以很好地全面表征原始數(shù)據(jù)的綜合特征[20].由于均值容易受到極端值的影響,所以在對(duì)數(shù)據(jù)完全無知的情況下,簡(jiǎn)單的均值處理并不能較好地保留數(shù)據(jù)特征信息.
2) 現(xiàn)有非高斯檢測(cè)方法中,基于PCA 的協(xié)方差矩陣求解技術(shù)難以保證協(xié)方差矩陣不受非線性噪聲的影響,從而將嚴(yán)重影響最終的降維效果[21-23].在實(shí)際應(yīng)用中,采用主成分降維后進(jìn)行正態(tài)檢驗(yàn)可能會(huì)受到非線性噪聲影響,從而極易影響檢驗(yàn)效果.
3) 非高斯數(shù)據(jù)求解得到的特征值和特征向量不一定是最優(yōu)解,難以很好地表達(dá)原始數(shù)據(jù)的基本特征[24-25].PCA 主要通過尋找數(shù)據(jù)矩陣的特征值和特征向量,然后使用坐標(biāo)旋轉(zhuǎn)得到主成分,所以如果輸入數(shù)據(jù)不是高斯分布,特征值和特征向量就不能代表數(shù)據(jù)的特征,這樣PCA 也就失去了它的意義[26].
面對(duì)上述多維數(shù)據(jù)PCA 降維中存在的問題,針對(duì)性地提出以下解決方案,改進(jìn)后方案的具體過程如圖1 所示.
圖1 主成分分析改進(jìn)方案過程Fig.1 Principal component analysis improvement plan process
在對(duì)數(shù)據(jù)完全無知的情況下,本文通過對(duì)原始數(shù)據(jù)集采用特征加權(quán)平均值進(jìn)行改進(jìn),保留了特征間差異性,使降維后保留的信息量也更具有價(jià)值,此外,為了提高數(shù)據(jù)預(yù)處理的可靠性,本文使用熵權(quán)法進(jìn)行數(shù)據(jù)篩選,篩除對(duì)結(jié)果貢獻(xiàn)率較低的數(shù)據(jù).
2.1.1 加權(quán)平均的數(shù)據(jù)處理過程
將原始數(shù)據(jù)按列組成n行m列矩陣X(n×m),以當(dāng)前值減去數(shù)據(jù)集中該特征的加權(quán)平均值Dx,Dx的計(jì)算如式 (2) 所示,其中的權(quán)重分配方式參考每個(gè)特征算出的均方差σd,加權(quán)平均處理后得到矩陣具體計(jì)算公式如下所示
式 (2) 為數(shù)據(jù)平均值和加權(quán)平均值,式(3)為得到的數(shù)據(jù)預(yù)處理結(jié)果,xi為每行各個(gè)元素,為對(duì)應(yīng)的均值,Dd為每行各個(gè)元素與均值之差,每行均值之差構(gòu)造矩陣D(n×m),ω d為每個(gè)元素對(duì)應(yīng)σd所分配的權(quán)重值并且ω d之和為1,其中ωd利用均方差計(jì)算各指標(biāo)的權(quán)重,為對(duì)加權(quán)平均值進(jìn)行處理后的數(shù)據(jù)矩陣,避免了數(shù)據(jù)處理結(jié)果受到極端值的影響,為后續(xù)降維提供好的數(shù)據(jù)保障.
2.1.2 熵權(quán)法數(shù)據(jù)篩選過程
采用熵權(quán)法進(jìn)行數(shù)據(jù)處理的目的就是篩除掉對(duì)結(jié)果貢獻(xiàn)率較低的數(shù)據(jù),對(duì)加權(quán)平均值進(jìn)行處理后的數(shù)據(jù)繼續(xù)進(jìn)行熵權(quán)法的數(shù)據(jù)篩選,式(4)中Ej為信息熵,rij為第i個(gè)數(shù)據(jù)的評(píng)價(jià)指標(biāo)且滿足 0 ≤rij≤1,式 (5) 中ωj為各個(gè)特征的權(quán)重,式(6)中Z(n×p)為數(shù)據(jù)預(yù)處理后輸出的矩陣
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理標(biāo)準(zhǔn)化通??紤]標(biāo)準(zhǔn)差的影響,尤其是對(duì)被噪聲污染的數(shù)據(jù)而言,噪聲的標(biāo)準(zhǔn)差對(duì)數(shù)據(jù)的放大作用更顯著,而沒被噪聲污染的數(shù)據(jù)其在標(biāo)準(zhǔn)化的過程中放大作用較小.因此,為數(shù)據(jù)集中每個(gè)特征計(jì)算出信息熵值而后利用信息熵計(jì)算得出特征權(quán)重,這樣可以篩除掉作用小的數(shù)據(jù)以得到更高的降維精度.
改進(jìn)的主成分分析過程引入加權(quán)核函數(shù),通過選取核函數(shù)并構(gòu)造多樣化的核函數(shù)來提高數(shù)據(jù)處理效率,使得混合后的核函數(shù)性能更佳[16].
2.2.1 構(gòu)造混合加權(quán)核函數(shù)
本文通過組合兩種具有代表性的高斯徑向核函數(shù)和多項(xiàng)式核函數(shù)的映射特性,構(gòu)造一種混合核函數(shù).該混合核函數(shù)擁有高斯徑向核函數(shù)的局部特性,也擁有多項(xiàng)式核函數(shù)的全局特性,多項(xiàng)式核函數(shù)選擇二階.傳統(tǒng)的高斯徑向核函數(shù)、多項(xiàng)式核函數(shù)以及混合核函數(shù)表達(dá)式分別為[16]
由上述公式可以看出,涉及到的參數(shù)有高斯徑向核函數(shù)參數(shù)σ、多項(xiàng)式核函數(shù)系數(shù)q和混合核函數(shù)的權(quán)重系數(shù)λ.文獻(xiàn)[27]中通過訓(xùn)練和測(cè)試支持向量機(jī)找出效果最好的參數(shù),但求解相對(duì)比較耗時(shí).文獻(xiàn)[28]中采用粒子群優(yōu)化算法進(jìn)行尋優(yōu),后期易陷入局部最優(yōu).針對(duì)參數(shù)尋優(yōu)問題,本文提出一種改進(jìn)的灰狼優(yōu)化算法,減少主觀經(jīng)驗(yàn)選擇的盲目性并在一定程度上提高算法的全局搜索和局部開發(fā)能力.由此依據(jù)加權(quán)核函數(shù)構(gòu)建目標(biāo)函數(shù)過程如下[9]
式(8)中γ用來對(duì)內(nèi)積進(jìn)行縮放;K為式 (9) 的加權(quán)核函數(shù);式 (10) 中ω為超平面法向量,c為懲罰因子,ei為松弛變量;式 (11) 中yi為約束條件,?(x) 為對(duì)應(yīng)的函數(shù)映射,b為函數(shù)中截距變量;式(12) 中y(x) 為目標(biāo)函數(shù),αi為拉格朗日因子.
2.2.2 基于改進(jìn)灰狼算法的混合核函數(shù)參數(shù)優(yōu)化
GWO 算法是一種群智能優(yōu)化算法.該算法的優(yōu)化過程將包圍、追捕、攻擊三個(gè)階段的任務(wù)分配給各等級(jí)的灰狼群來完成捕食行為,從而實(shí)現(xiàn)全局優(yōu)化的搜索過程[29-30].改進(jìn)的灰狼算法注重全局搜索與局部開發(fā)能力的協(xié)調(diào),以便于較快獲得全局最優(yōu)
式 (13) 為標(biāo)準(zhǔn)GWO 算法中參數(shù)a的計(jì)算策略,其變化過程是線性遞減的,但是在整個(gè)算法搜索過程中并非是線性變化的,因此在式 (14) 中提出一種非線性控制因子策略.式中t表示當(dāng)前迭代次數(shù),tmax為最大迭代次數(shù).如圖2 所示,當(dāng) |A|>1 時(shí),進(jìn)行全局搜索,當(dāng) |A|≤1 時(shí),進(jìn)行局部搜索.由式 (15)可知,參數(shù)A隨著控制因子a的變化而變化,因此在算法搜索過程中主要通過參數(shù)a的變化來完成.根據(jù)式(14),在迭代初期a的收斂速度較小,式(15)中A的值波動(dòng)較大,避免了算法的早熟收斂,從而提升了算法的全局搜索能力.迭代后期a的收斂速度較大,算法有較強(qiáng)的局部開發(fā)能力.因此,改進(jìn)的非線性控制因子策略能較好地協(xié)調(diào)算法的全局搜索與局部開發(fā)能力.
圖3 為使用不同非線性控制因子策略的迭代結(jié)果,圖中分別為利用不同控制策略對(duì)數(shù)據(jù)集CEC-2005 中函數(shù)F11[30]進(jìn)行迭代的結(jié)果,橫坐標(biāo)為迭代次數(shù),縱坐標(biāo)為函數(shù)值,其中 G WOX為利用式 (14)的迭代結(jié)果,由結(jié)果可以看出本文提出的控制因子策略收斂速度快,迭代時(shí)間短[27].
圖3 不同控制因子策略的迭代結(jié)果Fig.3 Iterative results of different control factor strategies
灰狼在捕食獵物過程中的位置變化如式(15)~式 (17)所示
式中,A和C是系數(shù)向量,Xp是獵物的位置向量,而X表示灰狼的位置向量,D是一個(gè)矢量并且依賴于Xp,a為控制因子且在迭代過程中從2 線性減少到0,r1,r2是[0,1] 中的隨機(jī)向量,式(14)~式(18) 為灰狼的位置變化,最后對(duì)位置求平均得到灰狼的最終位置X(t+1).灰狼位置更新的具體過程如式(18)~式 (20)所示[27]
其中,D α,D β,D δ為三個(gè)最佳解,X α,X β,X δ為本次迭代適應(yīng)度前三的灰狼的位置,A1,A2,A3以及C1,C2,C3為每次迭代時(shí)產(chǎn)生的系數(shù),X1,X2,X3為各灰狼的位置.
根據(jù)上述分析,可以得到改進(jìn)GWO 的參數(shù)優(yōu)化算法原理,如算法1 所示.其中,加權(quán)核函數(shù)中參數(shù)設(shè)置: 高斯徑向核函數(shù)參數(shù)σ∈[0.01,100],多項(xiàng)式核函數(shù)參數(shù)q∈[0.1,4],懲罰系數(shù)c∈[0.01,1 000],混合權(quán)重系數(shù)λ∈[0,1].基于改進(jìn)的GWO 進(jìn)行參數(shù)優(yōu)化的流程如圖4 所示.
圖4 GWO 參數(shù)優(yōu)化流程圖Fig.4 GWO parameter optimization flowchart
算法1.改進(jìn)的GWO 參數(shù)優(yōu)化算法
1) 初始化種群規(guī)模N,隨機(jī)產(chǎn)生初始化種群,初始化t=0,初始化a,A,C,σ,λ,c,q等參數(shù);
2) 計(jì)算種群中每個(gè)個(gè)體的適應(yīng)度,將適應(yīng)度排名前三的個(gè)體分別記為X α,X β,X δ;
3) 由式 (14)~式(17) 計(jì)算種群中其他個(gè)體與X α,Xβ和X δ的距離,根據(jù)式(18)~式(20)更新個(gè)體位置;
4) 更新算法中a,A,C,σ,λ,c,q等參數(shù);
5) 判定算法是否滿足收斂條件,如果滿足,則算法結(jié)束;否則,令t=t+1,返回步驟 3).
對(duì)原始數(shù)據(jù)進(jìn)行獨(dú)立成分分析,n為樣本量,p為數(shù)據(jù)維度.設(shè)有m條n維數(shù)據(jù)(n行m列),則構(gòu)成n行m列矩陣X,X=HS,其中H是混合源分量的某個(gè)未知可逆方陣,S為解出的獨(dú)立成分,ICA的目標(biāo)是找到混合矩陣H,以便從觀測(cè)數(shù)據(jù)中恢復(fù)原始信號(hào)H[31].
2.3.1 獨(dú)立成分分析基本原理
1) 數(shù)據(jù)預(yù)處理,按行去中心化
2) 數(shù)據(jù)白化處理,去除數(shù)據(jù)集中所有線性相關(guān)性并沿所有維度歸一化方差.
a) 求協(xié)方差矩陣
b) 奇異值分解,化簡(jiǎn)得到最終表達(dá)式
c) 得到原數(shù)據(jù)的白化數(shù)據(jù)Xw并將式(23)代入下式
d) 假設(shè)所有的數(shù)據(jù)源相互獨(dú)立,那么也就可知
3) 利用信息論求解,找到一個(gè)旋轉(zhuǎn)矩陣V,使得多重信息那么是條件獨(dú)立的,則W=V D-1/2ET.
ICA 處理數(shù)據(jù)過程中,V是正交矩陣,為唯一未知的旋轉(zhuǎn)矩陣,D為對(duì)角矩陣,對(duì)角線上的元素為對(duì)應(yīng)的特征值,E 是對(duì)應(yīng)的特征向量形成的一個(gè)正交基,U為奇異值矩陣,其中UTU=1,p(S) 表示概率分布.
2.3.2 改進(jìn)ICA-PCA 的融合方法
本文提出一種ICA 和PCA 的融合模式,對(duì)兩種降維結(jié)果進(jìn)行相關(guān)性計(jì)算和分析,具體流程如圖5 所示.
圖5 ICA-PCA 融合過程圖Fig.5 ICA-PCA fusion process diagram
文獻(xiàn)[32]中提到使用皮爾遜相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)來描述兩組變量的相關(guān)性,兩者相比,皮爾遜相關(guān)系數(shù)需要數(shù)據(jù)服從正態(tài)分布,反之,斯皮爾曼相關(guān)系數(shù)適用于分布不明變量的相關(guān)性分析且沒有過多數(shù)據(jù)條件要求,分別為改進(jìn)后PCA 降維后得到的分量以及ICA 降維后得到的分量,因此,本文ICA-PCA 融合改進(jìn)應(yīng)用斯皮爾曼相關(guān)系數(shù)來處理和分析.式 (26) 為相關(guān)系數(shù)rs的計(jì)算公式
斯皮爾曼相關(guān)系數(shù)的取值范圍為[-1,1],rs絕對(duì)值越大,相關(guān)性越強(qiáng).斯皮爾曼相關(guān)系數(shù)rs>0時(shí),認(rèn)為兩組變量存在正相關(guān);斯皮爾曼相關(guān)系數(shù)rs<0 時(shí),則認(rèn)為兩組變量存在負(fù)相關(guān).依據(jù)rs相關(guān)系數(shù)的計(jì)算進(jìn)行相關(guān)性檢驗(yàn),式 (27) 為具體檢驗(yàn)公式,rs的分布可近似地用均值為0、標(biāo)準(zhǔn)差為的正態(tài)分布曲線表示,Z為正態(tài)檢驗(yàn)值
通過計(jì)算Z可以根據(jù)正態(tài)分布密度函數(shù)求得檢驗(yàn)值P,通過比較P值與0.05 之間的大小,可以判斷r s<0 的顯著性.如果P值小于0.05,可以認(rèn)為存在顯著性的差異,即兩者具有相關(guān)性.當(dāng)樣本數(shù)小于30 時(shí),參照臨界值表[33]該樣本數(shù)所對(duì)應(yīng)的斯皮爾曼相關(guān)系數(shù)臨界值,當(dāng)計(jì)算的斯皮爾曼相關(guān)系數(shù)大于臨界值時(shí),認(rèn)為兩者之間相關(guān)性是顯著的,是有統(tǒng)計(jì)學(xué)意義的.
本文研究無人船航行觀測(cè)數(shù)據(jù)的非高斯特征識(shí)別,因此,對(duì)降維后的數(shù)據(jù)基于偏度和峰度進(jìn)行非高斯性判別.T 型多維偏度峰度檢驗(yàn)是將多維數(shù)據(jù)轉(zhuǎn)化為一維數(shù)據(jù)后進(jìn)行檢驗(yàn),但該方法對(duì)數(shù)據(jù)分布有要求;而使用非參數(shù)檢驗(yàn)方法不需要假設(shè)數(shù)據(jù)服從特定的分布,適用于各種類型的數(shù)據(jù),例如KS檢驗(yàn).因此,本文使用T 型多維峰度統(tǒng)計(jì)量[8]并綜合KS 方法[33]進(jìn)行檢驗(yàn).
第一,對(duì)數(shù)據(jù)進(jìn)行多元正態(tài)分布擬合[34]后得到均值向量和協(xié)方差矩陣;第二,使用KS 檢驗(yàn)和T型多維偏度峰度檢驗(yàn)來檢驗(yàn)擬合后的數(shù)據(jù)是否符合正態(tài)分布;第三,使用KS 檢驗(yàn)來檢驗(yàn)擬合后的數(shù)據(jù),檢驗(yàn)兩個(gè)樣本是否來自同一分布,其檢驗(yàn)統(tǒng)計(jì)量為KS 統(tǒng)計(jì)量;第四,如果KS 檢驗(yàn)和T 型多維偏度峰度檢驗(yàn)都表明數(shù)據(jù)符合正態(tài)分布,則可以認(rèn)為數(shù)據(jù)符合正態(tài)分布,具體計(jì)算公式如下[34]
其中,x1,x2,···,xn為n個(gè)m維數(shù)據(jù),μ是m維向量,表示隨機(jī)變量的均值向量;Σ是n×n的協(xié)方差矩陣,f(xi;μ,Σ) 表示μ和Σ下樣本xi的概率密度函數(shù),l nL為對(duì)數(shù)似然函數(shù),對(duì)對(duì)數(shù)似然函數(shù)求偏導(dǎo)數(shù),令其等于零,解出參數(shù)μ和Σ的估計(jì)值,b1,b2分別為樣本的偏度和峰度,分別為數(shù)據(jù)的三階矩和四階距.
為驗(yàn)證本文所提方法對(duì)復(fù)雜情形下的USV 傳感器受到不確定噪聲的非高斯性/高斯性檢測(cè)的優(yōu)越性,進(jìn)行仿真實(shí)驗(yàn)的平臺(tái)配置: 硬件環(huán)境為CPU Intel(R) Core(TM)-i5-8265U 1.80 GHz,運(yùn)行在Windows10 操作系統(tǒng),運(yùn)行軟件為Matlab R2019b.為了保證實(shí)驗(yàn)的真實(shí)性和可靠性,本次實(shí)驗(yàn)在千島湖水域?qū)o人船的數(shù)據(jù)進(jìn)行采集,以280 Hz 的頻率采集無人艇在行駛中的正常數(shù)據(jù)集.數(shù)據(jù)集包括無人船位置數(shù)據(jù)和姿態(tài)角數(shù)據(jù),具體如下:X方向的加速度ax;Y方向的加速度ay;Z方向的加速度az;圍繞X軸旋轉(zhuǎn)的俯仰角α;圍繞Y軸旋轉(zhuǎn)的偏航角β;圍繞Z軸旋轉(zhuǎn)的翻滾角θ.將以上6 個(gè)值作為待處理的值,從而很大程度地仿真了無人船在真實(shí)運(yùn)動(dòng)場(chǎng)景下受到噪聲的實(shí)際情況,實(shí)驗(yàn)中使用無人船采集數(shù)據(jù)的環(huán)境如圖6 所示,圖6(a)為靜止?fàn)顟B(tài)的無人船,圖6(b)為運(yùn)動(dòng)狀態(tài)的無人船.為評(píng)估所提出的改進(jìn)方法在不同改進(jìn)階段的性能,本文通過對(duì)比相同數(shù)據(jù)集在不同方法下的結(jié)果,共做了5組實(shí)驗(yàn),實(shí)驗(yàn)一驗(yàn)證數(shù)據(jù)預(yù)處理方法的必要性;實(shí)驗(yàn)二驗(yàn)證改進(jìn)灰狼優(yōu)化算法相較于其他優(yōu)化算法的優(yōu)越性;實(shí)驗(yàn)三對(duì)改進(jìn)的ICA-PCA 方法進(jìn)行分析并驗(yàn)證ICA 和PCA 聯(lián)合的優(yōu)勢(shì);實(shí)驗(yàn)四對(duì)比驗(yàn)證對(duì)改進(jìn)方法降維后的結(jié)果進(jìn)行非高斯性檢測(cè)的效果;實(shí)驗(yàn)五驗(yàn)證整個(gè)方法在實(shí)際應(yīng)用中的有效性.
圖6 實(shí)際數(shù)據(jù)采集環(huán)境Fig.6 Actual data collection environment
實(shí)驗(yàn)一驗(yàn)證數(shù)據(jù)預(yù)處理方法的必要性.將本文提出的方法與EW-PCA 以及PCA 方法的結(jié)果進(jìn)行比較,從而驗(yàn)證數(shù)據(jù)預(yù)處理對(duì)降維效果的影響.這里選取Arcene 數(shù)據(jù)集進(jìn)行驗(yàn)證,Arcene 共700個(gè)樣本,數(shù)據(jù)維度為10 000.K值表示降維后主成分的個(gè)數(shù),在主成分個(gè)數(shù)更少的情況下,更大程度地保證了所含有的原有信息量.在相同貢獻(xiàn)率時(shí),本文提出的方法主成分個(gè)數(shù)K值能夠取到更小,代表保留數(shù)據(jù)的能力更強(qiáng).表1 為應(yīng)用PCA、EWPCA 以及本文改進(jìn)的PCA 方法對(duì)相同數(shù)據(jù)集降維的結(jié)果,觀察表1 可見改進(jìn)后的實(shí)驗(yàn)效果優(yōu)于現(xiàn)有的方法.當(dāng)貢獻(xiàn)率同樣都為95%時(shí),PCA 方法的K值取110,EW-PCA 方法的K值取45,本文改進(jìn)的PCA 方法的K值取36.在對(duì)相同數(shù)據(jù)集處理的情況下,本文提出的改進(jìn)PCA 方法保留有用信息的能力更強(qiáng).
表1 降維結(jié)果對(duì)比表Table 1 Comparison table of dimensionality reduction results
實(shí)驗(yàn)二驗(yàn)證改進(jìn)灰狼優(yōu)化算法相較于其他優(yōu)化算法的優(yōu)越性.與近幾年改進(jìn)后的灰狼優(yōu)化算法NGWO1等進(jìn)行對(duì)比,將單峰函數(shù)、多峰函數(shù)以及固定維數(shù)的多峰函數(shù)三類函數(shù)分別進(jìn)行測(cè)試,對(duì)PSO、GWO 以及NGWO1等優(yōu)化算法結(jié)果從收斂性能、迭代次數(shù)等方面進(jìn)行比較,實(shí)驗(yàn)的測(cè)試集使用CEC2005.圖7 為單峰函數(shù)測(cè)試結(jié)果對(duì)比圖,橫坐標(biāo)為迭代次數(shù),縱坐標(biāo)為函數(shù)值,從對(duì)比結(jié)果看,改進(jìn)的GWO 算法相較于 N GWO1和PSO 收斂速度更快;圖8 為多峰函數(shù)測(cè)試結(jié)果對(duì)比圖,從對(duì)比結(jié)果看,改進(jìn)的GWO 算法前期收斂速度慢,后期收斂速度較快;圖9 為固定維度的多峰函數(shù)測(cè)試結(jié)果對(duì)比圖,從對(duì)比結(jié)果不難看出,改進(jìn)的GWO 算法具有收斂速度快以及迭代時(shí)間短等特點(diǎn).因此本文方法在求解精度、收斂速度以及時(shí)間成本方面都有良好的性能,在一定程度上減少了主觀經(jīng)驗(yàn)選擇的盲目性.
圖7 單峰函數(shù)結(jié)果對(duì)比圖Fig.7 Comparison chart of unimodal function results
圖8 多峰函數(shù)結(jié)果對(duì)比圖Fig.8 Comparison chart of multimodal function results
圖9 固定維數(shù)多峰函數(shù)結(jié)果對(duì)比圖Fig.9 Comparison chart of fixed dimension multimodal function results
實(shí)驗(yàn)三對(duì)改進(jìn)的ICA-PCA 方法進(jìn)行分析并驗(yàn)證其優(yōu)勢(shì),使用主成分個(gè)數(shù)、累計(jì)貢獻(xiàn)率和運(yùn)行時(shí)間三個(gè)指標(biāo)進(jìn)行評(píng)價(jià).通過比較本文方法和現(xiàn)有ICA-PCA 方法的結(jié)果,驗(yàn)證本文方法在實(shí)時(shí)性和降維效果等方面的優(yōu)勢(shì).通過表2、表3 和圖10,對(duì)比累計(jì)貢獻(xiàn)率和運(yùn)行時(shí)間兩個(gè)指標(biāo),當(dāng)保留48 個(gè)主成分時(shí),累計(jì)貢獻(xiàn)率達(dá)到了95%,相比改進(jìn)之前的方法,保留有用信息的能力更強(qiáng),時(shí)間成本更低.
表2 ICA-PCA 方法對(duì)比結(jié)果Table 2 ICA-PCA method comparison results
表3 降維結(jié)果Table 3 Dimensionality reduction results
圖10 降維主成分結(jié)果Fig.10 Dimensionality reduction principal component results
實(shí)驗(yàn)四將降維后的數(shù)據(jù)的非高斯性判別結(jié)果與現(xiàn)有的非高斯性檢測(cè)方法的判別結(jié)果進(jìn)行比較,從結(jié)果的精確度和檢測(cè)效果等方面進(jìn)行比較.對(duì)原始數(shù)據(jù)集進(jìn)行非高斯性檢測(cè),判斷數(shù)據(jù)變量是否服從高斯分布,如果H0=0 且P在5%置信水平上,則過程變量服從高斯分布;反之,則服從非高斯分布.表4 為應(yīng)用現(xiàn)有的非高斯性檢測(cè)方法 Kolmogorov-Smirnov 檢驗(yàn)和 Shapiro-Wilk 檢驗(yàn)進(jìn)行判別的結(jié)果.其中,統(tǒng)計(jì)量D為兩條累計(jì)分布曲線之間的最大垂直差,描述兩組數(shù)據(jù)之間的差異;統(tǒng)計(jì)量W為峰度,驗(yàn)證一個(gè)隨機(jī)樣本數(shù)據(jù)是否來自正態(tài)分布.當(dāng)數(shù)據(jù)呈現(xiàn)出顯著性P<0.05 時(shí),意味著數(shù)據(jù)不具有正態(tài)性.
表4 正態(tài)性檢驗(yàn)結(jié)果Table 4 Normality test results
為了驗(yàn)證方法在實(shí)際應(yīng)用中的有效性,對(duì)采集到的無人船航行姿態(tài)數(shù)據(jù)進(jìn)行處理和檢測(cè).其中包括無人船進(jìn)行圓形運(yùn)動(dòng)、矩形運(yùn)動(dòng)的線加速度、水平坐標(biāo)和偏航角等信息.圖11 為無人船圓形運(yùn)動(dòng)時(shí)X,Y,Z方向的速度變化,其中橫軸代表采集樣點(diǎn)數(shù),縱軸為速度變化;圖12 為降維后的結(jié)果;圖13為非高斯性判別的結(jié)果,其中縱坐標(biāo)頻率描述數(shù)據(jù)集中每個(gè)數(shù)值出現(xiàn)相對(duì)頻率的統(tǒng)計(jì)量.表5 中顯示漸進(jìn)顯著性為0,則表明樣本量的增加不會(huì)影響檢測(cè)結(jié)果的顯著性.
表5 非高斯檢測(cè)結(jié)果Table 5 Non-Gaussian detection results
圖11 三個(gè)方向的速度圖Fig.11 Chart of speed in three directions
圖12 降維結(jié)果Fig.12 Dimensionality reduction results
圖13 檢測(cè)結(jié)果1Fig.13 Test result 1
針對(duì)復(fù)雜情形下傳感器觀測(cè)數(shù)據(jù)的非高斯性/高斯性檢測(cè)判別問題,改進(jìn)傳統(tǒng)PCA 方法實(shí)現(xiàn)數(shù)據(jù)的降維處理,而后采用T 型多維峰度檢驗(yàn)和KS檢驗(yàn)方法進(jìn)行非高斯特征的識(shí)別.該方法考慮到數(shù)據(jù)預(yù)處理的重要性、噪聲數(shù)據(jù)的復(fù)雜性以及非線性非高斯的噪聲對(duì)降維精確度的影響.實(shí)驗(yàn)驗(yàn)證改進(jìn)后的方法能有效降低多維數(shù)據(jù)檢測(cè)的復(fù)雜度,保證了最終結(jié)果的精確性和完整性.需要注意的是,本文分析時(shí)著重考慮對(duì)多維數(shù)據(jù)的降維處理,并未考慮更多基于偏度和峰度判別的方法,在下一步的研究中,將深入展開更細(xì)致化的研究,使方法在精度和完整性方面得到進(jìn)一步提升.