楊 林, 徐宏喆
(1.西安市特設(shè)檢驗研究院, 陜西 西安 710049; 2.西安交通大學(xué)計算機系, 陜西 西安 710068)
隨著圖像采集設(shè)備的迅速發(fā)展,工業(yè)上檢測到的板形圖像質(zhì)量日益提高,圖像特征的數(shù)目和維度不斷增大,而傳統(tǒng)圖像處理方法在高維信息處理中存在著效率瓶頸的弊端[1].如何在保持圖像關(guān)鍵信息無損的前提下,降低圖像特征維度成為當(dāng)前迫切需要解決的難題.主成分分析(PCA)是一種經(jīng)典的基于統(tǒng)計分析理論的線性降維方法.目前,PCA的一個研究熱點在于利用核函數(shù)進行非線性向線性轉(zhuǎn)化的特征映射.
矯直機是工業(yè)上的一種主流鋼板矯直設(shè)備.目前,大部分對矯直機自動控制矯直板材的研究都集中于基于板形知識庫的智能選參模型上[2].由于該模型在訓(xùn)練狀態(tài)和參數(shù)選擇狀態(tài)均涉及到對大量板形圖片的處理和計算,而高維的板形特征不可避免地帶來了巨大的運算量,這使得參數(shù)選擇模型不能及時有效地將待矯直板材分類,影響了其選擇工藝參數(shù)的實時性.對板形特征維數(shù)進行降維,不失為一種有效的解決運算量大、效率低的方法.
圖1 KPCA的基本思想
PCA方法是一種經(jīng)典的基于統(tǒng)計分析理論的線性降維方法[3],但PCA不能有效地提取出高維數(shù)據(jù)中的非線性特征, PCA的一個研究熱點在于利用核函數(shù)進行非線性向線性轉(zhuǎn)化的特征映射,即KPCA[4].
在圖1中,輸入空間Rm中的原始數(shù)據(jù)為非線性,無法直接實施PCA方法進行主成分提取,選取一個Rm→Rn的非線性映射φ,使得在特征空間Rn中,輸入數(shù)據(jù)變得線性可分,然后再對映射后的線性數(shù)據(jù)進行PCA分析,便可以提取原非線性數(shù)據(jù)的主要成分,這便是核PCA(Kernel PCA,KPCA)方法的主要思想[5].
核的選取是當(dāng)前核函數(shù)研究領(lǐng)域的熱點和難點之一.目前核函數(shù)的選取主要采用的是領(lǐng)域?qū)<疫x取法及試湊法,即根據(jù)各種常用核函數(shù)的特點及其適用領(lǐng)域來選擇合適的核,表1展示了常用核函數(shù)的特點分析,其中全局核與局部核的概念參見文獻[6].
表1 常用核函數(shù)的特點分析
由于高斯核屬于局部核函數(shù),它只能反映數(shù)據(jù)的局部非線性特征,而多項式核和Sigmoid核屬于全局核函數(shù),它們可以體現(xiàn)數(shù)據(jù)的全局特性.對于多項式核和Sigmoid核,雖然其同屬于全局核函數(shù),但前者適用于低階非線性數(shù)據(jù),而后者適用于高階非線性數(shù)據(jù),因此這3種核函數(shù)存在各有特點、優(yōu)勢互補的關(guān)系.
在以上分析的基礎(chǔ)上,本文使用多核混合來解決實際問題中的多重特點數(shù)據(jù)問題,混合后的結(jié)果為:
(1)
在式(1)中,每個核本身具有可調(diào)的參數(shù)且同時具備權(quán)值系數(shù)wi,i=1,2,3,wi表明其相應(yīng)的核在Km′(x,y)中所發(fā)揮作用的比例,且w1+w2+w3=1.如果實際數(shù)據(jù)更接近某個核的適用領(lǐng)域,則可以通過增高該核的權(quán)值來反映實際數(shù)據(jù)這一特點,從而使得多核能夠得到問題更精確的解.同時由于增加了權(quán)值,也使得多核實際上成為經(jīng)典核模型的一種推廣,如當(dāng)w1,w2=0時,Km′(x,y)退化為Sigmoid核,當(dāng)w3=0時,Km′(x,y)退化為高斯和多項式的混合核[7].
表2 多核模型的可變參數(shù)集
式(1)中包含了所有可能導(dǎo)致多核Km′(x,y)發(fā)生變化的參數(shù)集,該參數(shù)集不僅包含每個核所具有的權(quán)值,同時包含單個核本身所具有的可調(diào)參數(shù),如表2所示.
基于多核PCA的降維方法總結(jié)來說分為以下幾個步驟:
(1)將輸入矩陣s映射到高維空間F得φ(s);
圖2 PCA與多核的降維效果比較
(2)對φ(s)進行標(biāo)準(zhǔn)化與中心化,得到標(biāo)準(zhǔn)的高維空間輸入S;
(3)求S的協(xié)方差矩陣,解出其特征值λ1≥λ2≥…≥λn;
(4)根據(jù)降維要求,提取λ1≥λ2≥…≥λk,k (5)計算λ1≥λ2≥…≥λk對應(yīng)的特征向量并標(biāo)準(zhǔn)化得t1,t2,…,tk; 使用遺傳算法來進行參數(shù)優(yōu)化,其過程如下[8]: (1)對參數(shù)集形成的解空間進行編碼,構(gòu)建染色體空間; (2)在染色體空間中隨機選擇一代種群O; (3)利用降維后的板形信息保持率計算O的適應(yīng)度,轉(zhuǎn)(7); (4)使用適應(yīng)度計算的結(jié)果進行比例選擇運算,即保留適應(yīng)度高的染色體,淘汰適應(yīng)度低的部分; (5)對染色體進行單點交叉運算和基本位變異運算,得到新一代種群N; (6)計算N的適應(yīng)度; (7)若適應(yīng)度滿足要求,則解碼最優(yōu)染色體并退出算法,否則返回(4). 下面將通過展示50副板形樣本數(shù)據(jù)的降維記錄,來分析多核PCA的實際效果. 圖2展示了多核PCA相對于PCA方法的優(yōu)異性能. 從圖2可以看出,對于絕大部分板形,多核PCA方法的降維性能均較大幅度地(約20%)優(yōu)于普通PCA方法,這表明板形樣本中平均約存在1/5的非線性成分,即PCA方法無法提取的高階統(tǒng)計特性[9]. 本文進行了圖像降維領(lǐng)域的研究,并以工業(yè)上高維的板形數(shù)據(jù)作為了研究的出發(fā)點,該研究方法和結(jié)果也可以作為其它圖像降維領(lǐng)域的一種參照和借鑒.另一方面,本文對于核函數(shù)的深入研究以及給出的多核模型也可以為其它使用核函數(shù)的領(lǐng)域提供一個選擇和構(gòu)造核函數(shù)的新思路. 參考文獻 [1] Berchtold S, Bohm C, Kriegel HP. The Pyramid Technique:Towards Breaking the Curse of Dimensionality[C]. Seattle,Washington:Proceedings of the International Conference on Management of Data,ACM SIGMOD,1998:142-153. [2] 劉 凱,徐宏喆.板材矯直機智能控制及應(yīng)用[M].北京:機械工業(yè)出版社,2010. [3] Jolliffe IT. Principal Component Analysis[M]. New York:Springer-Verlag,1986. [4] Scholkopf B, Smola A, Muller K. Nonlinear component analysis as a kenrel eigenvalue problem[J]. Neural Computation,1998,10(6):1 299-1 319. [5] 趙麗紅,孫宇舸,蔡 玉, 等.基于核主成分分析的人臉識別[J].沈陽:東北大學(xué)學(xué)報,2006,27(8):67-70. [6] Smola AJ. Learning With kernels[D]. Ph.D. Thesis,TU Berlin,1998. [7] Smits GF, Jordan EM. Improved SVM regression using mixtures of kernels[R]. Hawaii:IEEE, 2002. [8] Holland JH. Adaptation in Natural and Artificial Systems[M]. Ann Arbor, MI: University of Michigan Press, Ann Arbor, MI, 1975. [9] Scholkopf B, Smola A, Muller K. Nonlinear component analysis as a kenrel eigenvalue problem[J]. Neural Computation,1998,10(6):1 299-1 319.3 實驗
4 結(jié)束語