胡善科,秦玉華*,段如敏,吳麗君,宮會麗
1. 青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061 2. 云南中煙工業(yè)有限責(zé)任公司技術(shù)中心,云南 昆明 650024 3. 中國海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100
近紅外光譜技術(shù)具有快速、高效、準確性好,不損壞樣品等特點,目前大量用于石油化工、環(huán)境科學(xué)、食品藥品等領(lǐng)域[1]。 我國是煙草大國,每年的煙葉收購量龐大,但煙葉質(zhì)量受各種因素的影響,需首先經(jīng)過分級處理才能保證原料的合理利用。 然而目前煙葉分級主要以人工為主,煙葉分級存在主觀性強、效率低、誤差大,利用率低等問題[2]。 隨著近紅外光譜技術(shù)的發(fā)展,近年來,它在煙草自動分類中得到了很好的應(yīng)用,不僅能獲得煙葉顏色的外觀特征,而且能反映煙葉的內(nèi)在質(zhì)量信息,與人工、圖像視覺提取、數(shù)學(xué)推理等分類技術(shù)相比具有天然優(yōu)勢[3]。 然而,近紅外光譜數(shù)據(jù)具有高維、頻帶重疊、噪聲大和非線性等特點,高維空間的稀疏性與空空間等現(xiàn)象也嚴重影響了結(jié)果的準確性,針對這些問題,對高維光譜數(shù)據(jù)進行與建模相關(guān)性高的特征提取尤為重要[4]。 魯夢瑤等提出采用隔點采樣的方法對光譜數(shù)據(jù)進行特征提取, 從而加快收斂速度,但該方法容易丟失重要特征; 何勇等[5]采用主成分分析(principal component analysis,PCA)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對光譜數(shù)據(jù)進行降維,并以PCA變換后的變量作為輸入?yún)?shù),但PCA是一種線性降維方法,無法獲取數(shù)據(jù)的非線性結(jié)構(gòu)特征; 高全學(xué)等[6]提出了改進(local preserving projection,LPP)的非線性降維算法, 在特征提取過程中,融合了局部結(jié)構(gòu)和差分信息,但對稀疏數(shù)據(jù)的效果并不理想。
針對上述問題,提出了一種基于聯(lián)合矩陣的局部保持投影(local preserving projection algorithm based on joint matrix, JMLPP)特征提取方法。 首先,通過基于聚類的特征提取[7]剔除類內(nèi)相關(guān)度低、類間相關(guān)度過高的特征,實現(xiàn)了光譜中噪聲信息的剔除。 其次,采用改進的LPP算法對光譜數(shù)據(jù)進行降維,解決了冗余特征和非線性結(jié)構(gòu)的影響。 此外,在LPP算法中引入測地線距離[8],并對邊權(quán)矩陣公式進行了改進,解決了樣本稀疏帶來的不確定性。 JMLPP方法實現(xiàn)了煙葉分級信息的有效提取,提高了煙葉分級準確性。
(1)
(2)
其中γ2∈[0,1]。 通過調(diào)節(jié)類間參數(shù)γ2找到合適類間閾值之后,篩選出的特征具有較好的離散性。 聯(lián)合類內(nèi)閾值與類間閾值對光譜數(shù)據(jù)的處理,最后得到篩選出的指標(biāo)特征矩陣。
分類方式可能有N種,可得到N個指標(biāo)特征矩陣,考慮到分級的準確性,對得到的N個指標(biāo)特征矩陣進行并集操作得到聯(lián)合矩陣。 選取與煙葉分級相關(guān)性高的成熟度與部位指標(biāo)進行分類,從光譜矩陣中分別選出與成熟度和部位相關(guān)性高的特征,從而得到兩個特征矩陣,并集產(chǎn)生一個聯(lián)合矩陣。 通過聯(lián)合矩陣運算可減少“維度災(zāi)難”問題,剔除與分類無關(guān)的噪聲信息,提高計算精度,但仍存在光譜數(shù)據(jù)冗余、非線性等特點。
局部保持投影(LPP)算法[9]是由何小飛教授于2003年提出,LPP是一種線性降維和非線性降維相結(jié)合的降維算法。 與PCA算法相比,LPP算法能夠保留全局信息,在線性降維的同時也保留局部非線性特征。 LPP生成的表現(xiàn)映射可看作LE (laplacian eigenmap)[10]的線性近似,保留了數(shù)據(jù)的局部信息,應(yīng)用在高光譜數(shù)據(jù)和圖像識別等領(lǐng)域[11]。
給定m個在歐式空間RN的N維數(shù)據(jù)樣本X={x1,x2, …,xm},xj∈RN, (j=1, 2, …,m),LPP通過生成最近局部鄰域圖,獲得樣本數(shù)據(jù)的k近鄰域。 LPP的目標(biāo)是將高維空間非線性流行數(shù)據(jù)X投影到低維空間特征映射矩陣Y,找到最優(yōu)轉(zhuǎn)換矩陣Z,其本質(zhì)是Laplacian Eigenmap的線性逼近,如式式(3)
yj=ZTxj
(3)
優(yōu)化目標(biāo)函數(shù)后為
(4)
LPP算法為了保證映射后矩陣能最大程度保存數(shù)據(jù)局部結(jié)構(gòu)屬性,使距離較近的樣本xj,xi經(jīng)過映射后仍保持較近距離,引入相似性度量矩陣Wji
(5)
其中xj和xi互為k鄰域內(nèi)的點,δ是一個常數(shù),W為實對稱矩陣。
對優(yōu)化目標(biāo)函數(shù)進行變化
(6)
s.t.zTXDXTz=1
(7)
則最小化目標(biāo)函數(shù)為
argminzTXLXTz
(8)
即求解下式廣義矩陣特征值
XLXTz=λXDXTz
(9)
矩陣XDXT,XLXT是對稱且半正定的,式(9)得到前h個最小特征值的特征向量z1,z2, …,zh構(gòu)成最優(yōu)轉(zhuǎn)換矩陣W=(w1,w2, …,wz)。
LPP算法在保持全局非線性結(jié)構(gòu)的同時進行局部線性降維,但煙葉光譜數(shù)據(jù)具有高冗余、高噪聲、重疊、離散性大等特點,且LPP算法單純依據(jù)歐式距離構(gòu)造鄰域圖,無法表達樣本點間真實的拓撲結(jié)構(gòu),對煙葉近紅外光譜數(shù)據(jù)的處理存在一定不足。 本文對LPP算法作了如下改進: 用測地線距離代替歐式距離,根據(jù)Dijkstra算法得到的最小距離構(gòu)造鄰域圖,并改進邊權(quán)矩陣。 利用貪心算法得到樣本中某一點距離較近的前k個頂點,作為k近鄰域。
設(shè)構(gòu)造的鄰域圖為:G={V,E,W}, 其中V為樣本頂點集合,E是邊集合,W是邊權(quán)矩陣, 設(shè)測地線距離為dG(xj,xi),則改進后的邊權(quán)矩陣為
(10)
在離散性大的高維流形數(shù)據(jù)中,測地線距離可以較好的表達兩點之間的實際距離,使樣本點整體分布趨于均勻,相較于歐式距離具有明顯優(yōu)勢,提高了LPP的降維效果。
基于聯(lián)合矩陣的局部保持投影(JMLPP)特征提取方法具體步驟如下:
(1)按N種與分類相關(guān)性強的指標(biāo)將樣本分為N種不同的分類方式,每種分類方式篩選k個特征進行基于聚類的特征選擇。
(2)基于聚類的特征選擇需要挑選類內(nèi)關(guān)聯(lián)性強,類間差異性大的特征。 通過調(diào)節(jié)類內(nèi)參數(shù)γ1、類間參數(shù)γ2確定類內(nèi)閾值D(l)與類間閾值D,分別對N種不同聚類方式篩選光譜特征區(qū)間得到N個指標(biāo)特征矩陣M1,M2,…,MN,并集操作生成聯(lián)合矩陣M。
(3)將聯(lián)合矩陣M采用改進的LPP算法進行降維操作,得到去噪、去冗余的數(shù)據(jù)特征子集Y={y1,y2,…,ym}。
來自某煙草企業(yè)提供的包括B2V,B1F,C4F,C1L,X2L五個不同等級共650個煙葉樣品,其中每個等級各130個。 將樣品放置在60 ℃的烘箱中干燥2 h,磨粉過60目篩,密封平衡8 h后進行光譜采集。
使用賽默飛世爾公司Antaris Ⅱ近紅外光譜儀,采用漫反射方式,掃描范圍為3 800~10 000 cm-1,分辨率為8 cm-1, 室溫保持在18~22 ℃,每個樣品取15 g壓實后置于光譜儀中掃描3次,計算其平均值作為最終光譜。
為了消除基線漂移和噪聲的影響,需要對采集到的光譜數(shù)據(jù)進行預(yù)處理,經(jīng)比較本文采用一階導(dǎo)數(shù)和Savitzky Golay平滑[12]。
因影響煙葉分級的關(guān)鍵指標(biāo)包括成熟度與部位,分別從650個樣品中按成熟度與部位選取部分特征明顯的煙葉樣品進行基于聚類的特征提取。 其中按成熟度分為成熟、尚熟與假熟,共選取了420個樣品; 按部位分為上部、中部與下部,共選取了450個樣品。 具體樣品信息劃分如表1所示。
表1 聚類特征提取實驗樣品劃分Table 1 Sample partition of cluster featureextraction experiment
首先利用基于聚類的特征提取方法分別從成熟度和部位指標(biāo)篩選與煙葉分級相關(guān)的特征。 根據(jù)文獻[10]與實驗分析,類內(nèi)參數(shù)γ1、類間參數(shù)γ2的取值分別在0.9~1,0~0.01之間細化搜索得到最佳取值。 圖1和圖2分別為γ1和γ2按部位和成熟度聚類的搜索結(jié)果。
可以看出,按部位分組時,類內(nèi)參數(shù)γ1=0.95,類間參數(shù)γ2=0.000 4時識別率較好,提取的光譜數(shù)據(jù)特征為983個。 按成熟度分組時,類內(nèi)參數(shù)γ1=0.95,類間參數(shù)γ2=0.001 4時識別率較好,提取的光譜數(shù)據(jù)特征為892個。 為保證信息提取的完整性,本文將兩個特征子集進行并集操作生成一個聯(lián)合矩陣,聯(lián)合矩陣的光譜特征從1 560減少到1 102個,較全光譜數(shù)據(jù)減少了28.9%。
圖1 γ1細化搜索(a): γ1部位分組; (b): γ1成熟度分組Fig.1 Refined search of γ1(a): γ1 grouped by location; (b): γ1 grouped by maturity
特征選擇可消除對分級無關(guān)的噪聲特征,但篩選出的光譜數(shù)據(jù)仍存在冗余、非線性特征,這將對煙葉分級的準確性產(chǎn)生影響,因此采用改進的LPP方法對提取的特征進行進一步降維處理,從而消除冗余特征的影響。 圖3—圖5為JMLPP與PCA,LPP的投影對比。
圖2 γ2細化搜索(a): γ2部位分組; (b): γ2成熟度分組Fig.2 Refined search of γ2(a): γ2 grouped by location; (b): γ2 grouped by maturity
圖3 PCA投影圖Fig.3 PCA projection plot
圖4 LPP投影圖Fig.4 LPP projection plot
可以看出,PCA投影空間中樣品混合現(xiàn)象比較嚴重,各等級邊界模糊,難以實現(xiàn)煙葉等級的區(qū)分。 LPP投影空間中的煙葉等級分類效果好于PCA,但仍存在較多樣品區(qū)分模糊問題。 而JMLPP投影空間中的煙葉樣品分類清晰,效果明顯好于PCA與LPP,說明該方法有較好的等級區(qū)分能力。
圖5 JMLPP投影圖Fig.5 JMLPP projection plot
選取75%的樣本做為訓(xùn)練集,25%的樣本做為測試集,分別采用全譜段與PCA,LPP和JMLPP降維后的特征建立煙葉等級分類模型。 幾種降維方法選取前6個成分做為輸入指標(biāo),采用SVM做為分類器。 表2為幾種方法下郴同等級煙葉分類準確性對比,為防止偶然性,準確率取5次實驗結(jié)果的平均值。
表2 煙葉分級結(jié)果對比Table 2 Comparison of tobacco leaf grading results%
由表2可以看出,對于每個等級煙葉的分類準確率,全譜段做為輸入特征效果最差,主要由于高維光譜中存在較多噪聲和冗余信息,無法實現(xiàn)煙葉分級信息的有效提取,影響了分類的準確性。 JMLPP方法煙葉總體分類的準確率為93.8%,每個等級的分類準確性都明顯高于其他方法,說明該方法能較好的對煙葉分級信息進行提取,這與前面投影分析結(jié)果一致。
敏感度與特異度可以分別衡量算法對于正例與負例的識別能力,表3為幾種分級算法模型對5種等級煙葉分類的敏感度與特異度對比。
表3 煙葉分級算法敏感度與特異度對比Table 3 Comparison of sensitivity and specificity of tobacco leaf classification algorithms
可以看出,JMLPP算法的敏感度、對煙葉等級的識別錯誤率明顯好于其他幾種方法,進一步說明JMLPP方法具有較好的魯棒性。
基于聯(lián)合矩陣局部保持投影算法較好的解決了光譜數(shù)據(jù)高維、重疊、高噪聲的問題。 該方法通過聚類實現(xiàn)了與分類相關(guān)性強的多個特征子集的提取,并集后得到聯(lián)合矩陣,有效降低了光譜數(shù)據(jù)維度,減少了噪聲干擾。 通過對LPP算法的改進,解決了高維數(shù)據(jù)歐氏距離度量不準確的問題,提高了降維效果。 實驗結(jié)果表明,JMLPP方法對于煙葉等級判定具有更好的準確率與魯棒性,可以作為煙葉分級的一種新方法。 下一步,需要提高算法效率,拓寬算法的應(yīng)用范圍。