林紅梅, 曹秋紅, 張同軍, 李照鑫, 黃海青,李學敏, 吳 斌, 張慶建,呂新民,李德華*
1.山東科技大學電子信息工程學院,青島市太赫茲重點實驗室,山東 青島 266590 2.中國電子科技集團公司第四十一研究所,山東 青島 266555 3.青島海關技術中心,山東 青島 266002 4.阿拉山口海關技術中心,新疆 阿拉山口 833400
玉石有軟玉、硬玉之分,平常人們所說的玉多指軟玉,而硬玉指的是翡翠。玉與石的主要區(qū)別就是玉的質(zhì)地較為細膩,富有韌性,呈半透明狀,且有光澤;而石基本上是沒有光澤的,且入手粗糙,通常是不透明的。隨著加工技術的進步,玉石仿品的做工可以以假亂真,單靠肉眼很難鑒別。因此很多現(xiàn)代科技手段被用于玉石鑒別。例如紅外光譜技術,但是該技術需要已知的樣品光譜參數(shù),并且光譜分析工作難度較大;拉曼光譜技術[1]中熒光現(xiàn)象會造成很大的背景干擾,且進行傅里葉變換時,常出現(xiàn)曲線的非線性問題。因此尋找一種實用、便捷、準確可靠的玉石無損檢測技術極為重要。
由于太赫茲波對非金屬材料具有很好的穿透性,光子能量低、使用安全,且具有很寬的波譜范圍,因此被廣泛用于無損檢測和安檢成像。孟倩等[2]使用太赫茲時域光譜技術對玉石和仿品進行分析,試圖根據(jù)其折射率、吸收系數(shù)以及介電常數(shù)的差別來鑒別和田玉的真?zhèn)?。楊婷婷[3]等使用太赫茲時域光譜技術對不同產(chǎn)地的白色軟玉進行研究,根據(jù)光譜折射率的數(shù)值差異,以及特征吸收峰的不同來區(qū)分不同產(chǎn)地的軟玉。但是大部分的軟玉在太赫茲波段沒有特征吸收峰,只根據(jù)其特征譜的差異,不能準確的對軟玉進行鑒別。
利用太赫茲時域光譜技術結合模式識別方法對軟玉和仿品進行鑒別。實驗測量軟玉和仿品的折射率,使用主成分分析(principal component analysis,PCA)對原始折射率數(shù)據(jù)進行降維處理。通過支持向量機(support vector machines,SVM)建立相應的分類模型,并引入網(wǎng)格搜索(Grid Search)、遺傳算法(genetic algorithm,GA)和粒子群算法(particle swarm algorithm,PSO)對SVM的相關參數(shù)進行優(yōu)化,實現(xiàn)了對軟玉和仿品的有效識別。
本實驗中使用的太赫茲時域光譜系統(tǒng)是由德國BATOP公司生產(chǎn)的TDS-1008,儀器光路示意圖如圖1所示。實驗在恒溫、恒濕下進行。本實驗采用透射模式測量樣品太赫茲時域譜。
圖1 THz-TDS實驗原理圖
實驗選用來自我國新疆、青海,以及巴基斯坦、阿富汗四個地區(qū)的軟玉樣品,仿品選用玻璃、大理石、石包玉三種樣品,樣品表面光滑,厚度在3 mm左右。使用太赫茲時域光譜系統(tǒng)測得樣品的折射率,其有效光譜范圍為0.1~1.5 THz。每個地區(qū)軟玉樣品各測得12組數(shù)據(jù),四個地區(qū)共48組數(shù)據(jù),仿品共測得12組數(shù)據(jù),軟玉和仿品數(shù)據(jù)共60組。
主成分分析(PCA)是一種統(tǒng)計方法,該方法通過正交變換把高維的原始數(shù)據(jù)空間映射到一個小維度的空間,即通過提取包含原始數(shù)據(jù)信息的特征數(shù)據(jù)(主成分),組成一個新的低維數(shù)據(jù)集[5-6]。主成分PC1包含原始數(shù)據(jù)信息最多,其次是主成分PC2,主成分PC3,…,且各主成分兩兩正交。求解主成分的步驟如下。
(1)對原始數(shù)據(jù)矩陣Xn×p(n為樣本的數(shù)量,p為數(shù)據(jù)的維度)進行標準化
(1)
(2)計算樣本的相關系數(shù)矩陣Rp×p;
(3)計算樣本相關系數(shù)矩陣Rp×p的特征值λi和相應的特征向量μi;
(4)提取重要主成分,一般而言,當前k個主成分的累計方差貢獻率超過85%時,就可以用前k個主成分代替原始數(shù)據(jù)。
支持向量機是一種分類方法,它的基本思想是尋找一個能夠把特征數(shù)據(jù)準確無誤的分割開,且具有最大幾何間距的分離超平面。超平面的表達式如(2)所示
f(x)=ωTx+b
(2)
式(2)中:x為折射率光譜數(shù)據(jù)經(jīng)降維后提取出來的特征向量;ω和b分別表示超平面的法向量及對應的截距。
求解最優(yōu)超平面,就要使兩類樣本之間的間距達到最大,即L達到最小,L的表達式為
(3)
為了能夠將全部的數(shù)據(jù)點正確分類在超平面的兩側,L需滿足
(4)
式(4)中:α為拉格朗日乘子,β≥0;xi為要分類的數(shù)據(jù)點;yi為根據(jù)映射函數(shù)得到的值。當數(shù)據(jù)線性不可區(qū)分時,就需要將其映射到一個高維空間,把數(shù)據(jù)轉換成線性可分再進行分類。通過引入核函數(shù)來避免數(shù)據(jù)在高維空間計算困難。在此選擇徑向基函數(shù)作為核函數(shù)。核函數(shù)K(xi,xj)可表示為
K(xi,xj)=exp(-|xi-xj|2/σ2)
(5)
通過核函數(shù)映射后,L的表達式可轉化為
(6)
只要確定了式(6)中的ω和b,即可得到最優(yōu)超平面。
使用MATLAB軟件分別對我國新疆、青海,以及巴基斯坦、阿富汗四個地區(qū)軟玉樣品和玻璃、大理石和石包玉三種仿品的時域光譜進行傅里葉變換處理,得到每種樣品的頻域譜,如圖2(a)所示。由于樣品對太赫茲波有一定的吸收,因此樣品的光譜振幅會有所降低。圖2(b)是樣品的折射率譜。從圖2可以看出,無法通過特征譜線區(qū)分軟玉和仿品。
圖2 玻璃、大理石、石包玉和阿富汗、中國青海、巴基斯坦、中國新疆四個地區(qū)玉石樣品的太赫茲(a)頻域譜,(b)折射率
為了去除光譜中的重疊信息以及與樣品性質(zhì)不相關的信息,縮短模型的計算時間、提高運行效率[9],將提取的0.1~1.5 THz頻率范圍內(nèi)折射率60×78的原始數(shù)據(jù)減少到60×4(選取方差累計貢獻率最高的4個主成分),折射率的各主成分的方差貢獻率以及累計方差貢獻率如表1所示,前四個主成分的總貢獻率高達98.408%,因此前四個主成分被認為在很大程度上代表了原始折射率譜的光譜特征。圖3為樣品在第一、二主成分上的得分,從圖中可以看出,軟玉和仿品可以很明顯的區(qū)分開來,不同地區(qū)的軟玉也有聚合現(xiàn)象,但幾種軟玉聚合相對比較集中,所以此種方法對于不同地區(qū)的軟玉無法進行區(qū)分。
表1 折射率各主成分方差貢獻率及累計方差貢獻率
圖3 阿富汗、中國青海、巴基斯坦、中國新疆四個地區(qū)玉石樣品和仿品在第一、二主成分上的得分
在進行主成分分析后,用新數(shù)據(jù)矩陣(60×4)代替原來的光譜數(shù)據(jù)矩陣并輸入到SVM中建立分類模型。在SVM中,數(shù)據(jù)集被分為兩類,一類作為訓練集,一類作為測試集。隨機抽取包含軟玉和仿品在內(nèi)的45組數(shù)據(jù)作為訓練集,剩下的15組數(shù)據(jù)作為測試集。
分類模型的性能主要取決于懲罰參數(shù)c和徑向基函數(shù)核參數(shù)g的選擇。為了達到期望的分類效果,模型參數(shù)的選擇尤為重要,因此分別采用網(wǎng)格搜索法、遺傳算法、粒子群算法[10]對參數(shù)進行優(yōu)化。
首先選用網(wǎng)格搜索法對參數(shù)c和g進行優(yōu)化,建立網(wǎng)格搜索-支持向量機模型,圖4為網(wǎng)格搜索選擇SVM參數(shù)的結果。
圖4 網(wǎng)格搜索-支持向量機參數(shù)選擇結果
遺傳算法的靈感來自于連續(xù)幾代生物遺傳特性的變化和生物的自然選擇,該算法通過迭代從群體中選取較優(yōu)的個體[9]。這里將GA的相關參數(shù)進行如下設置:最大進化代數(shù)設為200、種群數(shù)量設為20、將c的范圍設定在(0~100)之間、將g的范圍設定在(0~1 000)之間、交叉驗證數(shù)設為5,其仿真結果如圖5所示。從圖中可以看出利用遺傳算法尋找出的最優(yōu)參數(shù)(c=1.740 1,g=4.544 6)可以使訓練集分類準確率達到100%,算法的平均適應度約為97%。
圖5 遺傳算法的適應度曲線
粒子群優(yōu)化算法的靈感來自于動物群體之間的社會互動。它首先用一組粒子表示一個可能的優(yōu)化方案,然后通過迭代搜索最優(yōu)解[11]。這里將PSO的相關參數(shù)進行如下設置:學習因子C1代表局部搜索能力設為1.5、C2代表全局搜索能力設為1.7、進化代數(shù)設為200、種群數(shù)設為10、將c的范圍設定在(0.1~100)之間、將g的范圍設定在(0.01~1 000)之間、交叉驗證數(shù)設為5,其仿真結果如圖6所示。從圖中可以看出利用粒子群算法尋找出的最優(yōu)參數(shù)(c=11.287 2,g=1.833 1)可以使訓練集分類準確率達到100%,算法的平均適應度約為86%。
圖6 粒子群算法的適應度曲線
將三種支持向量機參數(shù)優(yōu)化方法進行對比,相關參數(shù)如表2所示,其中分類準確率為20次分類的平均值。從表中可以看出這3種優(yōu)化方法均可以獲取分類器的最優(yōu)參數(shù),雖然參數(shù)并不相同但基本可以實現(xiàn)正確分類,識別率分別為97.7%,98.3%和98.6%。
表2 支持向量機結合網(wǎng)格搜索、遺傳和粒子群三種優(yōu)化方法對比
將太赫茲時域光譜技術與支持向量機相結合,建立了軟玉和仿品的分類器。采用主成分分析對原始折射率數(shù)據(jù)進行降維和特征提取,將提取后的結果輸入到支持向量機建立的模型中。引入網(wǎng)格搜索法、遺傳算法和粒子群算法對支持向量機參數(shù)進行優(yōu)化。三種算法的優(yōu)化識別率分別為97.7%,98.3%和98.6%,實驗結果表明,太赫茲時域光譜結合支持向量機模型能夠實現(xiàn)軟玉和仿品的有效識別。這種通過太赫茲時域光譜技術結合模式識別的方法,為真假軟玉的鑒別提供了一種新的方法。