杜 勇,劉建軍
(1.集美大學(xué)信息工程學(xué)院,福建 廈門 361021;2.九江學(xué)院電子工程學(xué)院,江西 南昌 330013)
?
基于太赫茲光譜和支持向量機(jī)快速檢測棉花種子
杜勇1,劉建軍2
(1.集美大學(xué)信息工程學(xué)院,福建 廈門 361021;2.九江學(xué)院電子工程學(xué)院,江西 南昌 330013)
[摘要]鑒于目前對農(nóng)產(chǎn)品品種的檢測大多是基于可見光/近紅外光譜的,提出了一種基于太赫茲光譜和支持向量機(jī)快速檢測棉花種子的方法.為實(shí)現(xiàn)棉花種子的分類識別,在頻率0.2~1.2 THz范圍內(nèi)采集2種最新轉(zhuǎn)基因及2種非轉(zhuǎn)基因棉花種子,總計(jì)40個樣本的太赫茲光譜,用遺傳算法優(yōu)化的支持向量機(jī)建立識別模型,對不同品種的棉花種子進(jìn)行識別.實(shí)驗(yàn)結(jié)果表明,該方法對不同品種的棉花種子綜合識別率達(dá)到93.75%,由此,太赫茲光譜結(jié)合支持向量機(jī)的檢測方法可為不同品種的生物辨別提供一種精確、快速、簡便的檢測方法.
[關(guān)鍵詞]太赫茲;光譜;支持向量機(jī);棉花;種子;檢測;遺傳算法
0引言
太赫茲波通常是指頻率在0.1~10 THz(波長在3~30 mm)之間的電磁波[1],其波段屬于遠(yuǎn)紅外.理論研究表明,大量生物分子(DNA,蛋白質(zhì)等)的振動和轉(zhuǎn)動能級正好處于THz的頻帶范圍內(nèi),用THz 時域光譜系統(tǒng)(THz-TDS)探測生物樣品能產(chǎn)生共振吸收峰,從而使利用太赫茲光譜識別生物樣品成為可能.目前近紅外光譜在轉(zhuǎn)基因植物檢測中的應(yīng)用已經(jīng)相當(dāng)廣泛[2],文獻(xiàn)[3]報道了近紅外光譜在轉(zhuǎn)基因玉米檢測識別中的應(yīng)用,文獻(xiàn)[4]報道了近紅外光譜技術(shù)在檢測轉(zhuǎn)基因油菜籽中芥酸和硫甙上的應(yīng)用,謝麗娟等[5]報道了利用可見光/近紅外光譜分析技術(shù)鑒別轉(zhuǎn)基因番茄葉等.但是,作為可見光/近紅外光譜技術(shù)有益補(bǔ)充的太赫茲光譜技術(shù)在農(nóng)業(yè)和食品領(lǐng)域的研究和探索才剛剛開始[6].
支持向量機(jī)是由Vapanik等人[7]提出的一種機(jī)器學(xué)習(xí)方法.其基本思想是在初始階段選擇一個非線性變換方法,將輸入向量由低維非線性樣本空間映射到高維或無窮維,使樣本空間的非線性分類轉(zhuǎn)化為線性分類,并基于結(jié)構(gòu)風(fēng)險最小化在特征空間中尋找最優(yōu)超平面,解決線性分類問題[8-10].目前,在支持向量機(jī)優(yōu)化參數(shù)問題上采用較多的是網(wǎng)格搜索(Grid Search)與交叉驗(yàn)證相結(jié)合的優(yōu)化算法,但是,該方法有個致命的缺點(diǎn)就是當(dāng)訓(xùn)練樣本較大時搜索過程非常費(fèi)時,且計(jì)算量大,因此該方法具有一定的局限性.而遺傳算法(Genetic Algorithm,GA)具有全局搜索能力,能夠在很大程度上減少計(jì)算量,使之優(yōu)化支持向量機(jī)成為可能.
本文擬使用太赫茲光譜檢測系統(tǒng)對2種轉(zhuǎn)基因棉花種子和2種非轉(zhuǎn)基因棉花種子的40個樣本進(jìn)行光譜掃描,并在傳統(tǒng)支持向量機(jī)的基礎(chǔ)上,利用遺傳算法優(yōu)化支持向量機(jī),以這4種棉花種子的太赫茲特征吸收譜為訓(xùn)練集數(shù)據(jù),對其進(jìn)行識別.
1樣品的THz特征吸收譜線
圖1為本文所用的透射式太赫茲時域光譜系統(tǒng)(THz-TDS),其中:InAs為THz發(fā)射極;ZnTe為探測極 ;Chopper為斬波器;BS為分束器 ;HWP為二分之一波片;QWP為四分之一波片; M1~M12為平面反射鏡;PM1~PM4為離軸拋物面鏡;Sample表示樣品放置處;L1~L3為聚焦透鏡;P為檢偏器; PBS為沃拉斯頓棱鏡 ;Si為硅片,可以透射太赫茲波,反射飛秒激光;Detector為差分二極管.Detector的輸出信號接入鎖相放大器,通過計(jì)算機(jī)進(jìn)行數(shù)據(jù)采集.圖2為圖1虛線部分的系統(tǒng)照片,實(shí)驗(yàn)測量時,該虛線部分置于氮?dú)猸h(huán)境中.為保證實(shí)驗(yàn)的準(zhǔn)確性,系統(tǒng)內(nèi)注入氮?dú)庵敝羶?nèi)部相對濕度達(dá)到0.2%以下.實(shí)驗(yàn)時室內(nèi)相對濕度為25%,恒溫292 K.
以4種不同品種的棉花種子為研究對象,它們是轉(zhuǎn)基因種子銀棉8號(Yinmian No.8)、鑫秋107號(Xinqiu No.107),和非轉(zhuǎn)基因棉花種子新陸中6號(Xinluzhong No.6)、中棉所28號(CCRI 28),均購于中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所.將棉花種子磨碎、烘干后,用壓片機(jī)壓成圓盤狀,直徑13 mm.每種棉花種子制成10個樣片,將其中的24個樣片(每種6個)作為訓(xùn)練集數(shù)據(jù)用于支持向量機(jī)建模校正;剩下的16個樣片作為測試集數(shù)據(jù)用來驗(yàn)證模型的精確度.
將制作好的樣品置于THz-TDS中,掃描得到4種棉花種子的THz時域光譜信息,如圖3所示.THz時域光譜信息經(jīng)過快速傅立葉變換(FFT),得到如圖4所示的4種棉花種子THz頻譜圖.可以看出,在 0.2~1.2 THz的光譜有效區(qū)域內(nèi),4種樣品信號與自由空間的參考信號顯著不同. 通過測量樣品對THz脈沖的相位延遲和吸收可以計(jì)算出材料的吸收率.根據(jù)測量的自由空間的THz參考信號以及透過物質(zhì)的THz樣品信號,得到4種棉花種子的特征吸收譜線,如圖5所示.
由于4種棉花種子其內(nèi)部分子結(jié)構(gòu)不一樣,可以表現(xiàn)出太赫茲時域及頻域響應(yīng)的差異.由圖5可知:鑫秋107號的吸收峰位于0.57,0.80 THz.需要指出的是,1.00 THz處不是樣品本身的吸收峰.由于實(shí)驗(yàn)設(shè)備的分辨范圍為0.10~0.98 THz,因而1.00 THz以上為不確定因素引起的誤差.銀棉8號的吸收峰位于0.57,0.78,0.94 THz.新陸中6號的吸收峰位于0.55,0.76 THz.中棉所28號在0.20~1.10 THz內(nèi)沒有明顯的吸收峰.由此,本研究可以根據(jù)不同品種的棉花種子呈現(xiàn)出的不同吸收峰來區(qū)分4種不同品種的棉花種子,但它還不能鑒別轉(zhuǎn)基因與非轉(zhuǎn)基因的棉花種子.
2基于遺傳算法的支持向量機(jī)
利用得到的樣品的太赫茲光譜數(shù)據(jù),建立基于遺傳算法的支持向量機(jī)識別模型.
對于采用BRF核函數(shù)的支持向量機(jī),其學(xué)習(xí)和泛化能力在很大程度上受懲罰系數(shù)γ和核函數(shù)值g的影響,因此利用遺傳算法優(yōu)化支持向量機(jī)的問題可以簡化為尋找參數(shù)γ和g的最佳組合值,得到最優(yōu)化的支持向量機(jī)參數(shù)γ和g.其優(yōu)化算法為:
1)對參數(shù)γ和g進(jìn)行染色體基因編碼[11],設(shè)置遺傳算法交叉率、變異率,隨機(jī)產(chǎn)生支持向量機(jī)參數(shù)值.
2)計(jì)算種群個體的適應(yīng)度值,用適應(yīng)度函數(shù)f(γ,g)=1/Dr衡量參數(shù)的好壞.
3)根據(jù)適應(yīng)度值,利用交叉變異算子產(chǎn)生新個體.
5)重復(fù)步驟2)— 4),不斷更新支持向量機(jī)參數(shù),直到滿足結(jié)束條件,得到最優(yōu)化的支持向量機(jī)參數(shù)γbest和gbest.
支持向量機(jī)識別模型建立步驟如下:
1)獲取得到樣品的太赫茲光譜數(shù)據(jù),把所有樣品的太赫茲光譜數(shù)據(jù)分成n份,將其中k份用來作為訓(xùn)練集數(shù)據(jù).
2)讀取訓(xùn)練集樣本的太赫茲數(shù)據(jù),隨機(jī)產(chǎn)生一組{γ,g}(即空間坐標(biāo)值)作為遺傳算法種群個體的初始位置,訓(xùn)練支持向量機(jī).
3)根據(jù)種群個體的初始化位置,計(jì)算種群個體的適應(yīng)度值,利用交叉變異算子產(chǎn)生新個體.
4)根據(jù)種群個體適應(yīng)值不同,采取調(diào)整支持向量機(jī)慣性權(quán)重,不斷更新支持向量機(jī)參數(shù),直到滿足結(jié)束條件(終止條件應(yīng)根據(jù)實(shí)際情況來定,本文選擇的終止條件為當(dāng)訓(xùn)練誤差率小于1.5%時終止算法),得到最優(yōu)化的支持向量機(jī)參數(shù)γ和g.
5)根據(jù)輸出的最優(yōu){γ,g},建立支持向量機(jī)識別模型.
3實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證利用遺傳算法對支持向量機(jī)的參數(shù)進(jìn)行優(yōu)化的有效性,本文給出了GA和Grid Search兩種方法優(yōu)化支持向量機(jī)得到的粒子群迭代次數(shù)與適應(yīng)度值關(guān)系曲線對比情況.由圖6可知,兩種方法在粒子群進(jìn)化到100代后都可達(dá)到其最優(yōu)解,但是,Grid Search方法的適應(yīng)率低于85%,而GA方法適應(yīng)率高于94.8%.
用新陸中6號(Xinluzhong No.6)、銀棉8號(Yinmian No.8)、鑫秋107號(Xinqiu No.107)和中棉所28號(CCRI 28)等4種樣品中的24個樣片(每種6個)作為訓(xùn)練集數(shù)據(jù)建立遺傳算法支持向量機(jī)的識別模型,將剩下的16個樣片(每種4個)作為待測樣品來驗(yàn)證本文模型的準(zhǔn)確性.
表1 給出了經(jīng)過PCA降維后的優(yōu)化SVM參數(shù)值及分類正確率.由表1可以看出,Grid Search和GA兩種方法,對訓(xùn)練集都有100%的辨別率,而對預(yù)測集,Grid Search方法只有81.25%的辨別率, GA方法辨別率則可以達(dá)到93.75%.
表1 Grid Search與GA的各參數(shù)對比
圖7從3D角度對SVM參數(shù)選擇進(jìn)行了比較直觀的對比,從中可以看出GA方法能夠較全面地尋找到SVM參數(shù)的全局最優(yōu)解.
表2為采用Grid Search-SVM和GA-SVM 兩種方法對實(shí)驗(yàn)樣品進(jìn)行綜合識別的結(jié)果.由表2可知:GA-SVM方法對4種不同品種的棉花種子的綜合識別率為93.75%,高于Grid Search-SVM方法(81.25%),說明該方法可有效地識別不同品種的棉花種子.
表2 Gird Search和GA方法對4種棉花種子識別率的對比
圖8描述了用Grid Search和GA兩種方法優(yōu)化SVM后對4種棉花種子測試樣本的分類情況.從分類結(jié)果可以看出,本文方法能夠更加準(zhǔn)確地區(qū)分4種棉花種子.同時從圖8還可看出用Grid Search和GA兩種方法優(yōu)化SVM都能將4種棉花種子分類成兩大類,其中class1代表的是轉(zhuǎn)基因類別的棉花,class2代表的是非轉(zhuǎn)基因類別的棉花,后續(xù)研究中將進(jìn)一步研究引起該現(xiàn)象的原因.
4結(jié)論
利用太赫茲光譜特性,結(jié)合GA-SVM方法,建立了4種不同品種的棉花種子的識別模型.結(jié)果表明,該模型對4種棉花種子的識別率達(dá)93.75%,為定性分析模型在實(shí)際樣品檢測中的應(yīng)用奠定了基礎(chǔ).因?yàn)椴煌贩N的棉花在基因表達(dá)和蛋白合成上存在差異,在成長過程當(dāng)中就表現(xiàn)為生物分子的不同,因此可以利用這些不同成分在太赫茲光譜上呈現(xiàn)出不同的特性來對其進(jìn)行鑒別.同理,由于其他轉(zhuǎn)基因作物,如水稻、大豆等代謝產(chǎn)物或蛋白質(zhì)水平與其親本相比會發(fā)生變化,應(yīng)該會在太赫茲光譜上呈現(xiàn)出不同的特性,因此本文方法可能用于其他非同類物質(zhì)的檢測.在實(shí)驗(yàn)中還發(fā)現(xiàn),利用本文方法,可以將4種棉花種子分成轉(zhuǎn)基因和非轉(zhuǎn)基因兩個不同的大類,但該現(xiàn)象具體是否由轉(zhuǎn)基因引起,本文尚未做進(jìn)一步研究,但為后續(xù)研究提供了方向.鑒于此,今后應(yīng)進(jìn)一步研究轉(zhuǎn)基因棉花與其親本的檢測方法,同時研究新的光譜數(shù)據(jù)采集和處理方法,從而提高建模的穩(wěn)定性和精度,為便攜式轉(zhuǎn)基因產(chǎn)品檢測的開發(fā)研制提供技術(shù)支持.
[參考文獻(xiàn)]
[1]LEE J H,CHOUNG M G.Nondestructive determination of herbicide-resistant genetically modified soybean seeds using near-infrared reflectance spectroscopy[J].Food Chemistry,2011,126(1):368-373.
[2]MOREIRA IVANIRA,SCARMINIO IEDA SPACINO.Chemometric discrimination of genetically modifiedCoffeaarabicacultivars using spectroscopic and chromatographic fingerprints[J].Talanta,2013,107(30):245-254.
[3]BORJIGIN M,ESKRIDGE C,NIAMAT R,et al.Electrospun fiber membranes enable proliferation of genetically modified cells[J].International Journal of Nanomedicine,2013,8:855-864.
[4]MILCAMPS A,RABE S,CADE R,et al.Validity assessment of the detection method of maize event Bt10 through investigation of its molecular structure[J].Journal of Agricultural and Food Chemistry,2009,57(8):3156-3163.
[5]FIEHN O,KOPKA J,TRETHEWEY R N,et al.Identification of uncommon plant metabolites based on calculation of elemental compositions using gas chromatography and quadrupole mass spectrometry[J].Analytical Chemistry,2000,72(15):3573-3580.
[6]李斌,WANG Ning,張偉立,等.基于太赫茲光譜技術(shù)的山核桃內(nèi)部蟲害檢測初步研究[J].光譜學(xué)與光譜分析,2014,34(5):1196-1200.
[7]VAPNIK V N.The nature of statistical learning theory[M].New York:Springer-Verlag,1995.
[8]BURGES C J C.A tutorial on support vector machines for pattern recognition[J].Data Min Knowl Disc,1998,2(2):121-167.
[9]SNCHEZ A V D.Advanced support vector machines and kernel methods[J].Neurocomputing,2003,55(3):5-20.
[10]VAPINK V N.An overview of statistical learning theory[J].IEEE Transactions on Neural Networks,1999,10(5):988-999.DOI:10.1109/72.788640.
[11]張超群,鄭建國,錢潔.遺傳算法編碼方案比較[J].計(jì)算機(jī)應(yīng)用研究,2011,28(3):819-822.
(責(zé)任編輯朱雪蓮英文審校曹敏杰)
Rapid Detection of Cotton Seed Based onTHz Spectroscopy Combined with SVMDU Yong1,LIU Jian-jun2
(1.School of Information Engineering,Jimei University,Xiamen 361021,China;
2.School of Electronic Engineering,Jiujiang University,Jiujiang 330013,China)
Abstract:At present,the detection of agricultural products is mostly based on visible/near infrared spectroscopy.In view of this,a fast and non-destructive detection method of cotton seeds based on terahertz spectroscopy combined with Support Vector Machine(SVM) was proposed.For the classification and recognition of different varieties cotton seeds,the terahertz spectra of two kinds of transgenic and two kinds of non-transgenic cotton seeds containing 40 samples in total were collected in the frequency range of 0.2~1.2 THz,using the Genetic Algorithm(GA)to optimized support vector machine.A recognition model to recognize different varieties of cotton seeds was established.The experimental results showed that the recognition rate of cotton seeds reached 93.75%.Therefore,the terahertz spectroscopy combined with support vector machine may provide an accurate,fast and simple method for the detection of different varieties of organisms.
Key words:THz;spectrum;SVM;cotton;seed;detection;GA
[中圖分類號]TN 29;O 657.3
[文獻(xiàn)標(biāo)志碼]A
[文章編號]1007-7405(2015)06-0421-07
[作者簡介]杜勇(1971—),男, 副教授,碩士,主要從事光電子器件研究,E-mail:duyong2001@jmu.edu.cn.
[基金項(xiàng)目]福建省自然科學(xué)基金資助項(xiàng)目(2013J01246)
[收稿日期]2015-04-09[修回日期]2015-11-02