周 月,孫 霽,楊四剛,陳宏偉,徐 坤
(1.北京郵電大學(xué) 信息光子學(xué)與光通信國家重點實驗室,北京 100876;2.清華大學(xué) 電子工程系,北京 100084)
太赫茲時域光譜(THz-TDS)是近年來逐步發(fā)展成熟的光譜分析技術(shù),已經(jīng)逐漸成為前沿多學(xué)科交叉領(lǐng)域的重要技術(shù)手段之一[1-3]。大多數(shù)的有機大分子、蛋白質(zhì)分子以及生物分子在太赫茲頻譜范圍內(nèi)具有豐富的光學(xué)信息。位于太赫茲波段范圍內(nèi)的光子能量很低,可以避免生物分子結(jié)構(gòu)遭到電離破壞;另外,太赫茲波對非極性材料具有良好的穿透性,為無損檢測創(chuàng)造了有利條件。以上優(yōu)點為太赫茲時域光譜技術(shù)在生物分子的定量定性分析和無損檢測領(lǐng)域的研究奠定了基礎(chǔ)[4-5]。目前,THz-TDS檢測技術(shù)已經(jīng)被廣泛地應(yīng)用于爆炸物檢測[6-7]、毒品藥品檢測[8-9]、生物醫(yī)學(xué)[10-11]、文物保護[12]以及農(nóng)作物監(jiān)測[13]等領(lǐng)域。
轉(zhuǎn)基因技術(shù)是利用基因工程和分子生物學(xué),通過改變生物的DNA,進而改變生物遺傳特性的技術(shù)。全球99%的轉(zhuǎn)基因作物由美國、加拿大、阿根廷和中國種值,每年種植轉(zhuǎn)基因作物的種類和數(shù)量都持續(xù)增長[14]。這些轉(zhuǎn)基因農(nóng)產(chǎn)品被用來飼養(yǎng)動物或者壓榨油料,減低了社會生產(chǎn)成本,滿足了人類的生活生產(chǎn)需求。轉(zhuǎn)基因技術(shù)在增加農(nóng)作物產(chǎn)量,提高農(nóng)作物抗病等作用的同時可能會引起過敏等危害。轉(zhuǎn)基因作物帶來的潛在問題,例如對環(huán)境的影響、宗教倫理的挑戰(zhàn)以及生態(tài)安全等尚未明確。因此,針對轉(zhuǎn)基因作物的檢測技術(shù)的研究具有重要意義,為農(nóng)產(chǎn)品安全和質(zhì)量的檢測提供重要的技術(shù)支持[15]。
基于蛋白質(zhì)檢測的方法被用于大多數(shù)的轉(zhuǎn)基因生物檢測,但是基于蛋白質(zhì)檢測的方法耗時較長且成本高昂[16]。太赫茲時域光譜檢測技術(shù)結(jié)合機器學(xué)習(xí)識別方法具有快速、高效以及高準(zhǔn)確性的優(yōu)點,擁有較高的研究價值和應(yīng)用潛力。2015年,Liu等人基于太赫茲光譜,構(gòu)建了一個改進的支持向量機算法(Support Vector Machines,SVM),可以有效地鑒定出轉(zhuǎn)基因和非轉(zhuǎn)基因棉花種子,為轉(zhuǎn)基因作物的定性識別提供了一種無損、快速、可靠的方法[17]。2016年,Liu等人利用太赫茲時域光譜成像技術(shù)對轉(zhuǎn)基因稻米進行了太赫茲圖像的提取。利用隨機森林(Random Forest,RF)算法對獲得的太赫茲圖像進行了分類識別,準(zhǔn)確率達到了96.67%[18]。2017年,Lian等人測量了四種轉(zhuǎn)基因玉米和一種非轉(zhuǎn)基因玉米標(biāo)準(zhǔn)品的太赫茲譜,隨后利用主成分分析算法(Principal Component Analysis,PCA)對光譜數(shù)據(jù)進行了降維,然后采用PCA結(jié)合支持向量機的方法,成功的識別出所有標(biāo)準(zhǔn)品樣本,準(zhǔn)確率達到92.08%[19]。
本文以兩種轉(zhuǎn)基因油菜種子(Mon88302和GT73)和一種非轉(zhuǎn)基因油菜種子為研究對象。首先提取了三種油菜種子的太赫茲光譜。其次通過計算得到樣本的太赫茲吸收譜。最后利用樸素貝葉斯算法(Naive Baiyes,NB)、基于樸素貝葉斯的自適應(yīng)提升算法(Naive Baiyes-AdaBoost,NB-daboost)和主成分分析結(jié)合隨機森林算法(PCA-RF)、主成分分析結(jié)合支持向量計算法(PCA-SVM)對樣本的太赫茲吸收譜進行了分類識別,對分類效果進行了分析研究。
實驗系統(tǒng)采用自行搭建的太赫茲時域光譜儀對樣品進行太赫茲光譜提取。實驗裝置原理如圖1所示。中心波長為1 560 nm,重復(fù)頻率為100 MHz,脈沖寬度為100 fs,平均功率為72 mW的飛秒光纖激光器作為太赫茲脈沖產(chǎn)生和探測的激勵光源。飛秒光源為線偏振光,因此,半波片和偏振分束器的組合在分束的同時,可以控制探測光和泵浦光的功率分配。反射鏡為的反射率大于97%。其中反射鏡4和反射鏡5成90°放置于電動位移平臺上,組成機械延遲線。斬波器為鎖相放大器提供參考頻率。光纖準(zhǔn)直器負(fù)責(zé)將自由空間傳輸?shù)娘w秒激光耦合進入光電導(dǎo)天線的尾纖當(dāng)中。太赫茲發(fā)射器產(chǎn)生的太赫茲脈沖由兩組90°離軸拋物面鏡負(fù)責(zé)進行收集和準(zhǔn)直。兩組離軸拋物面鏡之間的焦點處為待測樣品擺放位置。穩(wěn)壓電源為直流偏置+100 V,負(fù)責(zé)為太赫茲發(fā)射器提供直流偏壓。太赫茲探測器的輸出信號連接鎖相放大器,由鎖相放大器進行信號處理和儲存。最后通過計算機進行數(shù)據(jù)處理,獲得待測樣品的太赫茲時域光譜。
圖1 實驗裝置原理
圖2是THz-TDS的光譜,其中插圖是光譜儀的時域脈沖波形。
圖2 THz-TDS光譜和時域波形(插圖)
從圖2中可以看到,光譜儀有效帶寬為2.5 THz,峰值動態(tài)范圍60 dB。在實際測量過程中,室內(nèi)溫度保持在23℃。樣品倉中充入干燥的空氣,使倉內(nèi)的濕度保持在5%以下。減小空氣中水汽對測量效果的影響。
實驗中的菜籽樣品包含3種類別,其中Mon88302和GT73為轉(zhuǎn)基因油菜種子,剩余一種Non-GMO為非轉(zhuǎn)基因油菜種子。轉(zhuǎn)基因GT73和Mon88302以及非轉(zhuǎn)基因Non-GMO油菜種子樣本均購買自孟山都公司。由于油菜種子出油率較高,難以直接壓片成型。因此實驗用對太赫茲吸收很小,且刻圓槽的高密度聚乙烯板作為樣品的檢測窗口。高密度聚乙烯板厚度0.5 mm,圓槽直徑1 mm。將待測樣品充分研磨,通過填充壓實高密度聚乙烯窗口實現(xiàn)樣品的均勻定型。整個制作過程中保持樣品的干燥以減小水分對測量結(jié)果的干擾。
實驗采取透射式THz-TDS對樣品的太赫茲光譜進行測量,利用Dorney等人提出的模型最終提取樣品的太赫茲吸收譜。在正入射條件下,被測樣品對于太赫茲信號的復(fù)透射函數(shù)可以表示為[20-21]:
(1)
如果僅分析樣品材料在弱吸收近似情況下,以及菲涅耳透射系數(shù)取實數(shù)時,就可以得到樣品的折射率和吸收系數(shù)近似值,即[21]:
(2)
(3)
通過測量到的太赫茲時域光譜數(shù)據(jù)以及上述公式,可以計算出樣品的折射率和吸收系數(shù)。
實驗提取的3種油菜種子的太赫茲吸收譜如圖3所示。
圖3 3種油菜種子的太赫茲吸收曲線
由于油菜種子對太赫茲具有較強的吸收,因此只提取到的太赫茲吸收譜的頻譜范圍為0.2~1.1 THz。從圖3可以看出,3種油菜種子的并沒后明顯的太赫茲吸收峰。3種油菜種子的太赫茲吸收曲線之間的差異也非常小,肉眼難以進行區(qū)分。為了達到自動化及準(zhǔn)確的區(qū)分各類轉(zhuǎn)基因油菜種子樣本的目的,需要將太赫茲時域光譜與機器學(xué)習(xí)分類算法相結(jié)合。
實驗中總共成功制備了89份樣本,其中兩類轉(zhuǎn)基因樣本分別為30份,非轉(zhuǎn)基因樣本29份。由于樣本數(shù)量偏小,為了防止識別算法的過擬合,實驗中采用10倍交叉驗證對樣品進行分析。10倍交叉驗證中,初始數(shù)據(jù)集被隨機劃分為大小基本相同但互不相交的10組數(shù)據(jù)子集。在訓(xùn)練和測試過程,中每次選出一組作為測試集,其余各組作為訓(xùn)練集,依次類推,共進行10次訓(xùn)練和測試。10倍交叉驗證中,分類準(zhǔn)確率是10次迭代準(zhǔn)確率的平均值,因此采用10倍交叉驗證的分類結(jié)果具有較低的偏倚和方差。
貝葉斯分類器時在概率框架內(nèi)進行決策的基本方法之一[22]。在相關(guān)概率已知的理想情況下,貝葉斯分類器可以或得最優(yōu)的識別標(biāo)記。但是,對于后驗概率,貝葉斯分類器的類條件概率很難通過有限的樣本估計直接獲得。樸素貝葉斯分類算法對已知類別,假設(shè)所有的屬性相互獨立,每個屬性獨立對分類結(jié)果產(chǎn)生影響,從而避免了貝葉斯分類器的局限性[23]。樸素貝葉斯分類器的表達式為:
(4)
式中,x為樣本屬性;d為屬性數(shù)目;c為分類標(biāo)記。
表1是樸素貝葉斯分類方法的轉(zhuǎn)基因樣本分類效果。從表1中可以看到,非轉(zhuǎn)基因油菜Non-GMO、轉(zhuǎn)基因GT73油菜和轉(zhuǎn)基因Mon88302油菜的分類準(zhǔn)確率分別為80%,97%,77%。各有10%的Non-GMO樣本被誤分類為GT73和Mon88302;有3%的GT73被誤分類為Mon88302;有23%的Mon88302被誤分類為非轉(zhuǎn)基因油菜Non-GMO。Naive Baiyes分類方法的平均準(zhǔn)確率為84.7%。
表1 樸素貝葉斯算法分類效果
樣本Non-GMOGT73Mon88302Non-GMO0.800.100.10GT730.000.970.03Mon883020.230.000.77
Boosting算法也稱增強算法,可以用于分類問題和回歸問題,由Schapire在1990年首次提出[24]。Boosting是一類通過對多個弱學(xué)習(xí)器的集成,組合成為強學(xué)習(xí)器的分類算法。1995年,F(xiàn)reund和Schapire通過改進Boosting算法,提出了自適應(yīng)提升(Adaptive Boosting,AdaBoost)算法[25]。AdaBoost算法擁有較好的精度,具有很高的實用性。AdaBoost算法的自適應(yīng)表現(xiàn)在,前一個弱學(xué)習(xí)器預(yù)測錯誤的樣本權(quán)重會得到加強,更新權(quán)值后,樣本再次被用來訓(xùn)練下一輪新的弱學(xué)習(xí)器。在每輪訓(xùn)練過程中,樣本集合用來訓(xùn)練新的弱學(xué)習(xí)器,產(chǎn)生新的權(quán)值,像這樣不斷地迭代循環(huán),最終逼近預(yù)定的錯誤率。Adaboost算法的學(xué)習(xí)策略是最小化指數(shù)損失函數(shù),當(dāng)指數(shù)損失函數(shù)最小時,算法的分類錯誤率也逼近最小。
表2是基于樸素貝葉斯的Adaboost分類方法的轉(zhuǎn)基因樣本分類效果。從表2中可以看到Non-GMO,GT73,Mon88302的分類準(zhǔn)確率分別為90%,100%,100%。各有7%和3%的Non-GMO樣本被誤分類為GT73和Mon88302;GT73和Mon88302樣本沒有出現(xiàn)分類錯誤;基于樸素貝葉斯的Adaboost分類方法的平均準(zhǔn)確率為96.7%。
表2 基于樸素貝葉斯的Adaboost分類效果
樣本Non-GMOGT73Mon88302Non-GMO0.900.070.03GT730.001.000.00Mon883020.000.001.00
PCA算法是一種將高維數(shù)據(jù)集簡化為低維數(shù)據(jù)集的方法,屬于無監(jiān)督降維。高維數(shù)據(jù)集通過PCA可以實現(xiàn)有效的降維處理,降維后的數(shù)據(jù)集可以有效地反映原始數(shù)據(jù)集的數(shù)據(jù)特征。
RF是一種綜合了集成分類器和隨機子空間的算法,是基于決策樹的一種算法,通過集成思想將多顆決策樹進行集成。決策樹是一種樹形結(jié)構(gòu),針對標(biāo)簽問題進行“分類”和“決策”,最終的決策結(jié)果就是分類結(jié)果。
表3展示了PCA-RF方法中轉(zhuǎn)基因樣本分類效果。從中可以看到Non-GMO,GT73,Mon88302樣本的預(yù)測準(zhǔn)確率分別為83%,93%,97%。PCA-RF分類方法的平均準(zhǔn)確率為91%。有17%的Non-GMO樣本被誤分類為GT73;有3%的GT73被誤分類為Non-GMO;有3%的GT73被誤分類為Mon88302;有3%的Mon88302被誤分類為Non-GMO。
表3 PCA-RF分類效果
樣本Non-GMOGT73Mon88302Non-GMO0.830.170.00GT730.030.930.03Mon883020.030.000.97
SVM是一種通過非線性映射將原始特征映射到較高維度的算法[26]。SVM在許多實踐領(lǐng)域備受關(guān)注,如遙感、圖像處理等。SVM起源于分類問題,對于給定的訓(xùn)練集D,SVM的思想就是找到一個劃分超平面將D中的樣本區(qū)分開。
表4展示了PCA-SVM方法的轉(zhuǎn)基因樣本分類效果。從中可以看到Non-GMO,GT73,Mon88302樣本的預(yù)測準(zhǔn)確率分別為83%,100%,70%。PCA-SVM分類方法的平均準(zhǔn)確率為84.3%。有17%的Non-GMO樣本被誤分類為GT73;有17%的Mon88302被誤分類為Non-GMO;有13%的Mon88302被誤分類為GT73。
表4 PCA-SVM分類效果
樣本Non-GMOGT73Mon88302Non-GMO0.830.170.00GT730.001.000.00Mon883020.170.130.70
表5對4種分類方法的分類效果進行了總結(jié)。從表5中可以看到,在轉(zhuǎn)基因油菜種子的太赫茲時域光譜識別中,只使用樸素貝葉斯方法分類的準(zhǔn)確率只有84.7%。但是結(jié)合Adaboost算法后,分類準(zhǔn)確率達到96.7%,是4種算法中最高的分類準(zhǔn)確率。結(jié)果表明,基于樸素貝葉斯的Adaboost算法更適合與轉(zhuǎn)基因油菜種子的分類識別。
表5 4種分類方法分類效果比較
分類方法平均準(zhǔn)確率樣品分類準(zhǔn)確率Non-GMOGT73Mon88302樸素貝葉斯0.8470.800.970.77基于樸素貝葉斯的Adaboost0.9670.901.001.00PCA-RF0.9100.830.930.97PCA-SVM0.8430.831.000.70
本文通過太赫茲時域光譜系統(tǒng)研究了2種轉(zhuǎn)基因油菜種子和一種非轉(zhuǎn)基因油菜種子的太赫茲時域光譜,分析了其在0.2~1.1 THz頻譜范圍內(nèi)的太赫茲吸收譜,通過4種機器學(xué)習(xí)分類方法,對油菜種子樣品進行了檢測識別。實驗結(jié)果表明,3種油菜種子的太赫茲吸收譜沒有明顯吸收峰,并且差異不大。借助于機器學(xué)習(xí)算法可以實現(xiàn)對其的準(zhǔn)確分類,其中基于樸素貝葉斯的Adaboost分類算法可以達到96.7%的分類準(zhǔn)確率。本文的研究為轉(zhuǎn)基因作物快速、準(zhǔn)確的檢測提供了有益參考。