吳婷婷 ARMSTRONG P R 張海輝 楊 玲 高維瑞
(1.西北農(nóng)林科技大學機械與電子工程學院, 陜西楊凌 712100; 2.陜西省農(nóng)業(yè)信息感知與智能服務重點實驗室, 陜西楊凌 712100; 3.美國農(nóng)業(yè)部農(nóng)業(yè)研究局糧食與動物健康研究中心, 曼哈頓 KS 66502; 4.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點實驗室, 陜西楊凌 712100)
谷物種質(zhì)在長期的自然進化和人工創(chuàng)造過程中積累了豐富的遺傳變異,種質(zhì)資源的鑒定是資源引進、篩選、評價和身份構(gòu)建時的工作之一[1]。谷物育種過程中,對種質(zhì)的鑒定和選擇往往基于單個籽粒的表型,這樣可以使后代種質(zhì)在保持某些優(yōu)異農(nóng)藝性狀的同時,更好地分析目標性狀的表達能力,而基于多顆谷物群體進行單個或少量幾個目標性狀的選擇,則容易造成后代遺傳力的降低,出現(xiàn)遺傳學上的稀釋效應[2]。
表型(Phenotype)是指某一生物的全部性狀特征[3],谷物籽粒鑒定時的表型傳統(tǒng)上是指明顯的、外在的,諸如顏色、形態(tài)、粒質(zhì)量等外表型(Exophenotype)[3],內(nèi)表型(Endophenotype)則是指相對獨立、有各自特定遺傳基礎(chǔ)、更為微觀和內(nèi)在的特征,可以通過生化測試或顯微觀察發(fā)現(xiàn)的內(nèi)在表現(xiàn)型[4-5],諸如各種碳水化合物、蛋白質(zhì)、脂類、酶類等營養(yǎng)成分的含量,激素的水平甚至物質(zhì)結(jié)構(gòu)等。近紅外光譜(NIRS)技術(shù)因具有檢測準確、快速和無損等優(yōu)勢,廣泛應用于谷物表型檢測分析,尤其是營養(yǎng)組分的內(nèi)表型鑒定方面。DELWICHE等[6]和MAGHIRANG等[7]分別證明了利用多顆小麥籽粒(10~100粒)的近紅外平均光譜建立模型,預測單粒小麥的蛋白質(zhì)含量和硬度指標可行性。還有不少研究者基于NIRS建立了大豆[8-9]、玉米[10-11]、小麥[12-13]的單粒營養(yǎng)組分預測模型,并研制了相應的單粒測量、分選裝備[14-17]。時偉芳等[18]、宋樂[19]進行了小麥和水稻單粒種質(zhì)的活力檢測,王純陽[20]利用傅里葉NIR光譜儀進行單粒水稻品質(zhì)的蛋白質(zhì)和水分測量,吳靜珠等[21]分別將傅里葉NIR光譜(近紅外光譜)儀和近紅外高光譜成像系統(tǒng)用于單粒小麥蛋白含量預測的探索,結(jié)果表明,近紅外高光譜模型的準確性和穩(wěn)定性會受其顆粒形狀、采樣面積、裝樣等測量條件的限制,因而需要改善測量條件,獲取樣本更全面信息。
現(xiàn)代小麥育種技術(shù)除依賴于基因型,越來越多依賴于高質(zhì)量的表型數(shù)據(jù)分析,遺傳育種早期篩選時,往往以單粒種子為單位進行,但是常規(guī)的NIRS(近紅外光譜成像)谷物分析儀器檢測時,至少需要250 g以上的籽粒樣品,不能用于單粒檢測,傅里葉型近紅外光譜儀由于其復雜性和價格昂貴,更多在實驗室中使用,與傳統(tǒng)色散型近紅外光譜儀相比,在近紅外波段上性能優(yōu)勢并不明顯,因而不能作為首選[22]。
針對單粒谷物品質(zhì)檢測的需求,本文設(shè)計專用的光源機構(gòu),與傳統(tǒng)色散型近紅外光譜儀結(jié)合使用,建立單粒小麥蛋白質(zhì)含量的定量預測模型,以實現(xiàn)單粒谷物內(nèi)部表型信息無損、實時測量。
針對谷物單籽粒內(nèi)部品質(zhì)表型的檢測需求,研制了一種波長范圍覆蓋近紅外波段的全包圍結(jié)構(gòu)光源,并設(shè)計了一套無損實時近紅外光譜獲取裝置。光源實物圖和整個裝置工作原理圖如圖1所示。
圖1 谷物單粒品質(zhì)近紅外光譜檢測裝置示意圖Fig.1 Single kernel near-infrared spectra detection systematical block diagram1.全包圍光源結(jié)構(gòu) 2、7.光電檢測光纖 3.光電檢測器 4、8.一分二型漫反射光纖 5.光譜儀 6.計算機
該裝置包括光譜采集模塊、一分二型漫反射光纖、全包圍結(jié)構(gòu)光源模塊和光電檢測模塊4部分。當谷物籽粒進入光源時,首先會被光電檢測器捕捉,產(chǎn)生觸發(fā)信息,光譜采集模塊通過定制一分二型光纖立刻開始捕獲籽粒處于光源通道內(nèi)的漫反射光譜,上傳給計算機進行處理與預測。
近紅外光譜法有透射測定法、鏡面反射測定法和漫反射測定法[23],鏡面反射只發(fā)生在待檢測樣品的表面,缺少負載樣品的結(jié)構(gòu)和組成的信息,不能用于定性或定量分析;透射分析中由于輻照直徑不能超過樣品直徑,對于麥粒(籽粒厚度一般在3 mm左右)這樣的小樣品來說,分析光容易在其邊緣處泄漏而導致光飽和,即使是玉米或大豆這樣的大顆粒谷物,也容易在邊緣處被過度照射導致不均勻光照。而漫反射光是分析光進入樣品內(nèi)部后,經(jīng)過多次反射、折射、衍射、吸收后返回表面的光[24],因而本文選定漫反射法采集單粒小麥的光譜。
在光譜采集過程中,谷物顆粒樣品狀態(tài)、入射光束界面的穩(wěn)定性以及重復裝樣的隨機性等因素均對漫反射測試有重要影響。因此精巧合理的采集機構(gòu)是獲取高效穩(wěn)定的光譜數(shù)據(jù)的重要保障[25]。本文選用美國International Light Technologies公司生產(chǎn)的1150-4型NIR LED微型燈珠,工作電壓5 V,電流0.116 A,用以產(chǎn)生恒定近紅外光。以圓柱形燈筒的兩個底面為平行面,以燈筒軸心為對稱軸,48顆燈珠以6行8列形式均勻分布于內(nèi)徑23 mm、外徑31 mm的圓柱形鋁合金燈筒壁上,形成向心全包圍的物理結(jié)構(gòu),燈珠行間距為8 mm,引腳通過16根導電銅柱并聯(lián)連接。燈筒內(nèi)部有直徑為12 mm的高純度硼硅玻璃管,作為谷物顆粒經(jīng)過的自由滑道,其上頂部入口處設(shè)有FV-V11型高靈敏度光纖紅外對射傳感器(中國深圳博億精科科技有限公司),用以檢測谷物籽粒是否經(jīng)過此處進入光源。
整體光源模塊剖面圖和光路傳輸如圖2所示,當籽粒經(jīng)由人工放置跌落玻璃滑道時,在光源內(nèi)部獲得了強度、均勻性和一致性良好的360°全包圍光照。當對射光纖采集到籽粒經(jīng)過的光電信號,調(diào)用上層程序,觸發(fā)光譜儀采集籽粒在燈筒內(nèi)的漫反射光,由采集光纖傳輸至光譜儀進行解析,采集光纖采用海洋光學公司定制的一分二型漫反射光纖,長1 m,尾纖兩端分別固定于燈筒上頂端和下底端。在保障籽粒順利進入燈筒通道的同時,為使兩端尾纖和燈筒軸心保持同軸,進而保證谷物籽粒在燈筒內(nèi)任何位置光纖都可以采集其表面漫反射光,設(shè)計了上下進出料通道軸心和燈筒軸心呈15°角,避免了光纖和進出料通道的互擾??紤]到谷物小顆粒檢測的需求,光纖芯徑采用相對較粗的400 μm,以獲得更高的耦合效率和相對均勻的輸出光斑。
圖2 光路及信號傳輸示意圖Fig.2 Schematic diagram of optical path and signal transmission1.進料口 2.采集光纖 3、8.對射光纖 4.LED燈珠 5.導電銅柱 6.采集光纖 7.出料口
選用美國海洋光學公司生產(chǎn)的體積最小的FLAME-NIR型近紅外光譜儀用于系統(tǒng)設(shè)計,其波段是900~1 700 nm。該儀器結(jié)合了128個帶有新型非冷卻的InGaAs探測器,功耗需求低,且可互換狹縫,同時有40針Micro USB多用途擴展口,非常適合整合到手持式系統(tǒng)和便攜式系統(tǒng)。選用狹縫尺寸為50 μm,以獲得更大的進光量,外部擴展接口與紅外對射模塊接通獲得觸發(fā)信息,觸發(fā)模式選用外部上升沿觸發(fā),為實現(xiàn)有效光譜采集和避免光照度飽和,積分時間設(shè)為400 ms,光譜儀通過USB與計算機進行雙向通訊。
單粒谷物蛋白質(zhì)含量實時檢測軟件基于Visual Studio 2010平臺開發(fā),采用C++語言編程,基于JAVA語言編寫的嵌入式OmniDriver軟件開發(fā)包, 實現(xiàn)光譜儀軟件的功能設(shè)置和調(diào)度。軟件主要功能模塊如圖3所示,當外部硬件邊沿觸發(fā)時,軟件延遲200 ms啟動光譜儀進行實時采集,將光強信息轉(zhuǎn)換成吸光度并進行預處理后,代入到預先植入的預測模型中,對單粒谷物的內(nèi)部蛋白質(zhì)等品質(zhì)表型進行實時預測,同時對樣品的光譜曲線和預測結(jié)果實時顯示。
圖3 檢測軟件功能模塊圖Fig.3 Function modules diagram of detection software
已有研究表明,近紅外光譜技術(shù)是小麥組分含量無損測定的有效手段[24-25],本研究選擇單粒小麥的蛋白質(zhì)組分為研究對象,驗證該全包圍光源結(jié)構(gòu)的谷物單粒品質(zhì)表型檢測裝置的性能,為獲得更好的蛋白質(zhì)含量分布寬度,供試樣選定6個品種,分別為高筋品種西農(nóng)20、西農(nóng)979,中筋品種矮抗58、西農(nóng)388,低筋品種蘇3826、蘇2858,每個品種50粒,共300粒。
為了減少環(huán)境溫濕度對光譜采集的影響,試驗過程保持室溫為20~25℃。啟動光源和光譜儀后,預熱30 min至穩(wěn)定,開始采集光譜。經(jīng)優(yōu)化采集參數(shù),光譜分辨率設(shè)定為5 nm,掃描點數(shù)為128,掃描次數(shù)為2。本裝置暗光譜不是通過標準白板采集,而是在光源關(guān)閉時,光纖采集到自然光下的光譜,參考光譜是打開光源無樣品時的穩(wěn)定光譜。其吸光度轉(zhuǎn)換公式為
(1)
(2)
式中A——籽粒吸光度
R——發(fā)射率
Xraw——籽粒在光源內(nèi)的反射光強
Xref——無樣品時光源的反射光強
Xdark——自然光下的反射光強
采集到的吸光度光譜曲線如圖4所示,由于谷物籽粒體積小、形狀不一、表面不規(guī)則,內(nèi)部物質(zhì)非均勻等因素,近紅外光譜采集過程會加入大量基線漂移、高頻噪聲、光散射等噪聲信息,直接影響模型的魯棒性,標準正態(tài)變量變換(Standard normal variate, SNV)主要是用來消除固體顆粒大小、表面散射以及光程變化對NIR漫反射光譜的影響,因而本文對每條光譜曲線進行SNV預處理。
圖4 樣本吸光度曲線Fig.4 Spectral absorbance curves of single wheat kernels
為驗證裝置對單粒小麥蛋白質(zhì)含量檢測的可行性,基于聯(lián)合X-Y距離的樣本劃分 (Sample set partitioning based on jointX-Ydistance, SPXY) 方法,將供試樣本按2∶1的比例劃分為校正集和驗證集,然后在Matlab軟件中,建立基于全光譜(Full spectrum, FS)的多元線性回歸模型,利用決定系數(shù)R2、校正集標準分析誤差(Standard error of calibration, SEC)和驗證集標準分析誤差(Standard of prediction, SEP)對預測模型進行評價分析。
考慮到全波段光譜數(shù)據(jù)在進行定性分析時存在冗余,為建立一個簡單有效的預測模型植入檢測軟件,本文利用連續(xù)投影算法(Successive projections algorithm, SPA)[23]對光譜數(shù)據(jù)進行了降維,找到含有最少冗余信息的變量組。再采用與全光譜預測模型相同的樣本集劃分和評價方法,建立基于特征波長的多元線性回歸預測模型,并與全光譜預測模型進行比較分析。
單粒小麥質(zhì)量小,達不到谷物蛋白質(zhì)測定常用的凱氏定氮法最低樣品質(zhì)量要求,本文采用意大利Costech公司生產(chǎn)的ECS 4024型元素分析儀,基于杜馬斯燃燒法進行單粒小麥氮元素含量的檢測,然后參照GB 2905—82乘以麥類、豆類的蛋白質(zhì)調(diào)節(jié)系數(shù)5.7,將其轉(zhuǎn)換成蛋白質(zhì)含量。
根據(jù)所建立的全光譜(FS)預測模型,供試樣本蛋白質(zhì)含量預測值與實測值的關(guān)系如圖5所示,可以看出,二者有良好的線性相關(guān)性且偏離程度很小,其中校正集R2為0.960 4,SEC為0.562 3,驗證集R2為0.801 6,SEP為1.083 5,顯著相關(guān),說明可以用本文研制的裝置進行單粒小麥的蛋白質(zhì)含量預測,所建立的全光譜模型具有良好的預測性。
圖5 基于全光譜的小麥蛋白質(zhì)含量實測值與預測值比較Fig.5 Comparison of predicted and reference protein contents based on FS
圖6 SPA算法的特征波長選擇分布圖Fig.6 Distribution diagram of selected variables wavelength
如圖6所示,經(jīng)過SPA算法所選的9個特征波長分別是961、1 189、1 194、1 200、1 223、1 338、1 400、1 435、1 632 nm,所選的特征波長大部分位于C—H鍵二倍頻吸收譜帶1 120~1 260 nm和C—H鍵、O—H鍵、N—H鍵的一倍頻復合吸收譜帶1 350~1 480 nm附近,可見,SPA特征提取后保留了蛋白質(zhì)的特征譜段,因而可以實現(xiàn)基于所選特征波長的蛋白質(zhì)含量預測。
基于所提取的特征波長,建立多元線性回歸方程為
y=12.71-561.91x1+5 500.74x2+2 533.42x3-4 248.54x4-5 659.53x5+185.89x6+15.84x7-1 207.89x8+180.46x9
(3)
式中y——蛋白質(zhì)質(zhì)量分數(shù)預測值,%
x1~x9——9個特征波長下的吸光度
將該線性模型嵌入系統(tǒng)軟件,對300粒供試小麥進行蛋白質(zhì)含量預測之后,擬合實測值和預測值如圖7所示,其校正集R2為0.844 6,SEC為1.042 6,驗證集R2為0.819 0,SEP為1.037 4。
圖7 基于特征波長的小麥蛋白質(zhì)含量實測值與預測值比較Fig.7 Comparison of predicted and reference protein contents based on characteristic wavelengths
與基于全光譜的預測效果相比,校正集中基于特征波長的預測模型R2降低,這是由于蛋白質(zhì)分子中的含氫基團有C—H鍵、N—H鍵與O—H鍵,其伸縮和彎曲振動非常復雜,有限個特征波長不能完全表達這些振動,故全光譜的預測效果優(yōu)于特征波長的預測效果,但是在驗證集中,對于新樣本的檢測,這兩種模型效果接近。盡管如此,使用基于特征波長的預測模型可以大大減少計算量,便于嵌入式開發(fā)和在線快速預測。
為了驗證所設(shè)計的全包圍結(jié)構(gòu)光源的技術(shù)指標,從波長重復性、吸光度重復性以及預測重復性等3個方面進行了試驗和分析。
(1)波長重復性
波長重復性對校正模型的建立以及模型的傳遞均有重要的影響,一般用稀土氧化物玻璃或高壓汞弧燈等標準物質(zhì)多次掃描,在某譜峰上所得波長或波數(shù)的標準偏差來表示。在光源穩(wěn)定工作時,不放置樣品,每隔1 min左右采集一次當前參考光譜,每次采集時長是當前積分時間400 ms,各波長的誤差棒圖如圖8所示,結(jié)果可見各波數(shù)的誤差很小,可達到一般掃描型近紅外光譜儀器的要求[26-27]。
圖8 參考光譜各波長上的誤差棒圖Fig.8 Error bar at each wavelength of reference spectra
(2)吸光度重復性
吸光度重復性對近紅外檢測來說是一個極其重要的指標,它直接影響模型建立的質(zhì)量和測量的準確性,一般用同一條件下對同一樣品連續(xù)進行多次光譜測量,整個光譜區(qū)間或某一特征譜峰的吸光度標準偏差來表示[27-28]。對同一顆小麥隨機采樣30次,在整個光譜區(qū)間上的吸光度標準偏差和誤差如圖9所示,基本滿足一般吸光度重復性的要求。
圖9 各波長上的吸光度標準差和誤差Fig.9 Error bar at each wavelength of absorbance spectra
(3)預測重復性
隨機選取5顆樣品,在相同條件下,對每個樣品采集5次吸光度光譜[25],采用式(3)進行蛋白質(zhì)質(zhì)量分數(shù)預測,結(jié)果如表1所示,可見,預測結(jié)果重現(xiàn)性良好,說明采用全包圍光源結(jié)構(gòu)的近紅外光譜系統(tǒng)可以消除谷物顆粒形狀和隨機裝樣對品質(zhì)預測的影響[29]。
表1 預測重復性試驗結(jié)果Tab.1 Test results of prediction model repeatability %
近紅外光譜檢測技術(shù)具有無損、快速、低成本等優(yōu)點,在種子質(zhì)量檢測行業(yè)已廣泛應用。從上述分析可知,基于全包圍光源結(jié)構(gòu)的單粒谷物品質(zhì)檢測系統(tǒng),只需收集一定數(shù)量的標準樣品,并建立相應的定標模型,將模型嵌入該系統(tǒng)中,即可滿足其他谷物單粒品質(zhì)表型,如蛋白質(zhì)、淀粉、賴氨酸、水分測量等的實際應用需求,為快速發(fā)展中的表型鑒定技術(shù)提供一種方案和解決途徑,可幫助育種專家快速、無損地評估育種群體中后代表現(xiàn),更迅速篩選符合育種目標的優(yōu)良后代。
本系統(tǒng)測量時間約為每粒2~3 s,其中裝樣所用時間長,因而在今后的工作中仍需擴展系統(tǒng)功能,實現(xiàn)自動化的谷物顆粒自動輸送與測量,以期將檢測速度提高至6~10粒/s,從而獲得高通量的品質(zhì)表型在線檢測。
(1)設(shè)計了一種全包圍結(jié)構(gòu)的谷物近紅外檢測光源和基于該光源的單粒谷物內(nèi)部品質(zhì)表型檢測裝置。該裝置可以實現(xiàn)對單粒小麥種質(zhì)內(nèi)部蛋白質(zhì)質(zhì)量分數(shù)進行無損、快速、實時測定。
(2)利用該檢測裝置,分別建立了單粒小麥蛋白質(zhì)質(zhì)量分數(shù)的全波段光譜預測模型和基于特征波長的預測模型,結(jié)果表明,基于全波段的預測模型具有更高的預測精度,而基于特征波長的預測模型具有更簡單的表達式。
(3)分別從波長重復性、吸光度重復性和預測重復性出發(fā),驗證該檢測裝置的性能,試驗結(jié)果表明,該裝置設(shè)計可行,性能良好,可完成單粒谷物品質(zhì)表型的實時檢測。