姜慶虎, 劉 峰, 于東悅, 羅 惠, 梁 瓊, 張燕君
1. 中國科學院武漢植物園, 中國科學院水生植物與流域生態(tài)重點實驗室, 湖北 武漢 430074
2. 中國科學院大學, 北京 100049
3. 中國科學院武漢植物園, 中國科學院植物種質創(chuàng)新與特色農業(yè)重點實驗室, 湖北 武漢 430074
淫羊藿是小檗科(Berberidaceae)淫羊藿屬(EpimediumL.)多年生草本植物, 作為滋補類中藥始載于《神農本草經》, 在我國有2 000多年的使用歷史[1]。 其有效藥成分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷為黃酮類化合物, 臨床上具有滋陰補腎、 強筋骨、 益精氣、 提高免疫力等多種功效, 是最具開發(fā)潛力的大宗常用中藥材之一[2]。 目前, 中藥材淫羊藿藥用成分含量的測量主要通過高效液相色譜法[3]。 該方法準確可靠、 靈敏度高, 但需要做較多前處理, 耗時、 費力、 成本高, 無法滿足企業(yè)生產及育種過程中批量樣品的快速、 無損檢測。 相比之下, 可見-近紅外高光譜分析技術具有快速、 廉價、 無損、 可重復等優(yōu)點; 利用中藥材中C—H, O—H和N—H等基團的光譜差異, 借助化學計量學方法, 可以實現中藥成分的快速分析與鑒定[4]。 利用現代高光譜技術, 學者們在中藥材的品質鑒定、 蛋白質含量信息獲取及其產地來源判定等方面進行了系列研究, 取得了良好的效果[5-6]。
近年來, 在淫羊藿藥用成分光譜分析領域, 科研人員主要利用傅里葉變換紅外光譜儀并配有積分球等測樣器件獲取數據, 并以此為基礎建立了多種化學計量模型[4, 7]。 然而, 隨著淫羊藿育種、 栽培技術的發(fā)展, 推升了田間原位、 實時數據的觀測需求。 受測試環(huán)境和光譜儀器差異的干擾, 獲取的光譜數據無法避免的包含諸如樣品背景、 雜散光等無關噪音信息, 且在波長范圍、 分辨率等指標上存有較大差異, 構建的模型的適用性必將受到很大的限制。
為了獲取預測精度高、 穩(wěn)健性強的高光譜分析模型, 人們普遍關注多種化學計量方法和建模策略之間的比較研究。 例如, 基于獲取的全波段光譜信息, 運用多元線性回歸(MLR)、 偏最小二乘回歸(PLSR)、 人工神經網絡(ANN)、 支持向量機(SVM)等多種算法建立中藥材藥用成分的光譜反演模型, 并比較其預測精度和運行效率[4, 8-9]。 淫羊藿光譜數據是其所含多種化學成分光譜的綜合疊加, 波長信息變量多, 譜峰重疊非常嚴重, 如果直接將全波段光譜用于建模分析勢必造成模型精度和運行效率的降低[9]。 因此, 在用化學計量學方法建模的同時, 有必要采用適當的方法剔除無關波段變量, 以期得到預測能力更強、 穩(wěn)健性更好的校正模型。
為了改善現有模型的局限性, 提升淫羊藿藥用成分的光譜預測效率, 以便攜式地物光譜儀器數據獲取載體, 借助遺傳算法(genetic algorithm, GA)選取淫羊藿藥用成分的特征光譜波段, 并評估該算法與傳統(tǒng)的PLSR模型相結合的實用性。
實驗材料采自中國科學院武漢植物園同質園引種的淫羊藿野生品種, 涵蓋了我國的35個品種。 采集同一植株無損成熟葉片, 經烘干研磨后, 過80目篩, 分別供光譜和黃酮類有效成分的測定。 其中, 淫羊藿有效成分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷含量通過高效液相色譜法測定。
采用便攜式地物光譜儀(ASD Field Spec 3)進行淫羊藿粉末光譜數據的測定, 光譜波段范圍350~2 500 nm。 采樣間隔為1.4 nm(350~1 000 nm)和2 nm(1 000~2 500 nm)。 整個過程在暗室中進行。 處理好的淫羊藿樣品置于培樣皿中, 并將其表面刮平; 50 W鹵素燈作為光源, 光源距樣品表面35 cm, 入射角度為45°; 采用10°視場角裸光纖探頭, 距樣品表面垂直上方10 cm處; 每測量10組樣品光譜進行一次白板校正。 每個樣品重復測量獲取10條光譜曲線, 算術平均后得到淫羊藿樣品的反射光譜數據。
為了減少儀器背景隨機噪聲、 樣本自身和光散射等因素對光譜信號的干擾, 對原始光譜進行了一系列預處理, 包括平滑(savitzky-golay convolution smoothing, SG)、 一階求導(first derivative, FD)、 標準正太變量變換(standard normal variable transformation, SNV)和均值中心化(mean center, MC)。 相關處理過程在Matlab 2013a軟件中進行。
應用遺傳(GA)算法結合偏最小二乘回歸(PLSR)方法篩選淫羊藿藥用組分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷的特征波段, 以建立抗外界因素的穩(wěn)健分析模型。 其中, 遺傳算法是Holland于1975年提出的一種模擬生物自然選擇遺傳進化過程的智能優(yōu)化方法[10]。 具體操作步驟如下: 首先按照遺傳算法建??蚣?, 劃分適宜的光譜區(qū)間大小, 并將每個光譜區(qū)間作為一個基因進行0/1字符二進制編碼, 隨機生成的不同組合構成初始種群; 接著采用偏最小二乘交互驗證中的預測值和標準值的相關系數以及均方根誤差作為評價指標, 并變換得到適應度函數; 在此基礎上, 通過全局搜索, 采用染色體信息隨機交叉、 變異等操作, 實現適者生存優(yōu)勝劣汰, 最終得到最佳的建模波段。 相關操作基于Matlab 2013a (Math Works Inc., U.S.)平臺, 使用PLS-Toolbox 7.8.1工具包實現。 相關參數設置如下: 種群大小64, 窗口大小20 nm, 最大繁殖代數100, 交叉概率0.5, 變異概率0.005。
建模所用的淫羊藿藥用組分含量的化學值及其統(tǒng)計特征如表1所示。 統(tǒng)計顯示, 樣品藥用組分的含量變動范圍較廣, 其中: 朝霍定C的平均含量最高, 變化范圍為0.11~159.35 mg·g-1; 朝霍定A的變幅為0.11~11.7 mg·g-1; 朝霍定B的變幅為0.02~19.97 mg·g-1; 淫羊藿苷的變化范圍為0.09~7.74 mg·g-1。 此外, 樣品藥用組分含量存在很大的變異性特征, 其變異系數為89.47~110.78 mg·g-1。 上述統(tǒng)計結果表明, 研究樣品較大的數據分異性有助于魯棒性模型的建立, 為探索淫羊藿藥用組分含量光譜反演的可行性提供了良好的數據支持。
表1 樣品中朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷含量統(tǒng)計結果
經光譜預處理之后的淫羊藿反射光譜曲線如圖1所示。 其中, 圖1(a)為經平滑處理后的光譜, 可見淫羊藿樣品集的反射光譜波動趨勢大致相同, 但不同樣品的光譜反射峰強度不同, 說明樣品中藥用組分含量不同。 圖1(b)和(c)為經一階導數變換和標準正太變量變換后的光譜, 經預處理后可以顯著減少樣品表面散射和光程變化的干擾, 同時消除了部分噪聲和基線漂移對定標結果的影響, 使得光譜分布更為集中, 且光譜的吸收峰得到了明顯增強。 圖1(d)為經上述預處理后進行了均值中心化的光譜, 經過均值中心化, 樣品光譜之間的差異得到增強, 從而可以提高后期光譜建模的穩(wěn)健性和預測能力。
圖1 預處理過后的淫羊藿反射光譜曲線
表2 模型構建與交叉驗證
淫羊藿藥用組分的重要光譜響應波段用PLSR模型的回歸系數(b系數)和變量重要值(variables importance in the projection, VIP值)聯合確定[11]。 如圖2中灰色部分所示, 當VIP值大于1, 且b系數大于其標準差(σ)時, 該波段被識別為藥用組分朝霍定A、 B、 C和淫羊藿苷的重要光譜響應波段。
圖2 基于可見-近紅外光譜的朝霍定A(a)、 朝霍定B)b)、 朝霍定C(c)和淫羊藿苷(d)PLSR校正模型交叉驗證的VIP值和b系數曲線圖
圖2為基于全波段PLSR模型的淫羊藿各藥用組分的重要光譜響應波段。 其中, 提取的朝霍定A、 B、 C和淫羊藿苷的重要的光譜響應波段數量分別為300, 341, 841和222個(即圖中灰色陰影部分涉及的波段數量)。 值得注意的是, 灰色部分在可見光波段(380~780 nm)和短波紅外的中長波段(1 400~2 500 nm)區(qū)域內較為集中。 這是由于淫羊藿有效成分為黃酮類化合物, 其分子化學結構存在一定的相似性, 受低能電子躍遷和含氫原子團伸縮振動(如C—H伸展, O—H變形, CH2變形)的倍頻和合頻吸收作用, 從而在上述波段范圍內存在相似或近似的光譜響應。 此外, 在紅邊(690~740 nm)區(qū)域內, 朝霍定A、 B和C光譜反演模型的VIP值和b系數值均達到最大峰值, 因此該區(qū)間光譜的反射特征有望成為判定淫羊藿藥材中朝霍定含量高低的重要依據。 對于淫羊藿苷來說, 光譜反演模型的b系數在420 nm波段附近達到最大值, 同時VIP值也處于較高的峰值, 因此420 nm附近波段有望成為判定淫羊藿苷含量高低的重要依據。
借助相同的重要波段選取方法, 獲取了基于特征波段的GA-PLSR模型淫羊藿藥用成分的重要光譜響應波段(如圖3所示)。 相比之下, GA-PLSR模型確定的重要波段數量顯著降低, 其中朝霍定A、 B、 C和淫羊藿苷的重要波段數量分別降為51, 136, 50和66個。 然而, 在紅邊波段(690~740 nm)和420 nm波段附近同樣提取出淫羊藿藥用成分的重要光譜波段。 上述重要波段的提取, 可為無人機平臺搭載高光譜相機(400~1 000 nm)實時監(jiān)測大田淫羊藿植株的生長和品質狀況, 確定其最佳收獲時間提供一定的理論依據。
圖3 基于GA-PLSR模型的朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷重要光譜響應波段