国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于光譜和色譜數(shù)據(jù)融合策略的青葉膽及近似種的鑒別研究

2020-08-08 07:39:42于葉霞王元忠
光譜學(xué)與光譜分析 2020年8期
關(guān)鍵詞:獐牙菜紫紅預(yù)處理

于葉霞,李 鸝,王元忠

1. 吉首大學(xué)植物資源保護(hù)與利用湖南省高校重點實驗室,湖南 吉首 416000 2. 云南省農(nóng)業(yè)科學(xué)院藥用植物研究所,云南 昆明 650200

引 言

青葉膽(Swertialeducii)又名蒙自獐牙菜、 青魚膽、 肝炎草等,為龍膽科(Gentianaceae)獐牙菜屬(Swertia)一年生草本植物,集中分布在云南紅河州地區(qū)[1]。青葉膽化學(xué)成分主要有黃酮類、 環(huán)烯醚萜類、 三萜類和生物堿類等,有保肝、 降血糖、 抗菌、 抗病毒等作用[2],并被收錄于2015年版《中華人民共和國藥典》[3]。獐牙菜屬植物種類眾多,僅我國就有75個種的分布。由于青葉膽與同屬近似種十分相似,且常以干燥全草在市場流通,故僅從外觀難以準(zhǔn)確鑒別,易被混淆使用。目前,青葉膽臨床上廣泛用于治療急性肝炎,為黃疸肝炎丸、 青葉膽片、 肝復(fù)康片等保肝藥物的主要成分之一。由于不同物種的化學(xué)組成和含量存在一定差異,混淆用藥可能導(dǎo)致藥用療效發(fā)生改變[4],因此探索青葉膽及其近似種的快速有效鑒別方法有利于保證青葉膽用藥的準(zhǔn)確性和有效性。

目前,常用植物鑒別方法包括光譜鑒別、 色譜鑒別和電化學(xué)鑒別等。吳喆等[5]利用傅里葉變換紅外光譜(Fourier transform infrared spectroscopy,F(xiàn)TIR)對云南重樓及4個近緣種進(jìn)行偏最小二乘判別分析(partial least squares discrimination analysis,PLS-DA)、 主成分分析和系統(tǒng)聚類分析(hierarchical cluster analysis,HCA),結(jié)果顯示FTIR可用于重樓屬植物鑒別與親緣關(guān)系分析。施崇精等[6]采集川牛膝、 混淆品頭花杯莧和摻混川牛膝液相色譜指紋圖譜,結(jié)合相似度分析、 聚類分析和主成分分析能夠區(qū)分3種川牛膝,結(jié)果表明3種川牛膝化學(xué)成分差異較大,不可混淆用藥。Fu等[7]通過電化學(xué)方法采集石蒜屬植物花瓣指紋圖譜,能鑒別14種石蒜屬植物。可見,單一儀器數(shù)據(jù)來源信息可有效完成中草藥近緣種種類鑒別研究。但藥用植物化學(xué)組分復(fù)雜,其藥用功效常與多種化學(xué)成分有關(guān),單一儀器提取的信息無法全面反映整體化學(xué)信息。

近年來,研究發(fā)現(xiàn)將多儀器來源指紋圖譜數(shù)據(jù)進(jìn)行融合并建立分類模型,可對樣品進(jìn)行更全面的評價[8]。數(shù)據(jù)融合分為低級、 中級和高級三個層次[9]。其中,最常用的是低級融合和中級融合,前者直接將多源數(shù)據(jù)簡單串聯(lián)后建模,后者通過對原始數(shù)據(jù)提取特征變量,再將特征變量串聯(lián),進(jìn)而建立分類模型。Wu[10]等將中紅外數(shù)據(jù)與液相色譜數(shù)據(jù)進(jìn)行低級融合與中級融合,成功鑒別5種重樓屬植物,中級融合正確率達(dá)到100%。Sun等[11]通過融合近紅外與中紅外光譜數(shù)據(jù),建立偏最小二乘和支持向量機(jī)判別模型,準(zhǔn)確對大黃真?zhèn)纹愤M(jìn)行了區(qū)分,其數(shù)據(jù)融合分類效果更佳。上述研究表明,數(shù)據(jù)融合可使不同儀器信息互補(bǔ),彌補(bǔ)單一儀器數(shù)據(jù)信息不全的缺陷,從不同層面反映樣品間的差異,更加全面地描述樣品信息,提高分類準(zhǔn)確率。

迄今為止,獐牙菜屬植物種類鑒別研究以單一儀器分析為主[12-13],基于數(shù)據(jù)融合策略鑒別不同物種的研究未見系統(tǒng)報道。本研究采集青葉膽(S.leducii)及其近似種植物共102份樣品FTIR光譜與超高效液相色譜指紋圖譜(ultra-performance liquid chromatography,UPLC)數(shù)據(jù),光譜數(shù)據(jù)預(yù)處理后通過HCA對青葉膽及其近似種之間親緣關(guān)系進(jìn)行分析,同時,通過FTIR、 UPLC、 低級融合與中級融合數(shù)據(jù)建立隨機(jī)森林(random forest,RF)判別模型,以期為獐牙菜屬植物資源利用提供科學(xué)依據(jù)。

1 實驗部分

1.1 材料

102份獐牙菜屬植物樣品信息詳情見表1,所有樣品經(jīng)由吉首大學(xué)李鸝教授鑒定為狹葉獐牙菜(S.angustifoliaBuch. -Ham. ex D. Don.)、 西南獐牙菜(S.cinctaBurk.)、 川東獐牙菜(S.davidiiFranch.)、 青葉膽(S.leduciiFranch.)和紫紅獐牙菜(S.puniceaHemsl.)。樣品采集后洗凈根莖部雜質(zhì),分裝于信封,45 ℃恒溫下烘干至恒重,粉碎后過100目篩,置于自封袋保存,備用。

表1 獐牙菜屬不同種類樣品信息Table 1 Information of Swertia samples with different species

1.2 儀器與試劑

LC-8030超高效液相色譜儀(日本島津公司);Frontier型傅里葉變換紅外光譜儀(配備DTGS檢測器和ATR附件,美國珀金埃爾默公司);CP214型萬分之一電子分析天平(上海奧豪斯儀器有限公司);Inertsil ODS-HL色譜柱(3.0×150 mm,3 μm);SY-3200-T型超聲儀(上海聲源超聲波儀器設(shè)備有限公司);DFT-50A型高速粉碎機(jī)(溫嶺市林大機(jī)械有限公司);100目標(biāo)準(zhǔn)篩盤(浙江上虞市道墟五四儀器廠)。

分析純甲醇(四川西隴化工有限公司),色譜純甲醇和乙腈(美國Thermo Fisher Scientific公司)。色譜純甲酸(美國Dikmapure公司)。純水由屈臣氏集團(tuán)有限公司提供。

1.3 紅外光譜采集

樣品粉末置于ATR附件ZnSe晶體材料上(室溫25 ℃),分辨率4 cm-1,掃描范圍設(shè)為4 000~550 cm-1,累積掃描16次,采集紅外光譜,保存。

1.4 超高效液相色譜采集

色譜條件:Inertsil ODS-HL色譜柱;流動相:0.1%甲酸(A)-乙腈(B)梯度洗脫;流速:0.5 mL·min-1;進(jìn)樣體積:3 μL;檢測波長:237和246 nm,進(jìn)樣前對流動相超聲10 min(功率80%),排除氣泡干擾。梯度洗脫程序:0~2.55 min,8% B;2.55~13.27 min,8%~12.6% B;13.27~14.00 min,12.6%~12.9% B;14.00~14.01 min,12.9%~100% B;14.01~16.99 min,100% B;16.99~17 min,100%~8% B;17~20.4 min,8% B。

精密稱取樣品粉末(0.025 0±0.000 1) g于5 mL具塞試管,加入1.5 mL 70%甲醇,稱定重量,保鮮膜封住試管口超聲提取30 min(功率100%),冷卻至室溫,用70%甲醇補(bǔ)足重量,搖勻,過0.22 μm微孔濾膜于進(jìn)樣瓶,進(jìn)行UPLC分析。

1.5 數(shù)據(jù)融合

基于低級數(shù)據(jù)融合策略,將FTIR數(shù)據(jù)與UPLC數(shù)據(jù)簡單串聯(lián),得到新的數(shù)據(jù)矩陣用于建立判別模型。變量投影重要性(variable importance in the projection,VIP)是常用的特征變量提取方法之一,它反映了自變量在解釋因變量作用時的重要性,VIP>1的變量被認(rèn)為是重要變量[14]?;谥屑墧?shù)據(jù)融合策略,F(xiàn)TIR和UPLC數(shù)據(jù)通過VIP>1提取特征變量,篩選的特征變量串聯(lián)后建立模型,具體過程見圖1(a, b)。

圖1 數(shù)據(jù)融合流程圖(a):低級數(shù)據(jù)融合;(b):中級數(shù)據(jù)融合Fig.1 Graphical representation of data fusion process(a):Low-level data fusion;(b):Mid-level data fusion

1.6 模型評價標(biāo)準(zhǔn)

為了消除隨機(jī)抽樣帶來的隨機(jī)性影響,102份樣品通過Kennard-Stone(KS)算法按2∶1的比例劃分訓(xùn)練集與預(yù)測集。其中68份樣品作為訓(xùn)練集用于建立模型,其余34份為預(yù)測集對模型預(yù)測能力進(jìn)行驗證?;谡骊栃?ture positive,TP)、 假陽性(false positive,F(xiàn)P)、 真陰性(ture negative,TN)和假陰性(false negative,F(xiàn)N)4個參數(shù),計算靈敏性(sensitivity)、 特異性(specificity)、 精密度(precision)和正確率(accuracy),用于評價模型性能[15]。其中,TP為分類正確的陽性樣本,F(xiàn)P為分類錯誤的陽性樣本,TN為分類正確的陰性樣本,F(xiàn)N為分類錯誤的陰性樣本。計算方法如式(1)—式(4)

(1)

(2)

(3)

(4)

1.7 數(shù)據(jù)處理

SIMCA 13.0軟件對FTIR數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)正態(tài)變量(standard normal variate,SNV)、 多元散射校正(multiplicative signal correction,MSC)、 平滑(savitzky-Golay smoothing,SG)、 一階導(dǎo)數(shù)(first derivative,1D)、 二階導(dǎo)數(shù)(second derivative,2D)等預(yù)處理。SIMCA 13.0軟件通過PLS-DA中的VIP提取特征變量;通過R包(3.5.2版)建立RF判別模型;MATLAB R2017a軟件進(jìn)行KS算法劃分訓(xùn)練集與預(yù)測集;ORIGIN 2017軟件作圖。

2 結(jié)果與討論

2.1 紅外光譜分析

圖2 5種獐牙菜屬植物樣品平均光譜圖Fig.2 Average FTIR spectra of Swertia from different species

2.2 紅外光譜預(yù)處理篩選

選取指紋特征區(qū)1 800~550 cm-1波段(刪減682~653 cm-1[17])數(shù)據(jù)篩選最佳預(yù)處理方式。原始光譜除了包含自身樣品信息外,還夾雜因樣品分布不均、 光散射、 噪音等產(chǎn)生的干擾信息。因此,采用MSC, SNV,SG和導(dǎo)數(shù)等方法對光譜數(shù)據(jù)進(jìn)行預(yù)處理能有效提高分析準(zhǔn)確性。MSC與SNV作用相似,用于消除因樣品顆粒大小和分布不均產(chǎn)生的光散射影響。SG可以有效減少噪音干擾。導(dǎo)數(shù)能消除基線偏移的影響,并能有效區(qū)分重疊峰[18]。

PLS-DA是最常用的判別分析方法之一,通過自變量X(光譜波數(shù))與因變量Y(類別數(shù))建立的判別模型。R2Y為PLS-DA模型主成分累積貢獻(xiàn)率,Q2為交叉驗證所得的一項擬合參數(shù),R2Y與Q2的值越接近與1,模型越可靠。表2為青葉膽及其近似種FTIR數(shù)據(jù)經(jīng)不同預(yù)處理后所建PLS-DA模型的主要參數(shù)。由表可知,SNV+SG+2D對FTIR數(shù)據(jù)進(jìn)行預(yù)處理,R2Y與Q2最大,分別為91.2%和84.1%,樣品分類正確率達(dá)到100%。表明SNV+SG+2D能減少干擾信息產(chǎn)生的影響,有效區(qū)分重疊峰并放大其所包含的化學(xué)信息,為最佳預(yù)處理方法。

表2 FTIR光譜經(jīng)不同預(yù)處理后PLS-DA模型參數(shù)R2Y與Q2Table 2 R2Y and Q2 of PLS-DA models with different pretreatment methods for FTIR spectra

2.3 HCA

HCA是一種無監(jiān)督的分析方法,根據(jù)樣品間化學(xué)信息相似程度的不同將其分為若干組。圖3為青葉膽與近似種基于FTIR數(shù)據(jù)的HCA樹狀圖。圖中橫坐標(biāo)代表樣品編號,縱坐標(biāo)為不同獐牙菜屬植物間臨界值距離,距離越小,樣品相似度越高,標(biāo)紅色樣品代表被錯分樣品。圖中顯示僅7個紫紅獐牙菜(Sp)樣品被錯分,其余4種獐牙菜屬植物樣品均分類正確,正確率為93.1%。聚類距離為25時,獐牙菜屬植物樣品被分為兩組,狹葉獐牙菜(Sa)單獨成一組,表明狹葉獐牙菜與其他4種獐牙菜屬植物樣品化學(xué)成分差異最大;距離為15時,剩余4種獐牙菜屬植物樣品被分為3組,第一組為青葉膽(Sl),第二組包括川東獐牙菜(Sd)、 紫紅獐牙菜和西南獐牙菜(Sc),第三組僅包括一個紫紅獐牙菜樣品(Sp-1),可能是由于個體變異導(dǎo)致Sp-1樣品化學(xué)成分發(fā)生變化;距離為10時,僅包括紫紅獐牙菜和西南獐牙菜,表明紫紅獐牙菜與西南獐牙菜化學(xué)組成相似,其中小部分紫紅獐牙菜與西南獐牙菜聚為一類,可能是個體差異所致,也有可能與兩個物種親緣關(guān)系較近有關(guān)。

圖3 不同獐牙菜屬植物聚類分析樹狀圖Fig.3 Dendrogram of Swertia from different species by HCA

2.4 RF分析

RF是一種利用多個分類樹對數(shù)據(jù)進(jìn)行分類或預(yù)測的分析方法,因其使用方便、 受噪音干擾小、 能有效減少過擬合等特點,廣泛用于鑒別研究[19]。為了獲得較低誤差和較高的分類性能,在模型訓(xùn)練階段,需對RF參數(shù)ntree和mtry進(jìn)行優(yōu)化。初始ntree為2000,基于最小袋外數(shù)據(jù)(Out-of-bag,OOB)誤差,篩選最佳ntree,此時,mtry默認(rèn)為變量數(shù)的平方根?;谧顑?yōu)ntree,通過最小OOB誤差,在默認(rèn)值mtry±10的范圍內(nèi),篩選最優(yōu)mtry。將最優(yōu)參數(shù)代入訓(xùn)練集建立最終的判別模型,通過OOB數(shù)據(jù)驗證模型預(yù)測能力。若模型性能較差,則需重復(fù)上述操作進(jìn)一步優(yōu)化參數(shù)ntree和mtry。

青葉膽及其近似種FTIR、 UPLC、 初級融合和中級融合數(shù)據(jù)集通過篩選最優(yōu)ntree和mtry,建立RF判別模型,圖4(a,b,c,d)左側(cè)顯示了OOB分類錯誤與ntree之間關(guān)系,右側(cè)顯示了mtry的優(yōu)化結(jié)果。通過參數(shù)優(yōu)化,F(xiàn)TIR、 UPLC、 初級融合和中級融合最優(yōu)ntree值分別為31,204,101和50,mtry值分別為17,33,39和25,最低OOB誤差分別為1.47%,5.88%,1.47%和0%。參數(shù)優(yōu)化后OOB誤差率由7.35%降至0%。

圖4 四種隨機(jī)森林模型的ntree(左)與mtry(右)優(yōu)化結(jié)果(a):FTIR;(b):UPLC;(c):低級數(shù)據(jù)融合;(d):中級數(shù)據(jù)融合Fig.4 The selection results of ntree (lift) and mtry (right) of random forest models with four strategies(a): FTIR; (b): UPLC; (c): Low-level data fusion; (d): Mid-level data fusion

表3為FTIR、 UPLC、 初級融合和中級融合數(shù)據(jù)集構(gòu)建RF模型的訓(xùn)練集與預(yù)測集參數(shù)結(jié)果。靈敏性、 特異性、 精密度和正確率值越接近1,則說明分類效果越好。UPLC判別模型對獐牙菜屬植物的分類效果最差,5個樣品被錯分。FTIR與初級融合分類效果一樣,僅1個樣品分類錯誤,表明FTIR和初級融合數(shù)據(jù)更能揭示不同種類獐牙菜樣品間化學(xué)信息的差異。FTIR模型中1個西南獐牙菜樣品被錯分為紫紅獐牙菜,而初級數(shù)據(jù)融合模型中1個紫紅獐牙菜樣品被錯分為西南獐牙菜,兩個錯判的原因可能是由于西南獐牙菜與紫紅獐牙菜在化學(xué)組成上相似度較高,難以區(qū)分。這也表明紫紅獐牙菜與西南獐牙菜親緣關(guān)系較近,與聚類分析結(jié)果一致。與FTIR、 UPLC和初級融合相比,中級數(shù)據(jù)融合策略能區(qū)分所有樣品,其靈敏性、 特異性和精密度均為1,鑒別效果最佳,說明通過篩選特征變量,能去除一些不重要變量的干擾,從而有效提高分類正確率。表明青葉膽及其近似種FTIR數(shù)據(jù)與UPLC數(shù)據(jù)進(jìn)行中級融合,建立RF模型能鑒別相似度較高的樣品,分類效果最好,為最佳策略。

表3 FTIR,UPLC,低級融合與中級融合RF模型參數(shù)結(jié)果Table 3 Parameters results of RF models for FTIR, UPLC, Low-level and Mid-level data fusion

3 結(jié) 論

采集青葉膽及近似種FTIR光譜與UPLC色譜,采用MSC,SNV,SG,1D,2D等方法對原始光譜進(jìn)行預(yù)處理,對最佳預(yù)處理光譜數(shù)據(jù)進(jìn)行HCA分析,探討5種獐牙菜屬植物間的親緣關(guān)系,并通過FTIR、 UPLC、 低級融合與中級融合數(shù)據(jù)結(jié)合RF建立物種鑒別模型。結(jié)果顯示,SNV+SG+2D為光譜最佳預(yù)處理組合;在此基礎(chǔ)上進(jìn)行HCA分析,表明除紫紅獐牙菜Sp-1樣本外,明顯聚為5類,其中青葉膽與川東獐牙菜、 紫紅獐牙菜、 西南獐牙菜親緣關(guān)系最近,與狹葉獐牙菜親緣關(guān)系最遠(yuǎn);中級數(shù)據(jù)融合策略結(jié)合RF建立判別模型對未知樣品種類的分類正確率達(dá)到100%,效果優(yōu)于FTIR、 UPLC和低級數(shù)據(jù)融合策略,表明中級融合利用FTIR和UPLC數(shù)據(jù)信息的互補(bǔ)性增加了整體化學(xué)信息,通過對數(shù)據(jù)中有效信息的提取,提高了青葉膽及近似種分類的正確率。中級數(shù)據(jù)融合策略建立RF判別模型能準(zhǔn)確區(qū)分青葉膽及近似種,為獐牙菜屬植物鑒別提供了一種有效新方法,進(jìn)一步完善了獐牙菜種類鑒別體系。

猜你喜歡
獐牙菜紫紅預(yù)處理
野菊花
紫紅獐牙菜對四氧嘧啶性糖尿病小鼠的降糖作用
川西獐牙菜乙酸乙酯部位的化學(xué)成分及活性研究
基于ITS2序列的獐牙菜屬六種藥材的分子鑒定
基于預(yù)處理MUSIC算法的分布式陣列DOA估計
賓川獐牙菜化學(xué)成分的研究(Ⅱ)
中成藥(2016年4期)2016-05-17 06:07:48
淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
絡(luò)合萃取法預(yù)處理H酸廢水
基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
紫紅獐牙菜7種酮類成分分離及體外抗氧化研究
贡山| 和龙市| 和林格尔县| 巴南区| 南澳县| 米泉市| 仪征市| 沂源县| 德格县| 北宁市| 漯河市| 宣恩县| 晋宁县| 扎鲁特旗| 南昌市| 即墨市| 武平县| 娱乐| 新巴尔虎左旗| 昌图县| 开阳县| 桦南县| 贡嘎县| 泗洪县| 彭州市| 穆棱市| 合水县| 尚志市| 钟山县| 阳原县| 修武县| 瑞丽市| 广平县| 崇明县| 株洲县| 武隆县| 陆丰市| 崇义县| 普兰店市| 晋中市| 边坝县|