黃 曄,劉 麗,梁 晶,楊紅霞,李曉麗,徐 寧*
1. 浙江省皮膚病防治研究所藥劑科,浙江 德清 313200 2. 浙江工業(yè)大學(xué)藥學(xué)院,浙江 杭州 310014 3. 湖州市食品藥品檢驗(yàn)研究院,浙江 湖州 313000 4. 浙江大學(xué)食品及生物工程學(xué)院,浙江 杭州 310058
中藥配方顆粒因便于服用、保存和攜帶等優(yōu)點(diǎn),已經(jīng)廣泛流通于全國醫(yī)院。目前已獲得各類中藥配方顆粒試點(diǎn)資質(zhì)的企業(yè)高達(dá)57家,然而顆粒劑的生產(chǎn)工藝及質(zhì)量控制還沒有建立統(tǒng)一的國家標(biāo)準(zhǔn)。同一品種因生產(chǎn)企業(yè)不同仍存在較大差異。蒼術(shù)為菊科植物茅蒼術(shù)或北蒼術(shù)的干燥根莖,具有燥濕健脾、祛風(fēng)散寒、明目等功效[1]。蒼術(shù)顆粒劑無法像飲片一樣通過性狀、顯微鑒別區(qū)分品種和產(chǎn)地信息,亦無法通過高效液相色譜法對(duì)蒼術(shù)素有效定量。主要采用薄層色譜法(thin layer chromatography,TLC)、水分測(cè)定法、浸出物測(cè)定法等,對(duì)其有效成分與含量進(jìn)行初步的質(zhì)量檢測(cè),因此開拓新的有效的質(zhì)量控制方法具有重要意義。
高光譜成像技術(shù)具有高效準(zhǔn)確,無損、無污染的優(yōu)點(diǎn)[2-3]。國內(nèi)外學(xué)者已嘗試通過高光譜成像技術(shù)應(yīng)用于中藥材的質(zhì)量控制,包括中藥年份鑒別、品種鑒別等。有報(bào)道研究了高光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)對(duì)不同年份及放置方式的陳皮建立鑒別模型,預(yù)測(cè)準(zhǔn)確率達(dá)98.33%,為陳皮年份無損鑒別提供了新的技術(shù)參考。Tankeu等[4]利用高光譜成像技術(shù)結(jié)合偏最小二乘判別分析,區(qū)分出粉防己和廣防己這兩種外觀形態(tài)相似、實(shí)則來源不同科屬、化學(xué)成分截然不同的兩種植物,可以有效防止廣防己混入粉防己。大多數(shù)的研究集中于簡單區(qū)分與防偽,探索高光譜成像技術(shù)應(yīng)用于中藥現(xiàn)代化快速無損分析的過程中,如何優(yōu)選樣品光譜特征波段,建立準(zhǔn)確度高、預(yù)測(cè)效果好的模型仍是亟需解決的問題。僅李超等[5](Fourier transform infrared spectroscopy, FTIR)對(duì)國內(nèi)8省份18產(chǎn)區(qū)的蒼術(shù)樣品建立了紅外指紋圖譜,而高光譜成像的蒼術(shù)配方顆粒研究尚無報(bào)道。
本工作研究了在高光譜874~1 734 nm區(qū)域3個(gè)不同生產(chǎn)廠家的蒼術(shù)配方顆粒圖譜信息,結(jié)合9種波段數(shù)據(jù)分別建立4種判別模型來尋找潛在的信息,對(duì)不同廠家的蒼術(shù)顆粒劑進(jìn)行快速區(qū)分,并將結(jié)果可視化。
浙江惠松制藥有限公司(廠家A,浙江杭州)、江陰天江藥業(yè)有限公司(廠家B,江蘇江陰)、華潤三九醫(yī)藥股份有限公司(廠家C,廣東深圳)的蒼術(shù)配方顆粒各50份,共150份樣本。
高光譜成像系統(tǒng)主要包括分辨率為672×512的CCD相機(jī)(C8484-05, Hamamatsu Photonics, Hamamatsu City, Japan),分辨率為2.8 nm的光譜儀(ImSpector N17E; Spectral Imaging Ltd, Oulu, Finland),線光源(Fiber-Lite DC950, Dolan Jenner Industries Inc, Boxborough, MA),計(jì)算機(jī),暗箱和電控移動(dòng)平臺(tái)。高光譜圖像采集前,首先獲取暗電流和參考板的高光譜圖像數(shù)據(jù),用于數(shù)據(jù)處理前對(duì)原始高光譜圖像的校正。電控移動(dòng)平臺(tái)移動(dòng)速度為17 mm·s-1,工作距離為20.5 cm,曝光時(shí)間2.4 ms,采集在874~1 734 nm范圍樣本的高光譜信息。
薄層色譜法步驟參照《中國藥典》2015年版四部 通則0502。
蒼術(shù)顆粒劑樣本分別置于96孔板中,保證每個(gè)樣本在同一高度。黑白校正后設(shè)置樣本區(qū)域作為感興趣區(qū)域(region of interest,ROI),計(jì)算出每個(gè)樣本ROI范圍內(nèi)874~1 734 nm的平均光譜。采用偏最小二乘判別分析(partial least square discrimination analysis,PLS-DA)、最小二乘支持向量機(jī)(least-squares support vector machine,LS-SVM)、反向人工神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)、鄰近算法(k-nearest neighbor,KNN)、競爭性自適應(yīng)重加權(quán)采樣法(competitive adaptive reweighted sampling,CARS)、隨機(jī)蛙跳算法(random frog,RF)[6]、連續(xù)投影算法(successive projections algorithm,SPA)、序列前向選擇算法(sequential forward selection,SFS)[7]以及相關(guān)性分析(correlation analysis,CA)采用Matlab R2018a(The Math Works, Natick, USA)處理。
對(duì)應(yīng)蒼術(shù)對(duì)照藥材薄層色譜的相同位置,各樣品的熒光斑點(diǎn)顏色一致,見圖1(a)。雖然三個(gè)樣品的薄層色譜有些許差別,但不能確認(rèn)樣品的生產(chǎn)商。
蒼術(shù)顆粒劑高光譜敏感波段大都集中在1 100~1 650 nm附近,見圖1(b)。1 100~1 300 nm歸屬于C—H伸縮振動(dòng)的二級(jí)倍頻[8],1 300~1 400 nm歸屬于C—H伸縮振動(dòng)的組合帶[9],1 450 nm歸屬于O—H伸縮振動(dòng)的一級(jí)倍頻,和蒼術(shù)顆粒劑中存在的水分有關(guān)[8],1 480 nm附近歸屬于O—H伸縮振動(dòng)的二級(jí)倍頻[9]。1 250~1 680 nm含有的信息和蒼術(shù)顆粒劑中的氨基酸有關(guān)。
圖1 蒼術(shù)顆粒劑(a)薄層色譜鑒定結(jié)果,(b)平均高光譜
2.2.1 CARS及RF
基于全波段所建立的判別模型,KNN模型的總體判別率為96%,Kappa系數(shù)為0.937 8。BPNN,LS-SVM以及PLS-DA模型判別率都為100%,Kappa系數(shù)為1。
隨樣本運(yùn)行次數(shù)增加,所選特征波長數(shù)目先迅速減少,隨后趨于平緩,見圖2(a),表明在CARS中已經(jīng)實(shí)現(xiàn)了快速選擇、雙階段選擇及精選選擇。由圖2(b)可以看見,隨樣本運(yùn)行次數(shù)增加,消除了部分冗余信息后RMSECV開始緩慢減少;當(dāng)樣本運(yùn)行次數(shù)為25次后,消除了部分關(guān)鍵波長下的光譜信息RMSECV開始緩慢增長;圖2(c)中“*”線表示RMSECV達(dá)最低值之最佳點(diǎn),當(dāng)樣本運(yùn)行25次時(shí),RMSECV值最小,獲得19個(gè)特征波長。RF方法可檢測(cè)每個(gè)波長下高光譜信息對(duì)不同廠家蒼術(shù)顆粒劑區(qū)分的重要性。波長被選擇幾率越大,表明該波長下高光譜信息與不同廠家的蒼術(shù)顆粒劑樣本區(qū)分的相關(guān)性可能較大[見圖2(d)]。基于RF方法將波長被選擇的概率從大到小排列,篩選出前10個(gè)波長組成波長數(shù)目從1~10的10組數(shù)據(jù),并建立判別模型[圖2(e)和圖2(f)]。隨著波長數(shù)目的增加,模型的總體判別率以及Kappa系數(shù)總體均呈上升趨勢(shì)。當(dāng)波長數(shù)目大于等于5時(shí),除KNN外的另外三種模型總體判別率均達(dá)到了100%、Kappa系數(shù)達(dá)到了1且保持恒定。
2.2.2 相關(guān)性分析及優(yōu)化的波段
繼續(xù)計(jì)算選擇出的兩個(gè)敏感波長之間的皮爾森相關(guān)系數(shù),兩個(gè)波長相關(guān)系數(shù)的值高于0.9的,只保留一個(gè)。
經(jīng)CARS-CA,RF-CA,SFS-CA以及SPA-CA分別篩選得到了4個(gè)、2個(gè)、4個(gè)以及3個(gè)最佳波長(表1)。
954 nm歸屬于C—H,N—H,O—H伸縮振動(dòng)的三級(jí)倍頻[10],975,1 476和1 483 nm歸屬于O—H伸縮振動(dòng)的二級(jí)倍頻[11],1 005 nm歸屬于N—H伸縮振動(dòng)的二級(jí)倍頻[9],1 122 nm歸屬于C—H伸縮振動(dòng)[12],1 220,1 126,1 146,1 237,1 294,1 348,1 365和1 368 nm為C—H的伸縮振動(dòng)的二級(jí)倍頻[13],1 372 nm歸屬于1 412 nm,1 415 nm歸屬于芳香烴的C—H拉伸振動(dòng)[14]。
CARS選擇的特征波長,在1 100~1 300,1 360~1 420以及1 430~1 480 nm位置,和相關(guān)性分析結(jié)果一致。CARS-CA,RF-CA,SFS-CA和SPA-CA得到的最優(yōu)波長分別有2個(gè)(1 220和1 476 nm),1個(gè)(1 442 nm),1個(gè)(1 584 nm)、1個(gè)(1 146 nm),均分布在對(duì)應(yīng)的平均光譜差異度較大的區(qū)域,見圖3(a,b,c)。其中1 476,1 442與1 584 nm的信息都和蒼術(shù)顆粒劑中的氨基酸有關(guān)。
圖2 (a)CARS采樣變量數(shù)量的變化趨勢(shì),(b)RMSECV值,(c)隨著采樣運(yùn)行的增加每個(gè)變量的回歸系數(shù),(d)通過RF選擇特征波長的結(jié)果,不同波長數(shù)目下不同模型的(e)總體判別率和(f)Kappa系數(shù)
圖3 蒼術(shù)顆粒劑廠家區(qū)分研究中(a)初步篩選特征波長,(b)CA篩選波長選擇結(jié)果,(c)基于CARS選擇的敏感波長之間的相關(guān)性分析
表1 基于高光譜技術(shù)的蒼術(shù)顆粒劑廠家區(qū)分特征波段選擇
基于CARS-CA,RF-CA,SFS-CA和SPA-CA選擇的最優(yōu)波長,和原始數(shù)據(jù)的256個(gè)波長變量相比,分別減小了98.44%,99.22%,98.44%和98.83%的變量,大大增加了模型的運(yùn)算效率。
從表2可知,基于四種最佳波段建立的KNN以及BPNN模型的總體判別率均沒有達(dá)到100%,Kappa系數(shù)也沒有達(dá)到1?;谒慕M最佳特征波長建立的PLS-DA以及LS-SVM模型的總體判別率為100%以及Kappa系數(shù)為1的占比分別為25%以及50%,可以得出LS-SVM模型判別效果優(yōu)于其他三種?;贑ARS-CA所建立的四種模型,總體判別率為100%以及Kappa系數(shù)為1的占比為50%,優(yōu)于其他三組最佳特征波長。綜上所述,CARS-CA-LS-SVM模型在總體判別率為100%以及Kappa系數(shù)為1的情況下,大大減少了模型的輸入變量,提高了運(yùn)算效率,為區(qū)分不同廠家蒼術(shù)顆粒劑的最優(yōu)模型。
表2 基于特征波長建立的區(qū)分不同廠家蒼術(shù)顆粒劑的模型判別Table 2 Model discrimination based on characteristic wavelengths in the distinguish study of Atractylodes Lancea granules from different manufactures
圖4 基于CARS-CA-LS-SVM模型的不同廠家蒼術(shù)顆粒劑區(qū)分結(jié)果圖
所有的蒼術(shù)顆粒劑樣本都能被正確識(shí)別(如圖4所示),并且很容易與其他廠家區(qū)分。然而,廠家B的蒼術(shù)顆粒劑樣本有4個(gè)樣本的一些像素點(diǎn)被預(yù)測(cè)成了廠家C,本來應(yīng)該被預(yù)測(cè)為黃色的一些像素點(diǎn)被預(yù)測(cè)成了紅色。其原因可能是該像素點(diǎn)的光譜攜帶了超出廠家C范圍的蒼術(shù)顆粒劑信息,當(dāng)使用基于樣本平均譜的模型來預(yù)測(cè)相應(yīng)的像素譜時(shí),這些光譜特征會(huì)偏離樣本平均譜的預(yù)測(cè)集。整體來看,4個(gè)樣本所有像素點(diǎn)的顏色,還是預(yù)測(cè)為廠家B黃色的像素點(diǎn)較多,是準(zhǔn)確的。
不同廠家蒼術(shù)顆粒劑的區(qū)分可視化是基于最優(yōu)模型和特征波長建立的魯棒性和代表性的判別模型,結(jié)果證明是可行的。為今后開發(fā)蒼術(shù)顆粒劑和其他中藥的綜合質(zhì)量實(shí)時(shí)監(jiān)測(cè)系統(tǒng)提供了可能。
高光譜技術(shù)結(jié)合CARS和CA法進(jìn)行二次特征波長選擇,可有效實(shí)現(xiàn)不同廠家的蒼術(shù)顆粒劑可視化判別,實(shí)現(xiàn)了三個(gè)不同廠家蒼術(shù)顆粒劑的區(qū)分。剔除不相關(guān)或非線性變量的輸入變量,降低了計(jì)算量,提高了運(yùn)算效率,為解決蒼術(shù)顆粒劑的無損質(zhì)量控制和產(chǎn)品溯源問題提供了參考。為開發(fā)基于特征波長的中藥制劑產(chǎn)品溯源多光譜檢測(cè)系統(tǒng)提供了科學(xué)支持。
下一步將進(jìn)行更多生產(chǎn)廠家區(qū)分以研究參數(shù)的有效性,并擬擴(kuò)大樣本數(shù)做進(jìn)一步驗(yàn)證和完善以建立更穩(wěn)定、更普遍適用的判別模型。