伍世元,駱德漢,鄧炳榮,趙慶輝
(廣東工業(yè)大學(xué)信息工程學(xué)院,廣州 510006)
中藥材存在產(chǎn)地、批次、品種、采收季節(jié)等因素的影響[1],致使中藥材很難達(dá)到質(zhì)量標(biāo)準(zhǔn)化,中藥材質(zhì)量可控性成為中醫(yī)藥界關(guān)注的熱門話題。基于感官的鑒別方法不可避免地要受生理、經(jīng)驗(yàn)、情緒、環(huán)境等因素的影響,其主觀性強(qiáng)、重復(fù)性差,難以形成標(biāo)準(zhǔn)。高效液相色譜、氣相色譜等理化方法需要較長的前處理時間,很難將獲得的數(shù)據(jù)和樣本的氣味直接聯(lián)系起來[1-2],而且是典型的有損檢測。
電子鼻是由具有交叉敏感特性的傳感器陣列和適當(dāng)?shù)哪J阶R別算法組成的儀器,能識別簡單和復(fù)雜的氣味或氣體[3]。它不但具有客觀性強(qiáng)、重現(xiàn)性好、操作簡單等特點(diǎn),更重要的是對樣品的測定可以做到不失原本性、無損性,能像人類鼻子一樣獲得樣品氣味的整體信息[5],即“氣味指紋圖譜”。目前電子鼻在食品品質(zhì)評價、環(huán)境檢測、疾病診斷等方面獲得廣泛應(yīng)用[4-7]。
文獻(xiàn)[2]采用電子鼻識別不同種類的中藥材,而不同種類的中藥材外在特性有很大的差異,用電子鼻來鑒別沒有充分發(fā)揮其在中藥材鑒別中的優(yōu)勢。本文提出在自然態(tài)下利用電子鼻對不同產(chǎn)地和采收期的同種中藥材進(jìn)行分類鑒別,為中藥材質(zhì)量控制提供一種新的有效方法。
采用德國 AIRSENSE公司制造的 PEN3便攜式電子鼻,PEN3電子鼻是一種用來檢測氣體和蒸汽的小巧、快捷、高效的檢測系統(tǒng),經(jīng)過訓(xùn)練后可以很快辨別單一化合物或者混合氣體,其測量氣室內(nèi)置10個金屬氧化物氣體傳感器組成傳感器陣列,分別以 “S1”到“S10”命名。
確定檢測參數(shù)如下,工作環(huán)境溫度:25℃;頂空生成時間:60 min(靜態(tài)頂空);進(jìn)氣流量:200m L/min;采樣時間:80 s;相對濕度:58%~62%;清洗時間:100 s;采樣間隔時間:1.0 s;零點(diǎn)漂移時間:10.0 s;預(yù)抽樣時間:6.0 s;頂空空間:250 mL。
實(shí)驗(yàn)樣品由廣東藥學(xué)院提供,測量數(shù)據(jù)一半用做訓(xùn)練樣本,一半用做測試樣本。
(1)不同采收期中藥材對象和檢測方法
選擇 2個批次不同采收期的陽春砂為研究對象(批次 1為成熟的陽春砂,批次 2為成熟前 1個月采收的)。由于要求在自然態(tài)下對樣品進(jìn)行測量并分類,對中藥材無需經(jīng)過研磨粉碎,而陽春砂顆粒有大有小,致使兩批次陽春砂樣本占住的體積、外觀狀態(tài)、散發(fā)氣味濃度不一致,在其他檢測參數(shù)基本確定的情況下,質(zhì)量因素將是影響測量結(jié)果的主要因素。所以對 2個不同采收期的陽春砂各取 5個質(zhì)量水平(5 g、10 g、15 g、20 g、25 g),分別以 “陽春砂 01”到“陽春砂 10”命名,其中“陽春砂 01”到 “陽春砂 05”代表批次 1各樣本,“陽春砂 06”到“陽春砂 10”代表批次 2各樣本,每個水平重復(fù)測量 12次,共得到120個樣本。
(2)不同產(chǎn)地中藥材對象和檢測方法
選擇安徽太和、廣東揭陽、江蘇太倉產(chǎn)的薄荷為研究對象,根據(jù)不同采收期的陽春砂分析結(jié)果,樣本質(zhì)量水平統(tǒng)一取 15 g,每個水平重復(fù)測量 16次,共得到 48個樣本。
電子鼻面臨的一個問題是對差別微小,濃度甚微的氣體進(jìn)行檢測,類別之間的測量空間間隔很近。僅選擇一個特征只能代表傳感器響應(yīng)數(shù)據(jù)的某一方面的信息,所獲信息有限[6];采用多個具有代表性的特征增加了信息量,但是會增加特征陣列的維數(shù),特征之間也會出現(xiàn)相互抵消的現(xiàn)象[7],使得分類判別處理數(shù)據(jù)量大而且分類鑒別結(jié)果不一定理想。鑒于上述討論,選擇代表傳感器響應(yīng)曲線不同方面的各個特征組成原始特征集合,通過鑒別結(jié)果的反饋對特征組合進(jìn)行優(yōu)化,得到一個使判別分類最優(yōu)的特征子集,并用于對待測樣本進(jìn)行鑒別。
特征集合包括以下特征:各傳感器第 15秒數(shù)據(jù)、各傳感器第 30秒數(shù)據(jù)、各傳感器第 40秒數(shù)據(jù)、各傳感器第 50秒數(shù)據(jù)、各傳感器第 60秒數(shù)據(jù)、各傳感器第 70秒數(shù)據(jù)、各傳感器第 80秒數(shù)據(jù)、各傳感器的均值、各傳感器的峰值、各傳感器的方差、各傳感器的標(biāo)準(zhǔn)差、各曲線的微分值、各曲線的積分值、各傳感器四階擬合系數(shù)(5個擬合參數(shù))、各傳感器方差最大時候的響應(yīng)值。
主成分分析(PCA)雖能最大限度地保持原有測量數(shù)據(jù)集的信息,但經(jīng)過降維后保存下來的信息卻不一定對分類最有用,這是因?yàn)楸?PCA算法拋棄的那些分布方向有可能正是能夠把不同類別區(qū)分開來的方向。線性判別分析(LDA)由原始數(shù)據(jù)經(jīng)線性組合構(gòu)造判別函數(shù),將多維空間分成一些子空間,能夠最大限度地區(qū)分不同的樣品集,分類效果好且易實(shí)現(xiàn),但是,當(dāng)樣本總數(shù)較少或選取的特征數(shù)較多時,直接采用 LDA算法會出現(xiàn)小樣本問題,即導(dǎo)致樣本類內(nèi)散布矩陣奇異,LDA算法將無法進(jìn)行下去,而解決小樣本問題可通過降維的方法使類內(nèi)散布矩陣非奇異或者避免對其求逆[8-9]。所以,本文綜合 PCA和 LDA的優(yōu)缺點(diǎn),采用由 PCA算法得到的特征矩陣作為 LDA算法的輸入矩陣,即 PCA+LDA分析法[10]。
在特征集合里選擇特征子集,通過 PCA對特征子集進(jìn)行降維,減少數(shù)據(jù)計(jì)算量,進(jìn)而優(yōu)化特征向量,得到能夠代表原始特征主要方面的少量特征作為 LDA的輸入,即得到足夠的信息,又減少數(shù)據(jù)的處理量,使類內(nèi)散布最小化、類間散布最大化。
在選擇某一個特征或特征集合全部特征的情況下,分類結(jié)果都不理想。如圖 1所示,在特征集合里選取單一特征的情況下,得到區(qū)分度最好的特征是“各傳感器的方差”,但區(qū)分效果還是不太理想,在相同質(zhì)量水平的“陽春砂 04”和“陽春砂 09”之間決策邊界靠的很近;不同質(zhì)量水平的同一批次樣本聚合度不理想,質(zhì)量因素對分類影響很大。圖 2是選擇特征集合的全部特征,對其進(jìn)行 PCA+LDA分析,結(jié)果各個樣本數(shù)據(jù)混雜在一起,分類效果反而更差??梢?單一的特征不能代表樣本的整體信息,對樣本的反映不全面,而太多的特征往往使得特征之間相互抵消,分類反而不理想。
圖1 單一特征下的不同采收期陽春砂分類結(jié)果
圖2 特征集合下的不同采收期陽春砂分類結(jié)果
通過選擇特征集合里的特征反復(fù)試驗(yàn),當(dāng)選擇“各傳感器的方差”、“各傳感器的標(biāo)準(zhǔn)差”、“各曲線的微分值”這一特征子集時,能夠?qū)蓚€不同采收期的陽春砂很好的區(qū)分開來,如圖 3所示。通過一條直線可以清楚地把 2個批次不同采收期的陽春砂區(qū)別開來,決策邊界清晰。盡管在不同質(zhì)量的情況下,兩個批次的陽春砂數(shù)據(jù)不重合,說明質(zhì)量會影響分類的結(jié)果,但是質(zhì)量引起的差別比單一特征和特征集合下的要緊湊得多?!瓣柎荷?06”到“陽春砂10”靠得比較緊湊,說明質(zhì)量對這一批次的影響較小,是采收時間較早的批次,散發(fā)的氣味比較淡;“陽春砂 02”、“陽春砂 03”、“陽春砂 04”重疊在一起,質(zhì)量因素對這一區(qū)段的樣本影響較小;總體上講,“陽春砂 01”到“陽春砂 05”質(zhì)量因素對它的影響很大,尤其是在“陽春砂 05”有強(qiáng)烈離群現(xiàn)象,說明在 20 g、25 g質(zhì)量之間,質(zhì)量因素對測量影響很大,所以應(yīng)該避免選擇位于此區(qū)間的質(zhì)量的樣本作為檢測對象。通過選擇一個特征子集,收到了很好的分類結(jié)果,說明“各傳感器的方差”、“各傳感器的標(biāo)準(zhǔn)差”、“各曲線的微分值”這一特征子集能夠充分代表不同采收期陽春砂的特點(diǎn)。
圖3 特征子集下的不同采收期陽春砂分類結(jié)果
通過采用與不同采收期陽春砂分類類似的方法反復(fù)驗(yàn)證,在特征集合里面選擇適當(dāng)?shù)奶卣髯蛹?對不同產(chǎn)地的薄荷進(jìn)行分類。
通過試驗(yàn),最終選擇“各傳感器的均值”、“各傳感器的峰值”、“各曲線的標(biāo)準(zhǔn)差”、“各曲線的微分值”、“四階擬合系數(shù)”這一特征子集,獲得較好的分類結(jié)果,說明這一特征子集能夠充分代表不同產(chǎn)地薄荷的特點(diǎn),如圖 4(a)、4(b)所示。但是,在相同的特征子集情況下,PCA分析方法中廣東薄荷和安徽薄荷的分類界面靠得很近,PCA+LDA分析方法類內(nèi)更加緊湊、類間分界面更加明顯,證實(shí) PCA+LDA分析方法的優(yōu)越性。
圖4 不同產(chǎn)地中藥材分類結(jié)果
選擇和訓(xùn)練樣本相一致的特征子集,把待測樣本數(shù)據(jù)通過 PCA+LDA映射到特征空間,分別采用歐式距離、馬氏距離分析法,計(jì)算未知樣本和各個訓(xùn)練類別之間的距離,把未知樣本歸類到距離最小的訓(xùn)練類別,得出未知樣本的類別屬性。由于采用反饋方法獲得最能區(qū)別樣本的特征子集,通過分別采用歐式距離、馬氏距離分析法,都能得到正確的識別結(jié)果,正確率為 100%。
事先確定特征,通過模式識別技術(shù)做分類判別的方法有很大的劣勢,因?yàn)闊o法確定事先選擇的特征就能確切的代表樣本類別之間的最大差別。況且選擇某一個特征得到的信息有限,而選擇過多的特征使得特征相互抵消,并不一定能獲得較好的分類判別結(jié)果。應(yīng)該采取逆向思維的方法,通過一個反饋的過程,根據(jù)測量結(jié)果不斷優(yōu)化特征子集,最終達(dá)到較好的分類判別結(jié)果。同時,采用 PCA+LDA分析方法,能夠解決 PCA算法對不同的訓(xùn)練樣本數(shù)據(jù)不敏感的問題和 LDA算法可能出現(xiàn)的小樣本問題,又能夠?qū)崿F(xiàn) PCA算法的特征壓縮,使得處理變得簡單有效。
通過此種方法,對不同產(chǎn)地的薄荷以及不同采收期的陽春砂進(jìn)行分類鑒別,獲得較理想的結(jié)果。通過電子鼻構(gòu)建中藥材氣味指紋圖譜的方法具有可觀的前景,將為中藥材質(zhì)量控制以及中藥材的質(zhì)量標(biāo)準(zhǔn)化提供一種行之有效的方法。
[1]孟巖,鄭旭光,鄭燕,等.色譜指紋圖譜在中藥與天然產(chǎn)物研究中的應(yīng)用[J].河北醫(yī)藥,2009,31(18):2473-2474.
[2]劉紅秀,姬生國,莊家俊,等.基于仿生嗅覺的中藥材鑒別的實(shí)現(xiàn)[J].廣東藥學(xué)院學(xué)報(bào),2009,25(4):356-359.
[3]Gardner JW,Bartlett N.A Brief History of Electronic Nose[J].Sensors and Actuators B,1994,18-19:211-220.
[4]Huichun Yu,Jun Wang.Discrimination of LongJing Green-Tea Grade by Electronic Nose[J].Sensors and Actuators B:Chemical,2007,122(1):134-140.
[5]Ghasemi-Varnamkhasti M,Mohtasebi S S,Siadat M,et al.Meat Quality Assessment by Electronic Nose(Machine Olfaction Technology)[J].Sensors,2009,9(8):6058-6083.
[6]周海濤,殷勇,于慧春.勁酒電子鼻鑒別分析中傳感器陣列優(yōu)化方法研究[J].傳感技術(shù)學(xué)報(bào),2009,22(2):175-177.
[7]海錚,王俊.電子鼻信號特征提取與傳感器優(yōu)化的研究[J].傳感技術(shù)學(xué)報(bào),2006,19(3):606-609.
[8]宋楓溪,程科,楊靜宇.最大散度差和大間距線性投影與支持向量機(jī)[J].自動化學(xué)報(bào),2004,30(6):890-896.
[9]陳伏兵,張生亮,高秀梅.小樣本情況下 Fisher線性鑒別分析的理論及其驗(yàn)證[J].中國圖象圖形學(xué)報(bào),2005,10(8):984-991.
[10]鄒宇華.嶺南中草藥分類鑒別的機(jī)器嗅覺實(shí)現(xiàn)方法研究[D]:[碩士學(xué)位論文].廣州:廣東工業(yè)大學(xué),2009.