鄒慧琴,劉勇,陶歐,林輝,蘇玉貞,林相龍,閆永紅
[摘要] 電子鼻廣泛應(yīng)用于諸多領(lǐng)域,在不同領(lǐng)域中電子鼻傳感器陣列的構(gòu)成不同。由于中藥氣味的復(fù)雜性和特殊性,在中藥鑒別分析中,需建立陣列優(yōu)化法、篩選專屬最佳陣列。采用法國(guó)Alpha MOS 公司的αFOX3000電子鼻對(duì)姜科常用10味中藥進(jìn)行氣味檢測(cè),基于逐步判別分析法和聚類分析結(jié)合典型指標(biāo)篩選法,建立了MOS傳感器陣列的優(yōu)化法。同時(shí)針對(duì)優(yōu)化前后的數(shù)據(jù),分別采用主成分分析、Fisher判別分析和隨機(jī)森林算法進(jìn)行了對(duì)比研究。結(jié)果表明,優(yōu)化后的陣列不僅保留了原始陣列的有效信息,而且在一定程度上剔除了冗余信息、提高了識(shí)別效率。隨機(jī)森林分類器計(jì)算結(jié)果表明:最佳陣列為逐步判別分析篩選的S1,S2,S5,S6,S8,S12組合而成,此陣列優(yōu)化法有效、可行;為電子鼻在中藥鑒別中MOS傳感器陣列的優(yōu)化提供思路與方法參考。
[關(guān)鍵字] 電子鼻;中藥材;傳感器陣列;隨機(jī)森林
電子鼻(electronic nose,EN)也稱人工嗅覺(jué)系統(tǒng),是模仿人類對(duì)氣味的識(shí)別機(jī)制[1],設(shè)計(jì)研制的一種智能電子儀器,適用于許多系統(tǒng)中測(cè)量1種或多種氣味物質(zhì)。一個(gè)典型的電子鼻主要由3部分構(gòu)成:樣品處理器,傳感器陣列,信號(hào)處理系統(tǒng)[2]。而傳感器陣列作為電子鼻的檢測(cè)系統(tǒng),是最為核心的部分;它由不同氣敏元件組成,具有廣譜響應(yīng)性、交叉敏感性等特點(diǎn)。常見(jiàn)的傳感器類型有導(dǎo)電聚合物(CP)傳感器、石英晶體微平衡(QCM)傳感器和金屬氧化物(MOS)傳感器等。其中,MOS傳感器靈敏度高、重復(fù)性好、基線漂移可校正等,已成為電子鼻傳感器的主流。
從20世紀(jì)80年代電子鼻誕生后,學(xué)者在很多領(lǐng)域進(jìn)行了應(yīng)用研究。也正是由于電子鼻響應(yīng)時(shí)間短、檢測(cè)速度快、樣品預(yù)處理簡(jiǎn)便、測(cè)定評(píng)估范圍廣等優(yōu)點(diǎn),現(xiàn)已在農(nóng)業(yè)[3]、食品[4]、環(huán)境監(jiān)控[5]和公共安全[6]等領(lǐng)域得到了廣泛的應(yīng)用。然而,不同領(lǐng)域檢測(cè)的物質(zhì)種類及分析目標(biāo)不同,相應(yīng)最適宜傳感器陣列也不同。因此,傳感器陣列優(yōu)化是電子鼻應(yīng)用于不同領(lǐng)域中需解決的關(guān)鍵技術(shù)之一。而在給定區(qū)域內(nèi),如何選擇傳感器陣列,以剔除冗余信息,同時(shí)保證獲取信息的完整性、有效性和可靠性,是傳感器陣列優(yōu)化的首要問(wèn)題。目前,在傳感器陣列優(yōu)化中常用的方法有方差分析[7]、相關(guān)系數(shù)分析[8]、變異系數(shù)因子載荷分析[9]等,每種方法的針對(duì)性和適應(yīng)性因不同分析目標(biāo)而異。
本研究探討了電子鼻傳感器陣列的優(yōu)化方法及其在中藥快速鑒別中的應(yīng)用。采用MOS傳感器陣列對(duì)姜科常用10味中藥進(jìn)行氣味特征的提取,基于逐步判別分析法和聚類分析結(jié)合典型指標(biāo)篩選法,建立了中藥鑒別中電子鼻傳感器陣列的優(yōu)化方法。同時(shí)采用主成分分析(PCA)、Fisher判別分析(Fisher LDA)和隨機(jī)森林(RF)算法對(duì)優(yōu)化前后的數(shù)據(jù)進(jìn)行了對(duì)比分析,確立了中藥鑒別中最佳傳感器陣列。結(jié)果表明優(yōu)化后的陣列所獲取信息不僅保留了原始信息的完整性、有效性和可靠性,還一定程度上剔除了冗余信息、提高了數(shù)據(jù)處理效率。此陣列優(yōu)化法有效、可行。
1 材料
αFOX3000氣味指紋分析儀,又稱電子鼻(法國(guó)Alpha MOS公司);10味常用中藥飲片干姜、姜黃、高良姜、莪術(shù)、郁金、白豆蔻、草豆蔻、草果、益智、砂仁(北京同仁堂股份有限公司市售產(chǎn)品)。經(jīng)北京中醫(yī)藥大學(xué)閆永紅教授鑒定,分別來(lái)源于姜科植物姜Zingiber officinale Rosc.的干燥根莖、姜黃Curcuma longa L.的干燥根莖、高良姜Alpinia officinarum Hance的干燥根莖、蓬莪術(shù)C. phaeocaulis Val.的干燥根莖、廣西莪術(shù)C. kwangsiensis S. G. Lee et C. F. Liang的干燥塊根、白豆蔻Amomm kravanh Pierre ex Gagnep.的干燥成熟果實(shí)、草豆蔻Alpinia katsumadai Hayata的干燥近成熟種子、草果Amomum tsaoko Crevost et Lemaire的干燥成熟果實(shí)、益智Alpinia oxyphylla Miq.的干燥成熟果實(shí)以及陽(yáng)春砂Amomum villosum Lour.的干燥成熟果實(shí)。
αFox3000電子鼻中傳感器原始陣列(U)由12根MOS傳感器構(gòu)成,這12根傳感器的類型及對(duì)不同化學(xué)成分的響應(yīng)靈敏度不同,具體見(jiàn)表1。
2 方法
2.1 樣品預(yù)處理——?dú)馕短崛》?將樣品粉碎,過(guò)2號(hào)篩,精確稱取0.4 g樣品裝入10 mL頂空瓶中,壓蓋密封。每味中藥各取10個(gè)樣本,采用循環(huán)交叉排列的方式組成序列,以減小實(shí)驗(yàn)的系統(tǒng)誤差[10],組成訓(xùn)練集。另每味中藥再各取2個(gè)樣本,組成外部測(cè)試集。
電子鼻對(duì)樣品氣味特征采集分為3個(gè)流程:孵化平衡、自動(dòng)進(jìn)樣和信號(hào)采集。實(shí)驗(yàn)參數(shù)設(shè)置分別為孵化時(shí)間600 s、孵化溫度45 ℃;進(jìn)樣量500 μL; 信號(hào)采集時(shí)間200 s、采集周期1 s。本研究視12根傳感器為12個(gè)變量、以傳感器最大響應(yīng)值為指標(biāo)進(jìn)行數(shù)據(jù)分析。
2.2 傳感器陣列優(yōu)化——S逐步判別分析法 采用Wilks′Lambda方法進(jìn)行逐步判別分析,以F作為判別統(tǒng)計(jì)量。一個(gè)變量是否能進(jìn)入模型主要取決與協(xié)方差分析中F檢驗(yàn)的顯著性水平和設(shè)置的進(jìn)入、離開(kāi)模型的F[11]。具體參數(shù)設(shè)置為:當(dāng)F≥30時(shí),變量進(jìn)入模型;當(dāng)F≤5時(shí),變量移除模型。判別結(jié)果見(jiàn)表2。
表2中統(tǒng)計(jì)量(F)是該變量的均方與誤差均方的比值。該值越大,P越小,因此該值最大的先進(jìn)入判別函數(shù)。當(dāng)P小于0.05或0.01時(shí),拒絕零假設(shè)。顯著性檢驗(yàn)結(jié)果P=0.000,即小于0.001,可以說(shuō)這6個(gè)變量對(duì)判別的貢獻(xiàn)都很顯著??傊?,說(shuō)明該變量在不同組中均值不同是由于組間差異,而不是由隨機(jī)誤差引起的;即該變量在各組中均值差異顯著??梢钥闯鯯12,S5,S8,S6,S2,S1的統(tǒng)計(jì)量(F)都在30以上,這是選擇進(jìn)入判別函數(shù)的判據(jù)。經(jīng)過(guò)6個(gè)步驟后,模型內(nèi),外變量無(wú)進(jìn),無(wú)出,逐步判別分析的自變量選擇結(jié)束。因此,最終確定的傳感器優(yōu)化陣列(U1)的組成為S1,S2,S5,S6,S8,S12。
2.3 傳感器陣列優(yōu)化聚類分析結(jié)合典型指標(biāo)篩選法 對(duì)100個(gè)分析樣本、12個(gè)屬性進(jìn)行聚類分析。具體參數(shù)設(shè)置為聚類方法Further neighbor;變量間相似性測(cè)度方法為Pearson Correlation,分類結(jié)果見(jiàn)圖1。
從圖1可以看出初步聚為2類:S1,S7,S8,S9,S10,S11,S12和S2,S3,S4,S5,S6。另外,還可以進(jìn)一步具體查看,如果聚為3類,各類組成為:S1;S7,S8,S9,S10,S11,S12;S2,S3,S4,S5,S6。4類,5類以此類推,冰柱圖的最終分類結(jié)果需結(jié)合實(shí)際情況而定。在本研究中,對(duì)12根傳感器進(jìn)行了方差分析,結(jié)果顯示聚為4組較為合理。A組 S1;B組 S7,S8,S9,S10,S11,S12;C組 S4,S5;D組 S2,S3,S6。
采用Bivariate Correlation相關(guān)分析分別對(duì)B,C,D組進(jìn)行典型指標(biāo)的篩選。參數(shù)設(shè)置為Correlation Coefficients:Pearson。以B組變量為例,說(shuō)明篩選過(guò)程,分析結(jié)果見(jiàn)表3。從表3中讀取相關(guān)系數(shù),計(jì)算各相關(guān)指數(shù)如下。
R72=(0.9972+0.9952+0.9982+0.9992+0.9962)/5=0.994
R82=(0.9972+0.9972+0.9982+0.9962+0.9962)/5=0.994表3 B組變量相關(guān)矩陣(n=100)
Table 3 Correlation matrix of group B variables (n=100)
R92=(0.9952 +0.9972 +0.9962 +0.9942 +0.9942) /5=0.990
R102=(0.9982 +0.9982 +0.9962 +0.9972 +0.9992) /5=0.995
R112=(0.9992 +0.9962 +0.9942 +0.9972 +0.9972) /5=0.993
R122= (0.9962 +0.9962 +0.9942 +0.9992 +0.9972) /5=0.993
比較5個(gè)相關(guān)指數(shù),S10的相關(guān)指數(shù)(R102)最大,因此B組代表變量選定為S10。同法計(jì)算C組、D組各變量的相關(guān)指數(shù)。其中,C組的S4和S5的相關(guān)系數(shù)一致,結(jié)合累計(jì)相關(guān)系數(shù)分析中S4與其他11根傳感器的累計(jì)相關(guān)系數(shù)最小,選S4代表變量。D組中S3的相關(guān)指數(shù)最大,選為代表變量。由此,確定的典型指標(biāo)為S1,S3,S4,S10。
此外,方差分析及累計(jì)相關(guān)系數(shù)分析最優(yōu)解分別為S10,S12,S4;其中S10,S4都入選為典型指標(biāo),而S12未入選。因此,綜合分析最終確定的傳感器優(yōu)化陣列(U2)的組成為S1,S3,S4,S10,S12。
3 結(jié)果
3.1 主成分分析(PCA) 傳感器優(yōu)化前后的PCA對(duì)比見(jiàn)圖2,傳感器原始陣列對(duì)有些中藥材可以區(qū)分(砂仁、白豆蔻、草豆蔻、高良姜、草果、干姜、郁金),對(duì)有些中藥材區(qū)分性較差(莪術(shù)、益智、姜黃)。圖2中b,c圖顯示優(yōu)化后的傳感器陣列PCA分析效果與優(yōu)化前基本一致。
3.2 Fisher線性判別分析(Fisher LDA) 電子鼻研究中可運(yùn)用Fisher線性判別分析(Fisher linear discriminant analysis,F(xiàn)isher LDA)根據(jù)已知樣本識(shí)別未知樣本。傳感器優(yōu)化前后的Fisher LDA對(duì)比見(jiàn)圖3,判別能力稍優(yōu)于PCA,二者分類結(jié)果相近。傳感器原始陣列可以較好地區(qū)分開(kāi)砂仁、白豆蔻、草豆蔻、高良姜、草果、干姜以及郁金等7味中藥,而莪術(shù)、益智及姜黃三者的分布區(qū)域重疊較多、無(wú)法區(qū)分,仍為鑒別難點(diǎn)。圖3中顯示優(yōu)化后的傳感器陣列Fisher LDA分類效果與優(yōu)化前差異不大。
3.3 隨機(jī)森林(RF) 隨機(jī)森林(Random Forests,RF)是一個(gè)包含多個(gè)決策樹(shù)的分類器,其輸出類別是由個(gè)別樹(shù)輸出類別的眾數(shù)而定,其中每棵決策樹(shù)都會(huì)完整成長(zhǎng)而不會(huì)剪枝。它具有準(zhǔn)確度高、學(xué)習(xí)速度快、能容忍內(nèi)部噪聲且不容易出現(xiàn)過(guò)擬合等優(yōu)點(diǎn),在醫(yī)學(xué)、生物信息、管理學(xué)等領(lǐng)域廣泛應(yīng)用[13]。分類系統(tǒng)性能評(píng)估采用常用十折交叉驗(yàn)證和外部測(cè)試集驗(yàn)證2種方法。本研究基于Weka軟件實(shí)現(xiàn)隨機(jī)森林分類器的建立(由Weka論壇免費(fèi)提供http://www.cs.waikato.ac.nz/ml/weka/ )。
感器優(yōu)化前后的隨機(jī)森林分類結(jié)果的比較見(jiàn)表4。結(jié)果顯示優(yōu)化前的傳感器陣列對(duì)10味中藥材的正判率在80%以上,分類效果較好。而優(yōu)化后的傳感器陣列也可以對(duì)10味中藥材進(jìn)行分類,正判率大于85%、最高為96%;判別能力有所改善。
4 討論
優(yōu)化前后傳感器陣列的PCA,F(xiàn)isher LDA分析結(jié)果表明,優(yōu)化后的傳感器陣列能夠代替原始陣列完成對(duì)10味中藥的鑒別任務(wù):首先保證所獲取信息的完整性和可靠性,即沒(méi)有丟失原始數(shù)據(jù)中的有效信息;再對(duì)比分析陣列優(yōu)化前后隨機(jī)森林分類器的正判率,不難發(fā)現(xiàn)優(yōu)化后分類效果有一定程度的提高,說(shuō)明優(yōu)化后的陣列在一定程度上剔除了冗余信息、提高數(shù)據(jù)處理效率。進(jìn)一步考察,發(fā)現(xiàn)逐步判別分析法優(yōu)化的傳感器陣列略勝一籌;綜合分析,中藥鑒別中最佳陣列由S1,S2,S5,S6,S8,S12傳感器組成。此種優(yōu)化方法有效、可行。
值得進(jìn)一步探討的是,本研究中優(yōu)化前后的傳感器陣列對(duì)姜科10味藥材均無(wú)法完全區(qū)分開(kāi),尤其是莪術(shù)、益智和姜黃。雖然此3味藥材同其他7味藥材可區(qū)分性較好,但三者相互之間難以鑒別。究其原因,一可能是此三者難以與其他幾種藥材在同一判別模型中實(shí)現(xiàn)鑒別,建議在將來(lái)研究中針對(duì)篩 選數(shù)據(jù)處理方法、建立判別模型等方面作進(jìn)一步完善;二可能是本研究中所采用的αFOX3000型號(hào)電 表4 傳感器優(yōu)化前后的隨機(jī)森林分類結(jié)果的比較子鼻只有12根傳感器組成檢測(cè)器,其傳感器針對(duì)中藥氣味的靈敏度、專屬性均尚未有相關(guān)研究報(bào)道,存在此種鑒別難點(diǎn)很有可能是此三者處于它的“嗅覺(jué)盲區(qū)”,建議在將來(lái)的研究中,在多型號(hào)電子鼻、多數(shù)量傳感器的基礎(chǔ)上進(jìn)行傳感器的優(yōu)化與專屬性研究。
[參考文獻(xiàn)]
[1] Pradeep U K. An electronic nose for detecting hazardous chemicals and explosives [C]. Beijing:Plant growth modeling,simulation,visualization and applications (PMA),2006 International Symposium,2006.
[2] 鄒慧琴,劉勇,閆永紅,等. 電子鼻技術(shù)及應(yīng)用研究進(jìn)展[J]. 傳感器世界,2011,17(11):6.
[3] Tang Xiaowei,He Hongju,Geng Lihua,et al. Evalution of maturity and flavour of melons using an electronic noses [J]. Agric Sci Tech,2011,12(3):447.
[4] Tudu B,A Jana,A Metla,et al. Electronic nose for black tea quality evaluation by an incremental RBF network [J]. Sensor Actuator BChem,2009 (138):90.
[5] Fang Xiangsheng,Shi Hanchang,He Miao,et al. Application and progress of electronic nose in evironmental monitoring [J]. Evrion Sci Technol,2011,34(10):112.
[6] Yinon J. Field detection and monitoring of explosives [J]. Trend Anal Chem,2002,21(4):292.
[7] 張雙巖,余雋,唐禎安,等. 二元混合氣體識(shí)別中傳感器陣列優(yōu)化方法研究[J]. 儀表技術(shù)與傳感器,2010(7):80.
[8] 周顯青,暴占彪,崔麗靜,等. 霉變玉米電子鼻識(shí)別及其傳感器陣列優(yōu)化[J]. 河南工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011,32(4):16.
[9] 周海濤,殷勇,于慧春. 勁酒電子鼻鑒別分析中傳感器陣列優(yōu)化方法研究[J]. 傳感技術(shù)學(xué)報(bào),2009,22(2):175.
[10] 趙鐳,史波林,汪厚銀,等. 電子鼻傳感器篩選的組合優(yōu)化法研究[J]. 食品科學(xué),2009,30(20):367.
[11] 盧紋岱. SPSS統(tǒng)計(jì)分析[M]. 4版.北京:電子工業(yè)出版社,2003.
[12] 方匡南,吳建彬,朱建平,等. 隨機(jī)森林方法研究綜述[J]. 統(tǒng)計(jì)與信息論壇,2011,26(3): 32.
Optimization method of MOS sensor array for identification of traditional
Chinese medicine based on electronic nose
ZOU Huiqin, LIU Yong, TAO Ou, LIN Hui, SU Yuzhen, LIN Xianglong, YAN Yonghong*
(Beijing University of Chinese Medicine, Beijing 100102, China)
[Abstract] Optimization of sensor array is a significant topic in the application of electronic nose (EN). Stepwise discriminant analysis and cluster analysis combining with screening of typical index were employed to optimize the original array in the classification of 100 samples from 10 kinds of traditional Chinese medicine based on αFOX3000 EN. And the identification ability was evaluated by three algorithm including principle component analysis, Fisher discriminant analysis and random forest. The results showed that the identification ability of EN was improved since not only the effective information was maintained but also the redundant one was eliminated by the optimized array. The optimized method was eventually established, it was accurate and efficient. And the optimized array was built up, that is, S1,S2,S5,S6,S8,S12.
[Key words] electronic nose; traditional Chinese medicine; sensor array; random forest
doi:10.4268/cjcmm20130204
[責(zé)任編輯 呂冬梅]