丁學(xué)利 秦夢潔 王靜
【摘? ?要】? ?以中藥材的中紅外光譜數(shù)據(jù)為聚類分析對象,通過提取影響藥材類別的關(guān)鍵特征波數(shù),采用主成分分析結(jié)合模糊C均值聚類建立了中藥材的鑒別模型。該模型可實(shí)現(xiàn)對中藥材樣本數(shù)據(jù)的快速鑒別,為中藥材鑒別問題的研究提供借鑒。
【關(guān)鍵詞】? ?模糊C均值聚類;主成分分析;中藥材鑒別
Identification of Traditional Chinese Medicine Based on
Fuzzy C-Means Clustering
Ding Xueli, Qin Mengjie, Wang Jing
(Fuyang Institute of Technology, Fuyang 236031, China)
【Abstract】? ? Taking the mid infrared spectrum data of traditional Chinese medicine as the cluster analysis object, the identification model of traditional Chinese medicine was established by extracting the key characteristic wave number affecting the category of traditional Chinese medicine and using principal component analysis combined with fuzzy C-means clustering. This model can not only realize the rapid identification of traditional Chinese medicine sample data, but also provide reference for the research of practical traditional Chinese medicine identification.
【Key words】? ? ?fuzzy C-means clustering; principal component analysis; identification of traditional Chinese medicine
〔中圖分類號〕? O212? ? ? ? ? ? ? ?〔文獻(xiàn)標(biāo)識碼〕? A ? ? ? ? ? ? ?〔文章編號〕 1674 - 3229(2022)02- 0013 - 06
0? ? ?引言
我國的中藥材資源豐富,種類繁多,品種分布廣泛。不同種類的中藥材特征差異顯著,但同一種藥材不同產(chǎn)地的差異不太顯著。目前對中藥材進(jìn)行鑒別分析一般采用近紅外或中紅外光譜分析方法[1-2]?;诩t外光譜特征對中藥材進(jìn)行鑒別,一般要先對光譜數(shù)據(jù)進(jìn)行降維處理,然后再聚類分析。光譜數(shù)據(jù)特征波數(shù)提取的方法有導(dǎo)數(shù)法、平滑法、傅里葉變換法、主成分分析法、偏最小二乘法等[2]。對中藥材分類識別的方法一般使用K均值聚類法、層次聚類法、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)等[3-4]。本研究選取2021年高教社杯全國大學(xué)生數(shù)學(xué)建模競賽[5]E題問題一的數(shù)據(jù),解決關(guān)于425個中藥材樣本的鑒別問題。這是一個無監(jiān)督的聚類問題,由于中藥材樣本之間的相似性非常高,且數(shù)據(jù)量大,若單純使用聚類算法較難實(shí)現(xiàn)對樣本數(shù)據(jù)的準(zhǔn)確分類,因此本文運(yùn)用主成分分析法結(jié)合模糊C均值聚類建立中藥材的鑒別模型,為識別中藥材提供快速有效的鑒別方法。
1? ? ?數(shù)據(jù)處理與分析
1.1? ?異常數(shù)據(jù)處理
本研究使用的數(shù)據(jù)來源于2021年全國大學(xué)生數(shù)學(xué)建模競賽E題的附件1,如表1所示。表1中No列為藥材編號,其余各列第一行的數(shù)據(jù)為光譜的波數(shù)(單位cm-1),第二行以后的數(shù)據(jù)表示該行編號的藥材在對應(yīng)波段光譜照射下的吸光度(單位AU)。表1中一共有425個樣本,3348個波段的中紅外光譜數(shù)據(jù),其光譜圖如圖1(a)所示。從圖1(a)看出,有3條光譜線(編號為64、136和201)的吸光度值明顯偏高,說明數(shù)據(jù)異常,可以剔除。剔除異常值之后的光譜圖如圖1(b)所示。下面將以圖1(b)中422個樣本數(shù)據(jù)作為研究對象。
1.2? ?相關(guān)性分析
由圖1(b)知,各種藥材之間具有一定的相關(guān)性。對剩下的422組數(shù)據(jù)進(jìn)行相關(guān)性分析,得出各藥材之間的相關(guān)性系數(shù)如表2所示。因篇幅有限,此處僅展示部分?jǐn)?shù)據(jù)。從表2可看出,有些藥材編號之間的相關(guān)系數(shù)達(dá)到0.98以上,說明具有較強(qiáng)的相關(guān)性,可以認(rèn)為是同種類型的藥材;有些藥材編號之間的相關(guān)系數(shù)在0.40以下,說明相關(guān)性較弱,可以認(rèn)為不是同種類型的藥材。
1.3? ?光譜特征數(shù)據(jù)的提取
從表2可看出,樣本之間存在一定的相關(guān)性,由于數(shù)據(jù)量大,不能用全部數(shù)據(jù)(會造成數(shù)據(jù)冗余)進(jìn)行研究,這就需要對樣本的光譜特征進(jìn)行提取。從圖1(b)可看出,在光譜的峰值附近,不同樣本的吸光度差異顯著,如在[652,1800]cm-1的光譜波數(shù)段;而在波數(shù)段[1800,2760]cm-1和[3700,3999]cm-1范圍內(nèi)不同樣本的吸光度差異較小。據(jù)此可利用吸光度差異明顯的波數(shù)段作為研究對象。5831760F-8CE3-4ADD-9B8A-586364E6592E
刻畫數(shù)據(jù)的離散程度可利用極差、四分位差和標(biāo)準(zhǔn)差等。下面通過計算每列波數(shù)下吸光度的極差、四分位差和標(biāo)準(zhǔn)差,取其極值處所在波數(shù)的子區(qū)間為特征波段,如圖2所示。最終提取了120列特征波數(shù)對應(yīng)的吸光度的數(shù)據(jù),大大降低了數(shù)據(jù)的維數(shù)(原先是3348列數(shù)據(jù))。
2? ? ?基于特征波數(shù)段數(shù)據(jù)的聚類模型
由于選取的特征波數(shù)段有120列,數(shù)據(jù)維數(shù)仍然很高。為了更好地對樣本數(shù)據(jù)進(jìn)行分類,本文采用主成分分析+模糊C均值聚類的建模方法進(jìn)行聚類分析,即先利用主成分分析進(jìn)一步降維,然后再進(jìn)行聚類分析。
2.1? ?主成分分析
主成分分析(PCA)[6-7]是一種重要的降維方法,其基本思想是借助一個正交變換,將具有一定相關(guān)性的原變量重新組合成一組線性無關(guān)的綜合變量,同時根據(jù)條件從中選取少數(shù)幾個綜合變量盡可能多地反映原來變量的信息,從而實(shí)現(xiàn)降維目的。具體計算步驟如下:
2.2? ?模糊C均值聚類
3? ? ?結(jié)果分析
3.1? ?主成分分析結(jié)果
以選取的120列特征波數(shù)作為觀測指標(biāo),進(jìn)行主成分分析,得到解釋的總方差如表3所示。表3中,第2和第3個主成分的累積貢獻(xiàn)率分別為94.6293%和98.5520%??紤]到數(shù)據(jù)的復(fù)雜性,本文選取前3個主成分進(jìn)行分析。
根據(jù)公式(3)可分別計算出每個主成分的得分,如表4所示。表4中,F(xiàn)1、F2、F3分別表示第一、第二和第三主成分得分。主成分的綜合得分F可由F1、F2、F3與每個主成分的方差貢獻(xiàn)率構(gòu)成的線性組合計算得到:
F=78.7052%F1+15.9241%F2+3.9228%F3?(7)
圖3是前2個主成分得分和前3個主成分得分圖。根據(jù)圖3結(jié)果,可考慮把422個樣本數(shù)據(jù)分為3類或4類。
3.2? ?模糊C均值聚類結(jié)果
下面以主成分的綜合得分F作為新的變量進(jìn)行模糊C均值聚類。根據(jù)圖3的提示,可考慮聚成3類或4類。為了更好地確定聚類數(shù),計算不同類別對應(yīng)的平均輪廓值和輪廓值分布圖,如圖4和圖5所示。在圖4中,類別數(shù)為2時,平均輪廓值最大,但分類太籠統(tǒng)。除類別數(shù)2之外,類別數(shù)為3時的平均輪廓值最大,說明類別數(shù)為3時較合適。另外從輪廓值的分布(圖5)來看,分成2類、4類和5類時的輪廓值分布都出現(xiàn)負(fù)值,而分成3類時輪廓值分布都是正值。綜合考慮圖4和圖5,可確定分成3類較合適。
設(shè)置分類數(shù)為3,利用模糊C均值聚類可得到圖6所示的聚類結(jié)果。從圖6可看出,聚類結(jié)果較為理想。第1類有193個樣本,第2類有118個樣本,第3類有111個樣本,具體聚類結(jié)果,如表5所示。
為了更好地看出每類的聚類效果,繪制了如圖7所示的3類光譜圖。從圖7可看出,第1類的主峰最大幅值在0.2 AU附近;第2類的主峰最大幅值在0.4 AU附近;第3類的主峰最大幅值在0.3 AU附近。每一類波形的幅值、峰的個數(shù)和形狀等差異明顯,說明每個樣本都較好地進(jìn)行了劃分。
4? ? ?結(jié)語
中藥材的鑒別是一個無監(jiān)督的聚類問題,雖然這類建模問題的解決方法較多,但該問題數(shù)據(jù)量大,數(shù)據(jù)冗余性高,若單獨(dú)使用聚類方法,較難給出合理的分類結(jié)果。本文首先根據(jù)光譜特征,利用極差、四分位差和標(biāo)準(zhǔn)差等實(shí)現(xiàn)對光譜特征數(shù)據(jù)的提取,其次應(yīng)用主成分分析進(jìn)一步降維,最后利用模糊C均值聚類給出合理的分類結(jié)果。該模型對中藥材鑒別工作具有很好的理論指導(dǎo)和實(shí)際應(yīng)用價值。
[參考文獻(xiàn)]
[1] 汪方舟.近紅外光譜建模法在中藥質(zhì)檢中的應(yīng)用[J].山東農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),2018,49(5):787-790.
[2] 周昭露,李杰,黃生權(quán),等.近紅外光譜技術(shù)在中藥質(zhì)量控制應(yīng)用中的化學(xué)計量學(xué)建模:綜述和展望[J].化工進(jìn)展,2016,35(6):1627-1645.
[3] 周婷,付紹兵,謝慧敏,等.近紅外光譜在川貝母及非川貝母品種鑒別中的應(yīng)用[J].華西藥學(xué)雜志,2021,36(2):193-197.
[4] 趙艷麗,張霽,袁天軍. 近紅外光譜快速鑒別不同產(chǎn)地藥用植物重樓的方法研究[J].光譜學(xué)與光譜分析,2014,34(7):1831-1835.
[5] 2021高教社杯全國大學(xué)生數(shù)學(xué)建模競賽賽題[EB/OL].http://www.mcm.edu.cn/html_cn/node/35bd4883c276afe39d
89.html,2021-10-01.
[6] 丁學(xué)利,曹文康,李玉葉.基于主成分回歸的顏色與物質(zhì)濃度辨識的研究[J].廊坊師范學(xué)院學(xué)報(自然科學(xué)版),2018,18(1):5-7+11.
[7] 彭文松.主成分聚類分析在廣東省區(qū)域經(jīng)濟(jì)綜合評價中的應(yīng)用[J].廊坊師范學(xué)院學(xué)報(自然科學(xué)版),2013,13(1):61-65.
[8] 楊桂元.數(shù)學(xué)建模[M].上海:上海財經(jīng)大學(xué)出版社,2015:112-117.
[9] 武艷,張莉莉,蔣志勛. 應(yīng)用模糊C 均值聚類法判別同調(diào)機(jī)群正確性研究[J].廊坊師范學(xué)院學(xué)報(自然科學(xué)版),2011,11(4):43-45.5831760F-8CE3-4ADD-9B8A-586364E6592E