基于拉曼光譜和DCGAN數(shù)據(jù)增強的珍珠粉摻偽檢測研究

2022-03-14 02:02:34談愛玲楚振原王曉斯

光譜學(xué)與光譜分析 2022年3期

談愛玲，楚振原，王曉斯，趙勇

1.燕山大學(xué)信息科學(xué)與工程學(xué)院，河北省特種光纖與光纖傳感重點實驗室，河北秦皇島 066004 2.燕山大學(xué)電氣工程學(xué)院，河北省測試計量技術(shù)及儀器重點實驗室，河北秦皇島 066004

引言

珍珠粉是將雙殼貝類動物受刺激所產(chǎn)的珍珠加工而制成的粉狀物。珍珠粉作為一種名貴中藥材，在藥用和美容方面都具有極高的價值，在中國已有兩千余年藥用歷史，具有治療潰瘍、養(yǎng)肝明目、輔助降壓、補充微量元素、潤膚祛斑之功效[1]。珍珠層粉則是珍珠母貝內(nèi)層經(jīng)粉碎磨細(xì)而成的粉狀物。兩者成分較相似，但因其內(nèi)部有機質(zhì)成分不同，因此藥用功效不同；此外，珍珠層粉制備比較容易，成本較低，常被不法商家用于冒充珍珠粉或摻入珍珠粉中，謀取利益。目前，珍珠粉和珍珠層粉的質(zhì)量鑒別多采用X射線衍射法、顯微紅外光譜、電感耦合等離子等分析方法[2-4]，這些方法通常需要進(jìn)行樣品熱處理、操作繁瑣、分析時間長。因此，對珍珠粉進(jìn)行快速、便捷的真?zhèn)舞b別和質(zhì)量評價具有重要的意義。

激光拉曼光譜是基于拉曼散射效應(yīng)的分子結(jié)構(gòu)表征技術(shù)，其譜線位置、譜帶強度等可反映物質(zhì)成分等信息，無需對樣品進(jìn)行前處理，具有操作簡便、測定時間短、靈敏度高等優(yōu)點，已經(jīng)廣泛應(yīng)用于諸多行業(yè)[5-7]。在中草藥產(chǎn)品分析和檢測領(lǐng)域，明晶等采用拉曼光譜技術(shù)對魚腦石、鵝管石、花蕊石、南寒水石4種中藥材進(jìn)行定性鑒別[8]。另外，拉曼光譜技術(shù)也可以實現(xiàn)中藥材的定量分析，王清蓉等采用拉曼光譜法對丹參根鮮樣的不同植物組織進(jìn)行原位檢測，發(fā)現(xiàn)丹參酮類成分的分布與周皮細(xì)胞顏色分布之間呈正相關(guān)特性[9]。

本文基于拉曼光譜結(jié)合深度學(xué)習(xí)方法對摻偽珍珠粉進(jìn)行檢測。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)訓(xùn)練，通常情況下需要對原始數(shù)據(jù)進(jìn)行擴(kuò)充[10]。Esben等針對一維光譜數(shù)據(jù)提出了左右平移、疊加噪聲和平移噪聲組合三種方法進(jìn)行增強[11]。Frédéric等提出相鄰像素法進(jìn)行拉曼光譜數(shù)據(jù)增強[12]。趙勇等提出線性疊加方法擴(kuò)充拉曼光譜數(shù)據(jù)[13]。目前的方法沒有充分利用原始樣本的內(nèi)部特征，導(dǎo)致增強的數(shù)據(jù)模型具有局限性。針對這一問題，本文提出基于深度卷積生成式對抗網(wǎng)絡(luò)(deep convolutional generative adversarial networks，DCGAN)的拉曼光譜數(shù)據(jù)增強方法，得到大量與原始光譜數(shù)據(jù)集獨立同分布的樣本，并在此基礎(chǔ)上結(jié)合一維卷積神經(jīng)網(wǎng)絡(luò)算法，建立摻偽珍珠粉真假鑒別的判別模型和純度定量分析模型，為拉曼光譜技術(shù)結(jié)合深度學(xué)習(xí)方法在摻偽珍珠粉檢測中的應(yīng)用提供科學(xué)依據(jù)。

1 實驗部分

實驗樣品珍珠粉(淡水)和珍珠層粉(淡水)均選購于北京同仁堂(亳州)飲片有限責(zé)任公司。將純珍珠粉與純珍珠層粉按一定比例混合以模擬摻雜珍珠層粉的摻偽珍珠粉，珍珠粉在摻偽樣本中的質(zhì)量分?jǐn)?shù)定義為珍珠粉純度。同時，將純珍珠粉純度定義為100%，純珍珠層粉純度定義為0%，摻偽樣本純度由摻雜比例計算得到，控制摻雜比例使摻偽樣本純度在25%～95%范圍內(nèi)按5%的純度梯度分布，因此共制得純度為0%，25%，50%，75%，80%，85%，90%，95%和100%共9種摻偽珍珠粉樣本。

實驗所用拉曼光譜儀型號為i-RAMAN?plus 785S，激發(fā)光源波長為785 nm，光譜范圍為166～2 851 cm-1，分辨率為4.5 cm-1，最大功率為300 mW。拉曼光譜采集激光功率設(shè)定為20 mW，積分時間設(shè)為3 000 ms，為避免雜散光影響，全部測量在暗室內(nèi)進(jìn)行。每種純度配置30個樣本，共采集270個拉曼光譜，每個樣本采集3次光譜取平均值。9種純度樣本原始平均拉曼光譜如圖1(a)所示。光譜信號的預(yù)處理可消除環(huán)境噪聲、熒光背景等多種干擾因素的影響，提高定性分析和定量模型結(jié)果的穩(wěn)定性。本文采用基線校正與平滑濾波對所有樣本的拉曼光譜進(jìn)行預(yù)處理，預(yù)處理后拉曼光譜如圖1(b)所示。

圖1 樣本的平均拉曼光譜圖(a)：原始光譜；(b)：預(yù)處理后的光譜Fig.1 Mean Raman spectra of the samples(a)：Original spectra；(b)：Spectra with pretreatment

由圖1(a)可以看出，所有樣本在203.92，703.20與1 083.89 cm-1處具有強度較高的特征峰，包含豐富的所含成分信息。純珍珠粉拉曼光譜的熒光背景最低，純珍珠層粉拉曼光譜熒光背景最高，隨著摻偽比例的增加，拉曼光譜的熒光背景逐漸增高。由圖1(b)可以看出，純珍珠粉的拉曼信號強度最大，隨著摻偽比例的上升，樣本信號強度總體呈下降趨勢。另外，純珍珠層粉在更多拉曼位移處有特征峰，是珍珠層粉與珍珠粉有機質(zhì)成分不同所導(dǎo)致。

2 深度卷積生成式對抗神經(jīng)網(wǎng)絡(luò)

2.1 生成式對抗網(wǎng)絡(luò)基本理論

蒙特利爾大學(xué)的Coodfellow等在2014年提出的生成式對抗網(wǎng)絡(luò)(generative adversarial net,GAN)是生成效果非常好的一種網(wǎng)絡(luò)模型[14]。GAN主要由生成器與判別器組成，具體執(zhí)行流程如圖2所示。

圖2 生成式對抗網(wǎng)絡(luò)流程圖Fig.2 Generative adversarial network flow chart

首先，設(shè)置一個輸入噪聲z，噪聲符合隨機分布，然后通過生成器生成新的數(shù)據(jù)。生成器G的計算公式如式(1)所示

(1)

式(1)中，E為數(shù)學(xué)期望，Pz(z)為高斯噪聲分布，D(G(z))為判別器對于輸入偽造樣本的輸出概率。訓(xùn)練的目的是讓G的值盡可能的小。生成器生成的新數(shù)據(jù)與原始數(shù)據(jù)Pdata(x)輸送到判別器D當(dāng)中，由判別器分辨生成數(shù)據(jù)的真?zhèn)?，判別器D的計算公式如式(2)所示

Ez～Pz(z)[log(1-D(G(z)))]

(2)

式(2)中，D(x)為判別器對于輸入真實樣本的輸出概率。判別器D的值越大，說明生成的光譜數(shù)據(jù)越“逼真”。GAN的訓(xùn)練方式是使生成器生成的數(shù)據(jù)盡可能地“欺騙”過判別器，如果判別器不能區(qū)別原始數(shù)據(jù)與生成數(shù)據(jù)，則證明生成的數(shù)據(jù)具有“真實性”。同時，判別器也會調(diào)整自身的判別能力，與生成器形成一種對抗博弈關(guān)系。其理論公式如式(3)所示

Ez～Pz(z)[log(1-D(G(z)))]

(3)

由式(3)可以看出，對于判別器來說，它需要使得V(D,G)獲得最大值，那么就需要最大化D(x)，并且最小化D(G(z))；對于生成器來說，它需要使得V(D,G)獲得最小值，那么它只與等式右邊第二項有關(guān)，即其只需最大化D(G(z))。

2.2 深度卷積生成式對抗網(wǎng)絡(luò)模型的搭建

本文在生成式對抗網(wǎng)絡(luò)模型基礎(chǔ)上，增加1維卷積核、LeakyReLU激活函數(shù)和最大池化層等組成部分，構(gòu)建深度卷積生成式對抗網(wǎng)絡(luò)。深度卷積生成式對抗神經(jīng)網(wǎng)絡(luò)主要由隨機噪聲、生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)、全連接層與激活函數(shù)構(gòu)成，具體模型結(jié)構(gòu)如圖3所示。

圖3 深度卷積生成式對抗網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 DCGAN structure diagram

首先，在生成網(wǎng)絡(luò)模型中輸入疊加100維隨機噪聲的原始數(shù)據(jù)，該數(shù)據(jù)經(jīng)過全連接層，并經(jīng)標(biāo)準(zhǔn)化，目的是更容易正確地收斂數(shù)據(jù)從而得到最優(yōu)解。然后，將標(biāo)準(zhǔn)化的數(shù)據(jù)輸入給第一層的卷積核、ReLU激活函數(shù)與上采樣，得到的數(shù)據(jù)再次輸入第二層、第三層，最終傳遞給tanh激活函數(shù)。模型具體參數(shù)配置如表1所示。

表1 生成網(wǎng)絡(luò)參數(shù)Table 1 Parameters of generate network

判別器具有判別生成數(shù)據(jù)與原始數(shù)據(jù)的作用，主要由3個卷積層、3個LeakyReLU激活函數(shù)，3個最大池化層組成，最終通過sigmoid激活函數(shù)判別生成數(shù)據(jù)與原始數(shù)據(jù)的差異。具體參數(shù)設(shè)置如表2所示。

表2 判別網(wǎng)絡(luò)參數(shù)Table 2 Parameters of discriminating network

本文采用Adam優(yōu)化器，學(xué)習(xí)率設(shè)為0.000 2，Batch Size大小設(shè)為50，迭代訓(xùn)練次數(shù)設(shè)為200。針對9種不同純度的樣本基于深度卷積生成式對抗網(wǎng)絡(luò)進(jìn)行光譜數(shù)據(jù)增強，每種純度的樣本擴(kuò)充到1 000個。

3 結(jié)果與討論

3.1 基于DCGAN的拉曼光譜增強結(jié)果分析

實際中，不法廠家通常在小比例范圍內(nèi)摻偽純珍珠粉，目的是欺瞞質(zhì)檢部門從而謀取非法利潤。因此本文選取100%，95%，90%與85%的4種純度的樣本進(jìn)行珍珠粉真?zhèn)舞b別定性分析。每種樣本隨機選取20條原始拉曼光譜與基于DCGAN增強生成的拉曼光譜，其平均值結(jié)果分別如圖4(a)和(b)所示。

由圖4可知，基于DCGAN增強生成的拉曼光譜與原始的拉曼光譜并不相同，原因是生成式對抗神經(jīng)網(wǎng)絡(luò)在原始的歸一化光譜中疊加了隨機噪聲，使得擴(kuò)充后的光譜數(shù)據(jù)具備良好的多樣性。本文采用峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity,SSIM)指標(biāo)來評價原始光譜與生成光譜數(shù)據(jù)的相似性，檢驗生成數(shù)據(jù)效果。

圖4 原始光譜與基于DCGAN增強的生成光譜(a)：原始光譜；(b)：生成光譜Fig.4 Original spectrum and generated spectrum based on DCGAN(a)：Original spectra；(b)：Generated spectra

PSNR計算生成拉曼信號與原始拉曼信號的差異來反應(yīng)二者失真程度，單位為dB，其值越大，表示兩種數(shù)據(jù)越接近，計算如式(4)所示

(4)

式(4)中，Imax和Imin分別是原始拉曼信號強度的最大值和最小值，MSE指均方誤差(mean square error,MSE)，是生成光譜和原始光譜對應(yīng)拉曼強度差平方和的均值，計算如式(5)所示

(5)

式(5)中，H為拉曼信號數(shù)量，x(i)和y(i)分別為第i個拉曼位移處原始信號和生成信號的強度值。

SSIM是從結(jié)構(gòu)來衡量原始和生成拉曼光譜信號x和y之間的結(jié)構(gòu)相似度，計算公式如式(6)所示

(6)

式(6)中，σx和σy分別為原始光譜和生成光譜的方差，c為常數(shù)，γ是大于0的數(shù)值，通常取1。該指標(biāo)通常是介于0 和1 之間的一個數(shù)值，其值越趨近于 1，表示兩種光譜在結(jié)構(gòu)上越相似。

針對100%，95%，90%和85%這4種摻偽比例較小的珍珠粉樣本，分別采用左右平移、疊加噪聲及平移噪聲三種數(shù)據(jù)增強方法和本文提出的DCGAN數(shù)據(jù)增強方法，采用PSNR和SSIM兩個評價指標(biāo)，相似性分析對比結(jié)果如表3所示。

由表3可知，對于四種純度的摻偽珍珠粉樣本拉曼光譜，基于DCGAN數(shù)據(jù)增強方法所生成的光譜，與原始光譜作比較，在峰值信噪比和結(jié)構(gòu)相似度指標(biāo)上均明顯優(yōu)于其他三種傳統(tǒng)數(shù)據(jù)增強方法所得結(jié)果，PSNR值均是最大，SSIM值均最接近1。結(jié)果表明深度卷積生成式對抗神經(jīng)網(wǎng)絡(luò)可以對摻偽珍珠粉樣本拉曼光譜進(jìn)行增強，同時增強后數(shù)據(jù)具有多樣性。

表3 基于傳統(tǒng)數(shù)據(jù)增強和DCGAN增強方法所生成光譜與原始光譜相似性評價Table 3 Similarity evaluation between the spectra generated by traditional data enhancement and DCGAN enhancement methods and the original spectra

3.2 基于DCGAN光譜增強的摻偽珍珠粉真假鑒別

基于DCGAN方法對樣本的拉曼光譜進(jìn)行數(shù)據(jù)增強后，將4種純度共120個摻偽珍珠粉樣本數(shù)據(jù)集隨機劃分為訓(xùn)練集和測試集，其中訓(xùn)練集樣本72個，測試集樣本48個。然后，分別結(jié)合K近鄰(K-nearest neighbor，KNN)、隨機森林(random forest)、決策樹(decision tree)和一維卷積神經(jīng)網(wǎng)絡(luò)(one-dimensional convolution neural network,1DCNN)四種分類算法，建立珍珠粉真?zhèn)舞b別的分類模型。同時，為了驗證本文提出的深度卷積生成式對抗神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)增強效果，建立基于左右平移、疊加噪聲以及平移與噪聲組合的三種數(shù)據(jù)增強方法的定性分析結(jié)果。四種光譜數(shù)據(jù)增強方法結(jié)合四種分類算法的摻偽珍珠粉真假鑒別模型的分類正確率對比結(jié)果如表4所示。

表4 摻偽珍珠粉真假鑒別正確率結(jié)果對比Table 4 Comparison of the identification results of adulterated pearl powder

由表4可知，基于DCGAN方法對摻偽珍珠粉拉曼光譜擴(kuò)充的數(shù)據(jù)集，在分別結(jié)合KNN，random forest,decision tree與1DCNN四種分類算法時，所建模型的分類正確率均可以達(dá)到100%，優(yōu)于基于左右平移、疊加噪聲以及平移噪聲組合數(shù)據(jù)增強方法結(jié)合四種分類算法的分類正確率。此外，傳統(tǒng)左右平移和疊加噪聲等數(shù)據(jù)增強方法數(shù)據(jù)擴(kuò)充所需時間較長，相比而言，深度卷積生成式對抗神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)增強方法在建立模型的正確率和數(shù)據(jù)擴(kuò)充效率上具有明顯優(yōu)勢。

3.3 基于DCGAN光譜增強的摻偽珍珠粉定量分析

本文基于深度卷積生成式對抗神經(jīng)網(wǎng)絡(luò)光譜數(shù)據(jù)增強方法，結(jié)合一維卷積神經(jīng)網(wǎng)絡(luò)算法，建立了9種純度的摻偽珍珠粉樣本的純度定量回歸模型，并與基于左右平移、疊加噪聲以及平移+噪聲三種傳統(tǒng)數(shù)據(jù)增強方法所建定量模型結(jié)果進(jìn)行對比。將270個摻偽珍珠粉樣本數(shù)據(jù)集隨機劃分為訓(xùn)練集和測試集，其中訓(xùn)練集樣本162個，測試集樣本108個。采用測試集決定系數(shù)(coefficient of determination,R2)和預(yù)測均方根誤差(root mean square error of prediction，RMSEP)作為定量模型評估指標(biāo)。R2值越接近1，模型的擬合效果越好；RMSEP值越小，模型預(yù)測準(zhǔn)確度越高。此外一維卷積神經(jīng)網(wǎng)絡(luò)模型的損失值反映樣本預(yù)測純度與真實純度的差距，其值越小，表示預(yù)測純度與真實純度越接近。4種數(shù)據(jù)增強方法分別結(jié)合1DCNN算法所建定量模型指標(biāo)對比結(jié)果如表5所示。

表5 不同數(shù)據(jù)增強方法結(jié)合1DCNN算法所建定量模型結(jié)果對比Table 5 Comparison of quantitative models built by different data enhancement methods combined with 1DCNN

由表5可知，基于DCGAN-1DCNN方法所建摻偽珍珠粉定量分析模型，對于測試集樣本，其決定系數(shù)R2為0.988 4，均方根誤差RMSEP為0.034 8，一維卷積神經(jīng)網(wǎng)絡(luò)的損失值Loss為0.001 2，定量模型擬合度最高。模型性能明顯優(yōu)于其他三種數(shù)據(jù)增強方法結(jié)合一維卷積神經(jīng)網(wǎng)絡(luò)所建定量模型。

針對測試集樣本，基于DCGAN、左右平移、疊加噪聲以及平移+噪聲四種數(shù)據(jù)增強方法結(jié)合1DCNN算法所建定量模型的預(yù)測純度與真實純度相關(guān)曲線分別如圖5(a)，(b)，(c)和(d)所示。從圖5可以清晰地看出：基于DCGAN-1DCNN方法所建摻偽珍珠粉定量模型的預(yù)測純度與真實純度非常接近，預(yù)測精度最優(yōu)。

圖5 不同數(shù)據(jù)增強方法結(jié)合1DCNN算法所建定量模型真實純度與預(yù)測純度相關(guān)曲線(a)：DCGAN-1DCNN；(b)：疊加噪聲-1DCNN；(c)：左右平移-1DCNN；(d)：噪聲+平移-1DCNNFig.5 Correlation curve between real and predicted purity of quantitative models built by different data enhancement methods combined with 1DCNN(a):DCGAN-1DCNN；(b):Noise addition-1DCNN；(c):Translation-1DCNN；(d):Noise+Translation-1DCNN

4 結(jié) 論

將激光拉曼光譜和深度學(xué)習(xí)數(shù)據(jù)增強應(yīng)用于珍珠粉摻偽的定性鑒別和純度定量回歸分析。針對拉曼光譜數(shù)據(jù)不足的問題，提出一種基于深度卷積生成式對抗神經(jīng)網(wǎng)絡(luò)光譜數(shù)據(jù)增強方法，并結(jié)合一維卷積神經(jīng)網(wǎng)絡(luò)建立珍珠粉摻偽的定性和定量分析模型。結(jié)果表明基于DCGAN數(shù)據(jù)增強方法擴(kuò)充的光譜數(shù)據(jù)與原始數(shù)據(jù)相比，PSNR和SSIM性能指標(biāo)優(yōu)于傳統(tǒng)數(shù)據(jù)增強方法；DCGAN結(jié)合四種分類器對小比例摻偽珍珠粉樣本的分類正確率均達(dá)到100%；DCGAN-1DCNN方法所建立的摻偽珍珠粉純度預(yù)測模型，測試集決定系數(shù)R2和均方根誤差RMSEP均優(yōu)于傳統(tǒng)數(shù)據(jù)增強方法所建模型結(jié)果，預(yù)測純度與真實純度非常接近。深度卷積對抗式神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)增強方法具有精度高、抗干擾性好、簡便快速等優(yōu)點，為深度學(xué)習(xí)在光譜數(shù)據(jù)分析領(lǐng)域應(yīng)用提供了新思路。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡