基金項(xiàng)目 北京市屬高校教師隊(duì)伍建設(shè)支持計(jì)劃高水平科研創(chuàng)新團(tuán)隊(duì)項(xiàng)目(BPHR20220104)。
作者簡介 陳思維(2003—),男,吉林長春人,從事機(jī)器學(xué)習(xí)研究。
通信作者 顏文婧(1985—),女,安徽淮南人,博士,副教授,從事生物信息智能處理、圖像信號處理、機(jī)器學(xué)習(xí)和模式識別研究。
收稿日期 2024-04-30
摘要 為滿足消費(fèi)市場上不斷增長的有機(jī)番茄食用與鑒別需求,基于質(zhì)譜檢測數(shù)據(jù),本文研究了一種有機(jī)番茄快速鑒別深度學(xué)習(xí)模型。首先,模型使用無監(jiān)督降維方法對原始質(zhì)譜檢測數(shù)據(jù)進(jìn)行降維,提取關(guān)鍵信息;其次,使用長短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)和Transformer網(wǎng)絡(luò)提取序列信息特征;最后,利用反向傳播(Back propagation,BP)神經(jīng)網(wǎng)絡(luò)構(gòu)建分類器,實(shí)現(xiàn)面向有機(jī)及非有機(jī)番茄的精準(zhǔn)識別。模型識別準(zhǔn)確率在訓(xùn)練集上表現(xiàn)為98.437%,在測試集上表現(xiàn)為97.478%。結(jié)果表明,模型在有機(jī)及非有機(jī)番茄質(zhì)譜快速檢測識別任務(wù)上具有一定應(yīng)用潛力,可部分滿足有機(jī)番茄市場的發(fā)展需求,為有機(jī)番茄鑒別提供一定參考。
關(guān)鍵詞 深度學(xué)習(xí);有機(jī)番茄;降維;神經(jīng)網(wǎng)絡(luò);長短期記憶網(wǎng)絡(luò)
中圖分類號 TP391.4;S641.2"" 文獻(xiàn)標(biāo)識碼 A
文章編號 1007-7731(2024)13-0095-08
Organic tomatoes identification based on deep learning framework
CHEN Siwei1""" LI Jialu2""" LU Zhe2""" YAN Wenjing2
(1School of Light Industry Science and Engineering, Beijing Technology and Business University, Beijing 100048, China;
2School of Computer and Artificial Intelligence, Beijing Technology and Business University, Beijing 100048, China)
Abstract In order to satisfy the growing demand for organic tomatoes consumption and identification in the consumer market, a deep learning model for rapid identification of organic tomatoes was researched based on mass spectrometry detection data. Firstly, the model used the unsupervised dimensionality reduction method to reduce the dimensionality of the original mass spectrometry detection data and extract key information. Secondly, long short-term memory (LSTM) and Transformer network were used to extract sequence information features. Finally, back propagation(BP) neural network was used to construct classifiers to achieve accurate recognition of organic and non-organic tomatoes. The recognition accuracy of the model was 98.437% on the training set and 97.478% on the test set. The results indicated that the model had potential for application in the rapid detection and identification of organic and non-organic tomatoes mass spectrometry tasks, which could partly meet the development needs of the organic tomatoes market and provide references for the identification of organic tomatoes.
Keywords deep learning; organic tomatoes; dimensionality reduction; neural networks; long short-term memory
番茄具有多種對人體有益的營養(yǎng)物質(zhì),如抗壞血酸、煙酸、番茄紅素、β-胡蘿卜素和槲皮素等[1]。在農(nóng)業(yè)生產(chǎn)中施用部分農(nóng)用化學(xué)品可以適當(dāng)提高番茄生產(chǎn)率,也可能會影響番茄的礦物質(zhì)和代謝物含量[2]。有機(jī)番茄是指在種植、管理和收獲過程中遵循有機(jī)農(nóng)業(yè)標(biāo)準(zhǔn)種植的番茄。由于其生產(chǎn)過程中不使用化肥、農(nóng)藥和轉(zhuǎn)基因等農(nóng)用化學(xué)物質(zhì)[1],其營養(yǎng)成分含量相對較高[3],具有更好的口感。近年來,消費(fèi)者對有機(jī)番茄的需求量越來越高,有機(jī)番茄的市場價(jià)格高于普通番茄,市面上存在部分利用普通番茄冒充有機(jī)番茄的現(xiàn)象,因此,研究快捷實(shí)時(shí)的有機(jī)番茄鑒別技術(shù)具有重要的現(xiàn)實(shí)意義。
使用質(zhì)譜儀(Mass spectrometer,MS)可以獲取農(nóng)作物中的化合物信息[4],進(jìn)而對農(nóng)作物進(jìn)行安全和質(zhì)量分析[5]。許多研究結(jié)合MS數(shù)據(jù)與機(jī)器學(xué)習(xí)(Machine learning,ML)算法,面向食品領(lǐng)域類別的識別、摻假檢測等問題構(gòu)建了智能鑒別模型。例如,Gredell等[6]基于快速蒸發(fā)電離質(zhì)譜法(Rapid evaporative ionization mass spectrometry,REIMS)數(shù)據(jù)采用隨機(jī)森林(Random forest,RF)等8種機(jī)器學(xué)習(xí)算法對牛肉質(zhì)量屬性進(jìn)行預(yù)測,實(shí)現(xiàn)了牛肉質(zhì)量屬性的準(zhǔn)確分類。Lim等[7]基于直接輸注質(zhì)譜數(shù)據(jù)(Direct infusion-mass spectrometry,DI-MS),構(gòu)建RF和帶徑向基函數(shù)核的支持向量機(jī)(Support vector machine,SVM)模型,實(shí)現(xiàn)了對大米的高精度鑒別。
在有機(jī)番茄鑒別領(lǐng)域,研究者也提出了相關(guān)的機(jī)器學(xué)習(xí)模型,比如,王世成等[8]采用基于穩(wěn)定同位素比例質(zhì)譜和液相色譜—高分辨質(zhì)譜(Liquid chromatography-high resolution mass spectrometry,LC-HRMS)分析技術(shù),篩選有機(jī)番茄的標(biāo)志因子,并結(jié)合偏最小二乘法判別分析方法構(gòu)建模型(Partial least squares discriminant analysis,PLS-DA)實(shí)現(xiàn)了面向有機(jī)番茄的智能鑒別。De等[9]開發(fā)了一種基于質(zhì)譜—機(jī)器學(xué)習(xí)技術(shù)的番茄分類方法,包括質(zhì)譜數(shù)據(jù)提取、數(shù)據(jù)歸一化和去噪,通過決策樹算法自適應(yīng)增強(qiáng)(Adaptive boosting,ADAboost)構(gòu)建了分類模型,對質(zhì)譜數(shù)據(jù)進(jìn)行分類,確定潛在的生物標(biāo)志物。該模型能夠準(zhǔn)確地將番茄樣品分類為有機(jī)和非有機(jī)。
機(jī)器學(xué)習(xí)方法在農(nóng)作物智能識別領(lǐng)域的應(yīng)用潛力較大[10],實(shí)踐中,部分研究方法是對MS數(shù)據(jù)進(jìn)行分析,獲取關(guān)鍵的差異代謝化合物碎片數(shù)據(jù),在代謝化合物分析的基礎(chǔ)上構(gòu)建智能模型。由于差異代謝物分析耗費(fèi)時(shí)間較長,難以滿足快速、實(shí)時(shí)的檢測需求。因此,本研究提出一種基于深度學(xué)習(xí)的檢測方法,利用番茄的原始MS數(shù)據(jù)構(gòu)建深度學(xué)習(xí)模型,實(shí)現(xiàn)面向有機(jī)番茄的快速識別。首先,基于大量有機(jī)及非有機(jī)番茄MS數(shù)據(jù),使用統(tǒng)一流形逼近與投影(Uniform manifold approximation and projection,UMAP)技術(shù),以非監(jiān)督降維算法提取MS數(shù)據(jù)中的重要信號特征;其次,基于LSTM和以注意力機(jī)制為核心算法的Transformer網(wǎng)絡(luò)構(gòu)建深度學(xué)習(xí)模型,以捕捉特征序列中的長短依賴特征,實(shí)現(xiàn)面向有機(jī)及非有機(jī)番茄的快速識別。
1 材料與方法
1.1 數(shù)據(jù)準(zhǔn)備
本研究采用De等[9]提供的公開數(shù)據(jù)集。該數(shù)據(jù)集中的MS數(shù)據(jù)采集于160個(gè)成熟番茄果實(shí),其中有機(jī)組80個(gè),由某有機(jī)農(nóng)業(yè)合作社提供,該社種植的各種作物在生長過程中均不使用任何農(nóng)藥;非有機(jī)組80個(gè),采購自各地的農(nóng)貿(mào)市場,這些番茄在種植過程中均使用過農(nóng)藥。
番茄果實(shí)的樣品制備如下。首先,將果實(shí)在莖瘢痕區(qū)切成X形,與花梗相連。然后,將1 cm2的硅膠片60 G(默克公司,達(dá)姆施塔特,德國)放在切處,壓在番茄上30 s(所有番茄在實(shí)驗(yàn)前均不進(jìn)行任何清洗或處理)。30 s之后,將硅膠板放置在塑料管中。隨后在試管中裝入400 μL的MilliQ水溶液(MilliQ水∶甲醇=1∶1),漩渦振蕩1 min后靜置10 min,得上清液。最后,取250 μL的上清液,用甲酸(0.1%)電離后進(jìn)行分析。
在每天內(nèi)和每日間隨機(jī)對樣品高分辨率MS數(shù)據(jù)進(jìn)行采集。采集過程:直接注入HESI-Q-Exactive軌道rap質(zhì)譜儀(Thermo scientific,Bremen,Germany),質(zhì)量分辨率設(shè)置為140 000 FWHM,用于正離子模式下的數(shù)據(jù)采集。MS參數(shù):m/z范圍為150~1 700,每個(gè)樣品進(jìn)行10次光譜采集,每次光譜進(jìn)行40次掃描,流動注射速率10 μL/min,氮?dú)馇蕷饬髁繛?個(gè)單位,輔助氣體加熱器溫度30 ℃,毛細(xì)管溫度320 ℃,噴涂電壓3.70 kV,自動增益控制(Automatic gain control,AGC)目標(biāo)值設(shè)置為106、射頻透鏡(RF-lens)設(shè)置為50。對80個(gè)有機(jī)組番茄果實(shí)和80個(gè)非有機(jī)組番茄果實(shí)進(jìn)行光譜采集,共獲取1 600條光譜數(shù)據(jù),數(shù)據(jù)采集結(jié)果如圖1所示。
1.2 算法設(shè)計(jì)
1.2.1 特征降維" 番茄MS數(shù)據(jù)集是高度非線性數(shù)據(jù)空間,為提高數(shù)據(jù)分析效率及分析結(jié)果的準(zhǔn)確性,采用非監(jiān)督數(shù)據(jù)降維算法提取關(guān)鍵信息。使用主成分分析(Principal component analysis,PCA)技術(shù)、t分布、隨機(jī)近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)以及UMAP對數(shù)據(jù)分別進(jìn)行降維分析,以選取效果較好的降維方法。算法框架如圖2所示。
(1)PCA降維。PCA是一種經(jīng)典的無監(jiān)督學(xué)習(xí)算法,用于降低高維數(shù)據(jù)的復(fù)雜性并發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu)。在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)中,PCA被廣泛應(yīng)用于數(shù)據(jù)預(yù)處理、特征提取和可視化等領(lǐng)域。該方法可對高維數(shù)據(jù)進(jìn)行分析,并從中捕獲重要信息,通過線性變換,將原始數(shù)據(jù)投影到一個(gè)新的特征空間,使得投影后的特征具有最大的方差,從而捕捉數(shù)據(jù)中的主要變化模式。通過計(jì)算協(xié)方差矩陣的特征向量和特征值以進(jìn)行識別,稱為主成分的新特征,實(shí)現(xiàn)對原始維度特征的重構(gòu),從而達(dá)到縮小數(shù)據(jù)空間以及加快算法計(jì)算速度的效果。
(2)t-SNE降維。t-SNE是一種非線性、無監(jiān)督和基于流形的特征提取方法,用于數(shù)據(jù)探索和高維數(shù)據(jù)可視化。通過將高維數(shù)據(jù)點(diǎn)映射到低維空間(通常是二維或三維)來實(shí)現(xiàn)。這種映射過程使得在高維空間中相距較近的數(shù)據(jù)點(diǎn)在低維空間中保持相對的近距離,而相距較遠(yuǎn)的數(shù)據(jù)點(diǎn)在低維空間中保持較遠(yuǎn)的距離。
(3)UMAP降維。UMAP是一種基于黎曼幾何和代數(shù)拓?fù)淅碚摱鴺?gòu)建的數(shù)據(jù)降維算法,依據(jù)高維空間映射到低維空間的相似度理論對高維數(shù)據(jù)進(jìn)行降維。通過優(yōu)化流形學(xué)習(xí)的方法來實(shí)現(xiàn)數(shù)據(jù)的降維,利用局部鄰域的連通性來創(chuàng)建一種低維表示,該表示盡可能地保持原始高維空間中數(shù)據(jù)點(diǎn)之間的距離關(guān)系。不僅能夠有效地捕捉數(shù)據(jù)中的非線性結(jié)構(gòu),還能夠處理大規(guī)模數(shù)據(jù)集,并在保留全局結(jié)構(gòu)的同時(shí)明顯減少降維后的計(jì)算復(fù)雜度。
1.2.2 特征提取" 采用LSTM和Transformer的方法進(jìn)行特征提取。
(1)LSTM。LSTM能夠避免長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題,更好地捕捉序列之間的依賴關(guān)系。LSTM模型的核心是細(xì)胞狀態(tài),通過遺忘門、輸入門和輸出門刪除或添加信息到細(xì)胞狀態(tài),分別確定t時(shí)刻細(xì)胞狀態(tài)的保留信息和輸入的保留信息。
LSTM模型構(gòu)建了[Ct、Ct?1和Ct],其分別表示當(dāng)前狀態(tài)、先前狀態(tài)和臨時(shí)狀態(tài)。在學(xué)習(xí)過程中,[?t]和[?t?1]分別表示當(dāng)前隱藏狀態(tài)和先前隱藏狀態(tài)。模型使用遺忘門[ft]、記憶門[it]和輸出門[ot]實(shí)現(xiàn)面向信息的學(xué)習(xí),具體如下。
[ft=σWfxt+Wf?t?1+bf] (1)
[it=σWixt+Wi?t?1+bi] (2)
[ot=σWoxt+Wo?t?1+bo] (3)
[Ct=ft×Ct?1+it×Ct] (4)
[Ct=tanhWCxt+WC?t?1+bC] (5)
對于LSTM的隱藏狀態(tài)[?t],定義如下。
[?t=ot×tanhCt] (6)
式(1—6)中,[Wf、Wi、Wo和WC]分別表示遺忘門、記憶門、輸出門和當(dāng)前細(xì)胞狀態(tài)的權(quán)重矩陣;[bf、bi、bo和bC]分別表示遺忘門、記憶門、輸出門和當(dāng)前細(xì)胞狀態(tài)的偏移向量;[tanh]為激活函數(shù)。
(2)Transformer。Transformer通過注意力機(jī)制提高模型的訓(xùn)練速度,具有更好的并行性能。模型將給定的番茄MS數(shù)據(jù)降維后的特征視為整體,并融合位置編碼,以捕獲特征信息之間的依賴,提取數(shù)據(jù)的整體和局部特征。
Transformer模型的核心是多頭注意力機(jī)制,通過構(gòu)建Query、Key和Value矩陣[Q]、[K]和[V],對特征序列[X=x1, x2, ..., xn]進(jìn)行計(jì)算處理。多頭注意力機(jī)制的定義如下。
[MultiHeadQ, K, V=Concat?ead1, ?ead2, …, ?eadi]"""""""""""""""""""""""""" [Wo] (7)
[?eadi=AttentionQWqi, KWki, VWvi] (8)
[AttentionQ, K, V=softmaxQKTdkV] (9)
式(7—9)中,[Wo、Wq、Wk和Wv]為線性投影的權(quán)重參數(shù)。
Transformer使用殘差與歸一化層(Layer normalization)對注意力大小進(jìn)行縮放,以避免梯度消失,同時(shí)調(diào)整輸入數(shù)據(jù)的均值和方差,加快收斂速度。歸一化層的輸出記為[L],具體如式(10)所示。
[L=LayerNormX+MultiHeadQ, K, V] (10)
模型將L傳遞至前饋網(wǎng)絡(luò)層,該層包括一個(gè)雙層的全連接網(wǎng)絡(luò)和一個(gè)非線性激活函數(shù)。雙層的全連接網(wǎng)絡(luò)實(shí)現(xiàn)兩次線性變換,第一層使用激活函數(shù),第二層不使用激活函數(shù)。前饋網(wǎng)絡(luò)的輸出記為[FFNL],具體如式(11)所示。
[FFNL=σXW1+b1W2+b2] (11)
式(11)中,[σ]為激活函數(shù),[W1、b1、W2和b2]為可學(xué)習(xí)的參數(shù)矩陣。
1.2.3 分類器設(shè)置" 分類器采用BP神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)基于反向誤差傳播訓(xùn)練模型,模型由輸入層、隱藏層和輸出層組成。
BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),可以實(shí)現(xiàn)從輸入到輸出的復(fù)雜映射,由輸入層、隱藏層和輸出層組成。數(shù)據(jù)首先從輸入層傳遞至隱藏層,然后通過輸出層輸出,輸入層的輸出表示如式(12)。
[a1i=f1j=1nw1ijpj+b1i, i=1, 2, …, n] (12)
輸出層的輸出表示如式(13)。
[a2k=f2w2kipi+b2k," k=1, 2, …, m] (13)
式(12—13)中,[pj]是輸入層第[j]個(gè)神經(jīng)元的輸入,[a1i]是包含第[i]個(gè)節(jié)點(diǎn)的隱藏層的輸出;[a2k]是輸出層節(jié)點(diǎn)[k]的輸出;[w1ij]是第[i]、 [j]個(gè)節(jié)點(diǎn)的連接權(quán)重;[w2ki]是第[i]、[k]個(gè)節(jié)點(diǎn)的連接權(quán)重;[b1i]和[b2k]分別為隱藏層第[i、j]個(gè)節(jié)點(diǎn)的閾值;[f1]、[f2]分別是隱藏層和輸出層的傳遞函數(shù);[n]和[m]分別是輸入層節(jié)點(diǎn)和輸出層節(jié)點(diǎn)的數(shù)量。
最后一層輸出結(jié)果通過[Sigmoid]函數(shù)映射至(0,1)區(qū)間。BP神經(jīng)網(wǎng)絡(luò)基于誤差的反向傳播算法進(jìn)行訓(xùn)練,通過梯度下降法不斷調(diào)整網(wǎng)絡(luò)的權(quán)重和閾值,使輸出值[yi]逐漸接近參考值[yi]。損失函數(shù)采用交叉熵定義。
[L=?yilogy+(1?yi)log(1?y)] (14)
式(14)中,[yi]是真實(shí)標(biāo)簽;[y]是模型預(yù)測為正類的概率。
神經(jīng)網(wǎng)絡(luò)誤差是在設(shè)定的學(xué)習(xí)次數(shù)內(nèi)繼續(xù)進(jìn)行信息前向傳播和誤差反向傳播的過程,當(dāng)誤差達(dá)到指定范圍時(shí)停止。
1.3 實(shí)驗(yàn)平臺選擇
實(shí)驗(yàn)依賴的編譯環(huán)境為Python 3.8,操作系統(tǒng)為Windows 10。計(jì)算機(jī)處理器為Intel(R)Core(TM) i5-11400F,主頻2.60 GHz;內(nèi)存16 GB;顯卡使用NVIDIA GeForce RTX 3050,顯存容量8 GB;使用CUDA進(jìn)行加速訓(xùn)練。
2 模型分類評價(jià)標(biāo)準(zhǔn)
為了對算法的分類效果進(jìn)行定量分析,本文采取以下指標(biāo)對模型進(jìn)行評價(jià):精確度(Precision)、召回率(Recall)、準(zhǔn)確率(Accuracy)、馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC)及曲線下的面積(Area under curve,AUC),各個(gè)指標(biāo)的公式如下。
[Precision=TPTP+FP] (15)
[Recall=TPTP+FN] (16)
[Accuracy=TP+TNTP+FP+FN+TN] (17)
[MCC=TP×YN?FP×FNTP+FPTP+FNTN+FPTN+FN] (18)
通常情況下,采用準(zhǔn)確率指標(biāo)不能很好地反映模型的性能,為此可以采用受試者工作特性曲線(Receiver operating characteristic,ROC)來更好地評價(jià)模型。以真正例率(True positive rate,TPR)為縱軸,以假正例率(False positive rate,F(xiàn)PR)為橫軸,在不同的閾值下獲得坐標(biāo)點(diǎn),并連接各個(gè)坐標(biāo)點(diǎn),得到ROC曲線。曲線下的面積AUC可以直觀地評價(jià)分類器的好壞,ROC曲線越接近左上角,AUC越大,該模型的性能越好。
[TPR(%)=TPTP+FN×100] (19)
[FPR(%)=FPTN+FP×100] (20)
式(15—20)中,[TP]表示正樣本被正確預(yù)測為正樣本的個(gè)數(shù);[FP]表示負(fù)樣本被錯(cuò)誤預(yù)測為正樣本的個(gè)數(shù);[FN]表示正樣本被錯(cuò)誤預(yù)測為負(fù)樣本的個(gè)數(shù);[TN]表示負(fù)樣本被正確預(yù)測為負(fù)樣本的個(gè)數(shù);精確度表示在所有被預(yù)測為正樣本的樣本中,真實(shí)的正樣本占的比例;召回率表示在真實(shí)正樣本中,被預(yù)測為正樣本占的比例;準(zhǔn)確率表示預(yù)測正確的樣本數(shù)占所有樣本數(shù)的比例;馬修斯相關(guān)系數(shù)表示實(shí)際分類與預(yù)測分類之間的相關(guān)系數(shù)。
3 結(jié)果與分析
3.1 降維結(jié)果可視化
有機(jī)及非有機(jī)番茄的MS原始數(shù)據(jù)維度為1 600[×]16 228,使用PCA、t-SNE和UMAP方法降維后獲得的特征序列向量維度為1[×]200。將降維后的數(shù)據(jù)映射到二維空間里進(jìn)行可視化,由圖3可見,使用UMAP降維方法得到的特征,在數(shù)據(jù)空間中具有更好的分離性。
3.2 消融實(shí)驗(yàn)
為了對模型的性能進(jìn)行評估,采用6種不同的策略進(jìn)行對比,包括PCA+BP、t-SNE+BP、UMAP+BP、PCA+LSTM+Transformer+BP、t-SNE+LSTM+Transformer+BP和UMAP+LSTM+Transformer+BP。設(shè)置6種策略的目的在于對比不同降維方法對鑒別模型準(zhǔn)確率的影響,以及特征提取模塊對鑒別模型準(zhǔn)確率的影響。所有結(jié)果均是使用五折交叉驗(yàn)證獲得,將所有的數(shù)據(jù)集劃分成5份,每次選取不同的組合,以4∶1的比例構(gòu)建訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,以確保每次訓(xùn)練使用的訓(xùn)練集和測試集不相同。最終的結(jié)果是5次訓(xùn)練結(jié)果的平均值。具體結(jié)果如表(1—2)所示。結(jié)果表明,UMAP+LSTM+Transformer+BP組合的性能較優(yōu),具體表現(xiàn)為準(zhǔn)確率達(dá)到98.437%,MCC達(dá)到0.968 4,AUC達(dá)到0.984 6。
3.3 模型訓(xùn)練參數(shù)分析
使用不同的參數(shù)對算法涉及的模型進(jìn)行調(diào)整,以獲得較好的性能。模型采用一層LSTM模塊,由200個(gè)單元組成;Transformer模型采用的注意力模塊為12層,一共有6頭注意力機(jī)制;BP模型由一個(gè)輸入層和兩個(gè)隱藏層構(gòu)成,輸入層的神經(jīng)元有200個(gè),兩個(gè)隱藏層的神經(jīng)元分別有100和50個(gè)。模型訓(xùn)練損失函數(shù)參數(shù)如表3所示。
3.4 模型性能分析
模型訓(xùn)練的迭代次數(shù)為4 000次,五折交叉驗(yàn)證在訓(xùn)練集的識別上均達(dá)到了收斂,圖4展示了收斂過程。圖5為五折交叉驗(yàn)證在訓(xùn)練集上的ROC曲線。每一折訓(xùn)練所取得的具體性能如表4所示。
從圖4可以看出,隨著模型訓(xùn)練的進(jìn)行,每一折的損失都在降低,在前1 500次迭代過程中損失下降較快,自第3 000次迭代后,每一折的損失趨勢逐漸平緩,這表明模型已經(jīng)接近收斂。
AUC衡量的是整個(gè)ROC曲線下的二維區(qū)域面積,取值從0到1.0,其提供了一個(gè)在所有分類閾值上的綜合性能度量。從圖5可以看出,折3的曲線最接近左上角,其AUC為0.993 5,這表明模型在折3上的效果較好;折4的曲線略差于其余4條曲線,其AUC為0.973 4。除折4的AUC略低之外,其余折的結(jié)果均接近1.0,這說明在大多數(shù)條件下,該模型能夠很好地區(qū)分樣本類別。
4 結(jié)論
本文基于質(zhì)譜檢測數(shù)據(jù)對有機(jī)及非有機(jī)番茄構(gòu)建了深度學(xué)習(xí)識別模型,通過融合數(shù)據(jù)降維方法UMAP,序列特征提取方法LSTM和Transformer,提取了高效數(shù)據(jù)特征,并使用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了準(zhǔn)確分類。結(jié)果表明,深度學(xué)習(xí)框架可以基于原始質(zhì)譜檢測數(shù)據(jù)實(shí)現(xiàn)快速精準(zhǔn)的有機(jī)及非有機(jī)番茄檢測識別,基本滿足有機(jī)番茄市場的發(fā)展需求,具有較大的應(yīng)用潛力。
參考文獻(xiàn)
[1] ALI M Y,SINA A A,KHANDKER S S,et al. Nutritional composition and bioactive compounds in tomatoes and their impact on human health and disease:a review[J]. Foods,2020,10(1):45.
[2] WATANABE M,OHTA Y,SUN L C,et al. Profiling contents of water-soluble metabolites and mineral nutrients to evaluate the effects of pesticides and organic and chemical fertilizers on tomato fruit quality[J]. Food chemistry,2015,169:387-395.
[3] PARK H A,HAYDEN M M,BANNERMAN S,et al. Anti-apoptotic effects of carotenoids in neurodegeneration[J]. Molecules,2020,25(15):3453.
[4] 李曉慧,李建洪,王洪萍,等. 植物源性食品中化學(xué)性危害物質(zhì)的色譜—質(zhì)譜檢測技術(shù)研究進(jìn)展[J]. 分析測試學(xué)報(bào),2023,42(10):1357-1369.
[5] 瑪爾哈巴·帕爾哈提,朱靖蓉,趙多勇,等. 穩(wěn)定同位素技術(shù)在有機(jī)農(nóng)產(chǎn)品真實(shí)性鑒別中的應(yīng)用進(jìn)展[J]. 食品安全質(zhì)量檢測學(xué)報(bào),2022,13(22):7191-7199.
[6] GREDELL D A,SCHROEDER A R,BELK K E,et al. Comparison of machine learning algorithms for predictive modeling of beef attributes using rapid evaporative ionization mass spectrometry (REIMS) data[J]. Scientific reports,2019,9(1):5721.
[7] LIM D K,LONG N P,MO C,et al. Combination of mass spectrometry-based targeted lipidomics and supervised machine learning algorithms in detecting adulterated admixtures of white rice[J]. Food research international,2017,100(Pt 1):814-821.
[8] 王世成,李國琛,王瑩,等. 基于氮穩(wěn)定同位素比例質(zhì)譜和液相色譜—高分辨質(zhì)譜的有機(jī)番茄鑒別[J]. 食品科學(xué),2021,42(14):159-164.
[9] DE OLIVEIRA A N,BOLOGNINI S R F,NAVARRO L C,et al. Tomato classification using mass spectrometry-machine learning technique:a food safety-enhancing platform[J]. Food chemistry,2023,398:133870.
[10] JOSEPH D S,PAWAR P M,PRAMANIK R. Intelligent plant disease diagnosis using convolutional neural network:a review[J]. Multimedia tools and applications,2023,82(14):21415-21481.
(責(zé)編:王 菁)