国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于灰色數(shù)據(jù)預處理的WD-LSTM模型對乳制品質(zhì)量安全風險的預測預警分析

2023-02-13 07:25:44陳晨尹佳董曼穆書敏陳鋰郭鵬程文紅桂預風
現(xiàn)代食品科技 2023年1期
關(guān)鍵詞:乳制品分量預測

陳晨,尹佳,董曼,穆書敏,陳鋰,郭鵬程,文紅*,桂預風*

(1.武漢理工大學理學院,湖北武漢 430070)(2.湖北省食品質(zhì)量安全監(jiān)督檢驗研究院,湖北省食品質(zhì)量安全檢測工程技術(shù)研究中心,國家市場監(jiān)管重點實驗室(動物源性食品中重點化學危害物檢測技術(shù)),湖北武漢 430075)

乳制品富含營養(yǎng)物質(zhì),可促進機體營養(yǎng)均衡、調(diào)節(jié)人體免疫機能。在疫情爆發(fā)初期,國家衛(wèi)健委發(fā)布的《新型冠狀病毒感染的肺炎防治營養(yǎng)膳食指導》[1]指出,科學的營養(yǎng)膳食和每日合理的乳制品攝入是提高機體抵抗力、預防與救治新冠肺炎的有效途徑。我國人均乳制品消費呈上升趨勢,在行業(yè)迅速發(fā)展的同時,還存在部分企業(yè)重產(chǎn)量而忽視質(zhì)量管控的現(xiàn)象,如何加強對乳制品質(zhì)量安全風險的識別,提高生產(chǎn)企業(yè)對質(zhì)量安全的控制能力,已成為保障我國乳制品行業(yè)健康發(fā)展迫切需要解決的問題。因此,對問題產(chǎn)品或可能存在的風險發(fā)出及時預警,實現(xiàn)乳制品綜合性、動態(tài)性的監(jiān)管和控制,提供靶向性監(jiān)管技術(shù)支持是非常有必要的[2]。

當前,專家學者們針對乳制品質(zhì)量安全風險預警從不同方向開展了有關(guān)研究。如Tian等[3]基于主成分分析對生乳質(zhì)量安全指標體系風險進行了評估;Zhang等[4]構(gòu)建了乳制品質(zhì)量安全追溯系統(tǒng),使供應環(huán)節(jié)可追溯;部分學者通過乳品供應鏈環(huán)節(jié)構(gòu)建了乳制品質(zhì)量風險預警指標體系[5,6];陳嘉惠等[7]從三個層面分別對乳制品中的危害因素進行風險評估。此外,也有學者重點研究預警方法,將機器學習引入到食品風險的預測中,結(jié)合深度徑向基函數(shù)[8]、集成極限學習機[9]、層次分析法[10]、BP神經(jīng)網(wǎng)絡[11]、LSTM 模型[12]等新型預警方法,對乳制品進行深度層次預警建模,在一定程度上實現(xiàn)了對乳制品安全風險預警的預測和防控。

上述研究成果為我國乳制品質(zhì)量安全預警的實踐提供了良好的理論基礎(chǔ)和方法依據(jù)。但目前針對海量抽檢數(shù)據(jù)的風險預警研究還鮮有涉及,主要利用傳統(tǒng)的數(shù)理統(tǒng)計、典型病例通報等手段,對歷史抽檢數(shù)據(jù)進行食品安全狀況的評價和風險警示,該方法是對食品安全狀況的事后分析,缺少深度的分析與應用[13-15]。我國已積累海量的乳制品檢測數(shù)據(jù),乳制品按照分類不同和每年食品安全狀況的調(diào)整,檢測項目存在差異,且并非每天都進行抽樣檢測,同時數(shù)據(jù)中存在缺失檢測結(jié)果的大量空值?,F(xiàn)有的乳制品檢測數(shù)據(jù)中包含眾多灰色數(shù)據(jù)[16,17],這種情況下,對數(shù)據(jù)進行預處理,從風險因素中挖掘分析,提煉出有價值的信息尤為重要。

因此本文利用我國乳制品歷史抽檢信息為數(shù)據(jù)源,依據(jù)國家標準對檢測結(jié)果中的灰色數(shù)據(jù)進行去量綱化處理,采用softmax、數(shù)據(jù)分箱等方法進行數(shù)據(jù)預處理,通過小波對數(shù)據(jù)進行分解,對分解后不同細節(jié)的分量采用LSTM模型進行預測,并通過symmetric模式重構(gòu),輸出最終的預測風險等級。通過測試集對本文構(gòu)建的WD-LSTM組合模型預測準確度進行驗證,該模型與同類模型相比有明顯提高,可以為我國乳制品食品質(zhì)量安全風險預警提供有力支持和參考。

1 材料與方法

1.1 實驗材料

1.1.1 數(shù)據(jù)類型

本文選取2015-2020年對外公開以及檢測機構(gòu)內(nèi)部自行檢測獲得的543 336條乳制品檢測信息作為數(shù)據(jù)源,對原始數(shù)據(jù)進行分析可得,不同產(chǎn)品類別的檢測信息存在差異,不同年份的檢測信息也存在差異,為了更加全面的得到乳制品存在的風險預警,將所有項目都考慮在內(nèi),建立了乳制品風險預警的檢驗項目指標體系。指標體系共包括12個項目類別,76個檢驗項目,見表1。

表1 乳制品風險預警的檢驗項目指標體系Table 1 Index system of inspection items for risk warning of dairy products

由于獲取的乳制品類別、年份以及檢測項目的結(jié)果單位不同,存在數(shù)據(jù)屬性類別多且格式雜亂,檢驗結(jié)果中信息不完全、不充分以及數(shù)據(jù)的多樣化問題[18],使其無法按照統(tǒng)一的規(guī)則轉(zhuǎn)換為風險等級。此類灰色數(shù)據(jù)的高復雜度特點也提高了風險分析的難度,若直接將原始數(shù)據(jù)劃分訓練集和測試集,帶入模型訓練,所得到的結(jié)果可能存在較大的誤差,因此需要對檢測數(shù)據(jù)進行分類、去量綱化、數(shù)據(jù)分級等預處理。部分乳制品檢測信息如表2所示。

表2 部分乳制品檢測信息Table 2 Partial detection information of dairy products

1.1.2 灰色數(shù)據(jù)預處理

對于上述缺省數(shù)據(jù)多且容易受到多種噪聲污染的灰色數(shù)據(jù),通常需要進行數(shù)據(jù)清洗、集成、變換等預處理。數(shù)據(jù)清洗主要是按照一定的規(guī)則和標準對存在缺失、奇異值和離群點等問題的數(shù)據(jù)剔除;數(shù)據(jù)集成則是將混雜的數(shù)據(jù)按照一定的特征相互匹配,以提高數(shù)據(jù)的統(tǒng)一性;數(shù)據(jù)變換是將原始數(shù)據(jù)轉(zhuǎn)換為滿足一定的條件數(shù)據(jù),主要包括運用分箱、聚類等進行數(shù)據(jù)光滑、將數(shù)據(jù)集中匯總進行數(shù)據(jù)聚集、使用高級概念代替低級概念的數(shù)據(jù)概化、將原始數(shù)據(jù)按特征縮放規(guī)范、構(gòu)造新的特征并匯合到原本特征集中[19]。

1.1.2.1 數(shù)據(jù)去量綱化處理

根據(jù)檢測結(jié)果結(jié)合國家標準進行去量綱化處理。對于有最大允許限的項目Xi和有最小允許限的項目Yi,分別使用公式1、2對其進行標準化和去量綱化。

式中:

Xi和Yi——預處理后的檢驗數(shù)值;

xstandard和ystandard——標準允許限的值;

xi和yi——標準化數(shù)值。

1.1.2.2 數(shù)據(jù)分級處理

將去量綱化后的數(shù)據(jù),根據(jù)檢驗項目類別的不同,將檢驗項目劃分為四部分,分別是有最大允許限的項目Xi,有最小允許限的項目Yi,有限定范圍允許限的項目Ri和檢驗結(jié)果為5個數(shù)值的項目Zi。該風險等級劃分難以采用技術(shù)方法進行定量分析,故采用專家打分法進行風險等級的劃分,邀請十位專家通過無記名投票的方法,得到專家確定的等級,使用加權(quán)評價法得到最終的評價結(jié)果,進行評判。結(jié)合檢驗項目風險等級劃分標準和專家打分法將乳制品檢驗項目劃分為5個風險等級,1級為安全無風險,2級為輕微風險,3級為輕度風險,4級為中度風險,5級為不合格產(chǎn)品。其中1~4級風險是符合國家標準的,但風險系數(shù)不同,而5級為不符合國家標準。具體劃分標準見表3。

表3 檢驗項目的風險等級劃分標準Table 3 Risk classification standard of inspection items

經(jīng)過初步的數(shù)據(jù)預處理,去掉因條件缺失無法判別的數(shù)據(jù)后,共518 640條乳制品項目風險等級數(shù)據(jù),其中1級499 371條,2級14 054條,3級3 993條,4級1 008條,5級214條。分析2015~2020年抽檢數(shù)據(jù),前5年數(shù)據(jù)的檢測項目基本一致,2020年根據(jù)以往的檢測結(jié)果,對風險較大和較少發(fā)現(xiàn)問題的項目進行了增減,致使2020年食品數(shù)據(jù)檢測項目與前5年不一致,同時乳制品又分亞類、次亞類、細類,即使細類也包括了不同產(chǎn)品標準,其要求的項目也不同,最終造成即使同一細類產(chǎn)品中也存在項目不同的問題,使得用于分析的數(shù)據(jù)存在同類產(chǎn)品中項目缺失、同一標準產(chǎn)品中不同年度項目缺失問題。

針對此類處理后的灰色異構(gòu)數(shù)據(jù)(區(qū)間灰數(shù)、離散灰數(shù)等),不同產(chǎn)品因所屬食品類別不同而導致檢驗項目存在差異,故僅對有檢測結(jié)果的項目風險賦予權(quán)重,對缺失項目予以忽略。由于低風險等級的數(shù)據(jù)占絕大多數(shù),若直接采用簡單的加權(quán)平均來獲得最終的產(chǎn)品風險等級,會導致整體風險等級偏低,不能反應真實的風險。在食品安全風險等級預警中,風險等級高的數(shù)據(jù)對最終的風險等級影響更大,故應該有更大的權(quán)重,風險等級低的數(shù)據(jù)權(quán)重應該較低,且如果在某一產(chǎn)品中存在一個不合格項目,則該產(chǎn)品綜合風險等級應直接劃分為5級。為體現(xiàn)權(quán)重的變化,采用改進的 softmax函數(shù)來計算產(chǎn)品的綜合風險等級(公式3),通過softmax函數(shù)中指數(shù)權(quán)重的變化來調(diào)節(jié)風險等級的權(quán)重。

式中:

Level——該產(chǎn)品的綜合風險等級;

I——該檢測項目的風險等級;

ωi——該風險等級在該產(chǎn)品中的占比。

1.1.2.3 數(shù)據(jù)分箱

乳制品檢測數(shù)據(jù)的樣品生產(chǎn)日期存在不連續(xù),同一天生產(chǎn)日期樣品數(shù)量也不相同,因此從時序序列考慮,數(shù)據(jù)存在不均勻分布,存在缺失和稠密性差異,需要對經(jīng)過預處理的檢測數(shù)據(jù)進行分箱處理后再帶入模型進行預測研究。數(shù)據(jù)分箱即是將一定時間段的數(shù)據(jù)劃分為一個數(shù)據(jù)集,并對分箱數(shù)據(jù)選擇合適的方法處理,得到各分箱數(shù)據(jù)集的綜合等級。本文采用每個自然日作為一個分箱,忽略缺失日期數(shù)據(jù)后進行時間壓縮,并通過風險權(quán)重等比例映射的方法計算各分箱數(shù)據(jù)的綜合等級。

1.2 風險預測方法與模型

1.2.1 小波分解(Wavelet Decomposition,WD)

小波分解是一種信號時頻分析方法。它將一個波形分解成N個低頻部分和M個高頻部分的和,只針對信號的低頻部分,即信號的趨勢部分做進一步分解,而對于高頻部分,也就是信號的噪聲部分,不再繼續(xù)分解,低頻部分能夠反映原始數(shù)據(jù)在平穩(wěn)條件下本身的變化規(guī)律,高頻部分包含原始數(shù)據(jù)的波動性和非線性等細節(jié),所以小波變換可以對以低頻信息為主要成分的信號做很好的表征[20]。圖1為小波分解的示意圖。

圖1 小波分解示意圖Fig.1 Wavelet decomposition diagram

由于食品類檢測數(shù)據(jù)的隨機性和不確定性,所得到的乳制品風險等級是一個非平穩(wěn)的離散時間序列,若直接使用LSTM模型對該數(shù)據(jù)進行預測,其噪聲會導致學習曲線復雜,且預測精度受到影響。經(jīng)典的傅里葉變換(公式 4)盡管能對信號的整體內(nèi)涵進行反映,但噪聲會使其頻譜復雜化;短時傅里葉變換可以部分定位時間,但由于窗口的大小是固定的,故僅對頻率波動小的平穩(wěn)信號適用。小波變換既保留了局部變換的思想,又將無限長的三角函數(shù)基換成了有限長的會衰減的小波基(公式5),能從不同尺度上對信號進行分解,按照頻率自動調(diào)整窗口大小,提取非平穩(wěn)信號的局部特征,是一種可以進行多分辨率分析的自適應時頻分析方法[21]。

傅里葉變換公式:

小波變換公式:

式中:

t——時刻;

w——頻率;

α——尺度因子,控制小波函數(shù)的伸縮;

τ——平移因子,控制小波函數(shù)的平移。

小波變換是對原始信號和小波基函數(shù)以及尺度函數(shù)做內(nèi)積運算,因此一個小波基和一個尺度函數(shù)就能夠確定一個小波變換。小波分解中使用到的小波函數(shù)具有多樣性,同一個小波基函數(shù)可以通過平移和縮放生成不同的小波基,故對同樣的問題,不同的小波基會產(chǎn)生不一樣的結(jié)果。

根據(jù)本文所用數(shù)據(jù)波動性大,在時間上具有連續(xù)性的特征,選擇小波分解中的一維多階次離散小波分解,即 WaveDec算法,該算法是采用離散小波變換(Discrete Wavelet Transformation,DWT)得到原始信號的低頻部分和高頻部分,再將經(jīng)過DWT變換后的低頻成分再進行DWT變換,循環(huán)次數(shù)由分解層數(shù)決定。常用的小波族有很多種,每個小波族又有多種系數(shù)可供選擇,其中Daubechies小波函數(shù)由法國著名的小波分析學者Inrid·Daubechies提出,簡稱為dbN,其中N代表小波的階數(shù)[22]。dbN是非線性相位,沒有固定的核函數(shù),通常情況下,Daubechies族中消失矩的階數(shù)越大,小波越光滑。結(jié)合數(shù)據(jù)特征選擇了光滑性比較好的db8作為小波函數(shù)[23],按照輸入序列的復雜情況分解為頻率不同的子序列,各個子序列包含原序列中不同頻率的信息,且其長度不發(fā)生改變,提取小波分解系數(shù)對其進行分析,各子序列帶入模型得到預測結(jié)果后再通過symmetric模式進行重構(gòu)。

1.2.2 長短期記憶神經(jīng)網(wǎng)絡模型(Long Short-Term Memory,LSTM)

LSTM是基于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡RNN的一種改進,不僅能學習時間規(guī)律,還可以適應非線性的復雜數(shù)據(jù)。LSTM在RNN的基礎(chǔ)上新增了一個間隔多個時間步長來傳遞信息的被稱為“門”的內(nèi)部機制,可以調(diào)節(jié)信息流,循環(huán)結(jié)構(gòu)之間保持一個持久的單元狀態(tài)不斷傳遞下去[24]。“門”結(jié)構(gòu)中包括激活函數(shù)sigmoid,與tanh函數(shù)將值壓縮到-1~1之間不同,sigmoid函數(shù)會把值壓縮至0~1,更加有利于“門”對信息的保存或遺忘。

1.2.3 WD-LSTM組合模型

本研究在預測乳制品風險等級時,使用的是WD-LSTM組合模型,具體流程見圖2。該模型在單個LSTM模型的基礎(chǔ)上,增設(shè)能夠適應非平穩(wěn)信號的小波分解,非線性、非平穩(wěn)且波動性強的原始序列通過小波分解得到各分量,再將各分量分別代入LSTM模型,模型根據(jù)輸入序列計算其對后面的綜合風險等級的影響,同時考慮到后面的綜合風險等級對該序列的影響,前后影響值的大小決定了保留或遺忘多大程度,并且通過單元狀態(tài)實時更新到下一步的預測。各分量預測結(jié)果經(jīng)過symmetric模式重構(gòu),得到最終的預測結(jié)果。

圖2 WD-LSTM組合模型流程圖Fig.2 Flow chart of WD-LSTM combined model

1.2.4 模型參數(shù)的搭建和設(shè)置

為實現(xiàn)LSTM神經(jīng)網(wǎng)絡的雙向構(gòu)造,方便模型訓練,需預先確定網(wǎng)絡結(jié)構(gòu)。本文構(gòu)建的是一個4層神經(jīng)網(wǎng)絡,將待預測的前20個乳制品綜合風險等級作為神經(jīng)網(wǎng)絡的輸入,即輸入層的神經(jīng)元個數(shù)為20;待預測的乳制品綜合風險等級作為網(wǎng)絡的輸出,即輸出層的神經(jīng)元個數(shù)為1;中間設(shè)置了一個LSTM層和一個全連接層作為兩個隱藏層,其中全連接層在整個網(wǎng)絡卷積神經(jīng)網(wǎng)絡中起到“特征提取器”的作用,結(jié)點數(shù)設(shè)定為16。依據(jù)本文所用的數(shù)據(jù)集和實際目標需求,確定相關(guān)參數(shù)的調(diào)整方向,采用能更好反映預測值誤差的實際情況的平均絕對誤差(Mean Absolute Error,MAE)作為損失函數(shù),優(yōu)化器使用能基于訓練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡權(quán)重的Adam優(yōu)化算子,數(shù)據(jù)集按照2:1的比例劃分為訓練集和測試集,一次訓練所選取的樣本數(shù)為64,訓練輪次定為100。

1.2.5 經(jīng)驗模態(tài)分解(Empirical Mode Decomposition,EMD)

經(jīng)驗模態(tài)分解可以對非線性非平穩(wěn)信號的進行分析處理,能依賴信號本身的特征做自適應分解,無需事先設(shè)定基函數(shù),也克服了基函數(shù)存在的無自適應性問題;分解后得到的各層信號分量,即為一系列的固有模態(tài)函數(shù)(Intrinsic Mode Functions,IMF),任何信號都可以被分解成若干個IMF之和,各分量分別代表原始信號中各頻率分量,按照由高到低的頻率順序依次排列,可以反映原始信號的局部特征[25]。

1.2.6 數(shù)據(jù)分析

本文使用編程語言Python 3.7.0,利用Tensorflow作為搭建平臺。采用改進的softmax和數(shù)據(jù)映射方式對灰色數(shù)據(jù)進行預處理,將分箱數(shù)據(jù)集的綜合等級時間序列輸入到建立的WD-LSTM組合模型,進行風險預測預警分析,通過 matplotlib畫圖軟件包繪制預測各級分量和風險預測示意圖,預測準確率作為評估模型優(yōu)劣的指標。

2 結(jié)果與討論

2.1 灰色數(shù)據(jù)分箱及等級劃分

2.1.1 分箱時間間隔的選擇

分箱處理的時間間隔會直接影響數(shù)據(jù)集個數(shù),從而影響預測結(jié)果的準確性,因此,選擇合適的時間間隔至關(guān)重要。本文分別采用了1、4、7、15、30 d為一個數(shù)據(jù)集進行分箱處理,計算綜合等級。經(jīng)過對比,若采用7 d及7 d以內(nèi)進行分箱,間隔較短會導致缺失值過多,需要插值的數(shù)據(jù)過多而影響真實性,且使學習曲線更加復雜;而采用太長的時間間隔,則會導致數(shù)據(jù)集過小,導致模型學習過程太短,預測誤差變大。結(jié)合實際情況和模型的預測效果,最終選擇采用每個自然日作為一個分箱,對缺失數(shù)據(jù)的日期予以跳過處理。

2.1.2 分箱數(shù)據(jù)綜合等級劃分

試驗中分別采用5種不同的綜合風險等級公式,對數(shù)據(jù)分箱計算風險等級。

式中:

i——風險等級;

ω(i)——風險等級i的占比。

Y4和Y5當數(shù)據(jù)集中只含有一種風險等級時,該風險等級即為該分箱的綜合風險等級,數(shù)據(jù)集中的風險等級不唯一時,Y4通過公式9計算每個風險等級的權(quán)重,對權(quán)重最大的兩個風險等級求平均值,若平均值為小數(shù)則采用向上取整;Y5通過公式10計算出該數(shù)據(jù)集的綜合風險,根據(jù)產(chǎn)品原始的各風險等級占比,使用風險權(quán)重等比例映射的方法,按照相應的比例使用公式11對綜合風險進行劃分。部分數(shù)據(jù)集不同計算公式的風險等級對比見表4。

表4 部分數(shù)據(jù)集不同風險等級公式對比Table 4 Comparison of formulas for different risk levels of some dataset

經(jīng)過對比,認為公式6會導致對風險等級高的產(chǎn)品賦予過大的權(quán)重;公式7和公式8對公式6的指數(shù)進行了調(diào)節(jié),但導致高風險等級權(quán)重過小,難以確定合適的權(quán)重;Y4采用了平均法,無法體現(xiàn)對風險等級的側(cè)重;通過得到的風險等級與原始數(shù)據(jù)的風險程度比較,公式10更符合實際風險的劃分。因此,本文采用公式10結(jié)合公式11計算風險等級,共得到14 037條綜合風險等級,其中1級13 171條,2級49條,3級151條,4級542條,5級124條。

2.2 結(jié)果分析

2.2.1 模型訓練

在本文中,將數(shù)據(jù)分箱后的綜合風險等級輸入到建立的組合模型,其中前2/3作為訓練集,1/3作為測試集,對其進行小波分解,再通過長短期記憶神經(jīng)網(wǎng)絡對小波分解得到的各個分量進行預測,將各分量重構(gòu)后輸出最終的預測結(jié)果。其中測試集用來驗證該模型的精確度。圖3為N1地區(qū)的乳制品數(shù)據(jù)經(jīng)小波分解后各級分量預測示意圖。橙線為各分量的真實值,藍線為各分量的預測值。

圖3 N1地區(qū)乳制品數(shù)據(jù)WD各級分量預測示意圖Fig.3 Schematic diagram of WD components of dairy products data in N1

2.2.2 有效性分析

由于本文構(gòu)建的LSTM 模型初始權(quán)重的隨機性,在每輪預測時可能會存在誤差,為驗證該模型的穩(wěn)定性,連續(xù)將該模型運行5次,得到該模型的平均誤差為0.03,波動較小,因此該模型的運行結(jié)果是可靠的。為了全面驗證模型的有效性和適用性,將29個地區(qū)的風險等級序列經(jīng)小波分解后帶入LSTM模型進行預測,采用平均絕對值誤差(Mean Absolute Error,MAE)和平均絕對百分比誤差(Mean Absolute Percent Error,MAPE)衡量該模型的誤差(公式 12、13),該值越大表明誤差越大,當預測值與真實值完全吻合時等于0。該模型在29個地區(qū)中預測的最大MAE為0.07,最大MAPE為2.71%,整體MAE和MAPE的平均值為0.02和0.83%。通過公式14,可以計算出該模型預測的準確率,準確率最低為86.49%,其余均在92.45%以上,整體平均準確率為97.54%,標準偏差為0.03。該結(jié)果表明,本文建立的WD-LSTM模型可以對乳制品質(zhì)量安全風險等級有較好的預測。29個地區(qū)的預測結(jié)果見表5。

表5 29個地區(qū)乳制品風險等級預測結(jié)果Table 5 Prediction results of risk grade of dairy products in 29 regions

MAE的計算公式:

MAPE的計算公式:

式中:

A——預測準確率;

B——預測正確的樣本數(shù)量;

C——測試集的樣本數(shù)量。

以N1地區(qū)乳制品質(zhì)量安全預測結(jié)果為例,圖4中,橙線為分箱數(shù)據(jù)集的綜合風險等級,藍線為WD-LSTM模型得到的預測風險等級(圖a為預測風險等級,圖b為取整后的預測風險等級)。由圖中兩種顏色的線段重合度可以看出,二者吻合度較高,說明該模型預測的準確性較好。

圖4 N1地區(qū)乳制品風險預測示意圖Fig.4 Schematic diagram of risk prediction of dairy products in N1

2.2.3 模型比較與分析

本次研究中,還分別構(gòu)建了EMD-LSTM模型和有選擇性重構(gòu)且間隔為2的WD-LSTM模型,通過對數(shù)據(jù)采用不同的分解方法和選取不同的間隔來驗證本文所使用的WD-LSTM模型在乳制品灰色數(shù)據(jù)上的擬合效果,表6為不同模型的預測準確率對比。

模型1是EMD-LSTM組合模型。對29個地區(qū)的2015~2020年乳制品檢測數(shù)據(jù)做同樣的預處理后,模型1將分箱數(shù)據(jù)帶入EMD模型進行分解,將得到的各分量IMFs輸入LSTM模型,預測結(jié)果表明,準確率最低僅為29.73%,整體準確率僅為86.97%,標準偏差為0.14??傮w上看,模型1的準確率與小波分解-LSTM模型相比明顯降低,且預測結(jié)果差距較大,不夠穩(wěn)定。平均MAE和MAPE分別為0.27和12.95%,且最大MAE和MAPE為1.95和54.91%,均明顯高于WD-LSTM模型。由于EMD的模態(tài)混疊現(xiàn)象嚴重,會導致特征提取、模型訓練、模式識別變得困難,IMF的特征不再是單一尺度[26]。因此,經(jīng)過 EMD-LSTM模型分解后得到的各個分量IMFs波動仍然較為強烈,預測誤差變大,從而導致重構(gòu)后的模型預測誤差較大。而小波變換頻帶是固定的,在帶入模型預測前采用了具有更好的光滑性的db8小波基,有效的減小了各分量變化趨勢的復雜性,分解后得到更光滑的的各分量也使得LSTM模型預測的準確度更高[27]。

模型2與本文建立的WD-LSTM模型類似,也是一個小波分解后將各分量代入LSTM預測的組合模型,對各分量有選擇性的進行重構(gòu),重構(gòu)后的序列再通過LSTM模型進行預測。在本文中有選擇性重構(gòu)所選擇的間隔為 2,以驗證間隔大小對該模型產(chǎn)生的影響。該模型與對原始序列進行平滑處理類似,會對部分細節(jié)信息有所損失,預測精度也有所降低,J1地區(qū)的準確率僅為66.67%,整體準確率為92.42%,標準偏差為0.07,平均MAE和MAPE分別為0.09和4.83%。故對比表6,在整體預測精度和誤差上,本文所用的WD-LSTM模型均優(yōu)于模型1和2。

表6 不同預測模型的準確率對比Table 6 Comparison of accuracy of different prediction models

續(xù)表6

3 結(jié)論

針對目前備受關(guān)注的乳制品質(zhì)量安全問題,本文對近六年具有“貧信息”且類型多樣性的乳制品灰色數(shù)據(jù)進行了充分的預處理,按檢測項目性質(zhì)的不同劃分為四部分,結(jié)合專家打分法得到各檢測項目的風險等級后分別代入改進的softmax公式,并根據(jù)產(chǎn)品中風險等級的占比對數(shù)據(jù)分箱劃分區(qū)間。將29個地區(qū)的檢測數(shù)據(jù)轉(zhuǎn)換為綜合風險等級后帶入構(gòu)建的WD-LSTM模型,得到整體準確率為97.54%,標準偏差為0.03,MAE和MAPE的平均值為0.02和0.83%,而本文設(shè)置的對比模型 1、2的整體準確率分別為 86.97%和92.42%,標準差分別為0.14和0.07,平均MAE分別為0.27和0.09,平均MAPE分別為12.95%和4.83%。該預測結(jié)果意味著本文構(gòu)建的WD-LSTM模型預測準確性較好,且在精度和穩(wěn)定性方面均優(yōu)于類似的相關(guān)模型,說明該模型對乳制品質(zhì)量安全預測是準確且有效的,可以起到對乳制品質(zhì)量安全中潛在的風險防控和監(jiān)督的作用,并在日常檢測的過程中提供技術(shù)支持。對于未來的工作,可以從以下兩個方向進行改善:一是通過優(yōu)化模型算法,調(diào)整參數(shù),使模型在其他類別的產(chǎn)品得以推廣使用;二是研究如何對長時間序列的內(nèi)在關(guān)聯(lián)性和數(shù)據(jù)嚴重不平衡使用更好的處理方法。

猜你喜歡
乳制品分量預測
無可預測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預測卷(B卷)
選修2-2期中考試預測卷(A卷)
帽子的分量
一物千斤
智族GQ(2019年9期)2019-10-28 08:16:21
論《哈姆雷特》中良心的分量
2018年1~2月乳制品產(chǎn)量同比增長8%
分量
不必預測未來,只需把握現(xiàn)在
通過乳制品源頭控制提高原料奶品質(zhì)的措施
开远市| 霞浦县| 翁源县| 眉山市| 吴江市| 前郭尔| 邹平县| 土默特右旗| 肥乡县| 灵宝市| 南部县| 大兴区| 永康市| 姚安县| 华亭县| 镇原县| 红河县| 开鲁县| 长子县| 闵行区| 南昌县| 高青县| 吴江市| 巍山| 阿勒泰市| 姚安县| 南阳市| 建德市| 白河县| 钦州市| 阿坝| 修武县| 施秉县| 克山县| 封丘县| 宁河县| 长春市| 信丰县| 青田县| 洛宁县| 当涂县|