陳 卓 丁 利 曹天紅 程云輝 文 李 許 宙 陳茂龍 焦 葉 李虹輝
(長沙理工大學(xué)食品與生物工程學(xué)院,湖南,長沙 410114)
谷物是中國居民膳食的主要成分,第5次中國全面飲食研究(FCTDS)[1]表明,谷物、豆類及其制品占中國居民每日食物消費總量的37.44%。其主要提供膳食纖維、糖、蛋白質(zhì)[2],并含有多種脂類[3]、維生素、植物甾醇、角鯊烯[4]。然而,谷物及其衍生食品中包含的重金屬、真菌毒素、農(nóng)藥和一些食品添加劑存在潛在危害[5]。低水平的重金屬暴露也會損害器官[6],其中鉛(Pb)、鎘(Cd)和砷(As)被認(rèn)為是谷物中常見的有毒重金屬[7]。鎘會對肺、骨、腎、肝、免疫系統(tǒng)和生殖器官等產(chǎn)生一系列損傷[8],砷會影響血管系統(tǒng)并導(dǎo)致高血壓和心血管疾病[9]。有研究[10]表明,25%的谷物受到了不同程度的真菌毒素污染。有關(guān)谷物中真菌毒素污染的監(jiān)管和研究主要集中于黃曲霉毒素、伏馬毒素玉米赤霉烯酮以及脫氧血腐鐮刀菌烯醇等方面[11],其中,黃曲霉毒素B1對哺乳動物毒性最大,可造成中毒性肝炎、出血、水腫、免疫抑制和肝癌等損害[12]。目前,對谷物接觸不同污染物的風(fēng)險評估研究已廣泛開展,涉及單一物質(zhì)或同源化合物,如真菌毒素[13-15]和重金屬[16-17]。谷物及其衍生食物通常被多類污染物污染,僅涉及單一或同類污染物的風(fēng)險評估可能導(dǎo)致其對潛在健康風(fēng)險的低估[18]。而目前有關(guān)谷物資源同時接觸多類污染物的健康風(fēng)險評估尚未見報道。
目前,食品風(fēng)險評估技術(shù)可分為定量評估法(灰色系統(tǒng)理論和故障分析法)、定性評估法(德爾菲法、蒙特卡洛法和決策樹法)以及綜合評估法(人工神經(jīng)網(wǎng)絡(luò)、粗糙學(xué)以及層次分析法)。定性分析方法主要用于從政策和理論分析中得出風(fēng)險評估結(jié)論,然而,由于數(shù)據(jù)主要來自問卷調(diào)查,因此不能準(zhǔn)確地構(gòu)建預(yù)警模型,定量分析中德爾菲法在預(yù)測單個標(biāo)量指標(biāo)方面比較成功,但不能處理多指標(biāo)的復(fù)雜系統(tǒng)。綜合評估方法中層次分析法(AHP)適用于對多指標(biāo)的復(fù)雜問題進(jìn)行決策,而傳統(tǒng)的層次分析法依賴于研究者的經(jīng)驗來構(gòu)建判斷矩陣,容易導(dǎo)致誤判[19]。基于熵權(quán)的層次分析法(EM-AHP)根據(jù)谷物檢測數(shù)據(jù)的內(nèi)在規(guī)律計算各評價指標(biāo)的權(quán)重,反映谷物資源的整體風(fēng)險。人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種有效的計算模型,被廣泛應(yīng)用于非線性函數(shù)近似[20]、模式識別[21]、復(fù)雜流程工業(yè)能量預(yù)測[22]、工業(yè)過程控制與風(fēng)險管理[23],紅棗缺陷識別[24],白酒酒花分類[25],可以在系統(tǒng)確切結(jié)構(gòu)未知的條件下進(jìn)行建模,針對谷物檢測數(shù)據(jù)具有高維屬性、復(fù)雜性、離散性和非線性等特點,但人工神經(jīng)網(wǎng)絡(luò)建立的谷物風(fēng)險預(yù)警模型并不準(zhǔn)確。
研究擬采用基于熵權(quán)的層次分析法通過數(shù)據(jù)壓縮和數(shù)據(jù)過濾提取谷物檢測數(shù)據(jù)的特征信息,并結(jié)合人工神經(jīng)網(wǎng)絡(luò)構(gòu)建谷物安全風(fēng)險預(yù)警模型;以鎘(Cd)、砷(As)、鉛(Pb)、鉻(Cr)、黃曲霉毒素(AFs)、伏馬毒素(FB)、玉米赤酶烯酮(ZEN)、
脫氧雪腐鐮刀菌烯酮(DON)為谷物質(zhì)量安全評價指標(biāo),并作為模型的輸入,選擇隨機(jī)森林回歸(LR)、支持向量機(jī)回歸(SVM)、BP神經(jīng)網(wǎng)絡(luò)回歸(BP)、K近鄰回歸(KNN)4種機(jī)器學(xué)習(xí)算法進(jìn)行模型的構(gòu)建和比較,其中由基于熵權(quán)的層次分析法結(jié)合隨機(jī)森林算法(RF)構(gòu)建的模型(AHP-RF)預(yù)測效果最好,其谷物風(fēng)險預(yù)警模型如圖1 所示。利用AHP-RF模型對2019年8月的谷物檢測數(shù)據(jù)進(jìn)行風(fēng)險預(yù)測分析,旨在為谷物資源的安全監(jiān)管提供有針對性的參考建議。
谷物資源中化學(xué)殘留的標(biāo)準(zhǔn)化可加強植物油質(zhì)量安全監(jiān)管,依據(jù)衛(wèi)生部(http://www.samr.gov.cn/)和市場監(jiān)督管理總局(http://www.samr.gov.cn/spcjs/)發(fā)布的國家食品安全標(biāo)準(zhǔn),同時結(jié)合市場監(jiān)督管理局的抽檢數(shù)據(jù),得出評價植物油質(zhì)量的8個指標(biāo)分別為鎘(Cd)、砷(As)、鉛(Pb)、鉻(Cr)、黃曲霉毒素(AFs)、伏馬毒素(FB)、玉米赤酶烯酮(ZEN)和脫氧雪腐鐮刀菌烯酮(DON),谷物中污染數(shù)據(jù)來源于小麥、大米、玉米、燕麥、大麥、高粱、黑麥和小米。其中重金屬污染數(shù)據(jù)來源于文獻(xiàn)[26-46],真菌毒素數(shù)據(jù)來源于文獻(xiàn)[47-62]。
假設(shè)相關(guān)函數(shù)的j參數(shù)是cij(y)(i表示第i次采樣):
(1)
相關(guān)函數(shù)稱為標(biāo)準(zhǔn)相關(guān)函數(shù),其中yj(1),yj(2),yj(3),yj(4)是cij(y)的節(jié)點,預(yù)處理后的信息矩陣為:
圖1 谷物資源風(fēng)險評估模型Figure 1 Risk assessment model of grain resources
(2)
中心標(biāo)準(zhǔn)化
(3)
(4)
(5)
對于n對稱矩陣,特征值W=(ω1,ω2,…,ωi)可以通過乘積的均方根法(幾何平均法)得到:
(6)
用W融合樣本,得到谷物風(fēng)險融合數(shù)據(jù):
(7)
首先,通過對樣本集進(jìn)行重采樣來生成相同數(shù)量的樣本。假設(shè)特征數(shù)為K,對N個樣本在K個特征中隨機(jī)選擇T個特征,通過建立決策樹得到最佳分割點。最后,使用多數(shù)投票機(jī)制進(jìn)行預(yù)測。隨機(jī)森林算法結(jié)構(gòu)如圖2所示。
支持向量機(jī)(SVM)是一種通用的前饋網(wǎng)絡(luò)類型,可應(yīng)用于分類(聚類)、回歸、字符識別和時間序列,SVM的訓(xùn)練算法創(chuàng)建了一個模型,該模型將新樣本分配給兩個類別之一,使其成為非概率二元線性分類器。SVM在回歸方法中的工作原理是找到符合統(tǒng)計學(xué)習(xí)理論的線性分離函數(shù),SVM具有良好的泛化能力,能夠解決小樣本問題。
圖2 隨機(jī)森林結(jié)構(gòu)原理圖Figure 2 Schematic diagram of random forest structure
BP神經(jīng)網(wǎng)絡(luò)是根據(jù)誤差反向傳播進(jìn)行訓(xùn)練的反饋神經(jīng)網(wǎng)絡(luò)?;舅枷胧翘荻认陆捣ǎㄟ^反向傳播不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的實際輸出和預(yù)期輸出之間的誤差平方和最小,主要過程是:對于n個輸入學(xué)習(xí)樣本:“X1,X2,…,Xn”,已知對應(yīng)的m個輸出樣本為“Y1,Y2,…,Ym”。網(wǎng)絡(luò)的實際輸出(Z1,Z2,…,Zn)和目標(biāo)向量(T1,T2,…,Tm)之間的誤差用于校正其權(quán)重,使得Zn盡可能接近預(yù)期的Tm。
K近鄰算法沒有顯式的學(xué)習(xí)過程或訓(xùn)練過程,是懶惰學(xué)習(xí),數(shù)據(jù)集事先已經(jīng)有了分類標(biāo)簽和數(shù)據(jù)特征值,通過測量不同特征值之間的距離來對數(shù)據(jù)進(jìn)行分類。
計算相鄰樣本的距離采用歐式距離或曼哈頓距離:
(8)
(9)
算法過程:
(1)計算測試數(shù)據(jù)與各訓(xùn)練數(shù)據(jù)之間的距離。
(2)按距離的遞增關(guān)系排序。
(3)選取距離最小的K個點。
(4)確定前K個點所在類別的出現(xiàn)頻率。
(5)返回前K個點中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類。
為確定8種危險因素(Cd、As、Pb、Cr、AFB、FB、ZEN、DON)的離散程度,判斷8種危害指標(biāo)對綜合評價的影響,將預(yù)處理后的檢驗數(shù)據(jù)作為風(fēng)險評估模型的輸入,利用基于熵權(quán)的層次分析法對檢驗數(shù)據(jù)中的8個風(fēng)險評價指標(biāo)進(jìn)行風(fēng)險融合。部分AHP融合結(jié)果見表1,基于熵權(quán)的層次分析法融合的各風(fēng)險評價指標(biāo)的權(quán)重比例如圖3所示,各指標(biāo)權(quán)重相差不大說明數(shù)據(jù)離散程度適合建模。
表1 部分AHP風(fēng)險融合結(jié)果Table 1 Results of partial AHP risk fusion
圖3 谷物資源中各危險因素的權(quán)重Figure 3 Weight of risk factors in grain resources
用min-max歸一化法對檢驗數(shù)據(jù)進(jìn)行線性變換。每個指標(biāo)數(shù)據(jù)映射到區(qū)間[0,1]。min-max歸一化公式如下:
(10)
式中:
i=1,2,…,1;
j=1,2,…,m。
標(biāo)準(zhǔn)化后確定谷物資源化學(xué)危害等級范圍[0.05,0.92],采用五等分法[63]將化學(xué)危害等級范圍劃分為5個風(fēng)險評價等級(見表2)。
表2 谷物資源化學(xué)危害等級Table 2 Chemical hazard grade of grain resources
將風(fēng)險融合的結(jié)果作為預(yù)警模型的預(yù)期輸出。構(gòu)建8輸入單輸出訓(xùn)練樣本數(shù)據(jù),預(yù)處理檢驗數(shù)據(jù)總量1 067。從數(shù)據(jù)中選擇75%的樣本作為訓(xùn)練樣本數(shù)據(jù),其余的作為測試樣本數(shù)據(jù)。
為了驗證該模型的有效性,采用隨機(jī)森林(RF)、BP神經(jīng)網(wǎng)絡(luò)(BP)、K近鄰回歸(KNN)和支持向量機(jī)(SVM)回歸對數(shù)據(jù)進(jìn)行建模。
在隨機(jī)森林(RF)中,采用min-max標(biāo)準(zhǔn)化進(jìn)行定量數(shù)據(jù)標(biāo)準(zhǔn)化,決策樹個數(shù)為100,分裂1個內(nèi)部節(jié)點需要的最少樣本為2,每個葉子節(jié)點需要的最少樣本數(shù)為2。
在單層BP神經(jīng)網(wǎng)絡(luò)中,采用min-max標(biāo)準(zhǔn)化進(jìn)行定量數(shù)據(jù)標(biāo)準(zhǔn)化,迭代次數(shù)為200,激勵函數(shù)為rule函數(shù),求解器為adam,輸入層、隱藏層和輸出層的節(jié)點數(shù)分別為8,20,1。
在K近鄰回歸(KNN)中,采用min-max標(biāo)準(zhǔn)化進(jìn)行定量數(shù)據(jù)標(biāo)準(zhǔn)化,所選用的近鄰數(shù)為5,預(yù)測權(quán)函數(shù)為uniform,葉大小為30,向量距離算法為歐式距離。
在支持向量機(jī)(SVM)回歸中,采用min-max標(biāo)準(zhǔn)化進(jìn)行定量數(shù)據(jù)標(biāo)準(zhǔn)化,核函數(shù)為bf(徑向基核),殘差收斂條件為0.000 1,使用收縮啟發(fā)式。
由圖4可知,RF的泛化結(jié)果比BP、KNN和SVM的更接近實際值。
圖4 4種機(jī)器學(xué)習(xí)算法的預(yù)測風(fēng)險值與實際風(fēng)險值的擬合結(jié)果Figure 4 Fitting results of four machine learning algorithms to predict risk value and actual risk value
由RF、BP、KNN和SVM分別結(jié)合基于熵權(quán)的層次分析法對數(shù)據(jù)進(jìn)行建模,由表3可知,4個模型的線性回歸決定系數(shù)分別0.999 8,0.928 6,0.900 8,0.963 1,說明RF算法的效果優(yōu)于其他3種算法。
由圖5可知,基于熵權(quán)的層次分析法組合隨機(jī)森林回歸方法的擬合度優(yōu)于其他3種方法,可用于谷物化學(xué)危害要素危害程度的預(yù)測。
采用AHP-RF模型對2019年8月20個樣本的檢驗數(shù)據(jù)進(jìn)行評估,預(yù)測結(jié)果如圖6所示。
表3 4種回歸算法的穩(wěn)定性比較Table 3 Comparison of stability of four regression algorithms
由圖6可知,AHP-RF風(fēng)險評估模型可以準(zhǔn)確預(yù)測2019年8月初的食品安全風(fēng)險。2019年8月前20 d的風(fēng)險平均值為0.630,屬于[0.448,0.662],整體風(fēng)險處于中等風(fēng)險范圍。2019年8月前10 d的風(fēng)險分析表明,平均風(fēng)險值為0.675,而8月后10 d的平均風(fēng)險值為0.586,因此2019年8月前10 d的整體風(fēng)險較大。2019年8月高于高風(fēng)險預(yù)警參考值0.792的數(shù)據(jù)共有7個,占總數(shù)據(jù)的35%。而3—7月數(shù)據(jù)中風(fēng)險值高于高風(fēng)險預(yù)警參考值的數(shù)據(jù)僅占數(shù)據(jù)總量的9.6%,因此8月高風(fēng)險數(shù)據(jù)占比明顯上升,整體風(fēng)險趨勢明顯上升。因此,相關(guān)部門需重點關(guān)注這一時期的糧食生產(chǎn)。8月初檢驗樣本的風(fēng)險明顯增加,相關(guān)部門應(yīng)更重視2019年8月初的檢驗樣本,并采取如加強監(jiān)管,督促相關(guān)企業(yè)生產(chǎn)高質(zhì)量、低風(fēng)險的產(chǎn)品等相關(guān)措施,以控制風(fēng)險的持續(xù)增長,避免食品安全事故的發(fā)生。
圖5 4種機(jī)器學(xué)習(xí)算法的線性回歸分析Figure 5 Linear regression analysis of four machine learning algorithms
圖6 AHP-RF風(fēng)險評估模型的預(yù)測風(fēng)險值與實際風(fēng)險值Figure 6 Comparison between the predicted risk value and the actual risk value of AHP-RF risk assessment model in August 2019
提出了一種AHP-RF方法,建立以谷物資源檢測數(shù)據(jù)作為輸入,采用基于熵權(quán)的層次分析法提取數(shù)據(jù)的特征變量作為隨機(jī)森林算法輸出的谷物資源風(fēng)險預(yù)警模型。結(jié)果表明,該模型獨立檢驗集的R2>0.99,表明其能夠較好地實現(xiàn)谷物資源的風(fēng)險評估。將AHP-RF方法應(yīng)用于2019年8月的谷物資源風(fēng)險分析,發(fā)現(xiàn)2019年8月的谷物資源風(fēng)險增加,存在安全隱患問題。食品檢驗部門可以利用此結(jié)果提高食品安全預(yù)警的效率。為了進(jìn)一步研究,將研究卷積神經(jīng)網(wǎng)絡(luò)(CNN)來優(yōu)化數(shù)據(jù)預(yù)處理過程,CNN具有較強的非線性擬合能力和特征提取能力,應(yīng)用于谷物資源預(yù)警分析可能會揭示更多的未知規(guī)律。但CNN模型復(fù)雜度高、成本高、對數(shù)據(jù)質(zhì)量要求高,為此需要收集更多數(shù)據(jù),建立質(zhì)量更完善的谷物安全風(fēng)險指標(biāo)數(shù)據(jù)集,并將數(shù)據(jù)集與CNN結(jié)合建立模型,將有助于建立準(zhǔn)確、智能的食品風(fēng)險預(yù)警系統(tǒng)。