陳夏威 王博遠 岑應健 李 笑
(中山市疾病預防控制中心 中山 528403) (廣東藥科大學 廣州 510000)
食品是人類生存與發(fā)展的基礎,然而隨著近年來經濟社會的高速發(fā)展,食品安全問題也隨之接踵而來,嚴重影響人們生活環(huán)境,甚至威脅其生命健康[1]。媒體的曝光揭露出食品原料質量不合格、加工過程與環(huán)境衛(wèi)生狀況差、胡亂添加化學添加劑、食品在運輸保存過程中不當操作、政府監(jiān)管不到位和食品安全法律體系不完善等一系列問題,這些都是導致食品安全問題不斷擴大和食源性疾病頻頻暴發(fā)的原因。當前缺少對于政府部門、醫(yī)院和相關機構所收集和上報的關于食品安全問題數據信息的全面分析、解讀的機器學習方法,因而無法從數據信息中找出導致食源性疾病暴發(fā)的關鍵特征和各種因子之間的關聯(lián),難以對食品安全問題發(fā)展趨勢進行正確預測與及時控制。因此有必要引入以BP神經網絡、貝葉斯網絡、決策樹以及支持向量等為代表的優(yōu)秀機器學習方法,構建新型綜合性食品安全預警模型,在海量而復雜的數據中深度學習找到關鍵信息和隱藏關系[2],進而對國家食品安全情況和食源性疾病的流行趨勢進行預測預警,最終構建出適應我國國情的食品安全預警體系。
機器學習主要通過計算機模擬人類學習過程,以外環(huán)境提供的大量數據信息為對象,對數據信息進行收集、分析、儲存、統(tǒng)計,推斷出其中規(guī)律而建立某種模型,再對未知數據進行推測,無需編譯好的程序語言[3]。簡單來說是利用已知部分將未知變?yōu)榻咏鼘嶋H的已知的過程,屬于分析歸納得出的趨勢結論。機器學習涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多理論交叉學科,被廣泛應用于人工智能、金融與經濟數據分析、DNA生物遺傳數據分析等領域[4],特別在交叉學科領域中起著重要技術支撐的作用[5]。
2.2.1 分類 機器學習目前大致分為3類,分別為監(jiān)督學習、無監(jiān)督學習、強化學習[6]。監(jiān)督學習由訓練資料建立一個程序模型,常用的有人工神經網絡、支持向量機、最近鄰居法、高斯混合模型、樸素貝葉斯方法、決策樹和徑向基函數分類等。無監(jiān)督學習用于在大量無標簽數據中進行發(fā)掘。常用方式有K-means聚類算法和關聯(lián)規(guī)則等。強化學習則可以理解為一種通過利用試錯來找到解決方案的模式,常用有Q-Learning以及時間差學習。
2.2.2 常用方法 常用的10大機器學習方法有:決策樹(Decision Trees,DT),樸素貝葉斯分類(Naive Bayesian Classification,NBC),最小二乘法(Ordinary Least Squares Regression,OLSR),邏輯回歸(Logistic Regression,LR),支持向量機(Support Vector Machine,SVM),集成方法(Ensemble Methods,EM),聚類算法(Clustering Algorithms,CA),主成分分析(Principal Component Analysis,PCA),奇異值分解(Singular Value Decomposition,SVD),獨立成分分析(Independent Component Analysis,ICA)。
2.3.1 概述 1956年Arthur Samuel(被稱為“機器學習之父”,1901-1990年)在IBM公司研制可通過大量棋局分析而逐漸識別當前棋局“好棋”與“壞棋”的一個具有自學習、自組織、自適應能力的跳棋程序,戰(zhàn)勝當時的跳棋大師,模糊的機器學習概念隨之產生,隨時間的發(fā)展逐漸清晰,在經歷半個多世紀后大致可以將機器學習分為5個發(fā)展階段[7]。
2.3.2 第1階段 20世紀40年代的萌發(fā)時期。在這一時期,心理學家McCulloch 和數理邏輯學家Pitts引入生物學中的神經元概念(神經網絡中的最基本成分),在分析神經元基本特性的基礎上提出M-P神經元模型。該模型中每個神經元都能接收到來自其他神經元傳遞的信號,這些信號往往經過加權處理再與接受神經元內部的閾值進行比較,經過神經元激活函數產生對應的輸出。
2.3.2 第2階段 20世紀50年代中葉至60年代中葉的熱烈時期。經典學習規(guī)則的提出標志著進入熱烈時期,1957年美國神經學家Rosenblatt提出最簡單的前向人工神經網絡——感知器,被廣泛應用于文字、聲音、信號、記憶識別等領域。
2.3.4 第3階段 20世紀60年代中葉至70年代中葉的冷靜時期。這一時期由于感知器的單一結構,局限于處理簡單線性可分問題,加上理論知識的匱乏和計算機有限技術處理,引來眾多學者的質疑,導致以感知器為核心的人工神經網絡的衰敗,機器學習發(fā)展停滯不前。
2.3.5 第4階段 20世紀70年代中葉至80年代末的復興時期。1980年美國卡內基梅隆大學舉辦首屆機器學習國際研討會,標志著機器學習在世界范圍內的復興。1986年加州大學圣地亞哥分校的Rumelhart與McClelland提出應用于多層神經網絡的學習規(guī)則即誤逆差傳播算法(BP算法),引領人工神經網絡發(fā)展進入第2次高潮,隨后出現(xiàn)自組織映射網絡(Self Organization Mapping,SOM)、競爭型學習網絡(Adaptive Resonance Theory,ART)、徑向基函數網絡(Rcecurrent Neural Network,RBF)、級聯(lián)相關網絡(Cascade Correlation,CC)、遞歸神經網絡(Radial Basis Function,RNN)和卷積神經網絡(Convolutional Neural Network,CNN)等,機器學習得到發(fā)展。
2.3.6 第5階段 20世紀90年代后的多元發(fā)展時期。以SVM為代表的統(tǒng)計學習迅速發(fā)展,對符號學習的統(tǒng)治地位發(fā)起挑戰(zhàn)。與此同時,以通過多個單學習器結合完成學習任務為基本思想的集成學習,與以通過逐層學習方式解決多隱含層神經網絡的初值選擇問題,從而提升分類學習效果,促使深度學習的提出,成為機器學習的重要延伸,使機器學習開始多元化的發(fā)展。
3.1.1 概述 BP(Back Propagation Network)神經網絡是1986年由Rumelhart和McCelland為首的科研小組提出的,是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W絡,其基本思想是梯度下降法,利用梯度搜索技術使網絡的實際輸出值和期望輸出值的誤差均方差為最小,是目前應用最廣泛的神經網絡模型之一[8]。主要的研究應用領域為食品安全預警分析、食品攝入量預測和食品監(jiān)督抽檢合格率預測等。
3.1.2 食品質量預警 章德賓等[9]利用中國質監(jiān)系統(tǒng)監(jiān)督檢驗部門2007年日常檢驗的原始數據中選取與食品安全最為密切的167種檢測項目,按月度劃分建立訓練樣本集作為輸入層,以化學污染、農藥殘留、獸藥殘留、重金屬、微生物致病菌5類作為輸出層建立BP神經網絡的食品安全預警模型,通過初步的應用試驗表明BP神經網絡的食品安全預警模型以實際數據訓練樣本為基礎能夠進行有效預測,是一種可行有效的食品安全分析途徑。
3.1.3 食品攝入量預測 王霞[10]以我國1997-2010年的9大類食物攝入量作為訓練集進行建模訓練,經過10 000次訓練使模型誤差達到要求,建立的BP神經網絡模型對2011年食品攝入量進行預測并與實際值對比,結果表明實驗預測值誤差非常小且符合應用要求,再與食品安全評估預警系統(tǒng)結合,可對食品安全評估的同時還能預測某地某時間段內可能發(fā)生的食品安全事故。
3.1.4 食品監(jiān)督抽檢合格率預測 王星云等[11]利用數據管理平臺數據庫中食品包括污染物鉛的10 000條抽檢數據作為訓練數據集,選定生產企業(yè)省份等13個屬性作為特征屬性,以合格、不合格作為食品檢驗結論,建立BP神經網絡模型反映食品屬性和檢驗結論之間關系,運用此關系預測特定屬性下檢驗結論是否合格。這種基于BP神經網絡的數據挖掘方法能夠對食品安全風險進行預警,為食品安全問題產生提供理論依據。BP神經網絡在擁有高度自學習、自適應能力以及一定的容錯能力的同時仍存在一些不足之處,如需要建立準確率較高的模型,需要較大的樣本量進行訓練等,還需要不斷地進行改善優(yōu)化。
3.2.2 食源性疾病患者人數預測 在食源性疾病防控過程中,對于利用當前所掌握數據來確定及預測疫情暴發(fā)時間和流行的空間聚集是非常重要的,這也是學習研究的一個難點。而在得到的數據中存在兩種時間延誤可能會影響病疫判斷,甚至失去控制疫情關鍵時間點,一是患者發(fā)病到醫(yī)生確診過程中時間的延誤,二是醫(yī)生確診到醫(yī)院上報到相關機構過程中時間的延誤。而貝葉斯臨近預報模型能夠很好地將此類延誤影響降低。Wang XueLi等[13]根據國家食品安全風險評估中心食品監(jiān)測數據庫于2015年3月1日-2016年2月28日湖南省共報告21 866例食源性疾病就診病例中確診病例21 226例,比例高達97%這一數據,建立貝葉斯層次模型以利用每日來訪患者數預測每日真實患者數,實驗通過專業(yè)評定表明貝葉斯網絡模型具有良好的短期預報性能,能為今后的食源性疾病監(jiān)測和控制策略提供方法學依據。
3.2.3 食品供應鏈污染暴露預測 張麗等[14]通過對某一食物進行風險分析,經過裁剪風險因素和分析初始風險事件,針對食品供應鏈中物流環(huán)節(jié),以風險因素放射物污染為根風險因素,建立局部貝葉斯網絡模型,然后進行風險概率評價,得出放射物污染發(fā)生概率是0.9時存儲倉庫污染、運輸車污染等概率分別為0.825、0.785,發(fā)現(xiàn)放射物暴露可能性很大,表明基于貝葉斯網絡模型的食品安全供應鏈風險預測可以提前分析發(fā)現(xiàn)風險威脅。貝葉斯網絡模型需改善的方面包括有減少主觀判斷或加入專家系統(tǒng)[15]的建議與評定等,而繼續(xù)對貝葉斯網絡模型進行改善發(fā)掘必將為未來食源性疾病監(jiān)測和控制策略提供更好的方法與依據,有助于公共衛(wèi)生與食品安全的發(fā)展。
3.3.1 概述 食物中毒的發(fā)生具有趨勢性、周期性、短期波動和明顯季度性等特點,掌握這些特點能大大提高對病情的預測與趨勢控制,而時間序列分析中的自回歸求和移動平均模型(Antoregressive Integrated Moving Average Model,ARIMA)能為其提供較為準確的參考依據。主要應用為疾病發(fā)病率預測。
3.3.2 細菌性痢疾發(fā)病率預測 郭建娥等[16]以太原市疾控中心收集的1994-2003年痢疾月發(fā)病率數據作為訓練資料擬合模型, 利用2004-2006年痢疾發(fā)病率數據對模型參數進行修正, 建立預測模型對2007-2008年太原市痢疾發(fā)病率進行預測,預測結果較好。朋文佳等[17]以某區(qū)2004-2008年細菌性痢疾月發(fā)病率資料作為訓練樣本建立ARIMA模型,通過2009年細菌性痢疾月發(fā)病率資料對模型參數進行修正,預測2010年細菌性痢疾月發(fā)病率并與實際值進行對比分析,發(fā)現(xiàn)預測值與實際值趨勢基本吻合。
3.3.3 食源性疾病發(fā)病率預測 萬蓉等[18]以云南省2004年1月-2010年12月食源性疾病月發(fā)病率數據作為訓練資料建立ARIMA模型,通過2011年月發(fā)病率資料進行回代,預測2012年食源性疾病月發(fā)病率趨勢,結果發(fā)現(xiàn)2011年各月發(fā)病率預測值95%可信區(qū)間包括真實值,表明ARIMA模型能夠對食源性疾病進行短期預測。張愛紅等[19]探討ARIMA模型在食源性疾病發(fā)病率預測中的應用,較好地擬合短期內食源性疾病人數在時間序列上的變化趨勢,是一種短期預測精度較高的預測模型。ARIMA模型可以較好擬合食源性疾病的時間變化趨勢,用于預測未來的食源性疾病。但需要注意以下幾點:一是若用于長期預測則需要長期不斷地利用監(jiān)測數據進行模型參數調整,從而提高模型預測效果;二是時間序列不宜太短,否則影響模型的可靠性;三是若研究地區(qū)的發(fā)病率發(fā)生較大的改變趨勢,需要重新收集積累新的數據,再對模型進行修正和重新擬合。
3.4.1 概述 決策樹是一種用于決策的工具。每個決策或事件(即自然狀態(tài))都可能引出兩個或多個事件, 導致不同的結果,將這種決策分支畫成圖形, 很像一棵樹的枝干, 故稱決策樹。通過樹狀的邏輯思維方式解決復雜決策問題的一種方法,即利用信息論原理在相關資料中提取有用信息構建框架,再以樹模型的邏輯性對決策對象進行判斷分析。構建決策樹的過程一般分為構樹、驗證剪枝以及基本策樹確定。根據專家系統(tǒng)分析訓練集,對訓練集中樣本進行評價,利用邏輯關系和算法構建初步決策樹,再利用測試集監(jiān)測初步決策樹,經過擬合、剪枝與再返測試,最后優(yōu)化決策樹結構獲得成熟決策樹。主要的研究應用領域包括農產品安全評估、食品安全情況分析等。
3.4.2 農產品安全評估 趙靜嫻[20]針對影響農產品質量安全的數據特點構建基于組合優(yōu)化決策樹的農產品安全評估模型,通過2005-2009 年北京市、河北省等華北地區(qū)的20個蔬菜種植基地或區(qū)域的調查數據及國家農業(yè)科學數據共享中心的數據驗證評估模型的有效性,結果表明基于組合優(yōu)化決策樹的農產品安全評估模型能夠較為準確地對農產品質量安全風險進行評估,具有一定的食品安全風險預警作用。
3.4.3 食品安全情況分析 鄂旭等[21]對食品安全情況進行分析,對傳統(tǒng)決策樹進行改進,基于粗糙集變精度模型構建決策樹新方法,計算各屬性的加權平均變精度粗糙度值,選擇值最小的屬性作為相應節(jié)點,構建具有精確置信度的決策規(guī)則。通過食品安全信息表實例證實該方法可行性,且對食品安全決策有更優(yōu)化的應用。決策樹雖然具有將復雜問題分點簡化的邏輯思維特性,但產生錯誤可能性也隨之增大,而且無法解決數據噪音問題,所以需要繼續(xù)改進提高,從而更好地對食品安全進行監(jiān)管、預警,為食品安全決策提供依據。
3.5.1 概述 SVM是機器學習的代表方法之一。其與神經網絡一樣都是從經驗數據集中學習的,是數據驅動的學習機。但不同的是神經網絡學習的目標函數是經驗風險最小化,得到的是小的訓練誤差,而支持向量機學習的目標函數是結構風險最小化,得到的是小的泛化誤差[22]。在實際應用中支持向量機技術主要用來解決模式識別和函數回歸問題,在非線性系統(tǒng)建模、時間序列預測和疾病診斷等領域都有涉及。主要的研究應用領域為糧食安全風險預警、乳制品安全風險評估等。
3.5.2 細菌性食物中毒暴發(fā)事件預測預警 段鶴君、邵兵[23]利用2001-2009年萬方、同方和維普等數據庫中的全國范圍內正式發(fā)表的文獻報道中細菌性食物中毒數據資料,快速有效地對細菌性中毒因素進行評估,以數據資料中隨機抽取的70%數據作為訓練集,通過PCA和SVM建立回歸模型,以數據資料中剩余30%數據作為測試集進行預測,結果顯示達到80%以上的預測準確率。
3.5.3 糧食安全風險預警 Zhu Changxing等[24]為克服傳統(tǒng)食品風險預警模型在假設、樣本量、泛化能力等方面存在的不足,將SVM分類與預警理論相結合,提出一種基于SVM的中國糧食安全風險預警模型。構建SVM模型并通過實驗計算表明該方法較傳統(tǒng)方法更加精確,可以為決策者提供更可靠的依據。
3.5.4 乳制品安全風險評估 洪雪婷[25]以乳制品為例,建立多層次、多指標的乳制品安全風險評估指標體系,將實際數據導入基于貓群算法優(yōu)化的支持向量機模型中進行預測,再通過Matlab[26]比較預測結果,驗證模型準確性,表明該模型能夠對食品安全進行風險預警,以便更好地對食品質量安全進行監(jiān)控。SVM具有結構風險最小化的特點,在解決非線性、小樣本、高維的機器學習領域中有獨特優(yōu)勢。但是目前SVM許多理論解釋并不完善,在實際算法中不能完全實現(xiàn),許多方面仍需要進一步討論研究。
機器學習的應用需要較多的信息數據,而目前我國食品安全數據的采集、分析和利用仍存在問題[27]。數據共享機制不完善,上報機制落后。各個監(jiān)管部門、衛(wèi)生機構和食品廠商缺乏相互共享的平臺,導致信息數據封閉,無法流通利用。此外信息平臺落后、情況上報制度不完善,應時所收集的數據沒有及時上報有關部門機構,信息無法及時利用導致信息數據滯后[28]。信息數據質量不高,可利用率低[29]。利用機器學習建立食品安全風險預警模型需要大量的信息數據作為訓練資料,而地方監(jiān)測哨點發(fā)展程度不均勻,導致監(jiān)測收集的信息數據重復、交叉以及缺乏地區(qū)針對性。
新時代數據信息快速更新,機器學習已經具備一定解決實際問題的能力,成為一種支持服務類的技術,在各個領域中取得較好成果,但應用于食品安全風險預警中仍需要改進完善。將不同種類的機器學習方法以不同形式組合在一起,跳出以神經網絡、貝葉斯以及支持向量機等機器學習為中心的框架,與國內外其他領域中先進的技術相結合,構建新型綜合性食品安全預警模型,這必將使機器學習在食品安全預警應用中得到快速發(fā)展。大數據時代是社會發(fā)展的必然,針對食品安全的大數據特點,如何快速發(fā)掘出有價值的數據,掌握其分布規(guī)律,做好預測并防范是未來發(fā)展方向。然而面對我國巨大的人口基數、復雜的食品安全環(huán)境及消費人群,需要把握好大數據時代發(fā)展契機,引進新思路、新方法,加強大數據分析與利用,使食品安全與大數據融合,提高食品安全質量監(jiān)測強度,改善人民生活水平[30]。