国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于貪婪算法與隨機(jī)森林算法的大米產(chǎn)地確證方法研究

2022-10-17 09:48:28崔浩梁林杰王婉秋王靖會(huì)張淑梅李全明秦堯
農(nóng)業(yè)與技術(shù) 2022年19期
關(guān)鍵詞:產(chǎn)地森林分類

崔浩梁林杰王婉秋王靖會(huì)張淑梅李全明秦堯

(1.吉林建筑科技學(xué)院網(wǎng)絡(luò)信息中心,吉林 長春 130000;2.吉林建筑科技學(xué)院土木工程學(xué)院,吉林 長春 130000;3.吉林建筑科技學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,吉林 長春 130000;4.吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,吉林 長春 130000;5.范家屯第二中學(xué),吉林 長春 130000)

隨著全球食品貿(mào)易體系的不斷發(fā)展,我國地標(biāo)大米在獨(dú)特的地理環(huán)境培育下,造就了不同于其他國家的獨(dú)特風(fēng)味,在我國百姓日常生活中占據(jù)了重要的食品地位。隨著生活水平的不斷提高,人民對食品的營養(yǎng)價(jià)值、食用口味要求也隨之提升,在眾多的食品中,我國地標(biāo)大米的食用價(jià)值也得到普遍認(rèn)可[1-3]。隨著地標(biāo)大米的價(jià)值不斷升高,部分不良商家為追求利益,開始假冒地標(biāo)大米品牌從中獲取非法利潤[4-6],導(dǎo)致地標(biāo)大米市場出現(xiàn)“難銷售,假冒多”的現(xiàn)象。在現(xiàn)今的糧食市場中,由于人們不能對地標(biāo)大米產(chǎn)品進(jìn)行真?zhèn)涡澡b別,一些不法商家便以次充好,以較低的售價(jià)冒充地標(biāo)大米,嚴(yán)重打壓了地標(biāo)大米的價(jià)格,非法占用大米市場的部分空間,影響人們對地標(biāo)大米的認(rèn)可度。

我國為保護(hù)地標(biāo)大米采取了眾多措施,放眼國內(nèi)為保護(hù)地標(biāo)大米出臺(tái)多種法律法規(guī),并且多次規(guī)范市場,但是地標(biāo)大米的假冒現(xiàn)象屢禁不止。國內(nèi)學(xué)者為了保護(hù)地標(biāo)大米采用物聯(lián)網(wǎng)技術(shù)、生物指紋信息技術(shù)與編碼技術(shù)等對地標(biāo)大米進(jìn)行過程跟蹤查詢,構(gòu)建地標(biāo)大米產(chǎn)地溯源平臺(tái)實(shí)現(xiàn)過程跟蹤[7-14],但是這種溯源平臺(tái)結(jié)果依舊存在一定的偏差。以二維碼溯源為例,溯源的真實(shí)性取決于二維碼的真實(shí)性,但由于人為參與到溯源過程中,易出現(xiàn)“真條碼,假溯源”的現(xiàn)象,使得溯源結(jié)果有可能出現(xiàn)偏差。為解決人為因素對產(chǎn)地鑒別產(chǎn)生的影響,國內(nèi)學(xué)者開始采用機(jī)器學(xué)習(xí)方法從源頭對大米的真實(shí)性進(jìn)行鑒別[15,16]。由于機(jī)器學(xué)習(xí)方法可以根據(jù)地標(biāo)大米的特征指標(biāo)找尋潛在關(guān)系,因此可以在源頭構(gòu)建地標(biāo)大米的產(chǎn)地確證模型,降低人為因素在傳統(tǒng)產(chǎn)地鑒別中的影響?,F(xiàn)階段隨機(jī)森林與人工神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用到地標(biāo)大米的產(chǎn)地確證中,并已出現(xiàn)依托機(jī)器學(xué)習(xí)算法構(gòu)建的大米產(chǎn)地確證平臺(tái),填補(bǔ)了現(xiàn)階段產(chǎn)地溯源平臺(tái)的空缺。如,胡翼然等[17]采用隨機(jī)森林算法對絨柄牛肝菌產(chǎn)地進(jìn)行鑒別,模型的正確率達(dá)到99.6%;楊尚梅等[18]采用隨機(jī)森林算法對蕨麻產(chǎn)地進(jìn)行鑒別,模型的正確率達(dá)到100%;Canizoa等[19]采用隨機(jī)森林方法對阿根廷葡萄籽進(jìn)行產(chǎn)地鑒別,正確率達(dá)到93%;臧妍宇[20]采用人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建柳河產(chǎn)地確證模型,模型準(zhǔn)確率達(dá)到95%;王靖會(huì)[21]等采用隨機(jī)森林算法構(gòu)建產(chǎn)地確證模型,模型準(zhǔn)確率達(dá)到97.55%;李芳等[22]構(gòu)建了大米質(zhì)量追溯與產(chǎn)地判別系統(tǒng),通過8種礦物質(zhì)元素對大米進(jìn)行產(chǎn)地分類,系統(tǒng)的分類準(zhǔn)確率達(dá)到94.5%;崔浩[23]采用并行化的隨機(jī)森林算法構(gòu)建了大米產(chǎn)地確證平臺(tái),實(shí)現(xiàn)了地標(biāo)大米的產(chǎn)地確證功能。

研究表明,隨機(jī)森林算法已經(jīng)被普遍應(yīng)用在產(chǎn)地鑒別方向[24-28],并已經(jīng)實(shí)現(xiàn)依托機(jī)器學(xué)習(xí)算法構(gòu)建的大米產(chǎn)地確證平臺(tái),從源頭為地標(biāo)大米提供保障,但是可以看出,隨機(jī)森林算法在產(chǎn)地確證中,由于地標(biāo)大米的特征指標(biāo)較為復(fù)雜,樣本檢測數(shù)量較多,導(dǎo)致現(xiàn)階段隨機(jī)森林算法在產(chǎn)地確證中的檢測成本偏高,因此有效進(jìn)行篩選元素指標(biāo)建立大米原產(chǎn)地確證模型,降低現(xiàn)階段產(chǎn)地確證平臺(tái)的成本具有深遠(yuǎn)的意義[8-12]。綜上,本文以吉林省梅河地理標(biāo)志大米的礦物質(zhì)元素含量數(shù)據(jù)為基礎(chǔ),研究貪婪算法與隨機(jī)森林算法等關(guān)鍵技術(shù),依托貪婪算法進(jìn)行特征篩選,并以隨機(jī)森林算法構(gòu)建產(chǎn)地確證模型,降低產(chǎn)地確證成本,為完善地標(biāo)大米產(chǎn)地確證體系提供參考。

1 材料與方法

1.1 數(shù)據(jù)來源

本文為保障數(shù)據(jù)來源的可靠性,對梅河、延邊、輝南、柳河4個(gè)地區(qū)地標(biāo)大米進(jìn)行實(shí)地采樣確保數(shù)據(jù)的真實(shí)性。同時(shí)為避免數(shù)據(jù)分布不平衡對模型結(jié)果造成影響,梅河口地區(qū)采集85份地標(biāo)大米樣本,柳河、輝南、延邊地區(qū)采集共81份地標(biāo)大米樣本,并且將上述3個(gè)區(qū)域的樣本作為非梅河地區(qū)數(shù)據(jù)。采集地區(qū)的具體分布如表1所示。

表1 采集樣本地點(diǎn)分布信息表

1.2 礦物質(zhì)元素含量檢測

本文基于我國發(fā)行的GB 5009.12-2010、GB/T 5009.91-2003、GB/T 14609-2008的食品標(biāo)準(zhǔn),采用新豐牌HNMJ3碾米機(jī)與JLGJ4.5礱谷機(jī)分別進(jìn)行脫殼和去糙工作,并用JXFM110錘式旋風(fēng)磨對稻米樣品進(jìn)行研磨,最終采用石墨爐原子吸收分光光度法測定鉛(Pb)和鎘(Cd)的元素含量,其余元素采用采用火焰原子吸收分光光度法測定。

1.3 數(shù)據(jù)集的劃分

本文為了驗(yàn)證模型的有效性,將數(shù)據(jù)分成3個(gè)數(shù)據(jù)集,分別為數(shù)據(jù)集A、數(shù)據(jù)集B與數(shù)據(jù)集C。其中3個(gè)數(shù)據(jù)集的數(shù)據(jù)總數(shù)分別為60條、100條與166條,同時(shí)每個(gè)數(shù)據(jù)集按照7∶3的比例劃分訓(xùn)練集與測試集,并且為了消除不平衡數(shù)據(jù)對結(jié)果產(chǎn)生影響,每個(gè)訓(xùn)練集與測試集中梅河與非梅河地區(qū)的數(shù)據(jù)量大體相同。

2 相關(guān)技術(shù)介紹

2.1 特征篩選

在機(jī)器學(xué)習(xí)算法中,特征篩選就是將M個(gè)原始特征數(shù)據(jù)按照一定規(guī)則篩除無關(guān)緊要的特征數(shù)據(jù),這樣不僅可以提升模型的分類效果,而且可以降低模型的過擬合程度。同時(shí)由于特征篩選將特征屬性進(jìn)一步進(jìn)行縮減,可以有效降低模型的復(fù)雜度與處理數(shù)據(jù)的資源需求,并且降低訓(xùn)練集數(shù)據(jù)構(gòu)建模型的成本。

特征篩選的基本流程:采用特定的搜索方法對原始特征集合進(jìn)行搜索并且形成特征子集;采用一定的評(píng)價(jià)函數(shù)指標(biāo)對特征子集進(jìn)行評(píng)估;當(dāng)滿足了相關(guān)要求后停止對特征屬性進(jìn)行搜索,如當(dāng)分類精度達(dá)到了某個(gè)點(diǎn),可以選擇其作為特征子集;使用已經(jīng)明確分類結(jié)果的測試集數(shù)據(jù)對特征子集進(jìn)行效果驗(yàn)證。

2.2 貪婪算法原理

貪婪算法在處理問題的時(shí)候,將處理問題的過程分為多個(gè)過程進(jìn)行處理,并采用逐步建立最優(yōu)解的方式,在問題的不同階段做出明顯最優(yōu)的決策,從問題的初始解開始,使用自頂向下的迭代方法進(jìn)行連續(xù)的貪婪選擇,并不斷向給定目標(biāo)靠近,以盡快獲得更好的解。

貪婪算法通常遵循的步驟:分析問題的內(nèi)容,明確問題要解決的目標(biāo)以及將問題劃分成多個(gè)子問題;針對多個(gè)子問題的范圍與解決目標(biāo),求得子問題的最優(yōu)解;在獲得所有子問題的最優(yōu)解后,綜合所有子問題最優(yōu)解作為最終的全局最優(yōu)解。

2.3 隨機(jī)森林算法原理

隨機(jī)森林算法采用可放回式的隨機(jī)抽樣方法獲得多個(gè)訓(xùn)練子集,同時(shí)每個(gè)訓(xùn)練子集構(gòu)建基礎(chǔ)的決策樹分類器,多個(gè)決策樹分類器形成隨機(jī)森林模型。隨機(jī)森林在分類過程中,樣本數(shù)據(jù)會(huì)分別輸入到多個(gè)決策樹分類器中,每個(gè)決策樹最終會(huì)產(chǎn)生1個(gè)分類結(jié)果,并采用投票方式確定最終的分類結(jié)果。由于隨機(jī)森林算法是由多個(gè)基礎(chǔ)的決策樹分類器構(gòu)成,分類結(jié)果來源于多個(gè)基礎(chǔ)分類器進(jìn)行投票操作,因此降低了傳統(tǒng)分類過程中單一分類器可能產(chǎn)生的錯(cuò)誤結(jié)果,因此隨機(jī)森林模型在產(chǎn)地分類中被廣泛應(yīng)用。

隨機(jī)森林算法模型的構(gòu)建過程:采用可放回式的抽樣方法對訓(xùn)練集數(shù)據(jù)依次進(jìn)行隨機(jī)抽取形成訓(xùn)練子集,訓(xùn)練子集作為基本分類器的原始數(shù)據(jù)來源;針對每個(gè)訓(xùn)練子集構(gòu)建決策樹,用以形成隨機(jī)森林模型;當(dāng)新樣本的元素?cái)?shù)據(jù)輸入模型中時(shí),每個(gè)基礎(chǔ)的決策樹分類器對新樣本進(jìn)行分類操作,將形成的多個(gè)分類結(jié)果進(jìn)行投票處理,將投票后的結(jié)果作為最終分類結(jié)果。

2.4 模型評(píng)估標(biāo)準(zhǔn)

混淆矩陣中包含真正例、假正例、真反例與假反例4種主要數(shù)據(jù)結(jié)果,并且通過以上數(shù)據(jù)結(jié)果計(jì)算模型的準(zhǔn)確度、特異度與靈敏度,計(jì)算公式如(1)、(2)、(3)所示?;煜仃囍械脑敿?xì)設(shè)置如表2所示。

(1)

(2)

(3)

式中,TP為真正例;TN為真反例;FP為假正例;FN為假反例。

表2 產(chǎn)地確證模型的混淆矩陣分布

3 以貪婪算法篩選特征指標(biāo)構(gòu)建的隨機(jī)森林產(chǎn)地模型分析

3.1 篩選特征指標(biāo)

本文通過貪婪算法分別對數(shù)據(jù)集A、數(shù)據(jù)集B與數(shù)據(jù)集C中的訓(xùn)練集數(shù)據(jù)進(jìn)行特征篩選,并依據(jù)篩選結(jié)果構(gòu)建測試集數(shù)據(jù)。依據(jù)貪婪算法篩選的特征指標(biāo)結(jié)果如表3所示。

表3 貪婪算法篩選的特征指標(biāo)

由上述結(jié)果可以看出,隨著數(shù)據(jù)集的不斷增加,篩選的特征指標(biāo)也隨之變化,在處理數(shù)據(jù)集B與數(shù)據(jù)集C時(shí),特征指標(biāo)數(shù)目整體保持不變,篩選的元素個(gè)別出現(xiàn)變化,分析原因可知,隨著數(shù)據(jù)集的不斷增加,元素之間的內(nèi)在聯(lián)系與規(guī)則也隨之體現(xiàn)出來。

3.2 模型對比分析

在使用隨機(jī)森林算法構(gòu)建模型的過程中,數(shù)據(jù)通常被分為訓(xùn)練集與測試集,其中訓(xùn)練集部分?jǐn)?shù)據(jù)用以構(gòu)建數(shù)據(jù)模型,另外部分?jǐn)?shù)據(jù)對模型進(jìn)行第1次評(píng)估,測試集數(shù)據(jù)對模型進(jìn)行第2次性能評(píng)估。當(dāng)模型在訓(xùn)練集中的評(píng)估結(jié)果較好,但在測試集數(shù)據(jù)中評(píng)估效果較差時(shí),即模型出現(xiàn)在訓(xùn)練集與測試集數(shù)據(jù)準(zhǔn)確率相差較大的現(xiàn)象,叫作過擬合現(xiàn)象。

本文以貪婪算法篩選特征指標(biāo)作為訓(xùn)練集與測試集的數(shù)據(jù)屬性,同時(shí)采用隨機(jī)森林算法對數(shù)據(jù)集A、數(shù)據(jù)集B與數(shù)據(jù)集C分別構(gòu)建大米產(chǎn)地確證模型,與傳統(tǒng)隨機(jī)森林模型進(jìn)行比對。其中模型的比較結(jié)果如表4所示。

表4 模型對比結(jié)果

由表4可知,在處理數(shù)據(jù)集A時(shí),本文使用貪婪算法篩選特征指標(biāo)建立的隨機(jī)森林模型與傳統(tǒng)的隨機(jī)森林模型具有相同的泛化能力,分析其原因可知,由于數(shù)據(jù)集A的數(shù)據(jù)較少,元素之間的數(shù)據(jù)范圍關(guān)系不明顯,不足以找到規(guī)則特征,因此導(dǎo)致在局部篩選過程中,最終的元素結(jié)果不能作為整體篩選的最優(yōu)結(jié)果。但是隨著數(shù)據(jù)集的不斷增加,元素之間的特征關(guān)系也逐步體現(xiàn)出來。在處理數(shù)據(jù)集B時(shí),貪婪算法篩選的元素指標(biāo)建立隨機(jī)森林模型相比傳統(tǒng)的隨機(jī)森林模型在訓(xùn)練集中效果相同,但是前者在測試集中比傳統(tǒng)的隨機(jī)森林模型具有更好的分類效果,過擬合程度較低。在處理數(shù)據(jù)集C時(shí),貪婪算法篩選元素構(gòu)建的隨機(jī)森林模型在訓(xùn)練集中依舊與傳統(tǒng)隨機(jī)森林算法具有相同的分類效果,在測試集中前者的分類效果比傳統(tǒng)的隨機(jī)森林模型效果更好,過擬合程度相比更低。分析原因可知,在處理數(shù)據(jù)集B與數(shù)據(jù)集C的過程中,基于貪婪算法構(gòu)建的隨機(jī)森林模型隨著數(shù)據(jù)集不斷增加,元素之間的特征關(guān)系更加明顯,構(gòu)建的產(chǎn)地確證模型相比傳統(tǒng)模型具有更好的分類效果,過擬合程度也隨之降低。

綜上表明,通過貪婪算法篩選的Cu、Fe、Zn、Mg、K、Ca、Pb、Na 8種礦物質(zhì)元素可以作為梅河地區(qū)地標(biāo)大米的產(chǎn)地確證指標(biāo),相比于傳統(tǒng)隨機(jī)森林算法構(gòu)建的產(chǎn)地確證模型,降低了產(chǎn)地確證成本,達(dá)到了本文預(yù)期的模型效果。

4 結(jié)論與展望

本文的研究表明,相比于傳統(tǒng)的隨機(jī)森林算法在區(qū)分梅河地區(qū)的地標(biāo)大米過程中,基于貪婪算法構(gòu)建的隨機(jī)森林模型具有更好的分類效果,同時(shí)隨著數(shù)據(jù)集的不斷增加,分類效果也隨之得以提升,最終篩選出的Cu、Fe、Zn、Mg、K、Ca、Pb、Na 8種礦物質(zhì)元素指標(biāo)可以作為梅河地區(qū)的大米產(chǎn)地確證指標(biāo)元素,實(shí)現(xiàn)以較少的特征變量構(gòu)建有效的大米產(chǎn)地確證模型的目標(biāo),同時(shí)為后期依托貪婪算法與隨機(jī)森林算法構(gòu)建的梅河地區(qū)大米產(chǎn)地確證平臺(tái)提供一定的理論基礎(chǔ)。

猜你喜歡
產(chǎn)地森林分類
分類算一算
警惕“洗產(chǎn)地”暗礁
中國外匯(2019年22期)2019-05-21 03:14:56
分類討論求坐標(biāo)
食物離產(chǎn)地越遠(yuǎn)越好
測定不同產(chǎn)地寬筋藤中5種重金屬
中成藥(2018年8期)2018-08-29 01:28:16
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
哈Q森林
哈Q森林
哈Q森林
青神县| 九江县| 崇左市| 隆昌县| 达州市| 乐平市| 安康市| 延津县| 永登县| 全椒县| 乌恰县| 嵊泗县| 遂宁市| 五常市| 鹿邑县| 石阡县| 昌平区| 和平区| 旅游| 抚顺市| 义马市| 唐河县| 松江区| 甘孜| 长顺县| 铜鼓县| 岫岩| 乌拉特后旗| 兴和县| 黔南| 启东市| 扶沟县| 峨山| 罗甸县| 金乡县| 伊吾县| 磐石市| 宜黄县| 鄄城县| 宾阳县| 南华县|