摘要 [目的]探究煙葉的外觀特征、工藝參數(shù)與片煙葉片結(jié)構(gòu)之間的關(guān)系,為提升打葉質(zhì)量提供理論依據(jù)。[方法]以片煙葉片結(jié)構(gòu)預(yù)測(cè)模型為研究對(duì)象,選取870條煙葉外觀特征、打葉工藝參數(shù)與對(duì)應(yīng)葉片結(jié)構(gòu)數(shù)據(jù)作為訓(xùn)練集,構(gòu)建了包括支持向量機(jī)、隨機(jī)森林、多層感知機(jī)等機(jī)器學(xué)習(xí)回歸模型,并基于訓(xùn)練集交叉驗(yàn)證平均MAE進(jìn)行模型選擇。以97條煙葉外觀特征、打葉工藝參數(shù)與對(duì)應(yīng)葉片結(jié)構(gòu)數(shù)據(jù)作為測(cè)試集來(lái)評(píng)估所選回歸模型的泛化性能。[結(jié)果]片煙大片率最佳預(yù)測(cè)模型為SVR,其在測(cè)試集上的相對(duì)分析誤差和擬合優(yōu)度分別為1.685 8和0.648 1,預(yù)測(cè)值與真實(shí)值間的相關(guān)系數(shù)為0.806 2。片煙中片率最佳預(yù)測(cè)模型為Random Forest,其在測(cè)試集上的相對(duì)分析誤差和擬合優(yōu)度分別為1.590 8和0.604 9,預(yù)測(cè)值與真實(shí)值間的相關(guān)系數(shù)為0.780 4。[結(jié)論]基于煙葉外觀特征和打葉工藝參數(shù),通過(guò)構(gòu)建SVR和Random Forest模型并選取適當(dāng)?shù)某瑓?shù),能夠較為準(zhǔn)確地預(yù)測(cè)所得片煙大片率和中片率。
關(guān)鍵詞 煙葉;外觀特征;工藝參數(shù);葉片結(jié)構(gòu);回歸模型
中圖分類號(hào) TS 41 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 0517-6611(2024)23-0226-06
doi:10.3969/j.issn.0517-6611.2024.23.049
Prediction Model of Leaf Structures of Tobacco Strips Based on the Appearance Features of Tobacco Leaves and Threshing Technical Parameters
LIANG Yao-xing1,LIU Xiao-han2,HUANG Rui-yin1 et al
(1.China Tobacco Guangdong Industrial Co.,Ltd.,Guangzhou,Guangdong 510385;2.Guangdong Shaoguan Tobacco Recuring Co.,Ltd.,Shaoguan,Guangdong 512000)
Abstract [Objective]To explore the relationship between appearance features of tobacco leaves,threshing technical parameters and leaf structure of tobacco strips,to provide theoretical basis for improving the quality of the threshing and redrying process.[Method]Taking the leaf structure prediction model as the research object,870 tobacco leaf appearance features,threshing technical parameters and corresponding leaf structure data were selected as the training set,and machine learning regression models were constructed including support vector machine,random forest,multi-layer perceptron.Model selection was based on the cross-validation MAE of the training set.The generalisation performance of the selected regression models was evaluated using 97 tobacco appearance features,threshing technical parameters and corresponding leaf structure data as the test set.[Result]The best model for predicting the percentage of strips with >25.4 mm was SVR,with relative percentage difference and goodness of fit of 1.685 8 and 0.648 1 on the test set,respectively,and the correlation coefficient between the predicted values and the true values of 0.806 2.The best model for predicting the percentage of strips of 12.7-25.4 mm was Random Forest,with relative percentage difference and goodness of fit of 1.590 8 and 0.604 9 on the test set,respectively,and the correlation coefficient between the predicted and true values was 0.780 4.[Conclusion]Based on the appearance features of tobacco leaves and the threshing technical parameters,the SVR and Random Forest models were constructed and appropriate hyperparameters were selected,which could accurately predict the the percentage of strips with >25.4 mm and the percentage of strips of 12.7-25.4 mm.
Key words Tobacco leaves;Appearance features;Technical parameters;Leaf structure;Regression models
基金項(xiàng)目 廣東中煙工業(yè)有限責(zé)任公司項(xiàng)目(Q/GDZY 207011-02)。
作者簡(jiǎn)介 梁耀星(1984—),男,廣東陽(yáng)江人,農(nóng)藝師,碩士,從事煙葉質(zhì)量檢驗(yàn)及研究等工作。*通信作者,高級(jí)工程師,碩士,從事煙葉原料研究工作。
收稿日期 2023-09-25
打葉復(fù)烤作為承接煙草農(nóng)業(yè)種植和卷煙工業(yè)生產(chǎn)的紐帶,其工藝任務(wù)是對(duì)煙葉進(jìn)行梗、葉分離,并對(duì)分離出的片煙進(jìn)行篩分和干燥,便于片煙醇化、貯存,保證片煙滿足制絲生產(chǎn)要求[1]。隨著卷煙工業(yè)的不斷發(fā)展,為了改善卷煙,特別是細(xì)支卷煙的煙絲結(jié)構(gòu),制絲環(huán)節(jié)對(duì)片煙原料提出了新的需求[2]。如何提高梗葉分離質(zhì)量,降低煙葉在打葉復(fù)烤加工過(guò)程中的造碎和各種損耗,提高片煙的質(zhì)量,是滿足客戶要求并提高打葉復(fù)烤企業(yè)經(jīng)濟(jì)效益的重要問(wèn)題[3]。閆鐵軍等[2]研究了不同形狀和尺寸的框欄及不同打輥轉(zhuǎn)速對(duì)葉片結(jié)構(gòu)的影響。其他學(xué)者在打前煙葉的溫度、含水量及打葉工藝參數(shù)對(duì)于葉片結(jié)構(gòu)的影響也有相關(guān)研究。但目前鮮有學(xué)者結(jié)合煙葉外觀特征和打葉工藝參數(shù)對(duì)葉片結(jié)構(gòu)的影響進(jìn)行研究。鑒于此,基于煙葉外觀特征及打葉工藝參數(shù),對(duì)所得成品片煙的大片率和中片率進(jìn)行研究;將煙葉的外觀特征納入研究范圍,旨在探討使用機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)提升葉片結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性的可行性。
1 材料與方法
1.1 試驗(yàn)材料
該研究采集了2020和2021年梅州6個(gè)地區(qū)、12個(gè)等級(jí)的初烤煙葉樣本共977片。由煙葉分級(jí)專家按照烤煙國(guó)家標(biāo)準(zhǔn)(GB 2635—1992)進(jìn)行等級(jí)分選,所選等級(jí)分別為上部橘黃一級(jí)煙(B1F)、上部橘黃二級(jí)煙(B2F)、上部橘黃三級(jí)煙(B3F)、上部橘黃四級(jí)煙(B4F)、中部橘黃一級(jí)煙(C1F)、中部橘黃二級(jí)煙(C2F)、中部橘黃三級(jí)煙(C3F)、中部橘黃四級(jí)煙(C4F)、下部橘黃一級(jí)煙(X1F)、下部橘黃二級(jí)煙(X2F)、下部橘黃三級(jí)煙(X3F)、下部橘黃四級(jí)煙(X4F)。
1.2 工藝參數(shù)與葉片結(jié)構(gòu)
煙葉加工在某復(fù)烤廠的潤(rùn)葉打葉生產(chǎn)線上進(jìn)行,生產(chǎn)工藝參數(shù)由生產(chǎn)線上工人按照潤(rùn)葉打葉的經(jīng)驗(yàn)進(jìn)行設(shè)定,所有潤(rùn)葉打葉工藝參數(shù)均來(lái)自生產(chǎn)線的中控系統(tǒng)。
在生產(chǎn)線的各打葉出口匯總皮帶處,葉片經(jīng)過(guò)光電除雜后,在進(jìn)入烤片機(jī)冷卻區(qū)之前,每小時(shí)對(duì)烤前片煙進(jìn)行采樣并使用4層振篩檢測(cè)葉片結(jié)構(gòu),獲得烤前片煙的大片率和中片率數(shù)據(jù)。該研究中涉及的打葉工藝參數(shù)見(jiàn)表1,表中一打一聯(lián)形狀、一打二聯(lián)形狀、一打三聯(lián)形狀取值為1時(shí)表示六邊形,取值為0時(shí)表示菱形。
1.3 煙葉外觀特征檢測(cè) 該研究使用煙葉綜合測(cè)試臺(tái)(廠家:上海創(chuàng)和億電子科技發(fā)展有限公司;型號(hào):GTM 600)采集煙葉樣本圖像,該設(shè)備主要由一個(gè)避光箱體及位于箱體內(nèi)部上方的光源和相機(jī)組成,能夠提供一個(gè)穩(wěn)定的拍攝環(huán)境。
將采集的煙葉樣本展平后置于綜合測(cè)試臺(tái)內(nèi)采集煙葉樣本圖像(圖1),從中提取外觀特征,包括重量、長(zhǎng)度、寬度、周長(zhǎng)、面積、顏色深淺、顏色均勻度、油分、厚度和結(jié)構(gòu);從圖像中提取不同顏色空間中的顏色特征,包括RGB顏色空間中的B均值、G均值、R均值,HSV顏色空間中的V均值、S標(biāo)準(zhǔn)偏差以及Lab顏色空間中的L均值、a均值和b均值。
1.4 研究方法
1.4.1 數(shù)據(jù)劃分。按照生產(chǎn)煙葉的批號(hào)對(duì)數(shù)據(jù)集進(jìn)行分層抽樣[4],設(shè)定訓(xùn)練集與測(cè)試集的比例為90%∶10%。此時(shí)訓(xùn)練集與測(cè)試集的樣本量分別為870和97。
1.4.2 數(shù)據(jù)探索。使用95%置信度的誤差橢圓法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行離群點(diǎn)檢測(cè),剔除訓(xùn)練集與測(cè)試集中明顯的離群點(diǎn)。誤差橢圓是一種基于主成分分析的離群點(diǎn)檢測(cè)方法,通過(guò)將高維數(shù)據(jù)集降至二維并根據(jù)誤差橢圓判斷樣本是否為離群點(diǎn)[5]。對(duì)煙葉外觀特征、工藝參數(shù)和葉片結(jié)構(gòu)分別繪制頻數(shù)分布直方圖,并根據(jù)變量分布檢查數(shù)據(jù)集中有無(wú)極端值。繪制煙葉外觀特征、工藝參數(shù)和葉片結(jié)構(gòu)之間的相關(guān)系數(shù)熱力圖,檢查變量間是否存在高相關(guān)性。
1.4.3 特征工程。使用Drop Correlated Features算法,以0.75為皮爾遜相關(guān)系數(shù)閾值,消除煙葉外觀特征和工藝參數(shù)中的高相關(guān)特征。再對(duì)剩余煙葉外觀特征、工藝參數(shù)與葉片結(jié)構(gòu)計(jì)算相關(guān)系數(shù)矩陣,篩選出同時(shí)與大片率和中片率的相關(guān)系數(shù)絕對(duì)值大于0.1的特征。
1.4.4 模型訓(xùn)練與超參優(yōu)化。由于訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)需要進(jìn)行統(tǒng)一的預(yù)處理步驟,為此將數(shù)據(jù)標(biāo)準(zhǔn)化和預(yù)測(cè)模型以Pipeline方式進(jìn)行串聯(lián)[6]。煙葉的各外觀特征、潤(rùn)葉打葉的工藝參數(shù)之間的量綱不同,取值范圍相差較大,為加快模型訓(xùn)練速度并保證訓(xùn)練效果,需要使用Standard Scaler對(duì)外觀特征和工藝參數(shù)進(jìn)行標(biāo)準(zhǔn)化[7]。
該研究中選取嶺回歸(Ridge)、套索回歸(Lasso)、K近鄰(K Neighbors)、支持向量機(jī)(SVR)、極端隨機(jī)樹(shù)(Extra Trees)、隨機(jī)森林(Random Forest)、梯度提升(Gradient Boosting)和多層感知機(jī)(MLP)等多種算法對(duì)訓(xùn)練集進(jìn)行擬合,采用交叉驗(yàn)證結(jié)合網(wǎng)格搜索的方法為每種模型選擇最優(yōu)超參數(shù)組合。
Ridge和Lasso是2個(gè)常用的帶有正則化的線性回歸模型,其目的是通過(guò)添加懲罰項(xiàng)來(lái)解決過(guò)擬合問(wèn)題,并且在特征選擇方面有不同的特點(diǎn)。在普通線性回歸中,目標(biāo)是最小化實(shí)際值與預(yù)測(cè)值之間的平方誤差。但在Ridge回歸中,除了最小化平方誤差外,還會(huì)加上權(quán)重的平方和作為正則化項(xiàng)[8],其目標(biāo)函數(shù)如下:
Minimizeni=1(yi-i)2+αpj=1β2j)
式中:yi是實(shí)際值;i是預(yù)測(cè)值;n是樣本數(shù);p是特征數(shù);βj是回歸系數(shù);α是正則化參數(shù),控制了正則化的強(qiáng)度。較大的α將導(dǎo)致較強(qiáng)的正則化,有助于降低模型的復(fù)雜性和過(guò)擬合風(fēng)險(xiǎn)[9]。
Lasso回歸類似于Ridge回歸,但其正則化項(xiàng)是權(quán)重的絕對(duì)值之和,其目標(biāo)函數(shù)如下:
Minimizeni=1(yi-i)2+αpj=1|βj|)
式中,符號(hào)yi、i、n、p、βj和α的含義與Ridge回歸中相同。與Ridge回歸不同的是,Lasso回歸在優(yōu)化過(guò)程中具有特征選擇的功能[10],它傾向于使某些特征的權(quán)重為0,從而實(shí)現(xiàn)特征選擇和模型簡(jiǎn)化,這使得Lasso回歸在具有大量特征的情況下特別有用,可以幫助識(shí)別對(duì)目標(biāo)變量最具影響力的特征[11]。
K Neighbors回歸是一種非參數(shù)的監(jiān)督學(xué)習(xí)算法[12],可用于解決回歸問(wèn)題。與前面的線性回歸不同,K近鄰回歸不會(huì)通過(guò)擬合參數(shù)來(lái)建立模型,而是根據(jù)輸入數(shù)據(jù)的相似性來(lái)進(jìn)行預(yù)測(cè)。K Neighbors的優(yōu)點(diǎn)包括不需要假設(shè)數(shù)據(jù)分布、適用于非線性關(guān)系等[13]。
SVR是一種非線性回歸方法,它通過(guò)映射數(shù)據(jù)到高維特征空間來(lái)處理非線性關(guān)系,并在優(yōu)化中考慮了模型復(fù)雜性與邊界帶的平衡[14]。SVR適用于復(fù)雜的非線性問(wèn)題,具有較好的泛化性能和對(duì)異常值的魯棒性[15]。
Extra Trees和Random Forest都是基于決策樹(shù)的集成學(xué)習(xí)算法,用于解決回歸問(wèn)題。通過(guò)構(gòu)建多個(gè)決策樹(shù),將預(yù)測(cè)結(jié)果組合起來(lái),以提高回歸性能和泛化能力[16]。
Random Forest由多個(gè)決策樹(shù)組成,每個(gè)決策樹(shù)都是通過(guò)對(duì)訓(xùn)練集的有放回抽樣和特征隨機(jī)選擇構(gòu)建的。在構(gòu)建每個(gè)決策樹(shù)時(shí),每個(gè)節(jié)點(diǎn)的分裂特征是從一個(gè)隨機(jī)特征子集中選擇的[17],這有助于降低模型的方差和過(guò)擬合風(fēng)險(xiǎn)。
Extra Trees是Random Forest的一種變體。在構(gòu)建每個(gè)決策樹(shù)時(shí),與傳統(tǒng)的Random Forest在節(jié)點(diǎn)分裂時(shí)使用隨機(jī)特征不同,Extra Trees在節(jié)點(diǎn)分裂時(shí)對(duì)特征進(jìn)行更進(jìn)一步的隨機(jī)化。具體來(lái)說(shuō),它在每個(gè)特征上使用隨機(jī)的切分點(diǎn),而不是根據(jù)特征的某個(gè)統(tǒng)計(jì)量來(lái)選擇最佳的切分點(diǎn)。這種額外的隨機(jī)性使得Extra Trees在訓(xùn)練過(guò)程中增加了多樣性,從而降低了模型的方差。
Gradient Boosting是一種基于決策樹(shù)的集成學(xué)習(xí)算法,它通過(guò)迭代地構(gòu)建多個(gè)弱學(xué)習(xí)器(通常是決策樹(shù)),并將它們組合成一個(gè)更強(qiáng)大的回歸模型[18]。通過(guò)迭代訓(xùn)練,每個(gè)新的弱學(xué)習(xí)器都會(huì)在之前弱學(xué)習(xí)器的殘差上進(jìn)行擬合,逐漸減小模型的誤差。Gradient Boosting具有能夠處理復(fù)雜的非線性關(guān)系,適用于各種類型的數(shù)據(jù)特征、不需要對(duì)數(shù)據(jù)進(jìn)行特征縮放,對(duì)于不同尺度的特征表現(xiàn)良好的特點(diǎn)[19]。
MLP是一種前向傳播的神經(jīng)網(wǎng)絡(luò),它由多個(gè)神經(jīng)元組成,這些神經(jīng)元被組織成層次結(jié)構(gòu)[20]。MLP至少包含1個(gè)輸入層、1個(gè)或多個(gè)隱藏層以及1個(gè)輸出層。輸入層接收原始特征,隱藏層根據(jù)輸入數(shù)據(jù)進(jìn)行一系列非線性變換和特征提取,輸出層用于生成最終的預(yù)測(cè)結(jié)果。MLP是一種強(qiáng)大的深度學(xué)習(xí)模型,可以逼近任何復(fù)雜的非線性映射[21],適用于各種機(jī)器學(xué)習(xí)任務(wù),包括圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等。
1.4.5 模型選擇與評(píng)估。以各模型在訓(xùn)練集上交叉驗(yàn)證所得平均MAE作為依據(jù),選取平均MAE最小的模型作為葉片結(jié)構(gòu)預(yù)測(cè)模型,使用其在測(cè)試集上進(jìn)行預(yù)測(cè),并使用相對(duì)分析誤差、擬合優(yōu)度和測(cè)試集樣本預(yù)測(cè)值與真實(shí)值的相關(guān)系數(shù)作為模型的評(píng)價(jià)指標(biāo)。
2 結(jié)果與分析
2.1 數(shù)據(jù)探索結(jié)果
2.1.1 離群點(diǎn)情況。數(shù)據(jù)集中的離群點(diǎn)可能是異常值或噪聲,而許多機(jī)器學(xué)習(xí)回歸模型都會(huì)受到異常值與噪聲的影響使得模型泛化能力不佳。該研究中對(duì)訓(xùn)練數(shù)據(jù)集擬合誤差橢圓,并由此確定了訓(xùn)練集與測(cè)試集中存在的離群點(diǎn),對(duì)其進(jìn)行剔除。剔除離群點(diǎn)后,訓(xùn)練集與測(cè)試集中的樣本數(shù)分別為843和93。訓(xùn)練數(shù)據(jù)集上繪制的誤差橢圓見(jiàn)圖2。
2.1.2 數(shù)據(jù)分布情況。變量的分布情況對(duì)于后續(xù)相關(guān)性分析及模型構(gòu)建有著重要影響。該研究分別繪制了煙葉外觀特征、工藝參數(shù)以及所得葉片結(jié)構(gòu)的分布直方圖。從煙葉外觀特征和工藝參數(shù)的直方圖(圖3)可以看出,煙葉的外觀特征與工藝參數(shù)中不存在明顯的極端值,不需要從中進(jìn)一步剔除含極端值的樣本。從葉片結(jié)構(gòu)的直方圖(圖4)可以看出,大片率與中片率基本呈現(xiàn)正態(tài)分布,且同樣沒(méi)有極端值的存在。
2.1.3 變量相關(guān)性分析。若2個(gè)自變量之間有較強(qiáng)的相關(guān)性,說(shuō)明這2個(gè)自變量所包含的信息存在一定程度的重合,因此當(dāng)數(shù)據(jù)集中的自變量存在高度相關(guān)現(xiàn)象時(shí),數(shù)據(jù)集中就存在冗余信息,這會(huì)導(dǎo)致模型訓(xùn)練和推斷的速度降低,同時(shí)也會(huì)對(duì)模型解釋帶來(lái)困難[22]。因此,該研究中繪制了所有變量之間的相關(guān)系數(shù)熱力圖,發(fā)現(xiàn)外觀特征中存在不少高相關(guān)特征,如寬度與S標(biāo)準(zhǔn)偏差、均勻度與面積占比等,另外工藝參數(shù)中也存在一些高相關(guān)特征,如M15和M17、M71和M72等,然而外觀特征與工藝參數(shù)之間并沒(méi)有明顯高相關(guān)的特征。
2.2 特征工程結(jié)果
2.2.1 高相關(guān)特征處理。通過(guò)使用Drop Correlated Features算法,消除了數(shù)據(jù)集中的高相關(guān)特征后,重新繪制剩余特征之間的相關(guān)系數(shù)熱力圖,結(jié)果見(jiàn)圖5。從圖5可以觀察到剩余特征中沒(méi)有相關(guān)系數(shù)絕對(duì)值超過(guò)0.75的特征存在,數(shù)據(jù)集中的冗余信息得到了清理。
2.2.2 特征選擇。依據(jù)剩余特征與葉片結(jié)構(gòu)間相關(guān)系數(shù)矩陣,進(jìn)一步剔除與大片率或中片率的相關(guān)系數(shù)過(guò)低(絕對(duì)值小于0.1)的特征后,剩余特征分別為B標(biāo)準(zhǔn)偏差、M131、M144、M50、M79、R標(biāo)準(zhǔn)偏差、一打一聯(lián)形狀、一打二聯(lián)形狀、二打一聯(lián)尺寸、周長(zhǎng)、深淺、重量和長(zhǎng)度。
2.3 模型訓(xùn)練與超參優(yōu)化
對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化后,采用Ridge、Lasso、K Neighbors、SVR、Extra Trees、Random Forest、Gradient Boosting、MLP共8種回歸模型對(duì)數(shù)據(jù)集進(jìn)行擬合以及超參優(yōu)化。由表2可知,片煙大片率的各回歸模型中,SVR的交叉驗(yàn)證平均MAE最小,片煙中片率的各回歸模型中,Random Forest的交叉驗(yàn)證平均MAE最小。
2.4 模型選擇與評(píng)估
對(duì)片煙大片率選擇SVR作為預(yù)測(cè)模型,對(duì)片煙中片率選擇Random Forest作為預(yù)測(cè)模型,將其分別在測(cè)試數(shù)據(jù)集上進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果表明,大片率和中片率的預(yù)測(cè)模型的相對(duì)分析誤差在1.590 8~1.685 8,擬合優(yōu)度在0.604 9~0.648 1(表3)。
分別繪制大片率和中片率的預(yù)測(cè)模型在測(cè)試集上預(yù)測(cè)值與真實(shí)值的散點(diǎn)圖并計(jì)算相關(guān)系數(shù)(圖6),結(jié)果表明大片率和中片率的預(yù)測(cè)模型給出的測(cè)試集上預(yù)測(cè)值與真實(shí)值的相關(guān)系數(shù)在0.78~0.81。
3 結(jié)論
針對(duì)基于煙葉外觀特征與打葉工藝參數(shù),預(yù)測(cè)所得片煙大中片率的問(wèn)題,該研究使用了包括SVR、MLP、Random Forest等在內(nèi)的8種機(jī)器學(xué)習(xí)回歸模型進(jìn)行預(yù)測(cè),研究結(jié)論如下:
(1)對(duì)于片煙大片率而言,泛化性能最優(yōu)的回歸模型為SVR,其在測(cè)試集上的RPD和R2分別為1.685 8和0.648 1,且在測(cè)試集上該模型的預(yù)測(cè)結(jié)果與真實(shí)值間的相關(guān)系數(shù)為0.806 2,基于煙葉外觀特征和打葉工藝參數(shù),對(duì)所得片煙大片率的預(yù)測(cè)效果較好。
(2)對(duì)于片煙中片率而言,泛化性能最優(yōu)的回歸模型為Random Forest,其在測(cè)試集上的RPD和R2分別為1.590 8和0.604 9,且在測(cè)試集上該模型的預(yù)測(cè)結(jié)果與真實(shí)值間的相關(guān)系數(shù)為0.780 4,基于煙葉外觀特征和打葉工藝參數(shù),對(duì)所得片煙中片率的預(yù)測(cè)效果較好。
(3)基于煙葉外觀特征和打葉工藝參數(shù),通過(guò)構(gòu)建合適的機(jī)器學(xué)習(xí)模型,能夠較為準(zhǔn)確地預(yù)測(cè)片煙大中片率。
參考文獻(xiàn)
[1] 王戈,萬(wàn)明宇,劉威,等.不同尺寸片煙在各級(jí)打葉風(fēng)分單元中的分布和品質(zhì)變化規(guī)律[J].煙草科技,2022,55(8):72-80.
[2] 閆鐵軍,周崇健,王躍,等.打葉框欄與打輥轉(zhuǎn)速對(duì)打葉質(zhì)量的影響[J].煙草科技,2020,53(11):76-82.
[3] 羅海燕,方文青,謝鑫,等.打葉質(zhì)量與出片率的關(guān)系[J].煙草科技,2005,38(1):8-10,19.
[4] BAIK S M, KO Y M,et al.Distributionally robust stratified sampling method for multiple input models with input uncertainty[R].
,2022.
[5] 徐誠(chéng),王鑫鑫,段世紅,等.基于誤差橢圓重采樣的粒子濾波跟蹤算法[J].儀器儀表學(xué)報(bào),2020,41(12):76-84.
[6] 陳思昂,王敏,杜薇,等.基于原煙外觀圖像和近紅外光譜的煙葉感官質(zhì)量模型研究[J].寒旱農(nóng)業(yè)科學(xué),2023,2(3):260-269.
[7] 劉玉航.基于機(jī)器學(xué)習(xí)的中醫(yī)哮喘辨證分型研究與應(yīng)用[D].青島:青島科技大學(xué),2023.
[8] 白青華,殷雪蓮,王靜,等.基于嶺回歸的河西走廊中部日光溫室低溫預(yù)測(cè)模型[J].農(nóng)學(xué)學(xué)報(bào),2023,13(5):96-100.
[9] 蘇寶琪.基于方差損失的系數(shù)正則化回歸學(xué)習(xí)[D].濟(jì)南:濟(jì)南大學(xué),2021.
[10] 馮欣,張航,辛瑞昊.基于Lasso特征選擇乳腺癌二分類算法研究[J].吉林化工學(xué)院學(xué)報(bào),2023,40(1):23-28.
[11] 李影,韓可興,蘇倩,等.基于Lasso回歸的慢性乙型肝炎發(fā)生肝硬化列線圖預(yù)測(cè)模型的構(gòu)建[J].世界華人消化雜志,2023,31(7):282-289.
[12] 關(guān)凱勝.kNN查詢中面向索引結(jié)構(gòu)的聚類算法研究[D].廣州:廣東工業(yè)大學(xué),2019.
[13] 趙晨,王濤,郭偉雄,等.基于機(jī)器視覺(jué)的烤煙煙葉部位的智能識(shí)別[J].湖南農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,49(4):405-411.
[14] 詹攀,謝守勇,劉軍,等.基于支持向量機(jī)回歸的鮮煙葉含水量預(yù)測(cè)模型[J].西南大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,38(4):165-170.
[15] 孫寶財(cái),朱蔡文,凌曉.基于SVR的含缺陷管道剩余強(qiáng)度研究[J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2022,18(2):172-176.
[16] 王順函,梁霄.基于隨機(jī)森林和XGBoost的森林火災(zāi)毀壞面積預(yù)測(cè)[J].信息與電腦(理論版),2022,34(24):5-8.
[17] 李嘉康,陶智麟,徐波,等.基于隨機(jī)森林的煙葉紋理定量分析[J].湖北農(nóng)業(yè)科學(xué),2022,61(14):155-159.
[18] 王慧君,胡定玉,方宇,等.基于梯度提升決策樹(shù)的車輪輪緣厚度磨耗預(yù)測(cè)[J].測(cè)控技術(shù),2020,39(11):80-84.
[19] 郭奇,吳建德,鄧為權(quán),等.基于梯度提升樹(shù)的煙絲水份控制研究[C]//中國(guó)自動(dòng)化學(xué)會(huì)過(guò)程控制專業(yè)委員會(huì),中國(guó)自動(dòng)化學(xué)會(huì).第31屆中國(guó)過(guò)程控制會(huì)議(CPCC 2020)摘要集.[出版地不詳]:[出版者不詳],2020:42.
[20] 莊子龍,劉英,沈鷺翔,等.基于多層感知機(jī)的木材顏色分類[J].林業(yè)機(jī)械與木工設(shè)備,2020,48(6):8-14.
[21] 劉大衛(wèi),夏永明,章立,等.建立基于大數(shù)據(jù)分析的葉絲切絲含水率預(yù)測(cè)模型[J].輕工科技,2022,38(4):1-4.
[22] 何凱琳.運(yùn)用深度學(xué)習(xí)提取煙葉原料近紅外光譜特征算法的研究[D].長(zhǎng)沙:湖南師范大學(xué),2017.