譚盧敏 馮新剛
(江西理工大學(xué)應(yīng)用科學(xué)學(xué)院,江西 贛州 341000)
米粉塊是可食用塊狀干米粉,口感好且方便保存和運輸,在中國南方地區(qū)深受消費者歡迎[1]。米粉塊一般由自動生產(chǎn)流水線加工而成,在加工成型環(huán)節(jié)會產(chǎn)生缺損米粉塊,如不及時發(fā)現(xiàn)并處理,會對米粉塊批量生產(chǎn)帶來質(zhì)量下降的影響。目前,企業(yè)多采用人工檢測,隨著工作時間加長,工人疲勞度增加,檢測效率和準(zhǔn)確性大大下降[2]。機器學(xué)習(xí)是基于數(shù)據(jù)集合建立數(shù)理模型進行研究推理,并可以衍生獨立的計算模式,被廣泛用于解決工程應(yīng)用和科學(xué)領(lǐng)域的復(fù)雜問題。如:張先潔等[3]運用支持向量機(SVM)識別番茄果實成熟階段準(zhǔn)確率高達94.27%;Zhu等[4]基于深度特征和支持向量機的胡蘿卜外觀質(zhì)量識別準(zhǔn)確率為98.17%。Laxmi等[5]多類別直覺模糊雙支持向量機在植物葉片識別中的應(yīng)用有較好的泛化能力。通過上述文獻的學(xué)習(xí),結(jié)合缺損米粉塊形狀各異,其特征參數(shù)無規(guī)律[6-7],研究擬提出運用機器學(xué)習(xí)對缺損米粉塊進行檢測,利用相機對傳輸帶上的米粉塊進行實時拍照,經(jīng)圖像處理后提取米粉塊相關(guān)特征數(shù)據(jù)作為機器學(xué)習(xí)的檢測數(shù)據(jù)[8-9],通過支持向量機分類算法,對數(shù)據(jù)進行分析后檢測出缺損米粉塊,以期實現(xiàn)缺損米粉塊在線檢測與分揀。
支持向量機(SVM)是基于統(tǒng)計學(xué)習(xí)理論中結(jié)構(gòu)風(fēng)險最小化原則提出的,適用于有限數(shù)據(jù)集下的樣本分類和回歸處理,是機器學(xué)習(xí)中一種有監(jiān)督的學(xué)習(xí)模式[10-11]。SVM算法用于分類問題的基本思路是尋找兩類線性樣本中的一個最優(yōu)分類面,使得該分類面到兩類樣本數(shù)據(jù)點的距離最大,對于線性可分樣本數(shù)據(jù),SVM找到合適的參數(shù)(ω,b),得到最優(yōu)分類面函數(shù),即為決策函數(shù)如式(1) 所示。
(1)
通過決策函數(shù)可以對線性未知樣本進行分類判別。對于近似線性可分?jǐn)?shù)據(jù),以上最優(yōu)分類面并不能把所有樣本都正確分類,為此,引入松弛因子ξ和懲罰因子C,在經(jīng)驗風(fēng)險和推廣性能之間找到一個均衡點,讓訓(xùn)練模型有一定的容錯率,同時對未知樣本的分類正確率滿足設(shè)計要求。
對于非線性可分樣本,SVM利用非線性變化核函數(shù)方法,用滿足Mercer條件的核函數(shù)得到原始空間中非線性學(xué)習(xí)算法,通過該方法將原空間轉(zhuǎn)換到某線性特征空間后進行處理。其中根據(jù)原樣本數(shù)據(jù)特點選擇合適的核函數(shù)對轉(zhuǎn)換后特征空間的線性化程度有較好的幫助[12-13]。
米粉塊加工屬于食品加工,對加工條件要求較高,所以對流水線加工的米粉塊通過非接觸式的工業(yè)相機拍照獲取原始圖像,經(jīng)圖像處理獲得米粉塊數(shù)據(jù)。通過相機拍攝獲得的米粉塊圖片共160張,作為樣本用于模型訓(xùn)練,部分圖片信息如圖1所示。
圖1 部分米粉塊圖片F(xiàn)igure 1 Pictures of some rice noodles
對樣本圖片進行圖像處理后,獲取米粉塊輪廓的周長和面積、近似輪廓的周長和面積、近似輪廓點數(shù)、輪廓外接圓半徑6個特征數(shù)據(jù),并且給每個樣本圖片定義了分類標(biāo)簽,“0”表示合格米粉塊,“1”表示缺損米粉塊。
米粉塊圖像處理流程如圖2所示。圖像經(jīng)過灰度化處理、二值化處理和圖像形態(tài)學(xué)處理后濾除原圖中的干擾信息,提高了米粉塊特征信息提取的準(zhǔn)確度。
圖2 米粉塊圖像處理流程圖Figure 2 Flow chart of rice flour block image processing
經(jīng)過圖像形態(tài)學(xué)處理后得到清晰的米粉塊二值輪廓圖,用數(shù)字化二值圖像輪廓掃描算法提取米粉塊輪廓信息,根據(jù)輪廓信息進一步計算得到輪廓外接圓信息和輪廓近似點,輪廓近似點是根據(jù)Douglas-Peucker算法逼近原輪廓,得到更少的頂點數(shù),再根據(jù)輪廓近似點獲得近似輪廓信息,近似輪廓信息利用多邊形逼近原始輪廓,進一步規(guī)范米粉塊輪廓信息。
部分米粉塊以各流程處理后的圖片如圖3所示。其中:輪廓信息圖片的紅色線是根據(jù)輪廓信息在原圖上畫出的米粉塊輪廓線;外接圓信息圖片的棕色線是根據(jù)外接圓信息在原圖上畫出的米粉塊外接圓線;近似輪廓信息圖片的紫色線是根據(jù)近似輪廓信息在原圖上畫出的米粉塊近似輪廓線。
圖3 部分米粉塊圖像處理流程各步驟處理結(jié)果Figure 3 Processing results of each step of image processing flow of some rice flour blocks
根據(jù)輪廓信息、外接圓信息和近似輪廓信息計算米粉塊的周長、面積、外接圓半徑等特征數(shù)據(jù),對特征數(shù)據(jù)進行分析發(fā)現(xiàn),單一特征數(shù)據(jù)對缺損檢測不能提供準(zhǔn)確的依據(jù),比如由于加工的原因合格米粉塊的輪廓面積會有一定差別,當(dāng)缺損面積較小時其輪廓面積可能會大于合格米粉塊的,因此會降低缺損米粉塊檢測的準(zhǔn)確度。經(jīng)過試驗分析,采用米粉塊的多特征數(shù)據(jù)進行檢測,有利于提高檢測準(zhǔn)確度。
使用SVM機器學(xué)習(xí)方法對米粉塊的多特征數(shù)據(jù)組成的樣本集進行分析,實現(xiàn)缺損檢測。米粉塊樣本集如表1所示。
表1 部分米粉塊特征數(shù)據(jù)集Table 1 Characteristic data set of some rice flour blocks
每個米粉塊由6個特征數(shù)據(jù)和一個分類標(biāo)簽數(shù)據(jù)組成,通過對數(shù)據(jù)進行SVM機器學(xué)習(xí),得到訓(xùn)練模型,從而實現(xiàn)米粉塊的在線檢測,其檢測流程如圖4所示。
圖4 SVM方法實現(xiàn)檢測米粉塊缺損的流程圖Figure 4 Flow chart of detecting rice flour block defect by SVM method
從表1可以看出,米粉塊的特征數(shù)據(jù)大小不一,在進行分析之前需要進行數(shù)據(jù)清洗,采用min-max標(biāo)準(zhǔn)化對樣本數(shù)據(jù)進行歸一化處理,如表2所示。
表2 部分米粉塊min-max標(biāo)準(zhǔn)化后特征數(shù)據(jù)集Table 2 Characteristic data set of some rice flour blocks after min max standardization
處理后的樣本數(shù)據(jù)隨機分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,兩個數(shù)據(jù)集中的樣本數(shù)按照7∶3的比例進行分配,代入SVM模型中進行訓(xùn)練和測試。
其中為了確定合適的核函數(shù),分別選擇rbf核函數(shù)、linear核函數(shù)、poly核函數(shù),對訓(xùn)練集進行訓(xùn)練,用交叉驗證法尋找最優(yōu)模型參數(shù),得到各自的優(yōu)化模型,然后把測試集分別代入這些模型進行分類測試并記錄分類準(zhǔn)確率和測試用時,如表3所示。
由表3可知,rbf核函數(shù)準(zhǔn)確率最高,用時較少;poly核函數(shù)準(zhǔn)確率在3種核函數(shù)中最低同時用時較長;linear核函數(shù)雖然用時最短,但是準(zhǔn)確率沒有rbf核函數(shù)高,用時與rbf核函數(shù)相差不大;通過數(shù)據(jù)比較,選擇rbf核函數(shù)的SVM模型。
表3 不同核函數(shù)下SVM模型的平均準(zhǔn)確率和平均用時Table 3 Average accuracy and average time of SVM model under different kernel functions
為了進一步檢驗該模型的優(yōu)勢,以相同米粉塊樣本數(shù)據(jù)集在相同條件下用其他分類算法進行訓(xùn)練,并對測試集進行分類分析,結(jié)果如表4所示。通過對比,SVM分類算法的平均準(zhǔn)確率最高,平均用時最短。
表4 不同分類算法的平均準(zhǔn)確率和平均用時Table 4 Average accuracy and average time of different classification algorithms
研究結(jié)果表明,用SVM分類算法進行米粉塊缺損檢測相比GBDT、KNN、Logistic Regression、Random Forest和tree 5種分類算法準(zhǔn)確率高,用時短,有利于實現(xiàn)缺損米粉塊的在線快速檢測。但該研究對樣本數(shù)據(jù)的先驗信息特征研究不夠深入,僅用3種常用核函數(shù)進行試驗分析,后續(xù)可以利用隱含在數(shù)據(jù)中的先驗信息選擇更合適的核函數(shù),進一步提高米粉塊缺損檢測的準(zhǔn)確率。