鐘 宇,徐 燕,劉德祥,王宏強(qiáng),李曉輝,周明珠,董 浩,邢 軍
1.新疆維吾爾自治區(qū)煙草質(zhì)量監(jiān)督檢測(cè)站,烏魯木齊市經(jīng)濟(jì)技術(shù)開發(fā)區(qū)天柱山街55 號(hào) 830026
2.國(guó)家煙草質(zhì)量監(jiān)督檢驗(yàn)中心,鄭州高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)翠竹街6 號(hào)6 棟 450001
卷煙真?zhèn)舞b別主要是通過感官(即人眼),對(duì)檢驗(yàn)樣品與真品或真品技術(shù)信息在加工工藝、印刷工藝等方面的差別進(jìn)行比對(duì),以判定檢驗(yàn)樣品的真?zhèn)巍T摲椒▽?duì)檢驗(yàn)人員及經(jīng)驗(yàn)要求較高,在鑒別檢驗(yàn)比對(duì)尤其是卷煙商標(biāo)印刷比對(duì)時(shí),由于視覺疲勞容易造成樣品錯(cuò)檢;對(duì)于印刷品顏色,不同檢驗(yàn)人員對(duì)色彩的敏感度存在差異,導(dǎo)致判定結(jié)果主觀性較強(qiáng);比對(duì)結(jié)果無法以一個(gè)計(jì)量值反映樣品與真品間的實(shí)際差異,當(dāng)仿制品與真品印刷差異較小時(shí),人眼難以分辨其差別。針對(duì)于此,魏中華[1]提出了一種利用卷煙物理指標(biāo),基于t 假設(shè)檢驗(yàn)和支持向量機(jī)(Support Vector Machine,SVM)神經(jīng)網(wǎng)絡(luò)鑒定卷煙真?zhèn)蔚哪J阶R(shí)別模型;聶磊等[2]利用真?zhèn)螣熡貌牧媳韺踊瘜W(xué)成分的差異,提出了一種基于衰減全反射紅外光譜法(ATR-FTIR)的鑒別方法,通過采集卷煙樣品煙用材料相關(guān)部位的衰減全反射紅外光譜,實(shí)現(xiàn)快速、無損、簡(jiǎn)便地鑒別卷煙真?zhèn)巍?/p>
利用計(jì)算機(jī)視覺技術(shù)建立能夠從圖像或者多維數(shù)據(jù)中獲取信息的人工智能系統(tǒng),近年來在煙草行業(yè)已有較多研究和應(yīng)用。張毅等[3]利用煙草物流中不規(guī)則煙包碼垛的復(fù)雜性和組合匹配特性,設(shè)計(jì)了一種基于機(jī)器視覺的不規(guī)則煙包校對(duì)碼垛系統(tǒng);高震宇等[4]采用深度學(xué)習(xí)的方法,建立了基于卷積神經(jīng)網(wǎng)絡(luò)的煙絲組成識(shí)別模型;李曉等[5]利用圖像技術(shù),結(jié)合梗絲形態(tài)外觀特征及形態(tài)指數(shù)建立了一種梗絲形態(tài)指數(shù)模型;李捷等[6]設(shè)計(jì)了基于機(jī)器視覺的煙支外觀在線檢測(cè)系統(tǒng);王偉等[7]建立了一種基于相似性分析和閾值自校正的煙箱缺條智能檢測(cè)方法。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展,通過計(jì)算機(jī)視覺模仿人眼視覺,建立類似于感觀鑒別的檢驗(yàn)法已成為研究趨勢(shì)。為此,提出了一種利用計(jì)算機(jī)視覺技術(shù)和機(jī)器學(xué)習(xí)鑒別卷煙包裝真?zhèn)蔚哪P停?duì)該模型的準(zhǔn)確率進(jìn)行驗(yàn)證,以期提高真?zhèn)尉頍煹蔫b別效率和適應(yīng)性。
采集經(jīng)人工檢驗(yàn)確認(rèn)真?zhèn)蔚? 個(gè)卷煙品牌,共計(jì)603 個(gè)樣品。其中,“中華(軟)”(A 品牌)329個(gè),“玉溪(軟)”(B 品牌)199 個(gè),“鉆石(荷花)”(C品牌)75 個(gè)。
HP LaserJet Pro MFP M127-M128 型掃描儀(中國(guó)惠普有限公司)。圖像處理、模型建立、數(shù)值計(jì)算代碼均采用python 語言,其中圖像處理及特征向量提取通過OpenCV 3.4.2.16 實(shí)現(xiàn),機(jī)器學(xué)習(xí)模型搭建及交叉驗(yàn)證通過scikit-learn 0.21.3 實(shí)現(xiàn),數(shù)值計(jì)算通過numpy 1.17.2 和pandas 0.25.1 實(shí)現(xiàn)。
1.3.1 圖像采集及預(yù)處理
掃描像素為300 ppi,掃描模式為全彩模式。由于掃描儀采集到的卷煙圖像位置不固定,存在平移、翻轉(zhuǎn)等現(xiàn)象,無法直接對(duì)目標(biāo)區(qū)域進(jìn)行定位和截取,常用做法是訓(xùn)練目標(biāo)檢測(cè)的神經(jīng)網(wǎng)絡(luò),選取目標(biāo)范圍內(nèi)的坐標(biāo)值。本研究中的圖像形狀、大小相對(duì)固定,圖案也較為一致,因此可以利用圖像的形態(tài)學(xué)操作[8]進(jìn)行目標(biāo)區(qū)域的查找和提取。圖像預(yù)處理[9]包括圖像增強(qiáng)、圖像濾波、圖像二值化、圖像輪廓檢測(cè)、圖像輪廓近似、圖像透視變換、目標(biāo)區(qū)域截取等步驟,見圖1。
圖1 圖像預(yù)處理Fig.1 Image preprocessing
1.3.2 圖像特征向量提取
圖像的存儲(chǔ)方式是三維矩陣。特征向量是針對(duì)該矩陣進(jìn)行運(yùn)算后得到的一個(gè)一維向量,提取過程包括圖像尺寸變換、圖像濾波去噪和圖像灰度轉(zhuǎn)換。對(duì)于灰度圖,圖像特征向量是以亮度值為橫軸,以亮度值對(duì)應(yīng)的像素個(gè)數(shù)為縱軸的一維255 長(zhǎng)度的向量。該向量代表了灰度圖像亮度的統(tǒng)計(jì)信息,用以表征圖像的統(tǒng)計(jì)特征。以B 品牌為例,取真煙樣品t-1 和假煙樣品f-1 各1 個(gè),灰度圖像提取到的特征向量直方分布曲線見圖2。
圖2 B 品牌特征向量直方分布曲線Fig.2 Histogram distribution curve of feature vector of Brand B
1.3.3 相似性度量模型
聶磊等[2]的研究結(jié)果表明,在對(duì)比真假卷煙譜圖相似性時(shí),QC(Quality Control)比較法[10]相比相關(guān)系數(shù)法分辨力更強(qiáng)。采用QC 值度量真假煙時(shí),真/真QC 值顯著高于真/假Q(mào)C 值,模型具有較好的分類邊界,便于對(duì)真假煙用材料進(jìn)行區(qū)分。但QC 比較法主要是由紅外光譜儀標(biāo)配軟件提供,其算法尚未披露。為此,本研究中以向量的角度提出相似性度量模型,通過比對(duì)待測(cè)樣品與標(biāo)準(zhǔn)真煙樣品的特征向量距離或余弦相似性,根據(jù)距離閾值或相似性閾值判定待測(cè)樣品的分類。實(shí)現(xiàn)過程為:
(1)將樣品劃分為訓(xùn)練集和測(cè)試集。訓(xùn)練集包括正類樣品(8 個(gè))和負(fù)類樣品(8 個(gè))。
(2)模型訓(xùn)練過程。將訓(xùn)練集樣品逐一與訓(xùn)練集正類樣品進(jìn)行特征向量的相似性閾值計(jì)算,取平均值作為其與正類的相似性閾值。根據(jù)訓(xùn)練集正類和負(fù)類的相似性閾值,得到正類和負(fù)類的分類邊界值。
(3)模型測(cè)試過程。將測(cè)試集樣品逐一與訓(xùn)練集正類樣品進(jìn)行特征向量的相似性閾值計(jì)算,取平均值即可得到相似性閾值。根據(jù)訓(xùn)練過程得到的正類分類邊界值判定其分類,若模型分類結(jié)果與實(shí)際分類結(jié)果一致則為正確,不一致則為錯(cuò)誤。模型準(zhǔn)確率為測(cè)試集判定正確的樣品個(gè)數(shù)除以測(cè)試集總樣品個(gè)數(shù)。
1.3.4 機(jī)器學(xué)習(xí)模型
(1)模型訓(xùn)練過程。由于卷煙商標(biāo)存在真?zhèn)螀^(qū)分度較強(qiáng)的區(qū)域,在模型訓(xùn)練時(shí)先隨機(jī)生成X個(gè)區(qū)域中心點(diǎn)坐標(biāo)(XK,YK),輸入該卷煙品牌全部圖像,并將每個(gè)圖像劃分為以(XK,YK)為中心、M×M 大小的矩形塊,每塊按照1.3.2 節(jié)中的方式處理為特征向量后,將其中的70%特征向量劃分為訓(xùn)練集,進(jìn)行有監(jiān)督的SVM 分類模型訓(xùn)練,真煙的標(biāo)簽值設(shè)置為1,假煙設(shè)置為0,訓(xùn)練后的模型在整體上做交叉驗(yàn)證。交叉驗(yàn)證的f1_score 大于設(shè)定閾值,則該區(qū)域坐標(biāo)及其對(duì)應(yīng)分類器被保留,重復(fù)以上過程。當(dāng)中心點(diǎn)坐標(biāo)數(shù)達(dá)到N 時(shí)訓(xùn)練結(jié)束,輸出N 個(gè)中心點(diǎn)坐標(biāo)和N 個(gè)分類器并保存為二進(jìn)制文件。訓(xùn)練過程算法流程見圖3a。
(2)模型測(cè)試過程。加載訓(xùn)練結(jié)束后的N 個(gè)中心點(diǎn)坐標(biāo)和N 個(gè)分類器,以該品牌30%樣品圖像作為測(cè)試集,按相同方式對(duì)測(cè)試集中的每張圖片以N 個(gè)坐標(biāo)點(diǎn)為中心處理為N 個(gè)區(qū)域,每個(gè)區(qū)域采用與之對(duì)應(yīng)的分類器進(jìn)行預(yù)測(cè),同時(shí)將N 個(gè)區(qū)域的預(yù)測(cè)值求和,若求和結(jié)果大于N/2 則為正類,否則為負(fù)類。測(cè)試過程算法流程圖見圖3b。
2.1.1 圖像的濾波函數(shù)
圖像濾波是對(duì)圖像進(jìn)行指定卷積核大小和步長(zhǎng)的卷積運(yùn)算。根據(jù)所使用的卷積核不同,圖像處理前后存在一定差異,例如高斯濾波是將中心點(diǎn)邊緣的像素進(jìn)行高斯加權(quán)平均后賦值給中心點(diǎn),并作為中心點(diǎn)新的像素值,與原圖像處理后的圖像相比較噪聲更低、更平滑。圖像濾波是提取圖像特征向量的一個(gè)重要操作,好的濾波函數(shù)可以有效放大真假卷煙的差異,使分類器獲得更寬的分類邊界。將B 品牌f-1、t-1 樣品分別進(jìn)行高斯雙邊濾波、均值濾波、中值濾波、高斯濾波、組合濾波(中值濾波+高斯雙邊濾波)計(jì)算,各樣品濾波后直方圖特征向量分布見圖4。
圖3 機(jī)器學(xué)習(xí)算法流程圖Fig.3 Flowchart of machine learning algorithm
圖4 B 品牌f-1、t-1 樣品濾波后直方圖特征向量對(duì)比Fig.4 Comparison of histogram feature vectors after filtering with f-1 and t-1 of Brand B
濾波后特征向量與原圖差異見圖5??梢姡瑹o論是歐式距離度量還是余弦相似性度量,高斯雙邊濾波均可有效放大f-1 和t-1 特征向量的差異。
圖5 B 品牌f-1、t-1 特征向量在不同濾波器下的相似性度量差異Fig.5 Similarity measurement difference of feature vectors under different filters with f1 and t1 of Brand B
高斯雙邊濾波結(jié)合了以像素空間位置為基礎(chǔ)的空間域高斯核函數(shù)和以像素亮度差為基礎(chǔ)的亮度域高斯核函數(shù),并形成鄰域內(nèi)各個(gè)像素的權(quán)值信息,進(jìn)而實(shí)現(xiàn)了圖像邊緣感知的非線性自適應(yīng)平滑操作。對(duì)于仿制品印刷過程中出現(xiàn)的邊緣模糊、漏色、錯(cuò)位、斷斷續(xù)續(xù)等現(xiàn)象,高斯雙邊濾波可以有效將其濾除;對(duì)于印刷較好的真煙則將其保留,此操作有效放大了真假卷煙的差異。高斯雙邊濾波核函數(shù)為:
權(quán)值計(jì)算公式為:
高斯雙邊濾波核函數(shù)是空間域核與像素范圍域核綜合應(yīng)用的結(jié)果,式(2)中右側(cè)第一項(xiàng)考慮的是基于空間位置的高斯加權(quán),第二項(xiàng)考慮的是像素亮度差異的高斯加權(quán)。在像素亮度差異較小的區(qū)域,第二項(xiàng)差異很小,此時(shí)相當(dāng)于對(duì)圖像進(jìn)行高斯模糊;在像素差異較大的區(qū)域,第二項(xiàng)的差異顯著高于第一項(xiàng),此時(shí)梯度較為明顯的邊緣像素點(diǎn)被保持。不同空域、值域標(biāo)準(zhǔn)偏差下負(fù)類f-1 與正類t-1 特征向量歐式距離的差異見圖6??梢姡卣飨蛄坎町愖畲笾迭c(diǎn)的空域標(biāo)準(zhǔn)偏差為123,值域標(biāo)準(zhǔn)偏差為30,較優(yōu)值域標(biāo)準(zhǔn)偏差在60 以下,空域標(biāo)準(zhǔn)偏差在43 以上。
B 品牌訓(xùn)練集在不同空域、值域標(biāo)準(zhǔn)偏差下的歐氏距離及分類邊界見圖7??梢?,較大的空域標(biāo)準(zhǔn)偏差可以有效擴(kuò)大分類邊界,但與之對(duì)應(yīng)的圖像處理時(shí)間會(huì)顯著增加。
從算法上看,值域的卷積運(yùn)算速度遠(yuǎn)快于空域,較大的空域標(biāo)準(zhǔn)偏差會(huì)降低算法運(yùn)行速度,因此建模時(shí)可選擇相對(duì)較小的值。選取負(fù)類距離最小的f-6 樣品和正類t-1 樣品,正負(fù)類圖像經(jīng)濾波后的差異見圖8。
圖6 B 品牌f-1、t-1 特征向量在不同值域和空域標(biāo)準(zhǔn)偏差下的歐式距離差異Fig.6 Euclidean distance difference of feature vectors under different sigmaspace and sigmacolor of Gaussian bilateral filter with f-1 and t-1 of Brand B
2.1.2 模型訓(xùn)練
取B 品牌16 個(gè)圖像作為訓(xùn)練集。其中,8 個(gè)為假煙,分別編碼為f-1~f-8;8 個(gè)為真煙,分別編碼為t-1~t-8。所有圖像的特征向量分別與t-1~t-8的特征向量進(jìn)行相似性度量,得到8 個(gè)度量值,取平均值,作為真煙的最終度量值。由于真煙與其本身作度量時(shí),距離為0 且相似性為1,會(huì)降低(或提高)平均值,因此不列入計(jì)算。訓(xùn)練集在余弦相似性、曼哈頓距離、歐式距離、切比雪夫距離下的分類邊界見圖9??梢姡诸惼髟谟?xùn)練集上能夠?qū)⒄婕倬頍熯M(jìn)行區(qū)分。
圖7 B 品牌訓(xùn)練集在高斯雙邊濾波不同空域、值域標(biāo)準(zhǔn)偏差下的歐氏距離及分類邊界Fig.7 Euclidean distance and classification boundary of training set of Brand B under different sigmaspace and sigmacolor of Gaussian bilateral filter
圖8 B 品牌f-6 和t-1 的區(qū)域原圖、高斯濾波圖及轉(zhuǎn)化灰度圖對(duì)比Fig.8 Comparison of original images,Gaussian filtered images and gray images of f-6 and t-1 of Brand B
根據(jù)圖9 可得各相似性度量模型的分類邊界數(shù)值,見表1。當(dāng)需要對(duì)圖像進(jìn)行判定時(shí),可以只考慮真煙的分類邊界(正類),凡是不符合真煙邊界的均判定為假煙。
2.1.3 模型驗(yàn)證
將B 品牌測(cè)試集183 個(gè)樣品與t-1~t-8 對(duì)比計(jì)算相似性度量值并取平均值,模型分類效果見圖10。圖中紅線右側(cè)為正類樣品,可以看出正類樣品的度量值波動(dòng)較小。在余弦相似性上正類樣品度量值接近1,在距離上度量值較低,說明其相似性較高,表明真煙商標(biāo)采用的印刷工藝規(guī)范且原材料質(zhì)量穩(wěn)定。
B 品牌測(cè)試集的分類效果見表2??梢?,正類、負(fù)類分類效果均較好的為曼哈頓度量模型,其正類準(zhǔn)確率為100%,負(fù)類準(zhǔn)確率為95.63%,總體準(zhǔn)確率為96.17%。
圖9 訓(xùn)練集相似性度量值和分類邊界Fig.9 Similarity measure and classification boundary in training set
表1 各相似性度量模型的分類邊界Tab.1 Classification boundaries of similarity measurement models
2.2.1 模型超參數(shù)的選取
圖像分塊數(shù)量和面積是機(jī)器學(xué)習(xí)建模時(shí)的超參數(shù),需要人為指定不同分塊數(shù)量和面積,模型表現(xiàn)見圖11。由圖11a 可知,分塊數(shù)量在7~15 之間的模型具有較高的準(zhǔn)確率、召回率和f 1 分?jǐn)?shù)值。當(dāng)分塊數(shù)量較小時(shí),模型會(huì)出現(xiàn)欠擬合現(xiàn)象,分塊數(shù)量較大時(shí)會(huì)出現(xiàn)過擬合現(xiàn)象,分塊數(shù)量在7~15之間模型獲得最大準(zhǔn)確率99.39%。由圖11b 可知,當(dāng)分塊面積較小時(shí),因模型無法篩選出強(qiáng)分辨力點(diǎn)區(qū)域,模型分?jǐn)?shù)較低,隨著面積增大模型表現(xiàn)逐漸穩(wěn)定,分塊面積在350 像素×350 像素以上獲得最大準(zhǔn)確率99.39%。
2.2.2 模型訓(xùn)練及驗(yàn)證
將A 品牌圖像的70%劃分為訓(xùn)練集,30%為測(cè)試集。在訓(xùn)練集上將圖像分成9 個(gè)區(qū)域,每個(gè)區(qū)域分別訓(xùn)練1 個(gè)SVM 分類器。訓(xùn)練好的模型利用測(cè)試集進(jìn)行測(cè)試,計(jì)算各分類器的準(zhǔn)確率、召回率、總體準(zhǔn)確率,結(jié)果見表3。可見,正類準(zhǔn)確率在69.57%~100%之間,一部分分類器表現(xiàn)較好,另一部分表現(xiàn)較差。因采取投票機(jī)制[11],有效避免了表現(xiàn)較差分類器對(duì)結(jié)果的判定,故正類準(zhǔn)確率為100%,負(fù)類準(zhǔn)確率為98.80%。因此,該模型的總體準(zhǔn)確率為98.99%。
對(duì)B、C 兩個(gè)品牌采用同樣方式建模,各分類器及模型整體分類評(píng)價(jià)指標(biāo)見表4??梢?,B 品牌總體準(zhǔn)確率為96.61%,C 品牌總體準(zhǔn)確率為100%。3 個(gè)品牌的分塊區(qū)域大多集中在該品牌卷煙商標(biāo)印刷時(shí)的防偽區(qū)域,說明在防偽區(qū)域上假煙與真煙的印刷工藝存在顯著差異,見圖12。
圖10 B 品牌測(cè)試集在相似性度量模型下的分類效果Fig.10 Classification effect of test set under similarity measurement model of Brand B
表2 各相似性度量模型的分類準(zhǔn)確率Tab.2 Accuracy rate of classification of similarity measurement models
相似性度量模型在訓(xùn)練集上具有顯著分類邊界,算法簡(jiǎn)潔,度量值直觀,但有其局限性:一是標(biāo)準(zhǔn)真煙樣品和選取的假煙樣品是總體真煙和假煙的一部分,其印刷代表性會(huì)受到抽樣的影響,訓(xùn)練出的分類邊界泛化能力低;二是對(duì)于測(cè)試集樣品需要逐個(gè)與標(biāo)準(zhǔn)真煙樣品進(jìn)行比對(duì),運(yùn)算次數(shù)隨比對(duì)樣品數(shù)量線性增加;三是模型遷移能力不強(qiáng),新卷煙品牌重新訓(xùn)練分類邊界的算法較復(fù)雜。而機(jī)器學(xué)習(xí)模型建模時(shí)使用了大量數(shù)據(jù)集,降低了抽樣影響,增加了模型的魯棒性;分類邊界一旦確定,新樣品可以直接分類,不需要再進(jìn)行比對(duì),模型的遷移能力強(qiáng),適用于所有卷煙品牌的建模過程。
圖11 不同分塊數(shù)量、分塊面積下的模型分?jǐn)?shù)Fig.11 Model scores at different block zones and block areas
表3 A 品牌測(cè)試集機(jī)器學(xué)習(xí)模型的評(píng)價(jià)指標(biāo)Tab.3 Evaluation indexes of machine learning model of test set of Brand A
表4 B、C 品牌測(cè)試集機(jī)器學(xué)習(xí)模型的評(píng)價(jià)指標(biāo)Tab.4 Evaluation indexes of machine learning models of test sets of Brands B and C
圖12 不同卷煙品牌分塊展示圖Fig.12 Block display diagrams of three brands
利用計(jì)算機(jī)視覺技術(shù)提取卷煙商標(biāo)特征向量,分別建立了用于卷煙包裝鑒別檢驗(yàn)的相似性度量模型和機(jī)器學(xué)習(xí)模型。相似性度量模型采用曼哈頓距離模型進(jìn)行分類,通過對(duì)高斯雙邊濾波函數(shù)進(jìn)行參數(shù)優(yōu)化,較優(yōu)值域標(biāo)準(zhǔn)偏差為30,空域標(biāo)準(zhǔn)偏差為123;基于圖像分塊建立的機(jī)器學(xué)習(xí)模型,當(dāng)分塊數(shù)量為7~15,分塊面積在350 像素×350 像素以上時(shí)可獲得最大準(zhǔn)確率99.39%。以“中華(軟)”“玉溪(軟)”“鉆石(荷花)”3 個(gè)卷煙品牌共603 個(gè)樣品為對(duì)象,分別采用兩種模型進(jìn)行判定,結(jié)果表明:相似性度量模型在“玉溪(軟)”樣品測(cè)試集上,正類準(zhǔn)確率為100%,負(fù)類準(zhǔn)確率為95.63%,總體準(zhǔn)確率為96.17%;機(jī)器學(xué)習(xí)模型在3 個(gè)樣品測(cè)試集上,“中華(軟)”準(zhǔn)確率為98.99%,“玉溪(軟)”準(zhǔn)確率為96.61%,“鉆石(荷花)”準(zhǔn)確率為100%。機(jī)器學(xué)習(xí)模型與相似性度量模型相比較,具有較好的遷移能力和魯棒性,適用于卷煙真?zhèn)舞b別樣品量大、品類多、圖像復(fù)雜等情況。