葉建秋,黃丹平*,田建平,黃丹,羅惠波,王鑫,張力
1(四川輕化工大學(xué) 機(jī)械工程學(xué)院,四川 宜賓,644000) 2(四川輕化工大學(xué) 生物工程學(xué)院,四川 宜賓,644000)
白酒是中國獨(dú)有的蒸餾酒,擁有上千年歷史和文化傳承,憑借其特殊釀造工藝,深受國人喜愛[1]。而曲塊作為白酒生產(chǎn)中的發(fā)酵劑和生香劑,直接影響白酒發(fā)酵質(zhì)量和口感,是傳統(tǒng)固態(tài)發(fā)酵蒸餾釀酒的重要物質(zhì)保障,對(duì)曲酒出酒率和優(yōu)級(jí)品率有較大影響[2],常有“曲乃酒之骨”、“有好酒必有好曲”等精辟論斷。大曲理化指標(biāo)之一的水分含量,與菌類生長(zhǎng)代謝密切相關(guān),而菌類生長(zhǎng)代謝與大曲品質(zhì)有直接關(guān)系。在培曲過程中,隨發(fā)酵時(shí)間的延長(zhǎng)大曲的水分逐漸減小,發(fā)酵產(chǎn)生的游離水越多,其揮發(fā)性能越強(qiáng),大曲的成熟度越佳。因此在不同發(fā)酵時(shí)期水分含量變化也成為考量大曲質(zhì)量?jī)?yōu)劣的重要因素[3]。
目前大部分酒企主要通過人工檢測(cè)品定成品大曲質(zhì)量[4]。人工評(píng)定質(zhì)量無法量化指標(biāo),容易受主觀感覺影響,導(dǎo)致判斷結(jié)果不準(zhǔn)確。傳統(tǒng)大曲工藝很難保證大曲品質(zhì)的一致性,不能有效調(diào)控大曲發(fā)酵品質(zhì)[5]。因此,亟需一種快速無損的方法判斷曲塊發(fā)酵過程水分含量[6]。高光譜成像技術(shù)是光譜技術(shù)和圖像技術(shù)的有機(jī)結(jié)合,成為一種新興的快速檢測(cè)技術(shù)[7]可以獲取待測(cè)樣品空間信息和光譜信息,能夠快速、無損的對(duì)樣本進(jìn)行定量及定性分析。目前高光譜技術(shù)主要應(yīng)用在農(nóng)作物檢測(cè)[8-10]及食品[11-12]等相關(guān)領(lǐng)域研究,如孫紅等[13]利用高光譜成像技術(shù)對(duì)馬鈴薯葉片含水率進(jìn)行檢測(cè)和可視化研究,應(yīng)用相關(guān)性分析和隨機(jī)跳蛙算法篩選特征波長(zhǎng),通過偏最小二乘回歸(partial least squares regression,PLSR)建立模型,最終選用RF-PLSR模型對(duì)馬鈴薯葉片含水率進(jìn)行可視化顯示;鄒小波等[14]通過高光譜檢測(cè)枇杷葉片三萜酸含量及分布,通過聯(lián)合區(qū)間偏最小二乘法(synergy interval partial least squares, siPLS)建立模型;謝安國等[15]通過高光譜檢測(cè)調(diào)理牛肉煎制中品質(zhì)變化,采用支持向量機(jī)(support vector machine, SVM)建模并應(yīng)用粒子群(particle swarm optimization, PSO)優(yōu)化參數(shù),使用主成分分析降維處理后牛肉光譜數(shù)據(jù)進(jìn)行水分含量預(yù)測(cè)。但在曲塊發(fā)酵水分含量檢測(cè)方面,目前沒有將高光譜技術(shù)應(yīng)用于曲塊發(fā)酵水分含量研究。
因此,本研究采用高光譜技術(shù)[16]研究大曲理化指標(biāo)中水分含量這一重要指標(biāo)[17],以濃香型大曲為研究對(duì)象,提出一種基于高光譜技術(shù)、圖像處理技術(shù)對(duì)曲塊發(fā)酵水分含量進(jìn)行檢測(cè)的方法。區(qū)別于一般高光譜分析中應(yīng)用一個(gè)像素點(diǎn)譜信息的方法,本研究利用高光譜相應(yīng)波段圖像紋理信息,檢測(cè)不同曲房不同點(diǎn)位曲塊發(fā)酵過程中水分含量。最終為大曲發(fā)酵過程水分含量檢測(cè)提供依據(jù)。
本研究總體敘述流程如圖1所示。通過高光譜相機(jī)采集相應(yīng)光譜數(shù)據(jù)采集;通過主成分分析(principal component analysis,PCA)和特征波段實(shí)驗(yàn),提取相應(yīng)波段圖像;采用灰度共生矩陣算法對(duì)所提取大曲發(fā)酵高光譜圖像信息紋理特征; 并通過PLSR、SVR、BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network ,BPNN)的紋理特征建模效果比較,選擇最優(yōu)模型方案;剔除異常樣本,擴(kuò)大訓(xùn)練數(shù)據(jù),得到最優(yōu)模型效果和參數(shù)。
圖1 整體流程圖Fig.1 Overall flow chart
本研究采用曲塊高光譜系統(tǒng)進(jìn)行線性掃描采集數(shù)據(jù),該系統(tǒng)光譜范圍為900~1 700 nm,采樣間隔為3.5 nm。硬件系統(tǒng)由芬蘭FX17系列高光譜相機(jī)、2個(gè)150 w鹵素光源、電控移動(dòng)平臺(tái)、計(jì)算機(jī)組成。曲塊數(shù)據(jù)采集時(shí),設(shè)置最佳采集進(jìn)光量,使每個(gè)波段反射率達(dá)到最大動(dòng)態(tài)范圍的80%~90%,避免白光參考點(diǎn)飽和導(dǎo)致采集數(shù)據(jù)扭曲。
對(duì)某酒企曲塊發(fā)酵過程中數(shù)據(jù)進(jìn)行采集,現(xiàn)場(chǎng)采集2間曲房的數(shù)據(jù),其取樣點(diǎn)位如圖2所示。分別在1號(hào)曲房與2號(hào)曲房設(shè)置4個(gè)取樣點(diǎn)位,即①、③、④、⑦四個(gè)點(diǎn)位。分別采集2個(gè)曲房4個(gè)不同點(diǎn)位曲塊發(fā)酵狀態(tài)的高光譜數(shù)據(jù),連續(xù)采集20 d,每次所采集的不同發(fā)酵狀態(tài)的曲塊將其碾碎成曲粉,一部分用于理化、生化指標(biāo)等化學(xué)檢測(cè),一部分用于高光譜圖像采集。因此本研究最終一共采集2(曲房)×20(天數(shù))×4(點(diǎn)位)共160組大曲高光譜數(shù)據(jù)。依據(jù)日期、曲房和點(diǎn)位編號(hào)對(duì)數(shù)據(jù)進(jìn)行命名。如4月18日采集1號(hào)曲房①號(hào)點(diǎn)的數(shù)據(jù)命名為4-18-1-1。
圖2 曲房點(diǎn)位分布示意圖Fig.2 Point distribution diagram of koji house
大曲高光譜數(shù)據(jù)不同波段間相關(guān)性強(qiáng),數(shù)據(jù)量大,波段數(shù)量多。為提高運(yùn)算速度,減少無關(guān)數(shù)據(jù)干擾,可進(jìn)行合理的降維處理[18]。本研究在尋找大曲紋理特征參數(shù)過程中采用PCA和實(shí)驗(yàn)分析水分特征波段2種方法來實(shí)現(xiàn)大曲發(fā)酵高光譜數(shù)據(jù)降維處理。
1.3.1 高光譜數(shù)據(jù)主成分分析
PCA 變換過程是呈線性的。在PCA變換過程當(dāng)中,新坐標(biāo)當(dāng)中第1個(gè)坐標(biāo)即為第1個(gè)主成分,第2主坐標(biāo)即為第2個(gè)主成分,依次類推,并且這些坐標(biāo)點(diǎn)之間也是相對(duì)獨(dú)立的。通過主成分得分圖形能夠?qū)Ρ粶y(cè)樣本主成分地位進(jìn)行表達(dá)[19]。
對(duì)大曲粉末高光譜數(shù)據(jù)做全波段PCA,得到前99.99%的主成分圖像共3個(gè),如圖3所示,其中第1主成分PC1累積貢獻(xiàn)率達(dá)到99.75%。
a-原圖;b-PC1;c-PC2;d-PC3圖3 主成分分析Fig.3 Principal component analysis
1.3.2 大曲發(fā)酵過程水分特征波段
根據(jù)查閱相關(guān)參考文獻(xiàn)可得[20-21],水分在近紅外波段接近冰點(diǎn)的吸收峰有979、1 200、1 453 nm,隨著溫度升高水的吸收峰會(huì)發(fā)生位移。為驗(yàn)證找到合適特征波段,設(shè)計(jì)不同物質(zhì)水分梯度的實(shí)驗(yàn),其中更接近曲粉成分的面粉水分梯度實(shí)驗(yàn)如表1所示。
表1 面團(tuán)水分高光譜實(shí)驗(yàn)參數(shù)Table 1 Moisture hyperspectral experiment of dough
最終獲取大曲水分懷疑特征光譜為980、1 220、1 450 nm波段左右,并以此為基礎(chǔ),應(yīng)用相應(yīng)特征光譜圖像對(duì)大曲發(fā)酵過程水分定量檢測(cè)展開研究。
灰度共生矩陣是一種描述紋理特征的常用方法,灰度共生矩陣一般有4個(gè)特征參量: 對(duì)比度(contrast, CON)、相關(guān)性(correlation, COR)、能量(angular second moment, ASM)和熵(entropy, ENT)[22]。通過圖像預(yù)處理后,根據(jù)連通域重心坐標(biāo)在懷疑波段大曲粉末部分劃分出6個(gè)區(qū)域(如圖4所示),分別計(jì)算內(nèi)部灰度共生矩陣參數(shù),再求平均值作為該波段灰度共生矩陣參數(shù)。對(duì)4個(gè)特征變量提取均值和標(biāo)準(zhǔn)差,其中均值和標(biāo)準(zhǔn)差是描述數(shù)據(jù)集中趨勢(shì)和離散程度的2個(gè)最重要測(cè)度值。
a-連通域重心;b-感興趣區(qū)域(ROI);c-區(qū)域分割圖4 灰度共生矩陣預(yù)處理Fig.4 Gray level co-occurrence matrix preprocessing
分別計(jì)算6個(gè)區(qū)域的對(duì)比度、相關(guān)性、能量、熵,求出6個(gè)區(qū)域灰度共生矩陣參數(shù)平均值,該平均值代表原圖大曲粉末灰度共生矩陣參數(shù)。用此方法對(duì)圖3中PC1、PC2、PC3以及在上述實(shí)驗(yàn)中發(fā)現(xiàn)的懷疑波長(zhǎng)中的1 220、1 450 nm共5個(gè)波段內(nèi)基于灰度共生矩陣的4個(gè)特征參數(shù)進(jìn)行計(jì)算。表2為6組PC1灰度共生矩陣參數(shù),同樣方法再算得PC2、PC3、1 220 nm、1 450 nm灰度共生矩陣參數(shù)。
表2 PC1灰度共生矩陣參數(shù)表Table 2 PC1 gray level co-occurrence matrixparameter table
通過上述方法對(duì)所有大曲高光譜數(shù)據(jù)進(jìn)行灰度共生矩陣參數(shù)提取后,本研究分別選用PLSR、SVR、BPNN方法進(jìn)行建模擬合分析。樣本選用一號(hào)曲房80組大曲粉末高光譜數(shù)據(jù)中PC1、PC2、PC3、1 220 nm、1 450 nm這5個(gè)波段的灰度共生矩陣參數(shù)。樣本劃分采用穩(wěn)定性較好的SPXY分集算法, 50組作為訓(xùn)練集,30組作為測(cè)試集,分別與對(duì)應(yīng)大曲水分含量進(jìn)行關(guān)聯(lián)建模,得到模型參數(shù)如表3所示。
表3 懷疑波段建模效果Table 3 Suspicious band modeling effect
采用PLSR、BPNN、SVR三種回歸算法分別對(duì)PC1、PC2、PC3、1 200 nm、1 450 nm五個(gè)特征波段圖像進(jìn)行灰度共生矩陣參數(shù)與水分含量指標(biāo)建模預(yù)測(cè)時(shí),BPNN對(duì)應(yīng)的決定系數(shù)(R2)均比SVR、PLSR大,均方根誤差(root mean square error, RMSE)也比后2種模型小。由此得出,在3種模型效果中BPNN建模效果最好。
在 PC1、PC2、PC3、1 220 nm、1 450 nm五個(gè)波段圖像紋理特征建模擬合中,1 450 nm特征波段擬合效果最好,同模型擬合中訓(xùn)練集與測(cè)試集決定系數(shù)都比另外4個(gè)波段高,以模型效果最好的BPNN建模效果看,訓(xùn)練集R2與RMSE為0.810 1和0.034 2,測(cè)試集R2與RMSE為0.830 1和0.029 1。其次是PC3與PC2建模效果稍好,PC1與1 200 nm特征波段建模效果無參考價(jià)值。
通過上述建模實(shí)驗(yàn)效果,可以看出BPNN模型的1 450 nm特征波段圖像紋理特征建模效果最好,為進(jìn)一步驗(yàn)證與評(píng)價(jià),選用更多樣本做建模實(shí)驗(yàn),對(duì)1號(hào)與2號(hào)曲房160組大曲光譜數(shù)據(jù)計(jì)算其1 450 nm波段圖像灰度共生矩陣參數(shù),應(yīng)用SPXY分集算法,選用100組數(shù)據(jù)作為訓(xùn)練集,60組作為預(yù)測(cè)集。應(yīng)用BP神經(jīng)網(wǎng)絡(luò)擬合算法與對(duì)應(yīng)水分含量指標(biāo)進(jìn)行關(guān)聯(lián)建模。訓(xùn)練集相關(guān)系數(shù)R2為0.801 6,RMSE為0.037 2。
100組訓(xùn)練集建模效果相比之前,50組大曲樣本建模效果R2與RMSE都有所下降,分析原因如下:在采集大曲高光譜數(shù)據(jù)時(shí)沒有考慮到大曲圖像紋理特征參數(shù)與理化指標(biāo)存在聯(lián)系,因此沒有針對(duì)大曲紋理特征參數(shù)對(duì)大曲粉末樣本做相應(yīng)預(yù)處理,導(dǎo)致大曲粉末樣本中出現(xiàn)異常大曲粉末樣本數(shù)據(jù)(圖5)。異常大曲粉末樣本的曲粉顆粒較大,表面分布不均勻,導(dǎo)致其紋理特征參數(shù)異常,無法與水分含量形成良好關(guān)聯(lián),建模效果不佳。
圖5 大曲異常樣本Fig.5 Daqu abnormal samples
因此本研究采用K-mean聚類算法進(jìn)行異常樣本數(shù)據(jù)剔除,設(shè)置聚類類別為1,當(dāng)計(jì)算出聚類中心后,設(shè)置距離閾值為3,判斷聚類各數(shù)據(jù)到聚類中心距離是否小于距離閾值。最終通過K-mean聚類算法剔除異常數(shù)據(jù)20組,剩余140組數(shù)據(jù)樣本中選用90組作為訓(xùn)練集,50組作為預(yù)測(cè)集進(jìn)行水分含量預(yù)測(cè)模型訓(xùn)練。最終建模效果如圖6和圖7所示,訓(xùn)練集R2為0.826 9,RMSE為0.033 5。測(cè)試集R2為0.848 4,RMSE為0.028 7。
圖6 訓(xùn)練集建模效果圖(R2=0.826 9;RMSE=0.033 5) Fig.6 Training set modeling rendering
圖7 測(cè)試集效果圖(R2=0.848 4;RMSE=0.028 7) Fig.7 Test set rendering
本文通過高光譜特征波段的紋理信息與水分含量指標(biāo)關(guān)聯(lián)建模的方式,實(shí)現(xiàn)對(duì)大曲粉末水分含量快速檢測(cè)。應(yīng)用主成分分析和特征波段對(duì)應(yīng)二維信息進(jìn)行灰度共生紋理提取,以CON、COR、ASM和ENT四個(gè)特性與水分含量進(jìn)行關(guān)聯(lián)擬合,并且通過PLSR、SVR、BP神經(jīng)網(wǎng)絡(luò)模型效果進(jìn)行對(duì)比,選擇最優(yōu)預(yù)測(cè)模型。最終利用K-mean聚類算法剔除異常樣本,通過實(shí)驗(yàn)可驗(yàn)證,以1 450 nm特征波段圖像紋理特征進(jìn)行的水分含量預(yù)測(cè)模型中BPNN模型效果最好,訓(xùn)練集R2與RMSE為0.826 9和0.033 5,測(cè)試集R2與RMSE分別為0.848 4和0.028 7。該波段效果優(yōu)于主成分分析和1 200 nm特征波段所得圖像紋理特性的水分含量檢測(cè)效果。該高光譜特征波段圖像紋理特征與水分含量關(guān)聯(lián)檢測(cè)的方法,為實(shí)現(xiàn)大曲水分含量的快速定量檢測(cè)提供理論依據(jù),具有一定理論參考價(jià)值。