陶勁松 楊亞帆 李遠(yuǎn)華
(華南理工大學(xué) 制漿造紙工程國家重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510640)
造紙過程中,抗張強(qiáng)度不足會(huì)引發(fā)斷紙、生產(chǎn)中斷和大量能源的浪費(fèi),通常為了保持連續(xù)生產(chǎn)和抗張強(qiáng)度質(zhì)量滿足客戶需求,抗張強(qiáng)度會(huì)超過標(biāo)準(zhǔn)生產(chǎn),這又導(dǎo)致原料和能源損失嚴(yán)重.然而目前的抗張強(qiáng)度預(yù)測模型主要為機(jī)理模型,同時(shí)沒有抗張強(qiáng)度的在線測量儀表,測量都需進(jìn)行破壞性試驗(yàn),所以造紙廠對(duì)其控制存在較大的滯后性、偏差性[1].
現(xiàn)在的抗張強(qiáng)度模型可分為3 大類:Page 機(jī)理模型[2]及其改良模型[3-4];Shear-lag 機(jī)理方程[5]及其改良模型[6];線性回歸及神經(jīng)網(wǎng)絡(luò)預(yù)測模型.Page模型、Shear-lag 模型及其改良模型中的大部分參數(shù)需要通過實(shí)驗(yàn)測得,預(yù)測精度較低,實(shí)用性不強(qiáng).王寶玉[7]使用SPSS 軟件建立的抗張指數(shù)多元線性回歸方程及Navita 等[8]使用BP 神經(jīng)網(wǎng)絡(luò)建立的模型解決了模型預(yù)測精度低的問題,但模型使用的參數(shù)與生產(chǎn)中參數(shù)類型差距仍然較大,并沒有解決實(shí)際應(yīng)用中的問題.由于這些模型精度低和生產(chǎn)指導(dǎo)意義有限,現(xiàn)有的這3 類模型均未應(yīng)用于在線預(yù)測.
偏最小二乘法(PLS)由Wold 等[9]在1983年首次提出,它是一種多因變量對(duì)多自變量的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,能夠?qū)⒅鞒煞址治?、典型相關(guān)及多元線性回歸分析有機(jī)地結(jié)合起來,尤其適用于變量多重相關(guān)性、小樣本等情況下的多對(duì)多線性回歸分析.而Vapnik[10]提出的支持向量機(jī)(SVM)訓(xùn)練過程遵循結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,結(jié)構(gòu)參數(shù)在訓(xùn)練過程中根據(jù)樣本數(shù)據(jù)自動(dòng)確定,無過擬合現(xiàn)象,它通過解一個(gè)線性約束的二次規(guī)劃問題得到全局最優(yōu),不存在局部極小值問題,SVM 計(jì)算規(guī)范,易于實(shí)施.PLS 和SVM 均擅長處理多元相關(guān)變量的回歸問題,且預(yù)測精度較高,實(shí)用性強(qiáng).
由于生產(chǎn)變量數(shù)目眾多,變量間存在一定的相關(guān)性,因此建模方法需要涵蓋這兩方面.文中采用PLS與SVM 這兩種常用方法建模,通過比較并簡化這兩種方法的預(yù)測效果,選出生產(chǎn)中預(yù)測抗張強(qiáng)度的最佳模型,從而為在線預(yù)測紙張抗張強(qiáng)度創(chuàng)造前提條件.
抗張強(qiáng)度作為大多數(shù)紙種共有的性能指標(biāo),對(duì)其進(jìn)行建模研究具有更高的普適性.為更準(zhǔn)確地在生產(chǎn)中預(yù)測紙張的抗張強(qiáng)度,應(yīng)選擇最佳抗張強(qiáng)度模型.文中將從某瓦楞紙廠采集數(shù)據(jù),使用偏最小二乘法與支持向量機(jī)建模,并比較兩者的精度,再通過篩選相關(guān)系數(shù)的方法進(jìn)行模型簡化和精度比較.
使用iFIX 5.0 采集該廠DCS 系統(tǒng)數(shù)據(jù),并將數(shù)據(jù)存放于Proficy Historian 中,查詢采集漿料相對(duì)應(yīng)的操作參數(shù);采用Lorentzen & Wettre 公司抗張強(qiáng)度測量儀測試紙張的抗張強(qiáng)度.
以某瓦楞紙廠一條生產(chǎn)線為對(duì)象,采集該生產(chǎn)線生產(chǎn)信息,包括生產(chǎn)漿料性質(zhì)、抄紙過程參數(shù)及成紙抗張強(qiáng)度.由于實(shí)際生產(chǎn)中DCS 采集標(biāo)簽有幾百個(gè),為了能夠在模型中體現(xiàn)有效影響因素,而不受多余因素干擾,重點(diǎn)采集影響抗張強(qiáng)度的纖維自身強(qiáng)度性質(zhì)、纖維間結(jié)合強(qiáng)度和纖維的排列分布相關(guān)的參數(shù).通過流送成形、干燥施膠系統(tǒng)等從分布式控制系統(tǒng)(DCS 系統(tǒng))以及質(zhì)量控制系統(tǒng)(QCS 系統(tǒng))中選擇影響因素,并根據(jù)漿料性質(zhì)測量相應(yīng)的打漿度和定量,共選擇30 個(gè)變量(見表1)構(gòu)成數(shù)據(jù)庫,選取某生產(chǎn)線2013-12-30—2014-01-13 的數(shù)據(jù)進(jìn)行建模分析.
由于數(shù)據(jù)采集的時(shí)間為正常生產(chǎn)時(shí)間,紙張樣本的生產(chǎn)時(shí)間與模型參數(shù)采集的時(shí)間一一對(duì)應(yīng),因此數(shù)據(jù)沒有缺失和異常值;因所采集數(shù)據(jù)的量綱不同,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.標(biāo)準(zhǔn)化處理能夠消除各個(gè)變量在量綱上的差異對(duì)分析結(jié)果造成的影響,并可以提高分析算法的效率.數(shù)據(jù)標(biāo)準(zhǔn)化見式(1)和(2),數(shù)據(jù)標(biāo)準(zhǔn)化后變量xj均值為0,方差為1.
其中,
式中,i (i=1,2,…,n)為樣本個(gè)數(shù),j (j=1,2,…,m)為變量個(gè)數(shù).
表1 選取的參數(shù)Table 1 Selected parameters
文中采用的是單因變量偏最小二乘法[11],方法如下.
設(shè)自變量與因變量表達(dá)式為X=(x1,x2,…,xm),Y=(y).標(biāo)準(zhǔn)化處理后,表達(dá)式變?yōu)榫仃嘐0=[e1e2… em],F(xiàn)0=[f1].
在E0中提取第一個(gè)成分t1,使t1=E0w1.其中t1為x1,x2,…,xm線性組合,w1為矩陣對(duì)應(yīng)于E'0F0F'0E0矩陣最大特征值的特征向量.
建立因變量Y 關(guān)于t1的回歸,使得
用殘差矩陣E1和F1取代E0和F0,使用同樣的方法求第二個(gè)成分t2.以此類推,求得剩下的成分t3,t4,…,tA,最終有
由于t1,t2,…,tA均可以表示成E1,E2,…,Em的線性組合,因此,式(6)可以還原成y*=F0k關(guān)于xj*=E0k的回歸方程形式,即
其中,k=1,2,…q,F(xiàn)Ak是殘差距陣FA的第k 列.
支持向量機(jī)可對(duì)線性或非線性問題進(jìn)行回歸.對(duì)于線性問題,SVM 采用線性回歸函數(shù)[12]f( )x=wx + b(w 為估計(jì)權(quán)值向量,b 為偏置)擬合數(shù)據(jù){xi,y},i=1,2,…,n,xiRn,yR.若訓(xùn)練數(shù)據(jù)在ε精度下無誤差地用線性函數(shù)擬合,即
此時(shí),優(yōu)化目標(biāo)為
其中,C 為錯(cuò)誤的損失函數(shù),C>0.對(duì)原問題使用拉格朗日乘數(shù)法求解后,其對(duì)偶問題為
其中ai為進(jìn)行拉格朗日乘數(shù)法運(yùn)算時(shí)引入的乘子.
由最大化函數(shù)可知支持向量單因變量線性回歸函數(shù)為
其中,ai和只有小部分不為0,其對(duì)應(yīng)的樣本為支持向量.
對(duì)于非線性問題,SVM 使用非線性轉(zhuǎn)換將原問題映射到更高維空間中的線性問題進(jìn)行求解.在高維特征空間中,將核函數(shù)K ( xi,xj)替換為線性問題的內(nèi)積運(yùn)算.此時(shí),式(10)、(11)、(12)變?yōu)?
由最大化函數(shù)可知支持向量單因變量線性回歸函數(shù)為
從工廠獲得的240 組數(shù)據(jù)隨機(jī)分為180 組訓(xùn)練集和60 組測試集.為確定成分個(gè)數(shù)A,使用交叉有效性法則.
式中:yi為實(shí)際值;A(-i)為樣本點(diǎn)i 在使用除樣本i后剩余樣本提取A 個(gè)成分建立的回歸方程的擬合值(A-1)i為樣本點(diǎn)i 在使用所有樣本提取A -1 個(gè)成分建立的回歸方程的擬合值.
交叉有效性測量成分th對(duì)單因變量偏最小二乘法模型精度的邊際貢獻(xiàn)有如下條件:
增加成分th,可以明顯改善模型.
使用訓(xùn)練集進(jìn)行建模,根據(jù)交叉有效性法則,當(dāng)提取第3 個(gè)成分后QA2 <0.097 5,因此文中選擇前兩個(gè)組分t1、t2.
使用SVM 建模時(shí)需要確定最佳的核函數(shù)[13].常用SVM 的核函數(shù)有:線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、Sigmoid 核函數(shù).分別使用不同的核函數(shù)測試模型,采用均方根誤差(RMSE)[14]來衡量模型預(yù)測值和實(shí)際值的誤差,再引入預(yù)測值與測量值的皮爾遜相關(guān)常數(shù)r[15]來評(píng)價(jià)預(yù)測值與實(shí)際值的變化趨勢,r 絕對(duì)值越接近1,表明預(yù)測值與實(shí)際值的變化趨勢越一致,見式(17)、(18):
式中,yact、act分別為抗張強(qiáng)度實(shí)際值和實(shí)際值的平均值分別為抗張強(qiáng)度預(yù)測值和預(yù)測值的平均值.
選用不同的核函數(shù)分別對(duì)訓(xùn)練集通過SVM 建模,用模型對(duì)測試集進(jìn)行預(yù)測,得到的數(shù)據(jù)見表2.
表2 SVM 不同核函數(shù)預(yù)測精度對(duì)比Table 2 SVM predicting accuracy comparison among different kernel type
由表2 可知,使用線性核函數(shù)的模型預(yù)測值與實(shí)際值的相關(guān)系數(shù)最高,且均方根誤差最低,因此使用線性核函數(shù)進(jìn)行建模效果最佳.
用訓(xùn)練集建立偏最小二乘回歸與支持向量機(jī)模型后,使用測試集進(jìn)行驗(yàn)證.采用均方根誤差、皮爾遜相關(guān)系數(shù)進(jìn)行精度分析.
經(jīng)Matlab 偏最小二乘預(yù)測與支持向量機(jī)預(yù)測,可得其RMSE 分別為338 和307 N/m,皮爾遜相關(guān)系數(shù)分別為0.909 和0.918,由此可知,SVM 模型的均方根誤差與最大相對(duì)誤差更小,相關(guān)系數(shù)更大.由圖1可以看出,訓(xùn)練集中,使用PLS 和SVM 模型的預(yù)測值與45°線接近程度較好,其中PLS 模型的預(yù)測值較SVM 模型的預(yù)測值而言更加分散.因此,SVM 模型的預(yù)測精度要高于PLS 模型.
在實(shí)際生產(chǎn)中,一些依據(jù)機(jī)理分析選取的操作參數(shù)由于生產(chǎn)設(shè)備可調(diào)控性限制與抗張強(qiáng)度的相關(guān)系數(shù)很低.這些參數(shù)對(duì)模型預(yù)測值的結(jié)果影響小并且可能對(duì)模型精度存在一定的干擾,此外,大量的模型參數(shù)會(huì)延長程序計(jì)算獲得預(yù)測值的時(shí)間.因此,文中將使用篩選相關(guān)系數(shù)的方法對(duì)模型參數(shù)進(jìn)行刪減,以考察簡化模型的應(yīng)用性.
圖1 SVM 模型與PLS 模型抗張強(qiáng)度的預(yù)測Fig.1 Tensile strength prediction based on SVM model and PLS model
使用Matlab 計(jì)算出所有模型參數(shù)與抗張強(qiáng)度的相關(guān)系數(shù)后,將其中與抗張強(qiáng)度弱相關(guān)[16]0.300)的參數(shù)剔除后得到的操作參數(shù)見表3,根據(jù)這些參數(shù)建立PLS 和SVM 簡化模型,其對(duì)應(yīng)所得的RMSE 分別為348 和321 N/m,皮爾遜相關(guān)系數(shù)分別為0.899 和0.909;預(yù)測值和測量值的對(duì)比如圖2 所示.
表3 簡化后的模型參數(shù)Table 3 Reduced model parameters
圖2 SVM 簡化模型與PLS 簡化模型抗張強(qiáng)度的預(yù)測Fig.2 Tensile strength prediction based on simplified SVM model and simplified PLS model
綜合上述分析可知,簡化后的PLS 和SVM 模型RMSE 值較簡化前分別下降了10 和14 N/m,兩個(gè)模型的RMSE 降低幅度均在5%之內(nèi);兩個(gè)簡化模型的相關(guān)系數(shù)下降也均在0.01 以內(nèi).
使用模型對(duì)生產(chǎn)現(xiàn)場進(jìn)行指導(dǎo)時(shí),往往有大量的數(shù)據(jù)需要處理.分別使用60 組數(shù)據(jù)通過SVM 模型以及簡化SVM 模型進(jìn)行預(yù)測,耗時(shí)分別為2.183和2.060 s.由此可知,簡化后的SVM 模型平均耗時(shí)比原SVM 模型縮短了約5%,同時(shí)簡化后模型精度變化不大,原SVM 模型精度為0.918,簡化后的SVM模型為0.909,但簡化模型參數(shù)由30 個(gè)減至18 個(gè),減少了40%的參數(shù)對(duì)生產(chǎn)的指導(dǎo)效果較原模型而言有了較大的提升.綜上所述,簡化的SVM 模型更適用于現(xiàn)場預(yù)測.
(1)偏最小二乘法和支持向量機(jī)模型的測試值與預(yù)測值的皮爾遜相關(guān)系數(shù)均達(dá)到0.9,表明這些模型均可以對(duì)紙張抗張強(qiáng)度建模.偏最小二乘法模型簡化前后的RMSE 分別為338、348 N/m;支持向量機(jī)模型簡化前后的RMSE 則分別為307、321 N/m.比較而言,SVM 簡化模型更適合該廠紙張抗張強(qiáng)度的預(yù)測.
(2)模型簡化后參數(shù)減少40%,簡化的支持向量機(jī)模型預(yù)測用時(shí)最短,為2.060 s.由于所選取的因素均可在生產(chǎn)現(xiàn)場獲取和調(diào)節(jié),與現(xiàn)有的基于Page 原理、Shear-lag 原理及神經(jīng)網(wǎng)絡(luò)等建立的模型相比,對(duì)現(xiàn)場生產(chǎn)的指導(dǎo)性更高.在現(xiàn)場需要處理大量數(shù)據(jù),簡化的支持向量機(jī)模型預(yù)測速度最快,且精度較高,因此更適用于現(xiàn)場預(yù)測.
抗張強(qiáng)度的支持向量機(jī)法預(yù)測為有效控制產(chǎn)品質(zhì)量提供了理論基礎(chǔ).使用支持向量機(jī)法在線預(yù)測抗張強(qiáng)度,可以降低以往調(diào)節(jié)方式的滯后性,從而達(dá)到在線控制的目的.但由于不同造紙廠的設(shè)備型號(hào)以及生產(chǎn)紙種、規(guī)格不同,文中所獲得的模型的應(yīng)用具有一定的針對(duì)性.為獲得應(yīng)用性更廣且具有較高精度的紙張抗張強(qiáng)度模型,可嘗試從不同紙廠獲取樣本進(jìn)行建模.同時(shí)模型誤差有待改良,造成模型誤差的原因有:采集的樣本數(shù)較少,采集數(shù)據(jù)存在時(shí)間差等.而且文中使用統(tǒng)計(jì)分析方法,對(duì)選取數(shù)據(jù)依賴性較強(qiáng),對(duì)此問題的解決有待進(jìn)一步研究.
[1]Scott W.Potential application of predictive tensile strength models in paper manufacture(Part Ⅱ):integration of a tensile strength model with a dynamic paper machine material balance simulation[C]∥TAPPI Papermakers Conference Proceedings.Atlanta:GA TAPPI Press,2001.
[2]Page D H.A theory for the tensile strength of paper[J].TAPPI Journal,1969,52(4):674-679.
[3]Anson S J I',Karademir A,Sampson W W.Specific contact area and the tensile strength of paper [J].Appita Journal,2006,59(4):297.
[4]陶勁松,劉煥彬,陳小泉,等.紙頁水分含量對(duì)纖維相對(duì)結(jié)合面積和剪切抗張強(qiáng)度的影響[J].造紙科學(xué)與技術(shù),2007,26(2):1-5.Tao Jin-song,Liu Huan-bin,Chen Xiao-quan,et al.Effect of sheet moisture content on fiber relative bonded area and shear tensile strength[J].Paper Science & Technology,2007,26(2):1-5.
[5]De Ruyo A,F(xiàn)ellers C.Paper structure and properties[J].Marcel Dekker,1986,24(6):67.
[6]Axelsson A.Fibre based models for predicting tensile strength of paper[D].Finland:Lule? University of Technology,2009.
[7]王寶玉.木漿纖維表面化學(xué)特性與紙頁強(qiáng)度關(guān)系的研究[D].廣州:華南理工大學(xué)輕工與食品學(xué)院,2011.
[8]Navita,Kumar Ra.Articficial neural network modeling for tensile strength of paper in paper manufacturing process international[J].Information Technology and Knowledge Management,2011,4(2):409-412.
[9]Wold S,Ruhe A,Wold H,et al.The collinearity problem in linear regression.the partial least squares(PLS)approach to generalized inverses[J].SIAM Journal on Scientific and Statistical Computing,1984,5(3):735-743.
[10]Vapnik V.The nature of statistical learning theory[M].New York:Springer,2000.
[11]王惠文.偏最小二乘回歸方法原理及其應(yīng)用[M].北京:國防工業(yè)出版社,2000:123-202.
[12]Smola A J,Sch?lkopf B.A tutorial on support vector regression[J].Statistics and Computing,2004,14(3):199-222.
[13]王睿.關(guān)于支持向量機(jī)參數(shù)選擇方法分析[J].重慶師范大學(xué)學(xué)報(bào):自然科學(xué)版,2007,24(2):36-38.Wang Rui.Method analyze about support vector machine's parameter[J].Journal of Chongqing Normal University:Natural Science Edition,2007,24(2):36-38.
[14]Chai T,Draxler R R.Root mean square error(RMSE)or mean absolute error(MAE)?[J].Geoscientific Model Development Discussions,2014,7(1):1525-1534.
[15]Adler J,Parmryd.Quantifying colocalization by correlation:the Pearson correlation coefficient is superior to the Mander's overlap coefficient[J].Cytometry Part A,2010,77(8):733-742.
[16]Buda A,Jarynowski A.Life time of correlations and its applications[M].Poland:Andrzej Buda Wydawnictwo NiezaleL'L'ne,2010.