戚長(zhǎng)松,余忠華,侯智,楊振生
(浙江大學(xué)現(xiàn)代制造工程研究所,杭州 310027)
由于復(fù)雜生產(chǎn)過程具有工藝參數(shù)眾多、機(jī)理復(fù)雜、非線性顯著和動(dòng)態(tài)變化等特點(diǎn),難以用常規(guī)方法建立其精確的數(shù)學(xué)模型[1]。同時(shí),隨著工業(yè)自動(dòng)化技術(shù)和計(jì)算機(jī)信息技術(shù)的快速發(fā)展及應(yīng)用,在生產(chǎn)現(xiàn)場(chǎng)又積累了海量的數(shù)據(jù),激發(fā)了人們對(duì)分析這些數(shù)據(jù)的濃厚興趣,以識(shí)別和發(fā)掘其中隱藏的規(guī)律,更好地指導(dǎo)生產(chǎn)實(shí)踐。
統(tǒng)計(jì)質(zhì)量控制方法關(guān)注于生產(chǎn)工序的質(zhì)量波動(dòng)性,通過統(tǒng)計(jì)推斷預(yù)測(cè)工序的變異性,以便及時(shí)展開工藝調(diào)整。模糊分類法[2]、人工神經(jīng)網(wǎng)絡(luò)[3-5]、貝葉斯分類法[6]和支持向量機(jī)[7]等數(shù)據(jù)挖掘方法可以對(duì)工序質(zhì)量進(jìn)行分析和預(yù)測(cè),取得了較好的應(yīng)用效果。相比之下,決策樹(Decision Tree)方法具有易于處理變化的數(shù)據(jù)、對(duì)噪聲數(shù)據(jù)具有健壯性、生產(chǎn)規(guī)則容易理解、識(shí)別效率高等優(yōu)點(diǎn),決策樹中的 CART(CART:Classification And Regression Tree)算法可以使用回歸方程的形式進(jìn)行預(yù)測(cè)變量建模,因此該方法非常適用于具有以上特性的復(fù)雜生產(chǎn)過程質(zhì)量預(yù)測(cè)研究。
本文針對(duì)復(fù)雜生產(chǎn)過程,面向決策樹應(yīng)用構(gòu)建生產(chǎn)過程信息模型,并以陶瓷管生產(chǎn)過程為例,運(yùn)用 CART決策樹算法進(jìn)行了快速、有效的生產(chǎn)過程質(zhì)量預(yù)測(cè)。
CART決策樹法是由 Breiman等人于 1984年提出的決策樹構(gòu)建算法[8-10]。同其它決策樹算法如 ID3和CHAID相比較,CART算法的最大特點(diǎn)在于它可以處理目標(biāo)變量是連續(xù)型變量的情形。該方法使用替代變量(Surrogate Variable)[11]可有效解決分析中出現(xiàn)缺失數(shù)據(jù)的問題。同時(shí),它不要求預(yù)測(cè)變量與目標(biāo)變量之間具有某種特定的分布,還能有效地處理非線性問題的建模與求解。因此,非常適合于解決復(fù)雜生產(chǎn)過程的質(zhì)量預(yù)測(cè)問題。
圖 1為本文給出的一種面向復(fù)雜生產(chǎn)過程質(zhì)量預(yù)測(cè)的 CART決策樹構(gòu)建模型。其主要步驟包括:①識(shí)別復(fù)雜生產(chǎn)過程中產(chǎn)品關(guān)鍵質(zhì)量特性(Y)及其相關(guān)的工藝特性參數(shù)(X),構(gòu)成一組參數(shù)集{Y:X},進(jìn)而形成決策樹模型的訓(xùn)練集;②利用 CART生長(zhǎng)算法,建立CART決策樹;③依據(jù)剪枝算法對(duì)訓(xùn)練集進(jìn)行機(jī)器學(xué)習(xí),得到一系列決策樹模型;④使用交叉驗(yàn)證法(Cross-Validation)進(jìn)行模型評(píng)估,得到可以用于質(zhì)量預(yù)測(cè)的最優(yōu)決策樹模型。⑤最后,利用所建立的最優(yōu)決策樹模型,對(duì)生產(chǎn)過程進(jìn)行質(zhì)量預(yù)測(cè),以指導(dǎo)工藝調(diào)整。
圖 1 復(fù)雜生產(chǎn)過程CART決策樹模型構(gòu)建過程圖
復(fù)雜生產(chǎn)過程中評(píng)定產(chǎn)品質(zhì)量的特性指標(biāo)往往有多個(gè),而影響這些指標(biāo)的工藝因素則更多。進(jìn)行質(zhì)量預(yù)測(cè)研究需要有選擇性地識(shí)別其工藝特性參數(shù),構(gòu)成一組由產(chǎn)品關(guān)鍵質(zhì)量特性 Y={Y1,Y2,…,Yn}及其工藝特性參數(shù) X={X1,X2,…,Xn}所組成的參數(shù)集{Y:X},并采集足夠的訓(xùn)練樣本。這一環(huán)節(jié)是構(gòu)建決策樹預(yù)測(cè)模型的基礎(chǔ)與前提,直接關(guān)系到模型預(yù)測(cè)的準(zhǔn)確性,通常需結(jié)合實(shí)際案例采用因果圖、排列圖等輔助工具及專家評(píng)定的方法來解決。
這里,以氧化鋁陶瓷管生產(chǎn)過程為例進(jìn)行說明,該生產(chǎn)過程包括:原料采購(gòu)、混料、球磨、噴霧造粒、成型、素?zé)?、燒結(jié)等關(guān)鍵工序,如圖 2所示。通過對(duì)現(xiàn)場(chǎng)的分析及專家的經(jīng)驗(yàn),選取松裝密度(Y1)、流動(dòng)性(Y2)、含水率(Y3)作為產(chǎn)品關(guān)鍵質(zhì)量特性 Y={Y1,Y2,Y3};其工藝特性參數(shù) X則包括:球磨工序的球磨機(jī)型號(hào)(X1)和料漿粘度(以球磨后料漿過篩目數(shù)度量)(X2),噴霧造粒工序的噴嘴口徑(X3)、噴霧壓力(X4)、入口溫度(X5)和出口溫度(X6),即 X={X1,X2,…,X6}。以上關(guān)鍵質(zhì)量特性 Y={Y1,Y2,Y3}和工藝特性參數(shù) X={X1,X2,…,X6}將用于 CART決策樹的生成和剪枝。
圖 2 陶瓷管主要工藝路線圖
決策樹生長(zhǎng)算法的關(guān)鍵在于從可用的屬性中選擇每個(gè)節(jié)點(diǎn)的分裂屬性,使得決策樹的分類精度達(dá)到最高。樹的生長(zhǎng)過程實(shí)際就是不斷的把數(shù)據(jù)集進(jìn)行分割的過程,每次分割對(duì)應(yīng)于一個(gè)節(jié)點(diǎn)中的一個(gè)問題,對(duì)每個(gè)分割都要求分到同一分枝中的數(shù)據(jù)記錄間的“差異”最小(即屬于同一個(gè)類),而不同分枝間的數(shù)據(jù)記錄的“差異”最大(即屬于不同的類)。度量這個(gè)“差異”的指標(biāo)稱之為不純性,這樣便可用不純性度量指標(biāo)來控制 CART模型的分割行為。
一般,在數(shù)據(jù)分類時(shí),常用 Gini指數(shù)度量節(jié)點(diǎn)的不純性。即,節(jié)點(diǎn) t的 Gini指數(shù) GINI(t)定義為:
其中,i和 j是目標(biāo)變量的類別,p(j/t),p(j/t)表示目標(biāo)類別 i,j在節(jié)點(diǎn) t中出現(xiàn)的比例。假定節(jié)點(diǎn) t的下一代子節(jié)點(diǎn)分為 tL和tR,則不純度指標(biāo)的下降量表示為式(2):
其中,pL是 t中送到左邊子女節(jié)點(diǎn)的實(shí)例所占的比例,pR是 t中送到右邊子女節(jié)點(diǎn)的實(shí)例所占的比例。s∈ S是所有可能的分割集 S中的一個(gè)具體分割。CART的生長(zhǎng)就是選擇分割s,最大化GINIsplit(s,t)的值。由于對(duì)于節(jié)點(diǎn) t上的任意分割 s,GINI(t)是常量,因此,問題就變?yōu)檫x擇分割 s,使得式(3)中的 Gain(s,t)最小。
CART用于數(shù)據(jù)預(yù)測(cè)時(shí),任何一次分割通過式(4)計(jì)算節(jié)點(diǎn) N包含樣本的響應(yīng)變量 y的冗余平方和D(μ,y):
同樣分別計(jì)算左右節(jié)點(diǎn)的冗余平方和,選擇使得當(dāng)前節(jié)點(diǎn) N的冗余平方和與左右節(jié)點(diǎn)冗余平方和之差最大的查詢作為分割規(guī)則。
使用遞歸分割訓(xùn)練集而得到的決策樹隨著樹的生長(zhǎng),最佳分割的選擇所依據(jù)的樣本將越來越小,這就意味著隨著樹的生長(zhǎng),其估計(jì)結(jié)果變得越來越不可靠。當(dāng)訓(xùn)練集數(shù)據(jù)存在噪聲的情況下,生成的決策樹將與訓(xùn)練實(shí)例完全擬合,也稱過度擬合(overfitting),這種情況下一些噪聲和干擾數(shù)據(jù)也被包括進(jìn)來,即決策樹捕獲了訓(xùn)練樣本的規(guī)律,而不是得到了樣本領(lǐng)域(總體)的規(guī)律,亦即對(duì)訓(xùn)練數(shù)據(jù)的完全擬合反而不具有很好的預(yù)測(cè)性能。
剪枝是一種克服噪聲的技術(shù),通過剪枝算法可以將決策樹的準(zhǔn)確率提高達(dá) 25%[12],同時(shí)它也能使樹得到簡(jiǎn)化而變得更容易理解。CART算法采用交叉驗(yàn)證法進(jìn)行修剪,最終分析結(jié)果是一棵兼顧復(fù)雜度和錯(cuò)誤率的最優(yōu)二叉樹[8,13]。選擇最優(yōu)的剪枝樹即是選擇最優(yōu)的復(fù)雜度參數(shù) α[14]使得式(5)值最小,當(dāng)樣本數(shù)目不大時(shí),往往希望用全部的數(shù)據(jù)來構(gòu)建樹,采用交叉有效性評(píng)估方法使每一個(gè)樣本既用于構(gòu)建樹,同時(shí)用于估計(jì)冗余平方和,進(jìn)而確定 α實(shí)現(xiàn)最優(yōu)樹的選擇。
式中:C(T)表示該樹的加權(quán)錯(cuò)分率與復(fù)雜度處罰值之和的復(fù)合成本;|T|表示過度訓(xùn)練樹葉節(jié)點(diǎn)的數(shù)目;α為復(fù)雜度參數(shù),如果 α足夠大,則得到一個(gè)只有根節(jié)點(diǎn)的決策樹樹;對(duì)于 0=α1<α2<… <αk,整數(shù)k≤|T|,因此可以生成節(jié)點(diǎn)數(shù)逐次降低的 CART序列 fα1,…,fαk,其中 fα1為初始未經(jīng)剪枝的樹 ,fαk為僅包含根節(jié)點(diǎn)的樹。將 CART作為預(yù)測(cè)模型時(shí)定義式(6)中:
作為分類模型時(shí)定義式(7)中:
式中:I為隱含函數(shù)關(guān)系。
為了在樣本數(shù)目有限的情況下,更有效地評(píng)估模型的準(zhǔn)確性,將使用交叉驗(yàn)證法(Cross-Validation)進(jìn)行模型評(píng)估。交叉驗(yàn)證法對(duì)于樣本數(shù)據(jù)相對(duì)少的問題具有很強(qiáng)的適用性。該法中所有樣本被劃分成 k個(gè)互不相交的子集 S1,S2,…,Sk,每個(gè)子集的樣本數(shù)目大致相等。圖 1所示的子過程(步驟 2-步驟 3-步驟 4)進(jìn)行 k次循環(huán)。第 i次中 Si作為測(cè)試數(shù)據(jù)集,其余子集都用作訓(xùn)練數(shù)據(jù)集。首先,使用訓(xùn)練數(shù)據(jù)集生成初始決策樹模型;其次,利用最小代價(jià)復(fù)雜性剪枝算法對(duì)初始決策樹進(jìn)行剪枝,從而得到具有不同復(fù)雜度參數(shù) α的決策樹;最后,使用測(cè)試數(shù)據(jù)集來評(píng)估模型的預(yù)測(cè)準(zhǔn)確率,結(jié)合模型復(fù)雜度和準(zhǔn)確性的評(píng)估,確定可以進(jìn)行質(zhì)量預(yù)測(cè)的決策樹模型。
最終得到的決策樹的層數(shù)不宜過多或過少。如果層次過多,則表示分割過多,所產(chǎn)生的規(guī)則也會(huì)因?yàn)檫^于細(xì)致而失去分類效力;相反,如果層次太少,即表示分割過程太早,所建模型未必產(chǎn)生良好的分類規(guī)則。
針對(duì)陶瓷管生產(chǎn)過程,按照以上模型構(gòu)建過程建立用于質(zhì)量預(yù)測(cè)的 CART決策樹模型。決策樹建模工具選擇 Spss Clementine 11數(shù)據(jù)挖掘平臺(tái),以目標(biāo)變量為流動(dòng)性(Y2)為例進(jìn)行應(yīng)用實(shí)例研究。
工藝特性參數(shù)識(shí)別階段,選取工藝特性參數(shù) X作為預(yù)測(cè)變量,選取產(chǎn)品關(guān)鍵質(zhì)量特性 Y作為目標(biāo)變量,訓(xùn)練集樣本取自某公司生產(chǎn)現(xiàn)場(chǎng)的測(cè)試結(jié)果,共采集了 486條數(shù)據(jù),部分?jǐn)?shù)據(jù)如表 1所示。
表 1 用于決策樹建模的數(shù)據(jù)集結(jié)構(gòu)和樣本表
決策樹生成階段,最大樹狀圖深度設(shè)置為 5;控制樹生長(zhǎng)的最小雜質(zhì)改變?cè)O(shè)置為 0.003,即如果某個(gè)分支的最佳分割按小于指定值的數(shù)量減少雜質(zhì),則不會(huì)進(jìn)行此分割,如果不進(jìn)行剪枝則獲得最大決策樹如圖 3a所示。
圖 3 陶瓷管生產(chǎn)過程決策樹(以目標(biāo)變量為流動(dòng)性為例)
決策樹剪枝階段,為避免過度擬合,式(5)中的復(fù)雜度參數(shù) α設(shè)置為 0.5和 1,獲得剪枝后的決策樹如圖3b和圖 3c所示。
下面對(duì)以上三個(gè)模型的準(zhǔn)確率進(jìn)行評(píng)估,結(jié)果見表 2。其中當(dāng)復(fù)雜度參數(shù) α=1時(shí),決策樹具有最簡(jiǎn)單的形式,但是平均預(yù)測(cè)誤差為 2.64%,均方誤差為2.44%,兩個(gè)指標(biāo)都偏大;當(dāng)不進(jìn)行剪枝時(shí),平均預(yù)測(cè)誤差為 2.54%,三者中最小,但是如圖 3a所示的決策樹模型及其規(guī)則過于復(fù)雜,預(yù)測(cè)效率不高;當(dāng)復(fù)雜度參數(shù) α=0.5時(shí),預(yù)測(cè)的均方誤差為 2.41%,是三者中最小,且平均預(yù)測(cè)誤差為 2.62%,小于當(dāng)復(fù)雜度參數(shù)α=1時(shí)的平均預(yù)測(cè)誤差 2.64%,同時(shí)如圖 3b所示的決策樹模型相對(duì)于圖 3a所示的模型要簡(jiǎn)化很多,即達(dá)到了復(fù)雜度和錯(cuò)誤率的平衡。綜上所述,選擇復(fù)雜度參數(shù) α=0.5時(shí)的決策樹模型,圖3b所示,作為流動(dòng)性的預(yù)測(cè)模型。
表 2 復(fù)雜度參數(shù)α不同時(shí)模型準(zhǔn)確性評(píng)估結(jié)果
圖 3b所示的決策模型共有 5個(gè)葉節(jié)點(diǎn),每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)一條規(guī)則,共 5條規(guī)則,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的規(guī)則如下:
其中,Pressure代表噴霧壓力(X4);OutTemp代表出口溫度(X6);Grinder代表球磨機(jī)編號(hào)(X1);InTemp代表入口溫度(X5)。“=>”之后的數(shù)值表示流動(dòng)性的預(yù)測(cè)值,預(yù)測(cè)值后面括號(hào)里面的數(shù)字代表支持該規(guī)則的樣本個(gè)數(shù)。
由于樹的建立過程是一個(gè)不斷選擇最佳預(yù)測(cè)變量的過程,因此在劃分?jǐn)?shù)據(jù)方面,高層結(jié)點(diǎn)上的分類規(guī)則比低層結(jié)點(diǎn)上的分類規(guī)則更有價(jià)值,所以可以根據(jù)分類規(guī)則在分類樹的位置確定預(yù)測(cè)變量對(duì)目標(biāo)變量的影響的重要性,從圖 3b所示的決策樹模型中可以看出針對(duì)流動(dòng)性這一目標(biāo)變量,預(yù)測(cè)變量的重要性排序?yàn)椋簢婌F壓力(X4)>出口溫度(X6)>球磨機(jī)編號(hào)(X1)和入口溫度(X5)。
針對(duì)復(fù)雜生產(chǎn)過程質(zhì)量影響因素分布范圍廣、時(shí)間跨度大的特點(diǎn),構(gòu)建基于 CART決策樹的質(zhì)量預(yù)測(cè)模型,用一系列過程預(yù)測(cè)變量的邏輯表達(dá)式構(gòu)成陶瓷管生產(chǎn)質(zhì)量分類、預(yù)測(cè)的規(guī)則,并對(duì)預(yù)測(cè)變量的重要度進(jìn)行排序。該模型能夠有效地處理復(fù)雜生產(chǎn)過程的海量質(zhì)量數(shù)據(jù)。使得一個(gè)復(fù)雜的參數(shù)優(yōu)化與決策過程的時(shí)間顯著減少,效率大大提高。CART測(cè)試結(jié)果表明,基于 CART算法的決策樹可以較為滿意地完成陶瓷管生產(chǎn)過程的質(zhì)量預(yù)測(cè)工作。
[1]古鐘璧,王禎學(xué),胡麗莉.復(fù)雜生產(chǎn)過程的模糊神經(jīng)網(wǎng)絡(luò)辨識(shí)[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),1997(6):801-806.
[2]吳敏,徐辰華,王春生.基于模糊分類變系數(shù)的鉛鋅燒結(jié)過程綜合透氣性狀態(tài)預(yù)測(cè)[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2006(7):19-23.
[3]王偉,婁相芽,楊永紅,等.基于 RBF人工神經(jīng)網(wǎng)絡(luò)的噴丸成形工藝參數(shù)預(yù)測(cè)方法[J].組合機(jī)床與自動(dòng)化加工技術(shù),2008(8):43-45,49.
[4]黃松林,崔建忠.基于人工神經(jīng)網(wǎng)絡(luò)的鋁合金鑄錠裂紋傾向預(yù)測(cè)[J].中國(guó)有色金屬學(xué)報(bào),2008(9):1699-1705.
[5]賈劍平,徐坤剛,李志剛.改進(jìn)型 BP網(wǎng)絡(luò)在優(yōu)化焊接工藝參數(shù)中的應(yīng)用[J].熱加工工藝,2008(21):98-100.
[6]龔淑華,劉祥官.模糊貝葉斯網(wǎng)絡(luò)應(yīng)用于預(yù)測(cè)高爐鐵水含硅量變化趨勢(shì)[J].冶金自動(dòng)化,2005(5):30-32,42.
[7]董華,楊世元,吳德會(huì).基于模糊支持向量機(jī)的小批量生產(chǎn)質(zhì)量智能預(yù)測(cè)方法[J].系統(tǒng)工程理論與實(shí)踐,2007(3):98-104.
[8]Breiman L,Friedman J,Olshen R.Classification and regression trees[M].California:Wadsworth Belement,1984.
[9]Scott CD,Willett RM,Nowak R D.Classification or regression Trees[J].IEEE Acoustics Speech and Signal Processing,2003,4(6):153-156.
[10]Bittencourt H R,Clarke R T.Use of classification and regression trees(CART)to classify remotely-sensed digital images[J].IEEE Geoscience and Remote Sensing Symposium,2003,7(6):3751-3753.
[11]Chebrolu,Srilatha,Abraham.Feature deduction and ensemble design of intrusion detection systems[J].Computers and Security,2005,24(4):295-307.
[12]J.Mingers,An empirical comparison of pruningmethods for decision tree induction[J].Machine Learning,1989(4):227-243.
[13]Yohannes Y,Hoddinott J.Classification and Regression Tree:An Introduction[M].Washington,D.C.,U.S.A.:International Food Policy Research Institute,1999.
[14]F Esposito,D Malerba,G Semeraro.A com parative analysis ofmethods for pruning decision trees[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(5):476-491.