柳嘉昊
【摘? 要】復(fù)雜產(chǎn)品生產(chǎn)數(shù)據(jù)具有高維度、不平衡的特點(diǎn),為在復(fù)雜產(chǎn)品的生產(chǎn)階段有效識別關(guān)鍵質(zhì)量特性,及時進(jìn)行質(zhì)量控制,論文提出了一種基于聚類欠采樣的改進(jìn)隨機(jī)森林算法(Random forest algorithm base on K-Means clustering under sampling,KMUS-RF),利用K-Means算法對多數(shù)樣本進(jìn)行聚類,并根據(jù)聚類結(jié)果進(jìn)行多次欠采樣形成多個平衡數(shù)據(jù)集,以隨機(jī)森林為基分類器進(jìn)行識別,最終根據(jù)分類過程中的特征重要性輸出關(guān)鍵質(zhì)量特性集。算例表明,KMUS-RF算法相比現(xiàn)有的多種分類器有良好的整體分類性能,并能顯著降低復(fù)雜產(chǎn)品分類的第二類錯誤率,滿足產(chǎn)品實(shí)際生產(chǎn)需求。
【Abstract】The production data of complex products have the characteristics of high dimension and imbalance. In order to effectively identify the critical-to-quality characteristics in the production stage of complex products and timely control the quality, this paper proposes an improved random forest algorithm base on K-Means clustering under sampling (KMUS-RF). K-Means algorithm is used to cluster the majority of samples, and multiple undersampling is performed according to the clustering results to form multiple balanced data sets. The random forest based classifier is used for recognition, and finally the critical-to-quality characteristics set is output according to the feature importance in the classification process. Numerical examples show that KMUS-RF algorithm has good overall classification performance compared with existing classifiers, and can significantly reduce the type II error rate of complex product classification, and meet the actual production needs of products.
【關(guān)鍵詞】關(guān)鍵質(zhì)量特性;不平衡數(shù)據(jù);隨機(jī)森林;K-Means;第二類錯誤
【Keywords】critical-to-quality characteristics; imbalanced data; random forest; K-Means; type II error
【中圖分類號】F273.2? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2021)10-0134-04
1 引言
質(zhì)量強(qiáng)則國家強(qiáng),質(zhì)量興則民族興,質(zhì)量可靠性是產(chǎn)品生產(chǎn)最基本的要求。在復(fù)雜產(chǎn)品的生產(chǎn)制造過程中,由于復(fù)雜產(chǎn)品由諸多系統(tǒng)組成,且它們具有高度集成、系統(tǒng)之間相互關(guān)聯(lián)、相互制約的特點(diǎn),因此需要控制的變量極多。例如,汽車發(fā)動機(jī)由五大系統(tǒng)和兩大機(jī)構(gòu)組成。五大系統(tǒng)是燃料供給系統(tǒng)、冷卻系統(tǒng)、潤滑系統(tǒng)、點(diǎn)火系統(tǒng)和起動系統(tǒng)。兩大機(jī)構(gòu)是曲柄連桿機(jī)構(gòu)和配氣機(jī)構(gòu),其中某一系統(tǒng)又由活塞、連桿、搖臂等零部件組成,零部件又能進(jìn)一步被分解為螺絲、軸承等,每一微小的零部件都有尺寸、重量等質(zhì)量特性。在復(fù)雜產(chǎn)品被從部件分解成零件的過程中,產(chǎn)品質(zhì)量特性數(shù)據(jù)集的維度會隨著產(chǎn)品結(jié)構(gòu)的逐步分解而不斷升高。另外,在實(shí)際生產(chǎn)過程中,產(chǎn)品數(shù)據(jù)往往具有不平衡性。在制造業(yè)中,如果生產(chǎn)出的合格產(chǎn)品數(shù)量是不合格產(chǎn)品數(shù)量的10倍以上,就稱這樣的數(shù)據(jù)為不平衡數(shù)據(jù)(Imbalance Data Sets,IDS)。高維度、不平衡的復(fù)雜產(chǎn)品生產(chǎn)數(shù)據(jù)使質(zhì)量控制成為難題。因此,質(zhì)量問題成為復(fù)雜產(chǎn)品生產(chǎn)控制的關(guān)鍵問題,這不僅關(guān)系到復(fù)雜裝備的生產(chǎn)質(zhì)量問題,更關(guān)系到經(jīng)濟(jì)安全甚至生命安全。為了在較低的控制成本下有效實(shí)現(xiàn)質(zhì)量控制,就需要從高維度、不平衡的質(zhì)量特性數(shù)據(jù)集中識別出對產(chǎn)品質(zhì)量有顯著影響的關(guān)鍵質(zhì)量特性(Critical-to-Quality Characteristics,CTQ)。
2 相關(guān)研究工作概述
傳統(tǒng)的CTQ識別主要依賴于工程人員的專業(yè)知識或者是顧客的需求,從產(chǎn)品構(gòu)造、產(chǎn)品加工、工程特性、顧客需求等角度定性或定量方法識別產(chǎn)品的CTQ。應(yīng)用最多的就是質(zhì)量功能展開法(Quality Function Deployment,QFD)。QFD法主要包括以下幾個步驟:調(diào)查顧客需求、產(chǎn)品規(guī)劃、產(chǎn)品設(shè)計方案確定、零部件規(guī)劃、零部件設(shè)計和工藝過程設(shè)計、工藝規(guī)劃、工藝質(zhì)量控制。
至今,QFD仍被認(rèn)為是產(chǎn)品設(shè)計階段CTQ識別的最有效方法。但是,在應(yīng)用中發(fā)現(xiàn),當(dāng)QFD法應(yīng)用于高維度、不平衡的數(shù)據(jù)集時會因自身的局限性而大大降低效率,QFD法的質(zhì)量矩陣變得難以確定,由此便產(chǎn)生了通過數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等方法識別產(chǎn)品CTQ的研究,這方面的研究還相對較少。閆偉等(2012)通過改進(jìn)ReliefF算法、Wrapper方法及EM(Expectation Maximization)算法,有效提高了CTQ識別性能并大幅降低了第二類錯誤率,還在2014年通過調(diào)整CEM(Classification EM Algorithm)算法的K值輸出不同的聚類結(jié)果,消除冗余樣本后作為IG(Information Gain)算法的輸入,有效降低了數(shù)據(jù)高維度和不平衡帶來的負(fù)面影響,正確識別了產(chǎn)品CTQ集。李岸達(dá)等(2016)提出了基于NSGA-II的特征選擇算法,引入第II類錯誤率度量質(zhì)量特性子集的重要性,通過理想點(diǎn)法在非支配解集中選擇最佳調(diào)和解,得到產(chǎn)品的CTQ集。
從現(xiàn)有研究中發(fā)現(xiàn),目前的CTQ識別方法有以下幾點(diǎn)不足:難以應(yīng)用于高維度、不平衡的復(fù)雜產(chǎn)品數(shù)據(jù)集;未考慮到第二類錯誤率對實(shí)際生產(chǎn)中的影響;基于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的CTQ識別算法不夠高效。針對以上不足,本文旨在提供一種算法,能高效識別產(chǎn)品CTQ集,可應(yīng)用于高維度、不平衡的數(shù)據(jù)集,并且能夠降低第二類錯誤率,滿足實(shí)際生產(chǎn)中的需要。
3 研究思路和方法
3.1 構(gòu)建基于改進(jìn)隨機(jī)森林算法的CTQ識別方法
本文從不同于傳統(tǒng)CTQ識別方法的視角,構(gòu)建了一套完整的高維度、不平衡復(fù)雜產(chǎn)品數(shù)據(jù)集CTQ識別方法,基本框架如圖1所示。
基于改進(jìn)隨機(jī)森林算法的CTQ識別方法步驟如下:
①獲取復(fù)雜產(chǎn)品原始質(zhì)量特性數(shù)據(jù)集。
②數(shù)據(jù)預(yù)處理(填補(bǔ)缺失值、標(biāo)準(zhǔn)化數(shù)據(jù))。
③對多數(shù)類樣本進(jìn)行K-Means聚類。
④根據(jù)聚類結(jié)果進(jìn)行欠采樣生成n個多數(shù)類樣本集。
⑤將每個多數(shù)類樣本集與少數(shù)類樣本集組成n個平衡的訓(xùn)練集。
⑥對每個平衡訓(xùn)練集用決策樹進(jìn)行分類,直至生成n棵決策樹形成隨機(jī)森林。
⑦對于測試集,經(jīng)過每棵樹決策判斷,最后投票確認(rèn)分到哪一類。
⑧根據(jù)分類過程中的特征重要性輸出CTQ質(zhì)量特性數(shù)據(jù)集。
該方法的構(gòu)建總體分為3個階段:第一階段(步驟①、②)對原始高維度、不平衡數(shù)據(jù)進(jìn)行初始處理;第二階段(步驟③~⑥)基于聚類欠采樣的改進(jìn)隨機(jī)森林算法(Random forest algorithm base on K-Means clustering under sampling,KMUS-RF)對樣本數(shù)據(jù)進(jìn)行分類;第三階段(步驟⑦、⑧)驗(yàn)證算法的有效性,并輸出CTQ數(shù)據(jù)集。
3.2 KMUS-RF算法評價指標(biāo)
為評價KMUS-RF算法的分類效果,本文構(gòu)建了混淆矩陣,如表1所示。TN表示模型將反類樣本預(yù)測為反類的數(shù)量,F(xiàn)P表示模型將反類樣本預(yù)測為正類的數(shù)量,F(xiàn)N表示模型將正類樣本預(yù)測為反類的數(shù)量,TP表示模型將正類樣本預(yù)測為正類的數(shù)量。
基于表1,可以得到各種分類性能的衡量指標(biāo),包括:分類精度(Accuracy)、準(zhǔn)確率(Precision)、召回率(Recall)、F1得分(F-score)、第二類錯誤率(Type II error)。各評價指標(biāo)的計算如式(1)~(5)所示。
本文選用分類精度和第二類錯誤率2個指標(biāo)對分類結(jié)果進(jìn)行評價。其中,第一類錯誤的定義為錯誤地將合格產(chǎn)品判定為不合格產(chǎn)品,這類錯誤的風(fēng)險承擔(dān)者為生產(chǎn)者,因此也被稱為“生產(chǎn)者風(fēng)險”;第二類錯誤的定義為錯誤地將不合格產(chǎn)品判定為合格產(chǎn)品,這類錯誤的風(fēng)險承擔(dān)者為消費(fèi)者,因此也被稱為“消費(fèi)者風(fēng)險”。在復(fù)雜產(chǎn)品的生產(chǎn)過程中,第二類錯誤帶來的損失通常遠(yuǎn)高于第一類錯誤。因此,本文選用的評價指標(biāo)兼顧了分類器的性能和實(shí)際生產(chǎn)應(yīng)用的需求。
4 實(shí)證分析
4.1 數(shù)據(jù)獲取與預(yù)處理
本文復(fù)雜產(chǎn)品質(zhì)量特性數(shù)據(jù)集來源于UCI數(shù)據(jù)庫的SECOM數(shù)據(jù)集,該數(shù)據(jù)集為半導(dǎo)體生產(chǎn)過程控制數(shù)據(jù)。數(shù)據(jù)集共有樣本1567個,每個樣本有590個質(zhì)量特性,將其標(biāo)號為“Q0”“Q1”…“Q589”,樣本分為合格產(chǎn)品和不合格產(chǎn)品2類,其中合格產(chǎn)品數(shù)量為1463個,不合格產(chǎn)品數(shù)量為104個。SECOM數(shù)據(jù)集中質(zhì)量特性數(shù)量多,合格產(chǎn)品數(shù)量超過不合格產(chǎn)品數(shù)量的10倍,是典型的高維度、不平衡數(shù)據(jù)集。因此,在分類器識別之前需要對數(shù)據(jù)進(jìn)行預(yù)處理。
首先,填補(bǔ)缺失值。SECOM數(shù)據(jù)集中,部分樣本缺少某個或某幾個質(zhì)量特性的數(shù)據(jù),為便于模型進(jìn)行預(yù)測,本文使用均值填充法(Mean Completer),用每一質(zhì)量特性的均值填充缺失值。
接著,標(biāo)準(zhǔn)化數(shù)據(jù)。為進(jìn)一步提高模型的收斂速度和預(yù)測精度,本文使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(StandardScaler)對數(shù)據(jù)樣本進(jìn)行無量綱化處理,具體方法如式(6)所示。
(6)
式中,x'表示無量綱化樣本,x表示原始樣本,表示樣本均值,s表示樣本標(biāo)準(zhǔn)差。最后,分割數(shù)據(jù)集為訓(xùn)練集和測試集,本文隨機(jī)選取26個合格產(chǎn)品和26個不合格產(chǎn)品組成測試集,剩余數(shù)據(jù)為訓(xùn)練集,具體信息如表2所示。
4.2 基于K-Means聚類欠采樣
隨機(jī)森林算法基分類器的多樣性將決定最終分類效果,為此,本文通過聚類的欠采樣方法構(gòu)建不同的訓(xùn)練子集,以提高基分類器的多樣性。首先,對多數(shù)類樣本進(jìn)行K-Means聚類,具體過程如下:①從多數(shù)類樣本中選擇k個樣本作為初始簇中心:C=η。②計算每個多數(shù)類樣本xj到k個簇中心ηi(1≤i≤k)的歐氏距離dij,確定xj的簇標(biāo)記λj=arg mini∈{1,2,…,k)dij,并分配給最近的簇中心Cλj=Cλj∪{xj}。③將每個簇中心設(shè)置為所分配的所有多數(shù)類樣本的平均值。④重復(fù)步驟②、③直至簇中心不再變化,結(jié)束循環(huán)。⑤輸出多數(shù)類樣本的聚類結(jié)果。
本文取k=39,經(jīng)過K-Means聚類后,訓(xùn)練集中的多數(shù)類樣本被聚類成39個簇。接著,從39個簇中有放回得抽樣2次,并與少數(shù)類樣本進(jìn)行合并,生成1個平衡訓(xùn)練子集(其中含有78個多數(shù)類樣本和78個少數(shù)類樣本)。最后,重復(fù)進(jìn)行上一步中的抽樣,得到n個平衡訓(xùn)練子集。
4.3 基于隨機(jī)森林算法的產(chǎn)品分類實(shí)現(xiàn)
對上文得到的n個平衡訓(xùn)練子集,構(gòu)建n棵決策樹組成的隨機(jī)森林,根據(jù)每棵決策樹對單一訓(xùn)練子集的訓(xùn)練結(jié)果,對測試集進(jìn)行分類,最終輸出n棵決策樹投票得到測試集分類結(jié)果。
本文設(shè)定n=50,為增加實(shí)驗(yàn)結(jié)果的客觀性,本文通過調(diào)整采樣時的隨機(jī)數(shù)種子,進(jìn)行5次實(shí)驗(yàn),分別記為E1、E2、E3、E4、E5。結(jié)果如表3所示。
此外,本文選擇RF、RUS-RF、SMOTEENN-RF、SMOTETomek-RF、ADASYNENN-RF、CEM-IG、改進(jìn)ReliefF、改進(jìn)Wrapper、改進(jìn)EM九種算法作為本文的對照算法。
其中,RF代表不做任何處理的隨機(jī)森林算法;RUS-RF代表先采用隨機(jī)欠采樣,再用隨機(jī)森林進(jìn)行分類的算法;SMOTEENN-RF代表先用SMOTE進(jìn)行過采樣,再用EditedNearestNeighbours進(jìn)行欠采樣,最后用隨機(jī)森林進(jìn)行分類的算法;SMOTETomek-RF代表先用SMOTE進(jìn)行過采樣,再用Tomek Links進(jìn)行欠采樣,最后用隨機(jī)森林進(jìn)行分類的算法;ADASYNENN-RF代表先用ADASYN進(jìn)行過采樣,再用EditedNearestNeighbours進(jìn)行欠采樣,最后用隨機(jī)森林進(jìn)行分類的算法,其余為現(xiàn)有文獻(xiàn)中應(yīng)用的算法。另外,在用到隨機(jī)森林進(jìn)行分類的算法中,統(tǒng)一設(shè)定用50棵決策樹進(jìn)行投票。各算法的比較結(jié)果如表4所示。
從表4可以很直觀地看出,本文提出的基于KMUS-RF算法的分類方法在分類精度和第二類錯誤率2個指標(biāo)均優(yōu)于現(xiàn)有的基于重采樣技術(shù)的隨機(jī)森林算法,證明本文的聚類欠采樣方法能夠良好保留多數(shù)類樣本的信息。
此外,與其他CTQ識別算法相比,雖然分類精度不是最優(yōu),但也表現(xiàn)出良好的性能。本文算法大幅降低了產(chǎn)品分類的第二類錯誤率,有效降低了實(shí)際生產(chǎn)過程中的負(fù)面影響。
4.4 基于KMUS-RF算法的CTQ識別
本文根據(jù)每次實(shí)驗(yàn)中隨機(jī)森林算法的特征重要性(feature_importance)進(jìn)行降序排列,即對影響復(fù)雜產(chǎn)品分類結(jié)果的各個質(zhì)量特性的重要性從高到低進(jìn)行排列,可認(rèn)為,某個質(zhì)量特性對分類結(jié)果影響越大,該質(zhì)量特性越重要。為不失一般性,本文對5次實(shí)驗(yàn)的前top_n個質(zhì)量特性取交集,得到對每次實(shí)驗(yàn)的產(chǎn)品分類都起重要作用的質(zhì)量特性集,將其作為CTQ集,具體結(jié)果如表5所示。
由表5可得,通過對top_n值的改變,能夠明顯看出質(zhì)量特性的重要性梯度,在實(shí)際生產(chǎn)應(yīng)用中,企業(yè)可根據(jù)自身的質(zhì)量控制能力靈活調(diào)整top_n值,對關(guān)鍵質(zhì)量特性進(jìn)行有效控制,便于及時發(fā)現(xiàn)產(chǎn)品缺陷,調(diào)整生產(chǎn)策略。
5 結(jié)論與展望
近年來,隨著制造業(yè)的不斷發(fā)展和各種測量儀器的進(jìn)步,從產(chǎn)品加工過程中獲得各個零部件的尺寸參數(shù)等技術(shù)已較為成熟,但復(fù)雜產(chǎn)品組成系統(tǒng)眾多,客觀上造成了數(shù)據(jù)的高維度性,而合格產(chǎn)品數(shù)量遠(yuǎn)大于不合格產(chǎn)品數(shù)量,又造成了數(shù)據(jù)的不平衡性,這2個特性給企業(yè)在生產(chǎn)過程中的CTQ識別控制帶來了一定困擾。本文提出的KMUS-RF算法以高維度、不平衡的復(fù)雜產(chǎn)品生產(chǎn)數(shù)據(jù)為研究對象,算例結(jié)果表明:該方法可以準(zhǔn)確地對復(fù)雜產(chǎn)品進(jìn)行分類,并有效識別復(fù)雜產(chǎn)品CTQ集,還能有效降低產(chǎn)品分類的第二類錯誤率。算法既給復(fù)雜產(chǎn)品高維度、不平衡數(shù)據(jù)的CTQ識別研究提供了理論借鑒,也給企業(yè)實(shí)際生產(chǎn)過程中進(jìn)行質(zhì)量控制、降低第二類錯誤率提供了方法參考。在后續(xù)的研究中,可將更多的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)方法應(yīng)用于復(fù)雜產(chǎn)品CTQ識別中,探究更精確的算法,也可根據(jù)其他復(fù)雜產(chǎn)品生產(chǎn)數(shù)據(jù)集對本文算法進(jìn)行改進(jìn)和創(chuàng)新。
【參考文獻(xiàn)】
【1】李伯虎.復(fù)雜產(chǎn)品制造信息化的重要技術(shù)——復(fù)雜產(chǎn)品集成制造系統(tǒng)[J].中國制造業(yè)信息化,2006(14):20-24.
【2】張健,方宏彬.剪枝與欠采樣相結(jié)合的不平衡數(shù)據(jù)分類方法[J].計算機(jī)應(yīng)用研究,2012,29(03):847-848.
【3】何益海,唐曉青,王美清.產(chǎn)品設(shè)計質(zhì)量數(shù)據(jù)與管理模型研究[J].計算機(jī)集成制造系統(tǒng),2006,12(8):1161-1166.
【4】馬驪.隨機(jī)森林算法的優(yōu)化改進(jìn)研究[D].廣州:暨南大學(xué),2016.
【5】Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.
【6】He H, Bai Y, Garcia E A, et al. ADASYN: Adaptive synthetic sampling approach for imbalanced learning[C]// Neural Networks, 2008. IJCNN 2008. (IEEE World Congress on Computational Intelligence).
IEEE International Joint Conference on. IEEE, 2008.
【7】Batista G E A P A , Prati R C, Monard M C. A study of the behavior of several methods for balancing machine learning training data[J].Acm Sigkdd Explorations Newsletter,2004,6(1):20-29.
【8】閆偉.基于數(shù)據(jù)挖掘的復(fù)雜產(chǎn)品關(guān)鍵質(zhì)量特性識別的方法研究[D].天津:天津大學(xué),2012.
【9】閆偉,何楨,李岸達(dá).基于CEM—IG算法的復(fù)雜產(chǎn)品關(guān)鍵質(zhì)量特性識別[J].系統(tǒng)工程理論與實(shí)踐,2014(5):1230-1236.
【10】于志忠.利用QFD方法建立基于顧客滿意的質(zhì)量目標(biāo)[J].中國認(rèn)證認(rèn)可,2010(11):35-37.
【11】李岸達(dá),何楨,何曙光.基于NSGA-Ⅱ的非平衡制造數(shù)據(jù)關(guān)鍵質(zhì)量特性識別[J].系統(tǒng)工程理論與實(shí)踐,2016,36(06):1472-1479.