楊冬英
(山西大學(xué)商務(wù)學(xué)院,太原 030031)
通常,工控企業(yè)由于自動(dòng)化程度不高,導(dǎo)致生產(chǎn)過(guò)程中產(chǎn)生的數(shù)據(jù)很難實(shí)時(shí)傳送到用戶端,導(dǎo)致用戶端也很難及時(shí)將控制命令傳達(dá)給設(shè)備端,結(jié)果導(dǎo)致工控企業(yè)的生產(chǎn)效率比較低。近年來(lái),隨著計(jì)算機(jī)網(wǎng)絡(luò)滲入到各行各業(yè),尤其是生產(chǎn)領(lǐng)域,許多工控企業(yè)網(wǎng)絡(luò)逐漸向智能化發(fā)展,生產(chǎn)過(guò)程中相關(guān)數(shù)據(jù)的采集、設(shè)備的監(jiān)控與故障診斷與處理等,都可以集中整合到自動(dòng)化網(wǎng)絡(luò)信息系統(tǒng)中,從而實(shí)現(xiàn)了生產(chǎn)過(guò)程的全自動(dòng)化監(jiān)控和管理。
目前,計(jì)算機(jī)網(wǎng)絡(luò)由于具有可靠性、實(shí)時(shí)性等特點(diǎn),同時(shí)還可以兼容現(xiàn)場(chǎng)控制總線技術(shù),被廣泛應(yīng)用到工控企業(yè)網(wǎng)絡(luò)中。傳統(tǒng)的工控網(wǎng)絡(luò)一般都屬于專用網(wǎng)絡(luò),計(jì)算機(jī)通過(guò)與PLC卡件的連接獲取實(shí)時(shí)數(shù)據(jù),并將數(shù)據(jù)傳輸給操作人員進(jìn)行分析、控制,同時(shí)操作人員也將命令傳送給現(xiàn)場(chǎng)終端設(shè)備。當(dāng)故障發(fā)生時(shí),操作人員無(wú)法通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)實(shí)時(shí)了解現(xiàn)場(chǎng)設(shè)備故障情況以及生產(chǎn)狀況,導(dǎo)致工作效率比較低。如何有效、快速、安全地診斷出工控企業(yè)網(wǎng)絡(luò)中的故障,保證工控企業(yè)能夠正常生產(chǎn)運(yùn)行,是目前工控企業(yè)網(wǎng)絡(luò)亟需解決的核心問(wèn)題。
本文主要分析在現(xiàn)有故障診斷方法的基礎(chǔ)上,結(jié)合工控企業(yè)實(shí)際特點(diǎn),提出了一種精確度加權(quán)隨機(jī)森林算法((Accuracy Weighted Random Forest,AWRF)。該算法根據(jù)每棵決策樹(shù)的分類能力來(lái)設(shè)定其相對(duì)應(yīng)的權(quán)重,很大程度上解決了數(shù)據(jù)不均衡帶來(lái)的問(wèn)題。該算法比較其他算法具有更高的分類效率,更加適合工控企業(yè)網(wǎng)絡(luò)環(huán)境。通過(guò)與其他相關(guān)算法做對(duì)比實(shí)驗(yàn),可以證明該算法的可靠性、有效性還是比較高。
組成工控系統(tǒng)的設(shè)備類型主要包括工業(yè)生產(chǎn)控制設(shè)備、工業(yè)網(wǎng)絡(luò)通信設(shè)備、工業(yè)主機(jī)設(shè)備、工業(yè)生產(chǎn)信息系統(tǒng)、工業(yè)網(wǎng)絡(luò)安全設(shè)備五類設(shè)備。工業(yè)網(wǎng)絡(luò)安全設(shè)備主要包括工業(yè)防火墻、工業(yè)網(wǎng)閘、主機(jī)安全防護(hù)設(shè)備等。工業(yè)生產(chǎn)控制設(shè)備主要包括可邏輯編程控制器(PLC)、分布式控制系統(tǒng)(DCS)、遠(yuǎn)程中端設(shè)備(RTU)、數(shù)控機(jī)床、工業(yè)機(jī)器人、智能儀表等。工業(yè)網(wǎng)絡(luò)通信設(shè)備包括工業(yè)交換機(jī)、工業(yè)路由器、串口服務(wù)器等。工業(yè)主機(jī)設(shè)備主要包括工業(yè)主機(jī)、組態(tài)軟件&數(shù)據(jù)采集與監(jiān)控系統(tǒng)(SCADA)軟件、工業(yè)數(shù)據(jù)庫(kù)等。工業(yè)生產(chǎn)信息系統(tǒng)主要包括制造執(zhí)行系(MES)、ERP管理系統(tǒng)、工業(yè)云等。
近年來(lái)人們對(duì)工控企業(yè)網(wǎng)絡(luò)智能化故障診斷技術(shù)進(jìn)行了深入研究,文獻(xiàn)[1]提出了遠(yuǎn)程機(jī)械故障診斷和服務(wù)系統(tǒng),將其應(yīng)用于遠(yuǎn)程控制智能診斷中,使診斷實(shí)現(xiàn)遠(yuǎn)程智能控制。但是文獻(xiàn)[2]提出了基于神經(jīng)網(wǎng)絡(luò)診斷方法,將其應(yīng)用于電機(jī)伺服閥的故障診斷中,使故障診斷速度得到加速。文獻(xiàn)[3]提出了基于Web遠(yuǎn)程故障服務(wù)系統(tǒng),使診斷實(shí)現(xiàn)實(shí)時(shí)性,文獻(xiàn)[4]提出了基于IE瀏覽器的數(shù)控故障診斷系統(tǒng),使診斷得到了網(wǎng)絡(luò)化。文獻(xiàn)[4]提出了專家系統(tǒng)診斷方法,使診斷實(shí)現(xiàn)了系統(tǒng)化。文獻(xiàn)[5]利用貝葉斯網(wǎng)絡(luò)的概率原理,根據(jù)設(shè)備間的故障傳播關(guān)系建立了系統(tǒng)模型,找出了可能出現(xiàn)的故障的主要原因,大大提升了故障定位的精度,并將該算法應(yīng)用于復(fù)雜的飛機(jī)自動(dòng)增壓系統(tǒng)的故障診斷中,具有一定的應(yīng)用價(jià)值。
上述方法都對(duì)工控企業(yè)網(wǎng)絡(luò)故障診斷提出了相應(yīng)對(duì)策及建議,但是,都沒(méi)有涉及到非平衡數(shù)據(jù),非平衡數(shù)據(jù)對(duì)分類結(jié)果會(huì)造成巨大影響,目前,處理非平衡數(shù)據(jù)問(wèn)題的方法主要有兩種:一種是改進(jìn)算法,使它可以采集并分析非平衡的數(shù)據(jù);二是處理非平衡數(shù)據(jù),目前,對(duì)非平衡數(shù)據(jù)的處理普遍采用向上或向下采樣法、SMOTE算法、SUV算法,向上采樣法會(huì)導(dǎo)致出現(xiàn)重復(fù)數(shù)據(jù),雖然該方法可以使少類樣本數(shù)據(jù)達(dá)到要求的數(shù)量,但并不是樣本自然生成的數(shù)據(jù),無(wú)法完整地描述少類樣本數(shù)據(jù)的特征。向下采樣法會(huì)損害數(shù)據(jù),特別是在少類樣本量比較少的情況下,甚至無(wú)法完成訓(xùn)練。為此,本文提出了一種精確度加權(quán)隨機(jī)森林算法(AWRF),加入了決策樹(shù)投票權(quán)重的概念,優(yōu)化了決策樹(shù)的投票能力,為工控企業(yè)網(wǎng)絡(luò)的故障診斷提供了科學(xué)合理的決策思路。
隨機(jī)森林算法的優(yōu)點(diǎn)有:
(1)有很強(qiáng)的通用性,可以適用與各種環(huán)境,主要用于聚類分析,進(jìn)行數(shù)據(jù)異常檢測(cè)和數(shù)據(jù)透視等;
(2)不需要對(duì)樣本數(shù)據(jù)進(jìn)行大量修剪,和決策樹(shù)算法對(duì)比,不易出現(xiàn)過(guò)擬合現(xiàn)象;
(3)異常值、噪聲數(shù)據(jù)等靈敏度不強(qiáng),能保持比較高的精確度;
(4)可以對(duì)高維數(shù)據(jù)進(jìn)行處理,具有并行性、可擴(kuò)展性,尤其魯棒性比較強(qiáng);
(5)對(duì)于數(shù)據(jù)維數(shù)比較多的情況,可以自動(dòng)生成重要的特征屬性,還可以作為降維方法使用。
隨機(jī)森林在構(gòu)建的每棵決策樹(shù)時(shí)的分類能力大多數(shù)不同,有些部分決策樹(shù)的分類效果比較好,有些部分的決策樹(shù)的分類效果比較差?;谏鲜鲈颍疚奶岢隽烁鶕?jù)隨機(jī)森林中每棵決策樹(shù)分類能力大小來(lái)設(shè)定其相對(duì)應(yīng)的權(quán)重。精確度加權(quán)隨機(jī)森林模型(AWRF)的核心原理是將要訓(xùn)練的樣本數(shù)據(jù)分為兩個(gè)部分,一部分樣本數(shù)據(jù)作為傳統(tǒng)隨機(jī)森林模型的訓(xùn)練樣本,并對(duì)樣本中所有的決策樹(shù)都進(jìn)行訓(xùn)練。另一部分剩余樣本數(shù)據(jù)作為預(yù)測(cè)試樣本,當(dāng)這部分決策樹(shù)樣本數(shù)據(jù)結(jié)束訓(xùn)練之后,再對(duì)所有決策樹(shù)樣本數(shù)據(jù)進(jìn)行測(cè)試,并計(jì)算分類樣本的正確率。
其中:
把P作為隨機(jī)森林中訓(xùn)練樣本所對(duì)應(yīng)的決策樹(shù)的權(quán)重,隨機(jī)森林中的每棵決策樹(shù)再進(jìn)行投票時(shí)都要和其相對(duì)應(yīng)的權(quán)重進(jìn)行乘積運(yùn)算。其對(duì)應(yīng)的輸出模型表示如下:
其中,z表示加權(quán)隨機(jī)森林中的待測(cè)樣本數(shù)量,c表示整個(gè)隨機(jī)森林中所有的類別數(shù)目,x為c類中的其中一類樣本數(shù)量。
(1)從所有訓(xùn)練樣本中取出一部分?jǐn)?shù)據(jù)作為預(yù)測(cè)試樣本,作為選取每棵決策樹(shù)的權(quán)值的依據(jù)。在進(jìn)行權(quán)值計(jì)算時(shí),有可能會(huì)出現(xiàn)不公平的投票現(xiàn)象。為了保證投票的公平性,所有的決策樹(shù)一般都采用固定的預(yù)測(cè)試樣本進(jìn)行計(jì)算。上述方法一般在訓(xùn)練樣本比較多的情況下使用。
(2)由于每次使用的訓(xùn)練樣本不同,導(dǎo)致留下的預(yù)測(cè)試樣本也可能不相同。為了便于優(yōu)化權(quán)值,后續(xù)的實(shí)驗(yàn)中可以用預(yù)測(cè)試樣本率來(lái)代替預(yù)測(cè)試樣本數(shù)。其中,預(yù)測(cè)試樣本率等于預(yù)測(cè)試樣本數(shù)占總訓(xùn)練樣本數(shù)的比率。
由于加權(quán)隨機(jī)森林算法(AWRF)是根據(jù)預(yù)測(cè)試樣本進(jìn)行權(quán)值計(jì)算,所以不需要再額外考慮公平性。每個(gè)決策樹(shù)的權(quán)值可以用隨機(jī)森林中的每棵決策樹(shù)和預(yù)測(cè)試樣本分類的正確率來(lái)代替。這樣可以大大簡(jiǎn)化了隨機(jī)森林算法的計(jì)算復(fù)雜性,同時(shí)也加快了程序的運(yùn)行。
根據(jù)工業(yè)和信息化部辦公廳關(guān)于開(kāi)展工業(yè)控制系統(tǒng)信息安全檢查工作的通知,企業(yè)針對(duì)自身企業(yè)的實(shí)際情況完成系統(tǒng)信息安全自查,本次調(diào)查以企業(yè)工控系統(tǒng)構(gòu)成為核心,圍繞網(wǎng)絡(luò)運(yùn)行狀態(tài)進(jìn)行全面調(diào)查。系統(tǒng)安全狀態(tài)主要包括安全軟件選擇與管理情況、配置和補(bǔ)丁管理情況、邊界安全防護(hù)情況、物理和環(huán)境安全防護(hù)情況、身份證情況、遠(yuǎn)程訪問(wèn)安全情況、安全監(jiān)測(cè)情況、資產(chǎn)安全情況、數(shù)據(jù)安全情況、供應(yīng)鏈管理情況10個(gè)方面。
實(shí)驗(yàn)數(shù)據(jù)選取2016年280家企業(yè)實(shí)際調(diào)查數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),指標(biāo)體系完全按照調(diào)查回來(lái)的數(shù)據(jù)設(shè)計(jì),企業(yè)的安全等級(jí)采用“好差”二級(jí)體系,評(píng)估總分大于60,方差小于30的認(rèn)定為“好”,其他為“差”。在實(shí)際應(yīng)用中好與差應(yīng)由專家來(lái)定,實(shí)驗(yàn)認(rèn)為總分較高,小差較小的企業(yè)在安全措施方面做的比較多,而且每一方面都比較均衡,所以應(yīng)該是做的比較好的。實(shí)驗(yàn)數(shù)據(jù)設(shè)置了標(biāo)簽值“1”和“0”,分別表示“好”和“差”,按照75%,25%的比例劃分為訓(xùn)練集與測(cè)試集,使用加權(quán)隨機(jī)森林算法訓(xùn)練的準(zhǔn)確率模型在95%以上。結(jié)果如圖1所示。
圖1 訓(xùn)練樣本結(jié)果圖
實(shí)驗(yàn)結(jié)果表明在現(xiàn)有數(shù)據(jù)環(huán)境下加權(quán)隨機(jī)森林算法(AWRF)更具有優(yōu)勢(shì),分類的準(zhǔn)確率比較高,結(jié)果比較令人滿意。同時(shí)表明使用加權(quán)隨機(jī)森林算法(AWRF)進(jìn)行安全評(píng)估是可行的,可以實(shí)現(xiàn)對(duì)企業(yè)工控系統(tǒng)安全狀態(tài)的評(píng)估。從速度和精度上看,加權(quán)隨機(jī)森林算法(AWRF)訓(xùn)練時(shí)長(zhǎng)明顯要遠(yuǎn)遠(yuǎn)低于隨機(jī)森林算法。
根據(jù)工控企業(yè)網(wǎng)絡(luò)的特點(diǎn),提出了加權(quán)隨機(jī)森林算法(AWRF)的故障診斷方法,該算法可以簡(jiǎn)化隨機(jī)森林算法的計(jì)算復(fù)雜度,加快了程序運(yùn)行,進(jìn)而提高了故障診斷的效率,同時(shí)加權(quán)隨機(jī)森林算法(AWRF)大大降低了工控企業(yè)網(wǎng)絡(luò)故障診斷的錯(cuò)誤率。