趙明越,張慶浩,趙哲明,廖曉玲,陳 濤,吳琳琳
(1.中國計量大學(xué) 質(zhì)量與安全工程學(xué)院,浙江 杭州 310018;2.杭州市特種設(shè)備檢測研究院,浙江 杭州 310003)
小微企業(yè)在我國經(jīng)濟發(fā)展中占有特殊的重要地位,印染、制鞋等行業(yè)在本地民營經(jīng)濟和工業(yè)發(fā)展的作用不容忽視。然而,由于小微企業(yè)資源有限,在技術(shù)、設(shè)備、人員上投入不高,安全配置相對不足[1],可能引發(fā)安全風(fēng)險。
烘缸、染色機等壓力容器是保障印染、造紙等行業(yè)小微企業(yè)安全運行的關(guān)鍵設(shè)備。目前我國依據(jù)《特種設(shè)備安全法》《固定式壓力容器安全技術(shù)監(jiān)察規(guī)程》等法律規(guī)范,由具備資質(zhì)的檢驗機構(gòu)和人員開展定期檢驗,并基于檢驗結(jié)果評定設(shè)備安全狀況等級,1級2級每6年檢驗一次,3級每3至6年檢驗一次,4級需監(jiān)控使用,5級應(yīng)立即對缺陷進(jìn)行處理。然而實際經(jīng)驗表明,當(dāng)前1~3級設(shè)備可能由于介質(zhì)、環(huán)境、管理等原因在下次檢驗(3~6年后)前就出現(xiàn)超標(biāo)缺陷影響安全運行[2]。因此,有必要開展容器安全等級預(yù)測,引導(dǎo)企業(yè)重點加強高危設(shè)備使用管理,為檢驗機構(gòu)和監(jiān)管部門合理設(shè)置檢驗周期和檢驗側(cè)重點提供參考。
容器制造、使用和檢驗中涉及的數(shù)據(jù)繁雜,從數(shù)據(jù)處理中提取有用的信息,是當(dāng)前發(fā)展趨勢。段海洋[3]結(jié)合K臨近分類算法,構(gòu)建了鑄坯縱缺陷的檢測和識別模型。彭建盛[4]基于機器學(xué)習(xí)對裂紋識別的研究現(xiàn)狀進(jìn)行了總結(jié),詳細(xì)介紹的多種機器學(xué)習(xí)方法,有支持向量機、K臨近、神經(jīng)網(wǎng)絡(luò)、決策樹和隨機森林等常用的分類器。何金彪[5]綜合了圖像處理算法,能快速準(zhǔn)確實現(xiàn)金屬罐蓋的缺陷檢測,相比人工檢測,大大提高了速度和準(zhǔn)確率。楊磊磊[6]基于BP神經(jīng)網(wǎng)絡(luò),預(yù)測壓力容器不同層的溫度,相比FLUENT建立的耦合模型,相對誤差僅差0.34%并提高了預(yù)測效率。綜上,此前研究多針對某種微觀具體缺陷類型或參數(shù),缺乏宏觀上的安全評價。
因此,本文提出基于機器學(xué)習(xí)預(yù)測小微企業(yè)壓力容器安全狀況等級。在以杭州地區(qū)為例的容器安全狀況分析基礎(chǔ)上,通過嶺回歸分析找出影響安全狀況等級特征值,結(jié)合KNN、決策樹、梯度提升樹三種算法構(gòu)建安全狀況等級預(yù)測模型,對比預(yù)測效果得出適用于小微企業(yè)壓力容器的方法,有利于提高安全保障工作的針對性和實效性。
聚類分析是將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,采用聚類分析方法對小微企業(yè)典型的壓力容器進(jìn)行安全狀況分析,主要對企業(yè)、設(shè)備基本狀況、檢驗情況和失效情況等進(jìn)行特征提取,對收集的數(shù)據(jù)分類,找出設(shè)備信息之間的相似性和差異性,實現(xiàn)基礎(chǔ)數(shù)據(jù)的準(zhǔn)確分類。
杭州地區(qū)的小微企業(yè)壓力容器主要分布在印染、造紙、制鞋、建材等幾個行業(yè),其中印染企業(yè)148家,造紙企業(yè)182家,制鞋企業(yè)23家,建材企業(yè)36家,杭州各地區(qū)印染、造紙、制鞋、建材企業(yè)分布情況詳見表1。
表1 杭州各地區(qū)印染、造紙、制鞋、建材企業(yè)分布情況表Table 1 Distribution of printing and dyeing, paper-making, shoe-making, and building materials enterprises in various regions in Hangzhou
經(jīng)統(tǒng)計,杭州地區(qū)的烘筒5 221臺,染色機4 243臺,染缸880臺,卷染機513臺,染色筒397臺,染布機274臺,染紗機69臺,印染機40臺,染色槽20臺,主要分布在印染行業(yè),而杭州的印染行業(yè)主要集中在蕭山區(qū)、錢塘新區(qū)和余杭區(qū);烘缸7 850臺,主要分布在造紙行業(yè),主要位于富陽區(qū);蒸壓釜257臺,主要分布在建材行業(yè),位于富陽區(qū)、蕭山區(qū)、余杭區(qū)和臨安區(qū);硫化罐388臺,主要分布在制鞋、輪胎等橡膠品行業(yè),位于富陽區(qū)、余杭區(qū)、錢塘新區(qū)和建德市。
根據(jù)對杭州地區(qū)小微企業(yè)壓力容器的種類、數(shù)量,對安全狀況等級進(jìn)行進(jìn)一步的統(tǒng)計分析,見表2和圖1。
表2 杭州地區(qū)小微企業(yè)壓力容器安全狀況等級匯總Table 2 Summary of the safety status of pressure vessels for small and micro enterprises in Hangzhou
根據(jù)表2及圖1可以看出,總體看來,杭州地區(qū)壓力容器安全狀態(tài)是比較安全的,未來的3~6年內(nèi)應(yīng)按期檢驗,使用單位應(yīng)當(dāng)采取有效的監(jiān)控措施。根據(jù)統(tǒng)計數(shù)據(jù)顯示,安全狀況等級被評為5級的設(shè)備中,染色機的數(shù)量遠(yuǎn)遠(yuǎn)多于其他各設(shè)備的數(shù)量,因此,本文以染色機為例做進(jìn)一步分析。
圖1 杭州地區(qū)小微企業(yè)壓力容器安全狀況等級占比Figure 1 Proportion of pressure vessel safety status of small and micro enterprises in Hangzhou area
進(jìn)一步的分析和統(tǒng)計5級染色機的失效原因和發(fā)生部位,結(jié)果如表3。
表3 染色機安全狀況等級評定為5級的原因和缺陷部位Table 3 Reasons and defects of the dyeing machine's safety status rating as grade 5
根據(jù)表3可以看出,染色機的安全狀況等級評定為5級最主要是因為裂紋。統(tǒng)計發(fā)現(xiàn),大部分染色機的使用時間超過10年,也有部分染色機使用3年后就出現(xiàn)裂紋。所以在染色機的使用超過3年時,使用單位應(yīng)按時嚴(yán)格進(jìn)行年度檢查,使用時間超過10年的染色機,使用單位應(yīng)當(dāng)采取有效的監(jiān)控措施,加強老舊設(shè)備的安全管理與巡檢監(jiān)測,并做好設(shè)備更新規(guī)劃。檢驗機構(gòu)在定期檢驗時也應(yīng)對老舊設(shè)備和重點缺陷部位加強檢驗,合理安排和適當(dāng)縮短檢驗周期。
S30408、S31608等奧氏體不銹鋼由于其強度和抗腐蝕性方面的優(yōu)勢成為染色機常用材質(zhì),然而統(tǒng)計發(fā)現(xiàn),部分S31608高溫高壓染色機使用3年之后即出現(xiàn)裂紋被評定為5級。分析原因是由于染液中的氯離子對316L不銹鋼的應(yīng)力腐蝕影響較大。建議設(shè)計制造單位未來在染色機的設(shè)計時可注意優(yōu)化結(jié)構(gòu)避免染液積聚,還可考慮增加防腐蝕內(nèi)襯,比如鋁、鈦、非金屬材料。促染劑廠商也可多開發(fā)無氯促染劑。
染色機主要存在有以下4類缺陷:裂紋(如圖2)、自行補焊、安全附件失效(如圖3)、制造超標(biāo)缺陷。
圖2 染色機應(yīng)力腐蝕裂紋Figure 2 Dyeing machine stress corrosion cracking
圖3 未定期校驗且嚴(yán)重銹蝕的安全閥Figure 3 Safety valves that are not regularly calibrated and are severely corroded
染色機長時間運行,容易產(chǎn)生疲勞裂紋,多發(fā)生于運行10年左右的設(shè)備,多分布于內(nèi)壁熱影響區(qū)、焊縫處和筒封連接處。相當(dāng)一部分裂紋的出現(xiàn)是由于染色機染液中的成分和應(yīng)力作用產(chǎn)生的應(yīng)力腐蝕裂紋。
自行補焊是由于企業(yè)在使用中已經(jīng)發(fā)現(xiàn)了裂紋導(dǎo)致泄漏影響生產(chǎn),但是安全意識不強且存在僥幸心理,沒有委托制造單位或有資質(zhì)的單位進(jìn)行維修。
安全聯(lián)鎖裝置失效主要是由于在長期的使用過程中,因為撞擊等原因造成失效;聯(lián)鎖保護(hù)裝置中定位銷脫落或彎曲;聯(lián)鎖保護(hù)裝置中報警裝置損壞。
在用染色機被定級為1~3級后,檢驗周期長達(dá)3~6年。這些缺陷的產(chǎn)生不僅會在檢驗時導(dǎo)致染色機安全狀況等級發(fā)生變化,還可能導(dǎo)致設(shè)備在到達(dá)檢驗期前就出現(xiàn)泄漏、停車,導(dǎo)致工廠停產(chǎn),產(chǎn)生經(jīng)濟損失,更有甚者,部分使用單位不按期報檢,潛在的準(zhǔn)5級的設(shè)備極有可能出現(xiàn)事故,造成嚴(yán)重的后果。針對這些問題,本文提出一種基于機器學(xué)習(xí)壓力容器安全狀況等級的預(yù)測模型,找出影響安全狀況等級的因素,提前預(yù)判和辨識高危設(shè)備。
為量化不同因素對壓力容器安全狀況等級的影響,構(gòu)建了可捕捉自變量影響程度的安全狀況等級預(yù)測模型。從設(shè)備原始參數(shù)和定檢動態(tài)結(jié)果兩個角度,分析各個因素對安全等級影響程度,研究成果可以幫助小微企業(yè)和檢驗機構(gòu)根據(jù)容器等級預(yù)測結(jié)果,重點關(guān)注容易出現(xiàn)失效的設(shè)備和部位。
回歸分析用于建立變量x與觀測量y之間的映射關(guān)系,目的在于尋找最優(yōu)假設(shè)函數(shù)來最好地擬合給定的x與y之間的關(guān)系[7]。
嶺回歸代價函數(shù):
(1)
以上文中統(tǒng)計的壓力容器為對象,選取設(shè)備原始參數(shù)(設(shè)計規(guī)范、設(shè)計壓力、設(shè)計溫度、容器內(nèi)徑、容器壁厚、長度/高度、容積、容器形狀、支座材料、材料牌號)和動態(tài)定檢結(jié)果(殼程筒體壁厚、最小壁厚、使用時間)共13特征值,對影響壓力容器安全狀況等級指標(biāo)因素進(jìn)行相關(guān)性分析和特征值篩選。
結(jié)果發(fā)現(xiàn),嶺回歸分析得到的均方誤差為0.140 3。根據(jù)均誤方差顯示的結(jié)果可以看出嶺回歸分析擬合效果符合要求,通過嶺回歸分析篩選出9個影響安全狀況等級的特征值(如圖4),分別為設(shè)計壓力、設(shè)計溫度、容器內(nèi)徑、容器壁厚、長度/高度、殼程筒體壁厚、最小壁厚、容積、使用時間。其中“使用時間”對安全狀況等級的影響最大。
圖4 影響染色機安全狀況等級的特征值及占比Figure 4 The characteristic value and proportion that affect the safety status of the dyeing machine
根據(jù)圖4所示,“使用時間”對安全狀況等級的影響最大,根據(jù)對染色機裂紋分析發(fā)現(xiàn)疲勞裂紋與應(yīng)力腐蝕裂紋相符合。
基于嶺回歸分析得出的特征值,本文采用三種算法安全狀況等級預(yù)測模型進(jìn)行對比,分別為KNN、決策樹、GBDT。為了保證實驗環(huán)境的統(tǒng)一,均采用Python語言構(gòu)建模型。對上文收集的數(shù)據(jù)進(jìn)行預(yù)處理,經(jīng)過剔除錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù),篩選得到了7 400條有效樣本數(shù)據(jù)。隨機選取80%的數(shù)據(jù)組成訓(xùn)練集,20%的數(shù)據(jù)組成測試組構(gòu)建預(yù)測模型。
3.2.1 K近鄰
K近鄰算法(K-Nearest Neighbor,KNN)是一種常見的分類算法,也常用于數(shù)據(jù)的異常檢測問題中[8]。KNN算法思想的核心是待分類樣本的類別由距離該樣本最近的K個鄰居樣本的類別決定,即根據(jù)少數(shù)服從多數(shù)的原則投票產(chǎn)生,K個鄰居中擁有最多數(shù)量的分類設(shè)定為待測樣本的分類[9]。
假設(shè)t為待分類樣本,A為已標(biāo)記類別樣本集。KNN算法步驟:利用距離公式計算t同A中樣本的距離;取t與A中所有樣本距離最近的K個點,將K個點標(biāo)記為B;確定B中每種分類樣本的數(shù)量。假設(shè)有兩點x=(x1,…,xn),y=(y1,…,yn),x與y之間的歐氏距離為式(2)。
(2)
選取特征值為設(shè)計壓力、設(shè)計溫度、容器內(nèi)徑、容器壁厚、長度/高度、殼程筒體壁厚、最小壁厚、容積、使用時間。目標(biāo)值為安全狀況等級。將數(shù)據(jù)處理,選用歐氏距離做為距離量度,利用網(wǎng)格搜索,根據(jù)預(yù)測效果自動選擇最好的k值為3,訓(xùn)練集與測試集按照的比例進(jìn)行數(shù)據(jù)抽樣,進(jìn)行多次預(yù)測。最后得出,KNN算法做安全狀況等級預(yù)測模型的平均準(zhǔn)確率為84.320%,但KNN算法有一個明顯的缺點:無法求出估計參數(shù)。
3.2.2 決策樹
決策樹(decision tree)生成算法主要包括生成樹以及修剪樹兩部分,初始算法運行時,將全部數(shù)據(jù)集中于所建立決策樹的根節(jié)點中,通過遞歸方式分片數(shù)據(jù);完成決策樹生成后,需將異常數(shù)據(jù)以及噪音數(shù)據(jù)刪除[10]。
采用決策樹C4.5分類技術(shù)實現(xiàn)海量小微企業(yè)壓力容器數(shù)據(jù)精準(zhǔn)分類,決策樹C4.5分類技術(shù)基于信息增益率選取分類屬性,采用后剪枝方法處理數(shù)據(jù)提升數(shù)據(jù)分類精度。
如果目標(biāo)屬性擁有c個不同的值狀態(tài),那么集合S相對于c個狀態(tài)分類的熵被定義為
(3)
式(3)中,pi為子集合中第i個屬性值的樣本數(shù)所占的比例。
假定按照能耗屬性A劃分S中的元組,且屬性A將S劃分成n個不同的類,則采用屬性A來判斷其中一個樣本分類所需要的條件熵:
(4)
式(4)中,|Si|為集合S在屬性A上值等于i的子集個數(shù),|S|為集合S中樣本的個數(shù)。
信息增益函數(shù)G為
G(S,A)=E(S)-EA(S)。
(5)
如果采用信息增益函數(shù),則當(dāng)信息增益選擇屬性時,偏向于選擇取值大的屬性。為了避免這個不足,通過引入信息增益率GR來選擇屬性:
(6)
(7)
式(7)中,SplitInformation(S,A)為分裂信息量。
將處理的數(shù)據(jù)進(jìn)行多次訓(xùn)練,并用訓(xùn)練集進(jìn)行剪枝,刪除節(jié)點的分枝并用葉子節(jié)點進(jìn)行替換,采用后剪枝方法處理過擬合問題。以訓(xùn)練好的模型對測試集進(jìn)行預(yù)測,最后得出決策樹算法做安全狀況等級預(yù)測模型的平均準(zhǔn)確率為92.184%。
3.2.3 梯度提升樹
GBDT(gradient boosting decision tree)是一個基于決策樹的集成學(xué)習(xí)框架,它首先通過不斷在先前模型損失函數(shù)梯度下降的方向上構(gòu)建新的模型,使得決策模型不斷改進(jìn),然后將所有樹的結(jié)論進(jìn)行累加作為最終的預(yù)測輸出[11]。
GBDT模型的算法核心是通過學(xué)習(xí)之前決策樹的殘差來擬合當(dāng)前決策樹,具體流程為:設(shè)置初始常數(shù)模型來最小化損失函數(shù);迭代計算判斷模型是否達(dá)到精度要求,若達(dá)到則停止計算;輸出最終模型的估算結(jié)果。
在拉紹德封,(2012年被西鐵城集團收購)La Joux-Perret繼續(xù)改裝暢銷的ETA機心,比如2892和7750,以及Sellita SW300和SW500機心。這家公司自己并不開發(fā)入門級機心。
分類模型:
(8)
式(8)中,M為決策樹的棵數(shù),m為迭代次數(shù),c為常數(shù)項,J為葉子結(jié)點的數(shù)目,I(x)為指示函數(shù),Rmj為第m棵數(shù)第j個節(jié)點的葉子節(jié)點區(qū)域。
選取樣本數(shù)據(jù),特征值選取:設(shè)計壓力、設(shè)計溫度、容器內(nèi)徑、容積、容器壁厚、長度/高度、容器形狀、支座形式、材料牌號、殼程筒體壁厚、最小壁厚、使用時間。利用網(wǎng)格搜索方法為GBDT模型初始化一個最優(yōu)參數(shù)搭配,最大迭代次數(shù)取100次,樹的最大深度為10,步長為1,其他參數(shù)使用默認(rèn)值。將訓(xùn)練好的模型用于測試組上進(jìn)行測試,得出的安全狀況等級預(yù)測模型平均準(zhǔn)確率為92.705%。
分別采用三種模型對壓力容器安全狀況等級進(jìn)行訓(xùn)練,訓(xùn)練集與測試集的比例為4∶1,得到準(zhǔn)確率結(jié)果如表4。
表4 模型準(zhǔn)確率Table 4 Model accuracy %
表4反映了三種模型準(zhǔn)確率的高低分布,由表可知根據(jù)三種模型的準(zhǔn)確率分布區(qū)間和平均準(zhǔn)確率可以看出,決策樹分析和GBDT預(yù)測準(zhǔn)確率較高,而KNN相對較低。針對同一批相同數(shù)據(jù)進(jìn)行多次分類時,決策樹和GBDT表現(xiàn)出來較強的穩(wěn)定性。
將安全狀況等級1至3級作為高安全等級,將安全狀況等級4~5級作為低安全等級,使用混淆矩陣對結(jié)果進(jìn)行可視化,混淆矩陣的概念定義如下。
1) TP(真正):將壓力容器安全狀況等級低安全等級識別為低安全等級;
2) TN(真負(fù)):將壓力容器安全狀況等級高安全等級識別為高安全等級;
3) FP(假正):將壓力容器安全狀況等級高安全等級識別為低安全等級;
4) FN(假負(fù)):將壓力容器安全狀況等級低安全等級識別為高安全等級;
根據(jù)以上概念分別取三種模型的最佳混淆矩陣如表5。結(jié)合表5的混淆矩陣得出三種預(yù)測模型的精準(zhǔn)率和召回率,如表6。
表5 混淆矩陣Table 5 Confusion matrix
表6 預(yù)測模型的精準(zhǔn)率和召回率Table 6 Predictive model accuracy and recall rate %
分析結(jié)果表明,相較于普遍較好的準(zhǔn)確率,由于數(shù)據(jù)本身4級和5級設(shè)備臺數(shù)相對非常少,三種算法的精確率和召回率出現(xiàn)明顯差異。而根據(jù)本文辨識高危設(shè)備的初衷和工程實際,低安全等級的設(shè)備被預(yù)測為高安全等級(FN)導(dǎo)致召回率低,會導(dǎo)致使用單位忽視高危設(shè)備,出現(xiàn)的缺陷不能被及時發(fā)現(xiàn),存在安全風(fēng)險,是不希望發(fā)生的情況;而高安全等級設(shè)備被預(yù)測為低安全等級設(shè)備(FP),降低了精確率,雖會增加管理成本,但有利于提高安全裕度,相對是可以接受的。因此雖精確率低但召回率高的決策樹算法更適用于小微企業(yè)壓力容器安全狀況等級預(yù)測。
本文對杭州地區(qū)小微企業(yè)壓力容器使用區(qū)域、安全狀況等級、失效原因進(jìn)行數(shù)據(jù)收集及預(yù)處理,進(jìn)一步對安全狀況等級為5級的失效模式、部位和數(shù)量占比情況進(jìn)行統(tǒng)計,分析發(fā)現(xiàn)超標(biāo)裂紋、自行補焊等是影響安全等級的典型缺陷。進(jìn)而,利用嶺回歸分析選出影響安全狀況等級的9種特征值,發(fā)現(xiàn)使用時間是影響最大的因素之一,與實際統(tǒng)計發(fā)現(xiàn)的超標(biāo)裂紋最多相符合。隨后分別建立了基于KNN、決策樹、GBDT算法的容器安全狀況等級預(yù)測模型。預(yù)測結(jié)果表明,決策樹算法在較高的準(zhǔn)確率基礎(chǔ)上還具有較好的召回率和安全裕度,更適用于安全等級預(yù)測,有助于企業(yè)和檢驗機構(gòu)辨識高危設(shè)備,加強日常安全管理,合理設(shè)置檢維修周期和方案,保障小微企業(yè)的安全運行。
然而,本文研究仍存在一些問題,決策樹算法應(yīng)用于壓力容器安全等級預(yù)測方面的精確率有限,一方面是由于低安全等級設(shè)備數(shù)量本身占比很低,另一方面可能與數(shù)據(jù)前期處理有關(guān)。今后可對前期數(shù)據(jù)進(jìn)行深入研究,建立完善小微企業(yè)容器安全數(shù)據(jù)庫,完善日常管理和檢驗結(jié)果數(shù)據(jù),為未來更有針對性和實效性的預(yù)測提供數(shù)據(jù)基礎(chǔ)。