趙 峰, 尹 琛, 吳玉國, 陳夢凱, 李 軼
(1.安徽工業(yè)大學(xué)管理科學(xué)與工程學(xué)院 安徽 馬鞍山 243032;2.安徽工業(yè)大學(xué)復(fù)雜系統(tǒng)多學(xué)科管理與控制安徽普通高校重點(diǎn)實(shí)驗(yàn)室 安徽 馬鞍山 243032; 3.馬鞍山市煙草專賣局 安徽 馬鞍山 243032)
板帶產(chǎn)品有著“通用鋼材”之稱,用途極為廣泛,板帶材可根據(jù)需要進(jìn)行剪裁,彎曲沖壓或焊接成各種構(gòu)件和制品,所以擁有著大量的客戶。板帶產(chǎn)品的客戶個性化需求比較多,且通過“識別-轉(zhuǎn)化-驗(yàn)證-固化”轉(zhuǎn)而進(jìn)入生產(chǎn)及產(chǎn)品交付的過程極其復(fù)雜[1],到目前為止板帶材的制備仍然面臨著外形尺寸與內(nèi)部性能控制穩(wěn)定性差,出現(xiàn)內(nèi)外部質(zhì)量問題的時候各工序各參數(shù)的“交互”影響因素過多的情況。國務(wù)院在《中國制造2025》中提出了質(zhì)量體系TS16949,對過程能力指數(shù)評價、流程管控及關(guān)鍵工藝參數(shù)的查驗(yàn)要求很高。而板帶高端產(chǎn)品供給能力不足,全流程一體化設(shè)計(jì)與個性化定制數(shù)字孿生模型的驗(yàn)證討論亟待建立?;仡櫼酝那叭喂I(yè)革命,他們的主要目的是為了提高生產(chǎn)效率,但是這種價值創(chuàng)造模式在供大于求的市場中正遭受嚴(yán)峻的挑戰(zhàn)。所以在S鋼鐵廠智能制造工業(yè)4.0的升級改造的項(xiàng)目中,應(yīng)緊緊抓住3點(diǎn):產(chǎn)品質(zhì)量、生產(chǎn)成本和供貨時間。在需求小于供給時,精準(zhǔn)供貨與產(chǎn)品質(zhì)量將成為產(chǎn)品競爭力的主要組成部分,而全流程的大數(shù)據(jù)分析質(zhì)量監(jiān)測手段可以及時發(fā)現(xiàn)殘次產(chǎn)品,避免交付到客戶手中,最終實(shí)現(xiàn)提升效益的目的。
關(guān)于工業(yè)4.0具體技術(shù)的實(shí)施方案世界各國的研究水平參差不齊,SzilárdJaskó、AdriennSkrop等(2020)[2]在關(guān)于MES的文獻(xiàn)綜述提到下一代(即工業(yè)4.0后時代的)MES解決方案將需要具有機(jī)器學(xué)習(xí)(ML)數(shù)據(jù)挖掘功能。但是本文的項(xiàng)目實(shí)施團(tuán)隊(duì)在研究中發(fā)現(xiàn),MES具有他固有的無法突破的局限性,針對單工廠單車間無法考慮全局,采用的基本上是單變量的統(tǒng)計(jì)處理模型工具(層別法、檢查表、柏拉圖、因果圖、管制圖、散布圖和直方圖)。Manabu Kano、Yoshiaki Nakagawa[3]在2008年通過住友金屬公司與京都大學(xué)的合作項(xiàng)目中對未來鋼鐵行業(yè)展望時就指出,統(tǒng)計(jì)學(xué)模型不適用于大數(shù)據(jù)量級的處理,所以基于統(tǒng)計(jì)學(xué)理論的控制圖的研究方法并不是未來鋼鐵企業(yè)的實(shí)際應(yīng)用發(fā)展方向。
那么是否要推倒以往的所有質(zhì)量管理信息系統(tǒng),重新設(shè)計(jì)和架構(gòu)一個全流程的信息化管理系統(tǒng)且非閉環(huán)(MES管理在單車間中閉環(huán)),以包容以后企業(yè)因?yàn)椴粩鄶U(kuò)大(鋼鐵行業(yè)未來趨勢,不斷聯(lián)合重組)所導(dǎo)致增加的新工廠中新的工序的數(shù)據(jù)變量從而來完成工業(yè)4.0徹底的革命。
依據(jù)S Joe Qin (2012)[4]在質(zhì)量診斷領(lǐng)域文獻(xiàn)綜述提出由于Statistical Process Monitoring (SPM)方法基于數(shù)據(jù)的性質(zhì),與基于系統(tǒng)理論或嚴(yán)格過程模型的其他方法相比,SPM相對容易應(yīng)用于大規(guī)模的實(shí)際生產(chǎn)過程。現(xiàn)有MES系統(tǒng)并不適用于大規(guī)模的工業(yè)級數(shù)據(jù)量的處理,且MES中的QC工具大部分是單變量控制圖法,他們的主要機(jī)理是基于統(tǒng)計(jì)學(xué)理論的,所以必須在工業(yè)工程管理工具開發(fā)過程中逐漸舍棄,也符合機(jī)器學(xué)習(xí)理論將來的研究熱度,這將超過統(tǒng)計(jì)學(xué)理論的學(xué)術(shù)趨勢,并將廣泛運(yùn)用于工業(yè)大數(shù)據(jù)分析。經(jīng)過工信部指定專家以及相應(yīng)的科研研究單位的認(rèn)真討論,考慮到信息系統(tǒng)建設(shè)投入巨大,且短期經(jīng)濟(jì)收益回報(bào)小的因素,決定重新建立一套全流程的數(shù)據(jù)采集分析系統(tǒng)(開環(huán)平臺),輔助工藝專家使用,利用工藝專家經(jīng)驗(yàn)共同開發(fā),同時適配原有的MES、ERP系統(tǒng),將原有專家系統(tǒng)搭載于全流程平臺下(等后續(xù)全流程數(shù)據(jù)系統(tǒng)不斷完善后逐步將原MES系統(tǒng)下線),利于前后工序的工廠的專家工程師在線參與分析,提高效率,以解決多工藝多變量耦合,數(shù)據(jù)之間互相影響的問題。
本文的研究認(rèn)為數(shù)據(jù)的好壞決定了一個模型效果的上限,而無論如何改進(jìn)的機(jī)器學(xué)習(xí)算法也只是為了讓數(shù)據(jù)驅(qū)動分析的效果不斷的逼近這個上限。工業(yè)大數(shù)據(jù)分析的算法最終會回歸小范圍而高價值的數(shù)據(jù)研究。由于生產(chǎn)線上的工藝變量非常多,鋼鐵廠的單日二級系統(tǒng)同步數(shù)據(jù)量達(dá)數(shù)十萬級別,非人腦力可以進(jìn)行跨流程分析,即使通過冶金工藝的經(jīng)驗(yàn)縮小了范圍,也需要進(jìn)一步去確定主要變量,所以選用決策樹算法是為了能夠處理大批量的數(shù)據(jù),篩選出主要工藝變量,再通過分析主要工藝變量(此時也要根據(jù)不同變量的數(shù)據(jù)特征)如過鋼速率含的拉速設(shè)定值、實(shí)際值及相關(guān)值做監(jiān)控模型,或者如軋機(jī)料形尺寸問題,可直接做料型尺寸分析運(yùn)用PDCA循環(huán)優(yōu)化人機(jī)料法解決異常源。
本文決定采用引入懲罰函數(shù)Z改進(jìn)的ID3算法形成新的Z-C4.5算法去篩選主要工藝變量,懲罰函數(shù)Z的作用就是根據(jù)冶金數(shù)據(jù)量工藝采集數(shù)據(jù)的特征設(shè)定的一個取值函數(shù),數(shù)據(jù)變化范圍過大的數(shù)據(jù)不具備分析價值可能是設(shè)備損壞也可能是PLC工作不正常。據(jù)此提出的Z-C4.5算法就是當(dāng)某個特征對應(yīng)的取值過多時,此時懲罰函數(shù) Z會取一個相應(yīng)值去乘以信息增益使得信息增益比偏小,從而使模型自動將該工藝變量排除分析范圍。
冶金工藝變量的數(shù)據(jù)有自己特定的特征值與目標(biāo)值 ,而決策樹算法的屬性節(jié)點(diǎn)則可以進(jìn)行相應(yīng)的設(shè)置,便于以后根據(jù)目標(biāo)值(標(biāo)簽值)與特征值的變化進(jìn)行代碼的調(diào)整。目標(biāo)值就比如說我想掌握過鋼速率的影響,可以此作為標(biāo)簽值也就是目標(biāo)值設(shè)置在屬性節(jié)點(diǎn)的代碼位置,通過下一步判斷循環(huán)我們進(jìn)一步收集拉速的設(shè)定值、實(shí)際值等5個因素。過鋼速率就是他們的標(biāo)簽(如圖1所示)。
圖1 過鋼速率為標(biāo)簽值的5個相關(guān)監(jiān)控變量
而有些冶金工藝數(shù)據(jù)就只有特征值而沒有目標(biāo)值,這也可以通過屬性節(jié)點(diǎn)去設(shè)置。
但是無論是PCA主成分還是核熵成分分析算法的代碼設(shè)置沒有這樣便捷的屬性分類,且都會進(jìn)行數(shù)據(jù)降維(模糊了原有數(shù)據(jù)),然后做貢獻(xiàn)指標(biāo)來進(jìn)一步做主要成分判斷,這都會影響后續(xù)的分析,一般其余模型會采取一部分?jǐn)?shù)據(jù)模型用來訓(xùn)練,另一部分?jǐn)?shù)據(jù)用來測試模型好壞。
決策樹算法代碼通俗簡便,且容易增刪參數(shù)和改進(jìn)公式去優(yōu)化算法,由于工藝變量數(shù)據(jù)的屬性劃分本身也是通過樹狀圖進(jìn)行歸類分析,所以改進(jìn)決策樹算法比較合適。
圖2為S鋼鐵廠現(xiàn)有質(zhì)量管控系統(tǒng)建設(shè)情況。
圖2 S 鋼廠ERP、MES、PCS系統(tǒng)
(1)現(xiàn)有各管控系統(tǒng)對于最重要的質(zhì)量判定過程數(shù)據(jù)缺乏關(guān)注,在板帶的整個工序流程作業(yè)過程中各數(shù)據(jù)相對孤立,影響產(chǎn)品質(zhì)量的變量具有高維、多變量耦合的特點(diǎn)[5],只通過簡單的閾值測度難以發(fā)現(xiàn)問題根源,外部問題如表面質(zhì)量、板型質(zhì)量缺陷經(jīng)常發(fā)生, 板帶生產(chǎn)質(zhì)量缺乏長期穩(wěn)定性,數(shù)據(jù)追溯效率低下,工序與部門之間界限不清,熱軋、冷軋、煉鋼跟連鑄,由于部門劃分的原因,導(dǎo)致質(zhì)量問題無法進(jìn)行有效追溯分析。熱軋出現(xiàn)的問題與煉鋼之間的關(guān)系,冷軋出現(xiàn)的問題與熱軋之間的關(guān)系等都需要進(jìn)一步對過程數(shù)據(jù)進(jìn)行聚類分析、跨流程關(guān)聯(lián)分析。
(2)客戶對于板帶的需求與整個產(chǎn)品質(zhì)量生產(chǎn)的過程缺乏對接,現(xiàn)在主要還是依據(jù)紙質(zhì)協(xié)議來交換意見,板帶一種型號提供給不同客戶,各客戶的質(zhì)量需求是不一樣的,而整個的板帶生產(chǎn)過程中無法針對不同需求實(shí)現(xiàn)相應(yīng)的質(zhì)量控制。
(3)工藝輸入條件的外部擾動對于質(zhì)量的影響依然很難控制,在生產(chǎn)現(xiàn)場,工藝窗口的制定如速度、溫度、加熱溫度、到站時間、到站成分等都仍然依靠經(jīng)驗(yàn)判定,這些對于板帶表面質(zhì)量的影響一直未納入關(guān)聯(lián)分析。
板帶的制備過程流程長、工藝工序復(fù)雜[6],全國大部分鋼鐵廠板帶產(chǎn)品基本的工藝工序如圖3所示。圖中所示所有的工藝都會單獨(dú)建立一個廠區(qū),一般間隔比較遠(yuǎn)。
圖3 基本板帶產(chǎn)品冶煉過程涉及的工藝
S鋼廠現(xiàn)有設(shè)備信息系統(tǒng)主要包含兩部分。第一部分是基礎(chǔ)自動化系統(tǒng)(L1),主要在板帶生產(chǎn)線上用于設(shè)備自動化控制的PLC控制單元,該類系統(tǒng)主要用于記錄工藝曲線數(shù)據(jù)、關(guān)鍵事件狀態(tài)數(shù)據(jù)。第二部分是過程自動化系統(tǒng)(L2),主要是指板帶生產(chǎn)線上各數(shù)學(xué)模型及一些物料跟蹤系統(tǒng),存儲物料與工藝參數(shù)設(shè)定值、實(shí)測值(反饋值)、統(tǒng)計(jì)量等邏輯對應(yīng)關(guān)系,同時記錄產(chǎn)品在各設(shè)備加工處理的時間信息。
煉鋼區(qū)包括(轉(zhuǎn)爐-脫硫-倒灌-KR-精煉-火焰清理機(jī)-1、2#連鑄機(jī)、3#連鑄機(jī))-熱軋區(qū)-冷軋區(qū)(酸軋-1號鍍鋅-2號鍍鋅-罩退-平整-剪切)。
本文對于全流程質(zhì)量管控的數(shù)據(jù)追溯目標(biāo)設(shè)想是通過大量的數(shù)據(jù)采集、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)分析工作形成一鍵獲取制造全生命周期多源異構(gòu)強(qiáng)關(guān)聯(lián)數(shù)據(jù),實(shí)現(xiàn)產(chǎn)品的全息數(shù)字化,且該模型可以推廣應(yīng)用至大部分板帶產(chǎn)品鋼鐵生產(chǎn)廠。
板帶鋼材如熱軋、冷軋鋼卷、板坯在連續(xù)化生產(chǎn)過程中,由于操作控制不當(dāng),比如斷面溫度不均或高溫軋制過程操作問題,就會給帶鋼表面帶來各種各樣的缺陷[7]。 板帶鋼材的質(zhì)量問題各種各樣,主要可以分為幾個大類:表面氧化行為、析出行為、再結(jié)晶行為。這些主要可以通過氧化鐵皮結(jié)構(gòu)與氧化鐵皮厚度的對應(yīng)關(guān)系來研究。而相變行為則是成分-工藝-組織-性能的互相對應(yīng)關(guān)系,還有諸如軋機(jī)軋輥等設(shè)備物理磨損導(dǎo)致的表面損傷。而且客戶對于帶鋼的力學(xué)性能要求也各有不同。
冶金工藝過程造成的各種質(zhì)量問題千變?nèi)f化,客戶的個性化的需求越來越難以達(dá)到,例如某高端品牌車企提出汽車板的力學(xué)性能要求,需要數(shù)位專家根據(jù)多年的工作經(jīng)驗(yàn)來分析,并不斷調(diào)整和控制設(shè)備。近年來,因?yàn)殇撹F行業(yè)的周期性變化與調(diào)整,一些企業(yè)逐漸整合成立了特大型聯(lián)合的企業(yè),生產(chǎn)線從最初的鋼水處理,一直到后續(xù)的生產(chǎn)工序越來越多,但是相應(yīng)的工廠可能間隔非常遠(yuǎn),有時甚至在不同的地區(qū)。隨著工業(yè)4.0模式的到來,原有的MES系統(tǒng)已經(jīng)不能滿足現(xiàn)有的信息化工廠管理的要求[8], 而且如冷軋工藝專家也可能只熟悉冷軋廠的工序和設(shè)備,對于前一工廠的生產(chǎn)工序缺乏分析與認(rèn)識,對于新增設(shè)的后一工序生產(chǎn)廠無法快速地建立起有效的質(zhì)量管理經(jīng)驗(yàn)。
工業(yè)4.0的實(shí)現(xiàn)需要通過一系列的建模、設(shè)備仿真。數(shù)據(jù)是數(shù)字孿生模型的血液,本文只是介紹了初期的數(shù)據(jù)處理方法,后續(xù)針對不同的需求會相應(yīng)地運(yùn)用各種改進(jìn)的算法去適配數(shù)據(jù)實(shí)現(xiàn)功能。
板帶表面質(zhì)量的判定一直是質(zhì)量預(yù)測的難點(diǎn),主要是因?yàn)楸頇z儀的各供應(yīng)商不一,提供的數(shù)據(jù)接口以及識別的準(zhǔn)確率不一且缺陷識別準(zhǔn)確率較低[9]。本文嘗試通過大量的實(shí)測樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘測度,從而推斷可能產(chǎn)生問題的工序過程,嘗試?yán)酶倪M(jìn)決策樹算法來處理全流程數(shù)據(jù),為以后板帶質(zhì)量的判定預(yù)警和在線評級研究奠定基礎(chǔ)。
(1)首先將采集的數(shù)據(jù)按照工序段進(jìn)行歸檔(包含設(shè)定數(shù)據(jù)、實(shí)測數(shù)據(jù)),主要是因?yàn)殇撹F企業(yè)中,收集的為多源異構(gòu)數(shù)據(jù),大部分來源于ERP、MES、L2、L1(L1中的PLC或DCS數(shù)據(jù))、大型儀表(多功能儀、表檢儀、線材中的測徑儀),還有一些特殊的數(shù)據(jù)采集系統(tǒng)(如S鋼廠的iba系統(tǒng)),對這些數(shù)據(jù)進(jìn)行重整后才能進(jìn)行相應(yīng)的分析。
(2)改進(jìn)決策樹模型:懲罰參數(shù)Z改進(jìn)的ID3算法形成新的Z- C4.5算法更適合于工藝變量篩選。本文選用決策樹算法對從S鋼鐵廠獲取的歷史數(shù)據(jù)進(jìn)行處理,工藝專家根據(jù)經(jīng)驗(yàn)選擇13個生產(chǎn)工藝參數(shù)操作變量進(jìn)行特征選擇,從這些變量中篩選出3個最具代表性和獨(dú)立性的操作變量,從而為下一步的模型訓(xùn)練保留主要特征,忽略一些次要因素。 根據(jù)實(shí)際生產(chǎn)環(huán)境需要,各操作變量實(shí)際數(shù)據(jù)都被限定在一定范圍。 依據(jù)60000個樣本數(shù)據(jù),記錄合格樣本的品質(zhì)為1,不合格品的品質(zhì)為0,節(jié)選部分?jǐn)?shù)據(jù)如表1所示。
表1 板帶產(chǎn)線工藝參數(shù)
本文在篩選關(guān)鍵因素時使用的決策樹算法是一種非常經(jīng)典的機(jī)器學(xué)習(xí)算法,適合集成學(xué)習(xí)如隨機(jī)森林算法,可作為回歸算法,同時也可被用作分類。決策樹模型是典型的樹狀結(jié)構(gòu),其學(xué)習(xí)的過程由特征選擇、決策樹生成和剪枝3部分組成。由于本文將決策樹算法應(yīng)用于篩選對質(zhì)量問題起主要影響的工藝變量,因此文中不考慮剪枝過程。
決策樹算法采用的是樹形模型。線性模型是所有特征給予權(quán)重相加得到一個新的值,而樹形模型是一個一個特征進(jìn)行處理。決策樹與邏輯回歸的分類區(qū)別也在于此,邏輯回歸是將所有特征變換為概率后,大于某一概率閾值的劃分為一類,小于某一概率閾值的為另一類;而決策樹是對每一個特征做一個劃分。另外邏輯回歸只能找到線性分割(輸入特征x與logit之間是線性的,除非對x進(jìn)行多維映射),而決策樹可以找到非線性分割,樹形模型更加接近人的思維方式,可以產(chǎn)生可視化的分類規(guī)則,產(chǎn)生的模型具有可解釋性(可以抽取規(guī)則),樹模型擬合出來的函數(shù)其實(shí)是分區(qū)間的階梯函數(shù)。這非常適合用于對各工序?qū)傩缘牟煌鸢鍘з|(zhì)量問題的數(shù)據(jù)進(jìn)行分析。
決策樹從根節(jié)點(diǎn)開始,樹的最高層就是根節(jié)點(diǎn),自頂向下經(jīng)過迭代會產(chǎn)生多個內(nèi)部節(jié)點(diǎn)和葉子結(jié)點(diǎn)。樹內(nèi)部的每一個節(jié)點(diǎn)代表的是對一個特征的測試,樹的分支代表該特征的每一個測試結(jié)果,而樹的每一個葉子節(jié)點(diǎn)代表一個類別。
通常情況下,每個內(nèi)部節(jié)點(diǎn)都會進(jìn)行最優(yōu)屬性的選擇,并據(jù)此劃分出多個樣本子集,每個樣本子集作為新的父節(jié)點(diǎn)再次進(jìn)行特征選擇并劃分,直至不能分裂,最終形成的不能分裂的子節(jié)點(diǎn)就稱為葉子結(jié)點(diǎn),能代表最終的類別。由上可知,決策樹算法的核心在于如何進(jìn)行最優(yōu)屬性的選擇,目前決策樹的最優(yōu)選擇標(biāo)準(zhǔn)主要有3個,它們是最大信息增益、最大信息增益比和基尼系數(shù)。與此三大準(zhǔn)則相對應(yīng)的算法分別為ID3算法、C4.5 算法以及CART算法。
信息增益定義為集合D的經(jīng)驗(yàn)熵與特征A給定條件下集合D的經(jīng)驗(yàn)條件熵H(D|A)之差。H(D)表示數(shù)據(jù)集D的經(jīng)驗(yàn)熵,H(D|A)表示特征A給定條件下集合D的經(jīng)驗(yàn)條件熵,g(D,A)表示信息增益,信息增益的計(jì)算如下。
設(shè)A是其中一個工藝變量取有限個值,其概率分布為
P(A=xi)=pi,i=1,2,…,n
(1)
則此時隨機(jī)變量A的熵的定義為
(2)
條件熵函數(shù)定義為:隨機(jī)變量A的條件下隨機(jī)變量樣本集合D的不確定性——H(D∣A)
H(D∣A)即A在給定條件下D的條件概率分布的熵對A的數(shù)學(xué)期望
(3)
其中p(a)表示A=a發(fā)生的概率
g(D,A)=H(D)-H(D∣A)
(4)
(5)
(6)
對于樣本集合D來說,隨機(jī)變量A是樣本的類別,即,假設(shè)樣本有k個類別,每個類別的概率是|Ck|/|D|,其中|Ck|表示類別k的樣本個數(shù),|D|表示樣本總數(shù)。H(D)表示數(shù)據(jù)集label類別的熵,即每個label取不同類別的值的時候的不確定性。H(D|A)表示在選擇特征A的條件下,數(shù)據(jù)集label類別的熵。此時也可以表示類別label與特征的互信息。
信息增益——G(D,A)表示由選擇特征A而使得對數(shù)據(jù)集分類的不確定性減少的程度,減少的越多,數(shù)據(jù)集分類的不確定性越低。表示特征A對數(shù)據(jù)集D 分類影響效果越好。
ID3算法計(jì)算所有節(jié)點(diǎn)技術(shù)特征的信息增益,并選取信息增益最大的特征進(jìn)行分裂。ID3算法傾向于選擇有更多取值的特征,而有時這種傾向會在決策樹的構(gòu)造時帶來一定的誤差。Wang Hongbin等(2019)[10]提出了一種RLBOR算法,該算法考慮了決策樹模型中的節(jié)點(diǎn)數(shù)去優(yōu)化該決策樹優(yōu)化比率(Decision Tree Optimization Ratio)但是仍然避免不了誤差,如極端條件下,依據(jù)某個屬性分裂后,一個子集對應(yīng)一個數(shù)據(jù),此時信息增益最大,信息熵為0,但這種劃分沒有價值。因?yàn)橐苯鸸に囎兞坑捎谧兞勘旧淼脑颍瑪?shù)據(jù)變化的范圍比較小,出現(xiàn)了連續(xù)的數(shù)據(jù),ID3會傾向于該特征A,為了校正ID3算法存在的這一誤差,提出了使用信息增益比作為最優(yōu)屬性選擇指標(biāo)的C4.5算法。Mu YS 等(2017)[11]提到了C4.5算法的應(yīng)用,并且指出在監(jiān)督分類中,大型訓(xùn)練數(shù)據(jù)非常普遍,決策樹被廣泛使用[12]。但是,由于內(nèi)存限制、時間復(fù)雜度或數(shù)據(jù)復(fù)雜度等一些瓶頸,許多監(jiān)督分類器(包括經(jīng)典的 C4.5 樹)無法直接處理大數(shù)據(jù)。他提出的解決方案是設(shè)計(jì)一個高度并行化的學(xué)習(xí)算法。而本文需要C4.5算法對冶金工藝變量進(jìn)行特征選擇,然后結(jié)合冶金數(shù)據(jù)的特性選用其他機(jī)器學(xué)習(xí)算法進(jìn)行大數(shù)據(jù)處理。提出的Z-C4.5算法的就是當(dāng)某個特征對應(yīng)的取值過多時,會取一個改進(jìn)的懲罰參數(shù)Z去乘以信息增益使得信息增益比偏小。定義信息增益比為特征A帶給集合D的信息增益與特征A本身的熵之比。信息增益比的計(jì)算如下
(7)
(8)
gr(D,A)=Info*G(D,A)
(9)
懲罰參數(shù):Info=1/HA(D)*Z
公式中,R(range)表示所取冶金工藝變量中數(shù)據(jù)變化范圍,n表示依據(jù)特征A分裂后的子集個數(shù),Di表示每個子集的樣本個數(shù)。
當(dāng)采集數(shù)據(jù)的數(shù)值變化范圍小于1%時(即極差R<1%),代碼設(shè)定Z=0,方便寫成模型代碼計(jì)算的時候自動篩選無效的工藝變量,減少計(jì)算壓力。
當(dāng)采集數(shù)據(jù)的數(shù)值變化范圍大于30%(此PLC出現(xiàn)錯誤),此時代碼設(shè)定,Z=Null,當(dāng)Z的數(shù)值變化范圍大于30%(此PLC出現(xiàn)錯誤),此時代碼設(shè)定,Z=Null提示數(shù)據(jù)模型該P(yáng)LC出現(xiàn)錯誤。
當(dāng)采集數(shù)據(jù)的數(shù)值變化范圍在1%~30%,表示數(shù)據(jù)特征正常可以運(yùn)算,Z=1。
利用C4.5分類樹對上述樣本數(shù)據(jù)進(jìn)行特征選擇。由于樣本被分為合格品(記為1)和不合格品(記為0),因此采用二叉分類樹作為訓(xùn)練模型。計(jì)算出13個特征變量對應(yīng)的信息增益比,并按從大到小的順序進(jìn)行排序,根據(jù)各特征變量的信息增益比選擇3個主要因素。
本次實(shí)驗(yàn)環(huán)境設(shè)置為Intel(R)Core(TM)i5-5200U_CPU_@3.60 GHz,操作系統(tǒng)為Windows 10,使用Python語言jupter notebook編譯器中實(shí)現(xiàn)。分析結(jié)果如表2所示。
表2 信息增益分析結(jié)果
為了更好地去驗(yàn)證算法的有效性,與現(xiàn)場運(yùn)管質(zhì)檢部工作人員的溝通交流調(diào)取了該部分的歷史樣本記錄并且進(jìn)行人工統(tǒng)計(jì)數(shù)據(jù),針對該組合工序板帶生產(chǎn)的產(chǎn)品采樣的60000個樣本統(tǒng)計(jì)不合格產(chǎn)品約為1730個,不合格率在3%左右。(與節(jié)選的樣本不合格概率大致一樣,13個工藝變量的樣本量在4630個左右)此時通過工藝專家經(jīng)驗(yàn)判斷設(shè)定的閾值,(工業(yè)4.0的升級后續(xù)項(xiàng)目中將通過數(shù)據(jù)挖掘算法實(shí)現(xiàn)數(shù)據(jù)的動態(tài)閾值實(shí)現(xiàn)動態(tài)監(jiān)控),判斷超限的數(shù)據(jù)個數(shù),統(tǒng)計(jì)的超限變量的次數(shù)如圖4所示。
圖4 不合格品工藝變量超閾值數(shù)據(jù)個數(shù)的統(tǒng)計(jì)
圖4中顯示 1、 3、9樣本超閾值的情況較多,分別對應(yīng)2#軋機(jī)料形尺寸、過鋼速率、1#~5#活套套高這3個工藝變量。針對決策樹篩選的異常變量我們進(jìn)行了現(xiàn)場調(diào)查,例如1#~5#活套套高變量的立式活套器是為了避免軋件在易形成活套的地方造成產(chǎn)品最終出現(xiàn)頭尾耳子,一般由活套掃描傳感器實(shí)時掃描活套高度,確定此時人為設(shè)定的活套套量與實(shí)際活套套量之間的誤差。因?yàn)榫哂谢钐卓刂频倪B軋機(jī)組,軋件的速度比較快所以此時系統(tǒng)慣量較大引起產(chǎn)生動態(tài)力矩,所以人為設(shè)置的固定的套量,是不能解決這個異常的,這是個固有的表面質(zhì)量異常源,這一結(jié)論得到了現(xiàn)場專家的肯定答復(fù)。
節(jié)選部分工藝變量數(shù)據(jù)的超工藝專家給定閾值的監(jiān)控情況如圖5所示。
由于歷史樣本中4630多個樣本的監(jiān)控圖過于密集,無法分辨。所以截取了同一時間窗口的300個樣本進(jìn)行觀察??梢钥闯?#軋機(jī)料形尺寸、過鋼速率、1#~5#活套套高3個工藝變量的超閾值情況明顯多于其他變量。
此處的閾值一般是由工藝專家根據(jù)經(jīng)驗(yàn)得出固定值,如之前給定的活套誤差,這是不夠準(zhǔn)確的。生產(chǎn)是動態(tài)的過程,將來應(yīng)該要通過算法(目前考慮使用KECA-DISSIM組合算法)實(shí)現(xiàn)前一批次正常批次與異常批次的比較來動態(tài)控制閾值,由人工根據(jù)動態(tài)閾值調(diào)整設(shè)定值,計(jì)算機(jī)系統(tǒng)直接通過指令下達(dá)給現(xiàn)場的二級自動化設(shè)備實(shí)時調(diào)整。解放現(xiàn)在的人工現(xiàn)場操作。這將解決實(shí)時性的操作誤差。但是僅這一步就需要計(jì)算機(jī)系統(tǒng)與自動化設(shè)備的進(jìn)一步升級,需要大量的資金投入,不是光靠算法能夠解決的。
1#~5#活套套高該工藝變量位于預(yù)精軋廠,2#軋機(jī)料形尺寸該工藝變量在煉鋼廠,過鋼速率該工藝變量采樣來自冷軋廠。位于不同廠區(qū)的工藝變量被篩選了出來,已經(jīng)初步達(dá)到了全流程質(zhì)量管控?cái)?shù)據(jù)分析的要求。對于異常工藝變量之間是否會相互影響造成特殊的板帶質(zhì)量問題還需要與工藝專家一起研究。
此處只統(tǒng)計(jì)了不合格品工藝變量數(shù)據(jù)超閾值的情況,合格品也有數(shù)據(jù)超閾值的將來可以做對比分析,排除不重要的工藝變量。但是冶金工藝變量變化復(fù)雜,可能同時受到人工操作、設(shè)備、高溫的影響導(dǎo)致數(shù)據(jù)采集設(shè)備的工作波動導(dǎo)致異常,所以通過大量數(shù)據(jù)分析可以得到一個基本較為準(zhǔn)確的主要變量問題的判斷。
在該批次設(shè)備生產(chǎn)過程中影響表面質(zhì)量的因素主要為2#軋機(jī)料形尺寸、過鋼速率、1#~5#活套套高,上線運(yùn)用到實(shí)時數(shù)據(jù)時主要監(jiān)控該3項(xiàng)工藝特征變量的變化情況并且進(jìn)行記錄,設(shè)定閾值,超過閾值進(jìn)行報(bào)警,進(jìn)行事中控制從而來降低該類工藝參數(shù)出現(xiàn)問題所形成耳子、氧化鐵皮、裂紋等表面質(zhì)量問題。
圖5 截選部分工藝變量超閾值監(jiān)控圖
在鋼鐵行業(yè)供過于求的狀況短期不會改變的大背景下, 工業(yè)和信息化局在2020年之前制定的目標(biāo)是去除粗鋼產(chǎn)能1~1.5億噸,而根據(jù)本文的項(xiàng)目團(tuán)隊(duì)研究預(yù)計(jì)我國粗鋼消費(fèi)在2020年后每年還將下滑3%左右,鋼鐵產(chǎn)業(yè)未來發(fā)展的核心矛盾在于供給側(cè)改革落實(shí)情況及全球經(jīng)濟(jì)的復(fù)蘇水平,所以目前提高產(chǎn)品核心競爭力是最迫切的需求,全流程質(zhì)量管理思想的提出與實(shí)踐使企業(yè)質(zhì)量管理水平不斷升級[13]。現(xiàn)在,工業(yè)互聯(lián)網(wǎng)的發(fā)展是新的契機(jī),我國鋼鐵企業(yè)要實(shí)現(xiàn)彎道超車,就需要將信息化的過程與生產(chǎn)工藝進(jìn)行深度的融合,從而幫助我國在產(chǎn)線自動化信息化進(jìn)程中開發(fā)掌握更多核心自主技術(shù)。我們目前想解決的主要問題在于客戶需求的精準(zhǔn)落地、多模塊協(xié)同實(shí)現(xiàn)產(chǎn)品質(zhì)量事中控制和質(zhì)量一貫制,借助AI技術(shù)和可視化技術(shù)如數(shù)字孿生,實(shí)現(xiàn)缺陷一鍵式追溯、工藝參數(shù)快速整定和優(yōu)化,提供定制化業(yè)務(wù)實(shí)現(xiàn)質(zhì)量、工藝、設(shè)備運(yùn)營協(xié)同制造?,F(xiàn)在國內(nèi)鋼廠通用的信息化構(gòu)架主要為5層層級化的質(zhì)量信息系統(tǒng)構(gòu)架而我們的研究方向是隨著工業(yè)互聯(lián)網(wǎng)的發(fā)展,將其做成扁平化的質(zhì)量信息系統(tǒng)構(gòu)架,這樣既能滿足管理上的生產(chǎn)要求,也能滿足生產(chǎn)上的質(zhì)量需求,符合目前公認(rèn)較為主流的鋼廠信息化發(fā)展趨勢。