石泉 唐玨 儲滿生
關(guān)鍵詞:工業(yè)大數(shù)據(jù);數(shù)據(jù)治理;機器學(xué)習(xí);高爐煉鐵
0 前言
鋼鐵工業(yè)是典型的資源能源密集型流程工業(yè),是國民經(jīng)濟支柱產(chǎn)業(yè)。高爐煉鐵作為主流鋼鐵生產(chǎn)流程的核心工序,高爐穩(wěn)定、順行、高效、低耗關(guān)系到整個鋼鐵企業(yè)的經(jīng)濟效益,是鋼鐵生產(chǎn)節(jié)能減排、降本增效的關(guān)鍵環(huán)節(jié)。目前,高爐煉鐵工藝技術(shù)水平已發(fā)展到瓶頸,難以有較大的突破;隨著數(shù)據(jù)科學(xué)和信息技術(shù)的蓬勃發(fā)展,將大數(shù)據(jù)技術(shù)逐步應(yīng)用于高爐煉鐵過程中,充分利用煉鐵系統(tǒng)積累的數(shù)據(jù)深度解析生產(chǎn)過程,研發(fā)基于大數(shù)據(jù)的智能化高爐煉鐵技術(shù),挖掘原燃料條件、工藝操作制度與高爐運行狀態(tài)、鐵水質(zhì)量之間的邏輯關(guān)系,將大數(shù)據(jù)、機器學(xué)習(xí)與冶煉機制、經(jīng)驗知識相結(jié)合,建立高效、科學(xué)的高爐冶煉智慧模型,有望解決高爐數(shù)據(jù)難表征、狀態(tài)難描述、操作難調(diào)控的傳統(tǒng)難題,是實現(xiàn)高爐煉鐵節(jié)能減排和智能化冶煉的重要手段。
為了積極推動智能化技術(shù)實施,中國已出臺多項決策部署,如:《中國制造2025》提出構(gòu)建數(shù)字化智慧鋼廠,鋼鐵業(yè)面臨數(shù)字化轉(zhuǎn)型升級的迫切需求。寶鋼、首鋼、武鋼、韶鋼、攀鋼等鋼鐵企業(yè)均制定了智能制造規(guī)劃,建設(shè)工業(yè)數(shù)據(jù)中心與智能化技術(shù)研發(fā)平臺。然而中國現(xiàn)有成果相較于發(fā)達國家應(yīng)用仍有較大差距,尤其是煉鐵工序存在基礎(chǔ)自動化薄弱、數(shù)據(jù)采集與管理難度大、冶煉過程是典型黑箱等問題,智能化高爐煉鐵技術(shù)的研發(fā)與應(yīng)用還有較大提升空間。
1 機器學(xué)習(xí)算法介紹
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,使得支持向量機、隨機森林和神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)算法在鋼鐵行業(yè)方面的應(yīng)用取得了不錯的效果。本節(jié)對工業(yè)數(shù)據(jù)建模過程中常用到的機器學(xué)習(xí)算法進行介紹。
(1)支持向量機是在統(tǒng)計學(xué)理論的基礎(chǔ)上得出的機器學(xué)習(xí)算法,它在解決小樣本、非線性和高維模式識別問題上表現(xiàn)出許多獨特的優(yōu)勢。隨著支持向量機的不斷發(fā)展,冶金行業(yè)的研究人員把支持向量機應(yīng)用于各種參數(shù)的預(yù)測。基于支持向量回歸與極限學(xué)習(xí)機2種算法對鐵水溫度構(gòu)建預(yù)測模型,基于支持向量回歸算法構(gòu)建的預(yù)測模型較優(yōu),±10 ℃ 誤差范圍內(nèi)的命中率高達94%,比極限學(xué)習(xí)機預(yù)測模型高了5.5%?;谥С窒蛄炕貧w建立了高爐煤氣利用率預(yù)測模型,并預(yù)測結(jié)果與多層感知器模型進行對比,結(jié)果表明,支持向量回歸模型在預(yù)測1和2 h后的煤氣利用率時精確度更高,達到了更好的預(yù)測效果。
(2)梯度提升是一種常用于回歸和分類問題的集成學(xué)習(xí)算法和機器學(xué)習(xí)技術(shù),以弱預(yù)測模型集合的形式產(chǎn)生預(yù)測模型。因其強大的學(xué)習(xí)能力,尤其是在表格數(shù)據(jù)中的表現(xiàn),在高爐參數(shù)預(yù)測領(lǐng)域同樣備受關(guān)注。文獻選用Xgboost模型對高爐透氣性進行預(yù)測,結(jié)果表明,Xgboost相較于隨機森林和線性回歸模型具有較大優(yōu)勢,模型在誤差±1.5%范圍內(nèi)的準(zhǔn)確率達到94.27%,能夠準(zhǔn)確預(yù)測下一小時透氣性指數(shù)。文獻提出一種基于梯度提升決策樹算法的焦炭預(yù)測模型,結(jié)果表明基于梯度提升決策樹的焦炭質(zhì)量預(yù)測模型相較于線性回歸模型、隨機森林模型,決策樹模型誤差小、準(zhǔn)確率高。文獻基于梯度提升決策樹(GBDT)算法建立了燒結(jié)終點預(yù)測模型,采用網(wǎng)格搜索和交叉驗證的方法對模型參數(shù)進行了優(yōu)化,取得了良好的性能。
(3)神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)中最重要的分支,近年來,深度學(xué)習(xí)發(fā)展得如火如荼,各領(lǐng)域的研究成果都非常豐頗。高爐煉鐵是一個動態(tài)的時間序列,高爐反應(yīng)的過程又是漸變的,即當(dāng)前爐況與歷史爐況相互關(guān)聯(lián),這就要求神經(jīng)網(wǎng)絡(luò)能夠動態(tài)記憶歷史信息,并在學(xué)習(xí)新信息的同時保持歷史信息的持久性。因此,將長短期記憶神經(jīng)網(wǎng)絡(luò)在高爐參數(shù)預(yù)測的研究中取得了顯著成效。文獻為實現(xiàn)高爐煉鐵過程中鐵水硅含量的準(zhǔn)確預(yù)測,引入神經(jīng)網(wǎng)絡(luò)時間序列模型實現(xiàn)了高爐鐵水硅含量智能預(yù)報,經(jīng)測試在預(yù)測結(jié)果置信區(qū)間95%以上的條件下達到了0.2%以下的預(yù)測絕對誤差。文獻對比了正常工況下長短記憶模型(LSTM)和季節(jié)性差分自回歸模型(SARIMA)不同預(yù)測步數(shù)的高爐煤氣發(fā)生量預(yù)測效果,結(jié)果表明LSTM模型的預(yù)測精度普遍高于SARIMA模型。
(4)集成學(xué)習(xí)通過構(gòu)建和組合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。通過組合多個學(xué)習(xí)器,通??梢垣@得比單一學(xué)習(xí)器更顯著的泛化性能,學(xué)習(xí)器的預(yù)測效果是隨著數(shù)據(jù)集的不同而變化的,集成學(xué)習(xí)可以提高學(xué)習(xí)系統(tǒng)的泛化性能,并增強學(xué)習(xí)系統(tǒng)的穩(wěn)定性。文獻為提高煤氣利用率的預(yù)測精度,提出一種基于CEEMDAN-SVM-LSTM 的組合模型對其進行預(yù)測。用長短時間記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM)和支持向量機(SVM)分別對分解的高頻模態(tài)和低頻模態(tài)進行預(yù)測,最后將模型組合建立了煤氣利用率的組合預(yù)測模型。結(jié)果表明該組合模型與單一的 SVM 模型和LSTM 預(yù)測模型對比,組合模型的精度更高。
2 大數(shù)據(jù)技術(shù)在高爐煉鐵中的應(yīng)用
大數(shù)據(jù)技術(shù)在高爐煉鐵中的應(yīng)用主要體現(xiàn)在高爐數(shù)據(jù)預(yù)處理、高爐關(guān)鍵指標(biāo)預(yù)測、高爐爐況狀態(tài)評價和高爐關(guān)鍵指標(biāo)優(yōu)化4個方面,主要研究內(nèi)容如圖1所示。
2.1 高爐數(shù)據(jù)預(yù)處理
高爐煉鐵系統(tǒng)數(shù)據(jù)具有來源多、范圍廣、數(shù)量大、維度高、頻次多、噪聲多、質(zhì)量低等特點,如何完成高爐復(fù)雜數(shù)據(jù)的清洗與整合,是實現(xiàn)高爐煉鐵系統(tǒng)智能化的基礎(chǔ)。此過程主要包括缺失值和異常值處理、數(shù)據(jù)標(biāo)準(zhǔn)化以及數(shù)據(jù)集成。
2.1.1 高爐缺失數(shù)據(jù)處理
高爐煉鐵數(shù)據(jù)缺失問題主要是由于高爐生產(chǎn)過程中由于傳感器失靈、人為操作失誤、數(shù)據(jù)庫存儲故障等因素造成的部分數(shù)據(jù)丟失。處理數(shù)據(jù)缺失的方法主要有2種:一是刪掉缺失數(shù)據(jù)所在的數(shù)據(jù)項,二是對缺失數(shù)據(jù)進行填補。填補缺失值可以保證數(shù)據(jù)信息的完整性,有利于建立完整、系統(tǒng)的數(shù)據(jù)挖掘模型。
(1)少量缺失或大量缺失。
如果缺失數(shù)據(jù)量占數(shù)據(jù)集總量的比例低于5%可采取直接刪除法,該種處理辦法不會影響數(shù)據(jù)的有效性,且處理效率高效。如果數(shù)據(jù)缺失量較大,數(shù)據(jù)填補難度將十分巨大,當(dāng)數(shù)據(jù)的缺失率超過60%時,無論采用何種辦法,其所研究的數(shù)據(jù)都沒有任何使用價值。直接刪除法在特定情況下是一種直接、高效的處理手段,但此種方法會造成一部分數(shù)據(jù)資源的流失。
(2)間斷性數(shù)據(jù)缺失。
間斷性數(shù)據(jù)缺失是指數(shù)據(jù)間斷性的在短時間內(nèi)出現(xiàn)數(shù)據(jù)缺失問題。由于缺失時間短,尤其當(dāng)數(shù)據(jù)頻次較高時,在此范圍內(nèi)數(shù)據(jù)波動不會發(fā)生明顯變化,可以通過最近鄰值法等對缺失值進行填補;如果是壓力、溫度等時間序列數(shù)據(jù),由于時序性數(shù)據(jù)在一定范圍內(nèi)的波動是可預(yù)估的,因此可以采用插值法;如果與其他變量數(shù)據(jù)存在相關(guān)關(guān)系的數(shù)據(jù)(如透氣性和壓差),可采用機器學(xué)習(xí)法建立二者的函數(shù)關(guān)系完成缺失數(shù)據(jù)的填補。
(3)連續(xù)性數(shù)據(jù)缺失。
連續(xù)性數(shù)據(jù)缺失是指數(shù)據(jù)在長時間內(nèi)連續(xù)出現(xiàn)數(shù)據(jù)缺失問題。由于長時間缺失導(dǎo)致在此范圍內(nèi)數(shù)據(jù)實際變化趨勢無法被估計,插值法填補不能取得理想的效果。但是,如果存在其密切相關(guān)的完整變量數(shù)據(jù),通過完整數(shù)據(jù)尋找數(shù)據(jù)之間的內(nèi)在規(guī)律,即便出現(xiàn)長時缺失也可通過數(shù)據(jù)間的內(nèi)在關(guān)系采用機器學(xué)習(xí)法對缺失數(shù)據(jù)進行預(yù)測填補。
2.1.2 高爐異常數(shù)據(jù)處理
異常數(shù)據(jù)的處理與分析也是數(shù)據(jù)治理中的一個重要步驟。工業(yè)大數(shù)據(jù)中往往由于各種原因,導(dǎo)致收集到的數(shù)據(jù)中存在一些偏離正常范圍的異常值點,忽略異常數(shù)值的存在往往對數(shù)據(jù)分析結(jié)果是不利的。然而,由于高爐正常爐況和異常爐況的數(shù)據(jù)差異很大,因此在進行異常數(shù)據(jù)檢測時需要根據(jù)爐況狀態(tài)是否異常而有所區(qū)別。
(1)超出工藝范圍的異常值。
可以通過最大最小值判斷這個變量的取值是否超過了合理的范圍,不合常理的為異常值。例如在正常爐況下,可以依據(jù)高爐現(xiàn)場操作方針的參數(shù)范圍制定數(shù)據(jù)篩選條件。
(2)算法識別的異常值。
通過統(tǒng)計學(xué)方法或機器學(xué)習(xí)的方法判別,目前從數(shù)據(jù)的統(tǒng)計學(xué)性質(zhì)出發(fā)進行高爐異常數(shù)據(jù)識別的技術(shù)手段主要有以下幾種:拉依達準(zhǔn)則(3σ法)、箱型圖等方式。此類方法在一定程度上剔除了異常值且效率高,但異常值上下限的確定還是依賴操作人員的經(jīng)驗,例如箱型圖上下四分位差的系數(shù)。并且3σ準(zhǔn)則要求數(shù)據(jù)近似正太分布,并不是所有的數(shù)據(jù)都適用。從機器學(xué)習(xí)的角度出發(fā),目前所采用的主要有聚類算法、孤立森林法等。利用聚類算法進行異常值識別主要是選用合適的算法將數(shù)據(jù)分為各簇,簇與簇之前的距離大而簇內(nèi)部的數(shù)據(jù)間的距離小,因此可以找出包含大部分正常數(shù)據(jù)的簇,進而識別異常值。而孤立森林所采用的思想是利用二叉樹的特點將全部數(shù)據(jù)遍歷,將數(shù)據(jù)按大小分在二叉樹的兩側(cè),根據(jù)某點數(shù)據(jù)被區(qū)分出來時所涉及的二叉樹的數(shù)量進行異常值識別,所涉及的二叉樹數(shù)量越小則該點數(shù)據(jù)是異常值的可能性越大。利用機器學(xué)習(xí)進行異常值識別的識別率高但需要消耗的時間也較多。
(3)異常值的處理。
在識別出離群值后還需要觀察同時刻其他參數(shù)的數(shù)據(jù)是否也存在異常,以此甄別產(chǎn)生異常數(shù)據(jù)的原因是高爐爐況異常引起,還是數(shù)據(jù)本身異常。對于無效異常值(錯誤值或離群值),一般刪除含有異常值的記錄,或者將其視為缺失值,然后按照缺失值的處理方法進行填補;對于有效異常值(即在特定爐況條件下屬于合理值),一般需要對此類數(shù)據(jù)進行保留。值得注意的是不同檢測方法對數(shù)據(jù)具有不同的要求,而高爐數(shù)據(jù)復(fù)雜,異常值的種類較多,因此不能僅僅采用單一的異常值識別方法,應(yīng)綜合考慮數(shù)據(jù)問題和算法自身特點,科學(xué)選擇數(shù)據(jù)處理方法。
2.1.3 高爐數(shù)據(jù)頻次對齊
高爐煉鐵過程中不同數(shù)據(jù)源存在數(shù)據(jù)采集頻次不同的問題,大大提升了高爐不同工序數(shù)據(jù)整合的難度。例如質(zhì)檢數(shù)據(jù)和監(jiān)測數(shù)據(jù),前者的數(shù)據(jù)頻次一般為2~4 h, 而后者的數(shù)據(jù)頻次多為分鐘級或秒級。當(dāng)數(shù)據(jù)存在不同頻率,通常的方法有2種,一種是根據(jù)低頻數(shù)據(jù)的周期對高頻數(shù)據(jù)做平均或累加,或者根據(jù)低頻數(shù)據(jù)的周期選取高頻數(shù)據(jù)的最新值;另外一種是將低頻數(shù)據(jù)映射到高頻時間索引上,缺失值用插值補全。將混頻數(shù)據(jù)轉(zhuǎn)換為相同頻率的數(shù)據(jù)后,使用相同頻率的數(shù)據(jù)進行分析或建模。但是,這種方法由于人為的數(shù)據(jù)累加或內(nèi)插會引起的原始數(shù)據(jù)內(nèi)含的信息量增加和丟失。相關(guān)學(xué)者提出直接使用混頻數(shù)據(jù)來構(gòu)建混頻數(shù)據(jù)模型,這種方式建立的模型充分利用高頻數(shù)據(jù)中的信息,避免了由于數(shù)據(jù)處理過程中人為處理而導(dǎo)致的數(shù)據(jù)信息虛增與丟失,在一定程度上可以提高宏觀模型估計有效性和預(yù)測的準(zhǔn)確性。有效解決了不同工序由于數(shù)據(jù)采集周期不同導(dǎo)致的數(shù)據(jù)樣本不均衡和不同工序數(shù)據(jù)無法直接匹配的問題。
2.1.4 高爐數(shù)據(jù)標(biāo)準(zhǔn)化
鋼鐵工業(yè)中流程較多,影響產(chǎn)品質(zhì)量和性能的因素錯綜復(fù)雜,每個指標(biāo)的性質(zhì)、量綱、數(shù)量級、可用性等特征均可能存在差異,導(dǎo)致無法直接用其分析研究對象的特征和規(guī)律。如果直接用指標(biāo)原始值進行分析,數(shù)值較高的指標(biāo)在綜合分析中的作用就會被放大,相對地,會削弱數(shù)值水平較低的指標(biāo)的作用。以高爐為例,風(fēng)量的單位是m3/min, 燃料比單位是kg/t, 熱負荷的單位是MJ/h, 且它們的數(shù)量級相差較大,不利于模型計算分析,還會降低模型的預(yù)測精度。為了消除參數(shù)指標(biāo)之間的量綱和取值范圍差異的影響,需要對訓(xùn)練數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,便于建立有效的機器學(xué)習(xí)模型。研究中最常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法主要為min-max標(biāo)準(zhǔn)化法和z-score標(biāo)準(zhǔn)化法。
2.2 高爐關(guān)鍵指標(biāo)預(yù)測
提前掌握高爐關(guān)鍵指標(biāo)變化對操作者科學(xué)判斷、準(zhǔn)確調(diào)控高爐運行狀態(tài)至關(guān)重要,通過大數(shù)據(jù)技術(shù)實現(xiàn)高爐關(guān)鍵指標(biāo)的精準(zhǔn)預(yù)測是高爐操作者科學(xué)判斷高爐爐況動態(tài)變化的有效手段。研究較多的高爐關(guān)鍵預(yù)測指標(biāo)主要有爐熱(鐵水硅含量和鐵水溫度)、焦比、煤氣利用率、透氣性等。由于高爐冶煉的復(fù)雜性,不同高爐關(guān)鍵指標(biāo)的影響因素不同,并且不同冶煉條件下高爐關(guān)鍵指標(biāo)的影響因素也會有所不同。另外,高爐參數(shù)之間存在不同程度的時間滯后性。因此,在建立預(yù)測模型之前需要進行時滯性分析和特征選擇。
2.2.1 高爐參數(shù)間的時滯性分析
在高爐冶煉過程中,當(dāng)爐長采取某項控制措施時,決策變量需要一段時間后才能起到控制作用,這種現(xiàn)象叫做滯后?,F(xiàn)有方法大多是根據(jù)相關(guān)性系數(shù)或者人工經(jīng)驗的方法,得到最大相關(guān)性的某一確定的滯后時間。如安劍奇等采用灰色相對關(guān)聯(lián)度分析方法分析了高爐操作與煤氣利用率、鐵水硅含量、高爐狀態(tài)參數(shù)的時滯關(guān)系;李壯年等通過人工經(jīng)驗分別對當(dāng)日、1天、2天后的控制參數(shù)賦予權(quán)重,對數(shù)據(jù)進行時效處理。但是在實際生產(chǎn)過程中,不同階段或者不同工況下,參數(shù)的滯后時間具有不確定性,在一定范圍內(nèi)變化,且參數(shù)在這個范圍內(nèi)會有不同程度的波動。因此,此類方法可能會造成滯后時間不準(zhǔn)確以及波動信息缺失,從而導(dǎo)致與實際爐況不符的現(xiàn)象。針對高爐煉鐵生產(chǎn)過程數(shù)據(jù)大時滯現(xiàn)象,王玉濤等提出了一種時滯不確定信息的高爐參數(shù)時滯性分析方法,通過計算參數(shù)不同階段的滯后時間,得到參數(shù)的滯后時間范圍,然后將工藝參數(shù)對應(yīng)時滯范圍內(nèi)均值,方差作為模型輸入,有效提高了模型預(yù)測準(zhǔn)確率。
2.2.2 高爐關(guān)鍵指標(biāo)的特征選擇
從眾多原燃料參數(shù)和操作參數(shù)中篩選出與高爐關(guān)鍵指標(biāo)有顯著關(guān)系的參數(shù)時,最常用的方法是通過特征選擇技術(shù)實現(xiàn)高爐重要影響因素的篩選。特征選擇方法主要分為基于特征排序和基于特征搜索2類。
(1)基于特征排序采用具體的評價準(zhǔn)則給每個特征打分或設(shè)置一個閾值,選擇排名前k個的特征,選擇過程如圖2所示。基于特征排序的評價準(zhǔn)則常用的有Pearson相關(guān)系數(shù)、最大信息系數(shù)、主成分分析等。Pearson相關(guān)系數(shù)是線性量化關(guān)系分析最常用方法之一,反應(yīng)的是2個變量之間變化趨勢的方向以及程度,其值范圍為-1~1,0表示2個變量不相關(guān),正值表示正相關(guān),負值表示負相關(guān),值越大表示相關(guān)性越強。王振陽等依據(jù)Pearson相關(guān)系數(shù)提取了與鐵水溫度存在強線性相關(guān)的高爐參數(shù),但考慮到Pearson系數(shù)不能有效地對非線性關(guān)系的參數(shù)進行提取,因此結(jié)合Spearman系數(shù)獲取了顯著影響鐵水溫度的特征參量。最大信息系數(shù)(MIC)是用來衡量2個參數(shù)之間的關(guān)聯(lián)程度,線性或非線性關(guān)系,相較于Pearson相關(guān)系數(shù)而言有更高的準(zhǔn)確度。最大互信息系數(shù)度量具有普適性,其不僅可以發(fā)現(xiàn)變量間的線性函數(shù)關(guān)系,還能發(fā)現(xiàn)非線性函數(shù)關(guān)系。張笑凡使用Pearson相關(guān)系數(shù)初步挑選出與爐缸活性線性相關(guān)性強的特征,然后針對Pearson相關(guān)系數(shù)無法捕捉非線性關(guān)系的缺陷,使用了最大信息系數(shù)來衡量特征與爐缸活性之間的依賴關(guān)系,提取出與爐缸活性依賴性強的特征。這種特征選擇方法效率高,因此在處理高維數(shù)據(jù)時,可在短時間內(nèi)去除大量的無關(guān)特征。但是高爐冶煉過程復(fù)雜,高爐參數(shù)之間具有強耦合性,通過分析單因素對目標(biāo)的影響程度選擇特征,忽略了特征參數(shù)之間的相互作用對高爐經(jīng)濟指標(biāo)的實際影響關(guān)系,因此基于特征排序的方法對高爐預(yù)測模型精度的提升是有限的。主成分分析主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)造出來的k維特征。主成分分析嚴格來說屬于特征提取的一種方法,但也是通過對方差貢獻率進行排序,選取排名靠前的主成分。劉代飛在進行高爐爐況預(yù)測建模時,利用主元分析對108維的溫度場數(shù)據(jù)進行降維處理,以86%的信息提取度為準(zhǔn)則,形成20維主元特征參數(shù)。但是,經(jīng)過主成分分析構(gòu)建的新特征物理意義與原始特征相差甚遠,提取到的特征可解釋性弱,這對指導(dǎo)高爐操作和異常爐況的原因分析等問題是非常不利的。
(2)基于特征搜索屬于一種特征組合策略,如圖3所示,此過程中可以直接將模型預(yù)測精度或誤差作為度量標(biāo)準(zhǔn)衡量特征子集的整體性能,最終獲得近似的最優(yōu)子集,要優(yōu)于只估計單個特征得分的評價標(biāo)準(zhǔn)。如隨機森林算法、XGBoost和LightGBM中的特征貢獻度排序是衡量每個特征重要性的有效方法。特征貢獻度排序定義為對單個特征值進行隨機洗牌時模型分數(shù)的下降,是在比較具有和不具有該特征時模型的預(yù)測精度,特征貢獻度排序可用于分析特征對輸出變量的重要性。趙軍等在建立高爐透氣性指數(shù)預(yù)測模型過程中,以隨機森林模型作為基模型,采取交叉驗證法確定特征數(shù)量尋找最佳特征,篩選出冷風(fēng)流量、鼓風(fēng)動能、富氧流量等14個特征參數(shù)。遺傳算法作為一種基于自然選擇和群體遺傳機制的搜索算法,也是處理特征選取任務(wù)最先進的算法之一。張照碩等基于遺傳算法研究了不同的個體選擇策略與種群更新策略的結(jié)合對監(jiān)督學(xué)習(xí)算法預(yù)測準(zhǔn)確率的影響,結(jié)果表明這種方式比將所有特征用于學(xué)習(xí)的平均準(zhǔn)確率更高。
在實際應(yīng)用當(dāng)中,可以將多種特征選擇方法結(jié)合使用,以提高模型的效率和性能。先通過基于特征排序去除無關(guān)特征,然后再通過基于特征組合選擇最優(yōu)特征集。值得注意的是,完全依賴數(shù)據(jù)算法有時也會造成重要信息的丟失,當(dāng)某個重要參數(shù)一直被控制在合理范圍時,由于數(shù)據(jù)波動較小,算法很有可能將其判定為無關(guān)參數(shù)而剔除。文獻在基于高爐冶煉機制和專揀經(jīng)驗篩選特征基礎(chǔ)上,采用特征選擇技術(shù)在剩余特征集中進行篩選,通過機制與算法結(jié)合的方式完整地選擇出了影響鐵水質(zhì)量的重要參數(shù)。文獻結(jié)合遺傳算法與冶金理論提出了一種可解釋的特征構(gòu)造方法,應(yīng)用于鐵水硅含量預(yù)測效果良好提高至93%。更重要的是,通過構(gòu)造的許多高質(zhì)量特征中的共同成分揭示了過程變量和預(yù)測變量之間的內(nèi)在關(guān)系。這些信息有助于高爐操作者對高爐冶煉過程的理解和控制。因此,應(yīng)采取高爐工藝機制結(jié)合數(shù)據(jù)驅(qū)動算法共同完成影響參數(shù)的選取。
2.2.3 高爐關(guān)鍵指標(biāo)的預(yù)測
崔桂梅等通過支持向量機和K-means聚類進行結(jié)合,建立類別函數(shù)確定預(yù)測數(shù)據(jù)的類別,利支持向量機對聚類后的每一類數(shù)據(jù)進行預(yù)測,該方法鐵水溫度的預(yù)測精度較普通支持向量機有所提高。文獻采用徑向基函數(shù)的最小二乘支持向量機對鐵水[Si]進行預(yù)測,采用多折交叉驗證方法優(yōu)化核函數(shù)、正則化參數(shù),取得了較好的預(yù)測效果。王文慧等建立了基于隨機森林算法的高爐鐵水硅質(zhì)量分數(shù)預(yù)測模型,該研究結(jié)果表明不管是在爐況平穩(wěn)還是在爐況有較大波動的情形下,隨機森林算法都能獲得較高的預(yù)測精度。張勇等采用相關(guān)分析法確定影響爐溫的主要因素,基于時間序列的小波神經(jīng)網(wǎng)絡(luò)對鐵水測溫進行預(yù)測,較傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)的預(yù)測精度有所提高。劉小杰等通過構(gòu)建Adaboost模型、決策樹模型和隨機森林模型對2 h后的鐵水中硅含量進行預(yù)測,發(fā)現(xiàn)Adaboost模型預(yù)測的結(jié)果相比決策樹模型和隨機森林模型準(zhǔn)確度更高,能夠更好地對鐵水硅含量進行捕捉預(yù)測。岳有軍等采用粒子群算法對最小二乘支持向量機進行優(yōu)化,用優(yōu)化后的模型對高爐焦比進行預(yù)測,結(jié)果表明優(yōu)化后的方法成功提高了入爐焦比的預(yù)測精度。周繼程等利用神經(jīng)網(wǎng)絡(luò)預(yù)測生鐵產(chǎn)量和燃料比,由于數(shù)據(jù)樣本少,模型命中率較低。周洋等將聚類算法與神經(jīng)網(wǎng)絡(luò)進行結(jié)合,通過聚類分析將高爐數(shù)據(jù)分為若干類,然后基于神經(jīng)網(wǎng)絡(luò)分別進行訓(xùn)練,實現(xiàn)了高爐焦比預(yù)測,模型的預(yù)測精度高于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。李壯年等采用了支持向量機、隨機森林、梯度提升樹等6種機器學(xué)習(xí)算法,并采用特征工程和超參數(shù)調(diào)優(yōu)對機器學(xué)習(xí)預(yù)測進行了優(yōu)化,最后采用集成學(xué)習(xí)方法對高爐焦比和透氣性進行了預(yù)測,預(yù)測結(jié)果不僅精準(zhǔn)度高而且具有很好的魯棒性。
目前已經(jīng)建立了許多高爐關(guān)鍵參數(shù)預(yù)測模型,這些模型在高爐實際生產(chǎn)中發(fā)揮著重要作用。然而,當(dāng)前高爐關(guān)鍵變量預(yù)測多以純數(shù)據(jù)驅(qū)動模型為主,大多數(shù)模型未能將工藝機制和數(shù)據(jù)模型進行深度結(jié)合,應(yīng)用效果與實際生產(chǎn)需求仍有一些差距。通過相關(guān)的冶金工藝理論建立高爐機制模型,將高爐機制模型的結(jié)果作為新的特征。該方法的目的在于通過機制分析實現(xiàn)對高爐內(nèi)部難以監(jiān)測指標(biāo)的理論計算。文獻通過建立布料仿真模型,計算得到爐料徑向焦炭負荷和爐料落點等重要特征,并采取高爐布料仿真模型和聚類分析相結(jié)合的方法分析了布料制度與爐況的關(guān)系。文獻通過高溫區(qū)碳氧平衡理論、熱平衡理論建立渣鐵熱量指數(shù)模型,將其中的渣鐵熱量指數(shù)、直接還原度、燃料比偏差等參數(shù)作為新的特征帶入爐熱預(yù)測模型中,有效改善了模型的預(yù)測精度。因此,充分利用高爐煉鐵的海量數(shù)據(jù)價值,兼顧冶煉機制在關(guān)鍵變量預(yù)測的基礎(chǔ)作用,結(jié)合大數(shù)據(jù)技術(shù),建立機制與數(shù)據(jù)雙驅(qū)動融合的高爐智慧模型,并在生產(chǎn)實踐中不斷驗證、優(yōu)化,方能取得良好的應(yīng)用效果。
2.3 高爐爐況狀態(tài)評價
在傳統(tǒng)高爐操作中,現(xiàn)場作業(yè)人員通常依靠對高爐單個或多個指標(biāo)的觀測,憑經(jīng)驗判斷爐況,針對原燃料的變化趨勢,對操作進行調(diào)整,盡量避免爐況失常。隨著自動化、信息化不斷發(fā)展,專家學(xué)者不斷嘗試采用大數(shù)據(jù)、機器學(xué)習(xí)對高爐運行狀態(tài)進行管控。
文獻選取鐵水產(chǎn)量、鐵水[Si+Ti]和燃料比表征高爐爐況,通過數(shù)據(jù)分析和機器學(xué)習(xí)獲得爐況評分規(guī)則,為高爐運行狀態(tài)評價梳理新思路。文獻采用因子分析法提取19個狀態(tài)參數(shù)計算高爐綜合狀態(tài)指標(biāo),基于集成學(xué)習(xí)構(gòu)建模型預(yù)測3 h后高爐運行狀態(tài),由于計算因子得分時存在失效情況,模型準(zhǔn)確率不穩(wěn)定。文獻提出用時間序列最小二乘支持向量機方法診斷高爐爐況,該方法實現(xiàn)了對高爐爐況的分類評價。馬鋼將諸多高爐各類參數(shù)進行分類、對每個指標(biāo)設(shè)置權(quán)重、上下限和區(qū)間分值,建立了高爐綜合順行指數(shù)評價分析模型,采用量化評分的方式對實時參數(shù)進行評價。優(yōu)點在于選取的高爐參數(shù)涵蓋范圍廣能夠較全面地反映高爐爐況狀態(tài),不足之處在于參數(shù)的評分規(guī)則依賴專家經(jīng)驗,沒有充分利用高爐數(shù)據(jù)中有價值的信息。武鋼基于有限7號高爐開發(fā)了高爐爐況診斷系統(tǒng),包括爐頂料面雷達監(jiān)測、爐身上部料層結(jié)構(gòu)模型、高熱負荷區(qū)域銅冷卻壁熱面渣皮監(jiān)測模型以及高爐過程參數(shù)計算、爐況狀態(tài)的模式識別等內(nèi)容,系統(tǒng)上線應(yīng)用后高爐利用系數(shù)、煤氣利用率、燃料比技術(shù)指標(biāo)有了明顯改善,但該系統(tǒng)在對高爐整體內(nèi)型和內(nèi)部狀態(tài)進行解析、豐富案例庫、提高知識庫準(zhǔn)確度等方面還需要進一步完善。
大量的高爐運行數(shù)據(jù)蘊藏著高爐冶煉過程的深層次特性,但是不充分分析利用高爐的機制知識,僅僅利用常規(guī)的數(shù)據(jù)驅(qū)動建模算法構(gòu)建高爐模型,必然很難達到理想的效果。高效融合工業(yè)大數(shù)據(jù)和專家知識,發(fā)揮專家經(jīng)驗的規(guī)范作用,構(gòu)建高爐運行狀態(tài)科學(xué)評價機制,實現(xiàn)綜合爐況實時監(jiān)控與準(zhǔn)確預(yù)測,完成爐況波動科學(xué)溯因,是維持高爐穩(wěn)定順行的重要創(chuàng)新手段。
2.4 高爐關(guān)鍵指標(biāo)優(yōu)化
高爐涉及的原燃料種類多而復(fù)雜,各變量間存在強耦合、非線性、大時滯等特點。如何在復(fù)雜數(shù)據(jù)、復(fù)雜動態(tài)工況條件下,進行高爐多目標(biāo)自主優(yōu)化決策和自愈控制,成為高爐智能化煉鐵的關(guān)注熱點。目前,在高爐指標(biāo)優(yōu)化控制方面,多采用數(shù)據(jù)驅(qū)動的方式來優(yōu)化高爐多個目標(biāo),取得了初步效果,但普遍存動態(tài)爐況適應(yīng)性不強、優(yōu)化操作解集現(xiàn)場應(yīng)用性差、優(yōu)化過程耗時長等問題。由于高爐冶煉過程的特殊性和復(fù)雜性,現(xiàn)階段高爐穩(wěn)定生產(chǎn)主要依靠人工操作,還無法實現(xiàn)真正意義上的閉環(huán)控制,更有效的方式是通過高爐優(yōu)化模型為高爐操作者推送優(yōu)化建議,協(xié)助操作者指導(dǎo)高爐穩(wěn)定生產(chǎn)。
文獻以焦比、K值、熱負荷、CO2排放、成本等作為高爐優(yōu)化目標(biāo),采用遺傳算法進行高爐操作優(yōu)化,在降低能耗和穩(wěn)定爐況方面在理論上具有一定的優(yōu)化效果,而關(guān)于最優(yōu)解如何在現(xiàn)場合理應(yīng)用方面還有很大的差距。由于最優(yōu)操作解集數(shù)量多、差異大,只追求優(yōu)化效果而忽略現(xiàn)場生產(chǎn)條件的約束則會導(dǎo)致最優(yōu)操作解集應(yīng)用性變差。對于高爐現(xiàn)場生產(chǎn)而言,保證高爐的穩(wěn)定順行才是首要的,高爐操作者最期望的是通過調(diào)控數(shù)量最少、風(fēng)險最低、成本最低的操作以達到穩(wěn)定爐況的目的。因此在反饋優(yōu)化操作建議時不僅要追求優(yōu)化效果,還應(yīng)綜合考慮現(xiàn)場操作的可行度和操作成本。以低風(fēng)險、低經(jīng)濟、高回報作為優(yōu)化目標(biāo),才能推動大數(shù)據(jù)技術(shù)在高爐優(yōu)化控制應(yīng)用方面取得更好的成果。
3 結(jié)論與展望
(1)在高爐數(shù)據(jù)預(yù)處理方面,對于高爐煉鐵生產(chǎn)數(shù)據(jù)中存在的數(shù)據(jù)缺失、異常數(shù)據(jù)和工序間數(shù)據(jù)匹配難等問題,應(yīng)綜合考慮數(shù)據(jù)問題和算法自身特點,科學(xué)選擇數(shù)據(jù)處理方法,完成高爐復(fù)雜數(shù)據(jù)的清洗與整合,才能多維度提高數(shù)據(jù)的真實性、準(zhǔn)確性和完整性,使高爐數(shù)據(jù)質(zhì)量得到有效改善。
(2)在高爐關(guān)鍵指標(biāo)預(yù)測方面,首先需要通過時滯性分析消除或者弱化高爐原燃料條件和操作制度對高爐經(jīng)濟指標(biāo)時間滯后的影響,提高數(shù)據(jù)信息的準(zhǔn)確性;在此基礎(chǔ)上通過高特征選擇技術(shù),篩選出有效的輸入特征,才能保證高爐關(guān)鍵指標(biāo)預(yù)測模型的準(zhǔn)確率。
(3)在高爐爐況狀態(tài)評價方面,依賴經(jīng)驗判斷爐況走勢,難以準(zhǔn)確動態(tài)掌握高爐狀態(tài);以數(shù)據(jù)驅(qū)動的高爐爐況評價方法結(jié)果可解釋性差,不易追溯爐況擾動原因。因此,需要構(gòu)建數(shù)據(jù)信息與工藝機制融合的高爐智慧模型,才能夠?qū)崿F(xiàn)高爐爐況的科學(xué)評價。
(4)在高爐參數(shù)優(yōu)化控制方面,不僅要追求優(yōu)化效果,還應(yīng)綜合考慮現(xiàn)場操作的可行度和操作成本,以低風(fēng)險、低經(jīng)濟、高回報作為優(yōu)化目標(biāo),才能推動大數(shù)據(jù)技術(shù)在高爐優(yōu)化控制應(yīng)用方面取得更好的成果。
(5)應(yīng)用大數(shù)據(jù)技術(shù)解決高爐煉鐵中的“黑箱”問題,優(yōu)化冶煉工藝具有巨大的潛力。未來的高爐將會是大數(shù)據(jù)技術(shù)與高爐冶煉工藝深度融合的數(shù)字化、智能化生產(chǎn)?,F(xiàn)階段研究成果在很大程度上提高了高爐操作者對智能化高爐的認識,然而要實現(xiàn)高爐智能化生產(chǎn),還需要研究者繼續(xù)探索和完善。
本文摘自《鋼鐵研究學(xué)報》2022年第12期