宮曉磊
(承德承鋼工程技術有限公司,河北 承德 067001)
鋼鐵行業(yè)是帶動國民經(jīng)濟發(fā)展的基礎行業(yè),我國已經(jīng)成為世界鋼鐵生產(chǎn)大國,每年的粗鋼產(chǎn)量均位居世界第一。同時,在這樣的行業(yè)背景下,我國內(nèi)部鋼鐵企業(yè)的競爭壓力也在逐漸提高,需要針對各類特殊鋼種,對其加工工藝及生產(chǎn)工藝進行不斷研發(fā),從而緊跟鋼鐵企業(yè)信息化建設的步伐。近幾年,鋼鐵行業(yè)在發(fā)展過程中,經(jīng)歷了淘汰落后產(chǎn)能,限制粗鋼產(chǎn)量等各項調(diào)控階段,使得目前鋼鐵行業(yè)得以煥然一新。煉鋼計劃調(diào)度是鋼鐵企業(yè)組織和生產(chǎn)活動中十分重要的一個環(huán)節(jié),許多規(guī)模較大的企業(yè)均已經(jīng)具備了較為完善的ERP企業(yè)資源計劃系統(tǒng),同時該系統(tǒng)也逐步從商業(yè)訂單轉變?yōu)獒槍ιa(chǎn)訂單進行管理的系統(tǒng)[1]。但目前這一系統(tǒng)針對車間中煉鋼計劃的調(diào)度水平較低,并且無法根據(jù)煉鋼計劃需要實現(xiàn)對調(diào)度的快速響應,導致最終鋼鐵企業(yè)的煉鋼質(zhì)量和發(fā)展水平受到嚴重限制。深度強化學習是一種將深度學習與強化學習相結合的方法,結合兩種學習方法的應用,進一步提高其感知能力和決策能力。當前這一方法在機器人領域中的應用十分廣泛,但在鋼鐵行業(yè)當中并未涉及。因此,針對當前煉鋼計劃調(diào)度存在的問題,基于深度強化學習的應用優(yōu)勢,開展對煉鋼計劃調(diào)度系統(tǒng)的設計與應用研究。
由于在煉鋼的過程中煉鋼設備直接受到鋼包的制約,因此在煉鋼計劃調(diào)度系統(tǒng)當中,應當將煉鋼設備調(diào)度系統(tǒng)作為整個煉鋼計劃調(diào)度的子系統(tǒng)[2]。圖1為本文基于深度強化學習的煉鋼計劃調(diào)度系統(tǒng)硬件組成示意圖。
圖1 基于深度強化學習的煉鋼計劃調(diào)度系統(tǒng)硬件組成
結合圖1中所示的硬件組成,考慮到煉鋼計劃調(diào)度需要,針對MES接口、數(shù)據(jù)采集器進行優(yōu)化選型。針對MES接口選擇,需要確保接口能夠實現(xiàn)對連崗計劃調(diào)度各類相關數(shù)據(jù)信息的傳輸,基于此本文選用MAXIM452-50型號MES接口。該型號接口的技術參數(shù)如表1所示。
表1 MAXIM452-50型號MES接口技術參數(shù)表
將上述MAXIM452-50型號接口作為本文調(diào)度系統(tǒng)當中的MES接口。完成對MES接口的選擇后,針對數(shù)據(jù)采集裝置進行選擇,選用X8AT16-5610型號移動終端數(shù)據(jù)采集器作為本文系統(tǒng)當中的數(shù)據(jù)采集裝置,該型號數(shù)據(jù)采集器配有802.11a/b/g/nWLAN無線模塊,可根據(jù)系統(tǒng)不同運行環(huán)境改變數(shù)據(jù)采集方式[3]。同時,該型號數(shù)據(jù)采集器可以提供更加穩(wěn)定的網(wǎng)絡連接,實現(xiàn)響應速度更快的數(shù)據(jù)采集,即使在信號較弱或通信不暢通的情況下依然能夠保證數(shù)據(jù)采集的質(zhì)量。除此之外,該型號數(shù)據(jù)采集器具備工業(yè)級防護能力,達到IP65防護等級和多次1.5米高度跌落混凝土地面標準,因此能夠充分適應煉鋼復雜環(huán)境。
煉鋼計劃調(diào)度行為實施過程中,會產(chǎn)生大量的數(shù)據(jù),為了避免系統(tǒng)軟件功能的開發(fā)受到大量冗余數(shù)據(jù)的干擾,可在完成系統(tǒng)硬件結構設計的基礎上,采用構建煉鋼計劃調(diào)度生產(chǎn)數(shù)據(jù)庫的方式,進行調(diào)度信息與相關資源的存儲。數(shù)據(jù)庫與系統(tǒng)信息采用接口進行連接,在此過程中,使用ODBC技術,根據(jù)數(shù)據(jù)包信息標志,將對應的調(diào)度生產(chǎn)信息導入數(shù)據(jù)庫內(nèi)[4]。點擊數(shù)據(jù)庫的數(shù)據(jù)表生成功能鍵,將真實的數(shù)據(jù)存儲在計劃范圍內(nèi),為了確保系統(tǒng)中的外部數(shù)據(jù)表與內(nèi)部生產(chǎn)調(diào)度數(shù)據(jù)表呈現(xiàn)一種連通狀態(tài),可在內(nèi)部數(shù)據(jù)表中集成一個SQL觸發(fā)器,當識別到內(nèi)部表中含有外圍數(shù)據(jù)時,可采用直接獲取的方式進行數(shù)據(jù)信息的調(diào)用。綜合上述分析,生產(chǎn)數(shù)據(jù)庫的內(nèi)部數(shù)據(jù)表可表示為表2。
表2 數(shù)據(jù)庫內(nèi)部數(shù)據(jù)表
將表2中內(nèi)容與外部信息表進行對接,將匹配成功的數(shù)據(jù)全部導入數(shù)據(jù)庫,以此種方式,完成對數(shù)據(jù)庫的構建。
在完成對計劃調(diào)度數(shù)據(jù)庫的構建后,考慮到煉鋼的連續(xù)生產(chǎn)行為對于時間與溫度的要求較高,且生產(chǎn)行為中存在較多的因素對連續(xù)作業(yè)行為存在干擾,因此,在本章的研究中,引進深度強化學習理論,對實時調(diào)度流程進行設計[5]。實時調(diào)度流程如下圖2所示。
圖2 基于深度強化學習的實時調(diào)度流程
在圖2提出的流程中,可利用深度強化學習理論作為指導,進行可行性調(diào)度方法的生成,并在對數(shù)據(jù)反復迭代處理的過程中,對現(xiàn)場擾動觸發(fā)情況進行識別,識別過程中,無論是人工調(diào)整方案還是自動調(diào)度方案,均可根據(jù)現(xiàn)有數(shù)據(jù)生成一個Gantt圖示,結合生成的圖示信息,可以確定調(diào)度過程中對其行為造成干擾的干擾源。定位干擾源的發(fā)生點,由集成在系統(tǒng)內(nèi)的智能算法進行調(diào)度方案的及時調(diào)整,輸出調(diào)整與優(yōu)化后的調(diào)度方案,實現(xiàn)對煉鋼計劃的實時調(diào)度。綜上所述,完成對系統(tǒng)軟件功能的開發(fā)。
通過上述論述,從硬件和軟件兩方面完成對基于深度強化學習的煉鋼計劃調(diào)度系統(tǒng)設計,為了進一步驗證該系統(tǒng)在實際應用中的效果,選擇將基于多智能體仿真的調(diào)度系統(tǒng)作為對照組,通過設置對照組和對照條件的方式,完成下述對比實驗,并對實驗應用效果進行對比分析。分別將兩種調(diào)度系統(tǒng)應用到真實的煉鋼環(huán)境當中,在該環(huán)境下包含1#、2#、3#、4#和5#,共五臺鑄機;#6、#7,共兩臺轉爐。為系統(tǒng)運行內(nèi)容設置多組鑄機斷澆和煉鋼設備檢修兩種調(diào)度任務,第一組:1#鑄機斷澆;第二組:2#鑄機斷澆;第三組:4#鑄機斷澆;第四組:6#轉爐檢修;第五組為7#轉爐檢修。兩種調(diào)度系統(tǒng)均在同一時間(6:30)開始運行,將達到調(diào)度運行標準時的時間記錄,并繪制成如表3所示。
表3 兩種調(diào)度系統(tǒng)應用效果分析表
從表3中記錄時間可以看出,在同一時間開始后,兩種調(diào)度系統(tǒng)均能夠完整實驗設置的調(diào)度任務,但明顯本文調(diào)度系統(tǒng)完成調(diào)度任務的時間更短,而傳統(tǒng)調(diào)度系統(tǒng)完成調(diào)度任務的時間更長。因此,結合上述應用效果分析得出,本文提出的基于深度強化學習的煉鋼計劃調(diào)度系統(tǒng)在應用到真實煉鋼環(huán)境當中,可實現(xiàn)更高效計劃調(diào)度,提高煉鋼效率和質(zhì)量。
通過本文上述研究,從硬件和軟件兩方面對調(diào)度系統(tǒng)進行設計,并結合實驗證明了該調(diào)度系統(tǒng)的應用效果。在后續(xù)的研究中,本文還將在充分考慮整個煉鋼所有工序環(huán)節(jié)的基礎上,將各類預處理工作融合到計劃調(diào)度當中,從而進一步實現(xiàn)計劃調(diào)度系統(tǒng)的集成化。