柯 驥,肖偲鈺,程 曦
(武漢鋼鐵有限公司硅鋼部,湖北 武漢 430080)
《“十四五”智能制造發(fā)展規(guī)劃》指出,要以新一代信息技術(shù)與先進制造技術(shù)深度融合為主線,深入實施智能制造工程。在此指導(dǎo)思想下,某大型鋼鐵企業(yè)硅鋼生產(chǎn)廠在智慧工廠建設(shè)項目中,使用超融合系統(tǒng)作為硬件平臺,提高了生產(chǎn)過程控制系統(tǒng)的穩(wěn)定性、安全性和可維護性,為提高企業(yè)生產(chǎn)效益、促進企業(yè)高速發(fā)展提供了堅實的技術(shù)保障。
超融合技術(shù)在銀行、教育、金融等行業(yè)得到了廣泛的應(yīng)用,它將計算、網(wǎng)絡(luò)、存儲和服務(wù)器虛擬化等資源和技術(shù)進行整合,在增強計算能力的同時提高了網(wǎng)絡(luò)的吞吐量、降低網(wǎng)絡(luò)延時,并通過依賴分布式存儲、多重備份和冷熱數(shù)據(jù)分層技術(shù)提高了存儲穩(wěn)定性和數(shù)據(jù)容災(zāi)能力。因其成本、運維優(yōu)勢,超融合也成為了大型現(xiàn)代企業(yè)的ERP、MES、大數(shù)據(jù)和桌面虛擬化等應(yīng)用的理想承載平臺,但在生產(chǎn)控制系統(tǒng)中尚未有大規(guī)模應(yīng)用。本文依據(jù)某大型鋼鐵企業(yè)硅鋼生產(chǎn)線的智慧工廠建設(shè)項目,在超融合技術(shù)應(yīng)用于鋼鐵企業(yè)生產(chǎn)過程控制系統(tǒng)方面做了一定的探索實踐。
某大型鋼鐵企業(yè)硅鋼生產(chǎn)廠于2019年至2022年間對機組的生產(chǎn)過程控制系統(tǒng)(簡稱L2)實施大規(guī)模改造,項目經(jīng)過近3年的建設(shè),建立了廠部L2集中機房,采用5組共25臺超融合服務(wù)器承載L2應(yīng)用系統(tǒng),優(yōu)化L2的光纖網(wǎng)絡(luò)拓撲,實現(xiàn)基于超融合的物理隔離。目前項目已投用1年以上,整體運行穩(wěn)定,滿足了廠部對于機組過程控制的需要,同時擴展了L2與無人天車、機器人、智慧工廠集控、大數(shù)據(jù)域等的接口,滿足智慧工廠建設(shè)需要。
下面就項目應(yīng)用和實施經(jīng)驗,對過程控制系統(tǒng)在硬件平臺的需求分析、技術(shù)選型、實施內(nèi)容和實施效果等方面進行論述。
生產(chǎn)過程控制L2系統(tǒng)在自動化、信息化、智慧化中具有重要地位,在傳統(tǒng)L1~L5層的企業(yè)信息化架構(gòu)中,L2是控制系統(tǒng)(L1)與生產(chǎn)制造執(zhí)行系統(tǒng)(L3)之間的橋梁,主要負責(zé)生產(chǎn)計劃接收、生產(chǎn)順序調(diào)整、模型設(shè)定計算、工藝指令下發(fā)L1、工藝數(shù)據(jù)采集、生產(chǎn)實績上拋L3等作業(yè)[1]。隨著智慧制造發(fā)展,傳統(tǒng)5層架構(gòu)升級為工業(yè)互聯(lián)網(wǎng)體系,L2承擔(dān)了“云—邊”協(xié)同的邊緣執(zhí)行任務(wù),增加了實時數(shù)據(jù)上傳數(shù)據(jù)域、執(zhí)行云端模型的優(yōu)化指令、協(xié)同智慧制造設(shè)備完成智慧生產(chǎn)等實時性、運算量、模型化要求更高的任務(wù)。
本項目應(yīng)用于冷軋硅鋼片生產(chǎn)線,生產(chǎn)線特點是生產(chǎn)時間長,例如酸洗和熱處理等主要生產(chǎn)線的生產(chǎn)頻率一般為1~3卷/h;在生產(chǎn)過程中要求溫度、張力、速度等控制工藝保持穩(wěn)定,避免頻繁工藝調(diào)整;L2系統(tǒng)對硬件平臺及網(wǎng)絡(luò)的要求主要體現(xiàn)為高系統(tǒng)穩(wěn)定性、一般通信實時性、高網(wǎng)絡(luò)安全性和智慧制造功能支撐等方面。
(1) 系統(tǒng)穩(wěn)定性:L2系統(tǒng)要求硬件及網(wǎng)絡(luò)平臺7×24 h無間斷運行,故障時間小于2 h/a,檢修時間<2 h/次。系統(tǒng)穩(wěn)定性是硬件平臺需具備的必要要素。
(2) 通信實時性:L2與L1間的通信頻率為秒級,網(wǎng)絡(luò)流量較小。以熱處理生產(chǎn)線為例,L2每秒接收一次L1發(fā)送的全產(chǎn)線位置表,每3~5 s接收一次L1發(fā)送的爐區(qū)工藝數(shù)據(jù),單電文信息量最大可至800條/筆(6.4 K/s)。對于通信的穩(wěn)定性和實時性要求較高,若發(fā)生通信斷開或延遲,會造成跟蹤錯誤和應(yīng)用誤判。
(3) 網(wǎng)絡(luò)安全性:工控系統(tǒng)的通信網(wǎng)絡(luò)和傳統(tǒng)互聯(lián)網(wǎng)或局域網(wǎng)相比,在網(wǎng)絡(luò)質(zhì)量方面的要求更高。一旦網(wǎng)絡(luò)攻擊、網(wǎng)絡(luò)流量異常增大等事件發(fā)生,將會造成生產(chǎn)線急停、產(chǎn)品報廢等嚴(yán)重損失。一般情況下不同生產(chǎn)線之間需做到網(wǎng)絡(luò)隔離,對于突發(fā)的網(wǎng)絡(luò)事件能夠預(yù)防和提前控制[2]。
(4) 智慧制造需求:L2服務(wù)器與機器人、無人天車、智能表檢、視覺識別裝置等均有數(shù)據(jù)接口,在網(wǎng)絡(luò)安全方面有較高要求;L2服務(wù)器采用定時或主動發(fā)送電文的方式將機組過程事件、秒級實時工藝數(shù)據(jù)上傳到大數(shù)據(jù)域,對服務(wù)器的CPU和內(nèi)存消耗有額外增加。
生產(chǎn)過程控制系統(tǒng)通常采用傳統(tǒng)技術(shù)架構(gòu),即服務(wù)器+存儲架構(gòu)的模式,如圖1所示。傳統(tǒng)架構(gòu)由單獨的硬件服務(wù)器、外置存儲設(shè)備、交換機、安全類設(shè)備、數(shù)據(jù)中心等堆砌而成,存在可靠性低、投入成本高、可擴展性低、運維復(fù)雜、上線速度慢等問題。超融合架構(gòu)在通用硬件上不需要單獨的存儲設(shè)備(如NAS、SAN等),如圖2所示。在超融合集群中每個節(jié)點不僅僅包括計算、網(wǎng)絡(luò)、存儲和服務(wù)器虛擬化等資源和技術(shù),而且具備管理監(jiān)控、備份恢復(fù)、數(shù)據(jù)快照技術(shù)、數(shù)據(jù)除重、數(shù)據(jù)壓縮等功能,多個節(jié)點可以通過網(wǎng)絡(luò)聚合起來,實現(xiàn)模塊化的無縫橫向擴展(Scale-out),從而形成統(tǒng)一的資源池。
圖1 傳統(tǒng)服務(wù)器硬件系統(tǒng)圖Fig.1 Traditional server hardware system diagram
圖2 超融合服務(wù)器硬件系統(tǒng)圖Fig.2 Hyper-converged server hardware system diagram
以6條生產(chǎn)線L2的需求為例,對兩種技術(shù)架構(gòu)的整體投入成本、業(yè)務(wù)可用性、穩(wěn)定性、可擴展性及可維護性進行對比分析,結(jié)果如表1所示。
根據(jù)以上分析,超融合技術(shù)在成本可保證的情況下,其各項功能均要優(yōu)于傳統(tǒng)技術(shù)方案。
超融合服務(wù)器實施的難點之一在于網(wǎng)絡(luò)架構(gòu)的設(shè)計,需針對不同的安全管控需求和業(yè)務(wù)擴展需求,采用合理的網(wǎng)絡(luò)架構(gòu)。傳統(tǒng)單機組過程控制系統(tǒng)多采用物理隔離的方式,以L2服務(wù)器雙網(wǎng)卡和防火墻等方式與L1及L3通信;采用超融合服務(wù)器后,多個機組服務(wù)器在同一個物理網(wǎng)絡(luò)中,需要和不同機組的L1通信,且存在L1之間互通或L2之間互通的場景,網(wǎng)絡(luò)架構(gòu)設(shè)計需同時考慮網(wǎng)絡(luò)互通和網(wǎng)絡(luò)安全。
網(wǎng)絡(luò)設(shè)計可分為三種:①物理隔離:各條產(chǎn)線L1、L2間無通信,物理鏈路完全隔離,見圖3。②邏輯隔離:各條產(chǎn)線L1、L2間有通信,物理鏈路共用,邏輯隔離,見圖3。③業(yè)務(wù)混用:各條產(chǎn)線L1、L2間有通信,物理鏈路共用,邏輯不隔離,不推薦。
圖3 超融合系統(tǒng)硬件及網(wǎng)絡(luò)架構(gòu)圖Fig.3 Hyper-converged system hardware and network architecture diagram
項目采用物理隔離方式:每臺服務(wù)器配備7塊網(wǎng)卡用于與6條機組的HMI和PLC分網(wǎng)段聯(lián)通,采用2個網(wǎng)口聚合L3網(wǎng)絡(luò)為多機組共用,2個光口連接萬兆光纖交換機用于超融合服務(wù)器內(nèi)部數(shù)據(jù)和管理網(wǎng)絡(luò),虛擬機服務(wù)器使用物理網(wǎng)口聚合對外通信,實現(xiàn)6條生產(chǎn)線L2服務(wù)器和終端網(wǎng)絡(luò)的物理全冗余,避免因為個別設(shè)備的異常導(dǎo)致L2服務(wù)中斷。
全冗余模式下,每增加1條生產(chǎn)線,服務(wù)器需增加2個網(wǎng)口(L1PLC、L2HMI獨立);在半冗余模式下,L1PLC、L2HMI網(wǎng)口合用,服務(wù)器需增加1個網(wǎng)口。因此服務(wù)器可承載的機組L2數(shù)量,除受CPU、內(nèi)存、硬盤和I/O資源限制外,還受制于單臺服務(wù)器的網(wǎng)口數(shù)量。
每組服務(wù)器承載的機組數(shù)量上限=(網(wǎng)口數(shù)量-1個管理口-2個L3口-2備用口)/2,約為10條機組。超融合服務(wù)器網(wǎng)卡布局如圖4所示。
圖4 超融合服務(wù)器網(wǎng)卡布局圖Fig.4 Network adapter layout of hyper-converged servers
工業(yè)控制系統(tǒng)的第一要素是安全,超融合技術(shù)由于集成需要,在網(wǎng)絡(luò)拓撲中出現(xiàn)了不同層級網(wǎng)絡(luò)的物理聯(lián)通。為了保障網(wǎng)絡(luò)安全,需要進行多種方式的聯(lián)合控制:
(1) 物理隔離方式:采用此架構(gòu)的網(wǎng)絡(luò)具有較高的安全性,需配置防火墻點對點控制策略,杜絕不受控流量,重點防護終端和服務(wù)器的系統(tǒng)漏洞。
(2) 邏輯隔離方式:采用此架構(gòu)的網(wǎng)絡(luò)具有較高的安全性,但安全策略較為復(fù)雜。機房匯聚交換機由于物理聯(lián)通了L1/L2/L3網(wǎng)絡(luò),需將交換機按業(yè)務(wù)不同劃分虛擬網(wǎng)絡(luò)(Vlan),匯聚交換機劃分為L1、L2、L3三個業(yè)務(wù)網(wǎng)段,實現(xiàn)互相邏輯隔離,配備冗余交換機避免單點故障。對特別業(yè)務(wù)如防毒軟件更新等,將L3網(wǎng)絡(luò)的病毒服務(wù)器加入交換機Vlan的ACL表實現(xiàn)準(zhǔn)入控制。
(3) 防火墻邊界控制:在L1-L2接入層和L2-L3接入層采用防火墻控制IP和端口策略;關(guān)閉常用病毒攻擊端口如445、135~139等;開啟IP白名單,僅允許服務(wù)器和終端互訪,避免網(wǎng)絡(luò)攻擊。
超融合云端管理平臺全面覆蓋了運維管理的各項業(yè)務(wù),具有一定的智能化運維能力,能有效降低運行故障和風(fēng)險,提供包括物理機運行資源監(jiān)控、虛擬機資源監(jiān)控、虛擬網(wǎng)絡(luò)鏈路監(jiān)控、網(wǎng)口通斷實時檢測等功能。云臺具備多種手段保障系統(tǒng)安全穩(wěn)定運行:軟件定義可靠性避免硬件故障導(dǎo)致的業(yè)務(wù)風(fēng)險,采用BPF技術(shù)檢測硬件健康狀態(tài),發(fā)現(xiàn)問題及時對主機進行隔離;鏈路聚合對于網(wǎng)口離線、光模塊故障等直接導(dǎo)致單鏈路不可用的情況具有保護能力,可自動切換到冗余鏈路;采用多副本同時寫入的方式,實現(xiàn)業(yè)務(wù)高可用;在主機運維、替換或服務(wù)器性能下降時,可自動或手動熱遷移L2應(yīng)用至其他主機,同時保障業(yè)務(wù)連續(xù);基于存儲層快照方式,實現(xiàn)秒級在線備份;可掛載災(zāi)備存儲盤,實現(xiàn)在線遠程災(zāi)備。
系統(tǒng)運行一年期間,對各項指標(biāo)和功能進行監(jiān)控測試,結(jié)論如表2所示。
表2 各項指標(biāo)測試內(nèi)容及結(jié)論Table 2 Test content and conclusions of each index
本項目在超融合技術(shù)用于鋼鐵企業(yè)過程控制系統(tǒng)中做出了探索。經(jīng)過一年的觀察,超融合系統(tǒng)運行穩(wěn)定、性能平穩(wěn),故障極少,總體取得了良好效果。超融合技術(shù)滿足了企業(yè)智慧制造要求,適合對穩(wěn)定性及安全性有較高需求的場景。
在智慧制造中應(yīng)用超融合技術(shù)應(yīng)重點關(guān)注以下問題:
第一,平衡經(jīng)濟性。超融合架構(gòu)設(shè)備較少但單體設(shè)備價格較高,在超過6條機組的項目中,其經(jīng)濟性方可體現(xiàn),同時考慮到故障成本、維護成本和備件成本,超融合技術(shù)長期看比傳統(tǒng)架構(gòu)有價格優(yōu)勢。但在有大量設(shè)備利舊的場景中,超融合技術(shù)并未體現(xiàn)優(yōu)勢。
第二,重視網(wǎng)絡(luò)安全。超融合技術(shù)帶來的硬件融合,同時也帶來了網(wǎng)絡(luò)安全問題,需考慮物理隔離、邏輯隔離和準(zhǔn)入控制的綜合應(yīng)用。
第三,橫向擴展性有限。由于網(wǎng)絡(luò)安全需要,服務(wù)器所需網(wǎng)卡較多,網(wǎng)線也隨著產(chǎn)線條數(shù)增多而幾何式增加,網(wǎng)絡(luò)維護復(fù)雜。在物理隔離全冗余模式下,每臺服務(wù)器至多能搭載10個需要網(wǎng)絡(luò)隔離的應(yīng)用;采用邏輯隔離方式可增加一倍以上應(yīng)用,但可靠性下降。
第四,超融合技術(shù)日前發(fā)展迅速,大部分廠家支持信創(chuàng)硬件和軟件,可實現(xiàn)本質(zhì)化安全,支持AI服務(wù)器等超算力,這對于過程控制系統(tǒng)豐富邊緣計算能力,提升模型智能化具有重要支撐作用。
最后,由于超融合架構(gòu)一般搭配虛擬化技術(shù)使用,因此不適合未采用虛擬化技術(shù)的IT應(yīng)用系統(tǒng),和不適合部署超融合架構(gòu)的系統(tǒng),例如使用非通用硬件的工業(yè)控制系統(tǒng)。
現(xiàn)代大型制造企業(yè)隨著智慧制造的推進,其傳統(tǒng)自動化和信息化的改造需求也逐漸增多,如果在項目建設(shè)中使用超融合架構(gòu),可實現(xiàn)業(yè)務(wù)快速部署、資源統(tǒng)一管理、設(shè)備故障率降低等目標(biāo),能有效降低企業(yè)總擁有成本(TCO),快速創(chuàng)造價值。