劉成軍
(江蘇沙鋼集團(tuán)淮鋼特鋼股份有限公司設(shè)備處,江蘇淮安 223002)
交換機(jī)頻繁故障診斷與處理
劉成軍
(江蘇沙鋼集團(tuán)淮鋼特鋼股份有限公司設(shè)備處,江蘇淮安 223002)
通過對整個(gè)工廠網(wǎng)絡(luò)各節(jié)點(diǎn)進(jìn)行遠(yuǎn)程診斷和監(jiān)控網(wǎng)絡(luò)流量,找到核心關(guān)鍵節(jié)點(diǎn),并對全廠網(wǎng)絡(luò)重新統(tǒng)一規(guī)劃,完成全廠網(wǎng)絡(luò)組態(tài)及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的完善,減輕核心交換機(jī)的負(fù)擔(dān),使整個(gè)網(wǎng)絡(luò)的各交換機(jī)數(shù)據(jù)通訊量均衡分布,消除交換機(jī)故障概率,保證生產(chǎn)順利運(yùn)行。
網(wǎng)絡(luò)拓?fù)?;SCALANCE;環(huán)網(wǎng)冗余;網(wǎng)絡(luò)故障診斷
某鋼鐵廠礦渣粉2#水泥庫底交換機(jī)采用西門子SCALANCE X204產(chǎn)品,自2009年投運(yùn)以來,經(jīng)常出現(xiàn)故障而導(dǎo)致網(wǎng)絡(luò)通訊中斷(故障頻率大約1個(gè)月),且該交換機(jī)又是主干網(wǎng)絡(luò)交換機(jī),其故障直接導(dǎo)致其他部分產(chǎn)線因網(wǎng)絡(luò)通訊故障而停機(jī),嚴(yán)重影響了生產(chǎn)。網(wǎng)絡(luò)的通信中斷,使中控集中監(jiān)控人員短時(shí)間內(nèi)難以掌握現(xiàn)場設(shè)備運(yùn)行情況,特別是關(guān)鍵調(diào)節(jié)參數(shù)得不到監(jiān)控,甚至可能導(dǎo)致設(shè)備安全事故。分廠經(jīng)過多次排查和整改替換,都沒有達(dá)到很好的效果,故障一直得不到解決。鑒于此,非常有必要對該故障進(jìn)行徹底查找和消除,保障系統(tǒng)的穩(wěn)定運(yùn)行。
該鋼鐵廠自2008年投產(chǎn)第一條礦渣粉生產(chǎn)線以來,現(xiàn)已有多條礦渣粉生產(chǎn)線、水泥生產(chǎn)線、轉(zhuǎn)體爐生產(chǎn)線及熔分爐生產(chǎn)線。由于各產(chǎn)線于不同時(shí)段建設(shè)和投產(chǎn),自動(dòng)化控制系統(tǒng)又由不同廠家配套,再加上生產(chǎn)控制系統(tǒng)網(wǎng)絡(luò)自始至終都沒有統(tǒng)一規(guī)劃,各新上產(chǎn)線的網(wǎng)絡(luò)規(guī)劃、設(shè)備選型和拓?fù)浣Y(jié)構(gòu)均由自動(dòng)化系統(tǒng)成套廠家實(shí)現(xiàn),并就近網(wǎng)點(diǎn)接入整個(gè)工廠網(wǎng)絡(luò)。沒有考慮網(wǎng)絡(luò)負(fù)擔(dān)、級(jí)聯(lián)網(wǎng)絡(luò)設(shè)備狀況及通信速率等因素,使整個(gè)工廠網(wǎng)絡(luò)結(jié)構(gòu)比較混亂,且各線所選擇的交換機(jī)品牌型號(hào)也存在差異,從而形成現(xiàn)在相互交織的混亂網(wǎng)絡(luò)結(jié)構(gòu),主要體現(xiàn)在以下幾個(gè)方面。
1)整個(gè)廠區(qū)的網(wǎng)絡(luò)沒有專門的規(guī)劃,導(dǎo)致現(xiàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)不清且混亂。2)網(wǎng)絡(luò)以總線型為主體,在總線主干網(wǎng)絡(luò)上的交換機(jī)既有管理型,也存在非管理型;傳輸介質(zhì)有的是光纖,有的是電氣介質(zhì)。絕大部分管理型交換機(jī)都沒有重新配置,保留出廠的默認(rèn)設(shè)置,其管理功能存在不正確配置的現(xiàn)象。3)各產(chǎn)線隨意接入主網(wǎng),導(dǎo)致各交換機(jī)在網(wǎng)絡(luò)數(shù)據(jù)交換中負(fù)擔(dān)不均衡,也造成某些交換機(jī)成為某段網(wǎng)絡(luò)的數(shù)據(jù)交換中心。4)各產(chǎn)線的主干網(wǎng)絡(luò)交換機(jī)都是管理型帶雙光口交換機(jī),型號(hào)為西門子SCALANCE204、308及400系列交換機(jī),默認(rèn)設(shè)置為光口環(huán)網(wǎng)冗余設(shè)置。5)由于主干網(wǎng)絡(luò)接口數(shù)量限制、各生產(chǎn)線間的連接及后期改造增加設(shè)備等原因,分廠對網(wǎng)絡(luò)進(jìn)行了增容及改造,級(jí)聯(lián)了下級(jí)網(wǎng)絡(luò),級(jí)聯(lián)的下級(jí)網(wǎng)絡(luò)交換機(jī)品牌及型號(hào)非常混雜。
3.1 故障排查過程
3.1.1 梳理最終拓?fù)浣Y(jié)構(gòu)圖
由于整個(gè)廠區(qū)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)非?;靵y,各產(chǎn)線又不能同時(shí)停產(chǎn),造成整個(gè)工廠的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)沒有整理,這對故障的排查增加了難度。要排除故障,首先必須對整個(gè)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行梳理。完整準(zhǔn)確的網(wǎng)絡(luò)拓?fù)涫蔷W(wǎng)絡(luò)管理的基礎(chǔ),也是故障排查與改進(jìn)的基礎(chǔ)。
梳理網(wǎng)絡(luò)結(jié)構(gòu)工作量較大,特別是光纖介質(zhì)接口,需要測光驗(yàn)證,必然導(dǎo)致中斷網(wǎng)絡(luò),影響生產(chǎn),所以梳理工作安排在各生產(chǎn)線檢修和停產(chǎn)期間進(jìn)行。經(jīng)過幾個(gè)月的梳理和校驗(yàn),最終得到原完整網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖。圖1為最終主干網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
3.1.2 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖分析
圖1 廠區(qū)主干網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
從圖1中可以看出,整個(gè)廠區(qū)由多條不同生產(chǎn)線構(gòu)成一個(gè)大的總線型+樹型結(jié)構(gòu)網(wǎng)絡(luò)。整個(gè)網(wǎng)絡(luò)可沿中間虛線分為兩大部分:1期礦粉及鋼粉磨系統(tǒng)(簡稱I段),2期礦粉磨及水泥系統(tǒng)(簡稱II段)。II段網(wǎng)絡(luò)以總線型網(wǎng)絡(luò)結(jié)構(gòu),該段的總線主干網(wǎng)絡(luò)設(shè)備主要為從水泥包裝X202交換機(jī)到3#粉磨X204交換機(jī)。I段網(wǎng)絡(luò)以西門子X400交換機(jī)為中心的星型網(wǎng)絡(luò)結(jié)構(gòu)。兩段網(wǎng)絡(luò)通過2#水泥庫底X204交換機(jī)作為連接中心,實(shí)現(xiàn)了兩段網(wǎng)絡(luò)的互聯(lián)。北門發(fā)貨樓5#~8#粉庫操作監(jiān)控電腦安裝在I段網(wǎng)絡(luò),而監(jiān)控的數(shù)據(jù)卻來自II段網(wǎng)絡(luò)的5#~8#粉庫系統(tǒng),經(jīng)過2#水泥庫底X204交換機(jī)、3臺(tái)民用級(jí)H3C交換機(jī)、2#鋼粉庫底X204交換機(jī)、信息中心網(wǎng)絡(luò)及民用級(jí)交換機(jī)DLink的多級(jí)級(jí)聯(lián)后,完成數(shù)據(jù)交換。這4臺(tái)民用級(jí)交換機(jī)長期不間斷的大量數(shù)據(jù)交換運(yùn)行,經(jīng)常會(huì)發(fā)生因發(fā)熱嚴(yán)重而導(dǎo)致網(wǎng)絡(luò)通信不暢的現(xiàn)象。
圖1中2#水泥庫底X204交換機(jī)是經(jīng)常發(fā)生故障的交換機(jī),該交換機(jī)是連接兩段網(wǎng)絡(luò)的中心交換機(jī),且是北門發(fā)貨樓水泥系統(tǒng)監(jiān)控中心的節(jié)點(diǎn)交換機(jī),承擔(dān)了大量的數(shù)據(jù)交換任務(wù)。
3.1.3 網(wǎng)絡(luò)監(jiān)測
2#水泥庫底SCALANCE X204交換機(jī)為網(wǎng)管型交換機(jī),帶有4個(gè)10/100 Mbit/s RJ45接口,2個(gè)100 Mbit/s多模BFOC接口,LED診斷功能,故障信號(hào)顯示,連接設(shè)置按鈕,冗余電源輸入,PROFINET IO設(shè)計(jì),網(wǎng)絡(luò)管理。
II段網(wǎng)絡(luò)主干網(wǎng)交換機(jī)均屬網(wǎng)管型交換機(jī),且默認(rèn)情況下均設(shè)置為主冗余環(huán)網(wǎng)管理交換機(jī)。項(xiàng)目從安裝送電后一直沒有重新設(shè)置,且沒有形成網(wǎng)絡(luò)環(huán)形結(jié)構(gòu),所以一直有報(bào)警指示,但不影響使用,該報(bào)警指示為環(huán)網(wǎng)故障。
根據(jù)現(xiàn)網(wǎng)絡(luò)情況,需對整個(gè)主干網(wǎng)的管理型交換機(jī)設(shè)置進(jìn)行排查和糾正,滿足現(xiàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)現(xiàn)狀,并去除冗余環(huán)網(wǎng)功能,同時(shí)對于經(jīng)常出現(xiàn)故障的交換機(jī),需要在線查看通信工作狀態(tài),實(shí)現(xiàn)對其實(shí)時(shí)監(jiān)控,以便分析故障原因。
在對交換機(jī)進(jìn)行管理設(shè)置前,必須設(shè)置IP地址,而默認(rèn)狀態(tài)下沒有IP地址,故不能通過計(jì)算機(jī)對其進(jìn)行設(shè)置和監(jiān)控。設(shè)置交換機(jī)IP地址需要安裝西門子Primary Setup Tool軟件工具(簡稱PST)。通過PST工具,設(shè)置完IP地址后,可通過IE瀏覽器實(shí)現(xiàn)對交換機(jī)管理和數(shù)據(jù)監(jiān)控。
通過對2#水泥庫底交換機(jī)進(jìn)行在線監(jiān)控,發(fā)現(xiàn)其數(shù)據(jù)通信量較大,比較其他主干網(wǎng)上的交換機(jī)通信量,增加220%,而且數(shù)據(jù)丟包的概率非常大,表明其通信不暢,網(wǎng)絡(luò)頻繁進(jìn)行數(shù)據(jù)連接和數(shù)據(jù)重發(fā)。
3.2 故障確認(rèn)
通過對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的分析及在線數(shù)據(jù)監(jiān)控,可以得出以下結(jié)論:1)2#水泥庫底交換機(jī)是北門發(fā)貨集中監(jiān)控和兩段網(wǎng)絡(luò)連接的核心交換機(jī),承擔(dān)了較大的數(shù)據(jù)通信任務(wù),網(wǎng)絡(luò)負(fù)擔(dān)較大;2)5#~8#粉庫系統(tǒng)的監(jiān)控通過兩段網(wǎng)絡(luò)間的數(shù)據(jù)交換來實(shí)現(xiàn),且經(jīng)過4臺(tái)民用級(jí)交換機(jī),民用級(jí)交換機(jī)數(shù)據(jù)通信不是很穩(wěn)定,隨長時(shí)間運(yùn)行,容易發(fā)生丟包現(xiàn)象;3)I段網(wǎng)絡(luò)數(shù)據(jù)通信主要發(fā)生在監(jiān)控電腦與控制器之間,其間經(jīng)過3臺(tái)民用交換機(jī)(2臺(tái)H3C,1臺(tái)Dlink)串接,數(shù)據(jù)通信不穩(wěn)定,特別是3#礦粉庫的H3C交換機(jī),是整個(gè)工廠網(wǎng)絡(luò)數(shù)據(jù)交換的核心交換機(jī),讓普通民用級(jí)交換機(jī)承擔(dān)如此重要任務(wù),不可避免的存在安全隱患;4)民用級(jí)交換機(jī)無管理功能,當(dāng)數(shù)據(jù)通信阻塞時(shí),交換機(jī)雖不發(fā)生故障,但使數(shù)據(jù)頻繁丟包,導(dǎo)致2#水泥庫底交換機(jī)接收了大量的廢包數(shù)據(jù),并承擔(dān)了大量數(shù)據(jù)處理任務(wù),使發(fā)生故障的概率增大。
可以得出,2#水泥庫底交換機(jī)頻繁出現(xiàn)故障原因是由于整個(gè)網(wǎng)絡(luò)規(guī)劃不合理導(dǎo)致的,造成了民用級(jí)交換機(jī)承擔(dān)了主干網(wǎng)絡(luò)節(jié)點(diǎn)、局部交換機(jī)承擔(dān)了沉重的數(shù)據(jù)管理和交換任務(wù)。操作員站線路規(guī)劃不合理增加了兩段網(wǎng)絡(luò)間數(shù)據(jù)交換量。
3.3 解決方案
3.3.1 處理措施
根據(jù)上述分析的結(jié)果,對整個(gè)網(wǎng)絡(luò)需要重新進(jìn)行規(guī)劃,消除局部網(wǎng)絡(luò)數(shù)據(jù)阻塞,主要措施如下:1)對整個(gè)網(wǎng)絡(luò)的主干網(wǎng)絡(luò)管理交換機(jī)全部重新進(jìn)行了配置,滿足現(xiàn)行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的設(shè)置要求。2)減少兩段網(wǎng)絡(luò)間的數(shù)據(jù)交換量。兩段網(wǎng)絡(luò)間最大的數(shù)據(jù)交換量來自5#~8#粉庫監(jiān)控站,對該臺(tái)計(jì)算機(jī)網(wǎng)絡(luò)路徑重新規(guī)劃,使其連接到北門發(fā)貨樓的1#Dlink交換機(jī)上。3)對兩段網(wǎng)絡(luò)間的連接點(diǎn)重新進(jìn)行了規(guī)劃。解除了3#水泥庫和3#礦粉庫間的網(wǎng)絡(luò)連接,兩段網(wǎng)絡(luò)間通過主干網(wǎng)交換機(jī)間進(jìn)行連接,即增加了中控室X212與X400交換機(jī)間的電氣口連接。4)對I段網(wǎng)絡(luò)主干網(wǎng)重新規(guī)劃。增加了3#粉庫X308到2#鋼粉庫底X204光纖連接,解除3#粉庫X308與H3C交換機(jī)的連接。5)解除中控室的X204 與Dlink交換機(jī)的連接,增加中控室X204與X308交換機(jī)間的連接。
3.3.2 處理后的結(jié)果
經(jīng)過上述的處理措施后,對2#水泥庫底交換機(jī)進(jìn)行實(shí)時(shí)監(jiān)測,發(fā)現(xiàn)其網(wǎng)絡(luò)負(fù)擔(dān)大大減少,與本段其他總線交換機(jī)的網(wǎng)絡(luò)通信量是一致的,表明網(wǎng)絡(luò)負(fù)擔(dān)均衡;民用級(jí)不再承擔(dān)主干網(wǎng)絡(luò)的作用,在半小時(shí)的監(jiān)測時(shí)間內(nèi),沒有發(fā)現(xiàn)數(shù)據(jù)丟包現(xiàn)象;經(jīng)過半年的運(yùn)行,沒有出現(xiàn)交換機(jī)死機(jī)的現(xiàn)象。由此可以看出達(dá)到了改造后的理想效果。
3.3.3 形成新的環(huán)形網(wǎng)絡(luò)
經(jīng)查,工廠使用的西門子SCALANCE交換機(jī)都支持冗余環(huán)網(wǎng)功能,默認(rèn)的環(huán)網(wǎng)端口為光纖接口,搭建新的連續(xù)網(wǎng)絡(luò)環(huán)將每臺(tái)設(shè)備連接在一起,即保證1臺(tái)設(shè)備上發(fā)送的信號(hào)可以被環(huán)上其他所有的設(shè)備都看到。當(dāng)網(wǎng)絡(luò)出現(xiàn)線纜連接中斷的情況出現(xiàn)時(shí),交換機(jī)接收到此信息,激活其后備端口,使網(wǎng)絡(luò)通信恢復(fù)正常運(yùn)行。整個(gè)網(wǎng)絡(luò)重新組態(tài)將在0.3 s內(nèi)完成,待故障問題解決或消除后,將立即恢復(fù)原始拓?fù)洌蟠筇岣吡司W(wǎng)絡(luò)通信的可靠性。
完整準(zhǔn)確的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)是網(wǎng)絡(luò)的基礎(chǔ)。由于網(wǎng)絡(luò)中設(shè)備的多樣性、透明性、動(dòng)態(tài)性,因此要靠嚴(yán)格的管理來加以完善,保證網(wǎng)絡(luò)拓?fù)涞臏?zhǔn)確性。設(shè)置專人對網(wǎng)絡(luò)進(jìn)行管理,嚴(yán)禁私自搭連網(wǎng)絡(luò),以避免網(wǎng)絡(luò)故障的發(fā)生。網(wǎng)絡(luò)故障管理是網(wǎng)絡(luò)管理的基礎(chǔ)工作,主要包括故障檢測、定位、隔離、恢復(fù)等關(guān)鍵技術(shù)??焖儆行Р杉撲撹F廠網(wǎng)絡(luò)故障監(jiān)視數(shù)據(jù),得出優(yōu)化故障管理策略,快速定位網(wǎng)絡(luò)故障等則是解決此次網(wǎng)絡(luò)故障的關(guān)鍵工作。為了提高該鋼鐵廠工業(yè)以太網(wǎng)的可靠性,減少因網(wǎng)絡(luò)故障造成的損失,必須定期對網(wǎng)絡(luò)數(shù)據(jù)交換進(jìn)行統(tǒng)一監(jiān)控和詳細(xì)分析,便于掌控整個(gè)的網(wǎng)絡(luò)動(dòng)態(tài),保障整個(gè)廠區(qū)網(wǎng)絡(luò)的正常運(yùn)行。
TP277
B
1004-4620(2017)02-0079-02
2017-01-27
劉成軍,男,1981年生,2004年畢業(yè)于中國礦業(yè)大學(xué)電氣自動(dòng)化專業(yè)?,F(xiàn)為江蘇沙鋼集團(tuán)淮鋼特鋼股份有限公司工程師,從事設(shè)備管理工作。