国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于監(jiān)控告警數(shù)據(jù)的中間件節(jié)點(diǎn)自愈機(jī)制

2019-12-02 22:56劉璐豪趙靜嚴(yán)俊斌梁兆楷
電子技術(shù)與軟件工程 2019年13期
關(guān)鍵詞:宕機(jī)快照中間件

文/劉璐豪 趙靜 嚴(yán)俊斌 梁兆楷

1 前言

伴隨工業(yè)生產(chǎn)信息化的不斷深入,各行各業(yè)在日常生產(chǎn)運(yùn)作中的各種信息系統(tǒng)的使用越來(lái)越多,如何做好這些信息系統(tǒng)的日常維護(hù)十分重要,特別是一些對(duì)實(shí)時(shí)性要求比較高的特殊行業(yè),比如電力行業(yè)、通信行業(yè)等。廣州供電局作為南方電網(wǎng)的重要組成部分,一直在追求自身全面發(fā)展與提升,力求在企業(yè)信息化過(guò)程中不斷突破自我。目前廣州供電局使用了大量的實(shí)時(shí)信息監(jiān)測(cè)系統(tǒng),其中基于Weblogic集群的信息系統(tǒng)能夠很好的直觀顯示整個(gè)網(wǎng)絡(luò)中服務(wù)器以及各個(gè)節(jié)點(diǎn)的運(yùn)行情況,為網(wǎng)絡(luò)維護(hù)、系統(tǒng)維護(hù)提供了非常重要的參考,這使得增強(qiáng)系統(tǒng)整體穩(wěn)定性變得可以操控。

2 基于Java的Weblogic魯棒性

Weblogic是一個(gè)基于JAVAEE架構(gòu)的中間件,是用于開(kāi)發(fā)、集成、部署和管理大型分布式Web應(yīng)用、網(wǎng)絡(luò)應(yīng)用和數(shù)據(jù)庫(kù)應(yīng)用的Java應(yīng)用服務(wù)器,它實(shí)現(xiàn)了將Java的動(dòng)態(tài)功能和Java Enterprise標(biāo)準(zhǔn)的安全性引入大型網(wǎng)絡(luò)應(yīng)用的開(kāi)發(fā)、集成、部署和管理之中,目前使用較多的版本是2012年發(fā)布的WebLogic Server 12c(12.1.1)。Weblogic可以在使用IP地址的一臺(tái)計(jì)算機(jī),或在使用集群捆綁在一起的多臺(tái)計(jì)算機(jī)上,或在通過(guò)代理服務(wù)器管理的多臺(tái)計(jì)算機(jī)上建立擁有相同域名的不同站點(diǎn),使得企業(yè)可以使用同一的網(wǎng)絡(luò)入口實(shí)現(xiàn)多項(xiàng)信息管理的融合。Weblogic是基于Java的,其編寫(xiě) 可 以 使 用servlet,JSP,JavaBean和EJB等,在部署時(shí)比較簡(jiǎn)單流程化,另外安全套接層(SSL)的使用以及Weblogic的內(nèi)在支持為用戶驗(yàn)證和授權(quán),實(shí)現(xiàn)強(qiáng)大的安全性,確保了信息的安全與系統(tǒng)的魯棒性。

對(duì)于一個(gè)企業(yè)所使用的信息系統(tǒng)以及監(jiān)控系統(tǒng)來(lái)講,由于網(wǎng)絡(luò)組成復(fù)雜,設(shè)備數(shù)量眾多,附加上各個(gè)系統(tǒng)運(yùn)行過(guò)程中由于各類數(shù)據(jù)冗余、常見(jiàn)硬件故障燈,經(jīng)常會(huì)出現(xiàn)系統(tǒng)崩潰的現(xiàn)象,然而經(jīng)過(guò)大量的實(shí)際情況統(tǒng)計(jì)與分析,很多時(shí)候整個(gè)系統(tǒng)的崩潰是由于某一個(gè)組成節(jié)點(diǎn)的宕機(jī)造成的,如果能夠及時(shí)發(fā)現(xiàn)該節(jié)點(diǎn)的位置與宕機(jī)原因以進(jìn)行相應(yīng)的處理,就可以實(shí)現(xiàn)節(jié)點(diǎn)的自動(dòng)恢復(fù),避免由于單個(gè)節(jié)點(diǎn)的小故障導(dǎo)致問(wèn)題的蔓延進(jìn)而產(chǎn)生大面積的系統(tǒng)問(wèn)題、網(wǎng)絡(luò)問(wèn)題。

在Weblogic集群中,必須要保證系統(tǒng)的高可用性,也就是說(shuō)不論出現(xiàn)什么樣的軟件和硬件的故障情況下仍然能夠提供服務(wù),不得出現(xiàn)全面崩潰的現(xiàn)象。正常來(lái)講Weblogic中的每一個(gè)節(jié)點(diǎn)互相之間都會(huì)進(jìn)行數(shù)據(jù)交互以及監(jiān)控,出現(xiàn)故障的時(shí)候,各個(gè)節(jié)點(diǎn)都可以進(jìn)行一定的協(xié)調(diào)任務(wù)。另外也可以增加一個(gè)協(xié)調(diào)組件來(lái)對(duì)集群進(jìn)行實(shí)時(shí)監(jiān)控以及故障處理,通過(guò)降低模塊之間的耦合度來(lái)實(shí)現(xiàn)系統(tǒng)的高可用性,通過(guò)主動(dòng)地節(jié)點(diǎn)監(jiān)控,及時(shí)的收集各個(gè)中間件節(jié)點(diǎn)的信息,當(dāng)發(fā)現(xiàn)故障問(wèn)題時(shí)實(shí)現(xiàn)服務(wù)轉(zhuǎn)移,及時(shí)進(jìn)行宕機(jī)節(jié)點(diǎn)的恢復(fù)以及后續(xù)業(yè)務(wù)的調(diào)整,保證系統(tǒng)穩(wěn)健的運(yùn)行。

根據(jù)實(shí)踐總結(jié),在進(jìn)行中間件節(jié)點(diǎn)宕機(jī)自動(dòng)恢復(fù)時(shí),一般情況下會(huì)循環(huán)的從kafka隊(duì)列中獲取警告信息,對(duì)報(bào)警內(nèi)容進(jìn)行分析后,可以自動(dòng)的確認(rèn)是否是Weblogic節(jié)點(diǎn)宕機(jī),當(dāng)然在一些特定時(shí)期需要一定的人為干預(yù)。在確認(rèn)了是某個(gè)節(jié)點(diǎn)宕機(jī)之后,先判斷該節(jié)點(diǎn)的IP地址等重要信息,然后查看該節(jié)點(diǎn)是否安裝了Agent代理,如果是那么就快速的對(duì)接短信平臺(tái)并發(fā)送短信給相關(guān)直接負(fù)責(zé)人員及部門(mén),然后在進(jìn)境下一步操作。當(dāng)然如果經(jīng)過(guò)分析發(fā)現(xiàn)當(dāng)前警告與宕機(jī)無(wú)關(guān),那么僅僅需要對(duì)接短信平臺(tái)推送一條警告信息就結(jié)束了。系統(tǒng)在確認(rèn)了節(jié)點(diǎn)宕機(jī)之后,首先需要對(duì)目標(biāo)服務(wù)器進(jìn)行線程快照操作,一方面是一種工作日志的需要,另外這也是問(wèn)題處理的實(shí)證與恢復(fù)參考,這一個(gè)過(guò)程需要在15分鐘內(nèi)完成,如果在這個(gè)時(shí)間內(nèi)無(wú)法完成快照操作則跳過(guò)。除了對(duì)服務(wù)器進(jìn)行快照之外,同時(shí)還要對(duì)目標(biāo)服務(wù)器的內(nèi)存進(jìn)行快照操作,因?yàn)橥ǔ?nèi)存中的信息是導(dǎo)致宕機(jī)的重要原因,這個(gè)操作需要在30分鐘內(nèi)完成,超過(guò)時(shí)間限制也要跳過(guò)。在進(jìn)行兩個(gè)快照操作后,不論執(zhí)行進(jìn)度如何都要對(duì)目標(biāo)節(jié)點(diǎn)發(fā)出執(zhí)行停止命令。

當(dāng)節(jié)點(diǎn)停止命令執(zhí)行之后,要對(duì)節(jié)點(diǎn)所有的進(jìn)程進(jìn)行檢測(cè),查看節(jié)點(diǎn)的進(jìn)程的運(yùn)行情況以作后續(xù)分析總結(jié)之用,但這主要是為了確保節(jié)點(diǎn)所有進(jìn)程停止運(yùn)行以便進(jìn)行重啟操作,如果在5分鐘之內(nèi)節(jié)點(diǎn)進(jìn)程沒(méi)有退出,那么將需要通過(guò)PID進(jìn)行強(qiáng)制關(guān)閉,然后對(duì)目標(biāo)節(jié)點(diǎn)發(fā)出啟動(dòng)指令,然后循環(huán)的對(duì)節(jié)點(diǎn)進(jìn)行檢測(cè),查看其是否完成了重新啟動(dòng)操作,一般來(lái)講,如果在30分鐘內(nèi)節(jié)點(diǎn)依舊未能重新啟動(dòng),那么就需要人工現(xiàn)場(chǎng)進(jìn)行干預(yù)操作了。因此如果節(jié)點(diǎn)自動(dòng)啟動(dòng)恢復(fù)了,那么要給相關(guān)人員與部門(mén)發(fā)送一條短信通知,告知問(wèn)題自動(dòng)解決節(jié)點(diǎn)故障自愈,如果30分鐘后啟動(dòng)失敗,更要發(fā)送短信給直接關(guān)系人快速到現(xiàn)場(chǎng)處理問(wèn)題,避免故障繼續(xù)蔓延。根據(jù)實(shí)際情況而言,由于電力行業(yè)是一個(gè)十分敏感的行業(yè),一般出現(xiàn)問(wèn)題時(shí),不管系統(tǒng)是否會(huì)自動(dòng)恢復(fù),相關(guān)技術(shù)人員都會(huì)盡快到達(dá)現(xiàn)場(chǎng),避免故障影響的擴(kuò)大化。

3 結(jié)語(yǔ)

對(duì)與企業(yè)來(lái)講,特別是對(duì)實(shí)時(shí)性要求比較高的供電行業(yè),當(dāng)系統(tǒng)內(nèi)發(fā)生節(jié)點(diǎn)報(bào)警時(shí),應(yīng)當(dāng)具備快速現(xiàn)場(chǎng)記錄與應(yīng)急恢復(fù)的能力,目前主流的系統(tǒng)集群框架都可以支持節(jié)點(diǎn)信息的實(shí)時(shí)查詢與快速報(bào)警,如何快速準(zhǔn)確的確認(rèn)節(jié)點(diǎn)是否宕機(jī),并實(shí)現(xiàn)有效重啟恢復(fù)業(yè)務(wù)一直備受關(guān)注,具體的實(shí)現(xiàn)技術(shù)與過(guò)程值得不斷的探討與加強(qiáng),這也是體現(xiàn)一個(gè)企業(yè)信息化處理能力的重要所在。

猜你喜歡
宕機(jī)快照中間件
EMC存儲(chǔ)快照功能分析
島內(nèi)人口普查剛啟動(dòng)就遇“宕機(jī)”
RFID中間件技術(shù)及其應(yīng)用研究
基于VanConnect中間件的設(shè)計(jì)與開(kāi)發(fā)
創(chuàng)建磁盤(pán)組備份快照
艾默生網(wǎng)絡(luò)能源發(fā)布《2016年數(shù)據(jù)中心宕機(jī)成本》
數(shù)據(jù)恢復(fù)的快照策略
一張“快照”搞定人體安檢
中間件在高速公路領(lǐng)域的應(yīng)用
一種支持智能環(huán)境構(gòu)建的中間件
宁波市| 华亭县| 兰西县| 柘城县| 明光市| 文安县| 秭归县| 辽宁省| 罗平县| 龙海市| 镇坪县| 漳平市| 桓仁| 明水县| 谷城县| 梅州市| 佛教| 长治县| 新巴尔虎左旗| 广州市| 桑日县| 兰州市| 香港 | 甘南县| 武宣县| 营山县| 青岛市| 游戏| 东至县| 曲沃县| 洛扎县| 绍兴市| 寿阳县| 邵东县| 扎鲁特旗| 九江市| 申扎县| 松滋市| 泽库县| 富川| 泰来县|