翁瑜卿,梁光瑞,鞏志強
(中海油能源發(fā)展裝備技術(shù)有限公司,天津 300452)
目前隨著云計算產(chǎn)業(yè)的不斷發(fā)展,各種企業(yè)數(shù)據(jù)中心的規(guī)模也在不斷擴大,對數(shù)據(jù)中心進行智能化運維與監(jiān)控的需求也越來越迫切[1]。為滿足更多數(shù)據(jù)的儲存需求,數(shù)據(jù)中心需要不斷擴大規(guī)模,因此承載數(shù)據(jù)運行的設(shè)備種類和數(shù)量也在持續(xù)增加。而隨著各種數(shù)據(jù)運行設(shè)備數(shù)量的持續(xù)增多,引發(fā)故障的風險也越來越大。基于此,需要對數(shù)據(jù)中心的設(shè)備進行實時運行維護與監(jiān)控,保障數(shù)據(jù)中心的正常運行。國內(nèi)相關(guān)領(lǐng)域的學(xué)者針對數(shù)據(jù)中心運維監(jiān)控展開了研究。韓磊等人利用三維可視化技術(shù)構(gòu)建海底電纜等設(shè)備的智能監(jiān)控平臺。對數(shù)據(jù)進行預(yù)處理,并按照地形的差別對數(shù)據(jù)進行分層與分塊,將數(shù)據(jù)掃描至三維可視化引擎軟件中,實現(xiàn)對海底電纜等設(shè)備運行狀態(tài)監(jiān)控的綜合管理[2]。但是由于運行設(shè)備較多,傳輸數(shù)據(jù)量較大,該平臺在實際運行過程中的數(shù)據(jù)傳輸能力不能滿足數(shù)據(jù)中心的運維需求,影響數(shù)據(jù)運維的工作效率。黃志彬以多維度智能視頻集成技術(shù)作為基礎(chǔ),對廠內(nèi)各種設(shè)備的運行狀態(tài)進行監(jiān)測,對異常數(shù)據(jù)目標進行識別,保障了該廠的生產(chǎn)運行安全[3]。但是該平臺僅能夠承載一般大小的數(shù)據(jù)運維工作,當數(shù)據(jù)量超過數(shù)據(jù)中心負荷后,會導(dǎo)致平臺運行卡頓,降低數(shù)據(jù)運維的效率,不能滿足數(shù)據(jù)中心智慧運維的工作需求。
為了解決上述問題,本文對數(shù)據(jù)中心智能監(jiān)控體系進行改革,以多維數(shù)據(jù)作為技術(shù)基礎(chǔ),建立一種智慧運維監(jiān)控平臺。通過布設(shè)監(jiān)控設(shè)備,對通過指令監(jiān)控設(shè)備進行統(tǒng)一操作,實現(xiàn)對數(shù)據(jù)中心設(shè)備的智能化監(jiān)控。智能監(jiān)控平臺可在減少人力物力成本的同時,保證對數(shù)據(jù)中心的高效監(jiān)控,實時掌握數(shù)據(jù)中心設(shè)備的運行信息,保證在發(fā)生故障時第一時間預(yù)警,為維修人員爭取更多維修操作時間。
數(shù)據(jù)中心智慧運維監(jiān)控平臺硬件結(jié)構(gòu)主由中心控制層、顯示層以及物理傳感層組成[4]。整體硬件結(jié)構(gòu)圍繞多維數(shù)據(jù)進行構(gòu)建,包括服務(wù)器、多維數(shù)據(jù)引擎等。采用F6C415400型號作為中心控制器的主芯片,芯片尺寸為2.2 mm×2.2 mm,搭載CoreSight雙核處理器,緩存為512 kB,熱電堆電阻為180 kΩ,靈敏度為-140 dBm@62.5 kHz,響應(yīng)時間最快0.75 s,發(fā)射輸出功率為18 dBm,可在-40~160 ℃條件下運行。
中心控制層包括可編程邏輯控制器(Programmable Logic Controller,PLC)中心數(shù)據(jù)控制器,內(nèi)置模擬量輸入與輸出模塊,對數(shù)據(jù)中心的數(shù)據(jù)進行實時監(jiān)控與調(diào)用;顯示層包括型號為TC7062KV的觸摸屏以及型號為ACS800的變頻器,對監(jiān)控結(jié)果進行顯示[5]。在智慧運維監(jiān)控平臺物理傳感層中包括型號為CS550的電流互感器、型號為PT500的壓力傳感器、外部硬件儲存器和監(jiān)控設(shè)備。電流互感器與壓力傳感器對整個數(shù)據(jù)中心運維監(jiān)控平臺的電流情況以及壓力情況進行實時監(jiān)測,保證監(jiān)控平臺的正常運轉(zhuǎn)。外部硬件儲存器負責儲存數(shù)據(jù)中心的歷史數(shù)據(jù),監(jiān)控設(shè)備負責監(jiān)控數(shù)據(jù)中心的設(shè)備受損情況。通過在變頻器等后部增設(shè)外部控制器,將顯示層與物理傳感層的指令都集成F6C415400型號芯片中,便于控制中心對各層實現(xiàn)指令控制,對數(shù)據(jù)進行調(diào)用。
1.2.1 采集數(shù)據(jù)中心設(shè)備信息數(shù)據(jù)
采集數(shù)據(jù)中心設(shè)備信息是智慧運維監(jiān)控平臺的核心所在。利用多維數(shù)據(jù)向數(shù)據(jù)控制中心發(fā)送請求,建立設(shè)備受損信息采集機制,并對其進行相應(yīng)的配置,以達到電流互感器與壓力傳感器對數(shù)據(jù)中心設(shè)備最大的采集效果[6]。假設(shè)數(shù)據(jù)中心設(shè)備最多損壞數(shù)目為Cm,多維數(shù)據(jù)最大維度為Lm,監(jiān)控傳感設(shè)備最多數(shù)目為Rm,則在采集數(shù)據(jù)中心設(shè)備信息時,可利用Cakip(d)函數(shù)計算出設(shè)備的具體受損位置,具體公式如下
式中:d代表數(shù)據(jù)中心的設(shè)備信息數(shù)據(jù)。通過計算得出數(shù)據(jù)中心設(shè)備線路損壞位置,確定線路損壞信息的具體步驟如下文所述。
調(diào)用數(shù)據(jù)控制中心的數(shù)據(jù)輸入模塊,使其與監(jiān)控設(shè)備之間建立設(shè)備信息數(shù)據(jù)監(jiān)控連接。在歷史數(shù)據(jù)訪問模塊中調(diào)用歷史設(shè)備信息損壞數(shù)據(jù),根據(jù)歷史數(shù)據(jù)提取出設(shè)備信息數(shù)據(jù)故障特征,利用該特征對監(jiān)控設(shè)備發(fā)送采集指令。數(shù)據(jù)控制中心接收到監(jiān)控設(shè)備采集到的設(shè)備信息數(shù)據(jù),在設(shè)備信息數(shù)據(jù)中提取設(shè)備損壞數(shù)據(jù),并將該數(shù)據(jù)存入外部儲存器中,方便用戶進行隨時調(diào)用,同時將該數(shù)據(jù)共享到歷史數(shù)據(jù)庫中,豐富數(shù)據(jù)庫的數(shù)據(jù)內(nèi)容。采集完成后需進入休眠時間,待休眠完成后即可進行下一環(huán)節(jié)的設(shè)備信息數(shù)據(jù)采集[7]。
1.2.2 建立數(shù)據(jù)中心設(shè)備信息數(shù)據(jù)監(jiān)控機制
數(shù)據(jù)中心智慧運維監(jiān)控平臺中的監(jiān)控功能主要是通過多維數(shù)據(jù)網(wǎng)絡(luò)進行編程來實現(xiàn)的。通過調(diào)取監(jiān)控接口程序來對數(shù)據(jù)中心的設(shè)備信息數(shù)據(jù)進行監(jiān)控。首先監(jiān)控傳感設(shè)備將設(shè)備數(shù)據(jù)受損信息傳輸?shù)綌?shù)據(jù)控制中心后,先對受損信息進行轉(zhuǎn)碼,再通過顯示層的顯示器將設(shè)備信息進行直觀化展示。同時還檢測調(diào)用的設(shè)備數(shù)據(jù)信息,如在設(shè)備數(shù)據(jù)信息中發(fā)現(xiàn)可疑受損信息,則需要調(diào)取檢測模塊對可疑受損進行檢測,檢測確定為受損信息后,通過報警模塊實現(xiàn)智能報警。數(shù)據(jù)中心整體監(jiān)控機制如圖1所示。
圖1 數(shù)據(jù)中心監(jiān)控流程
根據(jù)上述方法,通過計算判定出設(shè)備受損位置,將數(shù)據(jù)中心的設(shè)備數(shù)據(jù)進行采集,并通過監(jiān)控流程對數(shù)據(jù)中心進行實時監(jiān)控,與上文的硬件配置進行集合。至此,基于多維數(shù)據(jù)中心的智慧運維監(jiān)控平臺設(shè)計完成。
為了更好地證明本文提出的基于多維數(shù)據(jù)的數(shù)據(jù)中心智慧運維監(jiān)控平臺在實際應(yīng)用中的優(yōu)越性,在理論方面設(shè)計完成后進行實驗測試環(huán)節(jié),對監(jiān)控平臺的實際監(jiān)控效果進行分析。
隨著數(shù)據(jù)中心規(guī)模的不斷擴建,其處理的數(shù)據(jù)量是非常龐大的,監(jiān)控系統(tǒng)在面對數(shù)據(jù)量較大的數(shù)據(jù)調(diào)用和處理時需要有較強的數(shù)據(jù)傳輸能力作為支撐,因此消息傳輸性能是測試智慧運維監(jiān)控平臺的一個重要指標。為了更好地測試數(shù)據(jù)中心智慧運維監(jiān)控平臺對數(shù)據(jù)的傳輸效果,將消息傳輸性能作為本次實驗的測試指標,將文獻[2]與文獻[3]中設(shè)計的運維平臺作為對比平臺,與本文設(shè)計的運維平臺共同對消息傳輸性能進行測試。具體測試環(huán)境如表1所示。
表1 智慧運維平臺測試環(huán)境參數(shù)
通過上述實驗參數(shù)部署測試環(huán)境,為測試3種監(jiān)控平臺的數(shù)據(jù)傳輸性能,分別向3種監(jiān)控平臺持續(xù)發(fā)送50萬條以上的數(shù)據(jù)消息,通過對消息發(fā)送速度進行設(shè)定,將消息發(fā)送速度設(shè)定為1 000 Mb/s、2 000 Mb/s和5 000 Mb/s比較2種監(jiān)控平臺的信息吞吐量。
本次實驗選取的比較指標為監(jiān)控平臺的信息吞吐量,吞吐量越高代表運維監(jiān)控平臺的信息數(shù)據(jù)傳輸能力越強,越能對大型數(shù)據(jù)中心實現(xiàn)高效能的智慧運維監(jiān)控。監(jiān)控平臺信息吞吐量對比如圖2所示。
圖2 監(jiān)控平臺信息吞吐量對比
通過上述實驗結(jié)果可知,消息的發(fā)送速度不同,系統(tǒng)吞吐量也會有所不同,傳統(tǒng)的智慧運維監(jiān)控平臺在面對速度為1 000 Mb/s的信息傳輸時,吞吐量在2 000 kb/s以下,在面對速度為5 000 Mb/s的消息數(shù)據(jù)傳輸時,吞吐量在4 000 kb/s以下,基數(shù)較小,說明傳統(tǒng)運維監(jiān)控平臺的數(shù)據(jù)傳輸能力較弱,無法滿足大型數(shù)據(jù)中心的運行維護與監(jiān)控。而本文提出的基于多維數(shù)據(jù)的數(shù)據(jù)中心智慧運維監(jiān)控平臺,在面對發(fā)送速度為1 000 Mb/s的消息傳輸時,消息吞吐量達到了3 000 kb/s以上,在面對傳輸速度為5 000 Mb/s的消息傳輸時,消息吞吐量達到了6 000 kb/s以上,遠遠高于2種傳統(tǒng)智慧運維監(jiān)控平臺的吞吐量,說明提出的智慧運維監(jiān)控平臺在數(shù)據(jù)傳輸能力上要優(yōu)于傳統(tǒng)的智慧運維監(jiān)控平臺,能夠?qū)Υ笮蛿?shù)據(jù)中心的數(shù)據(jù)實現(xiàn)高效智能運維與監(jiān)控。這是由于提出的智慧運維監(jiān)控平臺與多維數(shù)據(jù)原理進行了結(jié)合,通過多維數(shù)據(jù),構(gòu)建出了多維監(jiān)控機制,能夠處理量級較大的數(shù)據(jù),實現(xiàn)對數(shù)據(jù)中心的高性能運維監(jiān)控。
本文所提出的數(shù)據(jù)中心智慧運維監(jiān)控平臺與多維數(shù)據(jù)原理進行了結(jié)合,通過參考多維數(shù)據(jù)原理進行了硬件配置,在軟件方面通過采集數(shù)據(jù)中心設(shè)備數(shù)據(jù)與構(gòu)建監(jiān)控機制,實現(xiàn)了對數(shù)據(jù)中心的智能化運維和監(jiān)控。能夠?qū)α考壿^大的數(shù)據(jù)中心進行實時監(jiān)控,保證數(shù)據(jù)中心設(shè)備的運行安全,有利于降低數(shù)據(jù)中心受到攻擊的風險,提高用戶使用體驗。該平臺具有一定的可靠性與安全性,為大數(shù)據(jù)中心運行維護研究方面提供積極的幫助。