徐敏,洪德華,王鵬,孫佳麗
(國網(wǎng)安徽省電力有限公司信息通信分公司,合肥230041)
全球進(jìn)入互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)時(shí)代,新的生產(chǎn)關(guān)系和經(jīng)濟(jì)形態(tài)正在形成[1-2]。以“大云物移智”為代表的新一代信息通信技術(shù)發(fā)展日新月異,已成為傳統(tǒng)產(chǎn)業(yè)升級和新型業(yè)務(wù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力[3-4]?;ヂ?lián)網(wǎng)作為一種新的生產(chǎn)消費(fèi)模式,其應(yīng)用領(lǐng)域正在從消費(fèi)互聯(lián)網(wǎng)向產(chǎn)業(yè)互聯(lián)網(wǎng)快速拓展[5-6]。數(shù)據(jù)作為一種新的生產(chǎn)資料,其應(yīng)用價(jià)值不斷孕育新的業(yè)務(wù)模式和商業(yè)模式。互聯(lián)網(wǎng)和數(shù)據(jù)日益成為價(jià)值再造的核心要素與經(jīng)濟(jì)發(fā)展的新動(dòng)能[7-8]。
數(shù)據(jù)中臺是公司重要基礎(chǔ)支撐性平臺,近年來電力企業(yè)建成數(shù)據(jù)中臺,初步構(gòu)建了數(shù)據(jù)全鏈路監(jiān)測分析體系,但是在數(shù)據(jù)監(jiān)測的效率、監(jiān)測的覆蓋度等方面有待進(jìn)一步提升[9-10]。本文重點(diǎn)研究數(shù)據(jù)中臺的全鏈路監(jiān)控體系,突破片面的數(shù)據(jù)監(jiān)測技術(shù),構(gòu)建全鏈路覆蓋的監(jiān)測能力,推動(dòng)形成覆蓋數(shù)據(jù)全生命周期的全鏈路監(jiān)測解決方案,全面提升經(jīng)營決策、運(yùn)營管理、業(yè)務(wù)拓展和客戶服務(wù)等方面的支撐能力。
數(shù)據(jù)服務(wù)的運(yùn)行狀態(tài)數(shù)據(jù)的測量獲取方法可分為主動(dòng)和被動(dòng)兩種形式。被動(dòng)監(jiān)測主要方式是由網(wǎng)絡(luò)設(shè)備記錄通過該設(shè)備的如數(shù)據(jù)包、錯(cuò)誤、流量等數(shù)據(jù),周期性地發(fā)送給管理站,存儲到數(shù)據(jù)庫或直接分析。主動(dòng)監(jiān)測主要方法是由管理員或管理控制設(shè)備主動(dòng)向網(wǎng)絡(luò)設(shè)備請求監(jiān)測數(shù)據(jù)或向網(wǎng)絡(luò)中發(fā)送探針來主動(dòng)獲取數(shù)據(jù)。
數(shù)據(jù)中臺與邊緣計(jì)算協(xié)同的大數(shù)據(jù)監(jiān)測分析要將數(shù)據(jù)中臺與邊緣計(jì)算結(jié)合起來,協(xié)同處理來自智能感知終端不斷產(chǎn)生的新數(shù)據(jù),協(xié)同部署和支撐數(shù)據(jù)監(jiān)測分析應(yīng)用,將數(shù)據(jù)中臺的數(shù)據(jù)處理和監(jiān)測分析應(yīng)用承擔(dān)的計(jì)算壓力分配給各邊緣側(cè),減輕數(shù)據(jù)中臺的計(jì)算壓力,提高數(shù)據(jù)監(jiān)測分析的能力。
數(shù)據(jù)全鏈路額是指對系統(tǒng)數(shù)據(jù)從計(jì)劃、獲取、存儲、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
根據(jù)電力企業(yè)兩級貫通要求,主要是實(shí)現(xiàn)兩級同構(gòu)、異構(gòu)數(shù)據(jù)中臺之間數(shù)據(jù)的監(jiān)控,通過統(tǒng)一交換平臺實(shí)現(xiàn)批量數(shù)據(jù)傳輸和實(shí)時(shí)數(shù)據(jù)橫縱向的貫通。橫向完成本級業(yè)務(wù)系統(tǒng)數(shù)據(jù)傳輸,縱向?qū)崿F(xiàn)總部和二級平臺之間數(shù)據(jù)交換。數(shù)據(jù)監(jiān)測的總體架構(gòu)如圖1 所示。
圖1 數(shù)據(jù)監(jiān)測架構(gòu)
數(shù)據(jù)傳輸過程中,當(dāng)現(xiàn)有網(wǎng)絡(luò)系統(tǒng)出現(xiàn)故障時(shí),網(wǎng)絡(luò)可能出現(xiàn)阻塞、丟包問題,前端傳感器采集的數(shù)據(jù)將無法完整準(zhǔn)確地傳輸至服務(wù)器端。這種情況下會(huì)嚴(yán)重影響數(shù)據(jù)鏈路監(jiān)控的準(zhǔn)確性。為了應(yīng)對這一問題,提出一種數(shù)據(jù)旁路捕獲和同步方法。在該方法中,首先基于網(wǎng)卡混雜工作模式實(shí)現(xiàn)數(shù)據(jù)的旁路捕獲,其次基于校驗(yàn)值對比法實(shí)現(xiàn)旁路數(shù)據(jù)庫和主數(shù)據(jù)庫的數(shù)據(jù)同步。數(shù)據(jù)旁路捕獲過程無需停機(jī),也不影響現(xiàn)有的網(wǎng)絡(luò)拓?fù)浜凸ぷ鳡顟B(tài),有利于數(shù)據(jù)鏈路的安全穩(wěn)定運(yùn)行。旁路數(shù)據(jù)庫和主數(shù)據(jù)庫的數(shù)據(jù)同步基于校驗(yàn)值的對比,無需直接傳輸原始數(shù)據(jù),顯著降低了旁路數(shù)據(jù)庫和主數(shù)據(jù)庫之間的通信量,監(jiān)測流程如圖2 所示。
圖2 數(shù)據(jù)旁路捕獲及同步流程
旁路數(shù)據(jù)實(shí)時(shí)采集狀態(tài)數(shù)據(jù),網(wǎng)關(guān)在將量測數(shù)據(jù)轉(zhuǎn)發(fā)至主服務(wù)器時(shí),旁路服務(wù)器也能夠通過數(shù)據(jù)旁路捕獲到這些數(shù)據(jù)。與出現(xiàn)故障的通信網(wǎng)絡(luò)不同,新增設(shè)的數(shù)據(jù)旁路通道是無故障的,能夠保障網(wǎng)關(guān)轉(zhuǎn)發(fā)的數(shù)據(jù)及時(shí)準(zhǔn)確地傳輸?shù)脚月贩?wù)器上。此后,將旁路服務(wù)器和主服務(wù)器上的數(shù)據(jù)進(jìn)行分塊,并逐塊比較其校驗(yàn)碼。當(dāng)旁路服務(wù)器和主服務(wù)器上同一數(shù)據(jù)塊的校驗(yàn)碼不同時(shí),表明主服務(wù)器上接收到的數(shù)據(jù)是有誤的。此時(shí),將旁路服務(wù)器上的數(shù)據(jù)塊發(fā)送至主服務(wù)器上,并覆蓋主服務(wù)器上對應(yīng)數(shù)據(jù)塊,從而實(shí)現(xiàn)數(shù)據(jù)同步。
在數(shù)據(jù)旁路捕獲及同步過程中,旁路服務(wù)器對得到的數(shù)據(jù)包進(jìn)行解析、過濾和重組。首先旁路服務(wù)器對得到的數(shù)據(jù)包進(jìn)行解析,得到數(shù)據(jù)包的目的地址及對應(yīng)數(shù)據(jù);其次,旁路服務(wù)器對數(shù)據(jù)包進(jìn)行過濾,得到與主服務(wù)器有相同目的地址的數(shù)據(jù);旁路服務(wù)器分析與主服務(wù)器有相同目的地址的數(shù)據(jù),獲取其應(yīng)用層協(xié)議類型、分片和偏移信息,以及應(yīng)用數(shù)據(jù);旁路服務(wù)器根據(jù)分片和偏移信息對應(yīng)用數(shù)據(jù)進(jìn)行重組,得到重組后的數(shù)據(jù)。旁路捕獲流程如圖3 所示。
圖3 數(shù)據(jù)旁路捕獲流程
由于通常狀況下,主服務(wù)器上大部分?jǐn)?shù)據(jù)塊是完整準(zhǔn)確的,為了降低旁路服務(wù)器和主服務(wù)器之間的數(shù)據(jù)通信量,并提升數(shù)據(jù)塊比對的效率,在本方法中將基于校驗(yàn)碼而不是原始數(shù)據(jù)塊進(jìn)行比較。在所述主服務(wù)器上,根據(jù)應(yīng)用數(shù)據(jù)特征量和偏移量搜索到第一數(shù)據(jù)塊對應(yīng)的第二數(shù)據(jù)塊,并生成第二校驗(yàn)碼;將第二校驗(yàn)碼與第一校驗(yàn)碼進(jìn)行比較,如果相同,則輪詢下一數(shù)據(jù)塊,直至遍歷旁路服務(wù)器上的全部數(shù)據(jù)塊;如果不同,則通知旁路服務(wù)器將第一數(shù)據(jù)塊發(fā)送至主服務(wù)器替換第二數(shù)據(jù)塊,輪詢下一數(shù)據(jù)塊,直至遍歷旁路服務(wù)器上的全部數(shù)據(jù)塊。數(shù)據(jù)同步過程如圖4 所示。
圖4 數(shù)據(jù)同步流程
由于量測數(shù)據(jù)的采集速度可視為恒定,數(shù)據(jù)塊越小,校驗(yàn)碼生成、傳輸和對比的次數(shù)越多,但數(shù)據(jù)同步的時(shí)延越小,需要傳輸和同步的原始數(shù)據(jù)量越小;數(shù)據(jù)塊越大,校驗(yàn)碼生成、傳輸和對比的次數(shù)越少,但數(shù)據(jù)同步的時(shí)延越大,需要傳輸和同步的原始數(shù)據(jù)量越多,在本項(xiàng)目中設(shè)置的數(shù)據(jù)塊大小為1M。數(shù)據(jù)同步流程步驟如下:
步驟1:在旁路服務(wù)器上,對數(shù)據(jù)塊A 計(jì)算md5 校驗(yàn)碼Amd5;
步驟2:旁路服務(wù)器將數(shù)據(jù)塊A 的md5 校驗(yàn)碼,以及用于確定數(shù)據(jù)塊位置的應(yīng)用數(shù)據(jù)特征量和偏移量發(fā)至主服務(wù)器;
步驟3:主服務(wù)器依據(jù)數(shù)據(jù)特征量和偏移量搜索對應(yīng)的數(shù)據(jù)塊B
步驟4:計(jì)算數(shù)據(jù)塊B 的md5 校驗(yàn)碼Bmd5;
步驟5:如果數(shù)據(jù)塊B 的md5 校驗(yàn)碼Bmd5 與數(shù)據(jù)塊A 的md5 校驗(yàn)碼Amd5 相同,則跳轉(zhuǎn)至步驟8;
步驟6:如果數(shù)據(jù)塊B 的md5 校驗(yàn)碼Bmd5 與數(shù)據(jù)塊A 的md5 校驗(yàn)碼Amd5 不同,則通知旁路服務(wù)器將數(shù)據(jù)塊A 發(fā)送至主服務(wù)器;
步驟7:用數(shù)據(jù)塊A 覆蓋數(shù)據(jù)塊B;
步驟8:通知旁路服務(wù)器處理下一數(shù)據(jù)塊。
本文依托國網(wǎng)安徽電力公司數(shù)據(jù)中臺進(jìn)行測試驗(yàn)證,模擬驗(yàn)證數(shù)據(jù)全鏈路監(jiān)測的流程,通過與傳統(tǒng)的基于日志的全鏈路監(jiān)測方法進(jìn)行比對測試,測試24 小時(shí)內(nèi)兩種監(jiān)測捕獲的鏈路異常情況,測試結(jié)果如圖5所示。
圖5 實(shí)驗(yàn)驗(yàn)證
圖中柱狀體代表傳統(tǒng)基于日志的全鏈路監(jiān)測方法監(jiān)測的鏈路異常數(shù)量,折線代表本文設(shè)計(jì)的基于旁路的數(shù)據(jù)鏈路異常監(jiān)測方法監(jiān)測的鏈路異常數(shù)量,通過實(shí)驗(yàn)數(shù)據(jù)結(jié)論可以分析得出本文設(shè)計(jì)的全鏈路監(jiān)測方法的可行性和有效性。
針對當(dāng)前電力企業(yè)數(shù)字化轉(zhuǎn)型的需要,本文提出了基于數(shù)據(jù)中臺的數(shù)據(jù)全鏈路監(jiān)控方案,給出了數(shù)據(jù)監(jiān)控的總體架構(gòu),闡述數(shù)據(jù)鏈路監(jiān)測流程,設(shè)計(jì)了鏈路異常捕獲以及數(shù)據(jù)同步方法,通過實(shí)驗(yàn)驗(yàn)證了基于數(shù)據(jù)中臺的數(shù)據(jù)全鏈路監(jiān)控的可行性和有效性。