譚如超,何 群,王 華,周 欣,肖 輝
(國(guó)網(wǎng)江西省電力有限公司信息通信分公司,江西 南昌 330096 )
異構(gòu)網(wǎng)絡(luò)主要由計(jì)算機(jī)、網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)系統(tǒng)構(gòu)成。當(dāng)前,異構(gòu)網(wǎng)絡(luò)所面臨的重要問題是連接方式未知,需要給出相同管理場(chǎng)景[1]。異構(gòu)網(wǎng)絡(luò)的融合可有效提升網(wǎng)絡(luò)服務(wù)的類型與運(yùn)營(yíng)收入,降低運(yùn)維成本,令用戶的服務(wù)體驗(yàn)更好[2-3]。為實(shí)現(xiàn)異構(gòu)網(wǎng)絡(luò)的高效運(yùn)行,需要對(duì)多源異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)進(jìn)行轉(zhuǎn)換融合,以降低數(shù)據(jù)的冗余性、提高網(wǎng)絡(luò)通信效率。
為實(shí)現(xiàn)這一目標(biāo),諸多學(xué)者對(duì)此進(jìn)行了研究。朱超平等在智能優(yōu)化算法的基礎(chǔ)上研究了一種網(wǎng)絡(luò)通信數(shù)據(jù)的融合方法[4]。該方法通過智能優(yōu)化算法加權(quán)融合網(wǎng)絡(luò)通信數(shù)據(jù),解決了傳統(tǒng)網(wǎng)絡(luò)通信數(shù)據(jù)融合慢、精度低的問題,但是其僅針對(duì)同類型網(wǎng)絡(luò)通信數(shù)據(jù)。周思益等提出一種基于改進(jìn)多傳感器的自適應(yīng)加權(quán)融合方法[5]。該方法利用置信距離構(gòu)建支持度函數(shù)對(duì)原始數(shù)據(jù)中的異常值替換等方法實(shí)現(xiàn)數(shù)據(jù)融合,但是實(shí)際應(yīng)用性較差。Allies等設(shè)計(jì)一種遙感數(shù)據(jù)融合方法[6]。該方法利用全球地表蒸發(fā)阿姆斯特丹方法論產(chǎn)品和典型薩赫勒生態(tài)系統(tǒng)簡(jiǎn)單參數(shù)模型的蒸散發(fā)估計(jì)進(jìn)行數(shù)據(jù)融合,但存在融合精度較差的問題。
典型相關(guān)分析(canonical correlation analysis,CCA)是利用綜合變量對(duì)兩組指標(biāo)所具有的關(guān)聯(lián)性展開描述,并在整體上統(tǒng)計(jì)其相關(guān)關(guān)系的多元統(tǒng)計(jì)分析方法。其中心思想是:選取顯著性較強(qiáng)的兩個(gè)綜合變量,以其之間具有的關(guān)聯(lián)性描述整體指標(biāo)具有的關(guān)聯(lián)性。CCA具有強(qiáng)大的數(shù)據(jù)融合能力。
本文將CCA方法引入異構(gòu)網(wǎng)絡(luò)通信領(lǐng)域,提出一種基于CCA的異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)融合方法,以期為提升異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)融合效果提供一定幫助。本文方法可以在更多領(lǐng)域的數(shù)據(jù)融合方面發(fā)揮積極作用。
異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)融合的步驟如下。首先,對(duì)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)進(jìn)行采集;然后,為保證異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)質(zhì)量,對(duì)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)進(jìn)行預(yù)處理;最后,在獲得預(yù)處理后異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)特征的基礎(chǔ)上,利用CCA方法進(jìn)行異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)融合。
由于異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)中的不確定數(shù)據(jù)較多,而不確定數(shù)據(jù)增量式挖掘算法可針對(duì)不確定數(shù)據(jù)進(jìn)行準(zhǔn)確采集,因此本文應(yīng)用不確定數(shù)據(jù)增量式挖掘算法,以實(shí)現(xiàn)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)的采集。本文設(shè)xi(i=1,2,…,n)為n個(gè)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)向量,并將其劃分為F個(gè)模糊簇,以計(jì)算出所有異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)簇的聚類中心[7]。本文令目標(biāo)函數(shù)最小,則其定義表示為:
(1)
為實(shí)現(xiàn)通信數(shù)據(jù)目標(biāo)采集函數(shù)最小化、提升數(shù)據(jù)采集精準(zhǔn)度,需要更新聚類中心與隸屬度,從而得到:
(2)
(3)
式中:i=1,2,…,f;j=1,2,…,n。
異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)采集計(jì)算流程如圖1所示。
圖1 異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)采集計(jì)算流程圖
首先,本文設(shè)X=(x1,x2,…,xn)為n個(gè)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)的數(shù)據(jù)集,并將原始聚類中心設(shè)為V0=(v1,v2,…,vf)。閾值ε>0。
至此,本文完成異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)的采集。
本文對(duì)采集的異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)展開預(yù)處理。預(yù)處理內(nèi)容主要包括以下三個(gè)部分。
①數(shù)據(jù)清洗。通常情況下,異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)的數(shù)據(jù)集內(nèi)的異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)在各種操作過程中會(huì)出現(xiàn)一些問題,包括數(shù)據(jù)缺失、錯(cuò)誤以及重復(fù)等。因此需要對(duì)其展開數(shù)據(jù)清洗,以保證異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)質(zhì)量。針對(duì)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)缺失問題,可通過查找或推導(dǎo)相關(guān)數(shù)據(jù),采用近似平均、最小、最大或其他概率估計(jì)值替代缺失值。針對(duì)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)錯(cuò)誤問題[9],可通過數(shù)據(jù)屬性之間的關(guān)聯(lián)約束關(guān)系進(jìn)行錯(cuò)誤值檢測(cè)。針對(duì)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)重復(fù)問題,可通過對(duì)比數(shù)據(jù)相似度進(jìn)行檢測(cè)與刪除。
②數(shù)據(jù)歸約。數(shù)據(jù)集數(shù)據(jù)量大,如不處理會(huì)對(duì)后續(xù)數(shù)據(jù)處理產(chǎn)生影響,所以需要展開數(shù)據(jù)歸約。數(shù)據(jù)歸約指基于數(shù)據(jù)自身展開挖掘時(shí),利用挖掘的目標(biāo)數(shù)據(jù)有效特征減小數(shù)據(jù)規(guī)模,從而在最大限度保護(hù)數(shù)據(jù)本體的情況下降低目標(biāo)數(shù)據(jù)量[10]。數(shù)據(jù)歸約共包括特征、樣本以及特征值3種歸約類別。數(shù)據(jù)歸約的主要目的是降低數(shù)據(jù)規(guī)模,宜使用樣本歸約,也就是在數(shù)據(jù)集內(nèi)選取最具代表性的樣本子集。
③數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化是完成歸約異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)的數(shù)據(jù)集中,部分?jǐn)?shù)據(jù)具有差異量綱,所以需要對(duì)其展開標(biāo)準(zhǔn)化處理,以消除量綱[11]。異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)標(biāo)準(zhǔn)化處理過程如下。
數(shù)據(jù)集D的算術(shù)平均值為:
(4)
式中:Di為數(shù)據(jù)集內(nèi)第i個(gè)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)。
數(shù)據(jù)標(biāo)準(zhǔn)化式為:
(5)
式中:Ci為D中第i個(gè)標(biāo)準(zhǔn)化異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)。
本文通過對(duì)調(diào)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)逆指標(biāo)前的正負(fù)號(hào),實(shí)現(xiàn)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)的標(biāo)準(zhǔn)化處理。
(6)
式中:E為方差矩陣;Sxx為異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)x內(nèi)相關(guān)性;Syy為異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)y內(nèi)相關(guān)性;Sxy為異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)x與y之間的相關(guān)性。
本文利用CCA方法將式(6)轉(zhuǎn)化為:
(7)
本文通過拉格朗日方法展開式(7),則:
L=αTSxyβ-λ1(αTSxxα-1)-λ2(βTSyyβ-1)
(8)
式中:λ1、λ2為拉格朗日乘子。
本文求取α、β有關(guān)L的偏導(dǎo)且使其為0,則存在:
(9)
此時(shí),可將式(9)轉(zhuǎn)換為:
(10)
綜上所述,可得λ1=λ2。令β1=2λ1=2λ2,可得:
β1=αTSxyβ
(11)
在式(9)中代入β1,則:
(12)
設(shè)Sxx、Syy為互逆關(guān)系,則:
(Sxx)-1Sxyβ=β1α
(13)
在式(12)中代入式(13),則:
(14)
推導(dǎo)得到:
(15)
α、β為E的對(duì)應(yīng)向量,且二者之間存在換算關(guān)系,具體為:
(16)
若Sxx、Syy、Sxy的非負(fù)特征值個(gè)數(shù)為r,則可獲取最高r對(duì)解。按照非遞增順序排列所得異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)特征值,得到與非零特征值0
本文對(duì)采用CCA方法提取的特征向量實(shí)施判別,獲取應(yīng)用于異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)融合的最佳特征。判別CCA所提取特征的準(zhǔn)則函數(shù)式為:
(17)
判別CCA求解式為:
(18)
通過CCA展開異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)特征融合,獲取的融合策略為:
(19)
本文通過式(19)獲取基于CCA的異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)融合結(jié)果。
本文設(shè)待融合的異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)為X(n維)、Y(m維),相應(yīng)特征向量為wi、ei,采用CCA方法融合異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)特征流程。異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)特征融合如圖2所示。
圖2 異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)特征融合示意圖
本文將異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)集作為試驗(yàn)對(duì)象,將其中的80%劃分為訓(xùn)練集、20%劃分為測(cè)試集。判斷標(biāo)準(zhǔn)為異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)融合馬修斯系數(shù)。為證明本文方法的效果,本文采用文獻(xiàn)[4]方法(智能優(yōu)化數(shù)據(jù)融合方法)以及文獻(xiàn)[5]方法(猶豫模糊統(tǒng)計(jì)數(shù)據(jù)融合方法)進(jìn)行數(shù)據(jù)融合有效性對(duì)比。一般而言,馬修斯系數(shù)值越接近1則表示數(shù)據(jù)融合的精準(zhǔn)程度越高。馬修斯系數(shù)值計(jì)算式如式(20)所示。
(20)
式中:TP為挖掘出的樣本為真實(shí)異常實(shí)例的數(shù)量;TN為挖掘出的樣本為真實(shí)正常實(shí)例的數(shù)量;FP為挖掘出的樣本為假異常實(shí)例的數(shù)量;FN為挖掘出的樣本為假正常實(shí)例的數(shù)量。
三種方法的異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)融合馬修斯系數(shù)對(duì)比結(jié)果如圖3所示。
圖3 三種方法的異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)融合馬修斯系數(shù)對(duì)比結(jié)果
由圖3可知,本文方法的異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)融合馬修斯系數(shù)值始終高于文獻(xiàn)[4]、文獻(xiàn)[5]兩種方法。這說明本文方法能夠有效檢測(cè)到異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)、提升其融合精度。其原因是本文方法應(yīng)用了異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)特征向量之間具有的相關(guān)性進(jìn)行數(shù)據(jù)融合,所涵蓋的鑒別信息豐富,異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)的融合正確程度較高。
三種方法的乒乓效應(yīng)出現(xiàn)次數(shù)如圖4所示。
圖4 三種方法的乒乓效應(yīng)出現(xiàn)次數(shù)
本文對(duì)比三種方法在融合異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)過程中的乒乓效應(yīng)出現(xiàn)次數(shù),以驗(yàn)證三種方法的可靠性。
由圖4可知,在融合異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)時(shí),本文方法的乒乓效應(yīng)出現(xiàn)次數(shù)均值約為3次,文獻(xiàn)[4]方法約為12次、文獻(xiàn)[5]方法約為14次。本文方法的乒乓效應(yīng)出現(xiàn)次數(shù)較少且變化幅度較小,由此表明本文方法的異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)融合可靠性較高。
本文方法應(yīng)用前后的網(wǎng)絡(luò)阻塞率如圖5所示。
圖5 應(yīng)用前后的網(wǎng)絡(luò)阻塞率
由圖5可知,本文方法融合異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)前,網(wǎng)絡(luò)通信的阻塞率呈指數(shù)級(jí)增長(zhǎng),與數(shù)據(jù)量呈正相關(guān)關(guān)系。本文方法融合異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)后,網(wǎng)絡(luò)通信的阻塞率不跟隨數(shù)據(jù)量的變化而變化,且網(wǎng)絡(luò)通信的阻塞率較低。
本文方法應(yīng)用前后的平均候選項(xiàng)集數(shù)目如圖6所示。
圖6 應(yīng)用前后的平均候選項(xiàng)集數(shù)目
由圖6可知,不同最小支持度門限下,應(yīng)用本文方法融合異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)前后的平均候選項(xiàng)集數(shù)目均呈下降趨勢(shì)。但是應(yīng)用本文方法后數(shù)據(jù)庫(kù)存在的平均候選項(xiàng)集數(shù)目更小,說明本文方法應(yīng)用不確定數(shù)據(jù)增量式挖掘算法可降低通信數(shù)據(jù)的平均候選項(xiàng)集數(shù)目、提升數(shù)據(jù)采集效率。
本文隨機(jī)選擇兩組異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)集,設(shè)定屬性維度參數(shù)o的取值分別為3、5、10;分析不同o取值下,數(shù)據(jù)缺失率變化時(shí)本文方法數(shù)據(jù)融合后的數(shù)據(jù)補(bǔ)齊率。補(bǔ)齊率指平均每次融合后填補(bǔ)數(shù)據(jù)量在數(shù)據(jù)總量中所占比率。不同屬性維度參數(shù)影響下的融合性能如表1所示。
表1 不同屬性維度參數(shù)影響下的融合性能
由表1可知,隨著異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)缺失的比率越來越大,本文方法的補(bǔ)齊率逐漸上升。其原因是填補(bǔ)異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)缺失的過程中,數(shù)據(jù)的維度、空間復(fù)雜度以及時(shí)間復(fù)雜度均有所下降。在屬性維度參數(shù)為5的情況下,本文方法的數(shù)據(jù)融合后補(bǔ)齊率最高。這說明屬性維度參數(shù)取值為5時(shí),可降低數(shù)據(jù)的冗余性、減少噪聲。此時(shí),本文方法的通信數(shù)據(jù)融合性能最好。
為提高異構(gòu)網(wǎng)絡(luò)通信效率,本文設(shè)計(jì)了一種基于CCA的異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)融合方法。本文通過采集異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清洗、規(guī)約以及標(biāo)準(zhǔn)化處理。本文建立判別準(zhǔn)則函數(shù)以獲取最終特征向量,依據(jù)特征向量融合異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù),完成異構(gòu)網(wǎng)絡(luò)通信數(shù)據(jù)的融合處理。試驗(yàn)結(jié)果表明,本文方法的融合正確程度高、可靠性高、平均候選項(xiàng)集數(shù)目少、融合后的數(shù)據(jù)補(bǔ)齊率較高,可為進(jìn)一步提升異構(gòu)通信網(wǎng)絡(luò)數(shù)據(jù)的融合效果提供借鑒。