国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

異構復雜信息網絡敏感數據流動態(tài)挖掘*

2020-05-04 07:05:20熊菊霞吳盡昭
計算機工程與科學 2020年4期
關鍵詞:敏感數據散度數據流

熊菊霞,吳盡昭

(1.中國科學院成都計算機應用研究所,四川 成都 610041;2.中國科學院大學,北京 100049;3.廣西民族大學廣西混雜計算與集成電路設計分析重點實驗室,廣西 南寧 530006)

1 引言

在異構復雜信息網絡中,網絡基元結構具有差異性,通常包含大量的敏感數據流,從數據流中提取有用特征是十分重要的工作[1]。但是,由于異構網絡中不同結構的網絡數據存在較強的動態(tài)變化,如何對異構復雜信息網絡敏感數據流進行有效的動態(tài)挖掘,成為現在數據挖掘領域中重要的問題[2]。

專家學者們提出一些關于網絡敏感數據流的挖掘方法。茹蓓等人[3]提出一種減少候選項集的數據流挖掘算法,通過數據掃描窗口建立全局樹,基于全局樹生成數據候選模式,從候選模式中選取出高效用的挖掘模式,完成數據挖掘。劉華成等人[4]提出一種動態(tài)調度的延遲敏感流網絡挖掘算法,采用能量最小化組合方程來節(jié)約挖掘時間,采用分解定界算法來提升分類器處理速度。趙小強等人[5]提出一種基于改進模糊支持向量機FSVM(Fuzzy Support Vector Machine)的數據挖掘分類算法,預選出有效的候選支持向量,并對其進行增強處理,在此基礎上設計隸屬度函數完成挖掘。劉洋等人[6]對大數據挖掘算法進行分析,根據模型向量的改變量優(yōu)化數據迭代過程,在不同階段選擇不同的迭代和數據處理方式,以提高挖掘性能。

國外眾多學者也對此進行了研究,并取得了較多突出的成果,Malik等人[7]指出,隨著數據規(guī)模的不斷擴大,利用現有的方法進行數據挖掘時,內存往往容易成為瓶頸問題,因此很多科研人員從多個角度對數據挖掘方法進行了改進。比如,美國學者Freitas等人[8]針對大規(guī)模的數據進行分析,先對原始數據集進行簡單排序,其次分析網絡內存的實現機制,在時間局部性方面進行重點分析,以滿足大規(guī)模數據挖掘需求。Belorkar等人[9]利用敏感網絡對異構基因表達數據進行了分析,主要研究數據的異質性,通過敏感網絡抑制了單區(qū)域數據集的選取功能,結合異質性特征挖掘得到表達數據。但是,在異構復雜信息網絡中,相關數據流挖掘方法無法在復雜網絡下找到準確的挖掘特征,難以適應復雜信息網絡敏感數據流特征的高動態(tài)變化,降低了挖掘精度。

針對上述問題,本文提出基于最大類間散度的網絡敏感數據流動態(tài)挖掘方法。實驗結果表明,該方法在復雜信息網絡敏感數據流挖掘方面具有較高的實用性。

2 敏感數據流可挖掘特征獲取

2.1 最大類間散度計算

由于異構復雜信息網絡承載著不同的協(xié)議和網絡信道,網絡基元結構之間差異性較大,導致提取網絡中的敏感數據流特征困難。由此,以異構復雜信息網絡中的敏感數據差異最大化間隔作為分類基礎,將差異化網絡基元結構進行區(qū)別劃分,得到網絡敏感數據流特征的最大類間散度,為全面高精度動態(tài)挖掘敏感數據提供基礎。

假設異構復雜信息網絡數據庫中的待挖掘矩陣為X={x1,x2,…,xi},i代表網絡數據庫中數據的序數,獲取第i時刻異構復雜網絡數據庫中敏感數據矩陣xi={xi1,xi2,…,xim},對應的網絡數據流類型用向量yi表示,利用式(1)給出異構復雜信息網絡敏感數據流整體矩陣:

Y=f(x1,x2,…,xn)=(y1,y2,…,yn)

(1)

向量yi是網絡數據流類型,對提取出的網絡敏感數據流特征降維處理。將敏感數據差異最大化間隔作為分類目標,找出1組最佳分類向量,對其進行映射變換,使變換后得到的網絡敏感數據流特征具有最大類間散度,并獲取最大類間散度特征值[10]。過程如下所示:

在上述給出的異構復雜信息網絡數據庫矩陣X={x1,x2,…,xn}中,為維持復雜網絡內原始數據的分布結構形狀,利用最大間隔準則約束找出一個線性映射:

(Sb-Sw)X=λiwi

(2)

得到最佳識別向量為:

(3)

其中,Sb和Sw分別代表網絡敏感數據流特征降維后,特征空間中的類間散度和類內散度,作為差異化網絡基元結構的劃分基礎。λi表示線性映射系數,T為轉置符號,wi表示最大間隔向量[11,12]。將其投影變換到低維特征空間Y中,使其具有最大類間散度:

Y=WTX

(4)

投影變換處理后,得到異構復雜信息網絡的敏感數據向量:

(5)

2.2 最優(yōu)散度迭代

在2.1節(jié)獲取了異構復雜信息網絡的敏感數據最大類間散度后,對其進行遺傳迭代,確定最優(yōu)散度迭代函數,依據該函數動態(tài)挖掘敏感數據特征[13,14],并對挖掘得到的敏感數據特征進行篩選,得出動態(tài)可挖掘特征,克服傳統(tǒng)方法不容易形成可挖掘特征,進而需要多次挖掘的不足,為數據的動態(tài)挖掘奠定基礎。

傳統(tǒng)的遺傳算法并沒有考慮個體或者組織的演變特征,只能夠通過編碼表現個體或者組織的一一對應關系,模糊遺傳算法能夠打破這一規(guī)則,在[0,1]中為個體或者組織取值。模糊遺傳算法的這一特性使得其能夠很好地解決迭代中的隨機和非線性問題,解決更多的復雜問題。因此,本文使用模糊遺傳算法進行網絡敏感數據最大類間散度迭代,量化異構網絡基元結構之間的差異性。lnfo(B)和lnfoA(B)分別表示不同的異構網絡基元結構,Gain(A)表示2者之間的差異,如下:

(6)

(7)

其中,B是異構網絡基本元素構成的向量,A是異構網絡差異值向量,v是B中元素個數。Wopt是異構復雜信息網絡的敏感數據向量。Pi是概率值。

Gain(A)=lnfo(B)-lnfoA(B)

(8)

得到:

Pri(t)=Gain(A)-Pi*hi(t)+nPi(t)

(9)

其中,hi(t)代表Pi在異構復雜信息網絡敏感數據的變異參數,nPi(t)代表數據流特征響應值,由此可以求出異構復雜信息網絡敏感數據流特征響應函數:

Sri(t)=S(t)×hi(t)+nsi(t)

(10)

其中,S(t)代表異構復雜網絡數據庫的信道響函數,挖掘得到敏感數據特征為:

ri(t)=Sri(t)×Pri(-t)=

S(t)×P(-t)*hi(t)+nli(t)

(11)

以式(11)為基礎,對敏感數據挖掘特征形成概率進行計算,公式如下:

(12)

其中,aij是特征系數,βj是敏感特征系數,bij是特征數據向量,Pj(t)是概率值。

得到優(yōu)選的敏感數據動態(tài)可挖掘特征為:

R(Xi)=bij(Pj(t))X

(13)

其中,X是數據庫中的待挖掘矩陣。

3 網絡敏感數據流挖掘

以上述得到的敏感數據動態(tài)可挖掘特征為基礎,對可挖掘特征進行半監(jiān)督聚類分析,進而完成網絡敏感數據流挖掘。

聚類分析是數據挖掘中的重要步驟,聚類是按照相似性原理,把1組個體劃分為若干類別的過程,聚類的目的是使同一類別的個體之間距離最小化,不同類別個體之間的距離最大化,從而提高數據挖掘精度。采用半監(jiān)督聚類方法可以有效地改善初始聚類中心敏感、聚類質量不高的問題[15,16]。半監(jiān)督聚類方法是結合分類和K-means算法思想的一種新的聚類方法,是利用半監(jiān)督學習方法對聚類過程中類中心選取的過程。

假設主存中的數據特征點q是Q={d1,d2,…,dn,labels}中的元素,Q是一個數據特征矩陣,labels為可挖掘數據標記的向量。利用labels初始化聚類中心Z,表示為:

(14)

其中,I為可挖掘數標記個數。

聚類過程中,若缺少某類標記,則由聚類中心自動產生,不斷重復上述初始化過程,直到出現重復聚類為止[17,18]。

對可挖掘特征點進行聚類分配,將每一個可挖掘特征點di、labels分配至聚類L中,表示為:

L=argmin |di-Z|

(15)

在式(15)基礎上,重新計算初始化聚類中心Z:

(16)

其中,di是挖掘特征點向量。

由此則可以完成對可挖掘特征的聚類分析,挖掘得到數據隱藏信息模式,并對其進行評價,若是合理,則進行知識表示,將上述合理的信息模式進行展示,從而實現異構復雜信息網絡敏感數據的動態(tài)挖掘[19,20]。

具體數據挖掘流程如圖1所示。

Figure 1 Flow chart for dynamic mining of sensitive data in heterogeneous complex information networks圖1 異構復雜信息網絡敏感數據動態(tài)挖掘流程圖

4 實驗結果與分析

為了驗證本文所提的基于模糊遺傳的網絡敏感數據流動態(tài)挖掘方法的綜合性能,實驗采用的平臺為IBM的工控異構網絡機,主頻為2.3 GHz CPU,內存為24 GB。

實驗數據來源于亞馬遜自動化工作流系統(tǒng)AWS(Automated Workflow System)數據庫,網址為https://aws.amazon.com/cn/datasets/。在實驗中隨機采集500個真實復雜信息網絡數據集。采集器如圖2所示。

Figure 2 Data acquisition unit圖2 數據采集器

實驗數據采集過程如圖3所示。

Figure 3 Flow chart of experimental data acquisition圖3 實驗數據采集流程圖

在上述實驗環(huán)境和數據設置條件下,選取以下指標對本文方法進行驗證:

(1)可挖掘特征形成概率:數據可挖掘特征的獲取是實現數據挖掘的關鍵步驟,以式(12)的計算步驟為依據,對本文方法與文獻[7,8]方法的可挖掘特征形成概率進行計算和對比。

(2)挖掘耗時:對本文方法與文獻[7,8]方法的挖掘耗時進行對比,驗證本文方法的時效性。

(3)labels標記質量:在獲取數據的可挖掘特征后,本文方法首先對可挖掘特征進行了聚類分析,以此為基礎完成數據挖掘,提高挖掘精度。聚類分析中,labels標記質量的好壞會直接影響數據聚類質量,進而影響挖掘精度。

(4)挖掘精度:精度是驗證方法性能的重要指標,本實驗選取這一指標進行分析。

(5)敏感數據挖掘內存占用率:對比不同方法的挖掘內存占用率,進一步體現本文方法優(yōu)勢。

對本文方法與文獻[7,8]方法的可挖掘特征形成概率進行計算,結果如表1所示。

Table 1 Comparison of mineable feature formation probability表1 可挖掘特征形成概率對比

分析表1可以看出,本文采用最大類間散度方法,將敏感數據的差異最大化間隔作為分類基礎進行分析,并在遺傳迭代狀態(tài)確定最優(yōu)散度迭代函數,完成可挖掘特征優(yōu)選,由此得到的可挖掘特征形成概率整體高于90%,最高可達98%,可順利形成可挖掘特征。而文獻[7,8]方法的可挖掘特征形成概率在80%以下,遠低于本文方法的,無法形成數據的可挖掘特征。

鑒于表1分析的結果,可知本文方法能夠順利形成數據的可挖掘特征,進而能夠降低數據挖掘次數,有利于節(jié)約數據挖掘時間。為進一步驗證這一結果,對本文方法與文獻[7,8]方法進行對比,結果如圖4所示。分析圖4可以看出,本文方法的挖掘耗時明顯低于文獻[7,8]方法的,以后可進一步驗證本文采用最大類間散度方法獲取數據的可挖掘特征的有效性,表明本文方法具有一定的可行性。

Figure 4 Time-consuming comparison of different mining methods圖4 不同方法挖掘耗時對比

對本文方法的labels標記質量的分析結果如圖5所示。根據圖5可知,在不同的labels標記處,本文估計值與實際值之間的差異均較小,不超過6.0,且隨著標記點的增加,估計值與實際值之間的差異呈現下降趨勢,表明本文方法具有較好的聚類效果。

Figure 5 Difference between estimated and true values圖5 估計值和真實值之間的差異

為充分驗證本文方法的優(yōu)勢,選取挖掘精度和敏感數據挖掘內存占用率為指標進行對比分析,結果如表2和圖6所示。

根據表2可知,本文方法的數據挖掘精度在90%左右,文獻[7]方法的數據挖掘精度最高為69%,文獻[8]方法的最高值為76%,表明本文方法能夠準確地完成異構復雜信息網絡敏感數據流動態(tài)挖掘,同時也進一步驗證了可挖掘特征的聚類質量較高。

Table 2 Comparison of mining accuracy of different methods表2 不同方法挖掘精度對比

圖6為不同方法的敏感數據挖掘內存占用率對比圖。從圖6中的情況來看,本文方法所占用的內存容量較少,而其他2種方法所占用的內容容量較多,主要是因為本文能夠順利獲取可挖掘數據特征,避免了多次數據挖掘,從而降低了內存占用率。這表明在對敏感數據流進行挖掘的性能上,本文方法具有更大的優(yōu)勢。

Figure 6 Comparison of memory usage of different methods圖6 不同方法內存占用率對比

5 結束語

復雜信息網絡中存在大量的敏感數據流,對其進行有效挖掘,能夠促使網絡更加高效地運行。針對現有方法存在數據挖掘精度低、挖掘時間長、占用內存大等問題,本文提出了一種新的網絡敏感數據流動態(tài)挖掘方法。采用最大類間散度確定最優(yōu)散度迭代函數,對迭代函數最優(yōu)值進行計算,獲取可挖掘的動態(tài)特征。以此為依據,對可挖掘特征進行聚類分析,進而實現數據挖掘。

將本文方法與文獻[7,8]方法進行對比,結果表明:

(1)數據的可挖掘特征獲取概率較高,進而降低了數據挖掘次數,節(jié)約了數據挖掘時間,并降低了內存占用率;

(2)聚類分析中,labels標記估計值與實際值之間的差異較小,說明對可挖掘特征的聚類質量良好,進而提高了數據挖掘精度。

綜上可知,本文所提方法的數據挖掘性能較好,為數據的深入研究奠定了基礎,具有一定的參考價值。

猜你喜歡
敏感數據散度數據流
干擾條件下可檢索數字版權管理環(huán)境敏感數據的加密方法
帶勢加權散度形式的Grushin型退化橢圓算子的Dirichlet特征值的上下界
實現虛擬機敏感數據識別
汽車維修數據流基礎(下)
具有部分BMO系數的非散度型拋物方程的Lorentz估計
基于透明加密的水下通信網絡敏感數據防泄露方法
基于4A平臺的數據安全管控體系的設計與實現
H型群上一類散度形算子的特征值估計
一種提高TCP與UDP數據流公平性的擁塞控制機制
H?rmander 向量場上散度型拋物方程弱解的Orlicz估計
南和县| 旬邑县| 五常市| 蓝田县| 思南县| 大宁县| 疏勒县| 科技| 治多县| 东城区| 山丹县| 永靖县| 四川省| 台安县| 花莲市| 太湖县| 虞城县| 江油市| 禹城市| 桐乡市| 岳阳市| 小金县| 陕西省| 白朗县| 志丹县| 化隆| 定远县| 喀喇沁旗| 泗洪县| 左权县| 游戏| 绥芬河市| 新余市| 西乌珠穆沁旗| 吉水县| 都江堰市| 钟祥市| 慈利县| 松潘县| 西贡区| 鄂温|