国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種多層次分布式數(shù)據(jù)挖掘方法的改進(jìn)研究

2017-05-18 13:25黃成兵
現(xiàn)代電子技術(shù) 2017年9期
關(guān)鍵詞:決策樹數(shù)據(jù)挖掘檢索

黃成兵

摘 要: 針對多層次分布式數(shù)據(jù)存在高維特征和類間不平衡因素的問題,提出一種基于隨機(jī)決策樹檢索模型的數(shù)據(jù)挖掘技術(shù)。采用隨機(jī)相位重組方法進(jìn)行分布式數(shù)據(jù)的層次空間重構(gòu),在重構(gòu)的層次空間中提取多層次分布式數(shù)據(jù)的關(guān)聯(lián)維特征量,采用高階特征壓縮方法進(jìn)行降維處理,實現(xiàn)分布式數(shù)據(jù)的自適應(yīng)挖掘。仿真結(jié)果表明,采用該方法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確性能較好、查準(zhǔn)率較高、計算開銷降低、性能優(yōu)越。

關(guān)鍵詞: 多層次分布式數(shù)據(jù); 數(shù)據(jù)挖掘; 決策樹; 檢索; 數(shù)據(jù)庫

中圖分類號: TN911.1?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)09?0070?03

Abstract: Aiming at the high?dimensional feature and inter?class imbalance factor exiting in the multi?level distributed data mining method, a multi?level distributed data mining technology based on random decision tree retrieval model is proposed. The random phase recombination method is used to reconstruct the hierarchical space of the distributed data. The correlation dimension characteristic quantity of the multi?level distributed data is extracted in the reconstructed hierarchical space, and performs the dimension reduction with the high?order feature compression method to realize the adaptive mining of distributed data. The simulation results show that the method has high accuracy for data mining, high precision ratio, low computation cost, and superior performance.

Keywords: multi?level distributed data; data mining; decision tree; retrieval; database

0 引 言

在大數(shù)據(jù)環(huán)境下,大量的多層次分布式數(shù)據(jù)通過云技術(shù)積累并存儲于網(wǎng)絡(luò)數(shù)據(jù)庫中,形成高維數(shù)據(jù),在對多層次分布式數(shù)據(jù)采集和存儲的過程中,由于采集手段的差異性以及測量誤差的存在,導(dǎo)致數(shù)據(jù)挖掘的精度不高,從而影響了網(wǎng)絡(luò)數(shù)據(jù)庫的訪問精度,需要對多層次分布式數(shù)據(jù)進(jìn)行有效挖掘,結(jié)合特征提取和數(shù)據(jù)信息融合方法,進(jìn)行多層次分布式數(shù)據(jù)的狀態(tài)特征參量提取。研究多層次分布式數(shù)據(jù)挖掘方法在數(shù)據(jù)庫訪問和數(shù)據(jù)結(jié)構(gòu)優(yōu)化存儲設(shè)計方面具有重要意義。

對多層次分布式數(shù)據(jù)的挖掘是建立在數(shù)據(jù)信息流模型構(gòu)建和特征提取的基礎(chǔ)上,目前使用的數(shù)據(jù)挖掘算法很多,按類別可分為模糊挖掘算法、層次挖掘算法、網(wǎng)格區(qū)域分割挖掘方法等[1?2],通過對數(shù)據(jù)結(jié)構(gòu)的屬性類別分類處理和信息融合,實現(xiàn)數(shù)據(jù)信息特征檢測和挖掘,取得較好的挖掘精度。文獻(xiàn)[3]提出一種云計算環(huán)境下基于樸素貝葉斯分類的多層次分布式數(shù)據(jù)挖掘方法,進(jìn)行多層次分布式數(shù)據(jù)歸類,提取多層次分布式數(shù)據(jù)的語義關(guān)聯(lián)性和規(guī)則性特征,實現(xiàn)數(shù)據(jù)優(yōu)化挖掘,但該算法的計算開銷較大,數(shù)據(jù)信息檢測和挖掘的實時性不好。

文獻(xiàn)[4]提出一種基于相關(guān)子空間的數(shù)據(jù)挖掘方法,采用屬性維上的局部稀疏程度重新定義相關(guān)子空間,采用局部數(shù)據(jù)集的概率密度給出相關(guān)子空間中的計算公式,獲取相關(guān)子空間中的數(shù)據(jù)分布特征,引入LSH分布式策略,實現(xiàn)對分布式數(shù)據(jù)的挖據(jù),該方法提高了多層次分布式數(shù)據(jù)庫檢索的查準(zhǔn)性,但是該算法隨著多層次分布式數(shù)據(jù)庫規(guī)模的增大,信息挖掘的準(zhǔn)確性不好。

針對上述問題,提出一種基于隨機(jī)決策樹檢索的多層次分布式數(shù)據(jù)挖掘方法。首先進(jìn)行數(shù)據(jù)信息流構(gòu)建和數(shù)據(jù)特征分析,對多層次分布式數(shù)據(jù)信息流進(jìn)行特征空間重構(gòu);然后在重構(gòu)的特征空間中提取多層次分布式數(shù)據(jù)的關(guān)聯(lián)維特征量,采用高階特征壓縮方法進(jìn)行降維處理,實現(xiàn)分布式數(shù)據(jù)的自適應(yīng)挖掘;最后進(jìn)行仿真試驗分析。

1 多層次分布式數(shù)據(jù)信息流重構(gòu)

1.1 分布式數(shù)據(jù)的特征空間結(jié)構(gòu)模型

采用隨機(jī)相位重組方法進(jìn)行分布式數(shù)據(jù)的層次空間重構(gòu),構(gòu)建多層次分布式數(shù)據(jù)的高維特征空間分布結(jié)構(gòu)模型,假設(shè)多層次分布式數(shù)據(jù)的有限數(shù)據(jù)集為:

采用Takens嵌入定理進(jìn)行多層次分布式數(shù)據(jù)的特征分布空間重構(gòu)[5]:設(shè)是維的多層次分布式數(shù)據(jù)在高階矢量場的緊流形;是光滑的矢量場;是上的一個光滑函數(shù)。采用高階線性微分方程進(jìn)行數(shù)據(jù)樣本的添加或者刪減,則當(dāng)表示是一個嵌入向量。對于多層次分布式數(shù)據(jù)采樣時間序列它的相空間重構(gòu)軌跡為:

式中:表示數(shù)據(jù)分布特征空間的狀態(tài)矢量;是重構(gòu)延時;是嵌入維數(shù);是對多層次分布數(shù)據(jù)挖掘的采樣時間間隔。多層次分布式數(shù)據(jù)在聚類中心的收斂控制函數(shù)為:

利用奇異半正定性原理,建立多層次分布式數(shù)據(jù)挖掘的二次規(guī)劃模型,在重構(gòu)的特征空間中提取多層次分布式數(shù)據(jù)的關(guān)聯(lián)維特征量。

1.2 數(shù)據(jù)流的關(guān)聯(lián)維特征提取

在重構(gòu)的特征空間中構(gòu)建一組齊次方程,求得多層次分布式數(shù)據(jù)挖掘的極大線性無關(guān)組,得到多層次分布式數(shù)據(jù)的信息融合中心的極大線性無關(guān)組表達(dá)式分別為:

3 仿真試驗分析

為了驗證本文方法在實現(xiàn)多層次分布式數(shù)據(jù)的特征選擇和優(yōu)化挖掘中的應(yīng)用性能,進(jìn)行仿真試驗分析。試驗采用Matlab 7 仿真軟件設(shè)計,在數(shù)據(jù)庫中進(jìn)行多層次分布式數(shù)據(jù)特征信息采樣,采樣樣本的時間間隔為0.25 s,數(shù)據(jù)的點數(shù)為2 000點,特征空間重構(gòu)的嵌入時延參數(shù),維數(shù)干擾強(qiáng)度為0~12 dB,根據(jù)上述仿真參量設(shè)定,進(jìn)行多層次分布式數(shù)據(jù)挖掘,得到的樣本數(shù)據(jù)如圖1所示。

分析圖2的結(jié)果得知,采用本文方法進(jìn)行數(shù)據(jù)挖掘,可降低多層次分布數(shù)據(jù)的空間組合維數(shù),提高挖掘精度,與傳統(tǒng)方法進(jìn)行挖掘的準(zhǔn)確性對比,得到的對比結(jié)果如圖3所示,查準(zhǔn)率和計算時間對比見表1,分析圖3和表1結(jié)果得知,采用本文方法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確性較好,查準(zhǔn)率較高,且降低了計算開銷。

4 結(jié) 語

針對多層次分布式數(shù)據(jù)存在高維特征和類間不平衡因素的問題,本文提出一種基于隨機(jī)決策樹檢索模型的數(shù)據(jù)挖掘技術(shù)。并利用仿真試驗對本文方法與傳統(tǒng)方法的性能進(jìn)行對比,仿真結(jié)果表明,采用本文方法進(jìn)行數(shù)據(jù)挖掘的準(zhǔn)確性能好,查準(zhǔn)率較高,計算開銷降低,性能優(yōu)越,具有較好的應(yīng)用價值。

參考文獻(xiàn)

[1] 王慧,張翠羽.基于改進(jìn)遺傳算法的網(wǎng)絡(luò)差異數(shù)據(jù)挖掘算法[J].計算機(jī)仿真,2015,32(5):311?314.

[2] 梁聰剛,王鴻章.微分進(jìn)化算法的優(yōu)化研究及其在聚類分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016,39(13):103?107.

[3] 張紅蕊,張永,于靜雯.云計算環(huán)境下基于樸素貝葉斯的數(shù)據(jù)分類[J].計算機(jī)應(yīng)用與軟件,2015,32(3):27?30.

[4] 張繼福,李永紅,秦嘯,等.基于MapReduce與相關(guān)子空間的局部離群數(shù)據(jù)挖掘算法[J].軟件學(xué)報,2015,26(5):1079?1095.

[5] 蔣本立,張小平.大數(shù)據(jù)網(wǎng)絡(luò)的均衡調(diào)度平臺設(shè)計與改進(jìn)[J].現(xiàn)代電子技術(shù),2016,39(6):62?65.

[6] 李根,樊龍,萬定生,等.基于Map/Reduce的決策樹分類挖掘方法應(yīng)用研究[J].計算機(jī)與數(shù)字工程,2016,44(8):1504?1510.

[7] 聶軍.基于K?L特征壓縮的云計算冗余數(shù)據(jù)降維算法[J].微電子學(xué)與計算機(jī),2016(2):125?129.

猜你喜歡
決策樹數(shù)據(jù)挖掘檢索
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
2019年第4-6期便捷檢索目錄
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于決策樹的出租車乘客出行目的識別
專利檢索中“語義”的表現(xiàn)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究