李天峰
摘 要: 為了提高網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算的速度和收斂性,針對(duì)當(dāng)前仿生群算法容易出現(xiàn)局部收斂的問(wèn)題,提出一種基于優(yōu)化粒子群智能信息處理的網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算方法。采用特征尺度標(biāo)識(shí)方法進(jìn)行網(wǎng)絡(luò)計(jì)算數(shù)據(jù)集規(guī)范化處理,結(jié)合粒子群算法進(jìn)行網(wǎng)絡(luò)計(jì)算的大數(shù)據(jù)聚類(lèi)分析,根據(jù)粒子速度和位置更新迭代公式確定初始聚類(lèi)中心,通過(guò)混沌差分?jǐn)_動(dòng)進(jìn)行個(gè)體尋優(yōu),降低群體適應(yīng)度方差,使得計(jì)算程序滿足收斂法則,提高網(wǎng)絡(luò)計(jì)算的效率。仿真結(jié)果表明,采用該方法進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)的智能計(jì)算能得到最優(yōu)適應(yīng)度值,收斂性和處理速度都具有優(yōu)勢(shì)。
關(guān)鍵詞: 智能信息處理; 粒子群; 網(wǎng)絡(luò)計(jì)算; 大數(shù)據(jù)
中圖分類(lèi)號(hào): TN711?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)15?0041?03
Abstract: In order to improve the speed and convergence of the network big data calculation, and solve the problem that the bionic swarm algorithm is prone to appear the local convergence, a network big data computing method based on optimized particle swarm intelligent information processing is put forward. The characteristic scale identification method is used to perform the dataset standardization processing of network computing, and combined with the particle swarm algorithm to conduct the big data clustering analysis of network computing. According to the update iterative formula of the particle velocity and position, the initial clustering center is determined. The individual is optimized by means of chaotic difference disturbance to reduce the fitness variance of population, which makes that the calculation program can meet the convergence rule, and the efficiency of network computing improved. The simulation results show that the method can obtain the optimal fitness value, fast convergence and processing speed while performing the intelligent computing of the network big data.
Keywords: intelligent information processing; particle swarm; network computing; big data
0 引 言
在網(wǎng)絡(luò)計(jì)算中需要進(jìn)行大數(shù)據(jù)處理,結(jié)合云計(jì)算技術(shù)進(jìn)行網(wǎng)格化分布式計(jì)算,滿足日益增長(zhǎng)的大數(shù)據(jù)信息規(guī)模處理效率的要求[1]。智能群體仿生計(jì)算方法是一種較好的網(wǎng)絡(luò)大數(shù)據(jù)處理方法,其中的典型代表就是粒子群算法,粒子群算法是模仿生物信息學(xué)的無(wú)監(jiān)督學(xué)習(xí)方法[2],粒子群算法在大數(shù)據(jù)聚類(lèi)和數(shù)據(jù)庫(kù)訪問(wèn)等領(lǐng)域得到了廣泛的應(yīng)用,采用粒子群智能信息處理技術(shù)進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算,能提高計(jì)算效率,降低計(jì)算開(kāi)銷(xiāo),相關(guān)的算法研究受到人們的重視。在采用粒子群智能算法進(jìn)行網(wǎng)絡(luò)信息處理和大數(shù)據(jù)計(jì)算中,核心問(wèn)題是算法的收斂性和計(jì)算開(kāi)銷(xiāo)的問(wèn)題,針對(duì)當(dāng)前的粒子群算法容易陷入局部收斂且計(jì)算開(kāi)銷(xiāo)較大的問(wèn)題,本文提出一種優(yōu)化粒子群智能信息處理的網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算方法。
1 網(wǎng)絡(luò)計(jì)算的數(shù)據(jù)集規(guī)范化處理
為了實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算的優(yōu)化,首先需要對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行規(guī)范化處理,在網(wǎng)絡(luò)信息空間中,利用粒子群全局尋優(yōu)進(jìn)行大數(shù)據(jù)采樣,給定個(gè)數(shù)據(jù)點(diǎn)的樣本集,采用特征抽取方法得到大數(shù)據(jù)特征空間分布的個(gè)聚類(lèi)中心,將孤立點(diǎn)移出數(shù)據(jù),對(duì)余下樣本點(diǎn)根據(jù)樣本間的相異度進(jìn)行特征分類(lèi),得到類(lèi)數(shù)據(jù)的樣本集合,數(shù)據(jù)在相關(guān)區(qū)域中的信息流模型描述為采用慣量權(quán)重控制方法進(jìn)行數(shù)據(jù)集的規(guī)范化處理[3],確定處于高密度區(qū)域的數(shù)據(jù)點(diǎn),在海量大數(shù)據(jù)序列中計(jì)算樣本集中余下各點(diǎn)與領(lǐng)域內(nèi)的數(shù)據(jù)點(diǎn)的歐式距離,得到鄰近數(shù)據(jù)點(diǎn)的自相關(guān)協(xié)方差為:
大數(shù)據(jù)信息流的聚類(lèi)中心與其距離最小的鄰域所在的類(lèi)按照粒子在維空間中的位置劃分,采用特征尺度標(biāo)識(shí)方法生成一個(gè)高斯時(shí)間序列,通過(guò)特征尺度標(biāo)識(shí)得到網(wǎng)絡(luò)計(jì)算的數(shù)據(jù)集規(guī)范化處理計(jì)算的迭代式為:
又因?yàn)橐栽紨?shù)據(jù)的秩進(jìn)行空間重排,有:
通過(guò)Sigma檢驗(yàn)得到后,對(duì)線性相關(guān)的原始數(shù)據(jù)進(jìn)行Lyapunove指數(shù)求導(dǎo),生成相應(yīng)替代數(shù)據(jù),由此實(shí)現(xiàn)對(duì)整個(gè)網(wǎng)絡(luò)數(shù)據(jù)集的規(guī)范化處理。
2 網(wǎng)絡(luò)計(jì)算的大數(shù)據(jù)聚類(lèi)分析
2.1 粒子群個(gè)體的適應(yīng)度計(jì)算
在采用特征尺度標(biāo)識(shí)方法進(jìn)行網(wǎng)絡(luò)計(jì)算數(shù)據(jù)集規(guī)范化處理的基礎(chǔ)上,結(jié)合粒子群算法進(jìn)行網(wǎng)絡(luò)計(jì)算的大數(shù)據(jù)聚類(lèi)分析[4],首先需要計(jì)算粒子群個(gè)體的適應(yīng)度,通過(guò)交叉和變異的操作到大數(shù)據(jù)并行計(jì)算特征空間向量 tangent正交基,采用正交化的SVD運(yùn)算得到粒子群個(gè)體分布的規(guī)范正交基為:
在大數(shù)據(jù)挖掘的過(guò)程中,數(shù)據(jù)信息流的最大Lyapunove指數(shù)譜通過(guò)自適應(yīng)泛函通向局部收斂,有: (5)
對(duì)全部自回歸移動(dòng)平均 (ARMA,Auto?Regressive Moving Average)模型進(jìn)行粒子群的收斂性控制[5],得到粒子群個(gè)體的聚類(lèi)中心收斂于:
先設(shè)定好密度參數(shù)(MP和ε),對(duì)原始數(shù)據(jù)的排列順序進(jìn)行重置,計(jì)算粒子當(dāng)前的速度,得到數(shù)據(jù)集個(gè)數(shù)據(jù)點(diǎn)之間的自相關(guān)向量為:
對(duì)于任意的數(shù)據(jù)點(diǎn)和采用個(gè)體最優(yōu)位置尋優(yōu)[6],得到網(wǎng)絡(luò)并行計(jì)算的相軌跡矩陣為:
為了簡(jiǎn)化,把式(8)改寫(xiě)成矩陣形式為:
式中:為維的數(shù)據(jù)擬合向量;為維的并行計(jì)算輸出矩陣;為維的自適應(yīng)權(quán)重;為維的測(cè)量誤差向量。采取非線性權(quán)值遞減方法[7],進(jìn)行粒子群個(gè)體的適應(yīng)度計(jì)算為:
其中,尋優(yōu)粒子群個(gè)體之間的歐式距離為:
通過(guò)對(duì)粒子群個(gè)體的適應(yīng)度計(jì)算,避免了粒子在并行計(jì)算中陷入局部收斂。
2.2 網(wǎng)絡(luò)計(jì)算的數(shù)據(jù)聚類(lèi)中心求解
根據(jù)粒子速度和位置更新迭代公式確定初始聚類(lèi)中心,粒子速度和位置迭代公式為:
式中:是當(dāng)前粒子的速度;是當(dāng)前粒子的位置。
為避免粒子陷入局部最優(yōu),用所有粒子適應(yīng)度進(jìn)行自適應(yīng)訓(xùn)練,訓(xùn)練過(guò)程可描述為:
式中為最大的迭代次數(shù),由此計(jì)算網(wǎng)絡(luò)數(shù)據(jù)并行計(jì)算的聚類(lèi)中心為:
2.3 粒子群智能信息處理優(yōu)化算法實(shí)現(xiàn)
在數(shù)據(jù)集中選擇個(gè)實(shí)例,通過(guò)混沌差分?jǐn)_動(dòng)進(jìn)行個(gè)體尋優(yōu),得到粒子群智能信息處理的優(yōu)化目標(biāo)函數(shù)為:
設(shè)定初值采用QR分解與,得到:
由此可見(jiàn),采用粒子自適應(yīng)尋優(yōu)使得整個(gè)網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算程序滿足收斂法則,降低群體適應(yīng)度方差,粒子群整體適應(yīng)度方差為:
式中為粒子的個(gè)數(shù),數(shù)據(jù)點(diǎn)的位置和速度可以由粒子速度和位置的整體編碼得到,由此實(shí)現(xiàn)了網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算的粒子群算法優(yōu)化及智能信息處理。
3 實(shí)驗(yàn)結(jié)果與分析
對(duì)網(wǎng)絡(luò)大數(shù)據(jù)并行計(jì)算的仿真實(shí)驗(yàn)建立在Matlab仿真軟件基礎(chǔ)上,粒子數(shù)種群規(guī)模為,網(wǎng)絡(luò)并行計(jì)算的網(wǎng)格空間維度設(shè)置為40,種群進(jìn)化的迭代次數(shù)為100,慣性權(quán)重0.4,學(xué)習(xí)因子,,對(duì)網(wǎng)絡(luò)大數(shù)據(jù)規(guī)范化處理的訓(xùn)練函數(shù)選擇Sphere函數(shù)、Rastrigrin函數(shù),分別為:
根據(jù)上述仿真參數(shù)設(shè)定,進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)并行計(jì)算處理,大數(shù)據(jù)規(guī)模為258 Gb,實(shí)驗(yàn)數(shù)據(jù)樣本集的維數(shù)和類(lèi)型設(shè)定見(jiàn)表1。
以上述實(shí)驗(yàn)數(shù)據(jù)為測(cè)試樣本集,進(jìn)行粒子群優(yōu)化計(jì)算。圖1給出了采用本文方法和傳統(tǒng)的蟻群算法和神經(jīng)網(wǎng)絡(luò)算法進(jìn)行并行計(jì)算的收斂曲線和迭代步數(shù)仿真結(jié)果。表2給出了不同算法的各項(xiàng)計(jì)算參量指標(biāo)對(duì)比。分析得知,采用本文方法進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算的收斂性較好,能快速收斂到全局最優(yōu)適應(yīng)度值,計(jì)算耗時(shí)較小,滿足實(shí)時(shí)性處理要求。
4 結(jié) 語(yǔ)
本文提出基于優(yōu)化粒子群智能信息處理的網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算方法。采用特征尺度標(biāo)識(shí)方法進(jìn)行網(wǎng)絡(luò)計(jì)算數(shù)據(jù)集規(guī)范化處理,結(jié)合粒子群算法進(jìn)行網(wǎng)絡(luò)計(jì)算的大數(shù)據(jù)聚類(lèi)分析,根據(jù)粒子速度和位置更新迭代公式確定初始聚類(lèi)中心,通過(guò)混沌差分?jǐn)_動(dòng)進(jìn)行個(gè)體尋優(yōu),降低群體適應(yīng)度方差,使得計(jì)算程序滿足收斂法則,提高網(wǎng)絡(luò)計(jì)算的效率。該方法進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)的智能計(jì)算能在較短的迭代步數(shù)下得到最優(yōu)適應(yīng)度值,收斂性和處理速度以及尋優(yōu)精度方面優(yōu)于傳統(tǒng)方法,具有較好的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] 黃楠.海量信息存儲(chǔ)中數(shù)據(jù)庫(kù)性能優(yōu)化方法[J].科技通報(bào),2013,29(3):162?164.
[2] 夏平平,呂太之,賈巖峰.免疫粒子群優(yōu)化算法及性能分析[J].貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,28(5):104?107.
[3] 劉楊,田學(xué)峰,詹志輝.粒子群優(yōu)化算法慣量權(quán)重控制方法的研究[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,47(4):364?371.
[4] 邢淑凝,劉方愛(ài),趙曉暉.基于聚類(lèi)劃分的高效用模式并行挖掘算法[J].計(jì)算機(jī)應(yīng)用,2016,36(8):2202?2206.
[5] SONG W, LIU Y, LI J. Mining high utility itemsets by dynamically pruning the tree structure [J]. Applied intelligence, 2014, 40(1): 29?43.
[6] HIE B E, HSIAO H F, TSENG V S. Efficient algorithms for discovering high utility user behavior patterns in mobile commerce environments [J]. Knowledge and information systems, 2013, 37(2): 363?387.
[7] 包永紅.云計(jì)算技術(shù)下數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)及技術(shù)[J].現(xiàn)代電子技術(shù),2016,39(16):61?63.
[8] PIRES E J S, MACHADO J A T, OLIVERIA P B D M, et al. Particle swarm optimization with fractional?order velocity [J].
Nonlinear dynamics, 2010, 61(1/2): 295?301.