馬 寧,廖慧惠
(1.安徽廣播電視大學(xué),安徽 合肥 230022;2.安徽工業(yè)經(jīng)濟職業(yè)技術(shù)學(xué)院,安徽 合肥 230051)
云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法研究
馬 寧1,廖慧惠2
(1.安徽廣播電視大學(xué),安徽 合肥 230022;2.安徽工業(yè)經(jīng)濟職業(yè)技術(shù)學(xué)院,安徽 合肥 230051)
近年來,隨著時代的發(fā)展以及科學(xué)技術(shù)的進步,使得人類逐漸步入到網(wǎng)絡(luò)信息時代.在這樣的背景之下,計算機日益發(fā)展并在社會生產(chǎn)、生活過程中獲得了廣泛的運用.事實上,在云計算的環(huán)境之下,各類的商業(yè)數(shù)據(jù)資料往往以分布式的形式進行儲存,而常規(guī)的數(shù)據(jù)挖掘模式無法對各類數(shù)據(jù)進行分布式挖掘.在這種情況下,如何促進這一問題的解決成為了相關(guān)部門亟待解決的問題.本文基于此,分析探討云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法.
云計算;網(wǎng)絡(luò)環(huán)境;頻繁出現(xiàn);異常數(shù)據(jù);挖掘方法
目前,傳統(tǒng)挖掘算法無法對云計算的環(huán)境下出現(xiàn)異常數(shù)據(jù)進行有效的識別以及量化,故而導(dǎo)致異常數(shù)據(jù)挖掘誤差大等問題的出現(xiàn).基于這一現(xiàn)狀,相關(guān)的部門加強了對于混沌算法的改進,并逐步融合了偏最小二乘法,實現(xiàn)了異常數(shù)據(jù)的清洗以及無量綱化處理,實現(xiàn)了對于諸類問題的有效解決.本文基于此,分析探討如何實現(xiàn)對于云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘.
目前,技術(shù)人員在對云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)進行挖掘、處理操作的過程中,往往需要加強對于源數(shù)據(jù)集合的確定,并在此基礎(chǔ)之上加強對于頻繁出現(xiàn)異常數(shù)據(jù)分布、概率模型的構(gòu)建.隨后再借助不一致性的檢驗方法對頻繁出現(xiàn)異常數(shù)據(jù)數(shù)目進行確定,最后對異常數(shù)據(jù)進行有效的挖掘.關(guān)于該挖掘過程的具體流程,筆者進行了相關(guān)描述,具體內(nèi)容如下.
1.1 構(gòu)建異常數(shù)據(jù)的概率模型
在進行云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘過程中,需要技術(shù)人員首先進行異常數(shù)據(jù)的概率模型的構(gòu)建.在實際的操作過程中,為了確保模型的科學(xué)性,需要假設(shè)數(shù)據(jù)空間的每一維都會被分成Ψ個等深度區(qū)域.關(guān)于概率模型的計算方式,具體內(nèi)容如下:
在上述的計算方式中,Ψ0指的是數(shù)據(jù)傳送方向性系數(shù);β指代的則是數(shù)據(jù)的穩(wěn)態(tài)權(quán)向量;f0則是數(shù)據(jù)頻移特征.
1.2 挖掘頻繁出現(xiàn)異常數(shù)據(jù)
在進行云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘作業(yè)過程中,技術(shù)人員需要構(gòu)建起后頻繁出現(xiàn)異常數(shù)據(jù)挖掘的計算方程式,并用S(D)表示.關(guān)于頻繁出現(xiàn)異常數(shù)據(jù)的挖掘公式,筆者總結(jié)如下:
在上述的公式中,N*指的是異常數(shù)據(jù)的抽樣概率分布參數(shù);而fk指代的則是異常數(shù)據(jù)歸一化的時間向量.
通過分析可以得知:借助上述的公式進行云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘,雖然能夠促進這一作業(yè)的有效開展,但是還是存在著挖掘不準確、誤差大的問題.基于此,需要相關(guān)的技術(shù)人員加強對于混沌算法的改進,優(yōu)化挖掘方法.
前文提到,傳統(tǒng)的數(shù)據(jù)挖掘方法在操作的過程中無法對頻繁出現(xiàn)的異常數(shù)據(jù)進行具體的量化,故而導(dǎo)致數(shù)據(jù)挖掘工作在開展的過程中存在著較大的誤差.為了有效地避免這一問題的出現(xiàn),需要相關(guān)的技術(shù)人員加強對于云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘的優(yōu)化.目前,技術(shù)人員最為常用的優(yōu)化方式就是改進混沌算法.對此,筆者進行了相關(guān)的總結(jié),具體內(nèi)容如下.
2.1 異常數(shù)據(jù)回歸方程的組建
在這一環(huán)節(jié)中,需要技術(shù)人員加強云計算環(huán)境下的數(shù)據(jù)源與偏最小二乘法的融合.其后在此基礎(chǔ)之上,加強對于數(shù)據(jù)的清洗以及無量綱化處理.一般而言,通過這一措施的采取,能夠獲得標準性較高的數(shù)據(jù)矩陣以及維向量.事實上,這兩個數(shù)值分別表示頻繁出現(xiàn)的異常數(shù)據(jù)預(yù)測變量以及決定因素.最后需要以此為基礎(chǔ)實現(xiàn)對于主成份的分析提取,并帶動云計算環(huán)境下數(shù)據(jù)源的線性回歸方程的構(gòu)建.關(guān)于異常數(shù)據(jù)回歸方程的組建具體流程,需要技術(shù)人員將數(shù)據(jù)源與偏最小二乘法進行有效的融合,并進行原始數(shù)據(jù)的清洗以及無量綱化處理.
2.2 計算標準化數(shù)據(jù)矩陣以及維向量
在進行標準化數(shù)據(jù)矩陣以及維向量的計算過程中,需要按照下述的公式進行相關(guān)的操作.
通過上述的分析,相關(guān)人員能夠得到云計算環(huán)境下數(shù)據(jù)源的回歸方程,并在此基礎(chǔ)之上引進混沌算法,實現(xiàn)對于數(shù)據(jù)源時間中相鄰兩個點間斜率的計算,此后再將這一計算結(jié)果與混沌算法預(yù)測的斜率進行比較,實現(xiàn)對于云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘.
在這一過程中,首先需要計算出數(shù)據(jù)源時間序列相鄰兩點之間的斜率,并將計算所得的數(shù)值與預(yù)測值進行對比.其實際的操作流程就是在數(shù)據(jù)源的D維空間中進行搜索,并對各數(shù)據(jù)的時間序列進行確定,各時間序列分別用:Xi1、Xi2、Xik表示.在進行斜率計算的過程中,需要技術(shù)人員按照下述的方程式進行相關(guān)的操作:
此外,筆者還對混沌算法的預(yù)測斜率的計算方式進行了總結(jié),具體內(nèi)容如下:
在此之后,技術(shù)人員需要加強對于頻繁出現(xiàn)異常數(shù)據(jù)最小均方差的計算,事實上,通過這一分析能夠?qū)崿F(xiàn)對于頻繁出現(xiàn)的異常數(shù)據(jù)的確定,并為挖掘作業(yè)提供最終的依據(jù).最后,技術(shù)人員需要利用如下的方程式,對云計算環(huán)境下頻繁出現(xiàn)的異常數(shù)據(jù)進行計算.
在上述的方程式中,如果F*[a...b,c]≤0,則說明b指的是云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù),若F*[a...b,c]≥0,則說明b不是頻繁出現(xiàn)異常數(shù)據(jù).
通過對于上述的流程進行分析可以得知:在進行云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘作業(yè)的過程中,相關(guān)的技術(shù)人員借助混沌算法對挖掘算法以及流程進行改進,往往能夠促進挖掘作業(yè)的誤差率的降低以及精確度的提升,促進該工作的有效開展.
為了進一步驗證基于改進混沌算法的云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘作業(yè)的效率的提高,筆者對此進行了相關(guān)的實驗驗證.在操作的過程中主要借助挖掘仿真平臺進行相關(guān)作業(yè).據(jù)悉,該平臺的各項參數(shù)為:INtelcore i5處理器,主頻2.8GHZ,4G內(nèi)存,windowsXP專業(yè)版32位sp2操作系統(tǒng).在實際的操作過程中,實驗所用的數(shù)據(jù)均來自于互聯(lián)網(wǎng)采用,在數(shù)據(jù)運用的過程中,主要采用隨意抽取的方式進行相關(guān)操作.最后利用改進算法和傳統(tǒng)算法對這些數(shù)據(jù)中頻繁出現(xiàn)的異常數(shù)據(jù)進行挖掘.
在仿真證明操作的過程中,筆者主要借助傳統(tǒng)的數(shù)據(jù)挖掘方法以及基于混沌算法數(shù)據(jù)挖掘方法的對比試驗進行相關(guān)的操作.在對比試驗的過程中,主要對算法挖掘的精確度、誤差率以及可靠度進行對比.
通過對于兩種數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)分析可以得知:借助傳統(tǒng)的挖掘方法進行數(shù)據(jù)挖掘操作的過程中,其挖掘的精確度、誤差率以及可靠度分別為:74%、0.5%以及73%;但是隨著基于混沌算法的異常數(shù)據(jù)挖掘的精確度、誤差率以及可靠度分別為:96%、0.1%以及97%.總體而言,這種技術(shù)的改進以及發(fā)展,促進了異常數(shù)據(jù)挖掘工作的精確度以及可靠度得到了不同程度的提升,而誤差率則大大減小.基于此,可以得知這種方法在運行的過程中要遠遠優(yōu)于傳統(tǒng)算法.
本文基于此,主要分析了云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)的挖掘流程:首先構(gòu)建異常數(shù)據(jù)的概率模型以及挖掘頻繁出現(xiàn)異常數(shù)據(jù).其后,對優(yōu)化云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘的措施(異常數(shù)據(jù)回歸方程的組建、計算標準化數(shù)據(jù)矩陣以及維向量)展開了論述.最后對云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)優(yōu)化挖掘的實現(xiàn)以及仿真證明進行了論述.筆者認為,隨著相關(guān)措施的落實到位,以及相關(guān)技術(shù)的不斷發(fā)展,云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法必將獲得長足的發(fā)展,并以此為基礎(chǔ)促進相關(guān)作業(yè)的有序進行,帶動了相關(guān)效益的取得.
〔1〕饒翔,王懷民,陳振邦,周揚帆,蔡華,周琦,孫廷韜.云計算系統(tǒng)中基于伴隨狀態(tài)追蹤的故障檢測機制[J].計算機學(xué)報, 2012(5):856-870.
〔2〕李德仁,姚遠,邵振峰.智慧城市中的大數(shù)據(jù)[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2014(6):631-640.
〔3〕任磊,杜一,馬帥,張小龍,戴國忠.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報,2014(9):1909-1936.
〔4〕李潔,許鑫,陳宇,張丁文.模擬DDoS攻擊場景下的云取證模型的研究[J].信息網(wǎng)絡(luò)安全,2015(6):67-72.
〔5〕洪斌,鄧波,彭甫陽,包陽,馮學(xué)偉.基于PCA降維的云資源狀態(tài)監(jiān)控數(shù)據(jù)壓縮技術(shù)[J].計算機科學(xué),2016(8):19-25.
〔6〕迪莉婭.基于云計算的電子政務(wù)大數(shù)據(jù)管理研究[J].圖書館理論與實踐,2013(12):49-52.
〔7〕黃守明,張紅莉.基于云計算模式下的Apriori算法研究[J].銅陵學(xué)院學(xué)報,2013(3):106-108+116.
〔8〕嚴駿.基于云計算的海量數(shù)據(jù)挖掘研究[J].信息與電腦(理論版),2013(4)4:110-111.
TP311
A
1673-260X(2017)02-0031-02
2016-12-10
安徽省高校優(yōu)秀青年人才支持計劃重點項目支持(gxyqZD2016454)