蹇旭
摘 要: 針對傳統(tǒng)云端計算過程中的數(shù)據(jù)特定信息提取不精確的問題,提出一種云計算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法。采用矩陣節(jié)點差分模型進行數(shù)據(jù)的有序排列,避免傳統(tǒng)方法中的數(shù)據(jù)混亂造成提取數(shù)據(jù)不精確,龐大的云端數(shù)據(jù)量致使數(shù)據(jù)的定位不精準,為了避免此類問題的產(chǎn)生,使用多維數(shù)據(jù)定位計算,能夠有效地解決定位不準的問題,最終可以成功的對數(shù)據(jù)信息進行有效提取。為了驗證設(shè)計云計算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法的有效性,設(shè)計了對比仿真實驗,實驗結(jié)果充分證明了該方法能夠有效地解決數(shù)據(jù)提取不精確的問題。
關(guān)鍵詞: 云計算; 數(shù)據(jù)特定特征; 特征挖掘技術(shù); 提取精度
中圖分類號: TN911?34; G420 文獻標識碼: A 文章編號: 1004?373X(2017)13?0178?03
Abstract: For the imprecise data specific information extraction in the process of traditional cloud computing, a specific characteristic mining method of massive data in cloud computing environment is presented. The matrix node difference model is used to arrange the data orderly, and avoid the imprecise extraction data caused by data confusion of the traditional method. The huge cloud data makes the data positioning imprecise. In order to eliminate the above problem, the multidimensional data positioning calculation is adopted to solve the problem of imprecise positioning effectively, and extract the data information successfully. In order to verify the effectiveness of the massive data specific characteristic mining method in cloud computing environment, the contrast simulation experiment was designed. The experimental results fully prove that the method can improve the accuracy of the data extraction effectively.
Keywords: cloud computing; data specific characteristic; feature mining technology; extraction accuracy
0 引 言
隨著科技的快速發(fā)展,數(shù)據(jù)信息時代逐漸向著云時代變遷,數(shù)據(jù)的運算存儲已經(jīng)由傳統(tǒng)的硬盤存儲逐漸發(fā)展成為云端計算存儲[1]。通過云端的計算存儲已經(jīng)在很大程度上摒棄了原有的算法規(guī)則,能夠更大程度的進行數(shù)據(jù)統(tǒng)計和數(shù)據(jù)運算[2]。在使用云端計算的環(huán)境下,存儲在云端的海量數(shù)據(jù)都是通過數(shù)據(jù)定位以及數(shù)據(jù)分析進行計算的,使用適當?shù)恼{(diào)度方法可以在很大程度上進行數(shù)據(jù)的特征提取。所以,有效的數(shù)據(jù)調(diào)度可以充分提高數(shù)據(jù)的特征提取能力,但是傳統(tǒng)的云端計算過程由于數(shù)據(jù)存儲量過于繁雜,并且在進行數(shù)據(jù)定位的過程中需要進行數(shù)據(jù)識別。傳統(tǒng)的方法是使用數(shù)據(jù)的屬性進行標識識別,但是為了數(shù)據(jù)的存儲方便一般會進行適當?shù)臄?shù)據(jù)壓縮和數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)進行調(diào)用過程中十分的繁瑣,并且數(shù)據(jù)的調(diào)用過程是一個識別提取的過程,這種方式極大地影響了數(shù)據(jù)特征提取的速度以及準確性[3?4]。在進行數(shù)據(jù)特征提取的過程中還存在一些數(shù)據(jù)節(jié)點,這些節(jié)點極大程度上限制了提取的精度[4?5]。綜上所述,本文設(shè)計了一種云計算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法,該方法能夠有效解決上述問題[6]。
1 運用矩陣節(jié)點差分計算方法進行數(shù)據(jù)特定特
征挖掘
使用矩陣節(jié)點差分計算可以提高數(shù)據(jù)提取的精準度,在計算之前需要進行數(shù)據(jù)的方位確定以及數(shù)據(jù)的預(yù)處理[7?8]。
式中:為單位下數(shù)據(jù)信息量;為數(shù)據(jù)的信息坐標;為提取條件下的屬性條件;為實際的屬性值域。
當限制節(jié)點傳輸信息至?xí)r,傳輸單位需要經(jīng)過個節(jié)點才能進行屬性提取。關(guān)系式為:
保證數(shù)據(jù)的正確性和快速性是通過區(qū)域的劃分得到的,劃分前需要預(yù)設(shè)參數(shù),通過設(shè)定能夠?qū)x擇精度進行控制,避免誤差的產(chǎn)生。
式中:為離散參數(shù);為整合參數(shù)域;為區(qū)域代理值;表示提取深度;代表數(shù)據(jù)衡量值。
進行數(shù)據(jù)的特征提取過程中,使用矩陣節(jié)點差分方法,因此需要進行數(shù)據(jù)的預(yù)處理[9],預(yù)處理之后才可以使用,首先是數(shù)據(jù)編續(xù):
經(jīng)過序號的排列以后,方便數(shù)據(jù)在大量數(shù)據(jù)中進行準確提取,但是排序之后的數(shù)據(jù)不能直接使用,需要一定的調(diào)用計算,方便在提取過程中屬性的搭配:
式中:表示單位時間數(shù)據(jù)能夠調(diào)用的屬性;表示實際區(qū)域范圍內(nèi)數(shù)據(jù)的識別碼;是實際計算中的屬性參數(shù);表示計算常量。
通過上述計算便可以進行矩陣節(jié)點差分方程的計算,建立如下矩陣:
通過化簡的公式可以看出數(shù)據(jù)與實際調(diào)用的關(guān)系,把公式進行加權(quán)處理就可以得到關(guān)系公式,這樣可以更加精確的在海量數(shù)據(jù)中完成特征提取。
限定好實用的屬性參數(shù)及屬性目標,進行加權(quán)計算:
本文運用矩陣節(jié)點差分計算方法進行數(shù)據(jù)特定特征挖掘,在計算前進行數(shù)據(jù)的預(yù)處理保證了數(shù)據(jù)的有效性,提高了結(jié)果的精準度,最后用條件進行限定保證在大量的數(shù)據(jù)中能夠進行精準的計算。
2 實驗驗證
為了驗證本文設(shè)計的云計算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法的有效性,設(shè)計了對比仿真實驗。選定某網(wǎng)絡(luò)數(shù)據(jù)公司大型云端數(shù)據(jù)庫進行數(shù)據(jù)特征提取,首先使用傳統(tǒng)的方法進行云端數(shù)據(jù)提取,然后使用本文設(shè)計的云計算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法進行數(shù)據(jù)的特征提取。
2.1 參數(shù)設(shè)置
為了保證實驗的有效性,同時進行實驗,設(shè)置調(diào)配參數(shù)為65.8;數(shù)據(jù)坐標分別為150,100;為了保證數(shù)據(jù)提取的速度,設(shè)置為68.5;設(shè)置分別為55,60,100。
2.2 數(shù)據(jù)對比分析
實驗對比結(jié)果如圖1,圖2,表1所示。
通過圖1可以看出本文設(shè)計的方法能夠在更短的時間內(nèi)得到結(jié)果,同時所用的時間是傳統(tǒng)方法的一半左右。
通過圖2的誤差對比結(jié)果可以看出,本文設(shè)計的云計算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法能夠有效地降低誤差,保證在海量數(shù)據(jù)下的特征提取。
表1的實驗結(jié)果能夠充分證明,本文設(shè)計的云計算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法能夠有效地提高數(shù)據(jù)特征百分比,同時能夠在更短的時間內(nèi)進行更多的特征提取。
3 結(jié) 語
本文設(shè)計的云計算環(huán)境下的海量數(shù)據(jù)特定特征挖掘方法能夠有效地解決數(shù)據(jù)特征提取過程中提取不精確的問題,同時所需要的時間更短,得到的結(jié)果不需要進行修正,能夠更好地完成對海量數(shù)據(jù)的特征提取。本文的研究能夠為云端數(shù)據(jù)提取提供良好的理論依據(jù)。
參考文獻
[1] 廉文武,傅凌玲,黃潮.云計算環(huán)境下數(shù)據(jù)弱關(guān)聯(lián)挖掘模型的仿真[J].計算機仿真,2015,32(4):359?362.
[2] 盧小賓,王濤.Google三大云計算技術(shù)對海量數(shù)據(jù)分析流程的技術(shù)改進優(yōu)化研究[J].圖書情報工作,2015,59(3):6?11.
[3] 何清,莊福振,曾立,等.PDMiner:基于云計算的并行分布式數(shù)據(jù)挖掘工具平臺[J].中國科學(xué):信息科學(xué),2014,44(7):871?885.
[4] 劉輝.云計算環(huán)境下海量激光點云數(shù)據(jù)的高密度存儲器邏輯結(jié)構(gòu)設(shè)計[J].激光雜志,2016,37(9):91?95.
[5] 白紅偉,馬志偉,朱永利.基于云計算的絕緣子狀態(tài)監(jiān)測數(shù)據(jù)的處理[J].電瓷避雷器,2011(4):19?22.
[6] 錢維揚,王俊義,仇洪冰.基于Hadoop的數(shù)據(jù)挖掘技術(shù)在測光紅移上的研究[J].電子技術(shù)應(yīng)用,2016,42(9):111?114.
[7] 劉海龍,宿宏毅.利用Hadoop云計算平臺進行海量數(shù)據(jù)聚類分析[J].艦船科學(xué)技術(shù),2016(14):148?150.
[8] 曹建春,李聰.海上軍事海量數(shù)據(jù)的物聯(lián)網(wǎng)數(shù)據(jù)庫存儲系統(tǒng)研究[J].艦船科學(xué)技術(shù),2016(12):175?177.
[9] 任瓊,常君明.基于任務(wù)分類思維的云計算海量資源改進調(diào)度[J].科學(xué)技術(shù)與工程,2016,16(12):101?105.