鄧芳
摘 要: 當(dāng)前對大型物聯(lián)網(wǎng)電子設(shè)備數(shù)據(jù)采用狀態(tài)模式識別的數(shù)據(jù)挖掘方式,對具有差異性特征的電子設(shè)備數(shù)據(jù)挖掘無法分類識別,性能不好。在此提出一種基于關(guān)聯(lián)度主特征量提取的大型物聯(lián)網(wǎng)電子設(shè)備的海量數(shù)據(jù)高效挖掘方法,首先分析了大型物聯(lián)網(wǎng)中電子設(shè)備的數(shù)據(jù)采集模型,通過對電子設(shè)備的原始數(shù)據(jù)采集,提取電子設(shè)備數(shù)據(jù)信息的關(guān)聯(lián)度主特征量,采用海量數(shù)據(jù)挖掘最優(yōu)控制算法實現(xiàn)對大型物聯(lián)網(wǎng)中的電子設(shè)備海量數(shù)據(jù)的分類挖掘和特征提取。仿真結(jié)果表明,采用該算法進(jìn)行數(shù)據(jù)挖掘,電子數(shù)據(jù)的數(shù)據(jù)差異性特征幅度平穩(wěn),數(shù)據(jù)的關(guān)聯(lián)度區(qū)分明顯,具有較好的分類識別和數(shù)據(jù)檢測能力且系統(tǒng)運(yùn)行效率提高。
關(guān)鍵詞: 物聯(lián)網(wǎng); 電子設(shè)備; 數(shù)據(jù)挖掘; 信息提取
中圖分類號: TN915.03?34; TP393.04 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)04?0159?04
Abstract: The current data mining mode of state pattern recognition is used for the electronic equipment data of large?scale IOT, which can not be classified and identified, and the good performance can not be caught. An efficient data mining method for electronic devices in large?scale IOT based on the main feature extraction of association degree is proposed. The data acquirng model of the electronic equipments in large?scale internet of things is analyzed, The main features of association degree of the electronic equipments are extracted by collecting the original data of the electronic equipments. The optimal control algorithm of massive data mining is adopted to realize classification mining and feature extraction of electronic equipment massive data in large?scale IOT. The simulation results show that this algorithm has excellent ability of classification, identification and feature extraction, and the system operation efficiency is improved.
Keywords: Internet of Things; electronic equipment; data mining; information extraction
0 引 言
物聯(lián)網(wǎng)是物與物相連的互聯(lián)網(wǎng),是新一代信息技術(shù)的重要組成部分,在物聯(lián)網(wǎng)平臺下,采用射頻識別(RFID),通過紅外感應(yīng)器、GPS定位系統(tǒng)、圖像掃描器、數(shù)據(jù)感應(yīng)器等信息傳感設(shè)備,設(shè)定協(xié)議和通信端口,進(jìn)行信息交換和通信,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)。物聯(lián)網(wǎng)通過電子設(shè)備數(shù)據(jù)傳感器,對外界的原始特征數(shù)據(jù)進(jìn)行數(shù)據(jù)采集,再通過網(wǎng)絡(luò)層進(jìn)行數(shù)據(jù)傳輸通信,發(fā)送到應(yīng)用層實現(xiàn)面向?qū)ο蟮臄?shù)據(jù)應(yīng)用,達(dá)到遠(yuǎn)程控制和智能化處理的目的??梢?,大型物聯(lián)網(wǎng)由感知層、網(wǎng)絡(luò)層和應(yīng)用層三層體系構(gòu)成。其中感知層實現(xiàn)原始數(shù)據(jù)采集,網(wǎng)絡(luò)層實現(xiàn)數(shù)據(jù)通信,應(yīng)用層實現(xiàn)功能應(yīng)用。物聯(lián)網(wǎng)的三層體系結(jié)構(gòu)中都含有大量的電子設(shè)備信息,且各個電子設(shè)備的應(yīng)用功能不同,需要對物聯(lián)網(wǎng)中電子設(shè)備的相關(guān)數(shù)據(jù)進(jìn)行有效挖掘和特征提取,發(fā)掘出有用特征為系統(tǒng)所用;因此研究大型物聯(lián)網(wǎng)的電子設(shè)備海量數(shù)據(jù)挖掘算法在提高物聯(lián)網(wǎng)的使用性能方面具有重要意義[1?3]。
傳統(tǒng)方法中,對大型物聯(lián)網(wǎng)的電子設(shè)備海量數(shù)據(jù)挖掘算法是建立在處理器集群平臺基礎(chǔ)上,通過數(shù)據(jù)傳感器把電子設(shè)備信息數(shù)據(jù)在處理器集群平臺中進(jìn)行數(shù)據(jù)整合,然后用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人員和物等通過新的方式連在一起,實現(xiàn)數(shù)字處理集群,達(dá)到物聯(lián)網(wǎng)中的電子設(shè)備數(shù)據(jù)挖掘的目的[4?5]。關(guān)于大型物聯(lián)網(wǎng)中電子設(shè)備數(shù)據(jù)挖掘的算法研究,相關(guān)文獻(xiàn)給出了對應(yīng)的描述,并取得了一定的研究成果。其中文獻(xiàn)[6]提出了一種針對物聯(lián)網(wǎng)中大數(shù)據(jù)量高速分組業(yè)務(wù)電子設(shè)備信息挖掘算法,把各類電子設(shè)備數(shù)據(jù)分成多個小的分支進(jìn)行,從而達(dá)到整體效率的提升,系統(tǒng)在大數(shù)據(jù)量是穩(wěn)定可靠的,但應(yīng)對大數(shù)據(jù)量隨機(jī)變化時電子設(shè)備信息分類的能力欠缺。文獻(xiàn)[7]提出了一種面向服務(wù)物聯(lián)網(wǎng)中電子設(shè)備大數(shù)據(jù)信息流調(diào)度算法,采用遺傳算法進(jìn)行搜索時所具有并行性和在全局解空間中搜索的特點,系統(tǒng)搜索效率高,但系統(tǒng)網(wǎng)格的劃分對系統(tǒng)結(jié)果影響大,且沒有很好的網(wǎng)格劃分標(biāo)準(zhǔn),物聯(lián)網(wǎng)中電子設(shè)備的差異性特征體現(xiàn)不明顯,對物聯(lián)網(wǎng)中的電子設(shè)備的海量信息大數(shù)據(jù)分類性能不好,且全局收斂性不好,易陷入局部收斂??梢姡?dāng)前方法對大型物聯(lián)網(wǎng)電子設(shè)備數(shù)據(jù)采用狀態(tài)模式識別的數(shù)據(jù)采集算法,對具有差異性特征的電子設(shè)備數(shù)據(jù)挖掘無法分類識別,性能不好。針對上述問題,本文提出一種基于關(guān)聯(lián)度主特征量提取的大型物聯(lián)網(wǎng)電子設(shè)備的海量數(shù)據(jù)高效挖掘方法。仿真實驗進(jìn)行了性能驗證,展示了本文算法的優(yōu)越性。
1 問題描述及大型物聯(lián)網(wǎng)中電子設(shè)備的數(shù)據(jù)采
集模型
1.1 大型物聯(lián)網(wǎng)中的電子設(shè)備海量數(shù)據(jù)挖掘問題描述
大型物聯(lián)網(wǎng)的電子設(shè)備海量數(shù)據(jù)挖掘是設(shè)計一種有效的大型物聯(lián)網(wǎng)電子設(shè)備數(shù)據(jù)監(jiān)測儀為基礎(chǔ),系統(tǒng)的設(shè)計重點在數(shù)據(jù)挖掘算法設(shè)計和數(shù)據(jù)采集系統(tǒng)的改進(jìn)上。物聯(lián)網(wǎng)通過電子設(shè)備進(jìn)行數(shù)據(jù)采集和信號處理,采用信號處理和數(shù)據(jù)通信方法把各種信息傳感設(shè)備進(jìn)行連接,實現(xiàn)對感知層的數(shù)據(jù)傳感器的數(shù)據(jù)檢測和過程控制。典型的物聯(lián)網(wǎng)網(wǎng)絡(luò)系統(tǒng)架構(gòu)一般為三層體系,通常由感知層、網(wǎng)絡(luò)層和應(yīng)用層三層體系構(gòu)成。其中感知層(Sensor Layer)是直接面向數(shù)據(jù)信息源的底層,采用數(shù)據(jù)傳感器等電子設(shè)備實現(xiàn)對特定數(shù)據(jù)的采集和挖掘;網(wǎng)絡(luò)層(Network Layer)是大型物聯(lián)網(wǎng)系統(tǒng)的通信和數(shù)據(jù)傳輸層,采用Internet,GPRS,3G,WiFi網(wǎng)絡(luò)實現(xiàn)數(shù)據(jù)通信;應(yīng)用層是系統(tǒng)的頂層,實現(xiàn)整個物聯(lián)網(wǎng)系統(tǒng)的應(yīng)用和管理,包括數(shù)據(jù)應(yīng)用、過程控制和遠(yuǎn)程監(jiān)控等,通過面向?qū)ο蟮膽?yīng)用決策,實現(xiàn)系統(tǒng)最終功能的完成。大型物聯(lián)網(wǎng)的電子設(shè)備信息數(shù)據(jù)的挖掘和傳輸以及應(yīng)用過程示意圖如圖1所示。由圖1可知,在大型物聯(lián)網(wǎng)系統(tǒng)中,感知層實現(xiàn)原始數(shù)據(jù)采集;網(wǎng)絡(luò)層實現(xiàn)數(shù)據(jù)通信;應(yīng)用層實現(xiàn)功能應(yīng)用。各層體系結(jié)構(gòu)都含有大量的如傳感器、通信設(shè)備和網(wǎng)絡(luò)設(shè)備等電子設(shè)備,需要對大型物聯(lián)網(wǎng)的電子設(shè)備進(jìn)行有效挖掘,提取有用信息,提高物聯(lián)網(wǎng)電子設(shè)備的應(yīng)用性能。
1.2 當(dāng)前的物聯(lián)網(wǎng)中數(shù)據(jù)挖掘原理與存在的弊端
大型物聯(lián)網(wǎng)中,應(yīng)用層用戶通常更加關(guān)心電子設(shè)備數(shù)據(jù)的信息采集和特征內(nèi)容,需要對此進(jìn)行有效挖掘,子設(shè)備海量數(shù)據(jù)存儲于數(shù)據(jù)資源池,通過數(shù)據(jù)中心網(wǎng)絡(luò)實現(xiàn)數(shù)據(jù)的調(diào)度和取回,大型物聯(lián)網(wǎng)中的電子設(shè)備海量數(shù)據(jù)的存儲結(jié)構(gòu)描述如圖2所示。
式中:[xi∈Rn],代表大型物聯(lián)網(wǎng)電子設(shè)備數(shù)據(jù)的狀態(tài)矢量;[Aj(L)]為在約束條件L下的聚類結(jié)果。對式(3)目標(biāo)約束函數(shù)進(jìn)行求解,計算結(jié)果必須滿足小于電子設(shè)備數(shù)據(jù)采集匹配偏差的約束條件,將符合條件的解與數(shù)據(jù)流的非線性特征進(jìn)行匹配,匹配成功的數(shù)據(jù)即為電子設(shè)備的海量數(shù)據(jù),實現(xiàn)對電子設(shè)備數(shù)據(jù)挖掘。但是,物聯(lián)網(wǎng)的環(huán)境相對復(fù)雜,因此,在聚類過程中,很容易出現(xiàn)數(shù)據(jù)冗余融合或者干擾的問題,導(dǎo)致式(2)的聚類性能出現(xiàn)較大偏差,給后期的挖掘結(jié)果造成影響。本文提出一種改進(jìn)的算法。
2 海量數(shù)據(jù)高效挖掘算法改進(jìn)與實現(xiàn)
2.1 電子設(shè)備的關(guān)聯(lián)度主特征量提取算法
2.2 物聯(lián)網(wǎng)中的數(shù)據(jù)挖掘與應(yīng)用
在物聯(lián)網(wǎng)中,由于大型物聯(lián)網(wǎng)的數(shù)據(jù)之間的關(guān)聯(lián)性是自反的和傳遞的,將上述的方法采用主特征量分割挖掘,設(shè)置物聯(lián)網(wǎng)下電子設(shè)備數(shù)據(jù)挖掘的初始化值為0,利用如下公式能夠?qū)Υ笮臀锫?lián)網(wǎng)電子設(shè)備數(shù)據(jù)在存儲服務(wù)器上讀?。?/p>
式中:X和Y代表物聯(lián)網(wǎng)環(huán)境下的主特征,兩者的差為約束條件;N為約束系數(shù),特征數(shù)據(jù)并行化地存儲到不同的物聯(lián)網(wǎng)中間件中,實現(xiàn)對電子設(shè)備數(shù)據(jù)的預(yù)存和調(diào)度,基于上述模型,得到了電子設(shè)備海量數(shù)據(jù)挖掘的完整性邊界條件為[fX≤NX,fY≤NY],實現(xiàn)了大型物聯(lián)網(wǎng)中海量數(shù)據(jù)挖掘設(shè)計。
3 仿真實驗與性能分析
為了測試本文算法在實現(xiàn)大型物聯(lián)網(wǎng)電子設(shè)備海量數(shù)據(jù)挖掘中的性能,進(jìn)行仿真實驗。仿真實驗硬件環(huán)境表述為:處理器Intel[?]CoreTM2 Duo CPU 2.94 GHz,內(nèi)存為8 GB;操作系統(tǒng)為Windows 7;編程語言為Matlab 7語言。本實驗采用Cloudsim平臺來模擬大型物聯(lián)網(wǎng)環(huán)境下的電子設(shè)備海量數(shù)據(jù)存儲和數(shù)據(jù)采集系統(tǒng),首先構(gòu)建大型物聯(lián)網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)模型,大型物聯(lián)網(wǎng)系統(tǒng)中,電子設(shè)備作為節(jié)點,均勻分布在網(wǎng)絡(luò)結(jié)構(gòu)中,電子設(shè)備數(shù)據(jù)采集的時間間隔為0.1 s,背景干擾的信噪比分布為:-5 dB,-10 dB,-11 dB和-15 dB。物聯(lián)網(wǎng)的數(shù)據(jù)采集感知層電子設(shè)備參數(shù)設(shè)置和應(yīng)用層及網(wǎng)絡(luò)層的電子設(shè)備參數(shù)設(shè)置如表1所示。
在實驗的過程中,設(shè)置控制參數(shù)[α=2, β=6]。首先進(jìn)行大型物聯(lián)網(wǎng)中的電子設(shè)備數(shù)據(jù)的采集,然后基于關(guān)聯(lián)度主特征量提取,實現(xiàn)了大型物聯(lián)網(wǎng)電子設(shè)備的海量數(shù)據(jù)高效挖掘。以大型物聯(lián)網(wǎng)中的4組電子設(shè)備數(shù)據(jù)挖掘為例,得到數(shù)據(jù)挖掘結(jié)果如圖3所示。
從圖3可見,采用本文算法能有效實現(xiàn)對大型物聯(lián)網(wǎng)中的海量數(shù)據(jù)的挖掘和特征提取,幅度平穩(wěn),數(shù)據(jù)的關(guān)聯(lián)度差異明顯,具有較好的分類識別和數(shù)據(jù)檢測能力,為了測試性能,在不同數(shù)據(jù)范圍下分析數(shù)據(jù)挖掘的時間執(zhí)行開銷,得到結(jié)果如圖4所示,從圖4可見,采用本文算法,具有較小的時間執(zhí)行開銷,提高了大型物聯(lián)網(wǎng)電子設(shè)備數(shù)據(jù)挖掘的時效性。
4 結(jié) 語
大型物聯(lián)網(wǎng)的各層體系結(jié)構(gòu)都含有大量的如傳感器、通信設(shè)備和網(wǎng)絡(luò)設(shè)備等電子設(shè)備,需要對大型物聯(lián)網(wǎng)的電子設(shè)備進(jìn)行有效挖掘,提取有用信息,提高物聯(lián)網(wǎng)電子設(shè)備的應(yīng)用性能。本文提出一種基于關(guān)聯(lián)度主特征量提取的大型物聯(lián)網(wǎng)電子設(shè)備的海量數(shù)據(jù)高效挖掘方法。分析本文的研究結(jié)果可見,采用本文算法能有效實現(xiàn)對大型物聯(lián)網(wǎng)中的海量數(shù)據(jù)的挖掘和特征提取,幅度平穩(wěn),數(shù)據(jù)的關(guān)聯(lián)度差異明顯,具有較好的分類識別和數(shù)據(jù)檢測能力。且系統(tǒng)運(yùn)行效率提高,運(yùn)行時間較短,系統(tǒng)能在1 s內(nèi)處理幾百萬次查詢和數(shù)據(jù)挖掘,因此該算法具有較強(qiáng)的實用性。
參考文獻(xiàn)
[1] 陳志,駱平,岳文靜,等.一種能量感知的無線傳感網(wǎng)拓?fù)淇刂扑惴╗J].傳感技術(shù)學(xué)報,2013,26(3):382?387.
[2] 王辛果,張信明,陳國良.時延受限且能量高效的無線傳感網(wǎng)絡(luò)跨層路由[J].軟件學(xué)報,2011,22(7):1626?1640.
[3] 歐世峰,高穎,趙曉暉.自適應(yīng)組合型盲源分離算法及其優(yōu)化方案[J].電子與信息學(xué)報,2011,33(5):1243?1247.
[4] 蔡昕燁,牛耘,黃志球,等.一種用于基因調(diào)控網(wǎng)絡(luò)建模的CGP?WPSO混合算法[J].計算機(jī)科學(xué),2012,39(9):180?182.
[5] 鄧異,梁燕,周勇.水聲換能器基陣信號采集系統(tǒng)優(yōu)化設(shè)計[J].物聯(lián)網(wǎng)技術(shù),2015,5(4):36?37.
[6] 石鑫,周勇,甘新年,等.機(jī)載多源飛行數(shù)據(jù)資料的非線性檢驗[J].計算機(jī)與數(shù)字工程,2013,41(5):729?732.
[7] 劉昊晨,梁紅.線性調(diào)頻信號參數(shù)估計和仿真研究[J].計算機(jī)仿真,2011,28(2):157?159.
[8] 羅龍,虞紅芳,羅壽西.基于多拓?fù)渎酚傻臒o擁塞快速業(yè)務(wù)遷移算法[J].計算機(jī)應(yīng)用,2015,35(7):1809?1814.
[9] 孫超,楊春曦,范莎,等.能量高效的無線傳感器網(wǎng)絡(luò)分布式分簇一致性濾波算法[J].信息與控制,2015,44(3):379?384.
[10] 文天柱,許愛強(qiáng),程恭.基于改進(jìn)ENN2 聚類算法的多故障診斷方法[J].控制與決策,2015,30(6):1021?1026.