国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人工智能技術(shù)的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法

2023-01-07 14:06江蘇電力信息技術(shù)有限公司江蘇南京市210000孫澄宇
石河子科技 2022年5期
關(guān)鍵詞:信息熵計算公式數(shù)據(jù)挖掘

(江蘇電力信息技術(shù)有限公司,江蘇南京市,210000)封 晶 孫澄宇 董 平 趙 南

物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,推動著大數(shù)據(jù)挖掘的變革,信息挖掘逐漸從整體化挖掘?qū)ο筠D(zhuǎn)變?yōu)榉植际?、碎片化的挖掘模式。為實現(xiàn)物聯(lián)網(wǎng)中海量信息的有效利用,以及促進數(shù)據(jù)挖掘的集中化發(fā)展,提出了具有前瞻性的人工智能大數(shù)據(jù)挖掘算法,在智能化時代背景下對于我國工業(yè)經(jīng)濟的發(fā)展和建設(shè)具有重要作用。

1 基于人工智能的大數(shù)據(jù)發(fā)掘算法

1.1 數(shù)據(jù)模型樹構(gòu)建

為滿足物聯(lián)網(wǎng)動態(tài)特性以及用戶信息獲取的準(zhǔn)確度,需要構(gòu)建數(shù)據(jù)模型用于無法物聯(lián)網(wǎng)中用戶的行為。首先,基于模型樹的特征,對物聯(lián)網(wǎng)中的用戶數(shù)據(jù)進行掃描,以保證數(shù)據(jù)的全面性。其次,根據(jù)物聯(lián)網(wǎng)網(wǎng)絡(luò)節(jié)點構(gòu)建用戶數(shù)據(jù)集。最后,從數(shù)據(jù)集中提取數(shù)據(jù)量較大的節(jié)點,然后進行數(shù)據(jù)挖掘,針對其他數(shù)據(jù)節(jié)點主要采用排序方法進行處理[1]?;谏鲜鼍W(wǎng)絡(luò)節(jié)點選擇方法,可以獲取不同周期的節(jié)點數(shù)據(jù)模型樹。

1.2 物聯(lián)網(wǎng)數(shù)據(jù)特征檢測

構(gòu)建數(shù)據(jù)模型樹雖然可以明確數(shù)據(jù)挖掘內(nèi)容和范圍,但是無法保證模型關(guān)聯(lián)度的準(zhǔn)確性以期獲取的挖掘結(jié)果。因此,需要采用數(shù)據(jù)特征提取算法分析大數(shù)據(jù)特征,并根據(jù)數(shù)據(jù)屬性,獲取數(shù)據(jù)價值維度。假設(shè)大數(shù)據(jù)挖掘集為D,數(shù)據(jù)集維度為d,則根據(jù)大數(shù)據(jù)屬性可以獲取大數(shù)據(jù)屬性集合W。

如果數(shù)據(jù)挖掘子空間為S,則數(shù)據(jù)屬性集合將包含子空間S,并且子空間S中的對象為0∈D。基于數(shù)據(jù)離群特征,可以獲取子空間S中數(shù)據(jù)對象的鄰域(0,S),該鄰域為非均勻分布狀態(tài)。如果在子空間S中隨機提取一個對象,那么其離群概率則為Id(0,S)。從數(shù)據(jù)屬性方面來看,該集合中子空間中心位置即為數(shù)據(jù)對象0,由此得出子空間離群概率距離公式為:

式中:d為距離;Id(0,S)為離群概率。

由于物聯(lián)網(wǎng)大部分的數(shù)據(jù)都為不均勻分布,因此需要利用理算數(shù)據(jù)標(biāo)準(zhǔn)距離與密度的近似值表示離散數(shù)據(jù)特征:

基于離散特征λ可以獲取物聯(lián)網(wǎng)中離散數(shù)據(jù)分布情況。針對上述數(shù)據(jù)值的獲取,可以采用信息熵檢測方法,在待測數(shù)據(jù)集Y中,對數(shù)據(jù)y的分布特征進行分析,基于概率函數(shù)p可以獲得y數(shù)據(jù)信息熵E(y):

根據(jù)信息熵計算結(jié)果,可以對待測數(shù)據(jù)進行排序。并按照從大到小的排序方式,提取出多個信息熵較大的數(shù)據(jù)作為聚類中心對剩余數(shù)據(jù)進行檢測。數(shù)據(jù)聚類中心距離計算公式為:

式(4)中,a、b為隨機提取的聚類中心,并將其作為核心,對所有數(shù)據(jù)信息熵進行計算后獲得聚類閾值。如果聚類中心距離小于閾值時,則需要重新選擇聚類中心,并重復(fù)式(4)計算過程中,直至聚類距離計算結(jié)果大于閾值為止[2]。

1.3 特征數(shù)據(jù)的標(biāo)準(zhǔn)化處理

在數(shù)據(jù)特征檢測過程中通常會產(chǎn)生噪聲數(shù)據(jù)或數(shù)據(jù)量綱差異較差,該情況會影響大數(shù)據(jù)挖掘質(zhì)量和效率,因此為保證數(shù)據(jù)分析的準(zhǔn)確性,需要采用標(biāo)準(zhǔn)化方法對檢測數(shù)據(jù)進行處理。

在數(shù)據(jù)標(biāo)準(zhǔn)化處理過程中,利用標(biāo)準(zhǔn)差對數(shù)據(jù)進行計算,可以進一步強化數(shù)據(jù)的特征,有利于保證大數(shù)據(jù)挖掘的質(zhì)量。除了利用標(biāo)準(zhǔn)差對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理外,還可以利用數(shù)據(jù)平均偏差Gα進行計算,計算公式為:

利用上述公式對特征數(shù)據(jù)進行標(biāo)準(zhǔn)化處理后,可以提高大數(shù)據(jù)挖掘算法抗干擾性。數(shù)據(jù)標(biāo)準(zhǔn)差Yα、數(shù)據(jù)平均偏差Gα、數(shù)據(jù)均值α計算公式為:

式中,m為迭代次數(shù)。在對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理后,需要采用人工智能技術(shù)對大數(shù)據(jù)進行挖掘。

1.4 基于人工神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)挖掘

BP神經(jīng)網(wǎng)絡(luò)(以下簡稱BP網(wǎng))具有多層傳輸結(jié)構(gòu),并且其各層神經(jīng)元數(shù)量可以隨意設(shè)定,因此將其作為大數(shù)據(jù)挖掘的主體結(jié)構(gòu),并將經(jīng)過標(biāo)準(zhǔn)化處理的數(shù)據(jù)傳輸至BP網(wǎng)中[3]。由于BP網(wǎng)結(jié)構(gòu)存在的一定的特殊性,因此需要計算數(shù)據(jù)信息熵,并求出其平均值E,然后將其作為物聯(lián)網(wǎng)各層的連接權(quán)值ω,其計算公式為:

式中:ω為連接權(quán)值;Hi為屬性熵值,E為信息熵平均值。

在獲取到BP網(wǎng)連接權(quán)值后,需要根據(jù)圖2分析流程,對物聯(lián)網(wǎng)中的數(shù)據(jù)進行挖掘。

圖1 BP網(wǎng)挖掘流程

從圖2可知,基于人工智能的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法,融入了遺傳學(xué)習(xí)算法,并配置了以網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)分類能力為核心的大數(shù)據(jù)分類器。利用遺傳學(xué)習(xí)算法對大數(shù)據(jù)挖掘進行優(yōu)化,然后輸出滿足大數(shù)據(jù)挖掘條件的數(shù)據(jù)[4]。

2 仿真實驗

2.1 獲取數(shù)據(jù)集

為驗證基于人工智能技術(shù)的大數(shù)據(jù)挖掘算法的性能,通過仿真實驗方法對算法應(yīng)用效果進行檢驗。首先,選擇具有3500個二維特征的數(shù)據(jù),并將其構(gòu)成數(shù)據(jù)集。

數(shù)據(jù)被劃分為15類,并且每個數(shù)據(jù)聚類模糊系數(shù)均為1.7,傳遞點數(shù)量為2。為使數(shù)據(jù)向量維度值保持在0~1之間,需要去除每個維度中參數(shù)最小的值,并計算最大值與計算結(jié)構(gòu)之間的商值。該計算過程主要是對數(shù)據(jù)進行正則化處理。在本次仿真實驗中,共設(shè)置四個數(shù)據(jù)集,數(shù)據(jù)集大小為10%、20%、25%、50%。

2.2 性能指標(biāo)

在本次仿真實驗中主要采用RI和F-measure作為判斷人工智能大數(shù)據(jù)挖掘算法的重要指標(biāo),F(xiàn)measure是一種常用的大數(shù)據(jù)挖掘性能評價指標(biāo),其計算公式為:

式中:F為計算結(jié)果;R為召回率;P為精度。

計算結(jié)果的準(zhǔn)確性通常取決于精度和召回率。其中精度具體是指大數(shù)據(jù)挖掘過程中精準(zhǔn)參數(shù)所占據(jù)的比例;召回率具體是指具有特定類特性的數(shù)據(jù)數(shù)量。I、j量類數(shù)據(jù)的召回率與精度計算公式為:

大數(shù)據(jù)挖掘的質(zhì)量也可以利用RI指標(biāo)對其進行評價。首先,計算出數(shù)據(jù)集X聚類參數(shù)和實際聚類參數(shù)CT。其次,對無序數(shù)據(jù)點(xi,xj)進行定義,劃分出RI值的集合FP、TP、FN、TN。

RI計算公式為:

利用公式(11)對RI指標(biāo)進行計算,可以獲取到取值范圍在0~1之間的參數(shù),如果RI指標(biāo)趨近于1,則實際計算結(jié)果與挖掘結(jié)果相似度越高,并且挖掘算法精度也越高;如果RI指標(biāo)趨近于0,則實際計算結(jié)果與挖掘結(jié)果相似度較低,并且算法精度也較低。

3 結(jié)論

本文基于人工智能技術(shù),通過特征數(shù)據(jù)提取、特征數(shù)據(jù)檢測、特征數(shù)據(jù)標(biāo)準(zhǔn)化處理等方式,在獲取和處理挖掘數(shù)據(jù)信息熵后,融入遺傳學(xué)習(xí)算法對信息熵平均值進行計算,該算法能夠進一步提高物聯(lián)網(wǎng)中大數(shù)據(jù)挖掘的質(zhì)量和效率。BP網(wǎng)和遺傳學(xué)算法的融入,不僅提高了大數(shù)據(jù)對數(shù)據(jù)集的處理能力,而且也解決了大數(shù)據(jù)挖掘過程中信息傳遞錯誤的情況。通常仿真實驗,驗證了基于人工智能技術(shù)的大數(shù)據(jù)挖掘算法在RI結(jié)果和F-measure結(jié)果確實有所改進,同時也證明了人工智能技術(shù)在大數(shù)據(jù)挖掘中的應(yīng)用,有利于促進大數(shù)據(jù)挖掘的持續(xù)發(fā)展。

猜你喜歡
信息熵計算公式數(shù)據(jù)挖掘
電機溫升計算公式的推導(dǎo)和應(yīng)用
改進支持向量機在特征數(shù)據(jù)挖掘中的智能應(yīng)用
基于信息熵可信度的測試點選擇方法研究
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
2019離職補償金計算公式一覽表
基于信息熵賦權(quán)法優(yōu)化哮喘方醇提工藝
談擬柱體的體積
一種基于信息熵的雷達動態(tài)自適應(yīng)選擇跟蹤方法
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法