基于人工智能技術(shù)的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法

2023-01-07 14:06江蘇電力信息技術(shù)有限公司江蘇南京市210000孫澄宇

石河子科技 2022年5期

（江蘇電力信息技術(shù)有限公司，江蘇南京市，210000）封晶孫澄宇董平趙南

物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，推動著大數(shù)據(jù)挖掘的變革，信息挖掘逐漸從整體化挖掘?qū)ο筠D(zhuǎn)變?yōu)榉植际?、碎片化的挖掘模式。為實現(xiàn)物聯(lián)網(wǎng)中海量信息的有效利用，以及促進數(shù)據(jù)挖掘的集中化發(fā)展，提出了具有前瞻性的人工智能大數(shù)據(jù)挖掘算法，在智能化時代背景下對于我國工業(yè)經(jīng)濟的發(fā)展和建設(shè)具有重要作用。

1 基于人工智能的大數(shù)據(jù)發(fā)掘算法

1.1 數(shù)據(jù)模型樹構(gòu)建

為滿足物聯(lián)網(wǎng)動態(tài)特性以及用戶信息獲取的準(zhǔn)確度，需要構(gòu)建數(shù)據(jù)模型用于無法物聯(lián)網(wǎng)中用戶的行為。首先，基于模型樹的特征，對物聯(lián)網(wǎng)中的用戶數(shù)據(jù)進行掃描，以保證數(shù)據(jù)的全面性。其次，根據(jù)物聯(lián)網(wǎng)網(wǎng)絡(luò)節(jié)點構(gòu)建用戶數(shù)據(jù)集。最后，從數(shù)據(jù)集中提取數(shù)據(jù)量較大的節(jié)點，然后進行數(shù)據(jù)挖掘，針對其他數(shù)據(jù)節(jié)點主要采用排序方法進行處理[1]?；谏鲜鼍W(wǎng)絡(luò)節(jié)點選擇方法，可以獲取不同周期的節(jié)點數(shù)據(jù)模型樹。

1.2 物聯(lián)網(wǎng)數(shù)據(jù)特征檢測

構(gòu)建數(shù)據(jù)模型樹雖然可以明確數(shù)據(jù)挖掘內(nèi)容和范圍，但是無法保證模型關(guān)聯(lián)度的準(zhǔn)確性以期獲取的挖掘結(jié)果。因此，需要采用數(shù)據(jù)特征提取算法分析大數(shù)據(jù)特征，并根據(jù)數(shù)據(jù)屬性，獲取數(shù)據(jù)價值維度。假設(shè)大數(shù)據(jù)挖掘集為D，數(shù)據(jù)集維度為d，則根據(jù)大數(shù)據(jù)屬性可以獲取大數(shù)據(jù)屬性集合W。

如果數(shù)據(jù)挖掘子空間為S，則數(shù)據(jù)屬性集合將包含子空間S，并且子空間S中的對象為0∈D。基于數(shù)據(jù)離群特征，可以獲取子空間S中數(shù)據(jù)對象的鄰域（0,S），該鄰域為非均勻分布狀態(tài)。如果在子空間S中隨機提取一個對象，那么其離群概率則為Id（0,S）。從數(shù)據(jù)屬性方面來看，該集合中子空間中心位置即為數(shù)據(jù)對象0，由此得出子空間離群概率距離公式為：

式中：d為距離；Id（0,S）為離群概率。

由于物聯(lián)網(wǎng)大部分的數(shù)據(jù)都為不均勻分布，因此需要利用理算數(shù)據(jù)標(biāo)準(zhǔn)距離與密度的近似值表示離散數(shù)據(jù)特征：

基于離散特征λ可以獲取物聯(lián)網(wǎng)中離散數(shù)據(jù)分布情況。針對上述數(shù)據(jù)值的獲取，可以采用信息熵檢測方法，在待測數(shù)據(jù)集Y中，對數(shù)據(jù)y的分布特征進行分析，基于概率函數(shù)p可以獲得y數(shù)據(jù)信息熵E（y）：

根據(jù)信息熵計算結(jié)果，可以對待測數(shù)據(jù)進行排序。并按照從大到小的排序方式，提取出多個信息熵較大的數(shù)據(jù)作為聚類中心對剩余數(shù)據(jù)進行檢測。數(shù)據(jù)聚類中心距離計算公式為：

式（4）中，a、b為隨機提取的聚類中心，并將其作為核心，對所有數(shù)據(jù)信息熵進行計算后獲得聚類閾值。如果聚類中心距離小于閾值時，則需要重新選擇聚類中心，并重復(fù)式（4）計算過程中，直至聚類距離計算結(jié)果大于閾值為止[2]。

1.3 特征數(shù)據(jù)的標(biāo)準(zhǔn)化處理

在數(shù)據(jù)特征檢測過程中通常會產(chǎn)生噪聲數(shù)據(jù)或數(shù)據(jù)量綱差異較差，該情況會影響大數(shù)據(jù)挖掘質(zhì)量和效率，因此為保證數(shù)據(jù)分析的準(zhǔn)確性，需要采用標(biāo)準(zhǔn)化方法對檢測數(shù)據(jù)進行處理。

在數(shù)據(jù)標(biāo)準(zhǔn)化處理過程中，利用標(biāo)準(zhǔn)差對數(shù)據(jù)進行計算，可以進一步強化數(shù)據(jù)的特征，有利于保證大數(shù)據(jù)挖掘的質(zhì)量。除了利用標(biāo)準(zhǔn)差對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理外，還可以利用數(shù)據(jù)平均偏差Gα進行計算，計算公式為：

利用上述公式對特征數(shù)據(jù)進行標(biāo)準(zhǔn)化處理后，可以提高大數(shù)據(jù)挖掘算法抗干擾性。數(shù)據(jù)標(biāo)準(zhǔn)差Yα、數(shù)據(jù)平均偏差Gα、數(shù)據(jù)均值α計算公式為：

式中，m為迭代次數(shù)。在對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理后，需要采用人工智能技術(shù)對大數(shù)據(jù)進行挖掘。

1.4 基于人工神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)挖掘

BP神經(jīng)網(wǎng)絡(luò)（以下簡稱BP網(wǎng)）具有多層傳輸結(jié)構(gòu)，并且其各層神經(jīng)元數(shù)量可以隨意設(shè)定，因此將其作為大數(shù)據(jù)挖掘的主體結(jié)構(gòu)，并將經(jīng)過標(biāo)準(zhǔn)化處理的數(shù)據(jù)傳輸至BP網(wǎng)中[3]。由于BP網(wǎng)結(jié)構(gòu)存在的一定的特殊性，因此需要計算數(shù)據(jù)信息熵，并求出其平均值E，然后將其作為物聯(lián)網(wǎng)各層的連接權(quán)值ω，其計算公式為：

式中：ω為連接權(quán)值；Hi為屬性熵值，E為信息熵平均值。

在獲取到BP網(wǎng)連接權(quán)值后，需要根據(jù)圖2分析流程，對物聯(lián)網(wǎng)中的數(shù)據(jù)進行挖掘。

圖1 BP網(wǎng)挖掘流程

從圖2可知，基于人工智能的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法，融入了遺傳學(xué)習(xí)算法，并配置了以網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)分類能力為核心的大數(shù)據(jù)分類器。利用遺傳學(xué)習(xí)算法對大數(shù)據(jù)挖掘進行優(yōu)化，然后輸出滿足大數(shù)據(jù)挖掘條件的數(shù)據(jù)[4]。

2 仿真實驗

2.1 獲取數(shù)據(jù)集

為驗證基于人工智能技術(shù)的大數(shù)據(jù)挖掘算法的性能，通過仿真實驗方法對算法應(yīng)用效果進行檢驗。首先，選擇具有3500個二維特征的數(shù)據(jù)，并將其構(gòu)成數(shù)據(jù)集。

數(shù)據(jù)被劃分為15類，并且每個數(shù)據(jù)聚類模糊系數(shù)均為1.7，傳遞點數(shù)量為2。為使數(shù)據(jù)向量維度值保持在0～1之間，需要去除每個維度中參數(shù)最小的值，并計算最大值與計算結(jié)構(gòu)之間的商值。該計算過程主要是對數(shù)據(jù)進行正則化處理。在本次仿真實驗中，共設(shè)置四個數(shù)據(jù)集，數(shù)據(jù)集大小為10%、20%、25%、50%。

2.2 性能指標(biāo)

在本次仿真實驗中主要采用RI和F-measure作為判斷人工智能大數(shù)據(jù)挖掘算法的重要指標(biāo)，F(xiàn)measure是一種常用的大數(shù)據(jù)挖掘性能評價指標(biāo)，其計算公式為：

式中：F為計算結(jié)果；R為召回率；P為精度。

計算結(jié)果的準(zhǔn)確性通常取決于精度和召回率。其中精度具體是指大數(shù)據(jù)挖掘過程中精準(zhǔn)參數(shù)所占據(jù)的比例；召回率具體是指具有特定類特性的數(shù)據(jù)數(shù)量。I、j量類數(shù)據(jù)的召回率與精度計算公式為：

大數(shù)據(jù)挖掘的質(zhì)量也可以利用RI指標(biāo)對其進行評價。首先，計算出數(shù)據(jù)集X聚類參數(shù)和實際聚類參數(shù)CT。其次，對無序數(shù)據(jù)點（xi，xj）進行定義，劃分出RI值的集合FP、TP、FN、TN。

RI計算公式為：

利用公式（11）對RI指標(biāo)進行計算，可以獲取到取值范圍在0～1之間的參數(shù)，如果RI指標(biāo)趨近于1，則實際計算結(jié)果與挖掘結(jié)果相似度越高，并且挖掘算法精度也越高；如果RI指標(biāo)趨近于0，則實際計算結(jié)果與挖掘結(jié)果相似度較低，并且算法精度也較低。

3 結(jié)論

本文基于人工智能技術(shù)，通過特征數(shù)據(jù)提取、特征數(shù)據(jù)檢測、特征數(shù)據(jù)標(biāo)準(zhǔn)化處理等方式，在獲取和處理挖掘數(shù)據(jù)信息熵后，融入遺傳學(xué)習(xí)算法對信息熵平均值進行計算，該算法能夠進一步提高物聯(lián)網(wǎng)中大數(shù)據(jù)挖掘的質(zhì)量和效率。BP網(wǎng)和遺傳學(xué)算法的融入，不僅提高了大數(shù)據(jù)對數(shù)據(jù)集的處理能力，而且也解決了大數(shù)據(jù)挖掘過程中信息傳遞錯誤的情況。通常仿真實驗，驗證了基于人工智能技術(shù)的大數(shù)據(jù)挖掘算法在RI結(jié)果和F-measure結(jié)果確實有所改進，同時也證明了人工智能技術(shù)在大數(shù)據(jù)挖掘中的應(yīng)用，有利于促進大數(shù)據(jù)挖掘的持續(xù)發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡