国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用于精準(zhǔn)預(yù)測的人工蜂群聚類數(shù)據(jù)挖掘算法研究

2020-12-09 05:43:08金紅軍

金紅軍

摘要:為了提高數(shù)據(jù)挖掘算法的查全率,為精準(zhǔn)預(yù)測工作提供更加精準(zhǔn)的數(shù)據(jù)支持,利用人工蜂群聚類技術(shù)在傳統(tǒng)數(shù)據(jù)挖掘算法的基礎(chǔ)上進(jìn)行優(yōu)化設(shè)計。針對不同的精準(zhǔn)預(yù)測任務(wù)準(zhǔn)備對應(yīng)的數(shù)據(jù)樣本,并通過選擇、預(yù)處理和數(shù)據(jù)轉(zhuǎn)換三個步驟,實現(xiàn)對初始樣本數(shù)據(jù)的處理。利用人工蜂群聚類技術(shù)分類樣本數(shù)據(jù),并剔除離群數(shù)據(jù)。在設(shè)置關(guān)聯(lián)規(guī)則的約束下,得出數(shù)據(jù)挖掘結(jié)果。通過算法性能的測試對比實驗得出結(jié)論:與傳統(tǒng)的數(shù)據(jù)挖掘算法相比,人工蜂群聚類數(shù)據(jù)挖掘算法的查全率提高了1.3%,將其應(yīng)用到精準(zhǔn)預(yù)測工作中,可以有效的降低預(yù)測誤差。

關(guān)鍵詞:精準(zhǔn)預(yù)測;人工蜂群;聚類數(shù)據(jù);數(shù)據(jù)挖掘算法

中圖分類號:TN929? ? 文獻(xiàn)標(biāo)識碼:A? ? 文章編號:1007-9416(2020)10-0000-00

0 引言

預(yù)測是根據(jù)歷史和當(dāng)前已知因素,運用已有的知識、經(jīng)驗和科學(xué)方法,對未來環(huán)境進(jìn)行預(yù)先估計,并對事物未來的發(fā)展趨勢做出估計和評價。為了保證預(yù)測結(jié)果的精準(zhǔn)度,在當(dāng)前預(yù)測方法的基礎(chǔ)上提出了精準(zhǔn)預(yù)測方法,這種方法延續(xù)了傳統(tǒng)預(yù)測方法的一般步驟,但在實際的預(yù)測過程中選擇更加精準(zhǔn)的歷史和當(dāng)前數(shù)據(jù),在預(yù)測過程中嚴(yán)格控制預(yù)測誤差,從而保證預(yù)測結(jié)果的精準(zhǔn)度[1]。精準(zhǔn)預(yù)測技術(shù)的正常運行要求提供精準(zhǔn)的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),因此數(shù)據(jù)挖掘算法經(jīng)常被應(yīng)用到精準(zhǔn)預(yù)測工作當(dāng)中。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中自動搜索隱藏與其中的有著特殊關(guān)系性的信息的過程,數(shù)據(jù)挖掘算法的實現(xiàn)需要借助計算機(jī)設(shè)備,通過數(shù)據(jù)統(tǒng)計、在線分析、數(shù)據(jù)處理、情報檢索、及其學(xué)習(xí)以及模式識別等多種方法來實現(xiàn)對目標(biāo)數(shù)據(jù)的挖掘[2]。然而當(dāng)前的數(shù)據(jù)挖掘算法存在挖掘結(jié)果精度低的問題,將其用于精準(zhǔn)預(yù)測工作中會導(dǎo)致預(yù)測結(jié)果存在嚴(yán)重誤差,為了解決上述問題,提出了人工蜂群聚類技術(shù)。人工蜂群聚類技術(shù)通過各人工蜂個體的局部尋優(yōu)行為,最終在群體中使全局最優(yōu)值凸顯出來。而聚類技術(shù)以相似性為基礎(chǔ),將具有較高相似度的數(shù)據(jù)聚類在一起。通過人工蜂群聚類技術(shù)的有機(jī)結(jié)合并將其應(yīng)用到數(shù)據(jù)的挖掘過程當(dāng)中,可以挖掘出目標(biāo)數(shù)據(jù)集當(dāng)中的一系列最優(yōu)數(shù)據(jù)集合,將數(shù)據(jù)挖掘結(jié)果應(yīng)用到精準(zhǔn)預(yù)測工作當(dāng)中,便可以得出精準(zhǔn)的預(yù)測結(jié)果。

1 人工蜂群聚類數(shù)據(jù)挖掘算法設(shè)計

1.1 數(shù)據(jù)準(zhǔn)備與處理

數(shù)據(jù)準(zhǔn)備與處理的過程就是數(shù)據(jù)收集和預(yù)處理的過程,通過數(shù)據(jù)的選擇、預(yù)處理和數(shù)據(jù)轉(zhuǎn)換三個步驟得出初始數(shù)據(jù)的處理結(jié)果[3]。其中數(shù)據(jù)清洗處理的過程如圖1所示。

從圖1可以看出數(shù)據(jù)清洗分為四個處理階段,分別為清洗規(guī)則的生成階段、預(yù)處理階段、處理階段和數(shù)據(jù)加載階段。通過數(shù)據(jù)的清洗可以檢測出初始數(shù)據(jù)集合并解決單一數(shù)據(jù)源中或多數(shù)據(jù)源集成過程中存在的數(shù)據(jù)質(zhì)量問題,直到樣本數(shù)據(jù)滿足數(shù)據(jù)的質(zhì)量要求[4]。

1.2 利用人工蜂群聚類技術(shù)分類樣本數(shù)據(jù)

人工蜂群算法模擬蜜蜂不同的分工,種群中主要分為采蜜蜂、觀察蜂和偵查蜂三種類型,一個蜜源對應(yīng)一個采蜜蜂,觀察蜂通過觀察采蜜蜂帶來的蜜源信息,結(jié)合蜜源的數(shù)量和質(zhì)量選擇蜜源進(jìn)行開采,加快算法的收斂[5]。而偵查蜂的作用是在整個區(qū)域范圍內(nèi)搜索可用的蜜源,從而提高全局的開采能力。假設(shè)人工蜂群蜜源表示的是目標(biāo)函數(shù)的解,那么蜜源的質(zhì)量能夠反映出目標(biāo)函數(shù)解的質(zhì)量,該質(zhì)量使用公式(1)表示的適應(yīng)度函數(shù)來衡量。

結(jié)合人工蜂群的變異和交叉思想,分別通過采蜜蜂、觀察蜂和偵查蜂三個角度執(zhí)行人工蜂群算法[6]。在開始運行之前,首先需要對算法中的變量進(jìn)行初始化處理,根據(jù)公式(1)開始迭代執(zhí)行以下階段,直到達(dá)到最大迭代次數(shù)。人工蜂群算法的采蜜蜂和觀察蜂階段可以表示為:

公式(2)(a)中在初始蜜源附近產(chǎn)生一個新的鄰近蜜源,記為,表示的是此時對蜜源的第j維產(chǎn)生一個擾動。公式(2)(a)中為控制繞度幅度的隨機(jī)數(shù),j為常數(shù)參數(shù)[7]。在偵查蜂階段,蜜源經(jīng)過多次擾動后仍未更新,被判定為枯竭蜜源,重新搜索一個新的蜜源來代替初始蜜源,返回到采蜜階段繼續(xù)進(jìn)行新一個循環(huán)迭代。結(jié)合上述人工蜂群算法進(jìn)行初始樣本數(shù)據(jù)的聚類處理,并診斷出源數(shù)據(jù)集合中的離群樣本。定義初始數(shù)據(jù)樣本集合為(公式(3)):

其中樣本數(shù)據(jù)的維度為n,設(shè)置聚類中心,并得出相同類型樣本數(shù)據(jù)與聚類中心之間的距離,距離計算如公式(4):

式(4)中表示的是設(shè)置的聚類中心,即為任意一個樣本數(shù)據(jù)與其對應(yīng)的聚類中心之間的距離,而J為各個樣本達(dá)到對應(yīng)聚類中心的距離綜合[8]。遵循最鄰近聚類法則,判斷任意一個樣本數(shù)據(jù)是否屬于類型D,若滿足公式(5)中的條件,即數(shù)據(jù)屬于類型D。

由此便可以得出樣本數(shù)據(jù)的分類結(jié)果。如果在樣本數(shù)據(jù)中存在一個樣本數(shù)據(jù),該數(shù)據(jù)不屬于任意一個聚類,則認(rèn)定該數(shù)據(jù)為離群數(shù)據(jù)進(jìn)行剔除處理[9]。

1.3 實現(xiàn)精準(zhǔn)預(yù)測相關(guān)數(shù)據(jù)并行挖掘

為了提高數(shù)據(jù)挖掘的效率,在保證數(shù)據(jù)挖掘結(jié)果質(zhì)量的同時提升數(shù)據(jù)挖掘的速度,以人工蜂群聚類技術(shù)下樣本數(shù)據(jù)分類為基礎(chǔ),在關(guān)聯(lián)規(guī)則的約束下,采用并行的方式實現(xiàn)對數(shù)據(jù)的精準(zhǔn)挖掘,從而為精準(zhǔn)預(yù)測工作提供更加準(zhǔn)確的數(shù)據(jù)樣本[10]。其中并行的兩個部分分別為數(shù)據(jù)挖掘執(zhí)行程序和人工蜂群聚類技術(shù)下的數(shù)據(jù)分類程序,以人工蜂群聚類分類結(jié)果為一個數(shù)據(jù)倉庫得出符合關(guān)聯(lián)規(guī)則的一組數(shù)據(jù)挖掘結(jié)果,為了保證兩個并行程序的負(fù)載均衡,需要及時調(diào)整數(shù)據(jù)的挖掘誤差,最終將輸出的多組數(shù)據(jù)挖掘結(jié)果進(jìn)行融合,得出的結(jié)果即為用于精準(zhǔn)預(yù)測的數(shù)據(jù)挖掘結(jié)果[11]。

2 數(shù)據(jù)挖掘算法應(yīng)用實驗分析

2.1 實驗?zāi)康呐c過程

此次實驗的實驗?zāi)康氖菫榱俗C明設(shè)計的人工蜂群聚類數(shù)據(jù)挖掘算法的性能,數(shù)據(jù)挖掘算法的性能測試分為兩個部分,分別為挖掘算法本身的查全率和算法的應(yīng)用性能。實驗中選擇通信網(wǎng)絡(luò)流量的精準(zhǔn)預(yù)測作為實驗環(huán)境,設(shè)置了傳統(tǒng)的數(shù)據(jù)挖掘算法和文獻(xiàn)[6]中提出的云計算下的數(shù)據(jù)挖掘算法作為此次實驗的對比方法,分別將三種數(shù)據(jù)挖掘算法以相同的方式導(dǎo)入到實驗環(huán)境中,保證實驗變量的唯一性。

确山县| 双牌县| 巴马| 太湖县| 纳雍县| 卢龙县| 洛隆县| 电白县| 敖汉旗| 徐水县| 增城市| 屏边| 昌邑市| 秦皇岛市| 鄂尔多斯市| 家居| 木里| 科技| 定州市| 临邑县| 东兴市| 新蔡县| 明溪县| 阿巴嘎旗| 凤阳县| 廊坊市| 贡嘎县| 驻马店市| 巴彦县| 石景山区| 县级市| 龙海市| 托克逊县| 青州市| 莎车县| 余干县| 商洛市| 乌拉特后旗| 平潭县| 大连市| 北票市|