李瑋瑤
摘 要:數(shù)據(jù)特征選擇就是從初始的數(shù)據(jù)特征中選擇指定數(shù)據(jù)進(jìn)行子集篩選。目前,通常使用人工蜂群算法進(jìn)行特征選擇,但由于收斂慢、尋優(yōu)差,無法滿足人們的需求。因此,本文提出一種改進(jìn)人工蜂群算法,通過特征選擇繪制大數(shù)據(jù)特征選擇框架圖,建立多項(xiàng)搜索渠道;利用改進(jìn)的人工蜂群算法提取并行特征,使用MapReduce模型降低編程難度,獲取并行特征最優(yōu)解;設(shè)計(jì)特征選擇復(fù)雜粗糙集模型,并構(gòu)建特征學(xué)習(xí)模型來實(shí)現(xiàn)大數(shù)據(jù)特征選擇。試驗(yàn)結(jié)果表明,設(shè)計(jì)的特征選擇方法性能優(yōu)于傳統(tǒng)方法。
關(guān)鍵詞:改進(jìn)人工蜂群算法;大數(shù)據(jù);特征選擇
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2021)19-0027-03
Abstract: Data feature selection is to select specified data from the initial data features for subset filtering. Currently, artificial bee colony algorithms are usually used for feature selection, but due to slow convergence and poor optimization, it cannot meet people's needs. Therefore, this paper proposes an improved artificial bee colony algorithm, which draws the framework of big data feature selection through feature selection, and establishes multiple search channels; uses an improved artificial bee colony algorithm to extract parallel features, uses the MapReduce model to reduce programming difficulty, and obtains the optimal solution for parallel features; designs a complex rough set model for feature selection, and builds a feature learning model to realize big data feature selection. The test results show that the performance of the feature selection method designed in this paper is better than the traditional method.
Keywords: improve artificial bee colony algorithm;big data;feature selection
數(shù)據(jù)特征選擇的過程就是屬性約簡(jiǎn),主要是針對(duì)數(shù)據(jù)的重組優(yōu)化而產(chǎn)生的,屬于查找類型的問題,目前是一個(gè)計(jì)算難題,需要使用全局搜索、啟發(fā)式搜索和隨機(jī)函數(shù)來解決。特征選擇過濾方法的評(píng)價(jià)基準(zhǔn)與分類器無關(guān),旨在通過構(gòu)建與分類器無關(guān)的評(píng)估指標(biāo)來評(píng)估特征[1]。由于人工蜂群算法目前存在收斂慢、尋優(yōu)差的問題,不足以進(jìn)行數(shù)據(jù)特征選擇,因此需要改進(jìn)該算法[2]。
1 大數(shù)據(jù)特征選擇方法設(shè)計(jì)
1.1 繪制大數(shù)據(jù)特征選擇框架圖
繪制大數(shù)據(jù)特征選擇框架圖首先要明確其制約指標(biāo),即子集范圍。特征選擇的子集是特征選擇中最優(yōu)解的一部分,因此與特征選擇最優(yōu)解的屬性相同就可用于框架繪制[3]。
在數(shù)據(jù)并行層面,基于并行模型MapReduce實(shí)現(xiàn)數(shù)據(jù)的并行運(yùn)算。在模型并行層面,特征選擇算法在每次迭代時(shí)都可從一組候選集中選擇最佳特征,然后根據(jù)最佳特征,使用多線程方法同時(shí)評(píng)估多個(gè)候選特征,而后進(jìn)行匯總。為得到最好的選擇效果,在方法層面,基于改進(jìn)人工蜂群算法的大數(shù)據(jù)特征選擇方法利用分割計(jì)算理論中的細(xì)分割原理,可在不同的信息分割表示之間快速漸進(jìn)地切換。對(duì)于并行評(píng)估,需要構(gòu)建分段表達(dá)框架來計(jì)算候選特征,最后將這3個(gè)方面有機(jī)結(jié)合起來,繪制出如圖1所示的框架[4]。
1.2 基于改進(jìn)人工蜂群算法提取并行特征
在特征選擇模型中,每次迭代首先產(chǎn)生一個(gè)特征子集,必須使用評(píng)估函數(shù)對(duì)所有特征子集的優(yōu)缺點(diǎn)進(jìn)行評(píng)估。這些特征子集(也稱為評(píng)估值)的重要性可根據(jù)模型本身的特性進(jìn)行確定[5-8]。它的計(jì)算公式如式(1)所示。
式中:[Q]代表特征子集;[D]、[L]、[E]為數(shù)據(jù)特征點(diǎn)。
傳統(tǒng)的小數(shù)據(jù)集可以實(shí)現(xiàn)很好的性能加速,但不能滿足當(dāng)前不斷增長(zhǎng)的數(shù)據(jù)量需求。GB級(jí)或TB級(jí)的數(shù)據(jù)規(guī)模使計(jì)算單個(gè)特征子集的速度變得非常緩慢,甚至?xí)捎趦?nèi)存限制和其他問題導(dǎo)致其計(jì)算失敗。此類問題最流行的解決方法之一是使用MapReduce模型,模型的求解式[MP]如式(2)所示。
式中:[Q]代表特征子集;[D]、[L]為數(shù)據(jù)特征點(diǎn)。
MapReduce模型降低了并行編程的難度,成為云計(jì)算平臺(tái)的主流并行編程模型,可靠性和容錯(cuò)性高。輸入數(shù)據(jù)被自動(dòng)分區(qū)并發(fā)送到其他計(jì)算節(jié)點(diǎn)后在Map端進(jìn)行計(jì)算。映射接收輸入鍵值時(shí),需要生成中間鍵值。MapReduce模型收集中間所有具有相同鍵值的值,并將它們傳遞給Reduce函數(shù)。Reduce函數(shù)接收數(shù)據(jù)輸入,然后將這些值組合起來形成一組新的數(shù)值,最后計(jì)算出結(jié)果并輸出。Hadoop平臺(tái)是工業(yè)界和學(xué)術(shù)界廣泛使用的MapReduce模型的重要實(shí)現(xiàn)平臺(tái)之一,主要由Hadoop內(nèi)核、MapReduce和Hadoop分布式文件系統(tǒng)組成。
匹配追蹤算法MapReduce(MP)和動(dòng)態(tài)規(guī)劃算法Dynamic Programming(DP)在幾個(gè)步驟中可以并行化進(jìn)行特征選擇。MP用于并行化模型層,缺點(diǎn)是不能處理大量數(shù)據(jù)。DP用于并行化數(shù)據(jù)層,但忽略了模型本身的并行化。本文將兩種方法有機(jī)結(jié)合,提出一種模型數(shù)據(jù)并行化方法(簡(jiǎn)稱MDP法)來改進(jìn)人工蜂群算法。簡(jiǎn)而言之,改進(jìn)算法可以為每次迭代創(chuàng)建一個(gè)搜索策略。多線程候選特征子集可以啟動(dòng)所有特征子集的重要性計(jì)算模塊,其中每個(gè)特征子集的重要性計(jì)算模塊都可以使用MapReduce模型來計(jì)算。實(shí)際上,MDP法采用一種兩相并聯(lián)模式,在計(jì)算出所有特征子集的重要性后,再進(jìn)行特征篩選。利用改進(jìn)人工蜂群算法提取變量,可以采取式(3)進(jìn)行計(jì)算。
式中:[A]代表提取的變量;[C]代表初始值;[Y]代表變化矢量;[X]代表實(shí)際曲線變化。將提取的變量與最優(yōu)解融合,利用式(4)即可提取并行特征。
式中:[P]代表最優(yōu)解;[K]代表函數(shù)變量。代入相關(guān)參數(shù),進(jìn)行并行特征提取,此時(shí)提取出的數(shù)值即為最優(yōu)解。
1.3 設(shè)計(jì)特征選擇復(fù)雜粗糙集模型
實(shí)際應(yīng)用中,通常有多種類型的數(shù)據(jù),如符號(hào)、數(shù)字、設(shè)置值、缺失數(shù)據(jù)等。作為數(shù)據(jù)建模和規(guī)則提取的重要方法之一,粗糙集取得了較大進(jìn)步。特征選擇復(fù)雜粗糙集模型的優(yōu)勢(shì)在于可以在不使用先驗(yàn)知識(shí)的情況下發(fā)現(xiàn)數(shù)據(jù)特征。當(dāng)復(fù)雜數(shù)據(jù)像其他建模方法一樣高維、大容量時(shí),數(shù)據(jù)融合法存在耗時(shí)過長(zhǎng)甚至無法處理的缺點(diǎn)。因此,本方法提出有效執(zhí)行復(fù)雜數(shù)據(jù)融合的關(guān)系,設(shè)計(jì)相應(yīng)的復(fù)雜粗糙集模型。基于粗糙集設(shè)計(jì)各種特征選擇算法,關(guān)鍵步驟是計(jì)算近似二元關(guān)系的計(jì)算式[CV],如式(5)所示。
式中:[CV]代表流量系數(shù);[A]代表提取的變量;[K]代表函數(shù)變量;[P]代表相關(guān)參數(shù)。根據(jù)式(5)構(gòu)建特征選擇復(fù)雜粗糙集模型。
本方法引入了復(fù)雜關(guān)系并提出了復(fù)雜的粗糙集模型。非符號(hào)數(shù)據(jù)在實(shí)際應(yīng)用中非常普遍,為了解決這個(gè)問題,需要引入不同的二元關(guān)系來處理不同的數(shù)據(jù)類型,因此提出了各種擴(kuò)展的粗糙集模型。
1.4 實(shí)現(xiàn)大數(shù)據(jù)特征選擇
為改進(jìn)人工蜂群算法,本方法還需構(gòu)建一個(gè)特征學(xué)習(xí)模型。假設(shè)有[n]個(gè)訓(xùn)練樣本,它們都采用無監(jiān)督學(xué)習(xí)法來學(xué)習(xí)高級(jí)表達(dá)式,需要建立學(xué)習(xí)主要目標(biāo),即在分類和回歸問題中估計(jì)條件分布。
所有的預(yù)訓(xùn)練方法都基于這樣的假設(shè),即各個(gè)輸入數(shù)據(jù)的邊際分布包含有關(guān)條件分布的重要信息。當(dāng)有大量標(biāo)記數(shù)據(jù)時(shí),采用監(jiān)督學(xué)習(xí)方法通常非常有效。但是,如果只想要輕松地獲取少量未標(biāo)記數(shù)據(jù),則需要將現(xiàn)有的標(biāo)記數(shù)據(jù)與大量未標(biāo)記數(shù)據(jù)相結(jié)合,以提高邊緣分布估計(jì)的準(zhǔn)確性。舉一個(gè)線性特征空間的例子,潛在表示可只從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),或可只從標(biāo)記的數(shù)據(jù)中學(xué)習(xí),也可同時(shí)從兩者中學(xué)習(xí)。不難發(fā)現(xiàn),無監(jiān)督學(xué)習(xí)方法能更好地分布數(shù)據(jù),而監(jiān)督學(xué)習(xí)方法可很好地進(jìn)行分類,但不能保證與所需數(shù)據(jù)分布呈現(xiàn)一致性狀態(tài)。協(xié)作培訓(xùn)有助于產(chǎn)生良好的表達(dá)能力。
2 試驗(yàn)分析
在多個(gè)數(shù)據(jù)集上應(yīng)用多個(gè)分類算法往往不能更直接地比較各個(gè)方法的性能,所以需要通過假設(shè)檢驗(yàn)來進(jìn)行驗(yàn)證。本文采用顯著性檢驗(yàn)方法比較兩種方法的差異性,且該方法不受條件和假設(shè)的限制。Friedman檢驗(yàn)要求多個(gè)樣本間無顯著差異。
2.1 試驗(yàn)準(zhǔn)備
首先提出一種特征選擇和特征構(gòu)造方法,通過GP先構(gòu)造多特征,然后再用GP做特征選擇,最后用K最鄰近(K-Nearest Neighbor ,KNN)分類器測(cè)試分類性能。在數(shù)據(jù)集上比較兩種方法的分類效果和特征維數(shù)。使用mini-batch SGD方法,即每次使用80個(gè)訓(xùn)練樣本,權(quán)重衰減因子一般設(shè)為0.000 5,Momentum因子初始為0.5,在迭代過程中線性增加到0.9,通過均勻分布進(jìn)行初始化。
2.2 試驗(yàn)結(jié)果與討論
對(duì)改進(jìn)前后數(shù)據(jù)特征選擇方法進(jìn)行檢測(cè),試驗(yàn)結(jié)果如圖2所示。
從圖2可知,改進(jìn)算法的大數(shù)據(jù)特征選擇方法性能優(yōu)于未改進(jìn)算法,其特征選取數(shù)目少,選取精度高。
3 結(jié)語
數(shù)據(jù)特征選擇在數(shù)據(jù)篩選與傳輸中占有重要地位,提高數(shù)據(jù)特征選擇精度對(duì)整個(gè)數(shù)據(jù)特征選擇流程優(yōu)化具有重要影響。本文對(duì)人工蜂群算法進(jìn)行改進(jìn),優(yōu)化其精度和尋優(yōu)度,并通過對(duì)比試驗(yàn)證明改進(jìn)算法后大數(shù)據(jù)特征選擇方法性能優(yōu)于改進(jìn)前。改進(jìn)后特征選擇方法的特征選取數(shù)目少,選取精度高,有一定的應(yīng)用價(jià)值,且具有高效性。
參考文獻(xiàn):
[1]王俊,馮軍,張戈,等.基于改進(jìn)灰狼優(yōu)化算法的醫(yī)學(xué)數(shù)據(jù)特征選擇應(yīng)用研究[J].河南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020(5):570-578.
[2]曾海亮,林耀進(jìn),王晨曦,等.利用一致性分析的高維類別不平衡數(shù)據(jù)特征選擇[J].小型微型計(jì)算機(jī)系統(tǒng),2020(9):1946-1951.
[3]李帥位,張棟良,黃昕宇,等.數(shù)據(jù)特征選擇與分類在機(jī)械故障診斷中的應(yīng)用[J].振動(dòng)與沖擊,2020(2):218-222.
[4]劉輝,曾鵬飛,巫喬順,等.基于改進(jìn)遺傳算法的轉(zhuǎn)爐煉鋼過程數(shù)據(jù)特征選擇[J].儀器儀表學(xué)報(bào),2019(12):185-195.
[5]劉芳.基于大數(shù)據(jù)特征選擇的深度學(xué)習(xí)算法[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2019(5):46-48.
[6]高薇,解輝.基于粗糙集與人工蜂群算法的動(dòng)態(tài)特征選擇[J].計(jì)算機(jī)工程與設(shè)計(jì),2019(9):2697-2703.
[7]吳穎,李曉玲,唐晶磊.Hadoop平臺(tái)下粒子濾波結(jié)合改進(jìn)ABC算法的IoT大數(shù)據(jù)特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2019(11):3297-3301.
[8]孫倩,陳昊,李超.基于改進(jìn)人工蜂群算法與MapReduce的大數(shù)據(jù)聚類算法[J].計(jì)算機(jī)應(yīng)用研究,2020(6):113-116.
3246500338203