基于LightGBM-Gibbs Sampling的特征選擇算法研究

2022-05-25 04:48產(chǎn)勝寧

現(xiàn)代計算機 2022年6期

產(chǎn)勝寧

（貴州財經(jīng)大學(xué)，貴陽 550025）

0 引言

目前隨著數(shù)據(jù)量的激增和維度越來越大，維度災(zāi)難帶來的問題日益突出。特征選擇是機器學(xué)習(xí)為解決維度災(zāi)難的一個有效措施，被廣泛應(yīng)用在各個方向。在模型訓(xùn)練數(shù)據(jù)的過程中，沒有用的冗余特征影響模型的訓(xùn)練效果，不僅無法提供有用的信息，還會增加模型在訓(xùn)練過程中的復(fù)雜度。對于一個樣本數(shù)據(jù)集，特征選擇是從樣本的特征集合空間中有效地選擇出一組特征子集，移除特征空間沒有用的冗余特征子集和有效信息不足的特征子集，用較小的特征子集表示原本數(shù)據(jù)集，從而減小數(shù)據(jù)的維度，這樣模型處理的復(fù)雜度也會隨之減小，提高模型的處理能力。

特征選擇方法在高維度數(shù)據(jù)面前受到了嚴(yán)峻的考驗。國內(nèi)外的研究者對特征選擇的方法展開了大量的研究，總的來說，特征選擇的方法主要分為三種：過濾式、包裹式和嵌入式。過濾式（filter）是利用特征選擇方法進(jìn)行特征篩選，將篩選后的特征子集作為數(shù)據(jù)供模型訓(xùn)練，它可以處理比較大的數(shù)據(jù)集，但是在精度上面會有所欠缺。包裹式（wrapper）是選擇在模型的效果上最好的特征子集，這種方法的準(zhǔn)確率會更高，但是因為特征子集的選擇過程中會耗費大量時間，性能開銷大。嵌入式（embedding）是將兩個過程分別優(yōu)化融合在一起實現(xiàn)特征選擇，故它的性能和開銷相比其它兩個方法比較折中。對于高維大數(shù)據(jù)，傳統(tǒng)的特征選擇方法在開銷上花費較大，難以有效地實現(xiàn)特征選擇，為模型降低復(fù)雜度。Gibbs Sampling是一種面向高維數(shù)據(jù)的采樣技術(shù)，采到的樣本數(shù)據(jù)集是誤差范圍內(nèi)的近似目標(biāo)分布，通過Gibbs Sampling對樣本數(shù)據(jù)集進(jìn)行重要度排序，將會得到特征的重要性值，可以有效地實現(xiàn)特征選擇，Qian等和馮馳都展開了基于Gibbs Sampling的特征選擇，可以有效地實現(xiàn)特征選擇。相比包裹式特征選擇，基于Gibbs Sampling的特征選擇方法的復(fù)雜度是一個多項式，可以有效地降低復(fù)雜度。

1 馬爾科夫蒙特卡洛下的吉布斯采樣

蒙特卡洛方法是一種隨機模擬的采樣技術(shù)，它主要是將所要求解的問題轉(zhuǎn)化成建立的概率統(tǒng)計模型的參數(shù)或者其它相關(guān)特征，通過算法模擬隨機采樣，利用漸進(jìn)理論把要求的問題轉(zhuǎn)化成求問題的近似解。在實際的應(yīng)用過程中，我們所面對問題的目標(biāo)函數(shù)不是一個簡單的分布，所以難以直接從目標(biāo)分布函數(shù)產(chǎn)生樣本數(shù)據(jù)，這也就抑制了蒙特卡洛（Monte Carlo）方法的發(fā)展。隨著馬爾科夫蒙特卡洛（MCMC）算法的發(fā)展，采樣過程中的問題得到了簡化，有效地解決了Monte Carlo方法的局限性，是現(xiàn)如今研究的一大熱門。MCMC方法的核心是構(gòu)建一條合適的馬氏鏈，使得目標(biāo)分布能夠轉(zhuǎn)化成馬氏鏈中的平穩(wěn)分布。吉布斯采樣是MCMC算法中應(yīng)用最為廣泛的，是專門處理多維的目標(biāo)分布，它主要是通過條件分布構(gòu)造馬氏鏈中的轉(zhuǎn)移核。

（1）隨機初始化時刻的樣本{A：=1，2，…，}；

（2）=0，1，…，，循環(huán)采樣

③…

2 基于LightGBM-Gibbs Sampling特征選擇算法

大數(shù)據(jù)情況下許多問題較為復(fù)雜，難以求得問題的精準(zhǔn)辦法，本研究巧妙地借助Gibbs采樣方法，其中嵌套LightGBM算法構(gòu)造條件通過模型的似然函數(shù)求條件轉(zhuǎn)移概率，在一定的誤差范圍內(nèi)，對給定問題求近似解，對采樣的樣本特征進(jìn)行關(guān)聯(lián)顯著性分析，得到特征的重要程度，根據(jù)特征的重要程度實現(xiàn)特征選擇的目的。

（1）構(gòu)建初始化模型，初始化特征指標(biāo)維度的特征子集，其中的系數(shù)為0或1，0代表特征未出現(xiàn)，1代表特征出現(xiàn)，即

（2）對于隨機采樣，需要建立采樣的準(zhǔn)則，也就是需要構(gòu)建馬氏鏈的條件轉(zhuǎn)移概率。相比于AIC信息準(zhǔn)則，BIC信息準(zhǔn)則引入的懲罰項考慮了樣本量，可以有效地解決樣本數(shù)量過多時模型精度過高引起的高模型復(fù)雜度。因此本文借助BIC信息準(zhǔn)則，建立LightGBM模型，以此構(gòu)建馬氏鏈的條件轉(zhuǎn)移概率，即有

其中，為樣本的數(shù)量，為模型的參數(shù)數(shù)量，為似然函數(shù)。懲罰項ln（）考慮了維度，在樣本數(shù)量較少維度過大的情況下可以優(yōu)先解決維度災(zāi)難的困擾。表示第個特征的條件轉(zhuǎn)移概率，-表示除了第個特征之外的其它所有特征。根據(jù)初始化的特征子集，利用采樣準(zhǔn)則對每一維特征進(jìn)行采樣。

（3）明確采樣樣本數(shù)量。采樣的樣本數(shù)量可以確定算法的計算復(fù)雜度，借助樣本量降低模型的復(fù)雜度。為讓采樣的近似值與目標(biāo)函數(shù)的真實值之間的誤差在接受范圍內(nèi)、為保證特征指標(biāo)的顯著性，我們根據(jù)蒙特卡洛的標(biāo)準(zhǔn)差公式，用兩倍的準(zhǔn)則將模擬結(jié)果的誤差控制在5%以內(nèi)，即

可以求出不少于400，也就是說采樣的樣本量大于等于400時，可以保證特征指標(biāo)的顯著性。

（4）通過Gibbs Sampling采得不少于400的數(shù)據(jù)樣本，對這條數(shù)據(jù)進(jìn)行分析，將每一個特征出現(xiàn)的頻率作為特征重要性程度，即

特征重要性值接近0，說明特征不重要；特征重要性值越接近1，說明對應(yīng)特征越重要。根據(jù)特征重要性值的高低，選擇特征重要性值較高的一定數(shù)量特征，可以有效地達(dá)到特征選擇降維的目的，降低機器學(xué)習(xí)模型的復(fù)雜度、更好地挖掘數(shù)據(jù)的信息。使用多個不同的數(shù)據(jù)集，選擇有代表性的特征選擇算法和本文提出的基于Gibbs Sampling的特征選擇算法分別在各個數(shù)據(jù)進(jìn)行實驗比較，各種不同方法選擇得到的特征子集分別放入相同的模型中，通過同樣的模型和評價準(zhǔn)則驗證各個算法的有效性。

3 實驗結(jié)果及分析

3.1 實驗數(shù)據(jù)和對比算法

實驗中采用的數(shù)據(jù)均來自一些公開數(shù)據(jù)集，共有4個樣本數(shù)據(jù)集，對每個數(shù)據(jù)集進(jìn)行了預(yù)處理，其中包含對缺失值的處理、刪除無關(guān)屬性和不均衡分析與處理，樣本不均衡采用了SMOTE過采樣技術(shù)，最后每個樣本的部分信息如表1所示。

表1 實驗數(shù)據(jù)集

實驗選取了卡方檢驗、MIC互信息法和最大信息系數(shù)、遞歸特征消除法RFE和基于隨機森林的樹模型的特征選擇。這些代表性的特征選擇算法與基于LightGBM-Gibbs Sampling特征選擇方法分別在4個樣本數(shù)據(jù)集中實驗，用不同特征選擇方法選一定數(shù)量的特征，在同樣的模型中使用交叉驗證的方法來比較各方法的準(zhǔn)確率，進(jìn)而衡量方法的有效性。

3.2 評價方法

交叉驗證是一種模型驗證技術(shù)，使用機器學(xué)習(xí)模型進(jìn)行預(yù)測可以準(zhǔn)確衡量一個模型在數(shù)據(jù)集上的效果。交叉驗證具體做法就是將數(shù)據(jù)集劃分個部分，一部分用于訓(xùn)練模型，其余部分測試模型的性能好壞，也叫折交叉驗證。交叉驗證還可以限制模型在訓(xùn)練過程中出現(xiàn)的過擬合、欠擬合問題。本文選取交叉驗證的方法，取=5，產(chǎn)生不受高偏差和高偏差影響的測試誤差估計，將平均準(zhǔn)確率作為模型預(yù)測能力的評價方法，在同一數(shù)據(jù)上比較不同方法的平均準(zhǔn)確率。

3.3 實驗結(jié)果與分析

將本文所提出的方法與幾種典型的特征選擇算法分別在4個樣本數(shù)據(jù)集進(jìn)行對比實驗，選擇一定數(shù)量的特征，使用5折交叉驗證的邏輯回歸模型衡量模型的預(yù)測能力，4個樣本數(shù)據(jù)集的實驗結(jié)果見表2。

表2 數(shù)據(jù)所用方法實驗比對結(jié)果

表2顯現(xiàn)了原始數(shù)據(jù)集在模型中的準(zhǔn)確率和進(jìn)行特征選擇的特征數(shù)量以及各種方法選取的相同數(shù)量的特征子集在相同模型的準(zhǔn)確率。從表2中的實驗結(jié)果可以看出，所選取的4個數(shù)據(jù)集分別使用卡方檢驗、MIC互信息法和最大信息系數(shù)、遞歸特征消除法RFE、基于隨機森林的樹模型的特征選擇和基于LightGBMGibbs Sampling特征選擇方法進(jìn)行特征選擇，對應(yīng)4個數(shù)據(jù)分別選擇8、18、7、21個屬性。實驗發(fā)現(xiàn)，相比其它4個特征選擇方法，基于LightGBM-Gibbs Sampling特征選擇方法取得了更好的準(zhǔn)確率，相比原始數(shù)據(jù)集，數(shù)據(jù)集的維度不僅有效地降低了，準(zhǔn)確率也得到了提升。

4 結(jié)語

數(shù)據(jù)的維度災(zāi)難給模型帶來訓(xùn)練復(fù)雜、挖掘能力不足等問題，本文基于吉布斯采樣的方法提出了Gibbs Sampling和LightGBM相結(jié)合的特征選擇方法，使用公共數(shù)據(jù)集與幾個典型的特征選擇方法進(jìn)行了比較，實驗結(jié)果表明，基于LightGBM-Gibbs Sampling特征選擇算法的方法有效性，且相比其它方法，該方法具有一定的優(yōu)勢，可以有效做到特征的降維。

在實際中，Gibbs Sampling的復(fù)雜度是一個多項式，相比于包裹式特征選擇，復(fù)雜度已經(jīng)降低了不少，但還是比較大，在后續(xù)工作中，如何解決Gibbs Sampling的復(fù)雜度是亟需解決的一個問題，力爭做到特征的快速選擇，降低時間成本，增強時效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡