產(chǎn)勝寧
(貴州財經(jīng)大學(xué),貴陽 550025)
目前隨著數(shù)據(jù)量的激增和維度越來越大,維度災(zāi)難帶來的問題日益突出。特征選擇是機器學(xué)習(xí)為解決維度災(zāi)難的一個有效措施,被廣泛應(yīng)用在各個方向。在模型訓(xùn)練數(shù)據(jù)的過程中,沒有用的冗余特征影響模型的訓(xùn)練效果,不僅無法提供有用的信息,還會增加模型在訓(xùn)練過程中的復(fù)雜度。對于一個樣本數(shù)據(jù)集,特征選擇是從樣本的特征集合空間中有效地選擇出一組特征子集,移除特征空間沒有用的冗余特征子集和有效信息不足的特征子集,用較小的特征子集表示原本數(shù)據(jù)集,從而減小數(shù)據(jù)的維度,這樣模型處理的復(fù)雜度也會隨之減小,提高模型的處理能力。
特征選擇方法在高維度數(shù)據(jù)面前受到了嚴(yán)峻的考驗。國內(nèi)外的研究者對特征選擇的方法展開了大量的研究,總的來說,特征選擇的方法主要分為三種:過濾式、包裹式和嵌入式。過濾式(filter)是利用特征選擇方法進(jìn)行特征篩選,將篩選后的特征子集作為數(shù)據(jù)供模型訓(xùn)練,它可以處理比較大的數(shù)據(jù)集,但是在精度上面會有所欠缺。包裹式(wrapper)是選擇在模型的效果上最好的特征子集,這種方法的準(zhǔn)確率會更高,但是因為特征子集的選擇過程中會耗費大量時間,性能開銷大。嵌入式(embedding)是將兩個過程分別優(yōu)化融合在一起實現(xiàn)特征選擇,故它的性能和開銷相比其它兩個方法比較折中。對于高維大數(shù)據(jù),傳統(tǒng)的特征選擇方法在開銷上花費較大,難以有效地實現(xiàn)特征選擇,為模型降低復(fù)雜度。Gibbs Sampling是一種面向高維數(shù)據(jù)的采樣技術(shù),采到的樣本數(shù)據(jù)集是誤差范圍內(nèi)的近似目標(biāo)分布,通過Gibbs Sampling對樣本數(shù)據(jù)集進(jìn)行重要度排序,將會得到特征的重要性值,可以有效地實現(xiàn)特征選擇,Qian等和馮馳都展開了基于Gibbs Sampling的特征選擇,可以有效地實現(xiàn)特征選擇。相比包裹式特征選擇,基于Gibbs Sampling的特征選擇方法的復(fù)雜度是一個多項式,可以有效地降低復(fù)雜度。
蒙特卡洛方法是一種隨機模擬的采樣技術(shù),它主要是將所要求解的問題轉(zhuǎn)化成建立的概率統(tǒng)計模型的參數(shù)或者其它相關(guān)特征,通過算法模擬隨機采樣,利用漸進(jìn)理論把要求的問題轉(zhuǎn)化成求問題的近似解。在實際的應(yīng)用過程中,我們所面對問題的目標(biāo)函數(shù)不是一個簡單的分布,所以難以直接從目標(biāo)分布函數(shù)產(chǎn)生樣本數(shù)據(jù),這也就抑制了蒙特卡洛(Monte Carlo)方法的發(fā)展。隨著馬爾科夫蒙特卡洛(MCMC)算法的發(fā)展,采樣過程中的問題得到了簡化,有效地解決了Monte Carlo方法的局限性,是現(xiàn)如今研究的一大熱門。MCMC方法的核心是構(gòu)建一條合適的馬氏鏈,使得目標(biāo)分布能夠轉(zhuǎn)化成馬氏鏈中的平穩(wěn)分布。吉布斯采樣是MCMC算法中應(yīng)用最為廣泛的,是專門處理多維的目標(biāo)分布,它主要是通過條件分布構(gòu)造馬氏鏈中的轉(zhuǎn)移核。
(1)隨機初始化時刻的樣本{A:=1,2,…,};
(2)=0,1,…,,循環(huán)采樣
③…
大數(shù)據(jù)情況下許多問題較為復(fù)雜,難以求得問題的精準(zhǔn)辦法,本研究巧妙地借助Gibbs采樣方法,其中嵌套LightGBM算法構(gòu)造條件通過模型的似然函數(shù)求條件轉(zhuǎn)移概率,在一定的誤差范圍內(nèi),對給定問題求近似解,對采樣的樣本特征進(jìn)行關(guān)聯(lián)顯著性分析,得到特征的重要程度,根據(jù)特征的重要程度實現(xiàn)特征選擇的目的。
(1)構(gòu)建初始化模型,初始化特征指標(biāo)維度的特征子集,其中的系數(shù)為0或1,0代表特征未出現(xiàn),1代表特征出現(xiàn),即
(2)對于隨機采樣,需要建立采樣的準(zhǔn)則,也就是需要構(gòu)建馬氏鏈的條件轉(zhuǎn)移概率。相比于AIC信息準(zhǔn)則,BIC信息準(zhǔn)則引入的懲罰項考慮了樣本量,可以有效地解決樣本數(shù)量過多時模型精度過高引起的高模型復(fù)雜度。因此本文借助BIC信息準(zhǔn)則,建立LightGBM模型,以此構(gòu)建馬氏鏈的條件轉(zhuǎn)移概率,即有
其中,為樣本的數(shù)量,為模型的參數(shù)數(shù)量,為似然函數(shù)。懲罰項ln()考慮了維度,在樣本數(shù)量較少維度過大的情況下可以優(yōu)先解決維度災(zāi)難的困擾。表示第個特征的條件轉(zhuǎn)移概率,-表示除了第個特征之外的其它所有特征。根據(jù)初始化的特征子集,利用采樣準(zhǔn)則對每一維特征進(jìn)行采樣。
(3)明確采樣樣本數(shù)量。采樣的樣本數(shù)量可以確定算法的計算復(fù)雜度,借助樣本量降低模型的復(fù)雜度。為讓采樣的近似值與目標(biāo)函數(shù)的真實值之間的誤差在接受范圍內(nèi)、為保證特征指標(biāo)的顯著性,我們根據(jù)蒙特卡洛的標(biāo)準(zhǔn)差公式,用兩倍的準(zhǔn)則將模擬結(jié)果的誤差控制在5%以內(nèi),即
可以求出不少于400,也就是說采樣的樣本量大于等于400時,可以保證特征指標(biāo)的顯著性。
(4)通過Gibbs Sampling采得不少于400的數(shù)據(jù)樣本,對這條數(shù)據(jù)進(jìn)行分析,將每一個特征出現(xiàn)的頻率作為特征重要性程度,即
特征重要性值接近0,說明特征不重要;特征重要性值越接近1,說明對應(yīng)特征越重要。根據(jù)特征重要性值的高低,選擇特征重要性值較高的一定數(shù)量特征,可以有效地達(dá)到特征選擇降維的目的,降低機器學(xué)習(xí)模型的復(fù)雜度、更好地挖掘數(shù)據(jù)的信息。使用多個不同的數(shù)據(jù)集,選擇有代表性的特征選擇算法和本文提出的基于Gibbs Sampling的特征選擇算法分別在各個數(shù)據(jù)進(jìn)行實驗比較,各種不同方法選擇得到的特征子集分別放入相同的模型中,通過同樣的模型和評價準(zhǔn)則驗證各個算法的有效性。
實驗中采用的數(shù)據(jù)均來自一些公開數(shù)據(jù)集,共有4個樣本數(shù)據(jù)集,對每個數(shù)據(jù)集進(jìn)行了預(yù)處理,其中包含對缺失值的處理、刪除無關(guān)屬性和不均衡分析與處理,樣本不均衡采用了SMOTE過采樣技術(shù),最后每個樣本的部分信息如表1所示。
表1 實驗數(shù)據(jù)集
實驗選取了卡方檢驗、MIC互信息法和最大信息系數(shù)、遞歸特征消除法RFE和基于隨機森林的樹模型的特征選擇。這些代表性的特征選擇算法與基于LightGBM-Gibbs Sampling特征選擇方法分別在4個樣本數(shù)據(jù)集中實驗,用不同特征選擇方法選一定數(shù)量的特征,在同樣的模型中使用交叉驗證的方法來比較各方法的準(zhǔn)確率,進(jìn)而衡量方法的有效性。
交叉驗證是一種模型驗證技術(shù),使用機器學(xué)習(xí)模型進(jìn)行預(yù)測可以準(zhǔn)確衡量一個模型在數(shù)據(jù)集上的效果。交叉驗證具體做法就是將數(shù)據(jù)集劃分個部分,一部分用于訓(xùn)練模型,其余部分測試模型的性能好壞,也叫折交叉驗證。交叉驗證還可以限制模型在訓(xùn)練過程中出現(xiàn)的過擬合、欠擬合問題。本文選取交叉驗證的方法,取=5,產(chǎn)生不受高偏差和高偏差影響的測試誤差估計,將平均準(zhǔn)確率作為模型預(yù)測能力的評價方法,在同一數(shù)據(jù)上比較不同方法的平均準(zhǔn)確率。
將本文所提出的方法與幾種典型的特征選擇算法分別在4個樣本數(shù)據(jù)集進(jìn)行對比實驗,選擇一定數(shù)量的特征,使用5折交叉驗證的邏輯回歸模型衡量模型的預(yù)測能力,4個樣本數(shù)據(jù)集的實驗結(jié)果見表2。
表2 數(shù)據(jù)所用方法實驗比對結(jié)果
表2顯現(xiàn)了原始數(shù)據(jù)集在模型中的準(zhǔn)確率和進(jìn)行特征選擇的特征數(shù)量以及各種方法選取的相同數(shù)量的特征子集在相同模型的準(zhǔn)確率。從表2中的實驗結(jié)果可以看出,所選取的4個數(shù)據(jù)集分別使用卡方檢驗、MIC互信息法和最大信息系數(shù)、遞歸特征消除法RFE、基于隨機森林的樹模型的特征選擇和基于LightGBMGibbs Sampling特征選擇方法進(jìn)行特征選擇,對應(yīng)4個數(shù)據(jù)分別選擇8、18、7、21個屬性。實驗發(fā)現(xiàn),相比其它4個特征選擇方法,基于LightGBM-Gibbs Sampling特征選擇方法取得了更好的準(zhǔn)確率,相比原始數(shù)據(jù)集,數(shù)據(jù)集的維度不僅有效地降低了,準(zhǔn)確率也得到了提升。
數(shù)據(jù)的維度災(zāi)難給模型帶來訓(xùn)練復(fù)雜、挖掘能力不足等問題,本文基于吉布斯采樣的方法提出了Gibbs Sampling和LightGBM相結(jié)合的特征選擇方法,使用公共數(shù)據(jù)集與幾個典型的特征選擇方法進(jìn)行了比較,實驗結(jié)果表明,基于LightGBM-Gibbs Sampling特征選擇算法的方法有效性,且相比其它方法,該方法具有一定的優(yōu)勢,可以有效做到特征的降維。
在實際中,Gibbs Sampling的復(fù)雜度是一個多項式,相比于包裹式特征選擇,復(fù)雜度已經(jīng)降低了不少,但還是比較大,在后續(xù)工作中,如何解決Gibbs Sampling的復(fù)雜度是亟需解決的一個問題,力爭做到特征的快速選擇,降低時間成本,增強時效性。