杜一平
(呂梁學(xué)院 數(shù)學(xué)系,山西 離石 033001)
心臟病的診斷是一個(gè)分類問(wèn)題,數(shù)據(jù)挖掘中基于分類的模型有很多,如KNN、logistic回歸、決策樹(shù)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等.而近幾年集合多個(gè)學(xué)習(xí)器的集成學(xué)習(xí)模型在各方面表現(xiàn)出其優(yōu)越性,得到人們的追捧.如隨機(jī)森林、AdaBoost算法.隨機(jī)森林是對(duì)多個(gè)決策樹(shù)的并行組合,AdaBoost則是對(duì)其進(jìn)行串行迭代.單個(gè)學(xué)習(xí)器的準(zhǔn)確率只依賴于自身單一參數(shù)的選擇,而集成學(xué)習(xí)模型雖然有更強(qiáng)的泛化能力,但往往有數(shù)量眾多的參數(shù)需要進(jìn)行選擇.如果參數(shù)多且其取值空間非常大,想要進(jìn)行參數(shù)擇優(yōu)就是一個(gè)難題.遍歷整個(gè)參數(shù)空間,往往是不現(xiàn)實(shí)或者是效率極低的.而如果用隨機(jī)搜索的方法則很有可能遺漏最優(yōu)值.對(duì)于參數(shù)集的選擇問(wèn)題,貝葉斯優(yōu)化框架是一個(gè)非常有效的辦法[1].
貝葉斯優(yōu)化實(shí)質(zhì)就是在對(duì)目標(biāo)函數(shù)具體形式不知的情況下,根據(jù)已有的采樣點(diǎn)來(lái)估計(jì)函數(shù)最大值的一種算法.與遍歷搜索算法相比,迭代次數(shù)少,粒度小[2].優(yōu)化流程如圖1:
圖1 貝葉斯優(yōu)化流程
貝葉斯優(yōu)化流程有兩個(gè)主要模塊,概率代理模型(Probabilistic Surrogate Model)和采集函數(shù)(Acquisition Function).
概率代理模型顧名思義就是用一個(gè)概率模型來(lái)代理目標(biāo)函數(shù)f(·).模型更新由式(1)得出.
(1)
其中,D={(x1,f1),(x2,f2),…,(xn,yn)}表示已采集樣本點(diǎn),p(f)為f的先驗(yàn)分布,通過(guò)貝葉斯公式得出p(f|D)為f的后驗(yàn)分布.具體的代理模型根據(jù)參數(shù)的不同情況,可以分為參數(shù)模型和非參數(shù)模型.參數(shù)模型就是由參數(shù)w來(lái)決定f(·),它的參數(shù)量在更新過(guò)程中是不變的.而非參數(shù)模型的參數(shù)量會(huì)隨著數(shù)據(jù)量的變化而變化.相比較,非參數(shù)模型要更靈活、更具擴(kuò)展性.非參數(shù)模型中應(yīng)用最廣泛的是高斯過(guò)程(GP)[3].
高斯過(guò)程本質(zhì)是一個(gè)多元正態(tài)分布,在貝葉斯優(yōu)化中,一般假設(shè):
(2)
y|X,σ2~N(y|m,K+σ2~I(xiàn))
(3)
(4)
采集函數(shù)的目的是在參數(shù)空間中得出下一個(gè)評(píng)估點(diǎn),使其能提升函數(shù)性能.常見(jiàn)的采集函數(shù)有:UCB、PI、EI三種.本文中采用PI函數(shù),其形式為:
PI(X)=p(f(X)≥f(X+)+v)
(5)
式(5)中f(X)為目標(biāo)函數(shù),f(X+)為目前為止最優(yōu)的目標(biāo)函數(shù),μ(x),σ(x)是f(X)后驗(yàn)分布的均值和協(xié)差陣,v權(quán)衡系數(shù),避免陷入局部最優(yōu).采集函數(shù)過(guò)程就是選取新的X,使PI(x)最大,一般這個(gè)過(guò)程使用蒙特卡洛模擬方法[4].
文章選取UCI心臟病數(shù)據(jù)集Heart,數(shù)據(jù)集中有303條數(shù)據(jù),15個(gè)屬性,其中Ca表示患有心臟病可能性.部分?jǐn)?shù)據(jù)如下:
表1 Heart數(shù)據(jù)集5個(gè)樣本數(shù)據(jù)
在R中導(dǎo)入數(shù)據(jù)集Heart,發(fā)現(xiàn)有少量缺失值,直接進(jìn)行剔除,剩余297條數(shù)據(jù).對(duì)變量RestBP、Chol、Thalach、MaxHR進(jìn)行標(biāo)準(zhǔn)化處理.數(shù)據(jù)集中描述心臟病可能性的變量Ca是一個(gè)連續(xù)型變量,創(chuàng)建一個(gè)AHD變量,將Ca二值化.當(dāng)Ca的值大于等于0.5時(shí),AHD取Yes,反之取No.以AHD作為分類變量,建立分類模型.
本文采用當(dāng)下流行的集成學(xué)習(xí)中的隨機(jī)森林算法建立分類模型.隨機(jī)抽取50個(gè)樣本作為測(cè)試集,其余為訓(xùn)練集.隨機(jī)森林模型參數(shù)主要有兩個(gè)[5]:第一個(gè)是樹(shù)的數(shù)量Ntree,數(shù)量過(guò)多過(guò)擬合的風(fēng)險(xiǎn)增大,數(shù)量太少又欠擬合,其范圍確定為(1,120).第二個(gè)是建樹(shù)時(shí)隨機(jī)抽取的屬性個(gè)數(shù)Dtree,取值范圍(1,14).接下來(lái)用貝葉斯優(yōu)化算法對(duì)參數(shù)進(jìn)行優(yōu)化.
首先確定目標(biāo)函數(shù).對(duì)于每組參數(shù)所對(duì)應(yīng)的模型,在訓(xùn)練集上進(jìn)行5折交叉驗(yàn)證,平均誤差為目標(biāo)函數(shù)f,每組參數(shù)組合為變量X,代入貝葉斯優(yōu)化框架中進(jìn)行迭代計(jì)算,參數(shù)優(yōu)化流程見(jiàn)表2.
表2 參數(shù)優(yōu)化流程
本文采用R語(yǔ)言中MIBayesOpt程序包.它提供了支持貝葉斯優(yōu)化方法的計(jì)算框架,輔助支持向量機(jī)、隨機(jī)森林等模型進(jìn)行參數(shù)優(yōu)化.計(jì)算框架中采用GP+PI模型,即高斯過(guò)程結(jié)合PI函數(shù)的優(yōu)化模型,對(duì)隨機(jī)森林模型的參數(shù)進(jìn)行優(yōu)化搜索,搜索迭代次數(shù)為100次,得出最優(yōu)參數(shù)組合(Ntree,Dtree),測(cè)試集準(zhǔn)確率達(dá)到93.44.接著采用隨機(jī)選取的方法,隨機(jī)選出100組參數(shù)組合,得出其準(zhǔn)確率最高的組合為(Ntree,Dtree)=(110,6).將兩組參數(shù)代入隨機(jī)森林模型在測(cè)試集上分別測(cè)試分類準(zhǔn)確率.表3和表4分別代表兩種模型的在測(cè)試集上的性能,結(jié)果匯總?cè)绫?.
表3 隨機(jī)搜索模型混淆矩陣
表4貝葉斯優(yōu)化模型混淆矩陣
預(yù)測(cè)實(shí)測(cè) 是否心臟病1013310511
表5 結(jié)果比較
由實(shí)驗(yàn)結(jié)果可以得出,貝葉斯優(yōu)化尋參方法與隨機(jī)搜索方法相比,在迭代次數(shù)相同的情況下,在測(cè)試集上準(zhǔn)確率要更高.因此隨機(jī)搜索最優(yōu)參數(shù)還是具有一定的盲目性,而貝葉斯優(yōu)化尋參方法是隨著數(shù)據(jù)模型變化趨勢(shì),有目的的尋找最優(yōu)參數(shù),效率更高.
本文首先簡(jiǎn)要介紹了貝葉斯優(yōu)化框架的理論知識(shí),隨后將其框架應(yīng)用于隨機(jī)森林分類算法的參數(shù)尋優(yōu)過(guò)程中.最后經(jīng)Heart數(shù)據(jù)集實(shí)證分析,得出其方法在調(diào)參方面的優(yōu)越性.貝葉斯優(yōu)化框架也可以廣泛應(yīng)用于其他機(jī)器學(xué)習(xí)模型的參數(shù)調(diào)優(yōu)中.