国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

稀疏貝葉斯混合專家模型及其在光譜數(shù)據(jù)標(biāo)定中的應(yīng)用

2016-11-08 01:53俞斌峰季海波
自動化學(xué)報 2016年4期
關(guān)鍵詞:貝葉斯光譜專家

俞斌峰 季海波

稀疏貝葉斯混合專家模型及其在光譜數(shù)據(jù)標(biāo)定中的應(yīng)用

俞斌峰1季海波1

在光譜數(shù)據(jù)的多元校正中,光譜數(shù)據(jù)通常是在多種不同的環(huán)境條件下收集的.為了建模來源于不同環(huán)境中的高維光譜數(shù)據(jù),本文提出了一種新的稀疏貝葉斯混合專家模型,并將其用來選擇多元校正模型的稀疏特征.混合專家模型能夠把訓(xùn)練數(shù)據(jù)劃分到不同的子類,之后使用不同的預(yù)測模型來分別對劃分后的數(shù)據(jù)進(jìn)行預(yù)測,因此這種方法適合于建模來自于多種環(huán)境下的光譜數(shù)據(jù).本文提出的稀疏的混合專家模型利用稀疏貝葉斯的方法來進(jìn)行特征選擇,不依賴于事先指定的參數(shù);同時利用probit模型作為門函數(shù)以得到解析的后驗分布,避免了在門函數(shù)分類模型中進(jìn)行特征提取時需要的近似.本文提出的模型與其他幾種常用的回歸模型在人工數(shù)據(jù)集和幾個公開的光譜數(shù)據(jù)集上進(jìn)行了比較,比較結(jié)果顯示本文提出的模型對多個來源的光譜數(shù)據(jù)進(jìn)行濃度預(yù)測時精度比傳統(tǒng)的回歸方法有一定的提高.

多元校正,混合專家模型,特征提取,變分推斷

引用格式俞斌峰,季海波.稀疏貝葉斯混合專家模型及其在光譜數(shù)據(jù)標(biāo)定中的應(yīng)用.自動化學(xué)報,2016,42(4):566?579

在很多機(jī)器學(xué)習(xí)的回歸或者分類問題中,訓(xùn)練樣本通??梢詣澐譃楹芏嘧蛹煌淖蛹枰貌煌哪P秃筒煌奶卣鱽磉M(jìn)行描述,這時為了構(gòu)建輸入輸出之間的關(guān)系,需要建立很復(fù)雜的預(yù)測函數(shù).分而治之的方法因為可以把一個復(fù)雜的問題分解成多個相對簡單的子問題而成為了處理復(fù)雜機(jī)器學(xué)習(xí)問題的一種常用方法.決策樹算法是最常用的一種分而治之方法.決策樹模型的每個分支遞歸的選擇一個特征將輸入該節(jié)點的樣本空間劃分成不同區(qū)域,然后在葉子節(jié)點上用不同的節(jié)點值來對不同區(qū)域的樣本進(jìn)行預(yù)測.決策樹模型的一個缺陷是每次劃分只依據(jù)單一的特征,忽略了特征之間的聯(lián)系.另外決策樹模型也難以建模輸入輸出之間的局部的線性關(guān)系.當(dāng)根據(jù)領(lǐng)域知識輸入輸出關(guān)系更適合用線性模型來描述時,強行用決策樹模型建模的話需要大量樣本構(gòu)建復(fù)雜的樹結(jié)構(gòu).

與決策樹模型將每個輸入樣本都劃分到不同的節(jié)點、每個訓(xùn)練樣本只由一個葉子節(jié)點負(fù)責(zé)預(yù)測不同,混合專家模型將概率方法引入到樣本空間分割和子預(yù)測模型建模中.混合專家模型通過門函數(shù)來計算樣本屬于不同子類的概率,并且對不同的子類估計一個稱為專家模型的輸入輸出的概率模型.混合專家模型通過門函數(shù)和多個專家模型的組合來建模輸入輸出之間復(fù)雜的概率關(guān)系[1].

和決策樹模型一樣,混合專家模型也是一種將預(yù)測問題分而治之的方法.相比于決策樹模型使用硬的判決條件對輸入空間進(jìn)行分割,使用概率模型的混合專家模型可以認(rèn)為是一種軟分割的方法[2].混合專家模型使用的門函數(shù)決定了每個樣本由不同專家預(yù)測的概率,也相當(dāng)于對于每個樣本分配了一組將子模型組合時的權(quán)值,之后用計算得到的概率權(quán)值把不同的專家模型的預(yù)測結(jié)果組合起來[3].

混合專家模型中的門函數(shù)和專家模型的選取有較大的自由,通常使用簡單的線性模型來構(gòu)建專家模型以建模輸入輸出之間局部的線性關(guān)系[1,4?5].另外也常使用高斯過程來構(gòu)建非線性的專家模型[6?7].混合專家通常使用多類分類的softmax函數(shù)作為門函數(shù)來計算每個樣本由不同專家進(jìn)行預(yù)測的概率[5,8].文獻(xiàn)[4]使用了多層的門函數(shù),構(gòu)建一個類似于決策樹的多層混合專家模型.

近年來,隨著各種特征選擇方法的發(fā)展,學(xué)者們將特征選擇與混合專家模型進(jìn)行了結(jié)合,從而將混合專家模型推廣到了處理高維數(shù)據(jù)上.文獻(xiàn)[9]將L1懲罰加入到高斯混合模型訓(xùn)練的EM算法中以誘導(dǎo)稀疏的高斯模型均值.文獻(xiàn)[8,10]沿著將L1正則和EM算法結(jié)合的思路,提出利用L1正則方法來使得混合專家模型的門函數(shù)和專家模型都只使用部分稀疏特征.L1范數(shù)正則的稀疏化方法需要設(shè)置適當(dāng)?shù)恼齽t系數(shù),這些L1正則和EM結(jié)合的方法通常都使用交叉檢驗的算法來估計正則系數(shù).為了減小交叉檢驗的計算量,文獻(xiàn)[8,10]中所有的專家模型和門函數(shù)都使用統(tǒng)一的正則系數(shù).然而在實際中不同的專家模型可能需要使用的特征和特征數(shù)目都不相同,這種統(tǒng)一的正則懲罰可能會降低模型的泛化性能.另外由于訓(xùn)練混合模型時使用的EM算法不能保證每次都收斂到全局的最優(yōu)解,只能夠得到局部的極大值點,收斂得到的最終結(jié)果受到迭代初始值的影響,因此交叉檢驗的性能差異并不能完全確定是否是由于使用了不同的正則化系數(shù)而導(dǎo)致的.上面的這些原因?qū)е铝耸褂肔1范數(shù)正則對混合專家模型進(jìn)行特征選擇在實踐中使用的困難.

稀疏貝葉斯方法是另外一種常用的特征選擇的方法.稀疏貝葉斯方法不像L1范數(shù)正則一樣可以歸結(jié)到的一個凸優(yōu)化問題而能夠保證收斂到全局最優(yōu)值,它是一種概率的方法并且只能保證收斂到局部極值點[11?12].稀疏貝葉斯方法的主要優(yōu)點在于不需要預(yù)設(shè)一個正則參數(shù),避免了繁雜的參數(shù)選擇問題.對于混合專家模型而言,由于訓(xùn)練多個模型混合就無法保證收斂到全局的最優(yōu),并且模型本身也是從概率角度進(jìn)行描述的,因此用稀釋貝葉斯方法來進(jìn)行模型特征選擇更加自然并且計算也更加簡便.文獻(xiàn)[5]使用了稀疏貝葉斯方法來選擇混合的高斯專家模型的特征,但是其門函數(shù)使用的softmax函數(shù)難以使用合適的先驗分布,使得后驗分布具有容易計算的解析形式,因此他們的方法只能選擇專家模型特征而不能選擇門函數(shù)的特征.本文將probit模型[13]引入到混合專家模型的門函數(shù)建模中,用全貝葉斯方法建立了一種稀疏的混合專家模型,這種模型能夠自動地確定不同的專家模型和門函數(shù)使用的特征并且不依賴于人為的設(shè)置的參數(shù),因此新提出的模型適用于分析高維的輸入數(shù)據(jù).文獻(xiàn)[14]提出了一種貝葉斯混合專家模型方法.本文與其主要區(qū)別在于本文的模型更注重于高維數(shù)據(jù)的特征選擇.為了進(jìn)行特征選擇,本文提出的模型使用了不同的先驗分布和門函數(shù).本文提出的這種全貝葉斯的混合專家模型的框架也很容易使用其他的先驗分布來進(jìn)行推廣,以提取具有其他性質(zhì)的專家模型或者門函數(shù).

本文主要是為了解決不同條件下的光譜數(shù)據(jù)多元校正問題.在光譜數(shù)據(jù)分析中,很多時候整個光譜數(shù)據(jù)集中的樣本是在不同的條件下搜集的.如果我們能夠確定光譜數(shù)據(jù)的來源,就可以對不同的來源的高維光譜數(shù)據(jù)分別建立回歸模型.但當(dāng)數(shù)據(jù)來源不確定時候,如果單純只是將不同來源的數(shù)據(jù)放在一起用統(tǒng)一的線性模型估計的話可能會產(chǎn)生較大的誤差,特別是部分環(huán)境中的樣本點很小的時候[15].在光譜分析中為了分析來自不同來源的數(shù)據(jù)以及將一種環(huán)境中建立好的模型運用到另外不同的環(huán)境中人們提出了很多特殊的光譜校正遷移的算法[16].為了避免線性模型在建模數(shù)據(jù)來源復(fù)雜時預(yù)測精度下降的問題,很多非線性方法如支持向量機(jī)等也都被引入到了光譜多元校正中[17?21].但是這樣的模型忽視了在同一個環(huán)境中光譜數(shù)據(jù)和預(yù)測值通常是具有線性關(guān)系的.因此本文將混合專家模型引入到光譜數(shù)據(jù)分析之中,混合專家模型能夠把搜集于不同環(huán)境中的光譜數(shù)據(jù)首先用門函數(shù)來進(jìn)行分類,然后劃分到不同的專家模型進(jìn)行預(yù)測,更加符合光譜分析中非線性產(chǎn)生的根源.

近年來為了分析來自不同來源的但是相互之間具有內(nèi)在聯(lián)系的數(shù)據(jù),多任務(wù)學(xué)習(xí)(Multi-task learning)的方法得到了人們廣泛關(guān)注[22?29].多任務(wù)學(xué)習(xí)的方法能夠提取多個相關(guān)的機(jī)器學(xué)習(xí)任務(wù)之間的內(nèi)在聯(lián)系.即使在單個學(xué)習(xí)任務(wù)的訓(xùn)練樣本不足的時候,多任務(wù)學(xué)習(xí)的方法也可以利用任務(wù)之間的關(guān)聯(lián)來對每個學(xué)習(xí)任務(wù)建立泛化性能較好的模型[22].多任務(wù)學(xué)習(xí)研究的是在給定多個學(xué)習(xí)任務(wù)后同時學(xué)習(xí)多個學(xué)習(xí)任務(wù),對于每個數(shù)據(jù)樣本都要有一個任務(wù)標(biāo)簽來判斷是屬于哪一個任務(wù).而有時我們并不清楚搜集到的數(shù)據(jù)具體屬于哪個任務(wù),不能給這些數(shù)據(jù)一些明確的任務(wù)標(biāo)簽,本文主要研究的是在不能夠給定數(shù)據(jù)來源標(biāo)簽的情況下同時對數(shù)據(jù)進(jìn)行劃分和對劃分后的數(shù)據(jù)建模.

本文內(nèi)容安排如下:在第1節(jié)回顧了混合專家模型的基本形式,并且提出了新的稀疏混合專家模型.第2節(jié)基于變分推斷方法給出了稀疏混合專家模型的訓(xùn)練算法,以及對新樣本的預(yù)測算法.第3節(jié)將我們提出的新的模型在一個人工數(shù)據(jù)集和3個真實的多種來源的光譜數(shù)據(jù)集中進(jìn)行了實驗,展示了新的方法的預(yù)測性能.最后第4節(jié)對全文進(jìn)行了總結(jié).

1 稀疏混合專家模型

在本節(jié)中我們首先簡要回顧經(jīng)典的混合專家模型(Mixture of experts,ME),之后介紹本文的主要貢獻(xiàn):結(jié)合稀疏貝葉斯方法以及probit模型對經(jīng)典的混合專家模型進(jìn)行擴(kuò)展后的使用貝葉斯方法選擇稀疏特征的新的稀疏混合專家模型(Sparse mixture of experts,SME).

1.1混合專家模型

輸入輸出之間的條件概率有時比較復(fù)雜,難以用單個的概率模型來描述,混合專家模型采用多個局部的混合密度來估計輸入輸出之間的條件概率分布.

設(shè)有K個局部的概率模型,混合專家模型將條件分布P(y|x)分解為

ME模型假設(shè)輸入輸出的條件概率是多個局部概率密度的加權(quán)混合,其中局部的概率密度函數(shù)稱為ME模型中的專家,混合系數(shù)稱為門函數(shù).混合專家模型可以認(rèn)為是一種概率上的決策樹模型:其采用概率的門函數(shù)來計算各個輸入更適合用哪個專家預(yù)測.決策樹模型采用硬的分割規(guī)則來分割輸入空間.相對于一般的概率混合模型,如高斯混合模型.混合專家模型假設(shè)混合模型的加權(quán)系數(shù)與輸入有關(guān),而概率混合模型中混合系數(shù)認(rèn)為是常數(shù).

ME常采用多元logit模型來定義門函數(shù):

其中:

采用不同的門函數(shù)和專家模型,可以得到不同的混合專家模型.如對于分類問題,可采用邏輯回歸模型作為專家模型來進(jìn)行構(gòu)建混合專家分類模型.文獻(xiàn)[4]使用混合專家分類模型作為門函數(shù)得到了一種分層的混合專家模型.

1.2稀疏混合專家模型

當(dāng)輸入數(shù)據(jù)的維數(shù)大于訓(xùn)練樣本數(shù)時,擬合線性的高斯模型以及線性的多元分類模型都會出現(xiàn)過擬合問題,因此傳統(tǒng)的混合專家模型不適合處理高維的輸入數(shù)據(jù).而由于高維的輸入特征中通常只有部分的特征與輸出有關(guān),對輸入的特征進(jìn)行提取是一種常用的分析高維數(shù)據(jù)的方法.本文將稀疏貝葉斯方法和probit模型與混合專家模型結(jié)合起來,提出一種能夠自動提取輸入特征的稀疏混合專家模型.

我們采用全貝葉斯的稀疏的線性回歸模型作為專家模型:

我們采用如下的貝葉斯probit門函數(shù)模型:

其中δ為0-1指示函數(shù),記00=1,

設(shè)有N個訓(xùn)練樣本,可以用圖1所示的概率圖模型來表示上述的概率關(guān)系.

本文將文獻(xiàn)[12]提出的稀疏probit分類方法引入到混合專家模型中對門函數(shù)進(jìn)行建模.相比于文獻(xiàn)[14]中貝葉斯的混合專家模型,本文提出的SME模型中每個專家的線性高斯模型的系數(shù)的先驗分布具有不同的精度,這樣SME模型的訓(xùn)練過程中能夠根據(jù)這些精度的后驗分布自動地選取特征.SME模型中使用probit模型作為門函數(shù),可以直接處理多類的貝葉斯分類問題,而文獻(xiàn)[14]需要對logistic回歸中的sigmoid函數(shù)進(jìn)行近似,并且需要構(gòu)建一個復(fù)雜的樹結(jié)構(gòu)以使用兩類分類方法來對多類進(jìn)行分類.文獻(xiàn)[8]采用了L1范數(shù)正則化的方法來獲得稀疏的專家模型系數(shù)和門函數(shù)模型系數(shù),但文獻(xiàn)[8]中所有的專家模型和門函數(shù)都使用了同樣的正則化參數(shù),這樣的限制可能會使得有些專家模型或者門函數(shù)模型使用了過多的特征而出現(xiàn)過擬合,而有些模型的正則化參數(shù)太大而出現(xiàn)欠擬合.如果對不同的專家使用不同的正則化系數(shù),文獻(xiàn)[8]中的方法將會有太多的正則參數(shù)需要事先確定,確定參數(shù)的計算量過大.文獻(xiàn)[5]和本文一樣使用了稀疏貝葉斯的線性模型作為專家模型.兩者的混合專家模型的門函數(shù)使用的是多元logit模型,當(dāng)把稀疏貝葉斯的思想用到多元logit模型時,需要在每步迭代中計算Kp×Kp的Hessian矩陣以及其逆矩陣,計算量過大.文獻(xiàn)[5]的模型無法對門函數(shù)進(jìn)行特征選擇,當(dāng)輸入特征的維度很高時,可能不能得到合適的門函數(shù).

圖1 SME的概率圖模型Fig.1 The probabilistic graph of the SME model

2 變分推斷以及預(yù)測

本節(jié)先通過變分推斷(Variational inference)的方法推導(dǎo)出上面提出的SME模型的訓(xùn)練方法,之后給出當(dāng)出現(xiàn)新樣本時輸出的預(yù)測方法.

這里記:

θ代表所有模型中未觀測的隱藏變量,

記:

其中L(q)定義為

KL(q||P)定義為

將式(32)代入到式(30),用變分法來極大化L(q),可以得到

這里θi,θj代表式(32)中的因子項,如C,A等.根據(jù)式(33)可以得到一系列的關(guān)于每個因子分布的方程,式(32)中的每個因子與其他因子的期望有關(guān),變分推斷方法即是初始化每個因子,然后根據(jù)式(33)交替的計算每個因子分布并代替當(dāng)前因子分布,一直循環(huán)迭代直到收斂.下面給出專家模型和門函數(shù)中每一個因子分布的具體計算方法.

2.1專家模型的變分推斷

專家模型中包含了隨機(jī)變量α ,W,A,根據(jù)式(22),q?(W)滿足:

由于模型中采用了共軛先驗,后驗估計q(W)同樣也為高斯分布,其期望與協(xié)方差矩陣分別為和與訓(xùn)練樣本有關(guān).q?(α)滿足:

因此根據(jù)共軛先驗,q?(α)同樣也為Gamma分布:

根據(jù)Gamma分布的性質(zhì)有:

稀疏混合專家模型通過參數(shù)A進(jìn)行特征選擇,由式(22)和式(33)可以得到:

可以看出q?(aki)同樣為Gamma分布,

2.2門函數(shù)的變分推斷

在概率圖模型中,隨機(jī)變量V,Z,R,C屬于門函數(shù)模型,其中q(R),q(C)的推斷和上面的專家模型中q(W),q(A)的推斷類似:

其中

從式(45)中可以看出R的后驗估計同樣為高斯分布:

q?(R)的均值和協(xié)方差矩陣分別為和滿足:

我們采用了稀疏貝葉斯的方法設(shè)專家模型和門函數(shù)中關(guān)于每個特征的擬合系數(shù)的先驗分布有著不同的精度,在模型推斷的時候,大部分精度的后驗分布均值即Eak1和Eck1會變得很大,因此可以剔除很多冗余的特征,達(dá)到特征提取的目的[11].

q(Z,V)的估計相對復(fù)雜:

代入上面的分布函數(shù)可以計算得到:

根據(jù)前面的模型定義:

結(jié)合g1,g2可以得到:

vn的后驗分布估計的邊緣分布為

似然函數(shù)值下界可以寫成

代入前面設(shè)定的模型的具體分布以及估計出的后驗分布就可以得到極大化的似然函數(shù)值的下界.通過計算采用不同專家數(shù)時的不同的似然函數(shù)值的下界可以選擇最優(yōu)的專家個數(shù).采用probit模型作為門函數(shù)不需要在每步對門函數(shù)模型的后驗概率進(jìn)行近似,而是采用多個獨立分布的積利用變分推斷來近似整個后驗分布.在上面的變分推斷中每次關(guān)于門函數(shù)的迭代中需要計算k個P×P的矩陣k及其逆,相比于用logit模型計算1個KP×KP的Hessian矩陣及其逆的計算量要小一點,前者的計算量為O(KP3),后者為O(K3P3).但是采用probit模型每步迭代時需要計算O(K2N)個一維積分,當(dāng)專家數(shù)過多時積分的計算量會變得很大.

2.3變分預(yù)測分布

其中:

上式的第3行中的積分沒有解析解.由于后驗分布一般比較尖銳,可以直接用αk的均值近似在整個空間中對后驗分布的積分.

其中Sk={(v1,v2,···,vk)∈RK|vk>vj,?j/=k},由于:

式(75)等于:

u為服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量.可以用下面的高斯混合分布來估計新樣本輸出ynew的分布:

輸出ynew的期望為

可以將上式作為混合專家模型對輸出的預(yù)測公式.

3 實驗

本節(jié)中我們首先采用人工生成的實驗數(shù)據(jù)來檢測新提出的SME模型的函數(shù)擬合和特征選擇能力,之后將提出的SME模型運用到了三個真實的光譜數(shù)據(jù)集中來檢驗新提出的方法在光譜數(shù)據(jù)的定量分析中的表現(xiàn).SME模型將與經(jīng)典的混合專家模型,以及幾種常用的回歸方法包括偏最小二乘(Partial least squares,PLS)、支持向量機(jī)回歸(Support vector regression,SVR)、LASSO(Least absolute shrinkage and selection operator)和嶺回歸(Ridge regression)進(jìn)行了比較.其中SVR中采用徑向基函數(shù)(Radial basis function,RBF)作為核函數(shù).在真實光譜數(shù)據(jù)集中,我們的算法還和使用Bagging方法集成的嶺回歸方法進(jìn)行了比較.SME模型中只需要指定一個超參數(shù),即共軛Gamma先驗分布的a,b.與PLS、SVR以及LAR中的參數(shù)不同,我們通常希望貝葉斯模型中超參數(shù)對模型訓(xùn)練的結(jié)果的影響盡量小,因此可以直接指定為一個很小的值a=10?3,b=10?5.使用這樣很小的超參數(shù),可以減少SME模型中先驗信息對后驗概率分布的影響.其他模型的參數(shù)由5層交叉檢驗決定.Bagging集成學(xué)習(xí)方法采用了100次重新抽樣.對于我們提出的這種稀疏混合專家模型,和文獻(xiàn)[14]一樣,我們使用了確定性退火(Deterministic annealing)的策略來減小迭代初值對最終得到的模型的影響,確定性退火策略的具體實現(xiàn)步驟參照文獻(xiàn)[31?32].

3.1仿真數(shù)據(jù)

我們生成300個60維的隨機(jī)輸入.隨機(jī)輸入的生成方式如下:首先生成300個均值為0、協(xié)方差矩陣為UDUT的60維多元高斯分布隨機(jī)數(shù),其中U為60維的隨機(jī)單位正交矩陣,D為對角矩陣,其前五個對角元為1,剩下的為0.01.之后將這些多元高斯分布隨機(jī)數(shù)的前2維加上平移項,對前100個數(shù)據(jù)的前兩維加上平移項(1,1),中間100個數(shù)據(jù)加上平移項(1,?1),最后100個數(shù)據(jù)加上平移項(?1,?1).這樣這些輸入數(shù)據(jù)可以根據(jù)前兩維分成3類.接下來為了生成對應(yīng)的輸出,我們把這些數(shù)據(jù)的第3到4維按照之前分成的三堆分別乘上3個隨機(jī)的系數(shù)向量并且加上方差為1的零均值高斯噪聲以生成一維輸出Y,其中隨機(jī)系數(shù)向量服從均值為0、標(biāo)準(zhǔn)差為10的正態(tài)分布.通過上面的步驟我們生成了三堆可用通過前兩維劃分開的,同時輸出只與輸入的第3、4維有關(guān)的數(shù)據(jù)集.

我們根據(jù)生成的仿真數(shù)據(jù)訓(xùn)練多個不同專家數(shù)目的SME模型.為了確定最優(yōu)的專家個數(shù),分別計算專家數(shù)為2~6時的L(q),結(jié)果如圖2所示.從圖2中可以看出當(dāng)專家數(shù)超過3時,進(jìn)一步增加專家數(shù)模型L(q)反而降低,因此SME模型適合使用3個專家.圖3和圖4展示了SME模型中專家模型和門函數(shù)的代表擬合系數(shù)精度的隨機(jī)變量A、C的均值.根據(jù)稀疏貝葉斯方法,矩陣A、C中對應(yīng)特征的精度值越大,特征的對應(yīng)系數(shù)就越集中到0.因此大精度值對應(yīng)的特征就可以刪去,從圖3和圖4中可以看出SME模型成功的找出了與專家模型相關(guān)的第3、4維特征,以及與門函數(shù)相關(guān)的第1、2維特征.

圖2 不同專家數(shù)時的似然函數(shù)下界Fig.2 Plot of the lower bound L(q)versus the number of experts

圖3 專家模型在不同維度上的精度矩陣A的后驗均值Fig.3 The means of the coefficients of expert models

圖4 門函數(shù)在不同維度上的精度矩陣C的后驗均值Fig.4 The means of the coefficients of gate function

最后來檢驗生成的數(shù)據(jù)對輸出預(yù)測效果,這里采用均方誤差值(Root mean square error,RMSE)來作為各種方法的評價標(biāo)準(zhǔn),設(shè)有n個測試樣本RMSE值的定義如下:

其中yi是真實的輸出值,而i是預(yù)測值,我們用5層交叉檢驗的方法來計算預(yù)測結(jié)果,每次選取300個樣本中的20% 的樣本作為測試樣本,剩下的80%樣本作為訓(xùn)練樣本.表1給出了采用PLS、SVR、LAR、經(jīng)典的混合專家模型(ME)以及我們提出的SME方法的預(yù)測誤差.對于這種有大量多余噪聲維數(shù)同時可以用少量幾個線性模型描述的數(shù)據(jù)集,SME方法取得了最好的預(yù)想結(jié)果,預(yù)測誤差最接近貝葉斯誤差1.0.而線性的PLS、LASSO、Ridge方法都不能很好地預(yù)測這類數(shù)據(jù).由于具有大量的噪聲維度,非線性的SVR方法的預(yù)測效果也很差.表1顯示了經(jīng)典的混合專家模型無法處理高維數(shù)據(jù),因此在之后對光譜數(shù)據(jù)的實驗中我們只考慮使用SME模型,不再進(jìn)行和經(jīng)典ME模型的比較.

表1 在人工數(shù)據(jù)集上的預(yù)測結(jié)果Table 1 The prediction results in the artificial data set

3.2光譜數(shù)據(jù)

我們使用三個真實的光譜數(shù)據(jù)集來展示我們的算法在光譜分析中的應(yīng)用效果,這三個數(shù)據(jù)集都是使用紅外光譜來對物質(zhì)含量或者濃度來進(jìn)行預(yù)測.第1個數(shù)據(jù)集是玉米光譜數(shù)據(jù)集,數(shù)據(jù)集下載地址為:http://software.eigenvector.com/Data/Corn/ index.html,這個數(shù)據(jù)集包括了240條由三個不同的光譜儀測量的玉米樣本的紅外光譜以及其對應(yīng)的蛋白質(zhì)含量、脂肪含量、水分含量以及淀粉含量,我們只進(jìn)行對水分的預(yù)測.玉米光譜的波長范圍為1100nm~2498nm,每隔2nm測量光譜在該波長上的吸收度,這樣玉米數(shù)據(jù)集的輸入樣本為240個700維的向量.而進(jìn)行預(yù)測的輸出的水分濃度的范圍為9.38%~10.99%.第2個數(shù)據(jù)集是來自于IDRC Shootout 2002的藥品數(shù)據(jù)集,這個數(shù)據(jù)集包含了由兩個紅外儀器測654個樣本得到的1308條光譜以及對應(yīng)藥品成分含量,這個數(shù)據(jù)集的輸入為從600nm~1898nm每隔2nm進(jìn)行記錄的1308個650維的向量,預(yù)測輸出為在152nm~239mg范圍內(nèi)的藥品有效成分的含量.第3個數(shù)據(jù)集是來自于文獻(xiàn)[15]的溫度數(shù)據(jù)集,包含了19個水,乙醇等混合物樣本在30?C~70?C時測得的95條光譜數(shù)據(jù),我們研究對乙醇的預(yù)測.溫度數(shù)據(jù)集的輸入為850nm~1049nm間每隔1nm測量的95個200維向量,預(yù)測輸出為濃度范圍為0%~100%的乙醇濃度.我們首先使用玉米數(shù)據(jù)集的所有240個樣本訓(xùn)練了一個使用3個專家的SME模型.圖5顯示了這個SME模型的專家模型的回歸系數(shù)的均值,即式(35)中的W的后驗估計q(W)的均值k,k=1,2,3.從圖5中可以看出每個專家模型都只使用了部分的波長,這顯示了SME模型可以實現(xiàn)特征選擇的目標(biāo).

圖5 根據(jù)玉米數(shù)據(jù)集的全部樣本訓(xùn)練的三個專家的SME模型的專家模型回歸系數(shù)的均值Fig.5 The means of the coefficients of the three expert models of SME trained with the corn data set

由于貝葉斯方法不需要進(jìn)行參數(shù)選擇,對于新提出的SME模型,我們只需要將數(shù)據(jù)分成訓(xùn)練集和測試集,用訓(xùn)練集上數(shù)據(jù)來訓(xùn)練SME模型,然后用測試集上的數(shù)據(jù)來檢驗預(yù)測效果.和PLS、SVR等模型不同,SME模型不需要一個獨立的驗證集來選擇模型參數(shù).為了充分利用所有的訓(xùn)練樣本,我們直接使用交叉檢驗誤差來評估SME模型在真實光譜數(shù)據(jù)集上的預(yù)測效果.對于其他需要選擇參數(shù)的建模方法,我們給出了使得交叉檢驗誤差最小的模型參數(shù)的RMSECV(Root mean square error of cross validation)值.對于玉米數(shù)據(jù)集,我們將240個樣本用5層交叉檢驗的方法來劃分訓(xùn)練集和驗證集.每次選擇192個樣本作為訓(xùn)練集,選擇剩下的48個樣本作為驗證集.對于藥品數(shù)據(jù)集,我們和文獻(xiàn)[33]一樣首先去掉了部分異常樣本,之后對剩下的1208個樣本同樣進(jìn)行5層交叉檢驗來選擇部分模型的參數(shù)和評價不同模型預(yù)測結(jié)果.最后對溫度數(shù)據(jù)集的不同溫度下的95個樣本計算交叉檢驗的均方誤差.實驗的三個光譜數(shù)據(jù)集包含了每條光譜的測量儀器或者測量環(huán)境信息,這樣我們也可以根據(jù)測量儀器或者測量環(huán)境的不同,將濃度預(yù)測問題劃分成幾個子問題,然后用多任務(wù)學(xué)習(xí)的方法來分別對不同儀器或者不同環(huán)境的光譜數(shù)據(jù)建立預(yù)測模型.我們實驗了多任務(wù)學(xué)習(xí)中的L2,1范數(shù)正則的方法以同時對子問題建模和提取模型間的共有稀疏特征[27,34].三個數(shù)據(jù)集中不同建模方法的預(yù)測誤差如表2~4所示.

表2 玉米光譜數(shù)據(jù)集的預(yù)測結(jié)果Table 2 The prediction results in corn data set

表3 溫度數(shù)據(jù)集的預(yù)測結(jié)果Table 3 The prediction results in temperature data set

從表2~4可以看出在三個數(shù)據(jù)集中,SME方法都取得了最好的預(yù)測結(jié)果,這說明對于光譜數(shù)據(jù)采用混合專家模型方法將幾個線性模型組合,能夠得到比單一線性模型更好的結(jié)果.在不知道光譜來源的情況下,SME方法的預(yù)測結(jié)果甚至還優(yōu)于知道光譜測量儀器或者測量環(huán)境時的共同稀疏特征提取的多任務(wù)學(xué)習(xí)方法(Multi-task).與多任務(wù)學(xué)習(xí)方法不同,SME方法可以在不明確光譜數(shù)據(jù)來源的情況下根據(jù)輸入輸出數(shù)據(jù)自動地對輸入樣本進(jìn)行分類,之后再分別建立模型.在對光譜數(shù)據(jù)建模的問題上比多任務(wù)學(xué)習(xí)方法更加靈活:因為有時可能沒有記錄光譜的來源.與非線性的方法相比,SME的預(yù)測結(jié)果在三個數(shù)據(jù)集上也優(yōu)于采用高斯核函數(shù)建模的SVR方法.實驗結(jié)果說明當(dāng)不知道光譜數(shù)據(jù)的來源時,SME方法可以自動地構(gòu)建適合不同環(huán)境中的光譜數(shù)據(jù)的預(yù)測模型,同時判斷模型的適用范圍,相比于單一的模型能夠取得更好的預(yù)測結(jié)果.

集成學(xué)習(xí)的方法將多個線性模型進(jìn)行集成后最終得到的還是線性模型.和集成學(xué)習(xí)方法(如Boosting、Bagging方法)不同,SME方法得到的模型可以用多個分段的線性模型來建模更加復(fù)雜的非線性關(guān)系,也更適合建模不同環(huán)境中搜集到的光譜數(shù)據(jù).由于基于決策樹的回歸方法,如隨機(jī)森林(Random forest,RF)、GDBT(Gradient boosting decision tree)等,無法建模線性關(guān)系,而理論上光譜數(shù)據(jù)和預(yù)測濃度在很大的一個范圍內(nèi)都滿足適當(dāng)?shù)木€性關(guān)系,我們沒有實驗基于樹模型的集成學(xué)習(xí)方法.我們將SME方法和采用了Bagging進(jìn)行集成的嶺回歸方法進(jìn)行了比較,從實驗結(jié)果中可以看出采用Bagging方法進(jìn)行集成后的嶺回歸模型的預(yù)測誤差比原有的嶺回歸模型的預(yù)測誤差在玉米和溫度數(shù)據(jù)集上有很大的降低,但仍然高于SME方法.這是因為SME用多個分段線性函數(shù)構(gòu)建預(yù)測模型,更符合光譜預(yù)測數(shù)據(jù)中的非線性產(chǎn)生的根源,也就能夠取得更好的預(yù)測結(jié)果.盡管我們在訓(xùn)練模型時采用了確定性退火的策略,但當(dāng)專家個數(shù)較多時,混合模型的優(yōu)化結(jié)果將受到初值影響,因此實驗中采用了較小的專家個數(shù).為了減小初值影響,同時避免計算過程中產(chǎn)生奇異點,需要研究如何在混合模型訓(xùn)練時同時對專家進(jìn)行合并與重新分割.另一方面,SME模型的計算量隨著專家個數(shù)的增加而會變得很大,當(dāng)專家個數(shù)較多時,每個專家模型的訓(xùn)練樣本可能會出現(xiàn)不足,這些都可能會限制SME模型建立更加復(fù)雜的非線性模型和在其他高維的數(shù)據(jù)分析中的應(yīng)用.將混合專家模型和多任務(wù)學(xué)習(xí)方法進(jìn)行結(jié)合可能是解決專家個數(shù)較多時訓(xùn)練樣本不足的一種途徑.最后將這種SME方法的學(xué)習(xí)框架擴(kuò)展到提取其他的專家模型以及門函數(shù)的結(jié)構(gòu)也是我們接下來需要進(jìn)一步研究的目標(biāo).

表4 藥片光譜數(shù)據(jù)集的預(yù)測結(jié)果Table 4 The prediction results in pharmaceutical data set

4 結(jié)論

本文利用稀疏貝葉斯方法和probit模型分類方法提出一種新的稀疏的混合專家模型.這種模型利用了稀疏貝葉斯方法的自動相關(guān)判決技術(shù)來選擇混合專家模型的門函數(shù)和專家模型的特征,并且利用probit模型構(gòu)建門函數(shù)得到了一個全貝葉斯的混合專家模型.相對于現(xiàn)有混合專家模型中的特征選擇方法,本文提出的方法不需要使用交叉檢驗來調(diào)整模型參數(shù),避免了使用EM算法收斂到局部極值點時對交叉檢驗結(jié)果的影響.之后我們將提出的新的模型運用到了多來源的光譜數(shù)據(jù)的多元校正的建模之中,本文提出的模型可以為這種多個來源的光譜數(shù)據(jù)分別建立合適的線性模型,并判斷各個模型所適用的光譜數(shù)據(jù).在幾個真實的光譜數(shù)據(jù)集上的實驗結(jié)果表明本文提出的模型相對于光譜多元校正常用的支持向量機(jī)和偏最小二乘方法在預(yù)測精度上有一定的提高.

References

1 Jacobs R A,Jordan M I,Nowlan S J,Hinton G E.Adaptive mixtures of local experts.Neural Computation,1991,3(1): 79?87

2 Bishop C M.Pattern Recognition and Machine Learning. New York:Springer,2006.

3 Yuksel S E,Wilson J N,Gader P D.Twenty years of mixture of experts.IEEE Transactions on Neural Networks and Learning Systems,2012,23(8):1177?1193

4 Jordan M I,Jacobs R A.Hierarchical mixtures of experts and the EM algorithm.Neural Computation,1994,6(2): 181?214

5 Bo L F,Sminchisescu C,Kanaujia A,Metaxas D.Fast algorithms for large scale conditional 3D prediction.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK:IEEE,2008.1?8

6 Rasmussen C E,Ghahramani Z.Infinite mixtures of Gaussian process experts.In:Proceedings of the 2002 Advances in Neural Information Processing Systems.Cambridge MA: MIT Press,2002.881?888

7 Meeds E,Osindero S.An alternative infinite mixture of Gaussian process experts.In:Proceedings of the 2006 Advances in Neural Information Processing Systems.Cambridge MA:MIT Press,2006.883?890

8 PeraltaB,SotoA.Embeddedlocalfeatureselection within mixture of experts.Information Sciences,2014,269: 176?187

9 Pan W,Shen X T.Penalized model-based clustering with application to variable selection.The Journal of Machine Learning Research,2007,8:1145?1164

10 Khalili A.New estimation and feature selection methods in mixture-of-experts models.Canadian Journal of Statistics,2010,38(4):519?539

11 Tipping M E.Sparse Bayesian learning and the relevance vector machine.The Journal of Machine Learning Research,2001,1:211?244

12 Ding Y F,Harrison R F.A sparse multinomial probit model for classification.Pattern Analysis and Applications,2011,14(1):47?55

13 Xu Dan-Lei,Du Lan,Liu Hong-Wei,Hong Ling,Li Yan-Bing.Joint feature selection and classification design based on variational relevance vector machine.Acta Automatica Sinica,2011,37(8):932?943(徐丹蕾,杜蘭,劉宏偉,洪靈,李彥兵.一種基于變分相關(guān)向量機(jī)的特征選擇和分類結(jié)合方法.自動化學(xué)報,2011,37(8):932?943)

14 Bishop C M,Svensen M.Bayesian hierarchical mixtures of experts.In:Proceedings of the 19th Conference on Uncertainty in Artificial Intelligence.Acapulco,Mexico:Morgan Kaufmann Publishers Inc.,2003.57?64

15 W¨ulfert F,Kok W T,Smilde A K.Influence of temperature on vibrational spectra and consequences for the predictive ability of multivariate models.Analytical Chemistry,1998,70(9):1761?1767

16 Feudale R N,Woody N A,Tan H W,Myles A J,Brown S D,F(xiàn)err′e J.Transfer of multivariate calibration models:a review.Chemometrics and Intelligent Laboratory Systems,2002,64(2):181?192

17 Thissen U,¨Ust¨un B,Melssen W J,Buydens L M C.Multivariate calibration with least-squares support vector machines.Analytical Chemistry,2004,76(11):3099?3105

18 Thissen U,Pepers M,¨Ust¨un B,Melssen W J,Buydens L M C.Comparing support vector machines to PLS for spectral regression applications.Chemometrics and Intelligent Laboratory Systems,2004,73(2):169?179

19 Hern′andez N,Talavera I,Biscay R J,Porro D,F(xiàn)erreira M M C.Support vector regression for functional data in multivariate calibration problems.Analytica Chimica Acta,2009,642(1?2):110?116

20 Barman I,Kong C R,Dingari N C,Dasari R R,F(xiàn)eld M S.Development of robust calibration models using support vector machines for spectroscopic monitoring of blood glucose.Analytical Chemistry,2010,82(23):9719?9726

21 Hern′andez N,Talavera I,Dago A,Biscay R J,F(xiàn)erreira M M C,Porro D.Relevance vector machines for multivariate calibration purposes.Journal of Chemometrics,2008,22(11?12):686?694

22 Pan S J,Yang Q.A survey on transfer learning.IEEE Transactions on Knowledge and Data Engineering,2010,22(10): 1345?1359

23 Chen J H,Tang L,Liu J,Ye J P.A convex formulation for learning a shared predictive structure from multiple tasks. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1025?1038

24 Ando R K,Zhang T.A framework for learning predictive structures from multiple tasks and unlabeled data.The Journal of Machine Learning Research,2005,6:1817?1853

25 Romera-Paredes B,Argyriou A,Bianchi-Berthouze N,Pontil M.Exploiting unrelated tasks in multi-task learning.In: Proceedings of the 15th International Conference on Artificial Intelligence and Statistics.La Palma,Canary Islands,2012.951?959

26 Caruana R.Multitask learning.Machine Learning,1997,28(1):41?75

27 Argyriou A,Evgeniou T,Pontil M.Convex multi-task feature learning.Machine Learning,2008,73(3):243?272

28 Zhang W L,Li R J,Zeng T,Sun Q,Kumar S,Ye J P,Ji S W.Deep model based transfer and multi-task learning for biological image analysis.In:Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2015.1475?1484

29 Liu A A,Xu N,Su Y T,Hong L,Hao T,Yang Z X. Single/multi-view human action recognition via regularized multi-task learning.Neurocomputing,2015,151:544?553

30 Archambeau C,Guo S B,Zoeter O.Sparse Bayesian multitask learning.In:Proceedings of the 2011 Advances in Neural Information Processing Systems.Cambridge MA:MIT Press,2011.1755?1763

31 Ueda N,Nakano R.Deterministic annealing EM algorithm. Neural Networks,1998,11(2):271?282

32 Katahira K,Watanabe K,Okada M.Deterministic annealing variant of variational Bayes method.Journal of Physics: Conference Series,2008,95(1):012015

33 Lin Z Z,Xu B,Li Y,Shi X Y,Qiao Y J.Application of orthogonal space regression to calibration transfer without standards.Journal of Chemometrics,2013,27(11): 406?413

34 Jun L,Ji S W,Ye J P.Multi-task feature learning via efficient L2,1-norm minimization.In:Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence.Montreal,Canada,2009.339?348

俞斌峰中國科學(xué)技術(shù)大學(xué)自動化系博士研究生.2010年獲得中國科學(xué)技術(shù)大學(xué)自動化系學(xué)士學(xué)位.主要研究方向為機(jī)器學(xué)習(xí)和光譜分析.本文通信作者.E-mail:ybfeng@mail.ustc.edu.cn

(YU Bin-FengPh.D.candidate in the Department of Automation,University of Science and Technology of China.He received his bachelor degree from University of Science and Technology of China in 2010.His research interest covers machine learning and spectral analysis.Corresponding author of this paper.)

季海波中國科學(xué)技術(shù)大學(xué)自動化系教授.1984年獲得浙江大學(xué)力學(xué)與機(jī)械工程系學(xué)士學(xué)位,1990年獲得北京大學(xué)力學(xué)與工程科學(xué)系理學(xué)博士學(xué)位.主要研究方向為非線性及自適應(yīng)控制.E-mail:jihb@ustc.edu.cn

(JI Hai-BoProfessor in the Department of Automation,University of Science and Technology of China.He received his bachelor degree and Ph.D.degree in mechanical engineering from Zhejiang University and Beijing University,in 1984 and 1990,respectively.His research interest covers nonlinear control and adaptive control.)

Sparse Bayesian Mixture of Experts and Its Application to Spectral Multivariate Calibration

YU Bin-Feng1JI Hai-Bo1

In spectral multivariate calibration,high dimensional spectral data are often measured on different conditions. To predict the property value of a spectrum without knowing its source,a new sparse Bayesian mixture experts(ME)model is proposed and applied to the multivariate calibration model for selecting the sparse features.The technique of mixture of experts can divide the training data into some different classes and estimate the different predictive functions for each class.Therefore,ME is suitable for prediction of multiple-source spectral data.To analyze high dimensional spectral data,the new ME model employs the sparse Bayesian method to select certain features without tuning parameters.Moreover,the multinomial probit model is used as the gate function to obtain the analytic posterior distribution in this model.This new method is compared with some classical multivariate calibration methods on artificial and some real-world datasets. Experimental results show the advantage of proposed model for high dimensional spectral data.

Multivariate calibration,mixture of experts,feature selection,variational inference

Manuscript April 29,2015;accepted August 31,2015

10.16383/j.aas.2016.c150255

Yu Bin-Feng,Ji Hai-Bo.Sparse Bayesian mixture of experts and its application to spectral multivariate calibration.Acta Automatica Sinica,2016,42(4):566?579

2015-04-29錄用日期2015-08-31

國家高技術(shù)研究發(fā)展計劃(863計劃)(AA2100100021)資助

Supported by National High Technology Research and Development Program of China(863 Program)(AA2100100021)

本文責(zé)任編委賈云得

Recommended by Associate Editor JIA Yun-De

1.中國科學(xué)技術(shù)大學(xué)自動化系合肥230027

1.Department of Automation,University of Science and Technology of China,Hefei 230027

猜你喜歡
貝葉斯光譜專家
基于三維Saab變換的高光譜圖像壓縮方法
致謝審稿專家
高光譜遙感成像技術(shù)的發(fā)展與展望
基于貝葉斯解釋回應(yīng)被告人講述的故事
基于動態(tài)貝葉斯估計的疲勞駕駛識別研究
請叫我專家
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
星載近紅外高光譜CO2遙感進(jìn)展
專家面對面
苦味酸與牛血清蛋白相互作用的光譜研究
同心县| 民丰县| 新宁县| 鹤岗市| 阳江市| 宁明县| 林州市| 玉屏| 东海县| 新邵县| 博野县| 东乡县| 高雄市| 双鸭山市| 襄城县| 灵川县| 枝江市| 渑池县| 信阳市| 安丘市| 安达市| 通州区| 甘德县| 土默特左旗| 安仁县| 拜泉县| 库尔勒市| 读书| 东阿县| 关岭| 紫金县| 北宁市| 合川市| 安吉县| 大同市| 翁源县| 荔波县| 新平| 阿拉善盟| 凤城市| 凤山市|