王怡芮 朱志祥
(西安郵電大學(xué)物聯(lián)網(wǎng)與兩化融合研究院 西安 710061)
近幾年,支持向量機(jī)(SVM)[1]已經(jīng)被廣泛應(yīng)用在分類和回歸領(lǐng)域。SVM的理論基礎(chǔ)是VC維理論和結(jié)構(gòu)風(fēng)險最小化原則。相比于人工神經(jīng)網(wǎng)絡(luò)等其他機(jī)器學(xué)習(xí)算法,SVM有如下優(yōu)勢:1)SVM解決一個帶約束的二次規(guī)劃問題,能夠得到唯一的最優(yōu)解;2)SVM基于結(jié)構(gòu)風(fēng)險最小化理論原則,具備更好的泛化性能。通過核函數(shù)的引用[2~3],SVM成功地解決非線性問題,受到了專家學(xué)者的廣泛關(guān)注。然而,SVM對于大數(shù)據(jù)量的模型訓(xùn)練,存在時間復(fù)雜度較高的問題。SVM模型訓(xùn)練的時間復(fù)雜度為O(m3),m為訓(xùn)練樣本的規(guī)模。
Jayadeva等提出了一種用于解決分類問題的新算法—孿生支持向量機(jī)[4](TWSVM)。TWSVM算法的靈感來源于GEPSVM,不再類似于SVM訓(xùn)練獲得兩個平行的超平面,TWSVM通過解決兩個規(guī)模較小的二次規(guī)劃問題以此獲得兩個不平行的超平面。通過計算分析,在數(shù)據(jù)集規(guī)模相同的情況下,TWSVM的訓(xùn)練速率較標(biāo)準(zhǔn)SVM的提升4倍。2010年,Peng將TWSVM從解決分類問題擴(kuò)展到回歸問題,提出了孿生支持向量回歸機(jī)[5](TSVR)。2012年,Xu Yitian和Wang Laisheng提出了加權(quán)孿生回歸機(jī)(weighted twin support vector regression,weighted TSVR)[6],通過賦予不同位置的樣本不同的懲罰力度,使得回歸機(jī)能夠在一定程度上避免過度擬合問題,提升模型的泛化能力。為了減輕計算負(fù)擔(dān),2013年,Huang HJ和Ding SF等提出了最小二乘孿生支持向量回歸機(jī)[7](Primal least squares twin support vector regression,LSSVR)。
近些年的研究使得TSVR有了不同方向的進(jìn)展[8~16],但是這些研究所考慮的每一個訓(xùn)練數(shù)據(jù)對于生成超平面的貢獻(xiàn)和作用是相同的,沒有反映出數(shù)據(jù)在真實空間中的內(nèi)在分布情況[17~18]。同時,為了進(jìn)一步提高模型的訓(xùn)練效率和模型精度,本文提出一種基于最小二乘的大間隔模糊孿生支持向量回歸機(jī)(LSFTSVR),在目標(biāo)函數(shù)中對不同數(shù)據(jù)所對應(yīng)的經(jīng)驗誤差進(jìn)行密度加權(quán),密度加權(quán)值在真實空間中采用KNN算法進(jìn)行計算,并對密度加權(quán)值進(jìn)行歸一化。通過實驗結(jié)果比較,發(fā)現(xiàn)所提出的LSFTSVR相比于weighted TSVR具有更高的精確度。
為了提高普通SVR的計算速度和泛化性能,Peng提出了一種有效的回歸函數(shù),稱為TSVR,它是通過求解以下兩個QPP問題得到的。
對TSVR進(jìn)行簡單介紹。假設(shè)一個大小為m的數(shù)據(jù)集S表示為
其中,xi∈Rn,i=1,2,…,m,n 。目標(biāo)是通過構(gòu)建兩個優(yōu)化問題獲得兩個函數(shù)來預(yù)測無輸出的實例。與傳統(tǒng)TWSVM構(gòu)建思想類似,TSVR將在訓(xùn)練數(shù)據(jù)點兩側(cè)產(chǎn)生一對不平行的函數(shù),分別確定回歸函數(shù)的ε不敏感上、下界。對于線性情況,TSVR通過訓(xùn)練數(shù)據(jù)的ε1不敏感下界:
與ε2不敏感上界:
確定最終的預(yù)測回歸函數(shù)。最終預(yù)測函數(shù)表示如下:
式(2)和(3)對應(yīng)的函數(shù)的求解可以通過求解下面的一對二次規(guī)劃問題:
通過拉格朗日變換,引入α和γ,將式(5)和(6)轉(zhuǎn)化為如下對偶形式:
在普通εSVR中,回歸函數(shù)相比分類機(jī)而言對孤立點更加敏感,圖1表示加入孤立點前后,回歸間隔變化的示意圖,從圖中可以發(fā)現(xiàn),由于孤立點的加入回歸間隔發(fā)生了很大的變化,整體向靠近孤立點的方向靠近,由此產(chǎn)生誤差。
圖1表明,設(shè)計SVR隸屬度函數(shù)的過程中,需要考慮到以下三點:第一,設(shè)計的隸屬度應(yīng)該能準(zhǔn)確判斷出噪聲孤立點,并將它從訓(xùn)練集中舍掉;第二,離回歸線越遠(yuǎn)的數(shù)據(jù)點較回歸線附近的樣本點對回歸線構(gòu)建的影響越大,若數(shù)據(jù)點不重要,應(yīng)該賦予其較小的隸屬度值;第三,越靠近預(yù)測點的訓(xùn)練樣本點對最終的回歸結(jié)果影響越大,因此應(yīng)該賦予靠近預(yù)測點的樣本點較大的隸屬度。
圖1 加入孤立點前后的回歸線
由于上述原因,回歸機(jī)的隸屬度設(shè)計不再單純仿照分類機(jī)通常依據(jù)距離設(shè)定。參考FSVM中隸屬度的模型原則,將其引入SVR中。引入基于密度的模糊隸屬度函數(shù)si(i=1,2,…m),將給出如下定義:
參考k近鄰的思想:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。則表示在原始數(shù)據(jù)空間中,樣本數(shù)據(jù)點xi周圍第k個鄰近的點,d(xi,)是xi與間的歐式距離。
本章為回歸機(jī)設(shè)計的隸屬度函數(shù)以密度為原則,改善了基于距離法的隸屬度仍然對異常點敏感的問題。通過引入k近鄰的思想,為了體現(xiàn)樣本真實分布情況,衡量了訓(xùn)練數(shù)據(jù)點之間的相對密度。各個數(shù)據(jù)點對應(yīng)的隸屬度值si通過計算各個樣本數(shù)據(jù)點與其對應(yīng)的第k個近鄰點之間的距離和所有訓(xùn)練樣本距離中的最大值之比獲得,即式(12),同時0<si≤1。相比單純依靠距離法的隸屬度函數(shù),基于密度的隸屬度函數(shù),對于大多數(shù)數(shù)據(jù)點緊湊,只有少數(shù)異常點的情況,能更加準(zhǔn)確地反映訓(xùn)練數(shù)據(jù)集的內(nèi)在分布情況,因此能夠很大程度地減小噪聲孤立點這類異常點對最優(yōu)超平面的負(fù)面影響。
對數(shù)據(jù)點進(jìn)行如上的操作后,訓(xùn)練數(shù)據(jù)集S中每個數(shù)據(jù)點xi都被賦予對應(yīng)的隸屬度值si,將si組成m×m大小的對角矩陣W=diag(2,…,sm),其對角線值為對應(yīng)的隸屬度值。
理論研究表明[16],間隔分布對于模型的影響通過一階和二階統(tǒng)計特性來表現(xiàn)。本文中,采用了間隔均值和間隔方差來代表這兩個統(tǒng)計特性。通過文獻(xiàn)[17],每個訓(xùn)練數(shù)據(jù)(xi,yi)所對應(yīng)的幾何間隔為μi=yi(wTxi+b)??梢杂嬎汩g隔均值和間隔方差。Y為l×1的列矩陣,表示樣本輸出值組成的矩陣;e為所有元素為1的l×1列矩陣。考慮f1以及vi=[wi,bi]情況下,可以獲得如下的間隔均值和間隔方差:
首先在標(biāo)準(zhǔn)TSVR的基礎(chǔ)上,憑借間隔分布的作用提高模型的泛化能力。同時考慮到結(jié)構(gòu)最小化原則,提出新的回歸算法。在該算法中,為了減小噪聲孤立點對模型超平面構(gòu)建的影響并提高訓(xùn)練速度,引入模糊隸屬度函數(shù)和最小二乘方法。然后將隸屬度矩陣W引入到目標(biāo)函數(shù)中,形成新的二次規(guī)劃問題,線性模糊最小二乘孿生大間隔回歸機(jī)模型如下:
式(17)將約束條件代入目標(biāo)函數(shù)中,對w1和b1分別求導(dǎo),并令其為0:
為了評價回歸機(jī)的優(yōu)劣與否,需要通過一些指標(biāo)體現(xiàn)回歸機(jī)的各項性能。yi表示第i個樣本實際輸出值,y^i表示第i個樣本預(yù)測輸出值,yˉi表示第i個樣本輸出平均值,m是測試樣本總數(shù)。介紹常用的6種性能指標(biāo)如下:
1)和方差(SSE)
即測試樣本擬合輸出和原始輸出誤差的平方和。其中,SSE表示預(yù)測精度,即SSE越小,模型擬合數(shù)據(jù)的能力越好。但是,如果測試樣本中噪聲干擾較大,則太小的SSE可能導(dǎo)致過擬合現(xiàn)象。
2)SST
即原始數(shù)據(jù)和均值之差的平方和。其中SST是由噪聲或輸入值變化引起的測試樣本的改變。
3)SSR:
其中SSR代表構(gòu)造模型的解釋能力。SSR越大,它從測試樣本中獲得的統(tǒng)計信息就越多。
4)均方根誤差(RMSE)
其中,RMSE與SSE相同,代表預(yù)測誤差。RMSE可以評價數(shù)據(jù)的變化程度,RMSE越小,說明該模型的擬合實驗數(shù)據(jù)能力越強(qiáng)。RMSE能很好地反映出模型的精密度。
5)歸一化均方誤差(NMSE)
其中,NMSE是誤差平方和與測試樣本的平方偏差之和的比值。NMSE越小,回歸的性能越好。
6)R2
R2表示可預(yù)測的偏差平方和與測試樣本的平方偏差的實際總和之比。大多數(shù)情況下,較小的NMSE意味著預(yù)測和實際值之間存在著更好的一致性。但是,較小的NMSE通常伴隨著R2的增加。
為了驗證本章提出的LSFTSVR算法的性能,對LSFTSVR算法和Weighed TSVR算法分別在UCI[18]數(shù)據(jù)庫中的數(shù)據(jù)集進(jìn)行了測試并對其進(jìn)行比較分析。本章中的算法均使用Matlab 7.11.0的軟件編程語言實現(xiàn),操作系統(tǒng)為Windows7,主頻2.5GHz,計算機(jī)的內(nèi)存大小為2GB。實驗中采用的7個數(shù)據(jù)集均來自UCI數(shù)據(jù)庫。為了讓兩種算法在同一平臺上進(jìn)行比較,在非線性情況中,實驗中所用的核函數(shù)均為Gaussian核函數(shù) K(x,y)=exp(-μ‖x-y‖2)。為了保證實驗的可信度,所有實驗均在相同的環(huán)境下進(jìn)行的。為了得到最好的實驗結(jié)果,所有實驗均使用十倍交叉驗證找出整個范圍內(nèi)的最佳參數(shù),所有算法參數(shù)范圍均在{2i|i=-2,…,8}內(nèi)。同時,為了能夠客觀并準(zhǔn)確地反應(yīng)實驗的結(jié)果,實驗的最終數(shù)據(jù)是通過十倍交叉驗證方法完成十次實驗的平均值。時間是代入最優(yōu)參數(shù)完成一次實驗所花費的CPU時間。實驗設(shè)定c1=c2,c3=c4,λ1=λ3,λ2=λ4,k=15。
4.2.1 人工數(shù)據(jù)集
在機(jī)器學(xué)習(xí)方面,常用sinc(x)函數(shù)測試各種機(jī)器學(xué)習(xí)方法的回歸性能。其表達(dá)式為
本試驗的人工數(shù)據(jù)是系統(tǒng)生成的200個兩類二維數(shù)據(jù),選取200個數(shù)據(jù)中的80%作為訓(xùn)練數(shù)據(jù),剩下的作為預(yù)測數(shù)據(jù)。因為每次試驗數(shù)據(jù)選取的80%都是隨機(jī)的,故本實驗的準(zhǔn)確率是十次平均準(zhǔn)確率的結(jié)果。
表1 人工數(shù)據(jù)集的特征
表2 LSFTSVR人工數(shù)據(jù)集上實驗結(jié)果
從表2可以看出LSFTSVR能得到比較小的RMSE及NMSE和較大的R2,這說明LSFTSVR的逼近精度比Weighed TSVR的逼近精度好,即LSFTSVR在回歸精確度上有較明顯的提高??偟膩碚f,LSFTSVR的擬合能力更好。
4.2.2 UCI數(shù)據(jù)集
為了進(jìn)一步驗證本節(jié)所提出算法的各項性能,我們對來自UCI數(shù)據(jù)庫的7個基準(zhǔn)數(shù)據(jù)集進(jìn)行了實驗?;貧w效果可以從海量數(shù)據(jù)集中清晰地展示出來。測試樣本同樣占總樣本的80%。表3是標(biāo)準(zhǔn)數(shù)據(jù)集的特征。
表4是LSFTSVR分別對7個數(shù)據(jù)集進(jìn)行10次測試的平均結(jié)果。
表3 數(shù)據(jù)集特征
表4 LSFTSVR在UCI數(shù)據(jù)集上實驗結(jié)果
表5 LSFTSVR在UCI數(shù)據(jù)集上訓(xùn)練效率的實驗結(jié)果
從表4的實驗結(jié)果來看,在選取的7個數(shù)據(jù)集中,本文所提出的LSFTSVR算法較Weighed TSVR算法能得到比較小的RMSE及NMSE和較大的R2,這說明LSFTSVR的逼近精度比Weighed TSVR的逼近精度高,在回歸精確度上有較明顯的提高,驗證了所提出的LSFTSVR算法的有效性。從表5來看,相比于標(biāo)準(zhǔn)Weighed TSVR算法,在訓(xùn)練速度上有明顯的提高,同時也驗證了采用最小二乘思想解決TSVR算法的有效性。
綜上所述,本文所提出的最小二乘模糊孿生大間隔支持向量回歸機(jī)算法通過引入隸屬度函數(shù)及間隔分布,使模型能夠更好地反映訓(xùn)練數(shù)據(jù)集的內(nèi)在分布,從而獲得了更加精確的訓(xùn)練模型。
本文提出了一種新的模糊孿生支持向量回歸機(jī),稱為模糊最小二乘大間隔孿生回歸機(jī)(LSFTSVR)。引入間隔分布函數(shù),將標(biāo)準(zhǔn)的模糊孿生支持向量回歸機(jī)優(yōu)化目標(biāo)從經(jīng)驗風(fēng)險最小化擴(kuò)展到結(jié)構(gòu)風(fēng)險最小化,并將最小二乘思想引入到新的模型中。通過對LSFTSVR算法和Weighed TSVR在7個UCI數(shù)據(jù)集和3個人工數(shù)據(jù)集上的比較發(fā)現(xiàn),所提出的算法在相關(guān)預(yù)測參考值上有一定的提高,從而驗證了所提出算法的有效性。