模糊最小二乘大間隔孿生支持向量回歸機(jī)*

2020-08-11 00:46王怡芮朱志祥

計算機(jī)與數(shù)字工程 2020年6期

王怡芮朱志祥

（西安郵電大學(xué)物聯(lián)網(wǎng)與兩化融合研究院西安 710061）

1 引言

近幾年，支持向量機(jī)（SVM）［1］已經(jīng)被廣泛應(yīng)用在分類和回歸領(lǐng)域。SVM的理論基礎(chǔ)是VC維理論和結(jié)構(gòu)風(fēng)險最小化原則。相比于人工神經(jīng)網(wǎng)絡(luò)等其他機(jī)器學(xué)習(xí)算法，SVM有如下優(yōu)勢：1）SVM解決一個帶約束的二次規(guī)劃問題，能夠得到唯一的最優(yōu)解；2）SVM基于結(jié)構(gòu)風(fēng)險最小化理論原則，具備更好的泛化性能。通過核函數(shù)的引用［2～3］，SVM成功地解決非線性問題，受到了專家學(xué)者的廣泛關(guān)注。然而，SVM對于大數(shù)據(jù)量的模型訓(xùn)練，存在時間復(fù)雜度較高的問題。SVM模型訓(xùn)練的時間復(fù)雜度為O(m3)，m為訓(xùn)練樣本的規(guī)模。

Jayadeva等提出了一種用于解決分類問題的新算法—孿生支持向量機(jī)［4］（TWSVM）。TWSVM算法的靈感來源于GEPSVM，不再類似于SVM訓(xùn)練獲得兩個平行的超平面，TWSVM通過解決兩個規(guī)模較小的二次規(guī)劃問題以此獲得兩個不平行的超平面。通過計算分析，在數(shù)據(jù)集規(guī)模相同的情況下，TWSVM的訓(xùn)練速率較標(biāo)準(zhǔn)SVM的提升4倍。2010年，Peng將TWSVM從解決分類問題擴(kuò)展到回歸問題，提出了孿生支持向量回歸機(jī)［5］（TSVR）。2012年，Xu Yitian和Wang Laisheng提出了加權(quán)孿生回歸機(jī)（weighted twin support vector regression，weighted TSVR）［6］，通過賦予不同位置的樣本不同的懲罰力度，使得回歸機(jī)能夠在一定程度上避免過度擬合問題，提升模型的泛化能力。為了減輕計算負(fù)擔(dān)，2013年，Huang HJ和Ding SF等提出了最小二乘孿生支持向量回歸機(jī)［7］（Primal least squares twin support vector regression，LSSVR）。

近些年的研究使得TSVR有了不同方向的進(jìn)展［8～16］，但是這些研究所考慮的每一個訓(xùn)練數(shù)據(jù)對于生成超平面的貢獻(xiàn)和作用是相同的，沒有反映出數(shù)據(jù)在真實空間中的內(nèi)在分布情況［17～18］。同時，為了進(jìn)一步提高模型的訓(xùn)練效率和模型精度，本文提出一種基于最小二乘的大間隔模糊孿生支持向量回歸機(jī)（LSFTSVR），在目標(biāo)函數(shù)中對不同數(shù)據(jù)所對應(yīng)的經(jīng)驗誤差進(jìn)行密度加權(quán)，密度加權(quán)值在真實空間中采用KNN算法進(jìn)行計算，并對密度加權(quán)值進(jìn)行歸一化。通過實驗結(jié)果比較，發(fā)現(xiàn)所提出的LSFTSVR相比于weighted TSVR具有更高的精確度。

2 TSVR

為了提高普通SVR的計算速度和泛化性能，Peng提出了一種有效的回歸函數(shù)，稱為TSVR，它是通過求解以下兩個QPP問題得到的。

對TSVR進(jìn)行簡單介紹。假設(shè)一個大小為m的數(shù)據(jù)集S表示為

其中，xi∈Rn，i=1，2，…，m，n 。目標(biāo)是通過構(gòu)建兩個優(yōu)化問題獲得兩個函數(shù)來預(yù)測無輸出的實例。與傳統(tǒng)TWSVM構(gòu)建思想類似，TSVR將在訓(xùn)練數(shù)據(jù)點兩側(cè)產(chǎn)生一對不平行的函數(shù)，分別確定回歸函數(shù)的ε不敏感上、下界。對于線性情況，TSVR通過訓(xùn)練數(shù)據(jù)的ε1不敏感下界：

與ε2不敏感上界：

確定最終的預(yù)測回歸函數(shù)。最終預(yù)測函數(shù)表示如下：

式（2）和（3）對應(yīng)的函數(shù)的求解可以通過求解下面的一對二次規(guī)劃問題：

通過拉格朗日變換，引入α和γ，將式（5）和（6）轉(zhuǎn)化為如下對偶形式：

3 模糊隸屬度和間隔分布函數(shù)

3.1 模糊隸屬度

在普通εSVR中，回歸函數(shù)相比分類機(jī)而言對孤立點更加敏感，圖1表示加入孤立點前后，回歸間隔變化的示意圖，從圖中可以發(fā)現(xiàn)，由于孤立點的加入回歸間隔發(fā)生了很大的變化，整體向靠近孤立點的方向靠近，由此產(chǎn)生誤差。

圖1表明，設(shè)計SVR隸屬度函數(shù)的過程中，需要考慮到以下三點：第一，設(shè)計的隸屬度應(yīng)該能準(zhǔn)確判斷出噪聲孤立點，并將它從訓(xùn)練集中舍掉；第二，離回歸線越遠(yuǎn)的數(shù)據(jù)點較回歸線附近的樣本點對回歸線構(gòu)建的影響越大，若數(shù)據(jù)點不重要，應(yīng)該賦予其較小的隸屬度值；第三，越靠近預(yù)測點的訓(xùn)練樣本點對最終的回歸結(jié)果影響越大，因此應(yīng)該賦予靠近預(yù)測點的樣本點較大的隸屬度。

圖1 加入孤立點前后的回歸線

由于上述原因，回歸機(jī)的隸屬度設(shè)計不再單純仿照分類機(jī)通常依據(jù)距離設(shè)定。參考FSVM中隸屬度的模型原則，將其引入SVR中。引入基于密度的模糊隸屬度函數(shù)si(i=1，2，…m)，將給出如下定義：

參考k近鄰的思想：如果一個樣本在特征空間中的k個最相似（即特征空間中最鄰近）的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別。則表示在原始數(shù)據(jù)空間中，樣本數(shù)據(jù)點xi周圍第k個鄰近的點，d(xi，)是xi與間的歐式距離。

本章為回歸機(jī)設(shè)計的隸屬度函數(shù)以密度為原則，改善了基于距離法的隸屬度仍然對異常點敏感的問題。通過引入k近鄰的思想，為了體現(xiàn)樣本真實分布情況，衡量了訓(xùn)練數(shù)據(jù)點之間的相對密度。各個數(shù)據(jù)點對應(yīng)的隸屬度值si通過計算各個樣本數(shù)據(jù)點與其對應(yīng)的第k個近鄰點之間的距離和所有訓(xùn)練樣本距離中的最大值之比獲得，即式（12），同時0＜si≤1。相比單純依靠距離法的隸屬度函數(shù)，基于密度的隸屬度函數(shù)，對于大多數(shù)數(shù)據(jù)點緊湊，只有少數(shù)異常點的情況，能更加準(zhǔn)確地反映訓(xùn)練數(shù)據(jù)集的內(nèi)在分布情況，因此能夠很大程度地減小噪聲孤立點這類異常點對最優(yōu)超平面的負(fù)面影響。

對數(shù)據(jù)點進(jìn)行如上的操作后，訓(xùn)練數(shù)據(jù)集S中每個數(shù)據(jù)點xi都被賦予對應(yīng)的隸屬度值si，將si組成m×m大小的對角矩陣W=diag(2，…，sm)，其對角線值為對應(yīng)的隸屬度值。

3.2 間隔分布

理論研究表明［16］，間隔分布對于模型的影響通過一階和二階統(tǒng)計特性來表現(xiàn)。本文中，采用了間隔均值和間隔方差來代表這兩個統(tǒng)計特性。通過文獻(xiàn)［17］，每個訓(xùn)練數(shù)據(jù)(xi，yi)所對應(yīng)的幾何間隔為μi=yi(wTxi+b)?？梢杂嬎汩g隔均值和間隔方差。Y為l×1的列矩陣，表示樣本輸出值組成的矩陣；e為所有元素為1的l×1列矩陣。考慮f1以及vi=[wi，bi]情況下，可以獲得如下的間隔均值和間隔方差：

3.3 模糊最小二乘孿生大間隔支持向量回歸機(jī)

首先在標(biāo)準(zhǔn)TSVR的基礎(chǔ)上，憑借間隔分布的作用提高模型的泛化能力。同時考慮到結(jié)構(gòu)最小化原則，提出新的回歸算法。在該算法中，為了減小噪聲孤立點對模型超平面構(gòu)建的影響并提高訓(xùn)練速度，引入模糊隸屬度函數(shù)和最小二乘方法。然后將隸屬度矩陣W引入到目標(biāo)函數(shù)中，形成新的二次規(guī)劃問題，線性模糊最小二乘孿生大間隔回歸機(jī)模型如下：

式（17）將約束條件代入目標(biāo)函數(shù)中，對w1和b1分別求導(dǎo)，并令其為0：

4 算法分析及實驗仿真

4.1 評價標(biāo)準(zhǔn)

為了評價回歸機(jī)的優(yōu)劣與否，需要通過一些指標(biāo)體現(xiàn)回歸機(jī)的各項性能。yi表示第i個樣本實際輸出值，y^i表示第i個樣本預(yù)測輸出值，yˉi表示第i個樣本輸出平均值，m是測試樣本總數(shù)。介紹常用的6種性能指標(biāo)如下：

1）和方差（SSE）

即測試樣本擬合輸出和原始輸出誤差的平方和。其中，SSE表示預(yù)測精度，即SSE越小，模型擬合數(shù)據(jù)的能力越好。但是，如果測試樣本中噪聲干擾較大，則太小的SSE可能導(dǎo)致過擬合現(xiàn)象。

2）SST

即原始數(shù)據(jù)和均值之差的平方和。其中SST是由噪聲或輸入值變化引起的測試樣本的改變。

3）SSR：

其中SSR代表構(gòu)造模型的解釋能力。SSR越大，它從測試樣本中獲得的統(tǒng)計信息就越多。

4）均方根誤差（RMSE）

其中，RMSE與SSE相同，代表預(yù)測誤差。RMSE可以評價數(shù)據(jù)的變化程度，RMSE越小，說明該模型的擬合實驗數(shù)據(jù)能力越強(qiáng)。RMSE能很好地反映出模型的精密度。

5）歸一化均方誤差（NMSE）

其中，NMSE是誤差平方和與測試樣本的平方偏差之和的比值。NMSE越小，回歸的性能越好。

6）R2

R2表示可預(yù)測的偏差平方和與測試樣本的平方偏差的實際總和之比。大多數(shù)情況下，較小的NMSE意味著預(yù)測和實際值之間存在著更好的一致性。但是，較小的NMSE通常伴隨著R2的增加。

4.2 LSFTSVR實驗結(jié)果與分析

為了驗證本章提出的LSFTSVR算法的性能，對LSFTSVR算法和Weighed TSVR算法分別在UCI［18］數(shù)據(jù)庫中的數(shù)據(jù)集進(jìn)行了測試并對其進(jìn)行比較分析。本章中的算法均使用Matlab 7.11.0的軟件編程語言實現(xiàn)，操作系統(tǒng)為Windows7，主頻2.5GHz，計算機(jī)的內(nèi)存大小為2GB。實驗中采用的7個數(shù)據(jù)集均來自UCI數(shù)據(jù)庫。為了讓兩種算法在同一平臺上進(jìn)行比較，在非線性情況中，實驗中所用的核函數(shù)均為Gaussian核函數(shù) K(x，y)=exp(-μ‖x-y‖2)。為了保證實驗的可信度，所有實驗均在相同的環(huán)境下進(jìn)行的。為了得到最好的實驗結(jié)果，所有實驗均使用十倍交叉驗證找出整個范圍內(nèi)的最佳參數(shù)，所有算法參數(shù)范圍均在{2i|i=-2，…，8}內(nèi)。同時，為了能夠客觀并準(zhǔn)確地反應(yīng)實驗的結(jié)果，實驗的最終數(shù)據(jù)是通過十倍交叉驗證方法完成十次實驗的平均值。時間是代入最優(yōu)參數(shù)完成一次實驗所花費的CPU時間。實驗設(shè)定c1=c2，c3=c4，λ1=λ3，λ2=λ4，k=15。

4.2.1 人工數(shù)據(jù)集

在機(jī)器學(xué)習(xí)方面，常用sinc(x)函數(shù)測試各種機(jī)器學(xué)習(xí)方法的回歸性能。其表達(dá)式為

本試驗的人工數(shù)據(jù)是系統(tǒng)生成的200個兩類二維數(shù)據(jù)，選取200個數(shù)據(jù)中的80%作為訓(xùn)練數(shù)據(jù)，剩下的作為預(yù)測數(shù)據(jù)。因為每次試驗數(shù)據(jù)選取的80%都是隨機(jī)的，故本實驗的準(zhǔn)確率是十次平均準(zhǔn)確率的結(jié)果。

表1 人工數(shù)據(jù)集的特征

表2 LSFTSVR人工數(shù)據(jù)集上實驗結(jié)果

從表2可以看出LSFTSVR能得到比較小的RMSE及NMSE和較大的R2，這說明LSFTSVR的逼近精度比Weighed TSVR的逼近精度好，即LSFTSVR在回歸精確度上有較明顯的提高?？偟膩碚f，LSFTSVR的擬合能力更好。

4.2.2 UCI數(shù)據(jù)集

為了進(jìn)一步驗證本節(jié)所提出算法的各項性能，我們對來自UCI數(shù)據(jù)庫的7個基準(zhǔn)數(shù)據(jù)集進(jìn)行了實驗?；貧w效果可以從海量數(shù)據(jù)集中清晰地展示出來。測試樣本同樣占總樣本的80%。表3是標(biāo)準(zhǔn)數(shù)據(jù)集的特征。

表4是LSFTSVR分別對7個數(shù)據(jù)集進(jìn)行10次測試的平均結(jié)果。

表3 數(shù)據(jù)集特征

表4 LSFTSVR在UCI數(shù)據(jù)集上實驗結(jié)果

表5 LSFTSVR在UCI數(shù)據(jù)集上訓(xùn)練效率的實驗結(jié)果

從表4的實驗結(jié)果來看，在選取的7個數(shù)據(jù)集中，本文所提出的LSFTSVR算法較Weighed TSVR算法能得到比較小的RMSE及NMSE和較大的R2，這說明LSFTSVR的逼近精度比Weighed TSVR的逼近精度高，在回歸精確度上有較明顯的提高，驗證了所提出的LSFTSVR算法的有效性。從表5來看，相比于標(biāo)準(zhǔn)Weighed TSVR算法，在訓(xùn)練速度上有明顯的提高，同時也驗證了采用最小二乘思想解決TSVR算法的有效性。

綜上所述，本文所提出的最小二乘模糊孿生大間隔支持向量回歸機(jī)算法通過引入隸屬度函數(shù)及間隔分布，使模型能夠更好地反映訓(xùn)練數(shù)據(jù)集的內(nèi)在分布，從而獲得了更加精確的訓(xùn)練模型。

5 結(jié)語

本文提出了一種新的模糊孿生支持向量回歸機(jī)，稱為模糊最小二乘大間隔孿生回歸機(jī)（LSFTSVR）。引入間隔分布函數(shù)，將標(biāo)準(zhǔn)的模糊孿生支持向量回歸機(jī)優(yōu)化目標(biāo)從經(jīng)驗風(fēng)險最小化擴(kuò)展到結(jié)構(gòu)風(fēng)險最小化，并將最小二乘思想引入到新的模型中。通過對LSFTSVR算法和Weighed TSVR在7個UCI數(shù)據(jù)集和3個人工數(shù)據(jù)集上的比較發(fā)現(xiàn)，所提出的算法在相關(guān)預(yù)測參考值上有一定的提高，從而驗證了所提出算法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡