楊顯飛,于 翔,楊巍巍
(臺州學院 電子與信息工程學院,浙江 臺州 318000)
在許多實際應用中,信息往往具有不確定、不精確和不完整等特征,可以用模糊數(shù)據(jù)或區(qū)間數(shù)據(jù)進行度量。區(qū)間數(shù)據(jù)回歸作為一種重要的模糊數(shù)據(jù)處理分析工具,已經(jīng)被廣泛地應用在機電、氣象、金融等各個領域。
一般來說,區(qū)間回歸模型大致可以分為兩類。一類是最小二乘區(qū)間回歸模型,該類模型根據(jù)估計間隔和觀測間隔之間的距離最小化原理構建回歸算法[1-2]。另一類是可能性區(qū)間回歸模型,該類模型利用觀測間隔和估計間隔之間存在的包含關系,通過最小化估計模型的總模糊度而建立[3-4]。根據(jù)估計的輸出區(qū)間數(shù),可能性區(qū)間回歸模型也可分為兩類。第一類模型為雙輸出估計區(qū)間,其中一個輸出估計區(qū)間是被觀測區(qū)間包含的所有可能區(qū)間中半徑最大的;另一個輸出估計區(qū)間是包含觀測區(qū)間中所有可能區(qū)間中半徑最小的[5]。第二類可能性回歸模型則僅輸出單一回歸區(qū)間[6]。Tanaka等[7]提出了第一個可能性回歸模型,并假設回歸模型中的系數(shù)為區(qū)間數(shù),在其早期的研究中采用線性規(guī)劃方法計算區(qū)間回歸模型的系數(shù)。然而由于線性規(guī)劃方法的特點,一些模型的估計參數(shù)變成了確定值。為了克服這一問題,其研究團隊采用二次規(guī)劃方法對可能性回歸模型的區(qū)間參數(shù)進行了估計,二次規(guī)劃得到的區(qū)間值系數(shù)比線性規(guī)劃更理想。但是,基于上述兩個方法建立的可能性回歸模型也同時存在一定的局限性。首先,通過最小化經(jīng)驗風險建立的回歸模型,更容易過度擬合訓練數(shù)據(jù)集,影響預測性能。其次,它們很難處理非線性區(qū)間回歸問題。因此,Hong利用支持向量機對區(qū)間數(shù)據(jù)進行回歸,提出了基于二次懲罰支持向量機的區(qū)間回歸模型,有效地避免了上述問題[8]。由于該方法在建模過程中沒有考慮到現(xiàn)實數(shù)據(jù)集中大多包含噪聲數(shù)據(jù)的事實,從而限制了該模型在現(xiàn)實中的應用。因此,本文提出一種利用Hausdorff距離和KNN的區(qū)間數(shù)據(jù)噪聲篩選方法,有效地避免了噪聲區(qū)間數(shù)據(jù)對基于二次懲罰支持向量機區(qū)間回歸模型的干擾。
利用二次懲罰支持向量機建立的區(qū)間回歸模型為雙輸出估計區(qū)間回歸模型,其雙輸出估計區(qū)間與樣本觀測區(qū)間的關系如圖1所示,外面兩條實線是外邊界模型(Upper Model),為包含所有觀測區(qū)間中半徑最小的估計區(qū)間組成;內(nèi)側兩條虛線是內(nèi)邊界模型(Lower Model),為被所有觀測區(qū)間包含的半徑最大的估計區(qū)間組成。因此雙輸出估計區(qū)間回歸模型可以對被估計區(qū)間數(shù)的外邊界值和內(nèi)邊界值所在的范圍進行較好的估計。
圖1 雙估計區(qū)間回歸模型示意圖
設區(qū)間回歸模型的訓練數(shù)據(jù)集為{(x1,Y1),(x2,Y2),…,(xn,Yn)},其中xi=(1,xi1,…,xim)t為n維向量,Yi=(yi,ei)為觀測區(qū)間值,yi為區(qū)間的中心,ei為區(qū)間的半徑。同樣設區(qū)間回歸模型的區(qū)間系數(shù)為Ai=(ai,ci),則區(qū)間回歸模型可表示成:
Hong利用Y*(xi)和Y*(xi)分別代表外邊界模型和內(nèi)邊界模型,Y*(xi)和Y*(xi)的計算公式分別為:Y*(xi)=(atxi,ct|xi|+dt|xi|)和Y*(xi)=(atxi,ct|xi|),基于二次懲罰支持向量機區(qū)間回歸模型如下所示:
其中ξ2i和衡量了估計區(qū)間中心與觀測區(qū)間中心的偏離程度,約束(6)和(7)保證了觀測區(qū)間被外邊界模型估計獲得的區(qū)間所包含,約束(8)和(9)保證了觀測區(qū)間包含內(nèi)邊界模型估計獲得的區(qū)間。約束(3)和最優(yōu)化公式(2)保證了外邊界模型和內(nèi)邊界模型回歸獲得的估計區(qū)間之間差異盡可能地小。利用拉格朗日對偶法求最優(yōu)化公式(2),則其拉格朗日函數(shù)為:
由于在建立二次懲罰支持向量機過程中并沒有引入松弛變量,使得該模型容易受噪聲數(shù)據(jù)影響,那么當出現(xiàn)噪聲數(shù)據(jù)時,會使得Upper Model函數(shù)線向外移動且Lower Model向內(nèi)移動,從而增加回歸區(qū)間的范圍,降低其包含的信息價值。
Hausdorff距離是在度量空間中任意兩個集合之間的一種距離。其計算公式如下所示:
其中u和v是兩個區(qū)間數(shù)據(jù),ulow和uhign分別代表區(qū)間數(shù)據(jù)u的下限值和上限值。
當對區(qū)間數(shù)據(jù)進行線性區(qū)間數(shù)據(jù)回歸時,本文采用Hausdorff距離對區(qū)間數(shù)據(jù)之間的距離進行度量;當對區(qū)間數(shù)據(jù)進行非線性回歸時,則利用高斯Hausdorff距離度量兩個區(qū)間數(shù)據(jù)之間的距離,其計算公式如下所示:
計算出所有區(qū)間數(shù)據(jù)對之間的距離之后,則利用KNN算法計算每一個數(shù)據(jù)xi的最近鄰數(shù)據(jù)集φi,并利用Hausdorff距離或高斯Hausdorff距離計算獲得xi與其最近鄰數(shù)據(jù)集φi的平均距離di,若其大于設定的閾值,則可判斷xi為噪聲數(shù)據(jù),否則判斷其為正常數(shù)據(jù)。
為了驗證所提方法的有效性,本文將經(jīng)過噪聲區(qū)間數(shù)據(jù)篩選后再進行二次懲罰支持向量機區(qū)間的回歸算法與直接使用二次懲罰支持向量機區(qū)間的回歸算法進行對比實驗,分別比較兩者在線性數(shù)據(jù)集和非線性數(shù)據(jù)集中的回歸性能。所有算法均在window 7操作系統(tǒng)上運行,并使用Matlab編程工具實現(xiàn)。為了驗證算法的有效性,本文擬采用如下四種標準衡量區(qū)間回歸的性能。
(1)擬合優(yōu)度
(2)Hausdorff距離
當Hausdorff距離越小時,表明外邊界模型和內(nèi)邊界模型輸出的估計區(qū)間與觀測區(qū)間之間的距離越小。
(3)線性區(qū)間回歸
線性區(qū)間回歸測試集的生成函數(shù)如下:
如圖2、圖3、圖4和圖5所示可知,無論是在線性回歸條件下還是非線性回歸條件下,篩選噪聲數(shù)據(jù)后可以顯著提高二次懲罰支持向量機區(qū)間回歸模型的回歸性能;如表1和表2所示可知,擬合優(yōu)度、UpperModel和LowerModel的Hausdorff距離均獲得了更優(yōu)的結果。
圖2 二次懲罰支持向量機區(qū)間回歸
圖3 篩選噪聲后二次懲罰支持向量機區(qū)間回歸
表1 篩選噪聲與否二次懲罰支持向量機區(qū)間回歸性能比較
(4)非線性回歸
非線性區(qū)間回歸的測試集的生成函數(shù)如下:
xi=0.02(i-1)i=1,…,51;
yi=(2.7xi-0.2)2+4.5+rri[-0.4,0.4]+noise(0.2,[-4,4]);
ei=1.7exp(-49(xi-0.5)2)+1.7xi+1.2。
圖4 二次懲罰支持向量機區(qū)間回歸
圖5 篩選噪聲后二次懲罰支持向量機區(qū)間回歸
表2 篩選噪聲與否二次懲罰支持向量機區(qū)間回歸性能比較
區(qū)間數(shù)據(jù)可以有效度量模糊信息和不確定信息,二次懲罰支持向量機區(qū)間回歸模型是一個經(jīng)典的區(qū)間數(shù)據(jù)回歸模型,但該模型受噪聲數(shù)據(jù)影響嚴重,因此,本文對噪聲數(shù)據(jù)進行了剔除,從而有效地提高了該模型的區(qū)間數(shù)據(jù)回歸性能。