曹 雅,鄧趙紅,王士同
江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無(wú)錫 214122
現(xiàn)實(shí)生活中存在著大量的有序分類問(wèn)題,例如對(duì)學(xué)生學(xué)習(xí)成績(jī)的評(píng)定可分為優(yōu)、良、中、差;地震對(duì)房屋造成的傷害程度分為輕微、中等、嚴(yán)重;制作衣服的材料和工藝決定了衣服的質(zhì)量有好有壞,還有諸如對(duì)風(fēng)險(xiǎn)用戶等級(jí)的評(píng)定及決定處理不同事情的先后次序等問(wèn)題。很明顯,在這些情況中,類標(biāo)簽存在著有序關(guān)系。這些年,隨著對(duì)分類任務(wù)的研究,一般的分類問(wèn)題已經(jīng)取得了較好的分類準(zhǔn)確率,但是這些任務(wù)中很少考慮序的關(guān)系,因此可能得到不一致的決策規(guī)則,這就需要研究者深入研究類標(biāo)簽之間的順序關(guān)系。
單調(diào)分類問(wèn)題一般是具有單調(diào)約束的有序分類問(wèn)題,即屬性值與類標(biāo)簽是有序的并且在它們之前存在單調(diào)關(guān)系。當(dāng)一個(gè)對(duì)象的所有條件屬性上的取值都不比另一個(gè)對(duì)象差時(shí),它的決策也不會(huì)比另一個(gè)對(duì)象的決策差,這就是單調(diào)分類任務(wù)[1-2]。在單調(diào)分類問(wèn)題中,單調(diào)約束先驗(yàn)知識(shí)的發(fā)現(xiàn)對(duì)分類器的改進(jìn)非常重要,但傳統(tǒng)的智能算法未考慮過(guò)此類問(wèn)題。因此,建立合適的數(shù)學(xué)模型充分利用數(shù)據(jù)中存在的單調(diào)約束知識(shí),對(duì)單調(diào)分類領(lǐng)域的應(yīng)用會(huì)有很大的幫助。此類問(wèn)題目前在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等人工智能的各領(lǐng)域越來(lái)越引起人們的重視[3-4]。
眾所周知,模糊系統(tǒng)可以被應(yīng)用于多種智能信息處理任務(wù)中,如聚類、回歸以及分類[5-7]。與大多數(shù)現(xiàn)有的智能模型相比,模糊系統(tǒng)在解釋性[8-9]和建模的不確定性方面具有獨(dú)特優(yōu)勢(shì)。模糊系統(tǒng)已經(jīng)被應(yīng)用在工業(yè)過(guò)程控制、醫(yī)學(xué)診斷、圖像處理、機(jī)器人控制、財(cái)務(wù)預(yù)測(cè)、復(fù)雜系統(tǒng)控制等一系列的任務(wù)中,具有廣泛的應(yīng)用價(jià)值[8-13]。TSK模糊系統(tǒng)是最流行的模糊系統(tǒng)模型之一。由于其簡(jiǎn)單性、有效性和較好的彈性,得到了廣泛的研究,目前已提出了多種各具特色的構(gòu)建算法,例如:大規(guī)模數(shù)據(jù)TSK模糊系統(tǒng)建模[10]、2型TSK模糊系統(tǒng)建模[14-16]和遷移學(xué)習(xí)建模[17]。與上述TSK模糊系統(tǒng)在回歸應(yīng)用方面已有的較多研究成果相比,TSK模糊系統(tǒng)用于分類方面的研究相對(duì)較少。代表性的工作有:Jiang等人在文獻(xiàn)[18]中提出了一種新穎的TSK模糊分類器TSK-FC,它的目標(biāo)函數(shù)是通過(guò)采用大間隔和最小化結(jié)構(gòu)風(fēng)險(xiǎn)策略構(gòu)建,把TSK-FC訓(xùn)練等價(jià)地轉(zhuǎn)化為一個(gè)經(jīng)典凸QP問(wèn)題。文獻(xiàn)[19]提出了一種極大極小概率TSK模糊系統(tǒng)分類器,通過(guò)引入極大極小概率決策技術(shù)來(lái)訓(xùn)練模糊系統(tǒng)的分類任務(wù)。對(duì)于該分類器,正確分類的下界可以呈現(xiàn)給用戶用來(lái)描述所訓(xùn)練的模糊分類器的可靠性。所得的分類器同時(shí)具有繼承于模糊系統(tǒng)的較高可解釋性和基于最小最大概率學(xué)習(xí)策略的模型的良好可靠性。文獻(xiàn)[20]提出了一個(gè)深度TSK模糊分類器,它是由基本的TSK模糊系統(tǒng)構(gòu)建單元組成,并以層疊的方式構(gòu)建深度推理模型,模型的每一個(gè)基本構(gòu)建單元通過(guò)最少學(xué)習(xí)機(jī)器學(xué)習(xí),此分類器可以很好地應(yīng)用在大規(guī)模的數(shù)據(jù)集中。
目前,現(xiàn)有的TSK模糊系統(tǒng)分類技術(shù)在單調(diào)分類問(wèn)題上的研究仍然比較缺乏,已有的TSK模糊系統(tǒng)直接用于解決單調(diào)分類問(wèn)題還不夠理想。針對(duì)單調(diào)分類任務(wù)的特點(diǎn),研究相應(yīng)的既具有傳統(tǒng)模糊分類器優(yōu)點(diǎn)又能適應(yīng)單調(diào)分類任務(wù)的TSK模糊分類器是非常必要的。
基于上述分析,本文提出了一種新的單調(diào)TSK模糊系統(tǒng)分類器(MC-TSK)。該模型添加了關(guān)于單調(diào)性的先驗(yàn)知識(shí),將單調(diào)約束施加在原始的TSK模型上。MC-TSK的數(shù)學(xué)模型是一個(gè)二次規(guī)劃問(wèn)題,其中分類誤差與單調(diào)性均被考慮在內(nèi)。不同于其他已存在的單調(diào)分類方法,MC-TSK不要求特征與決策屬性之前的單調(diào)關(guān)系是一致的,這就意味著不需要進(jìn)行相關(guān)的數(shù)據(jù)預(yù)處理還可以避免一些信息的丟失。對(duì)于提出的新方法,在多組單調(diào)分類數(shù)據(jù)上進(jìn)行了性能評(píng)估,實(shí)驗(yàn)分析表明所提出的方法要優(yōu)于傳統(tǒng)的TSK模糊系統(tǒng)分類方法和一些其他經(jīng)典類型分類方法。
本文組織結(jié)構(gòu)如下:第2章介紹了單調(diào)分類方面的一些概念以及TSK模糊系統(tǒng)的相關(guān)知識(shí)。第3章介紹了二分類單調(diào)TSK模糊系統(tǒng)的建模過(guò)程,并將其擴(kuò)展到多分類任務(wù)中。第4章通過(guò)一些對(duì)比實(shí)驗(yàn)研究評(píng)估所提方法的性能,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。第5章對(duì)本文進(jìn)行總結(jié)以及展望。
假設(shè)U={x1,x2,…,xn}是對(duì)象的集合,A是用來(lái)描述對(duì)象的特征集,D是樣本的決策屬性代表分類問(wèn)題的類標(biāo)簽。樣本xi就屬性a∈A或者D的值分別被表示為v(xi,a)或者v(xj,a)。樣本中依據(jù)屬性a或者D之間的有序關(guān)系被表示為≤或者≥,那么可以說(shuō)xj不比xi更差當(dāng)且僅當(dāng)v(xi,a)≤v(xj,a)或者v(xi,D)≤v(xj,D),可分別表示為xi≤axj和xi≤Dxj。相應(yīng)地,也可以定義為xi≥axj和xi≥Dxj。給定B?A,若有v(xi,B)=v(xj,B),那么對(duì)于 ?a∈B,有v(xi,a)=v(xj,a)。
定義1給定一個(gè)特征a,讓B=A-{a}。對(duì)于?xi,xj∈U,在限制v(xi,B)=v(xj,B)下,當(dāng)v(xi,a)≥v(xj,a)時(shí)有v(xi,D)≥v(xj,D),或者當(dāng)v(xi,a)≤v(xj,a)時(shí)有v(xi,D)≤v(xj,D),說(shuō)明決策屬性D關(guān)于屬性a是單調(diào)遞增的;否則當(dāng)v(xi,a)≥v(xj,a)時(shí)有v(xi,D)≤v(xj,D)或者當(dāng)v(xi,a)≤v(xj,a)時(shí)有v(xi,D)≥v(xj,D),說(shuō)明決策屬性D關(guān)于屬性a是單調(diào)遞減的。
也就是說(shuō),對(duì)于單調(diào)遞增的情況,如果一個(gè)樣本點(diǎn)的屬性值要高于另一個(gè)樣本點(diǎn)的屬性值,那么它的輸出值也會(huì)相應(yīng)大于另一個(gè)樣本的輸出值,即存在一個(gè)在輸入與輸出變量之間的單調(diào)關(guān)系,增加輸入變量的值那么輸出變量的值也很有可能會(huì)增加。在現(xiàn)實(shí)生活中存在著很多單調(diào)分類問(wèn)題,例如,根據(jù)學(xué)生成績(jī)進(jìn)行獎(jiǎng)學(xué)金的評(píng)定,成績(jī)?cè)胶玫膶W(xué)生獲得的獎(jiǎng)學(xué)金就越多;雇主選擇雇員時(shí)根據(jù)應(yīng)聘者的學(xué)歷水平和工作經(jīng)驗(yàn)進(jìn)行打分,學(xué)歷水平越高、工作經(jīng)驗(yàn)越豐富,那么打分就越高。
TSK模糊系統(tǒng)是最廣泛應(yīng)用的模糊系統(tǒng)模型,本文選取了簡(jiǎn)潔而又高效的0階TSK作為研究對(duì)象,那么基于0階TSK模糊系統(tǒng)的二分類方法簡(jiǎn)介如下。
0階TSK模糊系統(tǒng)包含一個(gè)規(guī)則庫(kù),其第k個(gè)模糊規(guī)則的表示形式如下[24]:
其中,If部分為規(guī)則前件,Then部分為規(guī)則后件。xj(j=1,2,…,d)表示第j維的輸入向量,yk表示輸出變量,每條規(guī)則把輸入空間的模糊集Ak?Rd映射到輸出空間的模糊集yk,這里表示輸入向量x第d維所對(duì)應(yīng)的第k條規(guī)則的模糊子集,K是模糊規(guī)則個(gè)數(shù),∧為模糊合取操作。如果采用乘法合取算子、加法析取算子和組合算子,以及對(duì)輸出采用重心法去模糊化等操作,最終TSK模糊系統(tǒng)的實(shí)值輸出可表示為:
通常采用高斯隸屬度函數(shù)作為隸屬度函數(shù),該隸屬度函數(shù)可表示為:
其中,ujm表示由FCM得到的第j個(gè)輸入數(shù)據(jù)xj=(xj1,xj2,…,xjd)T輸入第m類(即第m條規(guī)則)的隸屬度。這里,h是人工可調(diào)的尺度參數(shù)。
當(dāng)TSK模糊模型的前件參數(shù)確定后,可令
那么式(2)可以表示為下面的線性規(guī)劃問(wèn)題[22]:
基于經(jīng)典的TSK模糊系統(tǒng),TSK模糊系統(tǒng)用于二分類時(shí)常采用如下的決策函數(shù):
為了對(duì)該二分類器進(jìn)行有效的訓(xùn)練,常需構(gòu)造有效的優(yōu)化目標(biāo)函數(shù)對(duì)參數(shù)進(jìn)行優(yōu)化和學(xué)習(xí)。例如,文獻(xiàn)[18]中給出了一種基于間隔最大化的優(yōu)化準(zhǔn)則。這里簡(jiǎn)單描述如下:以分類為目的,給定訓(xùn)練數(shù)據(jù)集中的任意樣本點(diǎn){xi,yi},最大化邊界問(wèn)題就是最大化下面的判別函數(shù):
式(15)的準(zhǔn)則可被重寫(xiě)為:
其中,ε表示間隔。由于上述約束條件不可能適應(yīng)所有的數(shù)據(jù)點(diǎn)xgi(i=1,2,…,N),可以通過(guò)引入松弛變量ξi≥0(i=1,2,…,N)得到下面的約束條件:
基于式(16)和式(17),可見(jiàn)上述的分類機(jī)制和著名的支持向量機(jī)(support vector machine,SVM)有很大的相似之處,即都是基于最大化間隔來(lái)優(yōu)化分類器。進(jìn)一步引入正則化項(xiàng),可得到如下最小化結(jié)構(gòu)風(fēng)險(xiǎn)的優(yōu)化目標(biāo)函數(shù):
基于2.2節(jié)提出的二分類0階TSK模糊系統(tǒng)分類器,本文針對(duì)單調(diào)分類場(chǎng)景提出一種單調(diào)TSK模糊系統(tǒng)分類器。
(1)優(yōu)化目標(biāo)函數(shù)的構(gòu)建
由2.2節(jié)知,對(duì)于0階TSK模糊系統(tǒng)模型用于二分類,其輸出為為模糊規(guī)則數(shù)。當(dāng)解決基于MC-TSK的單調(diào)分類問(wèn)題時(shí),若對(duì)于特定特征需要增加單調(diào)性,則關(guān)于特征的決策屬性的偏導(dǎo)數(shù)被限制為正。反之,對(duì)于要求降低單調(diào)性的特征的偏導(dǎo)數(shù)被認(rèn)為是負(fù)的。不需要特征和決策屬性之間的所有單調(diào)關(guān)系是一致的,也就是說(shuō),一些單調(diào)關(guān)系可以遞增,一些可以遞減。
通過(guò)限制偏導(dǎo)數(shù)的符號(hào),可以在單調(diào)問(wèn)題中獲得r對(duì)單調(diào)約束,其中r是相對(duì)于決策屬性單調(diào)增加或減少的特征的總數(shù),并且有1≤r≤n,n是特征總數(shù)[23]。將這些約束添加到TSK模糊系統(tǒng)模型中即可得到單調(diào)TSK模糊系統(tǒng)模型。
增加單調(diào)約束關(guān)系到TSK模糊系統(tǒng)模型中,可以構(gòu)建如下的單調(diào)TSK模糊系統(tǒng)模型:
如果決策屬性關(guān)于特征xk是單調(diào)遞增的,那么關(guān)于xk的決策屬性的偏導(dǎo)數(shù)就是正的,此時(shí)有
類似的,如果決策屬性關(guān)于特征xk是單調(diào)遞減的,那么關(guān)于xk的決策屬性的偏導(dǎo)數(shù)就是負(fù)的,此時(shí)有
其中,M是模糊規(guī)則數(shù),由2.2節(jié)知對(duì)于所有的k=1,2,…,n都成立。那么式(22)與式(23)可分別簡(jiǎn)化為:
(2)優(yōu)化求解
基于優(yōu)化理論,對(duì)于單調(diào)關(guān)系是遞增的情況,式(20)的拉格朗日函數(shù)可表示為:
通過(guò)拉格朗日函數(shù)對(duì)pg,ξi,ε取極值,得到:
將式(29)帶入式(28)中,可得到原問(wèn)題的對(duì)偶問(wèn)題:
通過(guò)求解對(duì)偶問(wèn)題的最優(yōu)解λ?和β?,根據(jù)式(29)即可得原問(wèn)題的最優(yōu)解
類似的,對(duì)于單調(diào)關(guān)系是遞減的情況,通過(guò)求解可得原問(wèn)題的對(duì)偶問(wèn)題為:
(3)Tikhonov正則化項(xiàng)
對(duì)于單調(diào)遞增的情況,式(31)可表示成如下的矩陣形式:
如果G矩陣是半正定的,優(yōu)化目標(biāo)具有全局最優(yōu)解;如果是正定的,那么最優(yōu)解是唯一的全局最優(yōu)解。
為了避免問(wèn)題求解時(shí)出現(xiàn)欠正定情況,可在目標(biāo)函數(shù)中引入Tikhonov正則化項(xiàng),此時(shí)優(yōu)化目標(biāo)函數(shù)可修正為:
其中I是單位矩陣,如果δ選取合適的話,那么式(34)中的二次規(guī)劃問(wèn)題將是一個(gè)凸二次規(guī)劃問(wèn)題并且具有全局最優(yōu)解。通過(guò)使用不同的數(shù)據(jù)集對(duì)式(32)的單調(diào)TSK模糊系統(tǒng)模型進(jìn)行驗(yàn)證,結(jié)果表明,二次規(guī)劃問(wèn)題可能是一個(gè)不適定問(wèn)題,此時(shí)矩陣G包含一個(gè)非常小的負(fù)特征值。針對(duì)此,本文將懲罰項(xiàng)δ設(shè)置成G的最小負(fù)特征值的絕對(duì)值的兩倍。按此方法,式(32)中的二次規(guī)劃問(wèn)題將能保證是正定的。
類似的,對(duì)于單調(diào)關(guān)系是遞減的情況,在目標(biāo)函數(shù)中引入Tikhonov正則化項(xiàng),此時(shí)優(yōu)化目標(biāo)函數(shù)同式(34),其中Hessian矩陣中4個(gè)子矩陣分別為:
與式(33)不同在于G12與G21的符號(hào)與之相反。
為了保持?jǐn)?shù)據(jù)集使用過(guò)程中的單調(diào)性,在對(duì)單調(diào)多分類數(shù)據(jù)集進(jìn)行處理時(shí),采用“一對(duì)一”的方法。本文采用的策略是每次從數(shù)據(jù)集的k個(gè)類別中挑選出兩個(gè)不同類別,對(duì)這兩類數(shù)據(jù)進(jìn)行訓(xùn)練從而構(gòu)造二類分類器,并將類標(biāo)簽中大的標(biāo)簽映射為+1,類標(biāo)簽小的映射為 -1,這樣共可構(gòu)造出k(k-1)/2個(gè)單調(diào)分類器。在對(duì)未知樣本進(jìn)行測(cè)試時(shí),“一對(duì)一”方法使用的決策機(jī)制是投票選舉法。k(k-1)/2個(gè)分類器分別對(duì)未知樣本做出決策,再將測(cè)試后的類標(biāo)簽反映射為原數(shù)據(jù)集中對(duì)應(yīng)類標(biāo)簽,并將最終所判斷的類別投票數(shù)增加1,得票最多的類別即為未知樣本所屬的類。
基于上文所提出的單調(diào)TSK模糊系統(tǒng)學(xué)習(xí)算法的原理與模型的構(gòu)造過(guò)程,給出其詳細(xì)的算法描述。
算法1單調(diào)TSK模糊系統(tǒng)算法
階段1數(shù)據(jù)處理階段
步驟1設(shè)置模糊系統(tǒng)的規(guī)則數(shù)M,懲罰項(xiàng)系數(shù)M∈{10,20,30,40,50,60,70,80,90,100}以及人工調(diào)節(jié)的標(biāo)量參數(shù)h;選取用于單調(diào)分類場(chǎng)景的數(shù)據(jù)集。
階段2構(gòu)建單調(diào)TSK模糊系統(tǒng)模型
步驟2設(shè)置單調(diào)約束對(duì)的個(gè)數(shù)Ms;構(gòu)建式(19)所示的二分類0階TSK模糊系統(tǒng)模型,利用交叉驗(yàn)證法得到當(dāng)前模型的測(cè)試數(shù)據(jù)集。
步驟3在TSK模糊系統(tǒng)模型上添加單調(diào)約束,構(gòu)建式(20)所示的單調(diào)TSK模糊系統(tǒng)模型的目標(biāo)函數(shù)。
步驟4對(duì)式(20)所示的目標(biāo)函數(shù)進(jìn)行優(yōu)化求解得到原問(wèn)題的對(duì)偶問(wèn)題。
步驟5在優(yōu)化后的目標(biāo)函數(shù)中引入Tikhonov正則化項(xiàng),將目標(biāo)函數(shù)修正為式(34)得到單調(diào)二分類TSK模糊系統(tǒng)模型。
階段3構(gòu)建單調(diào)多分類TSK模糊系統(tǒng)模型
步驟6用“一對(duì)一”的投票法將單調(diào)二分類TSK模糊系統(tǒng)模型改進(jìn)為單調(diào)多分類TSK模糊系統(tǒng)模型,算法終止。
為了確保實(shí)驗(yàn)的公正性,本文所有實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境為:MATLAB編程環(huán)境,電腦配置為Windows系統(tǒng),3.30 GHz的Intel?CoreTMi5-4590 CPU,16 GB內(nèi)存。
4.1.1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)選取了UCI數(shù)據(jù)庫(kù)中具有一定單調(diào)性的8個(gè)真實(shí)數(shù)據(jù)集,數(shù)據(jù)集的細(xì)節(jié)如表1所示。
4.1.2 參數(shù)設(shè)計(jì)
本文算法所涉及的參數(shù)會(huì)影響模型的性能。針對(duì)此本文對(duì)于懲罰項(xiàng)系數(shù)τ與人工調(diào)節(jié)的標(biāo)量h等參數(shù),采用了網(wǎng)格搜索和交叉驗(yàn)證結(jié)合的方法進(jìn)行了尋優(yōu)。過(guò)程如下:首先對(duì)于每個(gè)待優(yōu)化的參數(shù),給定一個(gè)尋優(yōu)范圍(具體范圍見(jiàn)表2),然后利用交叉驗(yàn)證的方式來(lái)計(jì)算特定參數(shù)下的所訓(xùn)練模型的性能,最終把取得最優(yōu)性能的參數(shù)作為最終的參數(shù)。特別地,為了便于找到較優(yōu)的參數(shù),表2在一個(gè)較大的范圍內(nèi)設(shè)置了參數(shù)尋優(yōu)范圍。本文實(shí)驗(yàn)中采用了5倍的交叉驗(yàn)證法,即把數(shù)據(jù)集劃分為5份,每次選取1份數(shù)據(jù)作為測(cè)試集,其余4份作為訓(xùn)練集。對(duì)于本文實(shí)驗(yàn)所采用的比較算法和所涉及的相應(yīng)超參數(shù)的搜索網(wǎng)格如表2所示。
Table 1 Description of dataset表1 數(shù)據(jù)集描述
本文用到的對(duì)比算法有傳統(tǒng)的TSK模糊系統(tǒng)[24],正則化單調(diào)模糊SVM(regularized monotonic fuzzy support vector machine,RMCFSVM)[25]、SVM[26-28]、FSFCSVM(fuzzy system learned through fuzzy clustering and support vector machine)[29]以及FSC-0-L2-TSK-FS(fuzzy subspace clustering based zero-order L2-norm TSK fuzzy system)[30]。各個(gè)算法的分類精度如表3所示。
通過(guò)觀察表3可以看出:
本次實(shí)驗(yàn)選取了8個(gè)單調(diào)數(shù)據(jù)集,均在本文提出的算法中獲得最優(yōu)的分類性能,在其他單調(diào)方法中獲得較好的分類性能,并且?guī)讉€(gè)數(shù)據(jù)集均有較好的穩(wěn)定性。
對(duì)于不同的單調(diào)數(shù)據(jù)集,對(duì)TSK模糊系統(tǒng)分類器添加了單調(diào)約束后其分類性能要明顯優(yōu)于沒(méi)有添加單調(diào)性約束的分類器。本文應(yīng)用的對(duì)比算法中的另一個(gè)單調(diào)方法RMC-FSVM一般情況下也要優(yōu)于其他非單調(diào)方法,但是仍次于本文提出的優(yōu)化方法MC-TSK。對(duì)于數(shù)據(jù)集Qualitative_Bankruptcy,由于其數(shù)據(jù)屬性較少,單調(diào)性也較明顯,此時(shí)單調(diào)TSK模糊系統(tǒng)準(zhǔn)確率可達(dá)到100%,也是這8個(gè)分類器中分類性能最好的,同樣穩(wěn)定性也是最優(yōu)的。
對(duì)于同一個(gè)數(shù)據(jù)集,單調(diào)多分類TSK模糊系統(tǒng)分類器得到的準(zhǔn)確率明顯高于普通的TSK模糊系統(tǒng)分類器,一般情況下也優(yōu)于其他幾個(gè)分類器。例如對(duì)于數(shù)據(jù)集Car evaluation,在MC-TSK上獲得的準(zhǔn)確率比在普通的TSK以及FS-FCSVM上獲得的準(zhǔn)確率高達(dá)20%多,比在其他分類器上高達(dá)10%,可見(jiàn)改進(jìn)后的算法分類性能獲得了明顯提升。
Table 2 Parameter settings in algorithm表2 算法中參數(shù)的設(shè)置
Table 3 Comparison of classification accuracy of different datasets in 6 classifiers(means+std)表3 6種分類器在不同數(shù)據(jù)集上的分類精度對(duì)比(means+std) %
綜上所述,在處理單調(diào)分類問(wèn)題時(shí),在分類器中添加單調(diào)約束可以有效提高分類器在單調(diào)數(shù)據(jù)集上的分類性能。
本文提出了一個(gè)單調(diào)TSK模糊系統(tǒng)模型用于單調(diào)分類場(chǎng)景,通過(guò)引入單調(diào)性的先驗(yàn)知識(shí),將單調(diào)約束添加在原始的TSK模糊系統(tǒng)模型,提升模型的泛化性能。將改進(jìn)后的模型應(yīng)用到8個(gè)單調(diào)的數(shù)據(jù)集中,結(jié)果表明在單調(diào)分類問(wèn)題中,本文提出的方法在泛化性能方面要優(yōu)于傳統(tǒng)的TSK模糊系統(tǒng)分類器,并且通常情況下也優(yōu)于其他經(jīng)典分類器。
本文提出的改進(jìn)算法可以確保產(chǎn)生的分類器是單調(diào)的,并且由于單調(diào)約束的構(gòu)建是通過(guò)約束決策屬性相對(duì)于特征的偏導(dǎo)數(shù)的符號(hào),基本上避免了信息的丟失,不需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。
在實(shí)踐中,數(shù)據(jù)采集過(guò)程很容易受到不同干擾,因此數(shù)據(jù)可能不完全遵循先驗(yàn)知識(shí)的特點(diǎn),比如本文的單調(diào)性。后面還擬通過(guò)添加不同水平的噪聲來(lái)模擬不同程度的違反單調(diào)性的情況,進(jìn)而研究數(shù)據(jù)違反單調(diào)性是如何影響學(xué)習(xí)過(guò)程的。