李 萍,趙莎莎
(阜陽師范學(xué)院信息工程學(xué)院,安徽 阜陽 236041)
一種集成構(gòu)造性分類學(xué)習(xí)方法
李 萍,趙莎莎
(阜陽師范學(xué)院信息工程學(xué)院,安徽 阜陽 236041)
構(gòu)造性學(xué)習(xí)算法訓(xùn)練分類器對有些樣本會有“拒認狀態(tài)”,構(gòu)造性學(xué)習(xí)算法中對這一狀況的處理使用就近原則,然而,這種方法通常不能給出“拒認狀態(tài)”樣本的正確類別。提出了一種集成構(gòu)造性分類方法,在測試階段,通過多個分類器的最終打分,對“拒認狀態(tài)”樣本進行分類標記。同時,選取UCI數(shù)據(jù)集進行實驗,結(jié)果表明,與CML算法相比,該方法的分類更為有效。
構(gòu)造性機器學(xué)習(xí);集成學(xué)習(xí);覆蓋算法
構(gòu)造性分類方法通過對樣本集C進行學(xué)習(xí),求出一組領(lǐng)域簇,使這些領(lǐng)域簇把不同類別的樣本點分隔開來[1]。這種方法比較容易確定網(wǎng)絡(luò)結(jié)構(gòu)同時這種方法還能高效地處理多類別問題[2]。然而,在分類器學(xué)習(xí)階段,只考慮了已標記樣本的數(shù)據(jù)特點忽略了測試樣本的空間位置,從而導(dǎo)致在測試階段對未標記樣本進行標記時可能會出現(xiàn)“拒認狀態(tài)”。集成學(xué)習(xí)是一種正在迅速發(fā)展的機器學(xué)習(xí)范式,它的主要思想是使用多個學(xué)習(xí)器來解決分類問題,該方法在提高學(xué)習(xí)系統(tǒng)的泛化能力方面效果顯著。
覆蓋算法是由張鈴等人提出的一種構(gòu)造性的機器學(xué)習(xí)算法,該方法利用訓(xùn)練樣本自身的數(shù)據(jù)信息特點尋找覆蓋簇,也可看成是設(shè)計神經(jīng)網(wǎng)絡(luò),從而構(gòu)造出分類器[1]。該算法首先把包括訓(xùn)練樣本和測試樣本在內(nèi)的所有樣本都投影到n維超球面n S 上,設(shè)表示超平面,表示H的正半空間,稱正半空間與超球面的所交的球形領(lǐng)域為一個覆蓋領(lǐng)域。訓(xùn)練k種不同類別的訓(xùn)練樣本集即是已標記樣本集的覆蓋簇,使得每個覆蓋領(lǐng)域只覆蓋住相同類別的訓(xùn)練樣本點且。假設(shè)已求得一組覆蓋簇包括n個覆蓋分別記為,接著就可以建立含有三層的神經(jīng)網(wǎng)絡(luò),把n個覆蓋看成是n個神經(jīng)元作為隱層,輸出層取k個神經(jīng)元,即是k種不同的類別[1-2],第i個神經(jīng)元的輸入,是把第i個類別覆蓋住的覆蓋領(lǐng)域的輸出。
覆蓋算法步驟:
輸入:訓(xùn)練樣本集C,即已標記樣本集
(2)類別號 1= i;
(3.2)計算
利用覆蓋算法在對測試樣本進行標記時按照就近原則進行,對于“拒認狀態(tài)”樣本也是按照就近原則,通過計算到各個覆蓋領(lǐng)域的距離,找出距離“拒認狀態(tài)”樣本最近的覆蓋領(lǐng)域,并把它標記成與該覆蓋的類別相同。由于在尋找覆蓋簇時,初始的中心樣本的是隨機選取的,因此,每次訓(xùn)練的分類器會有差別,對于狀態(tài)不是很穩(wěn)定的“拒認樣本”來說,標記會存在誤差,從而影響分類器的最終效率。
本文根據(jù)Boosting的集成思想,改變訓(xùn)練樣本集,構(gòu)造不同分類器,在對“拒認狀態(tài)”樣本進行標記時,利用分類器進行集成學(xué)習(xí),確定“拒認狀態(tài)”樣本的最終類別。
針對“拒認狀態(tài)”樣本的一種集成構(gòu)造性分類學(xué)習(xí)算法:
輸入:已標記樣本集L,覆蓋算法
輸出:集成預(yù)測模型
(2)計算每個樣本的采樣概率:
(3)把帶有權(quán)重分布的已標記樣本集作為訓(xùn)練樣本集,用覆蓋算法進行學(xué)習(xí),得到估計;
從UCI中選了7數(shù)據(jù)集作為實驗對象如下表1所示,對于每一組數(shù)據(jù)集,我們選出75%作為已標記樣本,即訓(xùn)練樣本,剩下的作為測試樣本。
表1 兩種算法分類正確率比較(%)
采用本文提出的本文提出的一種集成構(gòu)造性分類學(xué)習(xí)方法和采用構(gòu)造性分類學(xué)習(xí)方法得出的分類正確率比較結(jié)果如表1所示。從表中可以看出,應(yīng)用一種集成構(gòu)造性分類學(xué)習(xí)方法相對于構(gòu)造性學(xué)習(xí)方法的分類效果得到了普遍提高。
本文給出了一種集成構(gòu)造性分類學(xué)習(xí)方法,并應(yīng)用到UCI數(shù)據(jù)中,結(jié)果表明該方法能夠有效提高分類率。但是,該算法仍有不足之處,對某些數(shù)據(jù)集的分類正確率提高的不明顯。有待繼續(xù)對“拒認狀態(tài)”樣本進行研究。
[1]張鈴,張鈸.多層前向網(wǎng)絡(luò)的交叉覆蓋算法[J].軟件學(xué)報,1999(7):737-742.
[2]王倫文,張鈴.構(gòu)造性神經(jīng)網(wǎng)絡(luò)綜述[J].模式識別與人工智能,2008(1):49-55.
A Ensemble Learning Method of Constructive Classification
LI Ping,ZHAO Sha-sha
(College of Information Engineering,F(xiàn)uyang Teachers' College,F(xiàn)uyang Anhui 236041)
Constructive learning algorithm for training classifier for some samples there will be a"state". This paper puts forward an integrated structural classification method,the test stage,final score by the multiple classifiers,classifying"refusal to recognize status"sample tags.At the same time,we do experiments on UCI data sets,the results show that compared with CML algorithm,the classification of the method is more effective.
Constructive Machine Learning;Ensemble Learning;Covering
O1-0
A
10.3969/j.issn.1672-7304.2015.04.059
1672-7304(2015)04-0122-02
(責(zé)任編輯:黃 密)
李萍(1985-),女,安徽阜陽人,講師,研究方向:智能計算及其應(yīng)用。