張夢婷 李星野
摘要:傳統(tǒng)Fisher線性判別(FLD)的常用閾值對特定數(shù)據(jù)集的分類精度存在明顯差異。為提高分類精度,通過最小化貝葉斯誤差對二分類問題的FLD閾值進行了優(yōu)化設(shè)計。對UCI中的8個數(shù)據(jù)集進行驗證,將所得的平均分類精度與常用閾值在這些數(shù)據(jù)集上所得的平均分類精度進行比較。結(jié)果表明,所提出的優(yōu)化閾值分類效果顯著,相比于常用閾值,在平均分類精度上有所提升。
關(guān)鍵詞:FLD;閾值;數(shù)據(jù)集;貝葉斯誤差;平均分類精度
DOIDOI:10.11907/rjdk.173205
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2018)008-0081-04
英文摘要Abstract:The commonly-used thresholds of the traditional Fisher linear discriminant (FLD) have significant differences in the classification accuracy on particular datasets.In order to improve the classification accuracy,an FLD threshold is optimized in this paper for binary classification problems by minimizing the Bayes error,and validated on the eight datasets in UCI.Then,the obtained average classification accuracy is compared with that obtained by the commonly used thresholds on these datasets.The experimental results show that the proposed optimised threshold has significant effect on the classification.Compared with the commonly-used thresholds,the optimised threshold has significant improvement in the average classification accuracy.This verifies the validity and feasibility of the design.
英文關(guān)鍵詞Key Words:FLD; threshold; datasets;bayes error; average classification accuracy
0 引言
線性判別分析(Linear Discriminant Analysis,LDA),也稱作Fisher線性判別(Fisher Linear Discriminant,F(xiàn)LD),是模式識別中分類問題的經(jīng)典算法,基本思想是將高維樣本數(shù)據(jù)壓縮到低維矢量空間,找到一個最佳投影方向,使不同類別的數(shù)據(jù)在這個投影方向上獲得最好的分離,以達到提取分類信息和壓縮特征空間維數(shù)效果。使用這種方法能保證投影后的樣本數(shù)據(jù)在新的投影空間中有最小的類內(nèi)距離和最大的類間距離,即數(shù)據(jù)在該空間中有最佳可分離性[1]。
FLD作為一種有監(jiān)督的學(xué)習(xí)算法,應(yīng)用于醫(yī)學(xué)診斷[2]、人臉識別[3]、信號分類[4]等多個領(lǐng)域。但是,該算法在某些樣本數(shù)據(jù)上的分類效果并不理想,很多學(xué)者對算法本身作了一定優(yōu)化。張振平等[5]針對LDA方法中類內(nèi)計算常常引起錯誤分類的問題,提出了Bayes錯誤率最小的改進型LDA特征選擇方法,在最小化錯誤率原則下,采用迭代算法求解最優(yōu)特征選擇矩陣,取得了比原LDA更好的分類效果。曹玲玲等[6]提出了基于FLD的貝葉斯分類器算法,對測試樣本先進行投影得出新的樣本數(shù)據(jù),再利用經(jīng)典的貝葉斯算法進行分類,使得分類錯誤率最小。覃志祥等[7]和莊哲民等[8]分別從不同角度重新定義樣本類間離散度矩陣,優(yōu)化了傳統(tǒng)的Fisher準則,實現(xiàn)了更好的分類性能。沈虹等[9]依據(jù)貝葉斯決策的最小錯誤率確定了割除指紋背景區(qū)域的閾值,明顯提高了指紋分割效果。李伶俐[10]通過對數(shù)據(jù)挖掘中分類算法的綜合研究,得出貝葉斯算法相比于其它分類算法精確度高,錯誤率最小的結(jié)論,為本文研究提供了理論依據(jù)。FLD的目標是確定決策平面的法向量而不是確定最終分類平面位置的閾值[11];李艷芳等[12]針對常用閾值對不平衡數(shù)據(jù)集分類性能差的問題提出了多個經(jīng)驗閾值,并依據(jù)分類精度對閾值做了優(yōu)化,通過大量實驗證明其方法的有效性。由于閾值不同會對分類結(jié)果造成一定偏差,甚至?xí)乐赜绊慒LD的分類精度,結(jié)合上述文獻,本文在最小化貝葉斯分類誤差的基礎(chǔ)上研究找到一個更佳的分類閾值,使不同類別的數(shù)據(jù)在該閾值確定的決策平面處實現(xiàn)更精確的分離。
1 分類原理
1.1 Fisher分類原理和常用閾值
對應(yīng)著取得極小值的分類誤差,此時的y0為在最小化分類誤差的基礎(chǔ)上所求得的優(yōu)化閾值。
2 實驗驗證
為檢驗該優(yōu)化閾值的分類效果,從UCI機器學(xué)習(xí)存儲庫(http://archive.ics.uci.edu/ml)中選擇8個數(shù)據(jù)集對其進行驗證,數(shù)據(jù)集如表1所示。
對表1中的每個數(shù)據(jù)集采取10折交叉驗證并分別進行10次不同的試驗。由于本文提出的優(yōu)化閾值是建立在二分類問題基礎(chǔ)上的,所以對有K>2個類的數(shù)據(jù)集,采用一對一(OvO)策略進行分類,每次對數(shù)據(jù)集中的每一對類別進行分類,而忽略其它K-2個類別。因此,要進行K(K-1)/2次分類,并計算所有K(K-1)/2次分類的平均分類精度作為分類的性能指標。
3 實驗結(jié)果
通過使用本文提出的優(yōu)化閾值對表1中的8個數(shù)據(jù)集進行試驗,并與Fisher線性判別常用閾值在這些數(shù)據(jù)集上的分類結(jié)果進行比較。為簡化起見,將由公式(2)、(3)、(4)表示的閾值分類方法分別表示為FLD-1、FLD-2和FLD-3,利用優(yōu)化閾值式(13)進行分類的方法表示為FLD-4,結(jié)果如表2所示(最高的平均分類精度用粗體表示)。
從表2可以看出,除了數(shù)據(jù)集7和8,使用優(yōu)化閾值進行分類的方法在其它數(shù)據(jù)集上獲得的平均分類精度都明顯高于利用其它3種常用閾值進行分類所得的平均分類精度,說明使用本文提出的優(yōu)化閾值進行分類方法能在大多數(shù)數(shù)據(jù)集上取得更佳的分類效果,提高了數(shù)據(jù)集分類的平均分類精度。將表2所測的8個數(shù)據(jù)集的平均分類精度以折線形式表示如圖1所示。
從圖1可以看出,由FLD-4所表示的優(yōu)化閾值分類方法測得的平均分類精度折線圖大多位于其它3種常用閾值分類方法的上方,只有在數(shù)據(jù)集7和數(shù)據(jù)集8上的平均分類精度不是最高,但也與最高的平均分類精度相差不大。所以,在線性判別分析中,可使用此優(yōu)化閾值進行分類。另外還可看出,由FLD-4方法分類所得的平均分類精度在上述所有數(shù)據(jù)集上都高于由FLD-3方法所得的平均分類精度。由此可見,方法FLD-3中的分類閾值(公式(4))雖然考慮了類概率的影響和作用,但對于兩類間樣本數(shù)目差別很大的數(shù)據(jù)集,如數(shù)據(jù)集3、數(shù)據(jù)集7和數(shù)據(jù)集8,F(xiàn)LD-3不適用。
4 結(jié)語
本文主要考慮了傳統(tǒng)線性判別分析中常用閾值對數(shù)據(jù)集分類精度存在明顯差異的情況,在努力提高平均分類精度的基礎(chǔ)上,通過使貝葉斯分類誤差最小對FLD的分類閾值進行優(yōu)化設(shè)計。從UCI機器學(xué)習(xí)存儲庫中選擇8個數(shù)據(jù)集進行驗證,然后將所得的平均分類精度與利用常用閾值進行分類所得的平均分類精度進行比較。實驗表明,由優(yōu)化閾值進行分類的方法在大多數(shù)數(shù)據(jù)集上都能取得很好的分類效果,能有效提高FLD的平均分類精度,從而證明了該設(shè)計的有效性和可行性。
參考文獻:
[1] 李文斌,陳嶷瑛,張娟,等.使用Fisher線性判別方法的提取分類器[J].計算機工程與應(yīng)用,2010,46(14):132-134.
[2] COOMANS D,M JONCKHEER,DL MASSART ,et al.The application of linear discriminant analysis in the diagnosis of thyroid Dis- eases [J].Analytica Chimica Acta,1978,103(4):409-415.
[3] 謝永林.LDA算法及其在人臉識別中的應(yīng)用[J].計算機工程與應(yīng)用,2010,46(19):189-192.
[4] 趙海濱,顏世玉,于清文,等.采用Fisher線性判別分析進行MEG信號的分類[J].東北大學(xué)學(xué)報:自然科學(xué)版,2013,34(12):1695-1698.
[5] 張振平,宣國榮,鄭俊翔,等.一種基于最小分類錯誤率的改進型LDA特征選擇算法[J].微型電腦應(yīng)用,2005,21(4):4-6.
[6] 曹玲玲,潘建壽.基于Fisher判別分析的貝葉斯分類器[J].計算機工程,2011,37(10):162-164.
[7] 覃志祥,丁立新,簡國強,等.一種改進的線性判別分析法在人臉識別中的應(yīng)用[J].計算機工程,2006,32(4):211-213.
[8] 莊哲民,張阿妞,李芬蘭.基于優(yōu)化的LDA算法人臉識別研究[J].電子與信息學(xué)報,2007,29(9):2047-2049.
[9] 沈虹,汪劍鳴,苗長云.基于貝葉斯最小錯誤率的一種新的指紋分割算法[J].微計算機信息,2006,22(1):208-210.
[10] 李伶俐.數(shù)據(jù)挖掘中分類算法綜述[J].重慶師范大學(xué)學(xué)報:自然科學(xué)版,2011,28(4):44-47.
[11] GAO D Q,DING J,ZHU C M .Integrated fisher linear discriminates:an empirical study[J].Pattern Recognition,2014,47(2):789-805.
[12] 李艷芳,高大啟.Fisher線性判別式閾值優(yōu)化方法研究[J].計算機應(yīng)用與軟件,2016,33(6):141-145.
[13] 孫即祥.現(xiàn)代模式識別 [M].第2版.北京:高等教育出版社,2008.
[14] 邊肇祺,張學(xué)工.模式識別 [M].第2版.北京:清華大學(xué)出版社,1999.
[15] 陳弋蘭,王鳴,孫書誠.樸素貝葉斯分類器的誤差設(shè)計[J].安徽工程科技學(xué)院學(xué)報,2008,23(4):48-51.
[16] 周德全.離散貝葉斯分類算法及分類誤差估計[J].儀器儀表學(xué)報,2004,25(4):345-347.
(責(zé)任編輯:杜能鋼)