趙麗娜
(東北林業(yè)大學(xué))
費(fèi)歇(Fisher)判別法是二十世紀(jì)三十年代由Fisher提出的.它的基本思想是投影,特點(diǎn)是將高維數(shù)據(jù)點(diǎn)投影到低維空間上,使數(shù)據(jù)點(diǎn)變得比較密集進(jìn)而可以克服由于維數(shù)高引起的“維數(shù)禍根”.根據(jù)類(lèi)間距離最大、類(lèi)內(nèi)距離最小的原則確定判別函數(shù),在根據(jù)建立的判別函數(shù)判定待定樣品的類(lèi)別.
由于Fisher判別分析方法不需要對(duì)樣本數(shù)據(jù)進(jìn)行檢驗(yàn),而且有一定的正確率,因此,在實(shí)際中它得到了廣泛的應(yīng)用,如:魯立強(qiáng)等利用Fisher判別方法對(duì)蘋(píng)果的品質(zhì)鑒別進(jìn)行判別取得了良好的成果;鐘紹軍等利用Fisher判別法,對(duì)未知乳房腫瘤性質(zhì)的病例進(jìn)行了成功的診斷,使得費(fèi)歇判別法在醫(yī)學(xué)領(lǐng)域發(fā)揮巨大的作用;葛和平利用Fisher判別分析對(duì)我國(guó)上市公司財(cái)務(wù)困境進(jìn)行了分析研究,取得重要成果.近年來(lái),F(xiàn)isher在人臉識(shí)別技術(shù)、公司信用評(píng)價(jià)以及肉質(zhì)寒熱性等更多的領(lǐng)域得到發(fā)展研究.
現(xiàn)考慮在Rp中將m組的p維數(shù)據(jù)向量投影到某個(gè)具有最佳方向的α上,也就是說(shuō),投影到α上的點(diǎn)能最大限度的體現(xiàn)出各組之間的差異.令來(lái)自總體中的p維觀測(cè)值為xpq,q=1,2,…,np,p=1,2,…,m,把他們都投影到p維常數(shù)向量 α上,得到的投射點(diǎn)分別對(duì)應(yīng)線性組合ypq=α'xpq,q=1,2,…,np,p=1,2,…,m.用 yp表示一組中ypq的均值,y表示所有組ypq的總均值.即yp=其中假定各組的協(xié)方差矩陣相等,即.則組間平方和= α'Qα,其中'為組間平方和.ypq的組內(nèi)平方和= αFα其中E=為組內(nèi)平方和.Q和F分別表示類(lèi)之間和類(lèi)內(nèi)部的差異.根據(jù)判別函數(shù)找到一組c1,c2,…,cp使得Q最大而F最小,從而使組間差別最大組內(nèi)離差最小.于是可得模型,要達(dá)到最大值,就是求F-1Q的最大特征根.取,其中β為的最大特征根對(duì)應(yīng)的特征向量.
兩個(gè)總體的判別準(zhǔn)則:一般取y0為y(1)與y(2)的加權(quán)平均值,即則判別準(zhǔn)則為:對(duì)于一個(gè)新樣品X=(x1,…,xp)T代入判別函數(shù)中去所得值記為y,若y>y0,則判定X∈G1;y<y0,則判定X∈G2.如果y(1)<y(2),則建立判別準(zhǔn)則為:若y>y0,則判定X∈G2;若y<y0,則判定X∈G1.該文只考慮多總體的情況.
多總體的判別準(zhǔn)則:假設(shè)把總體分成p個(gè)類(lèi),若|yp-y1|<|yp-yq|,(p,q=1,2,…,m,q≠1),則yp屬于第1個(gè)類(lèi).
定理1[1]若A是p階對(duì)稱(chēng)矩陣,B是p階正定矩陣,μ1≥μ2≥…≥μp是B-1A的p個(gè)特征值,則
把費(fèi)歇判別法改進(jìn)主要是在原判別函數(shù)建立的情況下改進(jìn)判別函數(shù),引入權(quán)重因子,于是原模型由改為=ρC'QC-(1-ρ)C'FC,化簡(jiǎn)為Ⅰmax=C'[ρ(Q+F)-F]C,易知這是標(biāo)準(zhǔn)的二次型,由定理1可知模型的解C為ρ(Q+F)-F的最大特征根對(duì)應(yīng)的特征向量.因此ρ取0到1之間的數(shù)值代入模型可得到多個(gè)不同的解,根據(jù)回判率來(lái)確定ρ的最佳取值,得到最佳的判別函數(shù).
權(quán)重因子:權(quán)重因子ρ是衡量個(gè)體在總體中的比重的指標(biāo),所以ρ越大說(shuō)明這個(gè)個(gè)體的比重就越大,常將權(quán)重因子取值在(0,1)之間,可以通過(guò)調(diào)整ρ的取值來(lái)調(diào)整組間距與組內(nèi)距在模型中的比重大小.
例1 從癌癥患者、萎縮性胃炎患者和非胃炎患者中分別抽取五個(gè)病人進(jìn)行四項(xiàng)生化指標(biāo)的化驗(yàn):血清銅蛋白(X1)、藍(lán)色反應(yīng)(X2)、尿吲哚乙酸(X3)和中性硫化物(X4),具體數(shù)據(jù)見(jiàn)文獻(xiàn)[2]中7.7.
用SPSS軟件得到的分析結(jié)果如下:
對(duì)這些數(shù)據(jù)用原來(lái)判別函數(shù)模型,可得:
判據(jù)為-78.9512,回判率為96.3%.
再用改進(jìn)的引入權(quán)重因子的判別模型,分別取ρ=0,1,0.2,…,0.9,可得:
通過(guò) SPSS 軟件得出ρ在[0.1,0.2]區(qū)間內(nèi)回判率最佳,即回判率100%.將原判別模型下的回判率(96.3%)與改進(jìn)后的模型下的回判率100%比較,不難發(fā)現(xiàn)改進(jìn)后的模型下的回判率有了顯著的提高.
例2 對(duì)全國(guó)30個(gè)省市自治區(qū)1994年影響各地區(qū)經(jīng)濟(jì)增長(zhǎng)差異的制度變量:X1表示經(jīng)濟(jì)增長(zhǎng)率,X2表示非國(guó)有化水平,X3表示開(kāi)放度,X4表示市場(chǎng)化程度.數(shù)據(jù)見(jiàn)文獻(xiàn)[3].
分別取ρ=0.1,0.2,…0.9,通過(guò) SPSS 軟件可得:
通過(guò)軟件發(fā)現(xiàn)在[0.5,0.9]區(qū)間內(nèi)回判率比較好.由文獻(xiàn)[3]我們可知在原費(fèi)歇判別模型下,此問(wèn)題的回判率是92.5%,通過(guò)改進(jìn)后的模型計(jì)算發(fā)現(xiàn)回判率有所提高為96.3%.
與Fisher原判別模型相比,引入權(quán)重的進(jìn)而得到改進(jìn)的費(fèi)歇爾判別法在作判別時(shí),只需要變換ρ的取值,就可以得到多種結(jié)果,進(jìn)而找到最好的判別模型和最佳的判別效果,這樣判別更準(zhǔn)確,而且得到的判別模型也更加穩(wěn)定.雖然ρ多次取值,增加了計(jì)算難度,但在計(jì)算機(jī)技術(shù)飛速發(fā)展的今天,完全可以解決這個(gè)問(wèn)題.所以,認(rèn)為引入權(quán)重因子的Fisher原判別方法更準(zhǔn)確,效果更好.
[1] 王學(xué)民,方開(kāi)泰.多元統(tǒng)計(jì)分析引論[M].北京:科學(xué)出版社,1999.
[2] 管宇.實(shí)用多元統(tǒng)計(jì)分析[M].杭州:浙江大學(xué)出版社,2011.10.
[3] 于秀林,任雪松.多元統(tǒng)計(jì)分析[M].北京:中國(guó)統(tǒng)計(jì)出版社,1999.
[4] 游華,郭福星.最優(yōu)組合因子 Fisher判別法[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2001(3):1-4