盧巍 王昕
1.昆明文理學院信息工程學院;2.云南輕紡職業(yè)學院
本文以Bayes分類為基礎理論,結(jié)合楊梅圖像自身的特點和它所服從的統(tǒng)計學特性,得到一種基于最小錯誤概率Bayes決策的分類方法在楊梅圖像數(shù)據(jù)分類中的運用。文章首先介紹基于最小錯誤概率Bayes決策理論,然后從理論上推導其在楊梅圖像數(shù)據(jù)中分類數(shù)據(jù)的運用,最后通過實驗分析其運用的實際效果和各種不同參數(shù)對分類效果的影響并得出結(jié)論。
模式識別與信號處理、概率統(tǒng)計、數(shù)字圖像處理等學科有著密切的聯(lián)系,其中很多分類方法較為成熟且廣泛的運用于數(shù)據(jù)分類中,并在許多實際問題和多種不同分布數(shù)據(jù)分類中取得了良好的效果。其中Bayes分類一直在這些分類方法中占據(jù)著重要地位,它是模式識別中最主要的統(tǒng)計處理方法,其成熟的理論基礎和對許多學科問題高度的適應性使得它被廣泛運用于許多不同的學科中,并衍生出各自學科中獨立的算法[1]。
在決策論的諸多方法中,基于最小錯誤概率Bayes分類是一種較成熟并得到廣泛運用的分類方法,它的基本原理是基于最小錯誤概率Bayes決策理論。
在許多實際的分類問題中,人們所關心的最重要的問題是盡可能的減小分類錯誤,以達到最小的錯誤分類概率,這就要求建立一個能得到最小錯誤概率的決策方法,以達到最終的分類目的。在最小錯誤概率Bayes決策中,先驗知識是進行分類的基礎條件。所謂先驗知識,是在分類前所能獲得的模式信息,通過概率論方法將其轉(zhuǎn)化為先驗概率,成為一種或多種模式特征為識別所用??墒?,在實際的識別問題中,先驗知識所能提供的信息量往往太少,僅僅通過先驗知識和由其轉(zhuǎn)化得到的先驗概率,無法對模式做出最有效和準確的判斷。這時,為提高分類準確率,一個可行的方法是將先驗知識和由其轉(zhuǎn)化得到的先驗概率轉(zhuǎn)化為后驗概率,并運用后驗概率所提供的信息去判決,以提高判決的準確率,得到更好的判決效果[2]。
Bayes法則為上述思想提供了可行的理論依據(jù)。假設要研究的問題中有N個類別,已經(jīng)知道先驗概率p(ωi),為簡化問題,只考慮用一個模式特征x來進行分類,假定所選取的特征x是一個連續(xù)隨機變量,其類別狀態(tài)條件概率密度可以表示為p(x│ωi),它的意義是當類別狀態(tài)為ωi時,x的概率密度函數(shù)。對于兩類模式ω1和ω2的情況,x的類別狀態(tài)條件概率密度函數(shù)是不相同的。他們的差別就可以用來反應兩類模式的差別。給定一個觀察樣本x,根據(jù)Bayes公式把先驗概率轉(zhuǎn)化為后驗概率。
對于一個待分類模式,得到一個觀測值x,可能出現(xiàn)以下兩種結(jié)果,如式(1)、式(2)所示:
當公式(1)成立的時候,將傾向于將待分類模式判入類別狀態(tài)ω1,反之,當公式(2)成立的時候,將傾向于將待分類模式判入類別狀態(tài)ω2。這樣,就能使分類的錯誤概率最小??墒?,在實際運用中,兩次觀測到完全一樣的x值的可能性,非常小,同時,模式特征x是一個隨機變量,運用Bayes法則后,每當觀察到一個模式時,得到特征x,接著就利用后驗概率做出分類判決,這個時候,必然會帶來一定的錯誤判決風險,也就相應的帶來錯誤判決概率[3]。為了提高分類正確率,自然期望錯誤判決的概率最小,這里可以從模式的x值上做出分析,模式的x值不同,其相應得到的后驗概率必然不同,從而錯誤概率也不同,所以分類的錯誤概率p(e│x)是隨機變量x的函數(shù),當觀察到大量模式時,對其做出錯誤判決的概率p(e)應該是p(e│x)的數(shù)學期望。對于每次觀察到的特征值x,p(e│x)如果盡可能小的話,積分也必定是盡可能小的。這也從另一個角度證實了Bayes決策法則,當p(ω1│x)>p(ω2│x)時,將待分類模式判入ω1類,反之亦然。
運用式(3)決策方法,可以構(gòu)造分類器。當然,判別函數(shù)不是唯一的,比如將判決函數(shù)乘上一個或者加上一個正的常數(shù)等類似的處理時,所得到的新的判決函數(shù)具有相同的判決結(jié)果??墒?,經(jīng)過這些處理后得到的新的判決函數(shù)有可能將大大簡化判決過程的計算量[4]。
根據(jù)上述對最小錯誤概率Bayes決策理論的分析,運用所得到的判決函數(shù),得到將最小錯誤概率Bayes決策理論運用于楊梅圖像數(shù)據(jù)中的分類器,并設計編程實現(xiàn)算法。研究團隊在前期擬合優(yōu)度研究中發(fā)現(xiàn),純凈無雜色的楊梅圖像樣本可以用K分布來描述,加入背景后,樣本擬合優(yōu)度統(tǒng)計特性偏向K+K分布。為驗證最小錯誤概率Bayes分類器在K+K分布中的運用效果,總共進行了三組不同的實驗,期望能證明其分類的有效性并找出此方法在K分布運用中存在的不足[5]。其中實驗一目的是驗證最小錯誤概率Bayes分類器運用于K分布中的分類效果;實驗二目的是檢驗K+K分布中,不同形狀參數(shù)和尺度參數(shù)對最小錯誤概率Bayes分類器分類效果的影響;實驗三目的是檢驗不同形狀參數(shù)和尺度參數(shù)的訓練樣本對最小錯誤概率Bayes分類器分類效果的影響。
在實驗中,所選取的訓練樣本為具有以下參數(shù)的四組K分布樣本,如表1所示為所選取樣本的參數(shù)列表。
從表1中可以看出,訓練樣本一、二的形狀參數(shù)較為接近,而訓練樣本三、四的形狀參數(shù)相差較大,在這里,筆者并沒有選取λ大于10的訓練樣本,這是由于,在實際楊梅圖像中,其所服從的K分布的λ值很少有大于10的情況。同時使用3組不同參數(shù)和混合權(quán)重的K+K分布數(shù)據(jù)為待測樣本,如表2所示為測試樣本的參數(shù)對照表。
表1 訓練樣本參數(shù)對照表Tab.1 Comparison table of training sample parameters
表2 測試樣本參數(shù)對照表Tab.2 Comparison table of test sample parameters
其中,測試樣本一、二參數(shù)值和其混合比均有不同,這樣數(shù)據(jù)的選擇有利于我們驗證最小錯誤概率Bayes分類器的有效性。而測試樣本三的參數(shù)值較為接近,這時,我們可以理解為其數(shù)據(jù)的混合度較高,這樣的數(shù)據(jù)將考驗分類特征提取有效性,同時有利于我們了解最小錯誤概率Bayes分類器在如此環(huán)境下的有效性。
實驗1:驗證最小錯誤概率Bayes分類器分類效果。為檢驗Bayes分類對混合K分布數(shù)據(jù)的分類效果,運用訓練樣本一和訓練樣本二對所設計分類器進行學習,并對測試樣本一和測試樣本二進行分類,其分類結(jié)果如表3所示,表中顯示分類正誤個數(shù)和分類正確率。
表3 Bayes分類對混合K分布數(shù)據(jù)的分類效果表Tab.3 Classification effect table of Bayes classification on mixed K distribution data
從表3中可以看出,所設計的最小錯誤概率Bayes分類器對測試樣本一和測試樣本二的分類正確率均達到80%以上,可以實現(xiàn)對混合K分布數(shù)據(jù)的分類,分類正確率均在80%以上,分類效果較好。
實驗2:檢驗K+K分布不同參數(shù)對分類器效果的影響。為檢驗混合K分布不同形狀參數(shù)和尺度參數(shù)對Bayes分類器分類效果的影響,筆者運用訓練樣本一和訓練樣本二對分類器進行訓練,并對測試樣本一和測試樣本三做對比實驗。具體分類結(jié)果如表4所示,表中顯示分類正誤個數(shù)和分類正確率。
表4 驗證測試樣本不同參數(shù)分類效果表Tab.4 Table of classification effect of different parameters of validation test samples
從表4中可以看出,當混合K 分布形狀參數(shù)和尺度參數(shù)較為接近,這時候我們也可以說混合K分布混合度較高時,算法有效性將受到較大影響,在對測試樣本三的測試中,由于所混合的兩個K分布其λ值一個為3,一個為4,只相差1,其α值也較為接近,此時,分類正確率不足70%,可以認為,在這樣的情況下,所設計的最小錯誤概率Bayes分類器失效。同時,實驗中還分別統(tǒng)計了對K1和K2的分類正確率,其中對K1的分類正確率不足60%。
實驗3:檢驗不同訓練樣本對分類器分類效果的影響。在運用傳統(tǒng)的Bayes分類器進行分類中,訓練樣本的選取效果將直接影響分類效果。在混合K分布的分類中,實驗2已經(jīng)驗證測試樣本的形狀參數(shù)和尺度參數(shù)將對分類效果產(chǎn)生巨大影響,在本實驗中,選取不同形狀參數(shù)和尺度參數(shù)的訓練樣本,以證實不同的訓練樣本對分類結(jié)果的影響。實驗中,選取訓練樣本一和訓練樣本二為一組,訓練樣本三和訓練樣本四為一組,對測試樣本一進行分類,其分類結(jié)果如表5所示,表中顯示分類正誤個數(shù)和分類正確率。
表5 實驗三分類效果表Tab.5 Classification effect table of experiment 3
從表5中可以看出,不同訓練樣本對Bayes分類結(jié)果也將產(chǎn)生影響,分析其原因,主要是訓練樣本的參數(shù)選擇直接關系到所提取特征的有效性,同時不同的訓練樣本參數(shù),也會對判決函數(shù)產(chǎn)生重大影響,經(jīng)過多次實驗證實,在訓練中,應選取形狀參數(shù)和尺度參數(shù)較為接近,但又不至于引起混淆的訓練樣本,這樣的訓練樣本將有助于提高分類效果。
總之,運用最小錯誤概率Bayes分類器可以有效的將楊梅圖像數(shù)據(jù)分類,以便于對其分布統(tǒng)計特性等問題做進一步研究。由于在運用最小錯誤概率Bayes分類器分類時,所選取分類特征的有效性是能否實現(xiàn)正確分類的一個重要條件,而當測試樣本的參數(shù)較為接近時,將對分類特征的選取提出較為苛刻的要求,此時,所選取的分類特征是否仍然有效,是否足夠,都將嚴重影響到分類正確率,甚至可能導致分類器失效。
引用
[1] 曾平平,李林升.基于卷積神經(jīng)網(wǎng)絡的水果圖像分類識別研究[J].機械設計與研究,2019,35(1):23-26+34.
[2] 李思奇,呂王勇,鄧柙,等.基于改進PCA的樸素貝葉斯分類算法[J].統(tǒng)計與決策,2022,38(1):34-37.
[3] 張文倩,王瑛,張紅梅,等.基于變分貝葉斯的數(shù)據(jù)分類算法[J].空軍工程大學學報(自然科學版),2017,18(2):89-94.
[4] 孟大偉.基于紋理信息的水果圖像識別方法仿真研究[J].計算機仿真,2011,28(12):293-295+322.
[5] 盧巍,薛瑞璇,邢孟江.KS檢測在衛(wèi)星交通圖像數(shù)據(jù)分類中的運用[J].福建電腦,2018,34(3):12-13.