劉帥彤, 李曉軍, 周志杰, 姚俊萍, 王 杰
(火箭軍工程大學, 陜西 西安 710025)
近年來,隨著互聯(lián)網(wǎng)和大數(shù)據(jù)技術的盛行,人工智能,尤其是機器學習和深度學習領域的各種算法得到了不斷的創(chuàng)新和發(fā)展[1]。模式分類問題及其算法是機器學習與人工智能領域當前發(fā)展與研究過程中的熱點內(nèi)容,相關領域的眾多學者和研究人員也分別針對不同問題提出了各種方法[2]。然而,在現(xiàn)實生活中,人們所能采集到的信息充斥著大量不確定性,只有在某些特定的條件下才能保證獲取到的信息是完備、準確的。在人工智能與模式分類等領域中,往往需要對已知的不完整數(shù)據(jù)進行處理,最終做出正確有效的判斷與決策[3]。
從不確定性信息處理的角度來看,分類結果的不精確甚至不準確很可能是由于樣本的屬性值不能明確指向某一類,即不同類之間的屬性邊界通常不精確,甚至重疊[4]。例如,在一個二分類問題當中,有A和B兩類,對于某一待分類數(shù)據(jù)得到的初步分類結果是(0.51,0.49),即該數(shù)據(jù)項指向A類別的概率為0.51,指向B類別的概率為0.49,根據(jù)常識應該將其歸為類別A,但實際上不難看出,兩種類別的差距十分相近,類別邊界無法區(qū)分,此時就會存在有錯誤分類的風險。因此,不確定性問題的研究對模式分類技術的發(fā)展具有至關重要的作用。眾多學者們多年以來對于不確定性問題的探究已逐漸形成了各種理論,如概率論[5]、模糊集理論[6]和粗糙集理論[7]等。證據(jù)理論作為一種表示和處理不確定性的經(jīng)典理論,自二十世紀七、八十年代被提出以來,憑借其在不確定性推理方面的優(yōu)勢得到了飛速發(fā)展,并被廣泛應用于專家系統(tǒng)[8]、故障檢測[9]、多屬性決策[10]、信息融合[11]和模式分類[12]等領域。
不同于傳統(tǒng)的貝葉斯理論,證據(jù)理論可以準確地區(qū)分缺乏信任和不信任兩種概念。一方面,證據(jù)理論利用信任函數(shù)對具有不確定性的知識進行表示,克服了傳統(tǒng)方法依賴于推理的先驗知識或條件概率等諸多限制[13];另一方面,證據(jù)理論能夠合理地分配基本概率分布,將證據(jù)的剩余支持分配給整個辨識框架,從而可以更加有效地處理各類不確定性[14],如模糊性、隨機性等。因此,將證據(jù)理論的思想與模式分類方法相結合便可以有效提高分類器對具有不確定性數(shù)據(jù)的分析、表達以及處理能力。
根據(jù)分類方法的不同,證據(jù)理論在模式分類問題中的應用主要可分為兩種:一是在作為單個分類器設計的核心思想時,將證據(jù)理論中對證據(jù)的處理及合成機制與分類方法相結合,即對“證據(jù)”進行表征處理后,通過一定的合成規(guī)則生成結果,以此來提高分類器的性能[15];二是在作為多分類器集成的集成規(guī)則時,將基分類器的原始輸出轉化成軟輸出的形式,這些軟輸出的結果作為基本概率賦值,再用證據(jù)理論方法的組合規(guī)則將它們?nèi)诤?,從而通過融合多個不同分類器的結果來提高整體系統(tǒng)的分類準確率[16]基于此,為了全面總結、梳理證據(jù)理論在模式分類中現(xiàn)狀及發(fā)展趨勢,本文圍繞單分類器設計和多分類器集成兩大不同的應用場景,分別系統(tǒng)綜述了證據(jù)理論在模式分類問題中的發(fā)展和應用過程,結合實際對各階段不同方法的優(yōu)缺點進行比較,并展望了證據(jù)理論在模式分類領域中的未來發(fā)展趨勢。
模式分類作為機器學習領域一大重要組成部分,同時也是處理許多問題的重要工具[17-18]。早在二十個世紀七十年代,文獻[19]中就給出了具體的定義:通過訓練已知的數(shù)據(jù)集構造一個分類函數(shù)或者分類模型,再將新的數(shù)據(jù)集導入并映射到一個特定的類別之中,這樣的一個過程就叫做模式分類。因此,根據(jù)上述定義,可將模式分類的過程分為數(shù)據(jù)輸入、數(shù)據(jù)采集、特征提取與選擇、模型選擇、分類器訓練和評價等多個部分,各部分具體流程如圖1所示。
圖1 模式分類具體過程
文獻[20]認為在采集數(shù)據(jù)的過程中,數(shù)據(jù)量過小或過大都會對整個模型的性能指標造成影響,實驗初期采用較少的小樣本進行訓練是可行的,但到后續(xù)無法保證已知數(shù)據(jù)具有足夠的代表性供訓練和測試階段使用。同樣當數(shù)據(jù)量過大時會消耗大量的實驗成本,不利于研究的進行。綜上所述,模式分類主要是預先通過訓練樣本訓練得到一個分類模型,根據(jù)特征提取與選擇最終將所采集數(shù)據(jù)的目標樣本進行分類規(guī)則識別的一個過程。
根據(jù)應用領域的不同,模式分類方法主要包括有支持向量機(Support Vector Machine,SVM)、k-近鄰算法(K-nearest Neighbor,KNN)、反向傳播神經(jīng)網(wǎng)絡(Back Propagation Neural Network,BPNN)、樸素貝葉斯(Naive Bayes,NB)、線性判別分析(Linear Discriminant Analysis,LDA)和證據(jù)理論(Dempster Shafer Theory,DST)等,各方法的優(yōu)劣對比如表1所示。
表1 各模式分類方法優(yōu)劣勢對比
綜上所述,現(xiàn)有的模式分類方法具有各自的優(yōu)勢并能夠用來解決不同領域的相關問題,但由于方法自身存在的局限性,同一種方法很難做到適用于各種情況的分類問題。同時,當分類模式中的特征變量過多時,獲取這些特征樣本就會變得困難,使用上述傳統(tǒng)的模式分類方法時會出現(xiàn)難以判別等情況[27]。證據(jù)理論在處理帶有不確定性的輸入信息時可對其進行有效描述,并實現(xiàn)證據(jù)的定量表達。這樣做的好處是不僅在面對多分類和大規(guī)模的樣本時能夠保持較好的性能,還可以應對并處理非線性樣本等復雜情況[8]。例如,在與樸素貝葉斯等方法相比,采用證據(jù)理論進行分類時,分類情況的好壞取決于可用數(shù)據(jù),在構建好分類器之后,整體系統(tǒng)并不依賴于先驗概率等其他參數(shù),具有良好的穩(wěn)定性和魯棒性[28]。
證據(jù)理論最早于1967年由Dempster提出,是一種經(jīng)典的不確定性推理方法[29]。在證據(jù)理論中,通常用集合來表示命題。假設辨識框架Θ={H1,H2,…,HN}是由一組互不相容且構成完備集的命題所組成的集合[30],即對于任意的i,j∈[1,N]且i≠j,恒有Hi∩Hj=?。2Θ是Θ所有子集所構成的集合,表示辨識框架中一共包括有2N個子集。定義m為辨識框架上的基本概率質量函數(shù),也稱為mass函數(shù),則有:
(1)
式中:Hi表示第i個命題;?表示空集。除了基本概率質量函數(shù)(Basic probability assignment,BPA)之外,還有兩個重要的核心函數(shù):信任函數(shù)Bel和似然函數(shù)Pl,其具體定義為
Bel(A)=∑B∈Am(B)
(2)
Pl(A)=∑B∩A≠?m(B)
(3)
式(2)中,Bel(A)表示命題A的全部子集的BPA之和,即命題A一定成立;式(3)中Pl(A)表示所有與命題A相交的子集的BPA之和,即不否認命題A的信任度。二者存在以下關系:
(4)
圖2 不確定性表示
Dempster組合規(guī)則用于組合相互獨立且完全可靠的證據(jù),假設分別對應的BPA為m1和m2,對于任意的A∈Θ,則有:
(5)
然而,當證據(jù)之間存在沖突時,其往往會產(chǎn)生與常理認知相違背的結果,這種現(xiàn)象被稱為“反直覺問題”[31]。另外,當證據(jù)數(shù)量超過一定限制時,Dempster組合規(guī)則的計算量會呈指數(shù)級提升,從而產(chǎn)生“組合爆炸”問題[32]。因此,在以上這些問題的基礎上,相關學者分別從輸入形式的表達以及組合規(guī)則的改進等方面對傳統(tǒng)的D-S證據(jù)理論進行了深入的探討和研究,后來逐漸形成了兩種不同的分支形式即圍繞信任函數(shù)[33]的證據(jù)理論和圍繞置信分布[34]的證據(jù)理論,且二者都在解決不同領域的問題時發(fā)揮了重要的作用。
在信任函數(shù)方面,文獻[33]首先提出了Pignistic概率轉換和可傳遞信度模型,并將信任函數(shù)分配到辨識框架中的所有模糊子集上,實現(xiàn)了從mass質量函數(shù)到概率分布一系列的轉化。文獻[35]在Bayes的基礎上提出了信任函數(shù)的Bayes近似計算公式,從公式的角度證明了信任函數(shù)之間信度的合成與Bayes近似計算是等價的,這大大減少了證據(jù)理論合成公式的計算量。文獻[36]在組合證據(jù)的過程中首次采用了“等權法”的方式將證據(jù)進行統(tǒng)一平均賦值,這樣做的好處是通過對權重賦值的方法提高了Dempster合成規(guī)則解決證據(jù)沖突問題的能力,進一步提升了證據(jù)合成的性能。在置信分布方面,文獻[34]于1994年首次提出了證據(jù)推理算法(Evidential reasoning,ER),而后,文獻[37]進一步將ER算法推廣到了區(qū)間推理的形式。2013年,文獻[38]在考慮了證據(jù)權重的基礎上首次引入了證據(jù)可靠度,形成了一般化的ER規(guī)則(ER-rule)。2017年,為了解決證據(jù)之間的相關度表示問題,文獻[39]提出了一種新的最大似然證據(jù)推理框架,將狀態(tài)空間模型和證據(jù)空間模型相結合,分別用于描述不同狀態(tài)下的系統(tǒng)變化和數(shù)據(jù)映射。至此,證據(jù)理論的發(fā)展逐漸推向了一個新的高度,憑借其表示和處理不確定性問題的能力,其被廣泛應用在安全性評估[40]、故障診斷與風險分析[41]、系統(tǒng)工程[42]等諸多領域。
綜上所述,隨著研究內(nèi)容的不斷推進和研究方法的持續(xù)創(chuàng)新,一方面,由于Dempster規(guī)則存在的合成證據(jù)沖突問題,在后續(xù)產(chǎn)生了多種證據(jù)合成的改進規(guī)則;另一方面,證據(jù)理論在發(fā)展過程中逐漸產(chǎn)生的針對于信任函數(shù)和置信分布的兩種研究分支,各分支對于證據(jù)理論框架的研究側重點也有所不同。因此,衡量和選取合適的證據(jù)合成規(guī)則,并將其應用于單分類器設計方法和多分類器集成方法之中尤為關鍵,而研究不同的合成規(guī)則所能造成的不同影響和性能差異也是目前需要分析和探討的問題之一。
分類的核心思想就是把待分類數(shù)據(jù)通過某種機制映射到不同的類別當中,基于證據(jù)理論的單分類器設計方法是指將證據(jù)理論框架中關于證據(jù)不確定性的表示與合成思想與不同分類方法的具體過程相結合,從而使分類過程更具有一般化的特點[43]。根據(jù)證據(jù)理論在分類器設計過程中應用角度的不同,可將單分類器設計的方法分為基于信任函數(shù)的方法和基于置信分布的方法,接下來將從對應這兩大分支不同的角度出發(fā)分別介紹其發(fā)展和應用研究。
基于信任函數(shù)分支的證據(jù)理論實質上是對于所輸入證據(jù)信息表達方式的更新。將其應用至模式分類問題當中可以看作是在特征層面,把可以用來表征不同類別的特征樣本看作是支持該類別的證據(jù)項,并為其分配信任函數(shù),此時輸入分類函數(shù)映射的不再是待分類樣本自身,而是樣本對應的證據(jù)項,證據(jù)項更新的同時也會得到不同的分類效果。
因此,眾多學者開始從輸入方式表達的角度將證據(jù)理論應用于單分類器的設計和改進,最早且較為經(jīng)典的是1995年文獻[44]率先提出的一種基于D-S證據(jù)理論的k-近鄰分類規(guī)則算法。該方法把要分類樣本的每個鄰居都視為關于支持該模式類別類成員的某些假設的證據(jù)項,其中各類別的集合被定義為一個識別框架C={C1,C2,…,CM},M表示該集合中的最大類別數(shù),根據(jù)距離對不同證據(jù)項的不確定性進行量化,給出每個證據(jù)相應產(chǎn)生的基本概率賦值,利用組合規(guī)則將其融合,進而決策并判斷出其所屬類別。實驗結果表明,在數(shù)據(jù)受到不同程度噪聲擾動的情況下該方法仍能發(fā)揮出不錯的分類性能,并且在此基礎上還解決了原始k-近鄰算法對不同的k值敏感的劣勢,這得益于在引入了證據(jù)理論之后,每一個被分類的對象可以看作是對該模式類別成員不同的置信支持證據(jù)項,從而量化了復雜假設的不確定性關系。在Denoeux研究的基礎上,1998年,文獻[45]提出了基于證據(jù)理論k-近鄰分類的進一步優(yōu)化算法,其通過最小化誤差函數(shù)的辦法從數(shù)據(jù)中確定最優(yōu)或近似于最優(yōu)的參數(shù)值,并通過實驗結果證明了該方法不僅保留了原始方法所有優(yōu)點,還顯著提升了優(yōu)化后算法的整體分類性能。之后,在文獻[45]的基礎上,文獻[46]又提出了一種新的針對于證據(jù)理論分類規(guī)則相似度參數(shù)計算的方法,該方法采用了統(tǒng)計概率學的思想,對每一模式分類的參考最近距離值進行估計,結果證明這種方法在處理小樣本和非高斯分布情況下的數(shù)據(jù)時,不論是準確率還是運行效率都得到了較好的提升。在神經(jīng)網(wǎng)絡全連接理論的基礎上,文獻[47]于2000年設計并提出了一種基于證據(jù)理論的神經(jīng)網(wǎng)絡分類器,該方法同樣將每個模式類的證據(jù)項用基本概率賦值的形式表示,合成過程則在特定架構的多層神經(jīng)網(wǎng)絡中實現(xiàn),與之前的傳統(tǒng)方法相比分類性能得到了明顯提升。同年,文獻[48]又提出了基于D-S證據(jù)理論的決策樹規(guī)則分類器,解決了傳統(tǒng)方法中樹節(jié)點熵的度量問題,將類成員轉換為信任函數(shù)的形式,并在EGG數(shù)據(jù)集上取得了更好的效果。但無論是基于證據(jù)理論的神經(jīng)網(wǎng)絡分類器還是決策樹規(guī)則分類器,在處理數(shù)據(jù)不均衡的小樣本問題時都很難發(fā)揮出其性能,因此,文獻[49-50]針對基于訓練樣本數(shù)據(jù)不充分、不均衡的情況,提出了相應新的模式分類決策規(guī)則,進一步奠定了基于信任函數(shù)的證據(jù)理論在單分類器設計方面進行模式分類的理論基礎。
文獻[51]認為分類的不確定性主要是由于缺失數(shù)據(jù)的信息不足造成的,并將這一情況定義為“不完整模式分類”,為了解決這類問題,提出了一種基于原型的分類方法,將依托于原始訓練樣本獲得的類原型用于估計樣本缺失值,再利用信任函數(shù)框架對其進行表征,通過在人工和真實數(shù)據(jù)集上的測試結果表明這種組合規(guī)則可以有效地解決不完整模式的分類問題。文獻[52]針對醫(yī)學影像不確定性數(shù)據(jù)分類問題,將證據(jù)理論與深度神經(jīng)網(wǎng)絡進行結合,提出了一種基于證據(jù)神經(jīng)網(wǎng)絡的醫(yī)學影像三支決策方法,在理論層次上對可能出現(xiàn)誤判的影像進行證據(jù)函數(shù)的構造,實驗驗證結果表明,所提方法既解決了傳統(tǒng)方法中受標注數(shù)據(jù)有限、數(shù)據(jù)表征模糊的問題,又能夠有效地對具有不確定性的醫(yī)學影像進行模式判別,對醫(yī)學影像的處理與分析提供了理論支撐。文獻[53]針對電影歷史數(shù)據(jù)缺乏、可用變量少以及預測過程中的不確定性等特點,將XGBoost算法和D-S證據(jù)理論進行結合,首先利用XGBoost算法對已有樣本數(shù)據(jù)進行有效劃分,從而完成證據(jù)信任函數(shù)值的計算,然后將計算得到的信任函數(shù)值通過證據(jù)理論進行信息融合,最終得到一個票房歸屬區(qū)間,驗證了該方法的有效性。
基于置信分布分支的證據(jù)理論是在經(jīng)典證據(jù)理論的基礎上,對證據(jù)組合過程中的置信分布表示進行新的定義與改進,常被用于解決不同的分類與決策問題。如前文中所提到的,文獻[31]最早對于一條證據(jù)置信分布組成做出了如下定義[31]:
ei=(θn,pn,i),n=1,2,…,N;(Θ,pΘ,i)
(6)
式中:pn,i表示證據(jù)ei被定義為類別θn的概率置信度;i表示第i條證據(jù);n表示第n個類別;對于每條證據(jù)對應不同的權重wi(i=1,2,…,L),ER-rule則是引入了證據(jù)可靠度作為證據(jù)項的參數(shù),后來的研究人員主要針對上述置信分布框架進行研究。
針對預測模型中各項參數(shù)難以主觀精確設定的困難,文獻[9]提出了一種基于證據(jù)推理的故障預報方法,通過對權重等模型參數(shù)進行優(yōu)化學習,最終有效提升了模型的預測和模式分類的能力。在航天工程領域,文獻[54]針對航天繼電器中存在的大量強不確定性并發(fā)故障特征,提出了一種基于證據(jù)推理的航天繼電器故障分類方法,該方法基于三階Volterra濾波器對故障的特征變量進行分類,在求取合成規(guī)則權重的過程中首次用到了變異系數(shù)法,并于STS2104A電磁繼電器系統(tǒng)上的大量實驗驗證表明了該方法的有效性。2016年,文獻[55]基于證據(jù)推理規(guī)則提出了一種純數(shù)據(jù)驅動的模式分類方法,該方法中充分考慮了主觀和客觀不確定性因素的存在,區(qū)分了權重和可靠度對于分類效果不同的影響,即前者表示屬性或其證據(jù)對模式分類問題提供正確判斷的能力,后者則反映證據(jù)在需要組合時與其他證據(jù)相比的相對可靠度。論文中該方法還詳細闡述了從證據(jù)獲取到權重、可靠度等參數(shù)的確定以及證據(jù)組合的過程,在UCI的五個公開數(shù)據(jù)集中都顯示出了可以與其他經(jīng)典方法相媲美的優(yōu)異性能。
而后,文獻[56]又在此前的基礎上提出了一種改進型的基于證據(jù)推理規(guī)則的分類算法,針對之前方法中純數(shù)據(jù)驅動,并不對證據(jù)屬性和類別之間關系進行假設定義等特點,利用證據(jù)理論中的歧義測度,對屬性樣本和對應證據(jù)的不確定性進行量化處理,實驗結果證明了改進后的方法更適用于解決定量數(shù)據(jù)和定性知識不確定的模式分類問題,且具有更高的分類精度。文獻[57]對當前證據(jù)推理規(guī)則中參考值的設置進行改進,提出了一種基于證據(jù)推理規(guī)則的分布式參考值航天繼電器性能分類模型,首先,為了有效嵌入專家知識并捕獲性能信息,使用高斯分布來描述參考點,其次,通過對證據(jù)參數(shù)的計算和優(yōu)化,構成一個完整的性能評價指標模型,最后在JRC-7M航空繼電器進行了案例研究,以驗證了所提出模型的有效性。針對客戶投訴敘述中存在不準確或不一致信息的問題,文獻[58]以基于證據(jù)推理規(guī)則的分類器作為核心開發(fā)了一種用于處理用戶投訴的新型決策分類系統(tǒng),通過對文本和數(shù)字特征的結合來生成證據(jù),并以權重和可靠度的形式對這些特征與結果之間的關系進行量化,不僅可以生成分類結果還可以得到類別對應概率,與其他機器學習算法相比具有更強大的特征表示能力和分類處理性能。文獻[59]基于貝葉斯網(wǎng)絡和證據(jù)推理提出了一種新的模型聚合方法和多種數(shù)據(jù)源的船舶風險評估概率框架,其通過實際觀測數(shù)據(jù)對風險參數(shù)之間的關系進行刻畫,然后輸入至貝葉斯網(wǎng)絡和證據(jù)推理結合的分類模型之中,在考慮了其他綜合特征的情況下建立了完整的風險評估模型,結果表明,該方法能夠有效判斷在多源數(shù)據(jù)場景下的風險類別,并為風險分析應用中使用多個數(shù)據(jù)源提供了經(jīng)驗證據(jù)。
表2按時間順序總結了上述基于兩種不同分支方法的發(fā)展和應用研究內(nèi)容,從這些工作中可以發(fā)現(xiàn),將證據(jù)理論的原理及思想應用到單分類器的構造和設計中,可以有效提升單個分類器的分類性能。并且證據(jù)理論在處理不精確、不確定的信息時有著強大的組合與分析能力,這使得證據(jù)理論作為單分類器進行使用時有著更為寬廣的應用范圍。然而,由于證據(jù)分類器本身是從不確定性量化的角度出發(fā)的,從訓練樣本到證據(jù)函數(shù)的信息轉換是一種近似于純數(shù)據(jù)驅動的方法,因此如何根據(jù)不同的證據(jù)樣本對證據(jù)函數(shù)進行合理構造有待進一步驗證。值得關注的是,目前對證據(jù)理論分類方法的性能優(yōu)化相關研究較少,因此,使用遺傳算法之類的優(yōu)化算法對分類模型的結構進行優(yōu)化,從而使模型具有更好的結構和更輕量化的計算負擔是一個較為開放的問題。
表2 基于單分類器設計的方法內(nèi)容對比
多分類器集成在機器學習領域又被稱為集成學習,其最早的研究是于二十世紀九十年代文獻[60]在研究如何提高神經(jīng)網(wǎng)絡的性能時,通過調用相似網(wǎng)絡之間的集成和交叉驗證從而發(fā)現(xiàn)不同的神經(jīng)網(wǎng)絡在經(jīng)過某種組合之后可以減少剩余的殘差泛化誤差,達到更好的訓練和分類效果。在后來的研究中文獻[61]提出了一種基于Boosting算法的支持向量機基學習器集成方法,研究結果證明Boosting的集成方法在保證分類精度提高的同時還可以有效防止過擬合等問題。
證據(jù)理論中包含有信任函數(shù)和置信分布兩大基本概念,在處理決策層不確定性信息的表示和融合時具有強大的推理能力。因此,將證據(jù)理論引入到多分類器集成當中可以獲得更加優(yōu)異的分類性能,具體的理論框架如圖3所示。
圖3 基于證據(jù)理論的多分類器集成過程
在該框架形成的基礎上,眾多學者并沒有從嚴格意義上的信任函數(shù)和置信分布分支進行改進,更多地則是針對多分類器集成系統(tǒng)的不同層面紛紛開展研究。因此,證據(jù)理論在多分類器集成方面的應用可分為基于分類層改進的方法和基于組合層改進的方法。
如圖3所示,在基于證據(jù)理論的多分類器集成系統(tǒng)中,針對于各個成員分類器的選擇與分類層次的方法稱為分類層。在模式分類問題中,現(xiàn)實生活中的數(shù)據(jù)存在著各種各樣的不確定性,使用不同的樣本數(shù)據(jù)或不同種分類方法來訓練學習得到的不同的分類器相互之間具有關聯(lián)性和互補性,如何合理利用各成員分類器之間的差異性和相關性對提升整個系統(tǒng)的分類性能往往具有至關重要的作用[62]。因此,在此基礎上,部分學者陸續(xù)提出了眾多關于選擇性度量和改進多分類器之間差異性關系的證據(jù)理論模式分類集成方法。
文獻[63]基于證據(jù)距離的度量提出了一種新的分類器差異性度量方法,并首次將概率分配分為了貝葉斯基本概率分配和非貝葉斯基本概率分配,通過在不同測試樣本上提取關鍵特征向量,利用KNN算法得到其概率質量作為單類焦元mi(Cj),其中i表示第i個特征子空間,j表示第j個基分類器,這樣可以計算每一類別中樣本的中心距離從而獲得新的概率賦值。文獻[64]針對多分類器系統(tǒng)構造過程中可能出現(xiàn)的“差異性淹沒”問題,提出了一種基于幾何關系的多分類器差異性度量方法,該方法可以對不同分類器的分類結果之間的差異性按照規(guī)則進行有效刻畫,最終以各個幾何中心之間的離散程度作為度量方法,對比實驗結果證明可以有效提升分類結果的準確率。文獻[65]針對基于證據(jù)理論的多分類器系統(tǒng)設計,提出了一種新的使用最短特征線段分類器的多分類器系統(tǒng),該方法利用最短特征線段分類算法的工作機理實現(xiàn)了成員分類器之間模糊隸屬度的建模與度量級融合,從而使多分類器系統(tǒng)有效實現(xiàn)了多分類器之間隸屬度關系到mass函數(shù)的轉化。文獻[66]通過對樣本不斷地有放回抽樣形成多個版本,提出了一種基于生成多個訓練樣本來獲得不同成員分類器的選擇性集成并行融合算法,該算法創(chuàng)新性地采用MapReduce并行化處理有效解決了傳統(tǒng)分類器差異性選擇過程中可靠性和擴展性不足的特點,最終用證據(jù)理論將得到的并行多分類器結果融合,結果表明所提出算法可以顯著提高分類結果的準確率。文獻[67]在研究基于證據(jù)理論的多分類相關向量機(Multi-class Relevance Vector Machine,M-RVM)多分類器集成過程中,采用四個不同類型的M-RVM基分類器,同時引入蘭氏距離函數(shù)和光譜角余弦函數(shù)對分類器進行差異性度量,優(yōu)化后得到的分類器組合被證明具有更好的性能。
如圖3所示,在基于證據(jù)理論的多分類器集成系統(tǒng)中,將證據(jù)理論的組合規(guī)則用于融合各分類器的結果以獲得更高的準確率,該方法層被稱為組合層。組合規(guī)則往往對應著融合了系統(tǒng)各分類模型之間輸出性能的優(yōu)勢,找到一種合理的組合規(guī)則對提升整體系統(tǒng)的分類效果具有至關重要的作用。
基于此,文獻[68]提出了一種基于證據(jù)理論的多分類器組合方法用于手寫識別等領域的應用,該方法根據(jù)分類器所能提供的可用信息不同,討論了幾種分類器的組合方式,通過正確識別率,替換率和拒絕率來得到基本概率賦值,并輸出成員分類器分類結果的輸出向量φi(d),其中i表示第i個成員分類器,最終決策結果由BPA之間的組合結果以及對某一類別的最大支持程度得到,在美國郵政編碼數(shù)據(jù)庫上驗證得到了較高的識別率,與其他方法相比,識別性能也得到明顯提升。文獻[69]提出了一種新的基于證據(jù)推理的最優(yōu)加權分類器組合方法來提高分類精度,通過最小化Dempster規(guī)則得到的組合結果與訓練數(shù)據(jù)空間中的目標輸出之間的距離來獲得分類器的最優(yōu)權重因子,以充分利用分類器的互補性,并在UCI公開數(shù)據(jù)集中證明了其方法的有效性。文獻[16]為了實現(xiàn)對分類數(shù)據(jù)不確定性的有效表示,提出了“混合類”的概念,將訓練數(shù)據(jù)中的含混數(shù)據(jù)做了新的標注,并使用證據(jù)神經(jīng)網(wǎng)絡對分類輸出進行建模,采取不同的證據(jù)組合函數(shù)組合多個分類器的結果,實驗證明獲得了較好的效果。文獻[70]為了解決多分類器集成系統(tǒng)對基分類器的分類性能要求較高等問題,提出了一種基于Shapelets的多變量證據(jù)加權集成分類方法,在單變量時間序列上學習得到基分類器Shapelets及其權重的賦值,最終在標準數(shù)據(jù)集上獲得了較好的分類結果。文獻[71]利用基于證據(jù)理論的多分類器融合框架將機器學習中的樸素貝葉斯與支持向量機的分類結果進行融合,對中文微博進行觀點句義判別并在NLP&CC 2012提供的數(shù)據(jù)集上驗證得到了更好的召回率和F值;文獻[72]在鐵路貨運列車能耗統(tǒng)計判別的領域中提出了一種基于證據(jù)推理理論的支持向量機集成學習方法,將通過訓練集樣本得到的各個不同支持向量機分類器作為基學習器,并將基學習器的AUC值作為量化權重的判斷依據(jù),利用證據(jù)推理算法組合各基學習器的分類結果,最大置信度的類別結果即作為系統(tǒng)的決策判別結果;文獻[73]在研究室內(nèi)多徑傳播及非平穩(wěn)信道環(huán)境時,提出了一種基于證據(jù)理論的群指紋融合高精度室內(nèi)定位算法,通過各種手段采集到各種樣本特征,并用神經(jīng)網(wǎng)絡針對每種特征分別訓練出不同的神經(jīng)網(wǎng)絡分類器,利用證據(jù)理論對分類器生成的分類結果融合得出最終目標定位,仿真結果表明所提出算法具有良好的有效性和可行性;文獻[74]從結構參數(shù)、證據(jù)距離以及組合規(guī)則的角度對傳統(tǒng)的證據(jù)k-近鄰分類器進行優(yōu)化,并結合了非線性偏最小二乘和支持向量機分類器的分類結果建立了證據(jù)理論多分類器融合系統(tǒng),實驗結果表明,該模型可以大大提升系統(tǒng)的類別監(jiān)測精度,從而符合更加復雜的生產(chǎn)情況。
表3總結了上述基于不同層面的改進方法,從中可以看出,證據(jù)理論應用在多分類器系統(tǒng)融合的決策層可以解決單一分類器無法實現(xiàn)有效分類等問題。使用多個不同的分類器進行分類,并將結果用證據(jù)理論進行融合可以明顯提升分類性能,同時更好地利用了分類器之間的互補性和相關性,從而使得多分類器系統(tǒng)可以更好地解決復雜的模式分類問題。然而,現(xiàn)有工作往往更多地注重于在多分類器系統(tǒng)決策層做出改進,容易忽略集成系統(tǒng)中各個成員分類器之間的差異性,因此在選擇分類器時如何將成員分類器之間的性能表現(xiàn)進行差異性度量需要進一步地探索。與此同時,各分類器之間權重和可靠度的確定也與特征指標的主觀評估和分類效果的可靠性息息相關,如何對權重、可靠度進行確定和優(yōu)化也同樣值得關注。
表3 基于多分類器集成的方法內(nèi)容對比
續(xù)表3
本文從模式分類問題的角度出發(fā),首先論述了模式分類的基本概念、流程和現(xiàn)有的一些分類方法,再對證據(jù)理論的發(fā)展與應用做了概括,將證據(jù)理論在模式分類問題中的應用分為單分類器設計和多分類器集成兩大類,并分別針對于這兩個應用場景,系統(tǒng)性地梳理了國內(nèi)外在該領域較為經(jīng)典的相關文獻和主要研究現(xiàn)狀。
通過綜述研究可以發(fā)現(xiàn),證據(jù)理論無論是在單分類器設計,還是在多分類器集成方面都可以憑借其強大的不確定性信息處理能力和對證據(jù)函數(shù)優(yōu)秀的組合能力應對各種復雜的模式分類場景,但其本質上仍屬于一種嚴格的聯(lián)合概率推理過程,因此在具體應用中還存在有一些不足之處:
1)證據(jù)之間的獨立性證明和非獨立性聯(lián)合。在多分類器集成的過程中,各分類器所生成的不同結果,往往看作是彼此獨立且互斥的,因為它們一般都產(chǎn)生自于不同的分類函數(shù)或特征向量當中,但當證據(jù)理論充當單分類器設計的核心理論時,如何證明兩條或多條需要組合的證據(jù)是獨立的,這有待進一步研究。盡管目前在研究界人們更傾向于將證據(jù)之間的組合定義為是加性的,但能夠給出更為合理的證明才能使得其在具體應用過程中更具有說服力。此外,現(xiàn)有的方法大多都是考慮了獨立證據(jù)之間的組合,在未來的研究與發(fā)展過程中,如何將非獨立性證據(jù)通過一種新的組合規(guī)則聯(lián)系起來,從而用于解決更多的模式分類問題,其具有深遠的研究意義;
2)證據(jù)函數(shù)的生成與差異性度量。將Dempster組合規(guī)則用于多分類器的集成與融合時,關鍵的一個問題則是如何根據(jù)各分類器的不同特性生成證據(jù)函數(shù)。證據(jù)函數(shù)是證據(jù)理論的基礎,機器學習通過訓練和學習得到的結果可以通過各種手段轉換為置信分布的形式表示為證據(jù),而對于不同證據(jù)項之間存在的差異性需要一個更為合理科學的度量方法。在集成系統(tǒng)當中,各基分類器往往具有不同的分類特性,這種差異性的度量被認為是提高系統(tǒng)整體分類性能的一種有效手段,因此,針對基分類器之間存在的差異性問題,設計更加有效的差異性度量損失函數(shù)也是未來亟待探索的關鍵性問題;
3)證據(jù)權重與可靠度的計算和優(yōu)化。隨著現(xiàn)代研究的不斷深入,證據(jù)的權重與可靠度被認為是重要的推理參數(shù),因此,這些參數(shù)的表示與計算逐漸成為證據(jù)理論在置信分布結構下的一個重點問題。目前,大多數(shù)研究在權重與可靠度等參數(shù)的表示計算和優(yōu)化方面,只結合了當前工程應用背景下的情況,不具有更加寬泛的應用范圍,在未來的工作中,如何提出一種更具有普適性和魯棒性的參數(shù)確定及優(yōu)化方法同樣是一個值得思考的問題。同時,不同的分類方法采用不同的分類機制和原理,如何通過對參數(shù)的優(yōu)化來提升證據(jù)理論模式分類方法的泛化能力也是一個長遠的話題。