潘主強,張 林,張 磊,李國正,顏仕星
1.西南石油大學 計算機科學學院,成都 610500
2.中國中醫(yī)科學院 中醫(yī)臨床基礎(chǔ)醫(yī)學研究所,北京 100700
3.中國中醫(yī)科學院 中醫(yī)藥數(shù)據(jù)中心,北京 100700
4.上海金燈臺信息科技有限公司,上海 201800
在二分類問題和多分類問題中,每個樣本只屬于一個標記只屬于某一個類,可歸結(jié)為單標記學習問題[1]。但在現(xiàn)實世界中,每個樣本可能同時屬于多個類別,這是典型的多標記學習問題[2]。并且現(xiàn)實世界中多標記學習任務無處不在[3],如一個人可能患有多種疾病,風景圖片可能包含多種語義類別。這些問題不同于二分類問題和多分類問題,由于類別間的相關(guān)性和共現(xiàn)性,使它處理起來比單標記問題要困難得多。因此多標記學習已成為機器學習領(lǐng)域研究熱點,并受到了廣泛關(guān)注[4]。
在已有的多標記學習算法中,多標記k近鄰(multi-labelknearest neighbor,ML-kNN)[5]算法是目前常用的一種多標記學習方法,具有較好的性能。但是ML-kNN算法在學習過程中,k是一個預先確定的值,沒有考慮樣本本身的特點,并且樣本類別間存在不均衡問題。在中醫(yī)臨床疾病數(shù)據(jù)中,這種情況非常普遍,如一個患者可能患有多種疾病,具體到每個疾病而言,疾病類別的數(shù)據(jù)之間可能存在不均衡的情況。在已有的多標記學習算法中,對于多標記的不均衡研究也較少[6]。而數(shù)據(jù)挖掘在中醫(yī)輔助診斷中被日益重視,計算機輔助診斷其實就是數(shù)據(jù)挖掘分類任務[7],分類性能的好壞直接影響到輔助診斷的能力。如果能夠提高多標記分類的性能,對于提高輔助診斷能力也是非常有幫助的。結(jié)合中醫(yī)臨床疾病數(shù)據(jù)的實際情況,在WML-kNN(weighted multilabelknearest neighbor)的基礎(chǔ)上結(jié)合權(quán)重以及粒計算提出了改進算法——基于粒計算的WML-kNN(weighted multi-label granularknearest neighbor,WMLGkNN),對中醫(yī)臨床疾病數(shù)據(jù)進行多標記分類研究。
現(xiàn)有多標記學習的分類算法大多數(shù)是應用單標記分類算法的思想,比較有代表性的是多標記學習問題轉(zhuǎn)化為若干個獨立的二分類學習問題的BR(binary relevance)[8]算法,直接將多標記學習問題轉(zhuǎn)化為多類學習問題[9]的RAkEL(randomk-label sets)算法,周志華等人提出的多標記k近鄰(ML-kNN)[5]算法,基于神經(jīng)網(wǎng)絡改進的BP-MLL[10](back-propagation multi-label learning)算法。在已有的算法中,運用比較多的是ML-kNN算法。
在單標記空間中,k近鄰算法的核心是首先尋找出預測樣本在訓練集中的近鄰,然后所有近鄰以其本身的類別情況對此預測樣本進行投票,那么此樣本的類標就與得票多的一方的類標相同。在ML-kNN算法中,首先需要在訓練階段對訓練數(shù)據(jù)集的樣本進行統(tǒng)計,通過對訓練樣本的k近鄰進行統(tǒng)計與分析,計算出不同的近鄰分布情況下的先驗概率和后驗概率。對于每個測試樣本,首先確定它的k個近鄰樣本;然后根據(jù)k個近鄰樣本的標記信息,用最大后驗概率(maximum a posteriori,MAP)準則預測它的類別標記集合。但是針對中醫(yī)臨床疾病數(shù)據(jù),ML-kNN算法有個很大的缺陷:具體到某個標記,數(shù)據(jù)類別出現(xiàn)不均衡。
在ML-kNN算法中,如果樣本中某個類數(shù)量過少,致使取到的k個近鄰中該類所占的比例較小,易造成錯分[11]。在中醫(yī)臨床疾病類別數(shù)據(jù)中,這種情況比較常見。例如,在中醫(yī)臨床多標記疾病數(shù)據(jù)中心血管類疾病,患病的個體要少于未患病的個體。如果按照ML-kNN算法進行分類,分類效果不會太好。為了解決多標記數(shù)據(jù)中存在的類別不均衡問題,張順等人[11]基于ML-kNN和權(quán)重提出了WML-kNN算法(如算法1)。WML-kNN算法的主要思想是:先求得樣本的近鄰集,根據(jù)近鄰集的類別情況對樣本類別的先驗概率進行加權(quán)處理,以提高少數(shù)類的權(quán)重,減少分類的錯誤率。WML-kNN在一些公開數(shù)據(jù)集上取得了較好的效果。
算法1WML-kNN算法
輸入:訓練數(shù)據(jù)集Sk,近鄰集合大小k,測試數(shù)據(jù)t。
輸出:測試數(shù)據(jù)t的類別標記。
1.對于每一個類別標記,計算其先驗概率。
2.計算測試數(shù)據(jù)t和訓練數(shù)據(jù)集Sk的距離。
3.根據(jù)設(shè)定的k和距離確定測試數(shù)據(jù)t的近鄰集合Q(x)。
4.計算每一個類別標記的后驗概率。
5.對于每一個類別標記重復步驟6、7。
6.根據(jù)近鄰集合Q(x)和式(2)計算類別標記權(quán)重w。
7.對先驗概率用w加權(quán),然后用ML-kNN方法確定是否賦予標記l。
8.確保每個標記都得到賦值,結(jié)束。
但是WML-kNN和ML-kNN算法都還存在另一個問題,在構(gòu)建樣本的近鄰集時大小是一個預先設(shè)定的固定值。樣本的最近鄰個數(shù)是每次執(zhí)行前預先給定的,沒有考慮到各個樣本點的具體情況。在中醫(yī)臨床數(shù)據(jù)中,每一個樣本(實例)都是一個具體病例。由于個體的特殊性,很可能每個病例所具有的相似病例是不同的(即不同的近鄰群體),如果按照每個病例樣本構(gòu)建近鄰集時都采用相同的固定值,對于下面兩種情況可能會有一個比較差的效果:一是由于某些病人具有一定的特殊性,很可能和他相似的病例不多,采用固定的k值納入了不相似的病例樣本;二是和他相似的病例很多,但是按照固定的k值卻沒有完全將相似的樣本納入其中。
為了形象描述這兩種情況,將這兩種情況用圖1來表示。圖中正方形和圓形均表示樣本點。如圖1(a)所示,黑色的正方形點和白色正方形點距離較遠,相似度較差,具有較大的差異性。但如果此時k取8,黑色的正方形點將會被加入最近鄰集。如圖1(b)所示,圓形點和白色正方形點距離較近,相似度基本相同。但如果此時k取8,會有圓形點不被加入最近鄰集。
Fig.1 Neighbors are constructed with fixed neighbors圖1 采用固定近鄰大小構(gòu)建的近鄰
從上述情況來看,采用固定值來構(gòu)建病例樣本的近鄰樣本集不能充分反映中醫(yī)臨床數(shù)據(jù)樣本分布特點,勢必對分類結(jié)果有所影響,而且對于k值的選取并沒有成熟的指導理論。之前陳小波等人[12]嘗試將粒計算的思想融入ML-kNN方法來解決近鄰k的取值問題。本文結(jié)合中醫(yī)臨床疾病數(shù)據(jù)的實際情況,基于權(quán)重和粒計算在WML-kNN的基礎(chǔ)上提出改進算法WML-GkNN來處理中醫(yī)臨床的多標記問題和數(shù)據(jù)類別的不均衡問題。
根據(jù)粒計算的相關(guān)理論,多標記學習論域就是所有的樣本點。這里需要定義一個等價關(guān)系簇來構(gòu)造不同層次的粒度空間,然后通過這些粒度空間來求解多標記學習問題。設(shè)0=e0<e1<e2<…<em<…,且當m→+∞ 時em→+∞,則可知E={[ej-1,ej],j=1,2,…}構(gòu)成了[0,+∞]的一個劃分,一個劃分可以構(gòu)成一個等價關(guān)系。e(x,y)為論域X上的一種距離,x0為一給定的樣本點,定義:
則容易證明R是X上的等價關(guān)系,且可以通過j選取的不同來形成不同的等價關(guān)系,從而形成論域X上的不同層次粒度空間。具體到ML-kNN算法以及中醫(yī)臨床疾病數(shù)據(jù),在構(gòu)建樣本近鄰集時,為了選取到與測試樣本病例相似性高的近鄰病例,設(shè)置一個比率property(簡寫為pro),通過該值來控制樣本近鄰點k的個數(shù)。對于給定測試樣本x,設(shè)訓練集中與它的距離從小到大的點依次為x1,x2,…,xk,…,相應距離表示dis(x,xj)。
這里選擇最近鄰集中最后一個樣本點q滿足式(1)條件,則x1,x2,…,xk,…,xq相互等價。通過pro的取值大小可以控制粒度的粗細,即等價類的大小。這樣對于某一給定的樣本點,其最近鄰樣本點的個數(shù)以及具體的樣本點都可以由pro來確定,而pro既可以通過人工手動設(shè)置,也可以通過最優(yōu)化方法求得。
在WML-GkNN算法中,首先通過粒計算方式求出樣本病例最可能的近鄰集;其次根據(jù)近鄰集的類別標記信息對該樣本病例類別的先驗概率加權(quán),再求出最大后驗概率;最后得到測試樣例的類別標記。
在WML-GkNN算法中,設(shè)Q(x)和|Q(x)|分別表示測試樣本的最近鄰樣本集和最近鄰樣本集的大小。對于類標集合L中的每一個類計算正例和負例的概率P(po)和P(ne)。對每個類,相應的權(quán)重為:
在WML-GkNN算法中,先驗概率的計算和ML-kNN算法相同。計算訓練集中每個標記的先驗概率和
式(3)中,l∈L;s為平滑參數(shù)(smoothing parameter),需要預先給定,通常情況下s設(shè)置為1,對應Laplace平滑。在引入粒計算的基礎(chǔ)上,由于不同的樣本近鄰集大小不同,對于后驗概率的計算略有不同。為了避免混淆,有如下定義:由pro確定的測試樣本t的最近鄰集大小為st;Elj(st)表示測試樣本t的si個最近鄰中恰好有j個樣本都含有標記l這一事件;b(st)[j]表示訓練集樣本中自身含有標記l且它的st個近鄰同時含有標記l的樣本數(shù)目;b(st)′[j]表示訓練集樣本中自身不含有標記l但它的st個近鄰同時含有標記l的樣本數(shù)目。
相應的后驗概率為:
測試樣本t的類別標記向量Cl和標記隸屬度向量Ml為:
WML-GKNN算法如算法2所示。首先計算各個標記的先驗概率,然后計算測試樣本t與訓練集中樣本實例的距離,并按照距離由小到大排序,然后根據(jù)pro和式(1)決定最近鄰集合Q(x),為了便于同其他算法比較,Q(x)設(shè)定的k值為樣本最小近鄰集。根據(jù)Q(x)和式(2)計算各個類別的權(quán)重w,根據(jù)權(quán)重w對先驗概率加權(quán)后,用式(7)、(8)計算類別標記向量Cl和類別標記隸屬度向量Ml,進而得出測試樣本t的類別。
算法2WML-GkNN算法
輸入:訓練數(shù)據(jù)集Sk,近鄰集合大小k,測試數(shù)據(jù)t。
輸出:測試數(shù)據(jù)t的類別標記。
1.對于每一個類別標記,計算其先驗概率。
2.計算測試數(shù)據(jù)t和訓練數(shù)據(jù)集Sk的距離。
3.根據(jù)設(shè)定的k和距離以及pro確定測試數(shù)據(jù)t的近鄰集合Q(x),|Q(x)|≥k。
4.計算每一個類別標記的后驗概率。
5.對于每一個類別標記重復步驟6、7。
6.根據(jù)近鄰集合Q(x)和式(2)計算類別標記權(quán)重w。
7.對先驗概率用w加權(quán),然后用ML-kNN算法確定是否賦予標記l。
8.確保每個標記都得到賦值,結(jié)束。
實驗采用臨床采集的經(jīng)絡電阻值數(shù)據(jù),共3 053例樣本。本文選取其中的原穴經(jīng)絡電阻數(shù)據(jù),針對睡眠情緒類疾病進行分類研究。數(shù)據(jù)包含左右各12原穴、性別、身高、體重、年齡等28個特征。
在多標記分類研究方面,根據(jù)有效樣本數(shù)在已有的數(shù)據(jù)集中本文選擇心血管類、血脂病類、尿酸類3類疾病數(shù)據(jù)。心血管類疾病包含貧血、冠心病、竇性心動過緩、房顫、室性早搏、竇性心律不齊、高乳血癥1、慢性心力衰竭等8個小亞型疾??;血脂類疾病包含脂肪肝、血脂代謝紊亂、脂肪肝和血脂代謝紊亂、脂肪肝待排和血脂代謝紊亂、脂肪肝待排等6個小亞型疾??;尿酸類疾病包含高尿酸血癥。由于各個疾病在亞型數(shù)量上不一致,為了方便進行多標記研究,對疾病下的亞型進行了歸并處理,使每種疾病的分類情況為:不患有此類疾病和患有此類疾病兩種類型,在數(shù)據(jù)中分別用0和1表示。用于多標記學習分類研究的數(shù)據(jù)集中不同疾病分布情況如表1所示,數(shù)據(jù)的標記分布情況如表2所示。
Table 1 Multi-label data set for disease distribution表1 多標記數(shù)據(jù)集疾病分布情況
從表1中可以看出,不同疾病患?。栃裕┤藬?shù)和未患?。幮裕┤藬?shù)是不均衡的,陰性樣本個體遠超過陽性樣本個體,且各個疾病的陰性樣本數(shù)量和陽性樣本數(shù)量是不同的。同時對患病情況進行統(tǒng)計,結(jié)果為:3種病均未患1 310例,患一種疾病689例,患兩種疾病195例,患3種疾病20例。
Table 2 Multi-label data set表2 多標記數(shù)據(jù)集情況
表2中,features表示特征數(shù),labels表示標簽的個數(shù),cardinality表示每個樣本實例的平均標記數(shù),density是cardinality與標記總數(shù)的商值。
多標記學習框架中,每個樣本可能同時隸屬于多個類別標記。因此與單標記學習系統(tǒng)相比,多標記學習系統(tǒng)的評價準則要更加復雜。到目前為止,已提出了許多多標記學習系統(tǒng)的性能評價準則[13]。本文選取了5種常用的評價準則,即Hamming Loss、One-Error、Ranking Loss、Coverage、Avg Precision 來評價多標記學習系統(tǒng)的性能。假設(shè)T={(x1,y1),(x2,y2),…,(xp,yp)}為多標記測試集,并根據(jù)預測函數(shù)fl(x),定義一個排序函數(shù)rankf(x,l)∈{1,2,…,L} ,如果fl(x)>fk(x),則rankf(x,l)<rankf(x,k)。具體定義如下。
(1)Hamming Loss:該指標用于評估樣本的真實標記與系統(tǒng)預測所得標記之間的誤差率。
式(9)中,Δ代表集合h(xi)和Yi之間的對稱差分,即進行布爾運算中的邏輯異或操作。在算法評價過程中,該指標值越小,表示分類性能越好,當hloss(h)值為0時,其性能最優(yōu)。
(2)One-Error:該評價指標用于考察在樣本的類別標記排序序列中,排名最高的標記不是樣本真實標記的可能性,在單標記學習中,演化成一般的分類錯誤率。one-error(f)越小,性能越好,當one-error(f)值為0時,性能最優(yōu)。
式(10)中,f(,)為與多標記分類器對應的實值函數(shù)。
(3)Ranking Loss:計算實例的相關(guān)類標排序錯誤的類標對的數(shù)目。rloss(f)越小,性能越好,當rloss(f)為0時,性能最優(yōu)。
(4)Coverage:評估要在排好序的類標集Y中查找多少步才能把實例xi的類標都找到。coverage(f)越小,性能越好。
(5)Avg Precision:該評價指標考察了在樣本的類別標記排序隊列中,隸屬度值大的標記仍為其相關(guān)標記的情況,即反映了預測類標的平均精確度。avgprec(f)越大,性能越好,當avgprec(f)為1時,性能最優(yōu)。
實驗的主要目的是:測試在中醫(yī)臨床數(shù)據(jù)上運用WML-GkNN算法是否能夠提升少數(shù)類的分類精度以及優(yōu)化近鄰的選擇。相較于已有算法,主要觀察WML-GkNN算法是否能夠提升Hamming Loss、Avg Precision這兩個主要指標。
本文將改進的算法WML-GkNN與ML-kNN、WML-kNN運用于已收集的中醫(yī)臨床數(shù)據(jù)中,除以上3種算法外,同時使用RAkEL、BP-MLL、BR這3種運用較多的多標記分類算法進行分類與比較。在實驗中WML-GkNN算法的pro采用人工設(shè)置的方法實現(xiàn),因為WML-GkNN算法近鄰的個數(shù)是根據(jù)pro以及樣本本身情況來確定,而在實驗中所設(shè)置的k為最小近鄰集大小,所以WML-GkNN算法的實驗結(jié)果并不一定是最優(yōu)的結(jié)果。
分類器參數(shù)設(shè)置如下:
(1)RAkEL的基分類器為J48,使用默認的參數(shù)設(shè)置。RAkEL其余參數(shù)設(shè)置為:k值設(shè)為3,Size Of Subset=2,n=2L,L為標記的數(shù)量。
(2)ML-kNN中的k設(shè)為10,平滑參數(shù)設(shè)為1。
(3)BP-MLL 中l(wèi)earningRate=0.05,epochs=100,hiddenUnits=0.2。
(4)BR的基分類器為J48,其余使用默認的參數(shù)。
(5)WML-kNN中的k設(shè)為10,平滑參數(shù)設(shè)為1。
(6)WML-GkNN中最小的k設(shè)為10,平滑參數(shù)設(shè)為1,pro設(shè)為1.05。
所有實驗使用十折交叉驗證去評估多標記分類相關(guān)性能評價,為了排除隨機性,每次實驗重復10次。RAkEL、ML-kNN、BP-MLL、BR、WML-kNN、WML-GkNN都是基于MULAN[14]實現(xiàn)的。在表3中,最優(yōu)指標用粗體標注。
從表3中可以發(fā)現(xiàn),與ML-kNN算法相比,WML-kNN算法在Hamming Loss、Avg Precision、Coverage、One-Error上有一定程度的提高;與WML-kNN算法相比,WML-GkNN算法在Hamming Loss、Avg Precision、One-Error上又有一定程度的提升。在RAkEL、BP-MLL、BR、ML-kNN算法中,ML-kNN算法在Hamming Loss、Avg Precision、Coverage上優(yōu)于其他3種方法,總體性能較好。在Ranking Loss方面,BPMLL算法性能最優(yōu)。從表中可以發(fā)現(xiàn),WML-GkNN算法在總體性能上最優(yōu)。
Table 3 Multi-label classification experiment results(Mean±dev)表3 多標記分類實驗結(jié)果(平均值±標準差)
前面分析過近鄰集k的取值大小可能會對相關(guān)的方法實驗產(chǎn)生影響,那么近鄰集k的取值大小會對ML-kNN、WML-kNN算法產(chǎn)生怎樣的影響呢,本文繼續(xù)用實驗來探討。由于所用樣本數(shù)量為2 214例,如果k取值的范圍較小,不能夠從整體上反映出相關(guān)指標的變化趨勢,在此k取值為{1,2,3,5,10,15,20,25,30,35,40,50,60,70},以探討隨著k取值的增大相應指標的變化趨勢。
從圖2中可以發(fā)現(xiàn),隨著k值的增大,Avg Precision呈現(xiàn)一個先增加后減小而后在局部范圍內(nèi)出現(xiàn)先增后減的振蕩變化,由于Avg Precision是越大越好,故隨著k值的增大Avg Precision總體結(jié)果出現(xiàn)一個下滑的趨勢。隨著k值的增大,Hamming Loss、Coverage、One-Error、Ranking Loss呈現(xiàn)在小范圍內(nèi)振蕩變化但總體上增加的趨勢,具體來講這4個指標呈現(xiàn)出先減小后增加而后在局部范圍內(nèi)出現(xiàn)先減小后增加的振蕩變化;當k大于50時,上升的趨勢就比較明顯。由于這4個指標是越小越好,故隨著k值的增大,Hamming Loss、Coverage、One-Error、Ranking Loss結(jié)果出現(xiàn)下滑。
從圖2中還可以看出,隨著k值的增大,相應的評價指標在總體上出現(xiàn)了一個下滑的趨勢。正如前面所提到的,樣本近鄰點個數(shù)太大會導致一些與樣本相似度不高的點被加入到樣本近鄰點集中,自然會影響實驗結(jié)果。在中醫(yī)臨床診斷中,不同病例的相似近鄰病例可能是不同的,如果k值取得太大,導致一些與病例樣本相似度不高的樣本被加入到樣本近鄰樣本集,很可能會對臨床數(shù)據(jù)的疾病分類結(jié)果造成影響。
從圖3中同時可以發(fā)現(xiàn),pro偏大或者偏小會導致實驗評價指標有所下降。還可以發(fā)現(xiàn)當pro=1.25時,實驗效果最好。究其原因,pro設(shè)定是為了在構(gòu)建病例樣本近鄰樣本集時獲取與樣本相似度較高的病例樣本,當pro取值較大時,會導致一些與病例樣本相似度不高的病例樣本被放入樣本的近鄰集中;而當pro取值偏小時,會導致一些與樣本相似度較高的點未被放入樣本的近鄰集中,這些都會導致算法在數(shù)據(jù)集上進行實驗的各項指標下降。
Fig.2 Change trend of results圖2 結(jié)果變化趨勢圖
Fig.3 Change trend of results of WML-GkNN圖3 WML-GkNN結(jié)果變化趨勢圖
為了進一步比較算法性能,表4給出了在固定最小k值為30的情況下,pro從1.05到1.40各個取值下與ML-kNN、WML-kNN算法固定k值為30的情況下各個評價性能指標。由于標準差較小,表4列出了主要值,未列出標準差,同時相關(guān)性能的最優(yōu)指標加粗標識。
從表4中可以發(fā)現(xiàn),當固定最小k值為30,pro從1.05到1.40情況下,WML-GkNN算法整體優(yōu)于ML-kNN、WML-kNN算法。除pro最初取值較小時Coverage、Ranking Loss略遜于ML-kNN、WML-kNN算法外,其余的pro取值下相關(guān)評價指標均優(yōu)于ML-kNN、WML-kNN算法。在WML-GkNN算法中,不同的性能評價指標在不同的pro取值下達到最優(yōu)。pro=1.25時,Hamming Loss、Avg Precision、One-Error取得最優(yōu);pro=1.35時,Coverage取得最優(yōu);pro=1.30時,Ranking Loss取得最優(yōu)。從以上對比可以發(fā)現(xiàn),WML-GkNN算法整體性能優(yōu)于ML-kNN、WML-kNN算法。
在WML-GkNN算法中,通過粒計算盡可能地獲得病例的相似樣本,通過這些相似樣本更能反映樣本的實際情況,在此基礎(chǔ)上結(jié)合權(quán)重和ML-kNN,故WML-GkNN算法的分類性能優(yōu)于WML-kNN算法和ML-kNN算法。同時可以發(fā)現(xiàn),與改進前的WML-kNN算法相比,WML-GkNN算法在Hamming Loss上平均提升11.2%,Avg Precision上平均提升5.3%,Coverage上平均提升2.1%,One-Error上平均提升5.1%,Ranking Loss上平均提升7.6%。就主要評價指標Hamming Loss、Avg Precision而言,WML-GkNN算法性能有較好的提升。
Table 4 Performance comparison of WML-GkNN and ML-kNN,WML-kNN表4 WML-GkNN與ML-kNN、WML-kNN性能比較
為了進一步驗證WML-GkNN算法的性能優(yōu)勢,在十折交叉驗證的實驗過程中,對WML-GkNN和其他比較算法的實驗結(jié)果進行了配對t校驗(pairedt test)[15],檢驗P值如表5所示。
Table 5 P value of t-test of WML-GkNN and other classification algorithms表5 WML-GkNN與其他分類算法配對t檢驗P值
從表5中可以發(fā)現(xiàn),P值均小于0.05,此分析結(jié)果有統(tǒng)計學意義,說明WML-GkNN算法的優(yōu)勢在統(tǒng)計上是可信的,也進一步驗證了WML-GkNN算法的性能優(yōu)勢。從已有的幾個算法來看,RAkEL算法的P值相對較小,WML-kNN算法的P值相對較大。這說明WML-GkNN算法相對RAkEL而言,具有更好的性能;而針對WML-kNN算法的P值相對較大,這與WML-GkNN算法是在WML-kNN算法基礎(chǔ)上進行的改進密切相關(guān)。
本文根據(jù)中醫(yī)臨床數(shù)據(jù)的實際情況,結(jié)合權(quán)重以及粒計算,提出了WML-kNN的改進算法WMLGkNN,針對中醫(yī)臨床疾病數(shù)據(jù)多標記學習和多標記疾病分類進行了研究。實驗表明,與改進前的WML-kNN算法相比,WML-GkNN算法較好地提高了多標記分類性能。但是結(jié)合中醫(yī)臨床數(shù)據(jù)構(gòu)建樣本的粒度空間,以及進一步細化使用權(quán)重策略處理多標記數(shù)據(jù)類別間不均衡問題還需進一步研究。