楊 瑩,王慶文
(北京航空航天大學,北京 100191)
面向制造領(lǐng)域文本的多標簽分類方法
楊 瑩,王慶文
(北京航空航天大學,北京 100191)
機械制造領(lǐng)域存在大量的領(lǐng)域知識,這些領(lǐng)域知識將特征項與文本類別關(guān)聯(lián)起來,有助于區(qū)分文本的類別?;诖耍疚奶岢鲆环N融合領(lǐng)域知識的多標簽分類方法旨在提高機械制造領(lǐng)域文本的分類性能,該方法首先采用融合領(lǐng)域知識的x2統(tǒng)計特征選擇方法得到文本表示特征項集合和對應的相關(guān)度矩陣R,R反映了各特征項與類別的相關(guān)度;然后將文本是否包含某類別標簽這一事件和文本與該類別的相關(guān)度關(guān)聯(lián)起來,文本與該類別相關(guān)度視作特征項與該類別相關(guān)度的集聚,其相關(guān)度越大,文本包含該類別標簽的概率也越大,統(tǒng)計文本各類別相關(guān)度的貢獻率,根據(jù)最大后驗概率準則推理文本類別標簽集合。在3個多標簽分類常用評測指標下的實驗結(jié)果表明:與MLKNN方法進行對比,對于機械制造領(lǐng)域文本,融合領(lǐng)域知識的多標簽分類方法具有更好的分類性能。
機械制造領(lǐng)域;領(lǐng)域知識;相關(guān)度;多標簽;文本分類
隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)量劇增,有研究表明,文本信息這一類非結(jié)構(gòu)化數(shù)據(jù)占了互聯(lián)網(wǎng)數(shù)據(jù)的50%以上,因此,對文本信息的處理顯得尤為重要。文本分類是對文本進行有效管理的一種方式,方便用戶進行查詢、定位信息等,同時文本分類也是信息檢索,信息過濾,數(shù)據(jù)挖掘等相關(guān)領(lǐng)域的技術(shù)基礎(chǔ)[1]。機械制造領(lǐng)域研究的內(nèi)容非常廣泛,包括材料分析,制造加工,車間管理調(diào)度,機構(gòu)設(shè)計應用,檢測監(jiān)控等,各研究內(nèi)容不完全獨立,存在著交叉研究,因此對機械制造領(lǐng)域的文本進行分類時,文本可能包含多個類別標簽。基于此,本文將對面向機械制造領(lǐng)域文本的多標簽分類問題展開研究。
目前多標簽文本分類問題的解決方法主要有兩種:問題轉(zhuǎn)換法和算法適應法[2]。問題轉(zhuǎn)化法的思想是首先根據(jù)一定的規(guī)則將多標簽問題轉(zhuǎn)化為一個或多個單標簽問題,然后利用單標簽學習算法進行處理。算法適應法則是通過擴展單標簽學習算法來適用于多標簽學習問題,無需將多標簽文本轉(zhuǎn)化為單標簽問題。張敏靈提出了一種基于K近鄰的多標簽文本分類方法:MLKNN,該方法是一種典型的算法適應法,使用K近鄰方法統(tǒng)計近鄰樣本的類別標簽信息,通過最大化后驗概率的方法推理待分類文本的標簽集合[3]。與其他多標簽分類方法相比,MLKNN方法具有無需學習,實現(xiàn)簡單,分類性能好的特點,為此,許多學者在其基礎(chǔ)上展開了進一步研究。張敏靈后來針對MLKNN未考慮標簽間的相關(guān)性的不足提出一種新型多標記懶惰學習算法IMLLA,這種方法在對文本每個類別進行預測時利用了蘊含于其他類別中的信息,充分考察了多個標簽的相關(guān)性[4]。Ruben Nicolas提出了一種基于案例推理學習的多標簽分類方法MLCBR,MLCBR基于案例推理學習近鄰樣本標簽重用概率的閾值,使用近鄰樣本標簽的分布概率推理文本的類別標簽集合,與MLKNN相比,其算法復雜度低且分類性能相當[5]。Everton AlvaresCherman采用MLKNN方法進行多標簽分類時,不僅考慮樣本的K近鄰標簽集合還考慮近鄰樣本的K近鄰標簽集合用于推理樣本的標簽,與原始的MLKNN方法相比,其方法的準確率有進一步的提高[6]。
目前采用的多標簽分類方法基本都是基于機器學習的思想。根據(jù)經(jīng)驗,有些專業(yè)詞匯具有明顯的類別傾向性,是判斷文本類別的重要依據(jù),如:當文本中大量出現(xiàn)“云制造”、“制造服務(wù)”這些詞語時,我們很容易將文本聯(lián)想到制造工程這一類別。我們稱“云制造”和“制造服務(wù)”包含的行業(yè)內(nèi)流通度高、眾所周知、與具體類別相關(guān)的語義知識為領(lǐng)域知識[7],顯然領(lǐng)域知識有助于文本分類。在實際應用中,往往由于樣本集的有限性,機器學習不能將特征項的領(lǐng)域知識都學習出來用于分類,在機械制造領(lǐng)域,存在著大量的領(lǐng)域知識。基于此,本文提出一種融合領(lǐng)域知識的多標簽分類方法旨在進一步提高機械制造領(lǐng)域文本的分類性能。
1.1特征選擇
特征選擇一般采用機器學習的方法,其步驟是構(gòu)造特征項的評估函數(shù),依據(jù)評估函數(shù)計算每個特征項的權(quán)重,權(quán)重越大表示特征項區(qū)分文本類別的能力越強,特征項被選擇的可能性也越大,按照權(quán)重降序排列,確定閾值,選取排名滿足條件的特征項表示文本,常用的特征選擇方法有:文檔頻率,信息熵,互信息和X2統(tǒng)計等。本文采取的特征選擇方法將領(lǐng)域知識和機器學習結(jié)合起來。
有研究結(jié)果指出X2統(tǒng)計方法的降維效果比較好[8],本文首先選擇X2統(tǒng)計作為特征選擇的方法,其計算方法如下所示:
其中,N表示文本總數(shù),A表示包含類別標簽ck和特征項wi的文本數(shù)量,B表示不包含類別標簽ck但包含特征項wi的文本數(shù)量,C表示包含類別標簽ck但不包含特征項wi的文本數(shù)量,D表示不包含類別標簽ck和特征項wi的文本數(shù)量。考慮到B=C=0時,式(1)取得最大值N,將式(1)進行歸一化處理,χ2統(tǒng)計值的計算公式變換為如下所示:
特征項wi與類別ck的相關(guān)程度包含正相關(guān)和負相關(guān)兩種情況,由原始公式(1)的數(shù)學意義可知,當ADBC>0時,特征項wi與類別ck呈正相關(guān),此時wi的出現(xiàn)使得文本傾向于包含類別ck,x2(wi,ck)值越大,這種傾向性越明顯;當時AD-BC≤0,特征項wi與類別ck呈負相關(guān),此時wi的出現(xiàn)使得文本傾向于包含類別ck以外的標簽,包含類別ck的傾向性則為最小值0。因此,將特征項wi與類別ck的正負相關(guān)性考慮進去,將式(2)變換為如下所示:
式(3)中,x2(wi,ck)取值范圍為[0,1],對于多類問題,通常首先計算特征項wi對于每個類別的x2統(tǒng)計值,將其表示為x2統(tǒng)計列向量x2(wi)=(x2(wi,c1),…,x2(wi,ck),…,x2(wi,cm)),m為數(shù)據(jù)集的類別標簽總數(shù),然后取列向量x2(wi)中值最大的元素作為特征項wi的x2統(tǒng)計值x2(wi)value,即:
確定排名閾值α,將所有特征項的x2統(tǒng)計值x2(wi)value按降序排列,選擇排名為α和α之前的特征項用于表示文本,則文本表示特征項集合為W'=(w1',w2',…,wi',…,wα')。
對于機械制造領(lǐng)域文本,由于數(shù)據(jù)集樣本數(shù)量有限,有些詞匯只是集中出現(xiàn)在某一類別的少量文本中,根據(jù)式(3)可知,這些詞匯的x2統(tǒng)計值較小,與文本類別的相關(guān)度較小。然而根據(jù)經(jīng)驗,這類詞匯很可能包含領(lǐng)域知識,與某類別相關(guān)度較大,有助于文本分類。除此之外,還有一些專業(yè)詞匯未出現(xiàn)在數(shù)據(jù)集中,一般這些詞匯不會作為文本表示特征項,然而當待分類文本包含這些特征項并且這些特征項包含領(lǐng)域知識時,這些詞匯能夠有效地的區(qū)分文本類別?;诖?,本文提出一種融合領(lǐng)域知識的特征選擇方法,在x2統(tǒng)計方法的基礎(chǔ)上融合領(lǐng)域知識選擇出有助于文本分類的特征項,領(lǐng)域知識的融合主要體現(xiàn)在以下兩個方面:
1)修改出現(xiàn)在數(shù)據(jù)集中的特征項的x2統(tǒng)計值列向量x2(wi)。對于那些出現(xiàn)在數(shù)據(jù)集中,并且包含領(lǐng)域知識的特征項,根據(jù)經(jīng)驗修改該特征項的x2統(tǒng)計值列向量x2(wi),向量中每個元素的取值范圍為[0,1],值越大表示特征項與某類別的相關(guān)程度越大;
2)增加未出現(xiàn)在數(shù)據(jù)集中,但是包含領(lǐng)域知識的特征項。根據(jù)經(jīng)驗構(gòu)造這些特征項的x2統(tǒng)計值列向量x2(wi),向量中每個元素的取值范圍為[0,1],值越大表示特征項與某類別的相關(guān)程度越大;
最后,根據(jù)閾值α得到表示文本的特征項集合W=(w1,w2,…,wi,…,wα),集合W中的每一個特征項對應一個x2統(tǒng)計列向量x2(wi),這些列向量形成了一個相關(guān)度矩陣R=(x2(w1),x2(w2),…,x2(wi),…,x2(wα)),R反映了各特征項與類別的相關(guān)度。與x2統(tǒng)計方法相比,融合領(lǐng)域知識的特征選擇方法增加和修正了特征項的x2統(tǒng)計向量,從而更加準確的反映了特征項與各類別的相關(guān)度,有助于區(qū)分文本的類別。
1.2多標簽分類方法
領(lǐng)域知識一般將特征項與文本的類別關(guān)聯(lián)起來,因此本文提出融合領(lǐng)域知識的多標簽分類方法基本思想是將文本是否包含類別標簽ck這一事件和文本與類別ck的相關(guān)度關(guān)聯(lián)起來,根據(jù)最大化后驗概率推理文本是否包含類別標簽ck。
首先引入相關(guān)符號和定義:給定文本X及對應的類別向量C(X)。文本X表示為向量X=(x1,x2,…,xi,…,xα),xi對應特征項集合W中的一個特征項wi,表示wi在文本X中出現(xiàn)的頻率;C={c1,c2,…,ci,…,cm}表示數(shù)據(jù)集的類別標簽集合;C(X)=(C(X,c1),C(X,c2),…,C(X,ci),…C(X,cm))表示文本X的類別向量,類別標簽ci對應C(X,ci),如果文本包含標簽ci則C(X,ci)=1,否則C(X,ci)=0;ξ(X,ck)表示文本X與類別ck的相關(guān)度。
1.2.1相關(guān)度計算
本文將文本X與類別ck的相關(guān)度看作是各特征項與類別ck的相關(guān)度的集聚,那么ξ(X,ck)的計算方法可由式(5)表示:
其中xi表示特征項wi在文本X中出現(xiàn)的頻率,x2(wi,ck)表示特征項wi與類別ck的相關(guān)度。由上文可知,x2(wi,ck)是相關(guān)度矩陣R中的一個元素,根據(jù)式(3)計算或經(jīng)驗知識確定。
對于不同的文本,由于其篇幅的不同,文本中各特征項的頻率具有較大的差異,由式(5)可知,包含類別標簽ck的不同文本與類別ck的相關(guān)度差異較大。本文引入類別相關(guān)度貢獻率δ(X,ck)這一定義,將文本與類別ck的相關(guān)度歸一化處理,用來衡量不同的文本與各類別相關(guān)度的大小,其計算方法如下:
其中ξ(X,ck)表示文本X與類別ck的相關(guān)度,表示文本X與各類別標簽的相關(guān)度之和。δ(X,ck)的取值范圍是[0,1],δ(X,ck)越大,文本包含類別標簽ck的概率越大,否則文本包含類別標簽ck的概率越小。
1.2.2多標簽分類
根據(jù)貝葉斯法則可得:
其中N表示訓練集文本數(shù)量總和,N(ck)表示包含標簽ck的文本數(shù)量,N'(ck)表示不包含標簽ck的文本數(shù)量,N(ck,s)表示包含類別標簽ck且類別ck相關(guān)度貢獻率小于s的文本數(shù)量,N'(ck,s)表示不包含類別標簽ck且與類別ck相關(guān)度貢獻率大于或等于s的文本數(shù)量。
根據(jù)上述分析,融合領(lǐng)域知識的多標簽文本分類方法的具體實現(xiàn)步驟可由圖1表示。
為了驗證分類方法的有效性,實驗中建立制造領(lǐng)域數(shù)據(jù)集作為實驗庫,該數(shù)據(jù)集包含六個類別:材料工程,動力學,機構(gòu),機器人,儀器科學與技術(shù)和制造科學與技術(shù)。語料庫中總共有970個樣本,其中約10%的樣本包含多個類別標簽。
本文將MLKNN作為對比算法,采用多標簽文本分類中常用的3個評測指標[9](漢明損失,準確率,召回率)比較兩種分類方法在制造領(lǐng)域文本數(shù)據(jù)集上的性能。漢明損失考察的是文本預測分類結(jié)果與實際分類結(jié)果的差異,評估了預測標簽錯誤的次數(shù);準確率考察的是文本預測標簽屬于文本實際標簽的情況,評估了預測標簽的平均準確度;召回率考察的是文本預測分類結(jié)果與實際分類結(jié)果相符的情況,評估了預測標簽的平均查全率。
圖1 融合領(lǐng)域知識的多標簽文本分類算法
【】【】
表1 本文方法與MLKNN性能比較
由表1可以看出,對于評測指標漢明損失、準確率和召回率,與MLKNN相比,本文方法具有較明顯的優(yōu)勢。因此,本文提出的融合領(lǐng)域知識的多標簽文本分類方法對于制造領(lǐng)域文本具有較好的分類性能。
機械制造領(lǐng)域存在大量的領(lǐng)域知識,這些領(lǐng)域知識將特征項與文本類別關(guān)聯(lián)起來,有助于區(qū)分文本的類別,基于此,本文提出了一種融合領(lǐng)域知識的多標簽文本分類方法。該方法將文本是否包含某類別標簽這一事件和文本與該類別的相關(guān)度關(guān)聯(lián)起來,在進行特征選擇時,充分利用已有的領(lǐng)域知識增加和修正衡量特征項與類別相關(guān)程度的x2統(tǒng)計向量,從而選擇出更為準確,具有代表性的特征項表示文本。實驗結(jié)果表明,與MLKNN多標簽文本分類方法比較,對于機械制造領(lǐng)域文本,本文方法的總體分類性能更優(yōu)。
[1] 周浩.中文多標簽文本分類算法研究[D].上海交通大學,2014.
[2] Tsoumakas G,Katakis I,VlahavasI.Mining Multi-label Data. Data Mining and Knowledge Discovery Handbook[M]. Maimon O, RokachL.2nd ed.Springer,2010:667-685.
[3] Zhang Minling, Zhou Zhihua. ML-kNN:A lazy learning approach to multi-label learning[J].Pattern Recognition,2007(7):2038-2048.
[4] 張敏靈.一種新型多標記懶惰學習算法[J].計算機研究與發(fā)展,2012,11:2271-2282.
[5] Ruben Nicolas,Andreu Sancho-Asensio, ElisabetGolobardes, Albert Fornells, Albert Orriols-Puig, Multi-label classification based on analog reasoning[J].Expert Systems with Applications, 2013(40):5924-5931.
[6] Everton AlvaresCherman.Lazy Multi-label Learning Algorithms Based on Mutuality Strategies[J].Intell Robot Syst,2014(10):1007-1022.
[7] 朱靖波,陳文亮.基于領(lǐng)域知識的文本分類[J].東北大學學報,2005,08:733-735.
[8] 龐觀松,蔣盛益.文本自動分類技術(shù)研究綜述[J].情報理論與實踐,2012,02:123-128.
[9] Tsoumakas G.Multi-label classification[J].International Journal of Data Warehousing&Mining ,2007(3):1-13.
A multi-label classification method for manufacturing-text
YANG Ying, WANG Qing-wen
TP391.1
A
1009-0134(2016)02-0010-05
2015-10-14
國家科技重大專項:漢川機床采用國產(chǎn)數(shù)控系統(tǒng)加工大型機床零件應用示范工程(2012ZX04011-011)
楊瑩(1992 -),女,江西樟樹人,碩士研究生,研究方向為企業(yè)信息化。