呂洪艷,劉芳
?
基于組合核函數(shù)SVM的文本主題識(shí)別
呂洪艷,劉芳
摘 要:文本內(nèi)容主題識(shí)別的實(shí)際應(yīng)用中,大量文本之間彼此摻雜,使其無(wú)法線性表述,應(yīng)用SVM可以有效地解決這種非線性不可分問(wèn)題,而核函數(shù)的選擇是SVM的關(guān)鍵。鑒于單核無(wú)法兼顧識(shí)別準(zhǔn)確率與召回率,針對(duì)文本主題識(shí)別的特定應(yīng)用,將多項(xiàng)式核函數(shù)和徑向基核函數(shù)進(jìn)行線性加權(quán)組合,構(gòu)建兼具全局核函數(shù)的泛化能力及局部核函數(shù)的學(xué)習(xí)能力的組合核函數(shù),并通過(guò)網(wǎng)格搜索法確定最優(yōu)參數(shù)。在仿真實(shí)驗(yàn)中評(píng)估了線性核、多項(xiàng)式核、徑向基核以及組合核函數(shù),實(shí)驗(yàn)結(jié)果表明,組合核函數(shù)SVM的識(shí)別性能明顯優(yōu)于其它3單核函數(shù),識(shí)別準(zhǔn)確率與召回率都比較理想。
關(guān)鍵詞:SVM;組合核函數(shù);文本識(shí)別;召回率;文本主題
章編號(hào):1007-757X(2016)05-0073-04
基金來(lái)源:黑龍江省教育科學(xué)規(guī)劃重點(diǎn)課題(GJB1215019);教育部人文社會(huì)科學(xué)研究項(xiàng)目(15YJA630074)。
隨著信息技術(shù)的迅猛發(fā)展, 網(wǎng)絡(luò)文本信息也不斷膨脹,文本內(nèi)容識(shí)別作為確定文章類別的分析方法,是組織、管理文本信息的有效手段,可以有效地解決信息雜亂無(wú)章的問(wèn)題,使用戶從大量雜亂的信息中定位到所需的信息。文本分類廣泛地應(yīng)用于信息檢索、信息過(guò)濾、電子郵件、搜索引擎、數(shù)字圖書(shū)館等各方面,在多種領(lǐng)域都起著至關(guān)重要的作用。隨著人們對(duì)信息分類需求的日益增長(zhǎng),如何提高分類性能是目前亟待解決的問(wèn)題。
目前基于文本內(nèi)容過(guò)濾的模型主要有貝葉斯決策模型、向量空間模型(VSM)、神經(jīng)網(wǎng)絡(luò)模型、和支持向量機(jī)模型(SVM)等。貝葉斯決策模型能夠解決多語(yǔ)種兼容性問(wèn)題,而且算法邏輯簡(jiǎn)單、比較穩(wěn)定,適用于垃圾郵件過(guò)濾領(lǐng)域,但模型中特征項(xiàng)是在獨(dú)立性假設(shè)的基礎(chǔ)上建立的,所以準(zhǔn)確率較低[1]。VSM模型把文本信息過(guò)濾過(guò)程簡(jiǎn)化為空間向量的運(yùn)算,可操作性好,但是無(wú)法區(qū)分特征項(xiàng)出現(xiàn)在不同位置對(duì)表達(dá)文檔主題性質(zhì)能力的差異,無(wú)法充分反映文本全貌,且特征項(xiàng)權(quán)重難以確定[2]。神經(jīng)網(wǎng)絡(luò)模型具有很強(qiáng)的自適應(yīng)能力,能夠?qū)崿F(xiàn)自我更新和完善,但算法復(fù)雜、不支持部分匹配,而且執(zhí)行速度慢[3]。SVM主要優(yōu)勢(shì)體現(xiàn)在解決高緯度、小樣本以及線性不可分問(wèn)題上。目前已有學(xué)者將SVM應(yīng)用到文本分類領(lǐng)域,并取得了一定的進(jìn)展,但識(shí)別準(zhǔn)確率與文本判定的召回率往往無(wú)法兼顧。本文針對(duì)這個(gè)問(wèn)題,將多項(xiàng)式核函數(shù)與徑向基核函數(shù)進(jìn)行組合,以期提高文本主題識(shí)別性能。
SVM是由Vapnik 等人在1996 年提出的基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的一種機(jī)器學(xué)習(xí)方法?;舅枷胧菍ふ乙粋€(gè)最優(yōu)分離超平面,把兩類樣本正確分開(kāi),使錯(cuò)誤概率最小,分類間隔最大[4]。
在文本識(shí)別的實(shí)際應(yīng)用中,大量文本之間總有交界甚至彼此摻雜,使其無(wú)法線性表述,核函數(shù)的引入可以使高維空間的內(nèi)積運(yùn)算轉(zhuǎn)化為原空間一個(gè)內(nèi)積核函數(shù)的計(jì)算[6],在不增加算法復(fù)雜度的同時(shí)實(shí)現(xiàn)了非線性算法,這就是SVM。
2.1 常用核函數(shù)
在SVM中,常見(jiàn)的核函數(shù)有以下4種。
①線性內(nèi)積核函數(shù)如公式(6):
②多項(xiàng)式核SVM如公式(7):
③徑向基核SVM如公式(8):
④兩層神經(jīng)網(wǎng)絡(luò)SVM(Sigmoid核)如公式(9):
2.2 局部核函數(shù)和全局核函數(shù)
不同類型的核函數(shù)表現(xiàn)出不同的特性,根據(jù)核函數(shù)的特性不同,常分為局部性核函數(shù)和全局性核函數(shù)。其中多項(xiàng)式核函數(shù)具有良好的全局性質(zhì),而徑向基核函數(shù)是局部性很強(qiáng)的核函數(shù)[6]。
圖1 徑向基核函數(shù)特征曲線圖
由圖1可知,在測(cè)試點(diǎn)附近,核函數(shù)值較大,當(dāng)距離較遠(yuǎn)時(shí),核函數(shù)值顯著下降,而且當(dāng)2越小時(shí),核函數(shù)值下降的速度越快,局部性越強(qiáng),泛化能力越弱。
根據(jù)多項(xiàng)式核函數(shù)的表達(dá)式,當(dāng)q分別取1,2,3,4,測(cè)試點(diǎn)取0.2時(shí),可得到多項(xiàng)式核函數(shù)特征曲線圖,如圖2所示:
圖2 多項(xiàng)式核函數(shù)特征曲線圖
由圖2可知在輸入數(shù)據(jù)與測(cè)試數(shù)據(jù)距離不斷加大的情況下,多項(xiàng)式核函數(shù)值變化不大,而且對(duì)于離測(cè)試點(diǎn)較遠(yuǎn)的數(shù)據(jù)仍然有較強(qiáng)的影響,具有很強(qiáng)的泛化能力。
綜合以上分析可得,全局性核函數(shù)作用范圍比較廣,甚至對(duì)整個(gè)數(shù)據(jù)點(diǎn)都有影響,泛化能力較強(qiáng),但局部學(xué)習(xí)能力較弱。而局部性核函數(shù)作用范圍較小,僅對(duì)測(cè)試點(diǎn)周圍的數(shù)據(jù)有作用,學(xué)習(xí)能力較強(qiáng),泛化性能較弱。
2.3 組合核函數(shù)構(gòu)建
核函數(shù)的選擇對(duì)SVM的識(shí)別性能有重要的影響,因?yàn)椴煌暮撕瘮?shù)具有不同的特性,使其在解決具體問(wèn)題時(shí)表現(xiàn)差別很大。目前,關(guān)于單核的構(gòu)造、改進(jìn)及其參數(shù)優(yōu)化的研究較多,但采用單核SVM的識(shí)別效果并不理想。由上可知,全局核函數(shù)泛化能力較強(qiáng),而局部核函數(shù)學(xué)習(xí)能力較強(qiáng)。因此,可以將這兩種核函數(shù)進(jìn)行組合,充分發(fā)揮它們各自的優(yōu)點(diǎn),使組合核函數(shù)兼具良好泛化能力與良好學(xué)習(xí)能力,以提高識(shí)別性能。
2.3.1 組合核函數(shù)形式
根據(jù)核函數(shù)的構(gòu)成條件,兩個(gè)核函數(shù)之和仍然滿足Mercer條件,因此這里對(duì)多項(xiàng)式核函數(shù)和徑向基核函數(shù)進(jìn)行線性組合,即公式(10):
2.3.2 組合核函數(shù)SVM參數(shù)優(yōu)化方法
構(gòu)造的組合核函數(shù)中共有懲罰因σ子C、多項(xiàng)式核α函數(shù)的冪指數(shù)q、徑向基核函數(shù)的寬度系數(shù)、及比例系數(shù)四個(gè)參數(shù)。關(guān)于SVM最優(yōu)參數(shù)選取, 常用的方法網(wǎng)格搜索法,此方法可以同時(shí)搜索多個(gè)參數(shù)值,但當(dāng)參數(shù)較多時(shí),訓(xùn)練時(shí)間較長(zhǎng)。主要思路是首先選取合適的搜索范圍,然后確定搜索的步長(zhǎng),以固定的步長(zhǎng)沿著各個(gè)參數(shù)方向生成網(wǎng)格,網(wǎng)格中的節(jié)點(diǎn)就是初始給定范圍內(nèi)的所有可能的參數(shù)組合。多重網(wǎng)格搜索法從上一次網(wǎng)格尋優(yōu)確定的最優(yōu)點(diǎn)開(kāi)始,再次進(jìn)行網(wǎng)格尋優(yōu),減小搜索步長(zhǎng),以此類推。綜合考慮參數(shù)優(yōu)選的準(zhǔn)確度與訓(xùn)練時(shí)間,這里采用二次網(wǎng)格搜索法確定組合核函數(shù)參數(shù)。
3.1 基于SVM的文本信息過(guò)濾的流程
基于SVM的文本信息過(guò)濾過(guò)程共分為兩個(gè)階段,即訓(xùn)練階段和分類階段。由于多數(shù)Web網(wǎng)頁(yè)中包含廣告、注釋、HTML標(biāo)簽及版權(quán)聲明等與內(nèi)容無(wú)關(guān)的信息,為了方便后續(xù)處理,需將這些無(wú)關(guān)信息去除,這個(gè)過(guò)程就是預(yù)處理。在訓(xùn)練階段,對(duì)經(jīng)過(guò)預(yù)處理后的訓(xùn)練樣本集中的文本進(jìn)行分詞處理,將結(jié)果存入特征庫(kù),根據(jù)特征庫(kù)中的分詞結(jié)果進(jìn)行特征提取,通過(guò)統(tǒng)計(jì)出每個(gè)特征項(xiàng)出現(xiàn)的次數(shù)計(jì)算出特征權(quán)重,并表示成向量形式,在此基礎(chǔ)上訓(xùn)練SVM分類器。在分類階段,對(duì)待測(cè)樣本進(jìn)行預(yù)處理、分詞處理后,根據(jù)生成的文本特征庫(kù)對(duì)分詞結(jié)果進(jìn)行特征提取,計(jì)算出特征權(quán)值,并表示成向量,再運(yùn)用SVM進(jìn)行分類,判定待測(cè)樣本的類別,具體流程如圖3所示:
圖3 基于SVMMD文本信息過(guò)濾過(guò)程
3.2 實(shí)驗(yàn)分析
3.2.1 數(shù)據(jù)來(lái)源與實(shí)驗(yàn)方法
為了驗(yàn)證本文算法的有效性,本文分別對(duì)傳統(tǒng)的線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)和新提出的組合核函數(shù)進(jìn)行了測(cè)試對(duì)比。
本文采用復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國(guó)際數(shù)據(jù)庫(kù)中心自然語(yǔ)言處理小組提供的文本分類語(yǔ)料庫(kù)。該預(yù)料庫(kù)共收集了19637篇文本,測(cè)試預(yù)料有9833篇,訓(xùn)練語(yǔ)料有9804篇,均分20類。在本實(shí)驗(yàn)中,抽取其中最大的8類,訓(xùn)練數(shù)據(jù)在訓(xùn)練語(yǔ)料庫(kù)的Economy、Computer、Environment、Sports 4類中每類隨機(jī)抽取1000篇,在Politics、Agriculture、Art、space 4類中每類隨機(jī)抽取500篇,共6000篇文本。測(cè)試數(shù)據(jù)在測(cè)試預(yù)料庫(kù)中隨機(jī)抽取,前面4類每類抽取300篇,后面4類中每類抽取150篇,共1800篇。實(shí)驗(yàn)采用多分類的一對(duì)多算法,再將8類文本的識(shí)別結(jié)果取平均值,并在此基礎(chǔ)上采取多次實(shí)驗(yàn)再次平均,以保證實(shí)驗(yàn)結(jié)果的客觀性。
實(shí)驗(yàn)使用詞根萃取與停用詞過(guò)濾的方法去除冗余特征,采用由中科院計(jì)算所開(kāi)發(fā)的漢語(yǔ)詞法分析系統(tǒng)進(jìn)行分詞,用兩步特征選擇方法得出特征集,用TFIDF函數(shù)計(jì)算訓(xùn)練文本集中文本的特征項(xiàng)權(quán)值,并表示成向量模式。
3.2.2 最優(yōu)參數(shù)確定
對(duì)于組合核函數(shù),根據(jù)選定的二次網(wǎng)格搜索法,第一次搜索C、、、q的范圍分別是[1,500],[0,20],[0, 1],[1,20],步長(zhǎng)分別是10,0.5,0.1,1,得到的最優(yōu)參數(shù)為C=100,、、。在此基礎(chǔ)上進(jìn)行二次優(yōu)選,C、、、q的范圍分別是[80,140],[0,2],[0, 0.3],[1,10],步長(zhǎng)分別是1,0. 05,0.01,1,得到的最優(yōu)參數(shù)為C=125,、、q=3。便于比較實(shí)驗(yàn)結(jié)果,需確定單核核函數(shù)參數(shù),這里采用一次網(wǎng)格搜索法,確定如下最優(yōu)參數(shù):線性核參數(shù)C=128,多項(xiàng)式核參數(shù)q=3,C=2,徑向基核函數(shù)參數(shù),C=2。
3.2.3 性能評(píng)價(jià)指標(biāo)
評(píng)價(jià)標(biāo)準(zhǔn)采用Recall(查全率)、precision(準(zhǔn)確率)以及F-value(標(biāo)準(zhǔn)測(cè)度),其中F-value是Recall、Precision兩個(gè)評(píng)價(jià)指標(biāo)的綜合,見(jiàn)公式(11):
3.3 實(shí)驗(yàn)結(jié)果與對(duì)比分析
在仿真實(shí)驗(yàn)評(píng)估了線性核、多項(xiàng)式核、徑向基核以及本文提出的組合核函數(shù),選擇不同的參數(shù)值進(jìn)行實(shí)驗(yàn),以對(duì)比網(wǎng)格優(yōu)選的參數(shù)及其它參數(shù)組合對(duì)文本識(shí)別性能的差異,實(shí)驗(yàn)結(jié)果圖表1所示:
表1 不同SVM核函數(shù)識(shí)別效果
從線性核、多項(xiàng)式核和徑向基核函數(shù)SVM的實(shí)驗(yàn)數(shù)據(jù)來(lái)看,準(zhǔn)確率和召回率是成反比的,準(zhǔn)確率越高,召回率則越低。結(jié)果顯示三者識(shí)別準(zhǔn)確率較高,但召回率相對(duì)較低。這是由SVM本身的特點(diǎn)所決定的,因?yàn)镾VM是以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為理論基礎(chǔ)的一種算法,目標(biāo)就是保證識(shí)別準(zhǔn)確率,從而無(wú)形中影響召回率。
在3個(gè)單核函數(shù)線性核、多項(xiàng)式核和徑向基核構(gòu)建的SVM中,在選擇最優(yōu)參數(shù)情況下,識(shí)別準(zhǔn)確率分別為75.9%,89%和88.2%。線性核的識(shí)別性能最差,其它兩個(gè)準(zhǔn)確率相差不多。同時(shí)它們的準(zhǔn)確率都明顯高于其它的非最優(yōu)的參數(shù)組合,而且多項(xiàng)式核函數(shù)由于參數(shù)變化引起的準(zhǔn)確率變化最小,徑向基核函數(shù)的變化最大,這是由于多項(xiàng)式核函數(shù)是全局核函數(shù),有很好的泛化能力,而徑向基核函數(shù)是局部核函數(shù),泛化能力差。
在組合核函數(shù)中應(yīng)用每個(gè)單核選出的最優(yōu)參數(shù)構(gòu)建的SVM,準(zhǔn)確率僅為77.4%,甚至低于兩個(gè)單核的準(zhǔn)確率。在最優(yōu)參數(shù)的基礎(chǔ)上,分別改變,q和C的值,得到的結(jié)果也都不理想,這些都說(shuō)明如果參數(shù)選擇不準(zhǔn)確,組合核函數(shù)SVM也無(wú)法得出理想的結(jié)果。若選擇的參數(shù)正確,組合核函數(shù)SVM的準(zhǔn)確率為96.6%,查全率為88.4%,標(biāo)準(zhǔn)測(cè)度為89.9%,三個(gè)性能評(píng)價(jià)指標(biāo)均達(dá)到最佳。這是由于組合核函數(shù)兼顧了徑向基核函數(shù)較強(qiáng)的學(xué)習(xí)能力與多項(xiàng)式核函數(shù)較強(qiáng)的推廣能力,兼顧了文本分類的準(zhǔn)確率和召回率。實(shí)驗(yàn)結(jié)果說(shuō)明以二次選優(yōu)的網(wǎng)格搜索法確定的參數(shù)構(gòu)建的組合核函數(shù)SVM確實(shí)能夠很好地進(jìn)行擬合,能夠以較理想的性能實(shí)現(xiàn)文本識(shí)別。
應(yīng)用SVM進(jìn)行文本主題識(shí)別時(shí),選擇適合的核函數(shù)是最為關(guān)鍵的問(wèn)題。本文基于單核函數(shù)的特點(diǎn),依據(jù)Mercer規(guī)則對(duì)多項(xiàng)式核函數(shù)與徑向基核函數(shù)進(jìn)行線性加權(quán),構(gòu)建具有良好的泛化能力與良好的學(xué)習(xí)能力的組合核函數(shù)。在文本識(shí)別的仿真實(shí)驗(yàn)中,組合核函數(shù)表現(xiàn)出明顯優(yōu)于其它單核SVM的良好性能。但語(yǔ)料庫(kù)的質(zhì)量直接影響分類性能,如何減少分類的準(zhǔn)確率對(duì)測(cè)試文本的依賴性是今后要探索的問(wèn)題。
參考文獻(xiàn)
[1] Sergios Theodoridis,Konstantinos Koutroumbas 著,李晶皎等譯.模式識(shí)別.3rd ed.[M]北京:電子工業(yè)出版社,2006:45-48.
[2] 呂洪艷,杜娟.基于SVM的不良文本信息識(shí)別. [J]計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(6):183.
[3] 高會(huì)生,郭愛(ài)玲. 組合核函數(shù)SVM在網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估中的應(yīng)用. [J]微計(jì)算機(jī)工程與應(yīng)用,2009,45(11): 123-124.
[4] 張冰,孔銳.一種支持向量機(jī)的組合核函數(shù). [J]計(jì)算機(jī)應(yīng)用,2007,27(1):44-45.
[5] 葉志剛. SVM在文本分類中的應(yīng)用.[D].哈爾濱:哈爾濱工程大學(xué),2006.
[6] 劉志剛,杜娟,衣治安.一種改進(jìn)的分類算法在不良信息過(guò)濾中的應(yīng)用. [J]2011,32(2),11-12.
Text Topic Recognition Based on Combination Kernel Function of SVM
Lv Hongyan, Liu Fang
(Institute of Computer and Information Technology, Northeast Petroleum University, Daqing 163318 , China)
Abstract:In practical application of text information identification, most of the text always doped with each other, so that they are unable to linear expression. The nonlinear non-separable problem can be solved effectively by SVM. And the key of the SVM is to choose the appropriate kernel function. As the recognition accuracy rate of a single kernel function is not high and the recall value is not ideal, for the specific application of text topic identification, combining w ith homogeneous polynom ial kernel and radial basis kernel function by linear weighted method, it structured a new combination kernel function w ith the advantage of both homogeneous polynomial kernel and radial basis kernel function. That is the combination kernel function which has the generalization ability of global kernel function and the learning ability of local kernel function. And it determ ines the optimal parameters through the grid search method. Then it evaluates the linear kernel, homogeneous polynom ial kernel, radial basis kernel function and combination kernel function in the sample experiment. The experimental results show that the recognition accuracy rate and the recall value of combination kernel function of SVM are more ideal than other kernel functions.
Key words:SVM; Combination Kernel Function; Text Identification; Recall; Text Topic
中圖分類號(hào):TP311
文獻(xiàn)標(biāo)志碼:A
作者簡(jiǎn)介:呂洪艷(1982-),女,五常市,東北石油大學(xué),計(jì)算機(jī)與信息技術(shù)學(xué)院,講師,研究方向:人工智能與模式識(shí)別,大慶,163318 劉 芳(1983-),女,伊春市,東北石油大學(xué),計(jì)算機(jī)與信息技術(shù)學(xué)院,講師,研究方向:人工智能與模式識(shí)別,大慶,163318
收稿日期:(2015.11.03)