于飛 李紅蓮 呂學(xué)強(qiáng)
摘 要:在文本分類過程中,影響分類準(zhǔn)確率的兩個重要因素是特征權(quán)重的計算方法,以及機(jī)器學(xué)習(xí)算法的準(zhǔn)確率。針對傳統(tǒng)基于支持向量機(jī)的文本分類準(zhǔn)確率不高的問題,本文提出修正權(quán)重計算公式和采用調(diào)整支持向量機(jī)核函數(shù)參數(shù)的方法,使文本的分類準(zhǔn)確率提高了近3個百分點。實驗結(jié)果表明這兩種方法的結(jié)合,確實可以提高文本分類的準(zhǔn)確率。
關(guān)鍵詞:文本分類;支持向量機(jī);權(quán)重計算公式;核函數(shù)調(diào)參;特征向量權(quán)重
1 概述
文本分類作為信息過濾、信息檢索、搜索引擎、網(wǎng)絡(luò)論壇、數(shù)字圖書館等領(lǐng)域的技術(shù)基礎(chǔ),有著廣泛的應(yīng)用前景。如何應(yīng)用機(jī)器學(xué)習(xí)實現(xiàn)按照文本內(nèi)容自動分類技術(shù)是解決信息準(zhǔn)確、快速檢索的主要方法之一。
2 文本的向量空間模型表示
向量空間模型是通過權(quán)重表示的。傳統(tǒng)的權(quán)重計算公式
其中ωij表示詞項ti在文檔Dj中的權(quán)重,N表示訓(xùn)練集中總的文檔數(shù),ni表示訓(xùn)練集中出現(xiàn)特征項ti的文檔數(shù),tfij表示詞項ti在文檔Dj中的頻度(次數(shù))。
針對公式的缺陷引出下面的改進(jìn)措施,即用方差模型表示詞項分布的離散程度。
以下敘述它的數(shù)學(xué)原理。將詞項t在類C1文檔集中出現(xiàn)的次數(shù)看作一個隨機(jī)變量X1,假設(shè)Xi,i=1,2,…,m(m為類別總數(shù))相互獨立,且服從相同分布,則Xi,i=1,2,…,m構(gòu)成簡單隨機(jī)樣本。由統(tǒng)計學(xué)可知,樣本方差S2是總體方差σ2的無偏估計,且總體服從任意分布。于是可以通過文本詞項t的樣本方差近似代替總體方差D(t),而總體方差反映的是詞項t在各類中出現(xiàn)次數(shù)的波動情況。顯然D(t)越小,說明分布較均勻。
這里的改進(jìn)有三處。第一處,將原來的tfij換成了TFi(t),也就是說不再用詞項i在文檔j中出現(xiàn)次數(shù),而改用詞項i在類t中出現(xiàn)的次數(shù)。也就是說在提取特征向量的時候,同一類中提取出的不同文檔的特征向量,是相同的。實驗表明,這樣的處理有助于提高分類準(zhǔn)確率。從之前的64%提高到75%。第二處就是加入了類間分布項。第三處是加入了類內(nèi)分布項。
3 文本特征向量的抽取
建立好文檔詞矩陣后,對一類中的詞項權(quán)值進(jìn)行排序,挑出權(quán)值大于0.1的詞項,作為該類的特征向量。把所有類的特征向量選出后,取并集,作為最終的特征向量。
4 支持向量的調(diào)參
本系統(tǒng)采用支持向量機(jī)進(jìn)行文本分類。用支持向量機(jī)分類時,影響分類準(zhǔn)確率的一個最重要因素是參數(shù)的選擇。參數(shù)包括,軟間隔最大化中懲罰參數(shù)C的選擇。以及采用徑向基RBF核函數(shù)時,參數(shù)γ的選擇。本系統(tǒng)采用雙線性搜索法進(jìn)行參數(shù)的選擇。
首先介紹參數(shù)γ的意義。γ是RBF核的唯一參數(shù),選擇不同的 ,就相當(dāng)于把樣本向量映射到不同的特征空間,即γ的不同決定了樣本向量的象在特征空間中分布復(fù)雜程度的不同(線性分類面的最大VC維)。γ過大時,出現(xiàn)過擬合,所有的訓(xùn)練樣本都會成為支持向量,這會降低推廣能力并造成測試時的計算量過大。γ很小時,出現(xiàn)欠擬合,SVM分類能力也會變得很差,幾乎會把所有樣本判為同一類。其次介紹參數(shù)C的意義。懲罰參數(shù)C是對錯分樣本的偏離值的懲罰系數(shù)。它的作用是調(diào)和分類模型的經(jīng)驗風(fēng)險(錯分類樣本數(shù))和置信范圍(間隔大?。┑谋壤?,以使訓(xùn)練得到的模型具有很好的推廣能力。SVM的目標(biāo)是最小化結(jié)構(gòu)風(fēng)險,因此必須在減少誤分類樣本個數(shù)(減小經(jīng)驗風(fēng)險)和增大分類間隔(縮小置信范圍)之間進(jìn)行折中。C較小時,誤分類懲罰系數(shù)小,機(jī)器學(xué)習(xí)復(fù)雜度小,間隔大,置信范圍小,誤分類樣本個數(shù)大,經(jīng)驗風(fēng)險大。C較大時,誤分類懲罰系數(shù)大,機(jī)器學(xué)習(xí)復(fù)雜度大,間隔小,置信范圍大,誤分類樣本個數(shù)少,經(jīng)驗風(fēng)險小。當(dāng)C超過一定值后,再加大C,也幾乎不會再對經(jīng)驗風(fēng)險和推廣能力造成變化。雙線性搜索法的基本原理。RBF的參數(shù)空間可分為欠訓(xùn)練區(qū),過訓(xùn)練區(qū),好區(qū)。以logC,logγ作為參數(shù)空間的坐標(biāo),學(xué)習(xí)精度最高的參數(shù)組合(C,γ)將集中出現(xiàn)在好區(qū)中的直線 附近。其中 是使模型精度最高的 。雙線性搜索法的步驟。
①采用線性核函數(shù),該核函數(shù)只涉及懲罰參數(shù)C,給C一個初始值0.01,對訓(xùn)練集進(jìn)行10折交叉驗證算出準(zhǔn)確率a1。給定一個步進(jìn)值step=0.01,使C=C+step,再進(jìn)行10折交叉驗證算出準(zhǔn)確率a2。依次迭代,直到a2-a1<0時,停止。取出a1所對應(yīng)的的C值,作為最佳參數(shù)bestc。
②根據(jù)好區(qū)直線表達(dá)式 和已知的bestc即 ,得到(C,γ)值對。具體過程為,核函數(shù)采用RBF,給C一個初始值0.01,由直線表達(dá)式計算出γ,對訓(xùn)練集進(jìn)行10折交叉驗證算出準(zhǔn)確率a1。給定一個步進(jìn)值step=0.01,使C=C+step,再進(jìn)行10折交叉驗證算出準(zhǔn)確率a2。依次迭代,直到a2-a1<0時,停止。取出a1所對應(yīng)的 作為最佳的參數(shù)對。
5 實驗結(jié)果分析
5.1 實驗語料
訓(xùn)練與測試數(shù)據(jù)比例列于表3
5.2 實驗結(jié)果
實驗一為傳統(tǒng)權(quán)重計算公式且沒有加入核函數(shù)調(diào)參的實驗結(jié)果準(zhǔn)確率。實驗二為使用改進(jìn)的權(quán)重計算公式以及核函數(shù)調(diào)參后的分類準(zhǔn)確率結(jié)果。具體結(jié)果見表4
6 結(jié)束語
本文通過改進(jìn)權(quán)值計算公式以及調(diào)節(jié)支持向量機(jī)核函數(shù)的參數(shù),使分類準(zhǔn)確率有了提高。在小數(shù)據(jù)上驗證的效果較好。后續(xù)將通過更大的數(shù)據(jù)集來檢驗該方法的性能。
[參考文獻(xiàn)]
[1]呂佳.文本分類中基于方差的改進(jìn)特征提取算法[J].計算機(jī)工程與設(shè)計,200724:6039-6041.
[2]王梅.一種改進(jìn)的核函數(shù)參數(shù)選擇方法.西安科技大學(xué).
[3]宗成慶.統(tǒng)計自然語言處理.清華大學(xué)出版社,2008.
[4]白鵬.支持向量機(jī)理論及工程應(yīng)用實例.西安電子科技大學(xué)出版社,2008.
[5]史峰,王輝.MATLAB智能算法30個案例分析.北京航空航天大學(xué)出版社,2011.
[6]李航.統(tǒng)計學(xué)習(xí)基礎(chǔ).清華大學(xué)出版社.2012.
[7]崔建明,劉建明,廖周宇.基于SVM算法的文本分類技術(shù)研究.[J].計算機(jī)仿真,201302:299-302.
[8]熊小草.文本分類中特征選擇的理論分析和算法研究.清華大學(xué).