基于支持向量機(jī)的文本分類技術(shù)

2014-08-30 20:58于飛李紅蓮呂學(xué)強(qiáng)

無線互聯(lián)科技 2014年8期

于飛李紅蓮呂學(xué)強(qiáng)

摘要：在文本分類過程中，影響分類準(zhǔn)確率的兩個重要因素是特征權(quán)重的計算方法，以及機(jī)器學(xué)習(xí)算法的準(zhǔn)確率。針對傳統(tǒng)基于支持向量機(jī)的文本分類準(zhǔn)確率不高的問題，本文提出修正權(quán)重計算公式和采用調(diào)整支持向量機(jī)核函數(shù)參數(shù)的方法，使文本的分類準(zhǔn)確率提高了近3個百分點。實驗結(jié)果表明這兩種方法的結(jié)合，確實可以提高文本分類的準(zhǔn)確率。

關(guān)鍵詞：文本分類；支持向量機(jī)；權(quán)重計算公式；核函數(shù)調(diào)參；特征向量權(quán)重

1 概述

文本分類作為信息過濾、信息檢索、搜索引擎、網(wǎng)絡(luò)論壇、數(shù)字圖書館等領(lǐng)域的技術(shù)基礎(chǔ)，有著廣泛的應(yīng)用前景。如何應(yīng)用機(jī)器學(xué)習(xí)實現(xiàn)按照文本內(nèi)容自動分類技術(shù)是解決信息準(zhǔn)確、快速檢索的主要方法之一。

2 文本的向量空間模型表示

向量空間模型是通過權(quán)重表示的。傳統(tǒng)的權(quán)重計算公式

其中ωij表示詞項ti在文檔Dj中的權(quán)重，N表示訓(xùn)練集中總的文檔數(shù)，ni表示訓(xùn)練集中出現(xiàn)特征項ti的文檔數(shù)，tfij表示詞項ti在文檔Dj中的頻度（次數(shù)）。

針對公式的缺陷引出下面的改進(jìn)措施，即用方差模型表示詞項分布的離散程度。

以下敘述它的數(shù)學(xué)原理。將詞項t在類C1文檔集中出現(xiàn)的次數(shù)看作一個隨機(jī)變量X1，假設(shè)Xi，i=1，2，…，m（m為類別總數(shù)）相互獨立，且服從相同分布，則Xi，i=1，2，…，m構(gòu)成簡單隨機(jī)樣本。由統(tǒng)計學(xué)可知，樣本方差S2是總體方差σ2的無偏估計，且總體服從任意分布。于是可以通過文本詞項t的樣本方差近似代替總體方差D（t），而總體方差反映的是詞項t在各類中出現(xiàn)次數(shù)的波動情況。顯然D（t）越小，說明分布較均勻。

這里的改進(jìn)有三處。第一處，將原來的tfij換成了TFi（t），也就是說不再用詞項i在文檔j中出現(xiàn)次數(shù)，而改用詞項i在類t中出現(xiàn)的次數(shù)。也就是說在提取特征向量的時候，同一類中提取出的不同文檔的特征向量，是相同的。實驗表明，這樣的處理有助于提高分類準(zhǔn)確率。從之前的64%提高到75%。第二處就是加入了類間分布項。第三處是加入了類內(nèi)分布項。

3 文本特征向量的抽取

建立好文檔詞矩陣后，對一類中的詞項權(quán)值進(jìn)行排序，挑出權(quán)值大于0.1的詞項，作為該類的特征向量。把所有類的特征向量選出后，取并集，作為最終的特征向量。

4 支持向量的調(diào)參

本系統(tǒng)采用支持向量機(jī)進(jìn)行文本分類。用支持向量機(jī)分類時，影響分類準(zhǔn)確率的一個最重要因素是參數(shù)的選擇。參數(shù)包括，軟間隔最大化中懲罰參數(shù)C的選擇。以及采用徑向基RBF核函數(shù)時，參數(shù)γ的選擇。本系統(tǒng)采用雙線性搜索法進(jìn)行參數(shù)的選擇。

首先介紹參數(shù)γ的意義。γ是RBF核的唯一參數(shù)，選擇不同的，就相當(dāng)于把樣本向量映射到不同的特征空間，即γ的不同決定了樣本向量的象在特征空間中分布復(fù)雜程度的不同（線性分類面的最大VC維）。γ過大時，出現(xiàn)過擬合，所有的訓(xùn)練樣本都會成為支持向量，這會降低推廣能力并造成測試時的計算量過大。γ很小時，出現(xiàn)欠擬合，SVM分類能力也會變得很差，幾乎會把所有樣本判為同一類。其次介紹參數(shù)C的意義。懲罰參數(shù)C是對錯分樣本的偏離值的懲罰系數(shù)。它的作用是調(diào)和分類模型的經(jīng)驗風(fēng)險（錯分類樣本數(shù)）和置信范圍（間隔大?。┑谋壤?，以使訓(xùn)練得到的模型具有很好的推廣能力。SVM的目標(biāo)是最小化結(jié)構(gòu)風(fēng)險，因此必須在減少誤分類樣本個數(shù)（減小經(jīng)驗風(fēng)險）和增大分類間隔（縮小置信范圍）之間進(jìn)行折中。C較小時，誤分類懲罰系數(shù)小，機(jī)器學(xué)習(xí)復(fù)雜度小，間隔大，置信范圍小，誤分類樣本個數(shù)大，經(jīng)驗風(fēng)險大。C較大時，誤分類懲罰系數(shù)大，機(jī)器學(xué)習(xí)復(fù)雜度大，間隔小，置信范圍大，誤分類樣本個數(shù)少，經(jīng)驗風(fēng)險小。當(dāng)C超過一定值后，再加大C，也幾乎不會再對經(jīng)驗風(fēng)險和推廣能力造成變化。雙線性搜索法的基本原理。RBF的參數(shù)空間可分為欠訓(xùn)練區(qū)，過訓(xùn)練區(qū)，好區(qū)。以logC，logγ作為參數(shù)空間的坐標(biāo)，學(xué)習(xí)精度最高的參數(shù)組合（C，γ）將集中出現(xiàn)在好區(qū)中的直線附近。其中是使模型精度最高的。雙線性搜索法的步驟。

①采用線性核函數(shù)，該核函數(shù)只涉及懲罰參數(shù)C，給C一個初始值0.01，對訓(xùn)練集進(jìn)行10折交叉驗證算出準(zhǔn)確率a1。給定一個步進(jìn)值step=0.01，使C=C+step，再進(jìn)行10折交叉驗證算出準(zhǔn)確率a2。依次迭代，直到a2-a1<0時，停止。取出a1所對應(yīng)的的C值，作為最佳參數(shù)bestc。

②根據(jù)好區(qū)直線表達(dá)式和已知的bestc即，得到（C，γ）值對。具體過程為，核函數(shù)采用RBF，給C一個初始值0.01，由直線表達(dá)式計算出γ，對訓(xùn)練集進(jìn)行10折交叉驗證算出準(zhǔn)確率a1。給定一個步進(jìn)值step=0.01，使C=C+step，再進(jìn)行10折交叉驗證算出準(zhǔn)確率a2。依次迭代，直到a2-a1<0時，停止。取出a1所對應(yīng)的作為最佳的參數(shù)對。

5 實驗結(jié)果分析

5.1 實驗語料

訓(xùn)練與測試數(shù)據(jù)比例列于表3

5.2 實驗結(jié)果

實驗一為傳統(tǒng)權(quán)重計算公式且沒有加入核函數(shù)調(diào)參的實驗結(jié)果準(zhǔn)確率。實驗二為使用改進(jìn)的權(quán)重計算公式以及核函數(shù)調(diào)參后的分類準(zhǔn)確率結(jié)果。具體結(jié)果見表4

6 結(jié)束語

本文通過改進(jìn)權(quán)值計算公式以及調(diào)節(jié)支持向量機(jī)核函數(shù)的參數(shù)，使分類準(zhǔn)確率有了提高。在小數(shù)據(jù)上驗證的效果較好。后續(xù)將通過更大的數(shù)據(jù)集來檢驗該方法的性能。

[參考文獻(xiàn)]

[1]呂佳.文本分類中基于方差的改進(jìn)特征提取算法[J].計算機(jī)工程與設(shè)計，200724：6039-6041.

[2]王梅.一種改進(jìn)的核函數(shù)參數(shù)選擇方法.西安科技大學(xué).

[3]宗成慶.統(tǒng)計自然語言處理.清華大學(xué)出版社，2008.

[4]白鵬.支持向量機(jī)理論及工程應(yīng)用實例.西安電子科技大學(xué)出版社，2008.

[5]史峰，王輝.MATLAB智能算法30個案例分析.北京航空航天大學(xué)出版社，2011.

[6]李航.統(tǒng)計學(xué)習(xí)基礎(chǔ).清華大學(xué)出版社.2012.

[7]崔建明，劉建明，廖周宇.基于SVM算法的文本分類技術(shù)研究.[J].計算機(jī)仿真，201302：299-302.

[8]熊小草.文本分類中特征選擇的理論分析和算法研究.清華大學(xué).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于支持向量機(jī)的文本分類技術(shù)