国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于支持向量機(jī)的文本分類技術(shù)

2014-08-30 20:58于飛李紅蓮呂學(xué)強(qiáng)
無線互聯(lián)科技 2014年8期
關(guān)鍵詞:文本分類支持向量機(jī)

于飛 李紅蓮 呂學(xué)強(qiáng)

摘 要:在文本分類過程中,影響分類準(zhǔn)確率的兩個重要因素是特征權(quán)重的計算方法,以及機(jī)器學(xué)習(xí)算法的準(zhǔn)確率。針對傳統(tǒng)基于支持向量機(jī)的文本分類準(zhǔn)確率不高的問題,本文提出修正權(quán)重計算公式和采用調(diào)整支持向量機(jī)核函數(shù)參數(shù)的方法,使文本的分類準(zhǔn)確率提高了近3個百分點。實驗結(jié)果表明這兩種方法的結(jié)合,確實可以提高文本分類的準(zhǔn)確率。

關(guān)鍵詞:文本分類;支持向量機(jī);權(quán)重計算公式;核函數(shù)調(diào)參;特征向量權(quán)重

1 概述

文本分類作為信息過濾、信息檢索、搜索引擎、網(wǎng)絡(luò)論壇、數(shù)字圖書館等領(lǐng)域的技術(shù)基礎(chǔ),有著廣泛的應(yīng)用前景。如何應(yīng)用機(jī)器學(xué)習(xí)實現(xiàn)按照文本內(nèi)容自動分類技術(shù)是解決信息準(zhǔn)確、快速檢索的主要方法之一。

2 文本的向量空間模型表示

向量空間模型是通過權(quán)重表示的。傳統(tǒng)的權(quán)重計算公式

其中ωij表示詞項ti在文檔Dj中的權(quán)重,N表示訓(xùn)練集中總的文檔數(shù),ni表示訓(xùn)練集中出現(xiàn)特征項ti的文檔數(shù),tfij表示詞項ti在文檔Dj中的頻度(次數(shù))。

針對公式的缺陷引出下面的改進(jìn)措施,即用方差模型表示詞項分布的離散程度。

以下敘述它的數(shù)學(xué)原理。將詞項t在類C1文檔集中出現(xiàn)的次數(shù)看作一個隨機(jī)變量X1,假設(shè)Xi,i=1,2,…,m(m為類別總數(shù))相互獨立,且服從相同分布,則Xi,i=1,2,…,m構(gòu)成簡單隨機(jī)樣本。由統(tǒng)計學(xué)可知,樣本方差S2是總體方差σ2的無偏估計,且總體服從任意分布。于是可以通過文本詞項t的樣本方差近似代替總體方差D(t),而總體方差反映的是詞項t在各類中出現(xiàn)次數(shù)的波動情況。顯然D(t)越小,說明分布較均勻。

這里的改進(jìn)有三處。第一處,將原來的tfij換成了TFi(t),也就是說不再用詞項i在文檔j中出現(xiàn)次數(shù),而改用詞項i在類t中出現(xiàn)的次數(shù)。也就是說在提取特征向量的時候,同一類中提取出的不同文檔的特征向量,是相同的。實驗表明,這樣的處理有助于提高分類準(zhǔn)確率。從之前的64%提高到75%。第二處就是加入了類間分布項。第三處是加入了類內(nèi)分布項。

3 文本特征向量的抽取

建立好文檔詞矩陣后,對一類中的詞項權(quán)值進(jìn)行排序,挑出權(quán)值大于0.1的詞項,作為該類的特征向量。把所有類的特征向量選出后,取并集,作為最終的特征向量。

4 支持向量的調(diào)參

本系統(tǒng)采用支持向量機(jī)進(jìn)行文本分類。用支持向量機(jī)分類時,影響分類準(zhǔn)確率的一個最重要因素是參數(shù)的選擇。參數(shù)包括,軟間隔最大化中懲罰參數(shù)C的選擇。以及采用徑向基RBF核函數(shù)時,參數(shù)γ的選擇。本系統(tǒng)采用雙線性搜索法進(jìn)行參數(shù)的選擇。

首先介紹參數(shù)γ的意義。γ是RBF核的唯一參數(shù),選擇不同的 ,就相當(dāng)于把樣本向量映射到不同的特征空間,即γ的不同決定了樣本向量的象在特征空間中分布復(fù)雜程度的不同(線性分類面的最大VC維)。γ過大時,出現(xiàn)過擬合,所有的訓(xùn)練樣本都會成為支持向量,這會降低推廣能力并造成測試時的計算量過大。γ很小時,出現(xiàn)欠擬合,SVM分類能力也會變得很差,幾乎會把所有樣本判為同一類。其次介紹參數(shù)C的意義。懲罰參數(shù)C是對錯分樣本的偏離值的懲罰系數(shù)。它的作用是調(diào)和分類模型的經(jīng)驗風(fēng)險(錯分類樣本數(shù))和置信范圍(間隔大?。┑谋壤?,以使訓(xùn)練得到的模型具有很好的推廣能力。SVM的目標(biāo)是最小化結(jié)構(gòu)風(fēng)險,因此必須在減少誤分類樣本個數(shù)(減小經(jīng)驗風(fēng)險)和增大分類間隔(縮小置信范圍)之間進(jìn)行折中。C較小時,誤分類懲罰系數(shù)小,機(jī)器學(xué)習(xí)復(fù)雜度小,間隔大,置信范圍小,誤分類樣本個數(shù)大,經(jīng)驗風(fēng)險大。C較大時,誤分類懲罰系數(shù)大,機(jī)器學(xué)習(xí)復(fù)雜度大,間隔小,置信范圍大,誤分類樣本個數(shù)少,經(jīng)驗風(fēng)險小。當(dāng)C超過一定值后,再加大C,也幾乎不會再對經(jīng)驗風(fēng)險和推廣能力造成變化。雙線性搜索法的基本原理。RBF的參數(shù)空間可分為欠訓(xùn)練區(qū),過訓(xùn)練區(qū),好區(qū)。以logC,logγ作為參數(shù)空間的坐標(biāo),學(xué)習(xí)精度最高的參數(shù)組合(C,γ)將集中出現(xiàn)在好區(qū)中的直線 附近。其中 是使模型精度最高的 。雙線性搜索法的步驟。

①采用線性核函數(shù),該核函數(shù)只涉及懲罰參數(shù)C,給C一個初始值0.01,對訓(xùn)練集進(jìn)行10折交叉驗證算出準(zhǔn)確率a1。給定一個步進(jìn)值step=0.01,使C=C+step,再進(jìn)行10折交叉驗證算出準(zhǔn)確率a2。依次迭代,直到a2-a1<0時,停止。取出a1所對應(yīng)的的C值,作為最佳參數(shù)bestc。

②根據(jù)好區(qū)直線表達(dá)式 和已知的bestc即 ,得到(C,γ)值對。具體過程為,核函數(shù)采用RBF,給C一個初始值0.01,由直線表達(dá)式計算出γ,對訓(xùn)練集進(jìn)行10折交叉驗證算出準(zhǔn)確率a1。給定一個步進(jìn)值step=0.01,使C=C+step,再進(jìn)行10折交叉驗證算出準(zhǔn)確率a2。依次迭代,直到a2-a1<0時,停止。取出a1所對應(yīng)的 作為最佳的參數(shù)對。

5 實驗結(jié)果分析

5.1 實驗語料

訓(xùn)練與測試數(shù)據(jù)比例列于表3

5.2 實驗結(jié)果

實驗一為傳統(tǒng)權(quán)重計算公式且沒有加入核函數(shù)調(diào)參的實驗結(jié)果準(zhǔn)確率。實驗二為使用改進(jìn)的權(quán)重計算公式以及核函數(shù)調(diào)參后的分類準(zhǔn)確率結(jié)果。具體結(jié)果見表4

6 結(jié)束語

本文通過改進(jìn)權(quán)值計算公式以及調(diào)節(jié)支持向量機(jī)核函數(shù)的參數(shù),使分類準(zhǔn)確率有了提高。在小數(shù)據(jù)上驗證的效果較好。后續(xù)將通過更大的數(shù)據(jù)集來檢驗該方法的性能。

[參考文獻(xiàn)]

[1]呂佳.文本分類中基于方差的改進(jìn)特征提取算法[J].計算機(jī)工程與設(shè)計,200724:6039-6041.

[2]王梅.一種改進(jìn)的核函數(shù)參數(shù)選擇方法.西安科技大學(xué).

[3]宗成慶.統(tǒng)計自然語言處理.清華大學(xué)出版社,2008.

[4]白鵬.支持向量機(jī)理論及工程應(yīng)用實例.西安電子科技大學(xué)出版社,2008.

[5]史峰,王輝.MATLAB智能算法30個案例分析.北京航空航天大學(xué)出版社,2011.

[6]李航.統(tǒng)計學(xué)習(xí)基礎(chǔ).清華大學(xué)出版社.2012.

[7]崔建明,劉建明,廖周宇.基于SVM算法的文本分類技術(shù)研究.[J].計算機(jī)仿真,201302:299-302.

[8]熊小草.文本分類中特征選擇的理論分析和算法研究.清華大學(xué).

猜你喜歡
文本分類支持向量機(jī)
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報模型
基于貝葉斯分類器的中文文本分類
基于SVM的煙草銷售量預(yù)測
動態(tài)場景中的視覺目標(biāo)識別方法分析
論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
基于K—means算法的文本分類技術(shù)研究
松潘县| 高碑店市| 邹城市| 乃东县| 东方市| 舟曲县| 昆山市| 江口县| 深水埗区| 武穴市| 鲁甸县| 黔西县| 韶关市| 万安县| 鄢陵县| 邓州市| 沂源县| 龙井市| 红桥区| 正定县| 博客| 定西市| 吴忠市| 松潘县| 江源县| 合作市| 台山市| 海兴县| 韶山市| 五常市| 昭觉县| 喀喇沁旗| 平乐县| 哈巴河县| 濉溪县| 哈尔滨市| 西林县| 上林县| 新龙县| 合江县| 齐河县|