国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

樸素Bayes分類器文本特征向量的參數(shù)優(yōu)化

2019-11-28 11:41:20方秋蓮王培錦鄭涵穎呂春玥王艷彤
關(guān)鍵詞:樸素特征向量分類器

方秋蓮,王培錦,隋 陽,鄭涵穎,呂春玥,王艷彤

(中南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長沙 410083)

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,產(chǎn)生了大量的文本數(shù)據(jù),處理文本數(shù)據(jù)的基礎(chǔ)是文本分類.在文本數(shù)據(jù)中多數(shù)為新聞數(shù)據(jù),目前新聞文本數(shù)據(jù)的分類仍采用由編輯者進(jìn)行人工分類的方法,這種方法不僅耗費(fèi)了大量人力、物力,而且可能存在分類結(jié)果不一致的情況[1],因此急需建立一個自動文本分類器解決上述問題.

一個文本分類器的實(shí)現(xiàn)主要包括下列3個步驟:1) 特征提取;2) 建立分類器;3) 結(jié)果輸出.在特征提取方面,常用的方法有文檔頻率(document frequency,DF)法、信息增益(information gain,IG)法、互信息(mutual information,MI)法以及TFIDF(term frequency-inverse document frequency)算法等[2].DF法、IG法和MI法都假設(shè)信息量較少的詞對文本的分類過程沒有影響,但這種假設(shè)在分類問題中通常并不成立,所以在實(shí)際應(yīng)用中其很少被單獨(dú)使用.而TFIDF算法的優(yōu)勢是其能同時考慮到低頻詞和高頻詞對分類過程的影響,因此其特征向量提取的效果相對較好.在建立分類器方面,目前較流行的分類算法有最小距離分類器、K-最近鄰分類器和樸素Bayes分類器等.最小距離分類器適用于類間間距大、類內(nèi)間距小的樣本[3];K-最近鄰分類器中K的選擇存在較大的主觀性;而樸素Bayes分類器適用于一般分類樣本且不受主觀因素影響,所以被廣泛應(yīng)用.在結(jié)果輸出方面,通常用準(zhǔn)確率或查全率評價分類器的優(yōu)劣,而為了更全面地研究分類器的輸出結(jié)果,龐劍鋒等[4]將兩者結(jié)合提出了檢測結(jié)果更精準(zhǔn)的F1測試值指標(biāo).

本文考慮樸素Bayes文本分類器對中文新聞文本的分類問題,使用N-gram算法和TFIDF算法提取文本的特征向量,通過Python軟件實(shí)現(xiàn)對中文新聞文本的自動分類.在參數(shù)選擇方面,本文討論了N-gram算法的參數(shù)N、特征向量長度及特征項(xiàng)詞性等對文本分類效果的影響,并得到了參數(shù)的最佳取值.

1 特征向量提取

在處理中文文本時,為了增加文本對計(jì)算機(jī)的可讀性,通常選擇對文本進(jìn)行向量化處理,如將文本d用向量V表示,記為V=(v1,v2,…,vn),其中vi是第i個特征項(xiàng).在提取特征項(xiàng)時,需選擇一個合適的特征項(xiàng),使其既能體現(xiàn)所屬類別的特點(diǎn),又能區(qū)別于其他類別.由于中文文本沒有像英文文本一樣的自然分詞,所以在提取特征向量前需先對文本進(jìn)行分詞處理,再用N-gram算法提取文本特征向量.在選擇特征項(xiàng)時,還可以考察低頻詞和高頻詞對文本分類結(jié)果產(chǎn)生的不同影響,即使用TFIDF算法提取特征向量.

1.1 N-gram算法

當(dāng)分析文中一個詞出現(xiàn)的概率時,通常假設(shè)該詞出現(xiàn)的概率僅與其前若干個詞相關(guān),所以可以用條件概率表示該詞的出現(xiàn)概率,于是一個文本出現(xiàn)的概率可用每個詞出現(xiàn)概率的乘積表示:

P(S)=P(w1,w2,…,wn)=P(w1)P(w2|w1)…P(wn|wn-1,…,w1),

其中:S表示一個文本;wi(i=1,2,…,n)表示文本中的第i個詞.

基于Markov假設(shè)[5]的N-gram算法認(rèn)為在文本中第n個詞出現(xiàn)的概率僅與其前(N-1)個詞相關(guān),其中N

(1)

同理可得3-gram和4-gram模型.3-gram模型表示為

P(S)≈P(w1)P(w2)P(w3|w1,w2)…P(wn|wn-1,wn-2);

4-gram模型表示為

P(S)≈P(w1)P(w2)P(w3)P(w4|w1,w2,w3)…P(wn|wn-1,wn-2,wn-3).

在使用N-gram算法對文本進(jìn)行特征提取時,需主觀賦值N.

1.2 TFIDF基本原理

TFIDF算法的基本思想是對于一個在數(shù)據(jù)集中較少見的詞,若其在某文本中頻繁出現(xiàn),則其很可能反映該文本的重要特征[6].

1.2.1 特征項(xiàng)頻率 特征項(xiàng)頻率(term frequency,TF)用于表示某詞i在文本j中的頻率,記為

(2)

1.2.2 反文本頻率 反文本頻率(inverse document frequency,IDF)表示如果一個詞普遍存在于各類文本中,則該詞對于分類過程不重要[7],詞i的反文本頻率可記為

(3)

其中:N表示測試集中總文本數(shù);ni表示包含詞i在測試集中的文本個數(shù).為使式(3)有意義,引入一個極小的常數(shù)c[8].于是,TFIDF算法的經(jīng)典計(jì)算公式為

TFIDFij=TFij×IDFi,

(4)

其中,TFIDFij值越大表示詞i對文本j越重要.

2 Bayes算法

樸素Bayes分類器在文本分類領(lǐng)域應(yīng)用廣泛,其主要利用文本類別的先驗(yàn)概率和特征向量對類別的條件概率計(jì)算未知文本屬于某一類別的概率.Bayes分類器基于文本特征項(xiàng)間相互獨(dú)立的假設(shè)[9].

2.1 Bayes基本理論

給定一個文本d,特征向量為V=(v1,v2,…,vn),于是d被分類到類別ck的概率為

(5)

其中:P(ck)表示類別ck的概率,為避免P(ck)=0,采用Laplace估計(jì)定義概率[8]為

(6)

|C|表示訓(xùn)練集中類的數(shù)目,Nck表示類別ck中的文本數(shù)目,Nc表示訓(xùn)練集中總文本數(shù)目;P(d)表示未知文本d屬于某一類別的概率是一個不變的常數(shù),

(7)

P(vi|ck)表示類別ck中文本含有vi的概率,

(8)

2.2 樸素Bayes算法

樸素Bayes算法是基于Bayes基本原理對已有文本的訓(xùn)練算法,其基本思想是計(jì)算未知文本d屬于各類的概率,然后將其歸類于c1,c2,…,cn這n個類別中的一個,步驟如下:

1) 利用特征向量提取算法處理待分類文本d,得到特征向量V=(v1,v2,…,vn),由式(8)計(jì)算類別ck中的文本含有vi的概率P(vi|ck),其中:i=1,2,…,|V|;k=1,2,…,Nck;

2) 根據(jù)式(7)和式(8),計(jì)算先驗(yàn)概率P(ck)和P(d);

3) 根據(jù)式(5)計(jì)算分類的后驗(yàn)概率,即未知文本屬于各類的概率P(ck|d),并比較其大小,選擇將其劃分到概率最大的一個類別,公式為

(9)

2.3 樸素Bayes分類器設(shè)計(jì)

圖1 文本分類器流程Fig.1 Flow chart of text classifier

在建立文本分類器時,通常把工作分為兩部分:第一部分是訓(xùn)練過程,包括訓(xùn)練文本的預(yù)處理和特征抽取;第二部分是新文本的分類過程,包括新文本預(yù)處理和結(jié)果輸出.文本分類器流程如圖1所示.

在訓(xùn)練文本預(yù)處理階段,先用Python的 jieba分詞組件對訓(xùn)練集文本進(jìn)行分詞處理,同時去除停用詞和可能存在的空格或標(biāo)點(diǎn)符號;然后將文本打亂,隨機(jī)分成訓(xùn)練集和測試集.在訓(xùn)練集特征抽取時,本文選擇N-gram算法,提取出現(xiàn)詞頻前(N-1)個詞作為特征項(xiàng)組成各類文本的特征向量.

在分類過程中,首先對新文本進(jìn)行預(yù)處理,使用TFIDF算法將文本轉(zhuǎn)化成向量的形式,然后利用樸素Bayes文本分類器對新文本進(jìn)行分類.

3 實(shí) 驗(yàn)

在樸素Bayes文本分類器中,除數(shù)據(jù)集的容量會影響分類的準(zhǔn)確性外,還有一些相關(guān)參數(shù)的設(shè)定也會對分類效果產(chǎn)生較大影響.本文通過實(shí)驗(yàn)分析以下3個參數(shù)的取值問題:

1)N-gram算法中參數(shù)N;

2) 各類別特征向量長度n;

3) 特征項(xiàng)的詞性.

3.1 實(shí)驗(yàn)數(shù)據(jù)集及評價指標(biāo)

本文選取近年各大新聞網(wǎng)站的新聞文本,該數(shù)據(jù)集包括汽車、娛樂、軍事、體育、科技等5個新聞類別,每個類別選取20 000個新聞文本,隨機(jī)選取66 446個樣本作為訓(xùn)練集,用于分析gram的長度及特征向量長度對分類結(jié)果的影響.本文重新搜集了80個測試樣本(新測試樣本與上述數(shù)據(jù)集交集為空),用于分析文本特征項(xiàng)詞性對分類結(jié)果的影響.

在分析樸素Bayes文本分類器的結(jié)果輸出階段,為同時考慮準(zhǔn)確率和查全率,本文采用F1指標(biāo)度量分類結(jié)果[3]:

(10)

3.2 實(shí)驗(yàn)結(jié)果與分析

3.2.1 gram長度及特征向量長度 將數(shù)據(jù)集分成由66 446個文本組成的訓(xùn)練集和33 554個文本組成的測試集.通過設(shè)置不同的gram長度和特征向量長度,研究相關(guān)參數(shù)的最優(yōu)設(shè)置,所得結(jié)果列于表1.

表1 不同gram長度及特征向量長度下的分類準(zhǔn)確性

圖2 不同gram長度和特征向量長度下的分類準(zhǔn)確率Fig.2 Classification accuracy under different gram lengths and feature vector lengths

由表1可見,對于任意的N-gram模型,如果特征向量的長度小于10 000,則分類器的準(zhǔn)確率都小于0.85.為保證分類器的準(zhǔn)確率,本文僅研究特征向量長度大于10 000的情形.當(dāng)gram長度固定時,特征向量越長分類準(zhǔn)確率越高,但在實(shí)際應(yīng)用中還需考慮時間成本,因此特征向量不宜過長.

圖2為不同gram長度和特征向量長度下的分類準(zhǔn)確率.由圖2可見,當(dāng)特征向量的長度從10 000增加到15 000或從20 000增加到25 000時,分類準(zhǔn)確率的增加最明顯,分別提高了0.009 3和0.007 9.

3.2.2 特征向量詞性 在使用TFIDF算法時,適當(dāng)?shù)剡x擇特征項(xiàng)詞性可在很大程度上降低文本分類的時間成本,并提高分類準(zhǔn)確率.本文考察了特征項(xiàng)既有名詞和又有動詞、僅為名詞、僅為動詞這3種情況對分類的影響,結(jié)果列于表2.由表2可見:當(dāng)未知文本特征項(xiàng)詞性為動詞和名詞時,樸素Bayes文本分類器的文本正確分類數(shù)量最多,為53個;僅為名詞時次之,為49個;僅為動詞時最差,為34個.這主要是因?yàn)樾侣勵愇谋镜奶卣黜?xiàng)大多數(shù)為名詞,去掉動詞特征項(xiàng)對特征向量影響較小,所以當(dāng)特征項(xiàng)僅為名詞時,正確分類數(shù)量下降不明顯;但若去掉名詞特征項(xiàng)將對特征向量產(chǎn)生巨大影響,進(jìn)而使分類錯誤概率極大增加.

表2 樸素Bayes文本分類器的分類結(jié)果

表3列出了樸素Bayes文本分類器的分類準(zhǔn)確率、查全率及F1指標(biāo)值.由表3可見,當(dāng)未知文本特征項(xiàng)詞性為動詞和名詞時,F1指標(biāo)值最大為0.662 5,說明分類效果最好;僅為名詞時,分類效果與為動詞和名詞的情況相差較小,達(dá)0.612 5;僅為動詞時分類效果最差,僅為0.425.所以,在對F1指標(biāo)的大小要求不嚴(yán)格但對訓(xùn)練時間限制嚴(yán)格的情況下,可以僅選擇名詞作為特征項(xiàng).

表3 樸素Bayes分類器分類結(jié)果的相關(guān)指標(biāo)

綜上所述,本文建立了用于處理中文新聞文本分類問題的樸素Bayes文本分類器,在訓(xùn)練階段采用N-gram算法提取各類文本的特征向量,在實(shí)驗(yàn)階段使用TFIDF算法提取未知文本的特征向量.由于N-gram算法處理訓(xùn)練集的速度比TFIDF算法快,所以本文針對不同數(shù)量級的數(shù)據(jù)集采取不同的特征提取算法,即對訓(xùn)練集使用N-gram算法,對未知文本使用TFIDF算法.在此基礎(chǔ)上,本文還考察了構(gòu)建文本分類器中抽取特征向量階段的參數(shù)選擇問題,即N-gram模型中的N、特征向量長度n和特征向量詞性等3個參數(shù),得出結(jié)論如下:

1) 對于新聞類文本,2-gram模型和4-gram模型的分類準(zhǔn)確性較高;

2) 在N確定的條件下,特征向量長度與分類準(zhǔn)確率成正比;特別地,當(dāng)向量的長度從10 000增加到15 000和從20 000增加到25 000時,分類器準(zhǔn)確率增幅最大;

3) 對于TFIDF算法,特征項(xiàng)詞性為動詞和名詞時分類準(zhǔn)確率最高,特征項(xiàng)僅為名詞時準(zhǔn)確率降低,僅為動詞時準(zhǔn)確率最低,所以在選擇詞性時應(yīng)避免僅選擇動詞.

猜你喜歡
樸素特征向量分類器
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
隔離樸素
樸素的安慰(組詩)
他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
最神奇最樸素的兩本書
一類特殊矩陣特征向量的求法
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
三河市| 平武县| 东乡| 邓州市| 青冈县| 花莲市| 南涧| 区。| 遂川县| 名山县| 黑河市| 金阳县| 新竹县| 肇源县| 桂阳县| 封开县| 宁明县| 临湘市| 会理县| 应城市| 惠州市| 开封市| 洪泽县| 饶河县| 南涧| 西平县| 娱乐| 盐边县| 金湖县| 阜城县| 南乐县| 子长县| 安吉县| 独山县| 旅游| 锡林浩特市| 普陀区| 黄梅县| 平武县| 梁河县| 文化|