国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文文本分類方法研究

2019-05-24 14:11李凱
電腦知識(shí)與技術(shù) 2019年4期
關(guān)鍵詞:文本分類特征選擇權(quán)重

李凱

摘要:由于現(xiàn)實(shí)生活中大多數(shù)信息被存儲(chǔ)為文本,因此文本挖掘具有在商業(yè)上的高潛在價(jià)值。實(shí)際應(yīng)用中可以從許多信息來源中挖掘知識(shí),然而,非結(jié)構(gòu)化文本仍然是最容易獲得的知識(shí)來源。該文介紹了文本分類的過程以及對(duì)三種分類器的概述,并在最后對(duì)三種分類器分別實(shí)驗(yàn),以及對(duì)實(shí)驗(yàn)結(jié)果分析得知本實(shí)驗(yàn)環(huán)境下支持向量機(jī)分類器的分類效果要好于另外兩種分類器。

關(guān)鍵詞:文本分類;文本表示;特征選擇;權(quán)重;文本分類器

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)04-0242-03

Abstract: Since most of the information in real life is stored as text, text mining has high commercial potential. In practice, knowledge can be mined from many sources of information, however, unstructured text is still the most accessible source of knowledge.This paper introduces the process of text classification and the overview of the three classifiers. Finally, the experiments of the three classifiers and the analysis of the experimental results show that the classification effect of the support vector machine classifier is better than the other two classifiers.

Key words: text classification;text representation;feature selection;weightstext classifier

自數(shù)字文檔開始以來,自動(dòng)文本分類一直是一個(gè)重要的應(yīng)用和研究課題。文本分類(text categorization)是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別這三個(gè)學(xué)科在某一具體領(lǐng)域應(yīng)用的結(jié)合。由于我們每天都要處理大量的文本文檔,因此,對(duì)文本分類的研究是十分有必要的。

1文本分類的一般過程

文本分類的任務(wù)可以近似為一個(gè)未知的目標(biāo)函數(shù)Φ:D×C→{T, F},其中,D={[d1],[d2],…,[d|D|]}是一個(gè)文檔的領(lǐng)域,C={[c1],[c2],…,[c|C|]}是一組預(yù)定義的類別。對(duì)于<[dj],[ci]>來說T值與F值分別表示文檔[dj]是否屬于類[ci][1]。

2文本預(yù)處理

文本預(yù)處理的主要任務(wù)是首先對(duì)中文文本進(jìn)行分詞處理,然后再刪除停用詞。由于中文中的單詞之間沒有像英文單詞間可以利用空格作為明顯的分割標(biāo)記,因此首先要對(duì)文本進(jìn)行分詞處理[2]。

中文分詞方法主要方法以及分詞方法之間的比較如表1表示。

3文本表示

5文本分類算法

5.1樸素貝葉斯分類器

樸素貝葉斯分類器(NB)是一種基于貝葉斯定理的概率分類器,具有強(qiáng)大的獨(dú)立性假設(shè)。它被認(rèn)為是最基本的文本分類技術(shù)之一,在垃圾郵件檢測(cè)、個(gè)人郵件分類、文檔分類、語言檢測(cè)和情感檢測(cè)等方面有著廣泛的應(yīng)用。貝葉斯分類器計(jì)算量小,訓(xùn)練數(shù)據(jù)量小,是一種高效的分類器[4]。

5.2基于支持向量機(jī)的分類器

基于支持向量機(jī)(SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)算法。SVM通常被用于解決線性約束凸二次規(guī)劃問題(QP),并且該解決方案具有唯一的最優(yōu)超平面,它的最終目標(biāo)是找到這樣的最優(yōu)的高維分類超平面。

5.3 k-最近鄰法

k-最近鄰法(KNN)是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,它預(yù)先存儲(chǔ)所有可用的樣本,并基于相似性度量(如距離函數(shù))對(duì)新的樣本進(jìn)行分類。KNN算法是基于空間中接近的點(diǎn)(文檔)屬于同一類的原則。

6文本分類性能評(píng)測(cè)

常用的文本分類器性能評(píng)價(jià)方法有召回率(Recall),準(zhǔn)確率(Precision),F(xiàn)-度量值等。

7 實(shí)驗(yàn)結(jié)果與分析

本實(shí)驗(yàn)的數(shù)據(jù)采用搜狗新聞數(shù)據(jù)集,該數(shù)據(jù)集一共有10類新聞,每類新聞60000條文本數(shù)據(jù),其中訓(xùn)練集取90%,測(cè)試集取10%。本實(shí)驗(yàn)文檔都是以空間向量的形式表示并且采用信息增益法與TF-IDF權(quán)值法來進(jìn)行特征選擇與特征權(quán)重的計(jì)算。我們從預(yù)處理好的文本中提取80%作為訓(xùn)練文本集,20%作為測(cè)試文本集, 分別將文本集投入樸素貝葉斯分類器(NB)、支持向量機(jī)分類器(SVM)、k-最近鄰分類器(KNN)三種分類器中進(jìn)行三組實(shí)驗(yàn)。為了評(píng)估短文本分類系統(tǒng)的性能,評(píng)估方法選擇了傳統(tǒng)的評(píng)估標(biāo)準(zhǔn):準(zhǔn)確率P、召回率 R ,以及兩者的綜合評(píng)價(jià) F-度量值。實(shí)驗(yàn)結(jié)果如表2:

從上表來看, 準(zhǔn)確率在整體上是要明顯高于召回率。KNN分類器的準(zhǔn)確率最高, SVM分類器的召回率最高。從宏平均F-度量值上看, 樸素貝葉斯分類器和K-最近鄰分類器在分類效果上相差較小。支持向量機(jī)分類器在分類效果上較優(yōu)于另外兩種分類器。文本分類的過程中在數(shù)據(jù)預(yù)處理時(shí)采取的分詞方法和特征選擇方法對(duì)分類效果是有直接影響的,因此上述結(jié)論不是絕對(duì)的。

8結(jié)語

本文主要分析了文本分類的過程并在最后描述了分類器性能評(píng)價(jià)并從實(shí)驗(yàn)上進(jìn)行比較。通常情況下,不能將單個(gè)文本表示方法和分類器作為任何通用的模型。應(yīng)根據(jù)數(shù)據(jù)的特征,選擇相應(yīng)的文本表示方法和分類器,以此來確保分類結(jié)果達(dá)到預(yù)期的效果。

參考文獻(xiàn):

[1] 宗成慶.統(tǒng)計(jì)自然語言處理[M].清華大學(xué)出版社,2013.

[2] 林少波.中文文本分類特征提取方法的研究與實(shí)現(xiàn)[D].重慶大學(xué),2011.

[3] 奉國和.文本分類性能評(píng)價(jià)研究[J].情報(bào)雜志,2011,30(8):66-70.

[4] YAN Rui, CAO Xian-bin, LI Kai, Dynamic Assembly Classification Algorithm for Short Text[J].ACTA ELECTRONICA SINICA,2009,37(5):1019-1024.

[5] 申紅,呂寶糧,內(nèi)山將夫,等.文本分類的特征提取方法比較與改進(jìn)[J].計(jì)算機(jī)仿真,2006(3):222-224.

【通聯(lián)編輯:唐一東】

猜你喜歡
文本分類特征選擇權(quán)重
權(quán)重常思“浮名輕”
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
Kmeans 應(yīng)用與特征選擇
基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
基于二元搭配詞的微博情感特征選擇
層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型