国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合CRFs & SVM應用于文本信息分類

2020-02-24 05:35:34胡改蝶馬建芬
關鍵詞:查全率查準率類別

胡改蝶, 馬建芬

(1.太原工業(yè)學院 計算機工程系,山西 太原 030008;2.太原理工大學 信息與計算機學院,山西 太原 030024)

0 引言

隨著網(wǎng)絡的日益發(fā)展,網(wǎng)絡信息的增長也愈來愈快,其中文本信息是網(wǎng)絡信息中最重要的一部分。如何快速且有效地對文本信息進行合理的組織、管理和使用,從而進一步促進文本信息分類的發(fā)展已成為組織文本數(shù)據(jù)的關鍵技術[1-2]。

分類本質(zhì)上就是在特征向量x=(x1,x2,…,xk)給定的條件下,估計離散類變量y?;跈C器學習的分類方法有產(chǎn)生式模型(Generative Model,簡稱GM)與判別式模型(Discriminative Model,簡稱DM)。二者的主要區(qū)別在于:前者是將估計聯(lián)合分布概率作為輸入和輸出,它的局限在于維數(shù)特別大,特征也有很大的依賴性,后者是估計條件概率,然后進行分類,以此來解決前面所述的問題[3];前者的觀察序列可以是模型的一部分,后者的觀察序列只可以是條件;前者是針對無窮樣本,后者是針對有限樣本[4]。文本信息分類就是用自動化的技術將文本樣例分配到一組預定義的類別中的一個或多個的過程[5-6]。在文本信息分類中用到了很多技術,常見的判別式模型有條件隨機場(Conditional Random Fields,簡稱CRFs)、支持向量機(Support Vector Machine,簡稱SVM)和最大熵模型(Maximum Entropy Method,簡稱MEM)等。

基于條件隨機場和支持向量機2種方法,運用循序漸進的方法,先通過條件隨機場得到特征集,隨后通過支持向量機再進行訓練和分類,最終得出比傳統(tǒng)SVM分類效果更好的混合方法。將混合CRFs & SVM方法運用到文本信息分類中,從而對文本信息獲取更好的分類。最后利用文本集對此方法進行實驗,并與傳統(tǒng)SVM方法作了相應對比,驗證了CRFs & SVM方法的有效性。

1 CRFs & SVM

1.1 條件隨機場(CRFs)

條件隨機場是基于統(tǒng)計的判別式模型之一,是在給定一輸入序列的前提下,求出標注序列的概率模型,本質(zhì)上是整合了分類和圖像模型優(yōu)點的一種模型。經(jīng)常使用的是線性鏈式CRFs。其定義是[4]:設x和y為隨機變量,θt為從訓練集中訓練所得到的參數(shù)變量,ft(yk,yk-1,xk)為一組真值特征函數(shù),k表示序列位置,此時CRFs的條件概率

(1)

式中,z(x)為歸一化因子

(2)

CRFs對獨立性假設和數(shù)據(jù)歸納偏注問題解決有很大的見解,同時CRFs具有產(chǎn)生式模型的特點,對上下文的文本信息描述有特別好的效果,并對所有特征進行全局歸一化[7]。它主要用于分詞、詞性標注、文本處理、圖像分類、實體識別和生物信息學等范疇的研究。

1.2 支持向量機(SVM)

支持向量機是一種結(jié)構(gòu)風險最小化的統(tǒng)計學習方法,是基于分類邊界的方法,主要應用于小樣本分類。SVM大致分為線性可分的、線性不可分和非線性3種情況。第一種情況是通過最大化邊緣的超平面來實現(xiàn)的;第二種情況是通過定義松弛變量,存放到邊緣的離差來實現(xiàn)的;第三種情況是將其低維空間中的點映射到新的高維空間,可以用適當?shù)暮撕瘮?shù),將其轉(zhuǎn)換成線性可分,然后辨別分類的邊界,從而大大避免維數(shù)災難問題[8]。即支持向量機的主要思想是通過非線性變換將輸入空間變換到高維特征空間,再求出最優(yōu)線性分類面[9]。

支持向量機是一種神經(jīng)網(wǎng)絡,它對分類做出了巨大貢獻,得到國內(nèi)外諸多研究人員的高度重視,并將其理論在多個領域應用,如在文本分類、語音方面、數(shù)據(jù)挖掘、圖像分類和字符識別范疇都有廣泛應用。

1.3 CRFs & SVM

基于CRFs和SVM的特點,從理論上講,將二者結(jié)合起來是可以應用在多個研究領域的。CRFs和SVM的結(jié)合方法有:順序法,即第二個的分類器的輸入是第一個分類器的輸出;并列法,即同時用2種方法進行分類后,再將其進行整合,以此得到最終的分類結(jié)果[10]。本文采用順序法進行研究。將文本信息的訓練集通過CRFs得出特征集,然后將其送入SVM,再次進行訓練,最后得出分類結(jié)果[11]。這種方法的優(yōu)點是CRFs 的上下文相關性可以解決文本信息的不確定分類問題。CRFs & SVM定義

(3)

式中,H(yk,xk)為第k個序列位置只考慮當前觀測值的后驗概率。

CRFs訓練是將文本信息數(shù)據(jù)集轉(zhuǎn)換成適合CRFs的文本信息訓練集,然后用訓練集生成一個模型文件,從而得到特征總數(shù)集及每一特征出現(xiàn)次數(shù),最后對參數(shù)進行訓練[11]。本文條件隨機場的訓練是用CRF++0.53實現(xiàn)。

SVM訓練主要是解決后驗概率問題,此處可由對偶分類耦合來得出多類分類的后驗概率。假設觀察x和類標簽y,k,t為訓練集中類別的位置,用對偶分類的條件概率μkt=p(y=k/y=kort,x)的耦合類的估計值rkt來估計后驗概率pk=P(y=k/x),k=1,2,…,K(其中K為類別的數(shù)目)。通過優(yōu)化后的后驗概率[12-13]

(4)

式中,rkt=P(y=k/y=kort,x)=1/(1+eAf+B),f為決策函數(shù)分類值,A、B是訓練所得的參數(shù)。

2 實驗與分析

2.1 實驗環(huán)境、文本集與測量標準

為了對上述CRFs & SVM方法進行驗證,本實驗將同一組文本集分別在傳統(tǒng)的SVM方法和混合CRFs & SVM方法上進行了分類實驗。本文的實驗環(huán)境是Microsoft Windows7操作系統(tǒng),Intel(R) Core(TM) I5-6200U CPU @2.30 GHz 處理器,4.00 G內(nèi)存,64位操作系統(tǒng)。用到的工具有Visual Studio 2010、CRF++0.53和Visual C++6.0。

用到的實驗文本集為復旦大學提供的分類文本集,該文本集包括訓練文本集和測試文本集,從中抽取了7個類別,分別是經(jīng)濟、計算機、軍事、藝術、醫(yī)藥、教育和政治。訓練文本集和測試文本集相互之間不重疊,從中抽取訓練文本集1 052個,測試文本集有577個,共計1 719個文本集,其類別及文本集統(tǒng)計數(shù)如表1所示。

表1 類別及文本集

分類實驗用查全率(Recall,簡稱R)、查準率(Precision,簡稱P)和F1-測量(F1-Measure,簡稱F1)來衡量的[14-15],其中F1-測量是由查全率和查準率2個值綜合而來的。同時求出了所有類別的查全率、查準率和F1-測量的平均值(Average,簡稱A),用其對分類效果進行衡量。

2.2 實驗對比結(jié)果與分析

一般情況下,SVM分類算法優(yōu)于其他的分類算法,因而實驗中用傳統(tǒng)SVM和混合CRFs & SVM 2種方法對文本信息進行分類,并進行比較分析。實驗中傳統(tǒng)SVM方法的特征選擇用的是卡方統(tǒng)計法,特征加權(quán)算法選擇TF·IDF算法,特征空間數(shù)目選擇800。

為了與傳統(tǒng)SVM方法進行比較,實驗共使用了3種方式在相同實驗環(huán)境下對同一組文本集進行分類實驗,實驗分類對比效果如表2所示。從表2中可以看到,采用CRFs & SVM方法后,除了在經(jīng)濟和政治類別的查全率略小、經(jīng)濟類別的F1-測量值略小外,其余類別的查全率、查準率和F1-測量結(jié)果均有明顯提升,都得到了較好的分類效果,準確率大大提升,尤其是對軍事、藝術和醫(yī)藥類別的分類效果非常好。同時也可看到,CRFs & SVM方法的查全率、查準率和F1-測量的平均值分別達到了0.958、0.964和0.961,其平均值均比傳統(tǒng)SVM方法的分類值高。通過對分類后的查全率、查準率和F1-測量進行對比,盡管分類后高出的值并不是很突出,但整體來看,CRFs & SVM方法的分類效果要好。

表2 分類對比效果

圖1 查全率對比圖

各類別運用2種方法分類后的對比效果如圖1、圖2和圖3所示。從圖1、圖2和圖3的對比效果可知,CRFs & SVM方法的查全率、查準率和F1-測量的分類值均高于傳統(tǒng)SVM方法。

實驗結(jié)果表明,CRFs & SVM方法不僅可以消除上下文的不相關性,達到降低特征維數(shù)的效果,解決文本信息的不確定分類問題,從而使分類的效果具有一定的優(yōu)越性,而且CRFs & SVM方法可以對文本信息進行分類,進一步驗證了CRFs & SVM方法適用于文本信息分類,使用此方法進行文本信息分類是有效的、可行的,在文本信息分類中有一定的實用價值。

圖2 查準率對比圖

圖3 F1對比圖

3 結(jié)語

以文本信息為研究對象,探討了條件隨機場方法和支持向量機方法。采用條件隨機場和支持向量機結(jié)合起來的方法—CRFs & SVM方法,并將CRFs & SVM方法運用到文本信息分類中。不僅可解決特征集出現(xiàn)次數(shù)問題,同時還解決了分類后驗概率問題。經(jīng)過實驗將其分類效果與傳統(tǒng)SVM方法效果進行了對比,實驗證明CRFs & SVM方法對文本信息分類的優(yōu)越性,適用于文本信息分類領域,具有分類的實踐性和實用性,可以為分類領域提供可靠的研究依據(jù)。但是部分文本信息分類效果還有待提高,在今后的研究中,努力探索二者的結(jié)合性,達到更好的分類優(yōu)化,并在更大的文本信息集上實現(xiàn)更好的分類效果。

猜你喜歡
查全率查準率類別
海量圖書館檔案信息的快速檢索方法
基于詞嵌入語義的精準檢索式構(gòu)建方法
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
服務類別
新校長(2016年8期)2016-01-10 06:43:59
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
中文分詞技術對中文搜索引擎的查準率及查全率的影響
聚合酶鏈式反應快速鑒別5種常見肉類別
食品科學(2013年8期)2013-03-11 18:21:31
基于Web的概念屬性抽取的研究
乌审旗| 美姑县| 个旧市| 景洪市| 新巴尔虎左旗| 吉林市| 延川县| 交口县| 奇台县| 峨边| 抚顺县| 定南县| 蒙城县| 嘉祥县| 卢湾区| 承德市| 永昌县| 孝昌县| 鹿邑县| 景谷| 会宁县| 蓬溪县| 宿迁市| 拉萨市| 临清市| 湟源县| 庆元县| 大英县| 汪清县| 禹城市| 台安县| 新田县| 海口市| 乌恰县| 左权县| 湖州市| 新建县| 兴国县| 北宁市| 遵义县| 潍坊市|