国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人大報(bào)告內(nèi)容的文本分類

2021-06-28 12:42:42李紅蓮呂學(xué)強(qiáng)
關(guān)鍵詞:分類器預(yù)處理向量

喻 航,李紅蓮,呂學(xué)強(qiáng)

(1.北京信息科技大學(xué) 信息與通信工程學(xué)院,北京 100101; 2.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101)

0 引 言

各級(jí)人大在不斷完善自身的工作方式,在人大建設(shè)的過程中,信息化建設(shè)[1]越來越受到工作人員的重視。人大相關(guān)工作的總結(jié),所需要的信息量巨大,類別廣泛,想要準(zhǔn)確找到相對(duì)應(yīng)的工作內(nèi)容,檢索起來并不容易。所以,人大報(bào)告輔助生成系統(tǒng)的建立,就需要對(duì)文本分類,把文本分成不同的內(nèi)容寫入報(bào)告。

文本分類技術(shù)是自然語言處理學(xué)科領(lǐng)域中一項(xiàng)基本技術(shù)[2]。傳統(tǒng)機(jī)器學(xué)習(xí)中一般采用Naive-Bayes分類[3]、KNN[4]、SVM[5]、邏輯回歸[6]或者隨機(jī)森林[7]等分類方法。應(yīng)當(dāng)依據(jù)具體情況來挑選適當(dāng)?shù)奈谋痉诸惼鳌H绻龅骄薮髷?shù)據(jù)量,特征向量也非常多時(shí),就要用到神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型。

本文對(duì)人大報(bào)告中必要的兩大部分進(jìn)行文本分類,監(jiān)督工作和代表工作是每年人大報(bào)告中最重要的兩大部分,其相關(guān)工作內(nèi)容的資料在收集時(shí)較難區(qū)分資料的所屬類別,用結(jié)合TF-IDF的ERNIE文本分類模型可以幫助人大工作人員,在眾多的資料中快速準(zhǔn)確地分辨監(jiān)督工作和代表工作。采用了加入TF-IDF的ERNIE模型對(duì)人大報(bào)告文本分類,其準(zhǔn)確率、召回率和F1得分有所提高,收斂速度明顯加快。

1 文本分類流程

人大報(bào)告的寫作內(nèi)容較為固定。有以下特點(diǎn),人大報(bào)告篇幅長(zhǎng),特征詞匯多,篇章結(jié)構(gòu)格式鮮明。在分類之前先對(duì)文本預(yù)處理。預(yù)處理之后進(jìn)行特征提取。人大報(bào)告都是中文語料,ERNIE模型處理中文語料效果好,選用此模型來訓(xùn)練分類器。本文對(duì)人大報(bào)告中的監(jiān)督工作和代表工作分類的框架如圖1所示。

圖1 文本分類過程

1.1 數(shù)據(jù)預(yù)處理

本文以人大報(bào)告中監(jiān)督工作和代表工作的相關(guān)內(nèi)容作為訓(xùn)練集和測(cè)試集。做文本分類工作,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是必不可少的過程。對(duì)于中文文本而言,數(shù)據(jù)預(yù)處理包括:中文分詞、詞性標(biāo)注(如果分類需要詞性特征)、去停用詞等等。其中的分詞是把文本分解成詞語的集合,去除停用詞是用來去掉一些沒什么含義的詞語,會(huì)對(duì)分類產(chǎn)生影響的詞,比如:你、我、他、的等等。本文對(duì)人大報(bào)告的預(yù)處理步驟如圖2所示。

1.2 基于TF-IDF的特征提取

加入特征提取,就是提取想要用作分類的特征,具體包括TF-IDF計(jì)算[8]、n-gram[9]、word2vec[10]、LDA[11]等。本文選用TF-IDF對(duì)詞向量進(jìn)行加權(quán)平均,其中TF-IDF特征能夠在一定程度上表現(xiàn)詞的重要性,TF計(jì)算的常用式為

(1)

式中:nij表示詞i在文檔j中的出現(xiàn)頻次。IDF計(jì)算的常用式為

(2)

式中:|D|為文檔集中總文檔數(shù),|Di|為文檔集中出現(xiàn)詞i的文檔數(shù)量。分母加一是采用了拉普拉斯平滑,以規(guī)避出現(xiàn)部分新詞沒有出現(xiàn)在語料庫中導(dǎo)致的分母為0的情形,使算法增加了健壯性。綜合使用公式為

(3)

這些作為基于TF-IDF提取出來的特征,作為額外的特征輸入。

2 ERNIE

本文提出了一種在ERNIE模型[12]中加入TF-IDF提取的特征來進(jìn)行區(qū)級(jí)人大報(bào)告內(nèi)容的文本分類工作。

2.1 Self-Attention機(jī)制

ERNIE模型,其建模過程中利用了多頭自注意力機(jī)制(multi-head attention),來算一個(gè)句子中的每個(gè)詞和這句中其它詞的相互聯(lián)系,Self-Attention機(jī)制在本質(zhì)上是在網(wǎng)絡(luò)的各個(gè)部位對(duì)輸入向量進(jìn)行加權(quán),由此表示輸入文本中不同詞語特征對(duì)文本分類的不同影響力。文本的特征表示計(jì)算公式如下

at=Wxt

(4)

(5)

(6)

{x1,x2,…,xp}是輸入的詞向量序列,t=1,2,…,p。每個(gè)詞向量都通過變換映射出q、k和v這3個(gè)矩陣,其中,d的取值為q的維數(shù),然后使用歸一化函數(shù)計(jì)算權(quán)重s1,t,把每個(gè)權(quán)重和對(duì)應(yīng)向量相乘再累加求和就得到第一個(gè)詞的向量。

2.2 ERNIE模型

ERNIE的建模方式與其它模型相比,可以更好捕捉中文之間的關(guān)系。如圖3所示,對(duì)于朝[MASK]區(qū),通過“朝”與“區(qū)”局部的字詞搭配,就能夠較為容易地推斷出掩碼字為“陽”,但是,模型卻沒有學(xué)習(xí)與“北京市”相關(guān)的知識(shí)。而ERNIE通過引入對(duì)詞的整體遮蔽,使模型能夠從更長(zhǎng)的距離建模出“朝陽區(qū)”與“北京市”的關(guān)系,學(xué)到“朝陽區(qū)”是“北京市”的一個(gè)行政區(qū)以及“朝陽區(qū)”是一個(gè)舉辦過奧運(yùn)會(huì)的城區(qū)。

圖3 建模方式

在預(yù)訓(xùn)練時(shí),把知識(shí)圖譜的實(shí)體通過知識(shí)嵌入法與單詞相匹配,完成實(shí)體對(duì)齊任務(wù)。在預(yù)訓(xùn)練的基礎(chǔ)上,ERNIE模型隨機(jī)mask單詞,除了用本地上下文預(yù)測(cè)單詞之外,還加入了實(shí)體信息,通過加入的實(shí)體信息可以預(yù)測(cè)單詞并學(xué)到詞之間的語義關(guān)系。

ERNIE的整個(gè)模型架構(gòu)由兩個(gè)堆疊的模塊構(gòu)成:①文本編碼器(T-Encoder),如圖4所示,負(fù)責(zé)從文本中捕獲基本的單詞和語義信息;②知識(shí)型編碼器(K-Encoder),如圖5所示,負(fù)責(zé)把額外的知識(shí)圖譜信息整合到來自T-Encoder的文本信息中,這樣就可以在一個(gè)統(tǒng)一的特征空間中表示詞匯信息和實(shí)體的信息了。其中,用N表示T-Encoder的層數(shù),用M表示K-Encoder的層數(shù)。

圖4 T-Encoder文本編碼器

圖5 K-Encoder知識(shí)型編碼器

在T-Encoder這一部分的工作中,首先對(duì)詞嵌入向量、句嵌入向量、位置信息向量進(jìn)行對(duì)應(yīng)相加,作為T-Encoder的輸入,也就是圖4中的輸入。然后再計(jì)算詞法和語義特征,計(jì)算公式為

{w′1,…,w′n}=T-Encoder({w1,…,wn})

(7)

式中:{w1,…,wn}為n個(gè)輸入詞語。

在K-Encoder這部分中,通過知識(shí)圖譜嵌入法(TransE)將實(shí)體{e1,…,em}轉(zhuǎn)為對(duì)應(yīng)向量表示{e′1,…,e′m}。然后將{e′1,…,e′m}和{w′1,…,w′n}作為K-Encoder的輸入,計(jì)算公式為

(8)

2.3 TF-IDF+ERNIE人大報(bào)告分類算法

綜上所述,本文所提TF-IDF+ERNIE對(duì)人大報(bào)告內(nèi)容分類的算法,步驟如下:

步驟1 用TF-IDF算法首先對(duì)訓(xùn)練集進(jìn)行特征詞抽取,并將得到的特征詞ti作為額外的特征輸入。

步驟2 把訓(xùn)練集進(jìn)行預(yù)處理,得到經(jīng)過預(yù)處理的訓(xùn)練集D={(x1,y1),(x2,y2),…,(xp,yp)},其中,xp是經(jīng)過預(yù)處理的人大報(bào)告文本,yp是每段經(jīng)過預(yù)處理人大報(bào)告所屬類別,p=1,2,…m。

步驟4 將得出的特征表示輸入進(jìn)Softmax模型中,對(duì)人大報(bào)告文本進(jìn)行分類。

3 實(shí)驗(yàn)以及結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境為Intel Core i5-8250U處理器,主頻為1.6 GHz,內(nèi)存為8 G、64位的PC電腦。操作系統(tǒng)為Windows10,編程使用Python語言,編譯環(huán)境使用JetBrains PyCharm Community Edition 2017.3.4 x64。

開發(fā)平臺(tái)為PyTorch 1.1.0,此外,主要用到的工具包還包括numpy等等。

3.2 數(shù)據(jù)集和參數(shù)設(shè)置

為測(cè)試此項(xiàng)文本分類方法的性能,本次使用全國(guó)20個(gè)城市所屬的各個(gè)區(qū)縣的人大報(bào)告數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。本次的數(shù)據(jù)集包含了從2009到2019年一共5584段報(bào)告內(nèi)容,實(shí)驗(yàn)用4472段作為訓(xùn)練集來訓(xùn)練模型,使用1112段語料作為測(cè)試集測(cè)試性能好壞。實(shí)驗(yàn)數(shù)據(jù)分布見表1。

表1 區(qū)級(jí)人大報(bào)告分類實(shí)驗(yàn)數(shù)據(jù)

在ERNIE神經(jīng)網(wǎng)絡(luò)模型中,不同參數(shù)的設(shè)置對(duì)最后得到的實(shí)驗(yàn)結(jié)果影響很大,所以通過參閱相關(guān)文獻(xiàn),對(duì)參數(shù)進(jìn)行微調(diào),本次實(shí)驗(yàn)使用的主要參數(shù)見表2。

表2 ERNIE分類模型主要參數(shù)

3.3 評(píng)價(jià)指標(biāo)

對(duì)本文的文本分類的方法進(jìn)行評(píng)價(jià),使用準(zhǔn)確率(Precision)、召回率(Recall)并且使用F值(F-Measure)來對(duì)模型進(jìn)行綜合評(píng)價(jià)。其中,準(zhǔn)確率和召回率是檢索(IR)系統(tǒng)中的概念,也可使用于對(duì)分類器的性能進(jìn)行評(píng)價(jià)。將正確分到某類的文本數(shù)記為A,錯(cuò)誤分到該類別的文本數(shù)記為B,把錯(cuò)誤地分到了其它類的文本數(shù)記為C。其中,各個(gè)指標(biāo)的計(jì)算公式如下

(9)

(10)

(11)

準(zhǔn)確率和召回率是相互影響的,一般情況下準(zhǔn)確率高、召回率就低;召回率低、準(zhǔn)確率高。指標(biāo)P和R有時(shí)可能出現(xiàn)矛盾的情況,這就需要將它們進(jìn)行平衡,最常見的方法為F1-Measure(又稱為F1-Score)。F1-Measure是Precision和Recall的加權(quán)調(diào)和平均。

3.4 結(jié)果分析

為測(cè)試模型的有效性,實(shí)驗(yàn)使用多種方法進(jìn)行比較,對(duì)比實(shí)驗(yàn)是在分類器之前,采用不同方法對(duì)文本提取特征,分別為基于詞袋模型特征的方法,以及基于TF-IDF的方法來計(jì)算特征權(quán)重,對(duì)比模型使用的3種分類器分別為貝葉斯、邏輯回歸和支持向量機(jī),對(duì)人大報(bào)告中的監(jiān)督工作和代表工作進(jìn)行分類。8組實(shí)驗(yàn)都是在同一個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。文本分類的結(jié)果見表3和表4。

表3 監(jiān)督工作分類結(jié)果/%

表4 代表工作分類結(jié)果/%

通過實(shí)驗(yàn)結(jié)果可以看出,基于ERNIE模型進(jìn)行區(qū)級(jí)人大報(bào)告內(nèi)容的文本分類方法,相較于貝葉斯、邏輯回歸和SVM,在準(zhǔn)確率、召回率和F1得分上都有大大提升。傳統(tǒng)的分類器,性能都遠(yuǎn)遠(yuǎn)落后于ERNIE。由于ERNIE在T-Encoder和K-Encoder里都引入了多頭注意力機(jī)制,注意力機(jī)制更加強(qiáng)化了重點(diǎn)信息的權(quán)重,從而可以在特征選擇方面取得更出色的效果。

此外,ERNIE模型輸入是以詞為單位,標(biāo)記的內(nèi)容也是以詞為單位,不但利用局部上下文預(yù)測(cè)標(biāo)記,而且同時(shí)學(xué)習(xí)了上下文和知識(shí)圖譜的信息,通過預(yù)測(cè)標(biāo)記,來構(gòu)建的知識(shí)化語言模型。所以該模型可以充分利用詞語、句子和知識(shí)信息,通過對(duì)知識(shí)圖譜的利用,能更全面對(duì)語言進(jìn)行理解。

使用ERNIE模型進(jìn)行監(jiān)督工作和代表工作的文本分類時(shí),加入TF-IDF提取出的特征作為額外補(bǔ)充后,加快了模型的收斂速度,提升了其準(zhǔn)確性。

為了更全面展示基于TF-IDF的ERNIE模型在算法收斂性上的優(yōu)越性,記錄了ERNIE模型和TF-IDF+ERNIE模型不同Epoch下的損失值情況,ERNIE模型和TF-IDF+ERNIE模型的損失值變化分別如圖6和圖7所示。

圖6 ERNIE模型的損失值變化

圖7 TF-IDF+ERNIE模型的損失值變化

兩種方法的訓(xùn)練集和測(cè)試集的損失值在第2個(gè)Epoch都有明顯下降。在測(cè)試集上兩個(gè)模型的損失值對(duì)比如圖8所示。其中,ERNIE模型在第6個(gè)Epoch上達(dá)到了0.1080。而TF-IDF+ERNIE模型在第6個(gè)Epoch上就達(dá)到了0.1024,其收斂速度快,模型計(jì)算效率高。

圖8 損失值對(duì)比

總之,通過實(shí)驗(yàn)結(jié)果數(shù)據(jù)可以得出結(jié)論,本文提出基于TF-IDF加ERNIE模型的文本分類方法,在區(qū)級(jí)人大報(bào)告的內(nèi)容分類工作中得到了不錯(cuò)的效果,該方法在準(zhǔn)確率、召回率和F1得分上都有明顯提升。將不同模型的分類效果進(jìn)行結(jié)果比對(duì),部分分類結(jié)果對(duì)比見表5。

表5 分類結(jié)果對(duì)比

其中,TF-IDF+ERNIE對(duì)這6段文本的分類預(yù)測(cè)為監(jiān)督和代表工作的概率分別達(dá)到了96.69%、96.40%、95.33%、95.23%、94.93%、94.78%,由此可以看出該模型的分類效果不錯(cuò)。

4 結(jié)束語

本文將基于TF-IDF的ERNIE模型應(yīng)用于區(qū)級(jí)人大報(bào)告內(nèi)容分類,通過對(duì)監(jiān)督工作和代表工作這兩部分內(nèi)容進(jìn)行分類實(shí)驗(yàn),驗(yàn)證了基于TF-IDF+ERNIE模型的優(yōu)越性和有效性。在同一個(gè)數(shù)據(jù)集下TF-IDF+ERNIE模型與ERNIE、傳統(tǒng)的貝葉斯、邏輯回歸和SVM分類器模型進(jìn)行實(shí)驗(yàn)比對(duì),表明了ERNIE模型不但學(xué)習(xí)了上下文的語義特征,還考慮了知識(shí)圖譜的信息,能夠理解連續(xù)詞語的相關(guān)關(guān)系。使得最大程度地理解了文本的原始信息,通過TF-IDF加入額外特征讓模型收斂更快。雖然模型引入了TF-IDF,但是加入的特征還比較單一,導(dǎo)致在實(shí)驗(yàn)過程中的訓(xùn)練時(shí)間還是無法與傳統(tǒng)學(xué)習(xí)方法的速度相媲美,以后還可以研究更多方面的特征。此外,由于語料的限制,算法性能還可以繼續(xù)提升??傊瑓^(qū)級(jí)人大報(bào)告內(nèi)容的文本分類是一個(gè)重要且很值得投入研究的方向,針對(duì)智慧人大的研究還很少,有許多工作都需要繼續(xù)完善。

猜你喜歡
分類器預(yù)處理向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
向量垂直在解析幾何中的應(yīng)用
淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
絡(luò)合萃取法預(yù)處理H酸廢水
皋兰县| 平凉市| 柯坪县| 巴里| 兰溪市| 珲春市| 新平| 漳州市| 奇台县| 盐城市| 北川| 永济市| 绥棱县| 上饶县| 利津县| 洞口县| 江北区| 富蕴县| 周至县| 南溪县| 博罗县| 桂阳县| 枣庄市| 阜城县| 松潘县| 天柱县| 黑龙江省| 景泰县| 五大连池市| 福鼎市| 秀山| 怀宁县| 贡嘎县| 邯郸县| 铜陵市| 青铜峡市| 涟水县| 新余市| 上饶县| 绥滨县| 溧阳市|