国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)鍵詞學(xué)習(xí)的文本分類(lèi)方法

2019-03-21 01:31:18
關(guān)鍵詞:降維篇文章卷積

(1) 山東師范大學(xué)信息科學(xué)與工程學(xué)院,250358,濟(jì)南; 2)山東超越數(shù)控電子股份有限公司,250013,濟(jì)南)

1 引 言

計(jì)算機(jī)技術(shù)的發(fā)展和網(wǎng)絡(luò)的普及,加速推進(jìn)了信息化時(shí)代的進(jìn)程,同時(shí)也造成了文本數(shù)據(jù)爆炸式增長(zhǎng)、文本處理工作負(fù)荷加大等現(xiàn)象,為此很多學(xué)者開(kāi)始關(guān)注文本分類(lèi)問(wèn)題.文本分類(lèi)是指根據(jù)文檔的主題、內(nèi)容或?qū)傩?,將大量的文本劃分到一個(gè)或多個(gè)類(lèi)別的過(guò)程.文本分類(lèi)的主要方法包括傳統(tǒng)的機(jī)器學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)模型[1,2].目前大量的機(jī)器學(xué)習(xí)方法應(yīng)用于文本分類(lèi)系統(tǒng)中,如基于貝葉斯定理與特征條件獨(dú)立假設(shè)的樸素貝葉斯法[3-5]、建立在統(tǒng)計(jì)學(xué)習(xí)VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的支持向量機(jī)方法[6,7]、運(yùn)用概率與圖論中的樹(shù)對(duì)決策中的不同方案進(jìn)行比較從而獲得最優(yōu)方案的決策樹(shù)法[8],此外還有最小二乘法、K最近鄰法[9]等.[10]上述算法雖然模型較為簡(jiǎn)單,但是對(duì)文本詞語(yǔ)的上下文關(guān)系潛在語(yǔ)義關(guān)系考慮不夠充分,分類(lèi)效果仍有待提高.

為了更準(zhǔn)確地將未知文本標(biāo)記為正確的類(lèi)別,不僅需要文本分類(lèi)方法不斷改進(jìn),還需要使文本表示方法更加合理,使關(guān)鍵詞可以更全面地代表文本信息.近些年深度學(xué)習(xí)的不斷發(fā)展為解決大數(shù)據(jù)問(wèn)題提供了新方向,使用基于深度學(xué)習(xí)的方法可更好地挖掘蘊(yùn)含在文本中復(fù)雜的語(yǔ)義關(guān)系,從而更好解決文本處理的相關(guān)問(wèn)題.[11]本文引入卷積神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)的混合網(wǎng)絡(luò)對(duì)文本的關(guān)鍵詞進(jìn)行學(xué)習(xí),更好地發(fā)掘關(guān)鍵詞的潛在語(yǔ)義關(guān)聯(lián).

2 基于關(guān)鍵詞學(xué)習(xí)的文本分類(lèi)算法

本文提出的文本分類(lèi)方法首先利用LDA主題模型抽取關(guān)鍵詞,構(gòu)造關(guān)鍵詞的詞袋模型,然后根據(jù)詞袋模型構(gòu)造文本特征矩陣并進(jìn)行降維操作,將低維樣本矩陣輸入由卷積神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)的混合網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),整個(gè)系統(tǒng)流程如圖1所示.

2.1關(guān)鍵詞抽取目前,關(guān)鍵詞抽取技術(shù)主要是基于統(tǒng)計(jì)的方法和基于主題的方法.統(tǒng)計(jì)方法如TFIDF算法、TFIPNDF算法等雖然簡(jiǎn)單快速,但單純以詞頻衡量一個(gè)詞的重要性不夠全面,為了盡量減少文本表示對(duì)文本分類(lèi)效果產(chǎn)生的影響,本文采用基于主題的LDA模型抽取關(guān)鍵詞.

LDA主題模型的主要基于兩點(diǎn)假設(shè):一是文檔是若干主題的混合分布,二是每個(gè)主題是詞語(yǔ)的概率分布.與其他主題模型(例如PLSA模型、TDCS模型等)相比較,LDA模型在前兩者模型的基礎(chǔ)上引入Dirichlet分布和超參數(shù)的概念,避免過(guò)擬合、計(jì)算難等問(wèn)題的發(fā)生.LDA模型把每個(gè)文檔都表示成它所對(duì)應(yīng)的主題集,每個(gè)主題都是一個(gè)特定的多項(xiàng)式分布,主題與詞匯對(duì)應(yīng)的多項(xiàng)式分布就是主題與詞語(yǔ)之間的關(guān)系.假設(shè)文檔集合為D,包含M篇文檔和k個(gè)主題,參數(shù)α和β分別為Dirichlet分布,φk表示第k個(gè)主題的詞分布,θi是第i篇文檔的主題分布,則LDA模型的圖形表示如圖2.

圖1 基于樣本關(guān)鍵詞的文本分類(lèi)流程

圖2 LDA模型的圖形表示

LDA模型的生成過(guò)程如下:

1) 按照先驗(yàn)概率P(di)選擇一篇文檔di;

2) 從Dirichlet分布α中取樣生成文檔di的對(duì)應(yīng)的主題分布θi;

3) 從主題的多項(xiàng)式分布θi中取樣生成文檔di第j個(gè)詞的主題zi,j;

4) 從Dirichlet分布β中取樣生成主題zi,j對(duì)應(yīng)的詞語(yǔ)分布φzi,j;

5) 從詞語(yǔ)的多項(xiàng)式分布φzi,j中采用最終生成詞語(yǔ)wi,j.

生成過(guò)程中使用的主題特征值及其總和的計(jì)算公式如下:

(1)

(2)

其中φ′k是φk的前N個(gè)值,K是主題的數(shù)量,ti是含有wordi的主題個(gè)數(shù),f(t)是待定函數(shù).

2.2文本特征提取要采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行優(yōu)化和處理,首先構(gòu)造文本的特征矩陣,整個(gè)過(guò)程包括文本關(guān)鍵詞詞向量的構(gòu)造、文本特征矩陣的構(gòu)造、文本特征矩陣的降維三個(gè)階段.

2.2.1 文本關(guān)鍵詞詞向量的構(gòu)造 構(gòu)造詞向量需先將大量文本中的關(guān)鍵詞組成詞袋(BOW),詞袋是指假定對(duì)于一個(gè)文本,忽略其詞序、語(yǔ)法和句法,將其僅僅看作是若干詞的集合.利用2.1節(jié)中基于主題的關(guān)鍵詞抽取技術(shù)得到的文本關(guān)鍵詞,構(gòu)造出一個(gè)詞袋模型.

假定在所有數(shù)據(jù)集文本中抽取出來(lái)的關(guān)鍵詞為key1,key2,key3,…,keyn,(keyi≠keyj,i,j=1,2,3,…,n且i≠j),則關(guān)鍵詞詞袋為{key1,key2,key3,…,keyn},該詞袋中包含n個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞有唯一的索引,因此數(shù)據(jù)集中的任一文本可以用一個(gè)n維的向量來(lái)表示,即

xi=T(keyi).

(3)

其中T(·)表示對(duì)keyi求主題特征值,對(duì)于任一文本的詞向量表示為{x1,x2,x3,…,xn}.

2.2.2 文本特征矩陣的構(gòu)造 將文本的n維詞向量轉(zhuǎn)換為n*n維特征矩陣.文本的特征表示為V={x1,x2,x3,…,xn},其中xi代表關(guān)鍵詞i在該文本中的主題特征值.由詞向量生成的特征矩陣M為

當(dāng)數(shù)據(jù)集中文本數(shù)量不斷增加時(shí)關(guān)鍵詞的數(shù)量也將不斷增加,這將導(dǎo)致生成的詞向量和特征矩陣變成高維矩陣,因此先對(duì)高維矩陣進(jìn)行降維處理.

2.2.3 文本特征矩陣的降維 文本特征矩陣的維度為詞袋模型的大小(通常達(dá)到105),高維特征空間存在許多與文本類(lèi)別有弱相關(guān)性或無(wú)相關(guān)性的特征,并且存在強(qiáng)相關(guān)性的冗余特征,這導(dǎo)致計(jì)算復(fù)雜度增高,分類(lèi)模型訓(xùn)練消耗增大,容易出現(xiàn)過(guò)擬合問(wèn)題.CNN本身可以進(jìn)行降維,但是CNN的降維能力有限,因此特征矩陣在輸入CNN前進(jìn)行若干次主成分分析(PCA)降維以提高計(jì)算速度和效率.根據(jù)2.2.2節(jié)可以得到文本的n*n維特征矩陣,采用PCA對(duì)特征矩陣分別進(jìn)行行和列的降維處理.

首先對(duì)n*n維矩陣M進(jìn)行列降維,使其轉(zhuǎn)化為一個(gè)n*k維矩陣.具體步驟如下:

1) 將矩陣M的每一列進(jìn)行零均值化,即每一列減去該列的均值,得到矩陣M1;

2) 求出矩陣M1的協(xié)方差矩陣M2;

3) 求出協(xié)方差矩陣M2的特征值及對(duì)應(yīng)的特征向量;

4) 按特征值大小將對(duì)應(yīng)的特征向量從左到右按列排列成矩陣,取前k列組成矩陣S;

矩陣S為利用PCA降維之后得到的n*k維矩陣.對(duì)矩陣S進(jìn)行轉(zhuǎn)置得到k*n維矩陣記為T(mén),對(duì)矩陣T進(jìn)行PCA降維,使其轉(zhuǎn)換為一個(gè)k*k維矩陣.具體步驟如下:

1) 將矩陣T的每一行進(jìn)行零均值化,即每一行減去該行的均值得到矩陣T1;

2) 求出矩陣T1的協(xié)方差矩陣T2;

3) 求出協(xié)方差矩陣T2的特征值及其特征向量;

4) 按特征值大小將其特征向量從上到下按行排列成矩陣,取前k行組成矩陣K,得到k*k維的低階特征矩陣.

2.3文本分類(lèi)學(xué)習(xí)

2.3.1 CNN訓(xùn)練網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)核心在于輸入矩陣與不同過(guò)濾器之間進(jìn)行卷積運(yùn)算,并且通過(guò)池化映射提取數(shù)據(jù)特征.本文中的卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、卷積層、池化層、全連接層、輸出層等部分組成.

兩次卷積運(yùn)算中所用卷積公式為

h=f(W*Cl+b),

(4)

其中f(·)為tanh激活函數(shù),W為輸入矩陣,C為高度為l的卷積核,b為偏置.

兩次池化運(yùn)算中所用池化方法為max-pooling,池化公式如下:

hmax=max(hi).

(5)

全連接層的每一個(gè)結(jié)點(diǎn)都與上一池化層的所有結(jié)點(diǎn)相連,用來(lái)把提取到的特征綜合起來(lái).具體的卷積神經(jīng)網(wǎng)絡(luò)模型如圖3所示.

圖3 卷積神經(jīng)網(wǎng)絡(luò)模型

將低階特征矩陣輸入上述模型進(jìn)行卷積映射和池化映射,在對(duì)文本特征優(yōu)化的同時(shí)進(jìn)一步降維,最后利用全連接層將分布式特征表示映射到標(biāo)記空間.

2.3.2 BP神經(jīng)網(wǎng)絡(luò) BP神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),其原理主要是先給出輸入信息通過(guò)輸入層,經(jīng)過(guò)隱含層逐層處理并計(jì)算單個(gè)單元的實(shí)際輸入值,然后檢驗(yàn)輸出層得到的輸出值,如果不能得到期望的輸出值,那么逐層遞歸地計(jì)算實(shí)際輸出與期望輸出的差值,以便根據(jù)差值調(diào)節(jié)權(quán)值.

由于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)深度的增加,訓(xùn)練的過(guò)程將會(huì)變慢,同時(shí)不適當(dāng)?shù)膮?shù)選擇將導(dǎo)致網(wǎng)絡(luò)收斂于局部最優(yōu).因此隨機(jī)初始化參數(shù)會(huì)使BP網(wǎng)絡(luò)訓(xùn)練效果降低,本文采用多個(gè)受限玻爾茲曼機(jī)堆疊構(gòu)造的深度信念網(wǎng)絡(luò)(DBN)對(duì)BP網(wǎng)絡(luò)參數(shù)進(jìn)行初始化[12,13].具體過(guò)程如圖4所示.

圖4 BP網(wǎng)絡(luò)的初始化和訓(xùn)練

每個(gè)受限玻爾茲曼機(jī)(RBM)有n個(gè)可見(jiàn)單元和m個(gè)隱單元,用向量v和h分別表示可見(jiàn)單元和隱單元的狀態(tài),則能量函數(shù)為

(6)

其中θ={Wij,ai,bj}是RBM的參數(shù),Wij表示可見(jiàn)單元i與隱單元j之間的連接權(quán)重,ai,bj分別為單元i,j的偏置.

由式(6)可以得到(v,h)的聯(lián)合概率分布函數(shù)和似然函數(shù)為

(7)

p(v|θ)=∑hP(v,h)=∑he-E(v,h|θ)/Z(θ).

(8)

其中,Z(θ)=∑v,he-E(v,h|θ)為歸一化因子.

3 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)基于公開(kāi)數(shù)據(jù)集和自定義數(shù)據(jù)集兩種.公開(kāi)數(shù)據(jù)集采用的是復(fù)旦大學(xué)語(yǔ)料庫(kù)(以下簡(jiǎn)稱(chēng)FDU)、中科院計(jì)算所自然語(yǔ)言處理語(yǔ)料庫(kù)(以下簡(jiǎn)稱(chēng)ICT)和譚松波分類(lèi)語(yǔ)料庫(kù)(以下簡(jiǎn)稱(chēng)TSB).上述三種公開(kāi)語(yǔ)料庫(kù)由于文本數(shù)量和類(lèi)別較多,在實(shí)驗(yàn)時(shí)將隨機(jī)選取語(yǔ)料庫(kù)中部分文本進(jìn)行訓(xùn)練和測(cè)試.具體實(shí)驗(yàn)文本數(shù)量和類(lèi)別設(shè)置如下:

FDU語(yǔ)料庫(kù)中選擇C3-Art,C7-History, C19-Computer,C31-Enviornment, C38-Politics和C39-Sports六類(lèi)文本類(lèi)型共6 000篇文章進(jìn)行實(shí)驗(yàn).將6 000篇文章隨機(jī)分為FDU_1、FDU_2、FDU_3三個(gè)數(shù)據(jù)集,其中每個(gè)數(shù)據(jù)集均含有2 000篇文章.實(shí)驗(yàn)室在每個(gè)數(shù)據(jù)集中選取1 500篇文章作為訓(xùn)練文本,剩余的500篇文章作為測(cè)試文本.

ICT語(yǔ)料庫(kù)中選擇政治、經(jīng)濟(jì)、軍事、工業(yè)四類(lèi)文本類(lèi)型共4 800篇文章進(jìn)行實(shí)驗(yàn).將4 800篇文章隨機(jī)分為ICT_1、ICT_2、ICT_3三個(gè)數(shù)據(jù)集,其中每個(gè)數(shù)據(jù)集均含有1 600篇文章.實(shí)驗(yàn)室在每個(gè)數(shù)據(jù)集中選取1 200篇文章作為訓(xùn)練文本,剩余的400篇文章作為測(cè)試文本.

TSB語(yǔ)料庫(kù)中選擇財(cái)經(jīng)、科技、體育、娛樂(lè)、人才五類(lèi)文本類(lèi)型共5 100篇文章進(jìn)行實(shí)驗(yàn).將5 100篇文章隨機(jī)分為T(mén)SB_1、TSB_2、TSB_3三個(gè)數(shù)據(jù)集,其中每個(gè)數(shù)據(jù)集均含有1 700篇文章.實(shí)驗(yàn)室在每個(gè)數(shù)據(jù)集中選取1 300篇文章作為訓(xùn)練文本,剩余的400篇文章作為測(cè)試文本.

(9)

其中P為文本分類(lèi)準(zhǔn)確率,T為測(cè)試文本正確分類(lèi)數(shù),A為測(cè)試文本總數(shù).

表1 公開(kāi)數(shù)據(jù)集準(zhǔn)確率表

自定義數(shù)據(jù)集(以下簡(jiǎn)稱(chēng)CDS)采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在萬(wàn)維網(wǎng)下載經(jīng)濟(jì)、政治、軍事、文化四類(lèi)文本共3 600篇.將3 600篇文章隨機(jī)分為CDS_1、CDS_2、CDS_3三個(gè)數(shù)據(jù)集,其中每個(gè)數(shù)據(jù)集均含有1 200篇文章.實(shí)驗(yàn)室在每個(gè)數(shù)據(jù)集中選取900篇文章作為訓(xùn)練文本,剩余的300篇文章作為測(cè)試文本.實(shí)驗(yàn)結(jié)果如表2.

表2 自定義數(shù)據(jù)集準(zhǔn)確率表

從整體上,SVM、KNN、DTRC等方法和本文方法在自定義數(shù)據(jù)集上的實(shí)驗(yàn)效果低于在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)效果,原因可能是在萬(wàn)維網(wǎng)上利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取文本時(shí)所下載文本類(lèi)別不夠準(zhǔn)確和文本總量少兩方面原因.

從表2中數(shù)據(jù)仍可看出在自定義數(shù)據(jù)集上本文方法的文本分類(lèi)準(zhǔn)確率明顯較高其他幾種方法.總之,在公開(kāi)數(shù)據(jù)集和自定義數(shù)據(jù)集相比,本文的文本分類(lèi)方法的準(zhǔn)確率明顯提高,表明本文方法更好地學(xué)習(xí)了文本語(yǔ)義潛在的語(yǔ)義關(guān)系,減少了有效信息的損失.

4 結(jié) 語(yǔ)

本文通過(guò)對(duì)原始文本進(jìn)行特征提取,在文本表示方面利用基于主題的LDA模型進(jìn)行關(guān)鍵詞抽取,從文本源頭和關(guān)鍵詞相對(duì)詞頻方面改變了樣本矩陣的構(gòu)成,利用PCA將原有特征矩陣降維后引入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征處理,以便描述關(guān)鍵詞關(guān)系并進(jìn)一步使矩陣降維,最后輸入BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練并利用測(cè)試文本進(jìn)行學(xué)習(xí),獲取的實(shí)驗(yàn)結(jié)果說(shuō)明基于關(guān)鍵詞的文本分類(lèi)方法取得了較好的效果.優(yōu)化關(guān)鍵詞的抽取技術(shù)和神經(jīng)訓(xùn)練網(wǎng)絡(luò)的構(gòu)造是后續(xù)工作,該后續(xù)工作的意義在于進(jìn)一步提高文本分類(lèi)的準(zhǔn)確率.

猜你喜歡
降維篇文章卷積
混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
如何做好現(xiàn)代能源經(jīng)濟(jì)這篇文章
能源(2018年4期)2018-05-19 01:53:55
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
如果你感到迷茫,不妨讀一下這篇文章
空間的維度(從一維多十維)
拋物化Navier-Stokes方程的降維仿真模型
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
旬邑县| 宜昌市| 尉犁县| 肃宁县| 开封县| 五台县| 锡林浩特市| 嵊州市| 卓资县| 阿勒泰市| 衡阳市| 涿鹿县| 筠连县| 榆社县| 陆河县| 浮山县| 赣州市| 枣庄市| 斗六市| 拜泉县| 鹤山市| 辰溪县| 新安县| 博野县| 呼伦贝尔市| 新郑市| 尤溪县| 苏尼特右旗| 大同市| 旬邑县| 黔江区| 昭觉县| 钟山县| 长春市| 商南县| 兰溪市| 富民县| 且末县| 西城区| 锦州市| 白山市|