基于CNN卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)電子檔案分類(lèi)法研究

2018-09-10 03:08

山西檔案 2018年5期

隨著大數(shù)據(jù)﹑云計(jì)算等現(xiàn)代信息技術(shù)的發(fā)展，傳統(tǒng)的紙質(zhì)檔案快速向電子化﹑數(shù)字化檔案進(jìn)行轉(zhuǎn)變，檔案管理模式出現(xiàn)了深刻的變化。檔案管理的分類(lèi)﹑檢索等基本方法也隨之產(chǎn)生了變化。本文參考Kim提出的神經(jīng)網(wǎng)絡(luò)模型，自動(dòng)提取檔案文本的特征集合，使用Word2vec進(jìn)行詞向量訓(xùn)練，旨在進(jìn)一步提高電子檔案的分類(lèi)準(zhǔn)確率。

一、CNN卷積神經(jīng)網(wǎng)絡(luò)

（一）神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是一些具有適應(yīng)性的神經(jīng)元組成的集合。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的最小組成單位，是一種二元線性分類(lèi)器感知機(jī)制。

輸入x1和x2分別和各自的權(quán)重w1和w2相乘﹑求和，所以函數(shù)f=x1*w1+x2*w2+b=f（∑2i=1Wi+b）（偏置項(xiàng)，可以選擇性地添加）。函數(shù)f 可以是任意的運(yùn)算，但是對(duì)于感知機(jī)而言通常是求和。函數(shù)f 隨后會(huì)通過(guò)一個(gè)激活函數(shù)來(lái)進(jìn)行評(píng)估，該激活函數(shù)能夠?qū)崿F(xiàn)期望分類(lèi)。

把多個(gè)神經(jīng)單元堆疊在一起，并組成分層結(jié)構(gòu)。前面一層的神經(jīng)單元（隱藏層）通過(guò)f函數(shù)的輸出結(jié)果作為下一層的輸入，再通過(guò)f函數(shù)和激活函數(shù)得到最終的分類(lèi)，這就形成全連接的神經(jīng)網(wǎng)絡(luò)。

（二）詞向量

詞向量也叫詞嵌入，是通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練語(yǔ)言模型，在訓(xùn)練過(guò)程中生成一組向量，這組向量將每個(gè)詞表示為n維向量，可理解為文本的數(shù)學(xué)化表示。一種最簡(jiǎn)單的詞向量方式是One-Hot Representation，就是用與詞典等長(zhǎng)的向量來(lái)表示一個(gè)詞，該詞所在詞典的索引對(duì)應(yīng)分量1，其余分量全為0，例如“工程師”表示為[0 0 0 1 0 0 0 ...]。One-Hot方式非常簡(jiǎn)潔，僅需為每個(gè)詞分配一個(gè)數(shù)字編號(hào)即可，但該方式容易出現(xiàn)維度災(zāi)難，不能較好地刻畫(huà)各詞語(yǔ)之間的相似性。另一種是Hinton在1986年提出的Distributed Representation 向量方式，很好地克服了One-Hot方式的缺點(diǎn)。該方式通過(guò)語(yǔ)言模型的訓(xùn)練，用固定長(zhǎng)度的短向量來(lái)表示詞語(yǔ)；將所有的詞向量放在一起，形成向量空間。在該空間上不同詞語(yǔ)之間的距離，就是該詞語(yǔ)法﹑語(yǔ)義之間的相似性。而Word2vecs是谷歌Tomas-Mikolvd團(tuán)隊(duì)研發(fā)的一款開(kāi)源的詞向量產(chǎn)生工具，本文即利用Word2vecs來(lái)訓(xùn)練職員電子檔案的語(yǔ)言模型，獲取相應(yīng)的詞向量集合。

（三）卷積神經(jīng)網(wǎng)絡(luò)

CNN卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)技術(shù)中極具代表的網(wǎng)絡(luò)結(jié)構(gòu)之一，在圖像處理領(lǐng)域取得了很大的成功。在國(guó)際標(biāo)準(zhǔn)的ImageNet數(shù)據(jù)集上，許多成功的模型都是基于CNN的。近年來(lái)，該技術(shù)在自然語(yǔ)言處理﹑語(yǔ)音識(shí)別等方面均有突破性應(yīng)用。下文基于CNN卷積神經(jīng)對(duì)職員檔案進(jìn)行分類(lèi)搜索，即是基于CNN在自然語(yǔ)言處理中的應(yīng)用。

不同于普通網(wǎng)絡(luò)神經(jīng)算法，CNN卷積神經(jīng)網(wǎng)絡(luò)的特征抽取器由卷積層和子采樣層構(gòu)成。卷積層中存在著若干個(gè)特征平面，每個(gè)平面由一些矩形排列的神經(jīng)元組成（神經(jīng)元只與部分鄰層神經(jīng)元相連接），這些神經(jīng)元共享權(quán)值，稱(chēng)為卷積核。先用隨機(jī)小數(shù)矩陣的形式對(duì)卷積核進(jìn)行初始化操作，再通過(guò)語(yǔ)料訓(xùn)練過(guò)程得到合理的權(quán)值。卷積核的應(yīng)用減少了神經(jīng)網(wǎng)絡(luò)各層之間的連接，降低了擬合風(fēng)險(xiǎn)。子采樣也稱(chēng)為池化層，具有最大值子采樣和均值子采樣兩種形式。子采樣的過(guò)程就是一種特殊的共享權(quán)值的過(guò)程。卷積和子采樣的引入精簡(jiǎn)了神經(jīng)模型的參數(shù)，簡(jiǎn)化了它的復(fù)雜程度。

二、模型結(jié)構(gòu)

Kim對(duì)基于自然語(yǔ)言文本處理的CNN卷積神經(jīng)網(wǎng)絡(luò)作了詳細(xì)的闡述。其結(jié)構(gòu)包含輸入層﹑卷積層﹑池化層﹑全連接及SOFTMAX層[1]。根據(jù)CNN卷積神經(jīng)網(wǎng)絡(luò)的定義和模型結(jié)構(gòu)，具體建模流程如下：

（一）數(shù)據(jù)預(yù)處理

以企業(yè)人才簡(jiǎn)歷檔案分類(lèi)為例，抽取人才檔案庫(kù)中名稱(chēng)為軟件工程師的檔案10000份，其中8000份作為訓(xùn)練集，2000份作為驗(yàn)證集，并計(jì)算各檔案的特征矩陣。具體步驟如下：

1.首先用分詞工具對(duì)訓(xùn)練集中的每個(gè)檔案T進(jìn)行分詞處理，并進(jìn)行去重﹑剔除無(wú)用詞語(yǔ)﹑刪除標(biāo)點(diǎn)符號(hào)﹑刪除空格等處理得到檔案T的詞典TD。用Word-2Vecotr對(duì)TD進(jìn)行向量初始化，并將初始化的結(jié)果合并到詞向量空間R中；

2.然后將每條檔案T進(jìn)行分詞處理，得到詞序列wi(i)。將wi帶入向量空間R中，得到對(duì)應(yīng)的詞向量vi(i)；

3.再將T的詞向量序列vi作鏈接操作，得到檔案T的特征矩陣。

4.最后將詞向量序列vi按照先后順序，從上到下排列。公式（1）的結(jié)果檔案T的特征矩陣則轉(zhuǎn)換為詞向量空間Rd:n的特征矩陣

接下來(lái)，將特征矩陣T作為輸入?yún)?shù)，通過(guò)卷積﹑池化操作獲得檔案的句子向量。

（二）卷積操作

卷積操作的本質(zhì)是對(duì)檔案序列進(jìn)行特征抽取的過(guò)程。具體流程如下：

1.設(shè)定卷積核WRdn，則卷積核W所圍的單詞個(gè)數(shù)即卷積核的尺寸，稱(chēng)為hn（h為W的行數(shù)）。在檔案的文本中，單詞語(yǔ)義只存在豎向相關(guān)性，故卷積核只作步長(zhǎng)為1的豎向卷積操作；

2.將檔案矩陣T的子矩陣Xi,XiRd:n,i分別與卷積核序列W進(jìn)行如下運(yùn)算：

bRn是對(duì)矩陣T進(jìn)行調(diào)整的偏差值，f是雙曲正切激勵(lì)函數(shù)。將卷積核與Xi進(jìn)行d-h+1次卷積運(yùn)算，得到卷積矩陣C。

為了更全面﹑準(zhǔn)確地獲取每個(gè)職員檔案的特征值，提高數(shù)據(jù)平滑性，本文分析中通過(guò)在卷積層中設(shè)置m個(gè)卷積核，將X與m個(gè)卷積核進(jìn)行卷積運(yùn)算，得到m個(gè)卷積矩陣Cm，并投入到池化層中進(jìn)行降維處理。

（三）池化操作

檔案T的句子經(jīng)過(guò)m個(gè)卷積核進(jìn)行卷積運(yùn)算以后，生成m個(gè)R(d-h+1)x1空間的句子向量C，將C做池化運(yùn)算：

將m個(gè)卷積矩陣C進(jìn)行以上運(yùn)算，得到一個(gè)Rmx1空間的句子特征向量P：

然后再將向量P作為分類(lèi)的輸入?yún)?shù)，最終得到分類(lèi)結(jié)果。

三、分類(lèi)器

經(jīng)過(guò)前述操作步驟，已將建立檔案T轉(zhuǎn)換為T(mén)所包含全部詞向量的特征矩陣，并通過(guò)卷積﹑池化操作得到T的特征向量P。接下來(lái)，將通過(guò)全鏈接方式鏈接Softmax多分類(lèi)的分類(lèi)器。

分類(lèi)器的作用，是對(duì)特征向量P進(jìn)行計(jì)算，分別得出各個(gè)分類(lèi)的概率，取概率最大的分類(lèi)作為該檔案T的分類(lèi)。

分類(lèi)器處理過(guò)程如下：

1.整理出數(shù)據(jù)集D = {x(i),y(i)},i∈[1,n]。其中y(i)是y(i)[1,k]的整數(shù)，表示該樣本所屬的分類(lèi)，SoftMax函數(shù)為：

這里的x(i)仍然是增廣向量形式：[1,x1,x,…,xk]。對(duì)于樣本x(i)使用上述公式計(jì)算，得出該樣本屬于j類(lèi)的概率δj

(i)。計(jì)算樣本屬于各個(gè)分類(lèi)的k個(gè)概率，并選取概率最大的類(lèi)作為樣本的最終分類(lèi)。

2.令I(lǐng)×為指示函數(shù)，即I{值為真}=1，I{值為假}=0。再令 qj

j=I{y(i)=j}，利用對(duì)數(shù)最大化似然估計(jì)得到損失函數(shù)：

3.利用梯度下降法最小化誤差函數(shù)J（w），對(duì)其求w的偏導(dǎo)數(shù)，得到結(jié)果：

迭代公式為：

四、模型試驗(yàn)

為更直觀地分析CNN神經(jīng)網(wǎng)絡(luò)與其它分類(lèi)算法在電子檔案分類(lèi)識(shí)別上準(zhǔn)確率和效率的差異，本文用TensorFlow 編程實(shí)現(xiàn)了上述模型處理過(guò)程，進(jìn)行對(duì)比試驗(yàn)。

（一）數(shù)據(jù)集

從檔案庫(kù)中抽取10000份名稱(chēng)為工程師的電子檔案數(shù)據(jù)，隨機(jī)抽樣取 8000份檔案作為訓(xùn)練樣本，其余的作為驗(yàn)證測(cè)試數(shù)據(jù)。

（二）實(shí)驗(yàn)效果

通過(guò)對(duì)比試驗(yàn)，發(fā)現(xiàn)使用機(jī)器學(xué)習(xí)的幾種算法都能實(shí)現(xiàn)對(duì)測(cè)試電子檔案的有效識(shí)別和準(zhǔn)確分類(lèi)，從而大大降了用于人工搜索與閱讀判斷其所屬分類(lèi)的時(shí)間成本。

對(duì)比以上結(jié)果，由Facebook開(kāi)發(fā)的快速文本分類(lèi)器FastText提供了簡(jiǎn)單﹑高效的文本分類(lèi)和表征方法，但在電子檔案區(qū)分度不大的情況下，分類(lèi)準(zhǔn)確率有待進(jìn)一步提高。TextGrocery則是一個(gè)基于SVM算法的短文本分類(lèi)工具，內(nèi)置結(jié)巴分詞，但是從時(shí)間和準(zhǔn)確率來(lái)看，綜合效果并不十分突出。而基于卷積神經(jīng)網(wǎng)絡(luò)CNN的檔案分類(lèi)算法，特征學(xué)習(xí)力能力優(yōu)異，特征對(duì)數(shù)據(jù)本質(zhì)的刻畫(huà)最為準(zhǔn)確﹑深刻，更有利于檔案的分類(lèi)和區(qū)分；雖然耗時(shí)達(dá)1360秒，但與人工區(qū)分篩選耗時(shí)相比，該運(yùn)行時(shí)間完全可以接受。

五、總結(jié)

本文提出基于卷積神經(jīng)網(wǎng)絡(luò)CNN的電子檔案分類(lèi)模型。該模型充分考慮了中文檔案文本特征稀疏﹑含有大量專(zhuān)業(yè)詞匯等特點(diǎn)。試驗(yàn)表明，CNN卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)模型相比TextGrocery﹑FastText等經(jīng)典分類(lèi)器準(zhǔn)確率大大提高。Word2vec訓(xùn)練模型的引入，極大地提高了在充分考慮語(yǔ)義特征情況下的中文單詞訓(xùn)練和向量詞典初始化的效率。在試驗(yàn)過(guò)程中，還發(fā)現(xiàn)不同的卷積核數(shù)量和初始化方法對(duì)分類(lèi)的結(jié)果具有一定的影響。未來(lái)的研究重點(diǎn)是如何優(yōu)化選取卷積核數(shù)量和分類(lèi)的方法，更好地提高檔案分類(lèi)的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡