隨著大數(shù)據(jù)﹑云計(jì)算等現(xiàn)代信息技術(shù)的發(fā)展,傳統(tǒng)的紙質(zhì)檔案快速向電子化﹑數(shù)字化檔案進(jìn)行轉(zhuǎn)變,檔案管理模式出現(xiàn)了深刻的變化。檔案管理的分類(lèi)﹑檢索等基本方法也隨之產(chǎn)生了變化。本文參考Kim提出的神經(jīng)網(wǎng)絡(luò)模型,自動(dòng)提取檔案文本的特征集合,使用Word2vec進(jìn)行詞向量訓(xùn)練,旨在進(jìn)一步提高電子檔案的分類(lèi)準(zhǔn)確率。
神經(jīng)網(wǎng)絡(luò)是一些具有適應(yīng)性的神經(jīng)元組成的集合。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的最小組成單位,是一種二元線性分類(lèi)器感知機(jī)制。
輸入x1和x2分別和各自的權(quán)重w1和w2相乘﹑求和,所以函數(shù)f=x1*w1+x2*w2+b=f(∑2i=1Wi+b)(偏置項(xiàng),可以選擇性地添加)。函數(shù)f 可以是任意的運(yùn)算,但是對(duì)于感知機(jī)而言通常是求和。函數(shù)f 隨后會(huì)通過(guò)一個(gè)激活函數(shù)來(lái)進(jìn)行評(píng)估,該激活函數(shù)能夠?qū)崿F(xiàn)期望分類(lèi)。
把多個(gè)神經(jīng)單元堆疊在一起,并組成分層結(jié)構(gòu)。前面一層的神經(jīng)單元(隱藏層)通過(guò)f函數(shù)的輸出結(jié)果作為下一層的輸入,再通過(guò)f函數(shù)和激活函數(shù)得到最終的分類(lèi),這就形成全連接的神經(jīng)網(wǎng)絡(luò)。
詞向量也叫詞嵌入,是通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練語(yǔ)言模型,在訓(xùn)練過(guò)程中生成一組向量,這組向量將每個(gè)詞表示為n維向量,可理解為文本的數(shù)學(xué)化表示。一種最簡(jiǎn)單的詞向量方式是One-Hot Representation,就是用與詞典等長(zhǎng)的向量來(lái)表示一個(gè)詞,該詞所在詞典的索引對(duì)應(yīng)分量1,其余分量全為0,例如“工程師”表示為[0 0 0 1 0 0 0 ...]。One-Hot方式非常簡(jiǎn)潔,僅需為每個(gè)詞分配一個(gè)數(shù)字編號(hào)即可,但該方式容易出現(xiàn)維度災(zāi)難,不能較好地刻畫(huà)各詞語(yǔ)之間的相似性。另一種是Hinton在1986年提出的Distributed Representation 向量方式,很好地克服了One-Hot方式的缺點(diǎn)。該方式通過(guò)語(yǔ)言模型的訓(xùn)練,用固定長(zhǎng)度的短向量來(lái)表示詞語(yǔ);將所有的詞向量放在一起,形成向量空間。在該空間上不同詞語(yǔ)之間的距離,就是該詞語(yǔ)法﹑語(yǔ)義之間的相似性。而Word2vecs是谷歌Tomas-Mikolvd團(tuán)隊(duì)研發(fā)的一款開(kāi)源的詞向量產(chǎn)生工具,本文即利用Word2vecs來(lái)訓(xùn)練職員電子檔案的語(yǔ)言模型,獲取相應(yīng)的詞向量集合。
CNN卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)技術(shù)中極具代表的網(wǎng)絡(luò)結(jié)構(gòu)之一,在圖像處理領(lǐng)域取得了很大的成功。在國(guó)際標(biāo)準(zhǔn)的ImageNet數(shù)據(jù)集上,許多成功的模型都是基于CNN的。近年來(lái),該技術(shù)在自然語(yǔ)言處理﹑語(yǔ)音識(shí)別等方面均有突破性應(yīng)用。下文基于CNN卷積神經(jīng)對(duì)職員檔案進(jìn)行分類(lèi)搜索,即是基于CNN在自然語(yǔ)言處理中的應(yīng)用。
不同于普通網(wǎng)絡(luò)神經(jīng)算法,CNN卷積神經(jīng)網(wǎng)絡(luò)的特征抽取器由卷積層和子采樣層構(gòu)成。卷積層中存在著若干個(gè)特征平面,每個(gè)平面由一些矩形排列的神經(jīng)元組成(神經(jīng)元只與部分鄰層神經(jīng)元相連接),這些神經(jīng)元共享權(quán)值,稱(chēng)為卷積核。先用隨機(jī)小數(shù)矩陣的形式對(duì)卷積核進(jìn)行初始化操作,再通過(guò)語(yǔ)料訓(xùn)練過(guò)程得到合理的權(quán)值。卷積核的應(yīng)用減少了神經(jīng)網(wǎng)絡(luò)各層之間的連接,降低了擬合風(fēng)險(xiǎn)。子采樣也稱(chēng)為池化層,具有最大值子采樣和均值子采樣兩種形式。子采樣的過(guò)程就是一種特殊的共享權(quán)值的過(guò)程。卷積和子采樣的引入精簡(jiǎn)了神經(jīng)模型的參數(shù),簡(jiǎn)化了它的復(fù)雜程度。
Kim對(duì)基于自然語(yǔ)言文本處理的CNN卷積神經(jīng)網(wǎng)絡(luò)作了詳細(xì)的闡述。其結(jié)構(gòu)包含輸入層﹑卷積層﹑池化層﹑全連接及SOFTMAX層[1]。根據(jù)CNN卷積神經(jīng)網(wǎng)絡(luò)的定義和模型結(jié)構(gòu),具體建模流程如下:
以企業(yè)人才簡(jiǎn)歷檔案分類(lèi)為例,抽取人才檔案庫(kù)中名稱(chēng)為軟件工程師的檔案10000份,其中8000份作為訓(xùn)練集,2000份作為驗(yàn)證集,并計(jì)算各檔案的特征矩陣。具體步驟如下:
1.首先用分詞工具對(duì)訓(xùn)練集中的每個(gè)檔案T進(jìn)行分詞處理,并進(jìn)行去重﹑剔除無(wú)用詞語(yǔ)﹑刪除標(biāo)點(diǎn)符號(hào)﹑刪除空格等處理得到檔案T的詞典TD。用Word-2Vecotr對(duì)TD進(jìn)行向量初始化,并將初始化的結(jié)果合并到詞向量空間R中;
2.然后將每條檔案T進(jìn)行分詞處理,得到詞序列wi(i)。將wi帶入向量空間R中,得到對(duì)應(yīng)的詞向量vi(i);
3.再將T的詞向量序列vi作鏈接操作,得到檔案T的特征矩陣。
4.最后將詞向量序列vi按照先后順序,從上到下排列。公式(1)的結(jié)果檔案T的特征矩陣則轉(zhuǎn)換為詞向量空間Rd:n的特征矩陣
接下來(lái),將特征矩陣T作為輸入?yún)?shù),通過(guò)卷積﹑池化操作獲得檔案的句子向量。
卷積操作的本質(zhì)是對(duì)檔案序列進(jìn)行特征抽取的過(guò)程。具體流程如下:
1.設(shè)定卷積核WRdn,則卷積核W所圍的單詞個(gè)數(shù)即卷積核的尺寸,稱(chēng)為hn(h為W的行數(shù))。在檔案的文本中,單詞語(yǔ)義只存在豎向相關(guān)性,故卷積核只作步長(zhǎng)為1的豎向卷積操作;
2.將檔案矩陣T的子矩陣Xi,XiRd:n,i分別與卷積核序列W進(jìn)行如下運(yùn)算:
bRn是對(duì)矩陣T進(jìn)行調(diào)整的偏差值,f是雙曲正切激勵(lì)函數(shù)。將卷積核與Xi進(jìn)行d-h+1次卷積運(yùn)算,得到卷積矩陣C。
為了更全面﹑準(zhǔn)確地獲取每個(gè)職員檔案的特征值,提高數(shù)據(jù)平滑性,本文分析中通過(guò)在卷積層中設(shè)置m個(gè)卷積核,將X與m個(gè)卷積核進(jìn)行卷積運(yùn)算,得到m個(gè)卷積矩陣Cm,并投入到池化層中進(jìn)行降維處理。
檔案T的句子經(jīng)過(guò)m個(gè)卷積核進(jìn)行卷積運(yùn)算以后,生成m個(gè)R(d-h+1)x1空間的句子向量C,將C做池化運(yùn)算:
將m個(gè)卷積矩陣C進(jìn)行以上運(yùn)算,得到一個(gè)Rmx1空間的句子特征向量P:
然后再將向量P作為分類(lèi)的輸入?yún)?shù),最終得到分類(lèi)結(jié)果。
經(jīng)過(guò)前述操作步驟,已將建立檔案T轉(zhuǎn)換為T(mén)所包含全部詞向量的特征矩陣,并通過(guò)卷積﹑池化操作得到T的特征向量P。接下來(lái),將通過(guò)全鏈接方式鏈接Softmax多分類(lèi)的分類(lèi)器。
分類(lèi)器的作用,是對(duì)特征向量P進(jìn)行計(jì)算,分別得出各個(gè)分類(lèi)的概率,取概率最大的分類(lèi)作為該檔案T的分類(lèi)。
分類(lèi)器處理過(guò)程如下:
1.整理出數(shù)據(jù)集D = {x(i),y(i)},i∈[1,n]。其中y(i)是y(i)[1,k]的整數(shù),表示該樣本所屬的分類(lèi),SoftMax函數(shù)為:
這里的x(i)仍然是增廣向量形式:[1,x1,x,…,xk]。對(duì)于樣本x(i)使用上述公式計(jì)算,得出該樣本屬于j類(lèi)的概率δj
(i)。計(jì)算樣本屬于各個(gè)分類(lèi)的k個(gè)概率,并選取概率最大的類(lèi)作為樣本的最終分類(lèi)。
2.令I(lǐng)×為指示函數(shù),即I{值為真}=1,I{值為假}=0。再令 qj
j=I{y(i)=j},利用對(duì)數(shù)最大化似然估計(jì)得到損失函數(shù):
3.利用梯度下降法最小化誤差函數(shù)J(w),對(duì)其求w的偏導(dǎo)數(shù),得到結(jié)果:
迭代公式為:
為更直觀地分析CNN神經(jīng)網(wǎng)絡(luò)與其它分類(lèi)算法在電子檔案分類(lèi)識(shí)別上準(zhǔn)確率和效率的差異,本文用TensorFlow 編程實(shí)現(xiàn)了上述模型處理過(guò)程,進(jìn)行對(duì)比試驗(yàn)。
從檔案庫(kù)中抽取10000份名稱(chēng)為工程師的電子檔案數(shù)據(jù),隨機(jī)抽樣取 8000份檔案作為訓(xùn)練樣本,其余的作為驗(yàn)證測(cè)試數(shù)據(jù)。
通過(guò)對(duì)比試驗(yàn),發(fā)現(xiàn)使用機(jī)器學(xué)習(xí)的幾種算法都能實(shí)現(xiàn)對(duì)測(cè)試電子檔案的有效識(shí)別和準(zhǔn)確分類(lèi),從而大大降了用于人工搜索與閱讀判斷其所屬分類(lèi)的時(shí)間成本。
對(duì)比以上結(jié)果,由Facebook開(kāi)發(fā)的快速文本分類(lèi)器FastText提供了簡(jiǎn)單﹑高效的文本分類(lèi)和表征方法,但在電子檔案區(qū)分度不大的情況下,分類(lèi)準(zhǔn)確率有待進(jìn)一步提高。TextGrocery則是一個(gè)基于SVM算法的短文本分類(lèi)工具,內(nèi)置結(jié)巴分詞,但是從時(shí)間和準(zhǔn)確率來(lái)看,綜合效果并不十分突出。而基于卷積神經(jīng)網(wǎng)絡(luò)CNN的檔案分類(lèi)算法,特征學(xué)習(xí)力能力優(yōu)異,特征對(duì)數(shù)據(jù)本質(zhì)的刻畫(huà)最為準(zhǔn)確﹑深刻,更有利于檔案的分類(lèi)和區(qū)分;雖然耗時(shí)達(dá)1360秒,但與人工區(qū)分篩選耗時(shí)相比,該運(yùn)行時(shí)間完全可以接受。
本文提出基于卷積神經(jīng)網(wǎng)絡(luò)CNN的電子檔案分類(lèi)模型。該模型充分考慮了中文檔案文本特征稀疏﹑含有大量專(zhuān)業(yè)詞匯等特點(diǎn)。試驗(yàn)表明,CNN卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)模型相比TextGrocery﹑FastText等經(jīng)典分類(lèi)器準(zhǔn)確率大大提高。Word2vec訓(xùn)練模型的引入,極大地提高了在充分考慮語(yǔ)義特征情況下的中文單詞訓(xùn)練和向量詞典初始化的效率。在試驗(yàn)過(guò)程中,還發(fā)現(xiàn)不同的卷積核數(shù)量和初始化方法對(duì)分類(lèi)的結(jié)果具有一定的影響。未來(lái)的研究重點(diǎn)是如何優(yōu)化選取卷積核數(shù)量和分類(lèi)的方法,更好地提高檔案分類(lèi)的準(zhǔn)確率。