李國(guó)臣, 劉展鵬,王瑞波,李濟(jì)洪
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;3. 山西大學(xué) 計(jì)算中心,山西 太原 030006)
融合分詞隱層特征的漢語(yǔ)基本塊識(shí)別
李國(guó)臣1,2, 劉展鵬1,王瑞波3,李濟(jì)洪3
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;3. 山西大學(xué) 計(jì)算中心,山西 太原 030006)
該文以字為基本標(biāo)注單位,構(gòu)建了一種漢語(yǔ)基本塊識(shí)別的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型。模型聯(lián)合分詞任務(wù)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型與基本塊識(shí)別任務(wù)模型,將分詞任務(wù)模型中學(xué)習(xí)得到的隱層特征融入基本塊識(shí)別的模型中,兩模型相互交替優(yōu)化學(xué)習(xí)模型參數(shù),并實(shí)現(xiàn)了以整句似然函數(shù)(而非單字似然函數(shù))作為優(yōu)化目標(biāo)的算法。實(shí)驗(yàn)結(jié)果表明:1)以整句似然函數(shù)為優(yōu)化目標(biāo)的基本塊識(shí)別的F值比單字似然情形要高出1.33%,特別是在多字塊識(shí)別中,其召回率比單字似然情形要高出4.68%;2)融合分詞任務(wù)模型中的隱層特征的漢語(yǔ)基本塊識(shí)別模型的結(jié)果比不做融合的模型要高出2.17%,說(shuō)明融合分詞隱層特征的交替聯(lián)合學(xué)習(xí)方法是有效的。
分布表征;漢語(yǔ)基本塊識(shí)別;神經(jīng)網(wǎng)絡(luò)模型;隱層特征; 整句似然函數(shù)
語(yǔ)塊分析任務(wù)一直是國(guó)內(nèi)外研究的熱點(diǎn),近些年英語(yǔ)方面關(guān)于語(yǔ)塊分析中比較有影響的工作包括Kudoh等[1]利用支持向量機(jī)以93.48%的F值獲得了CoNLL 2000英語(yǔ)語(yǔ)塊分析評(píng)測(cè)任務(wù)的第一名;Sha等[2]利用條件隨機(jī)場(chǎng)模型將F值提高到了94.3%;Shen等[3]使用投票分類策略(voting classifier scheme)使得英語(yǔ)語(yǔ)塊分析的F值達(dá)到了95.23%。
漢語(yǔ)語(yǔ)塊分析方面的研究雖然起步較晚,但近幾年隨著信息處理技術(shù)的發(fā)展需求,漢語(yǔ)語(yǔ)塊分析(也叫淺層句法分析)的研究越來(lái)越受到關(guān)注。清華大學(xué)周強(qiáng)[4]在分層構(gòu)建漢語(yǔ)樹庫(kù)中對(duì)漢語(yǔ)語(yǔ)塊分析給出了一套描述體系。漢語(yǔ)基本塊是描述體系中的基本概念,其自動(dòng)識(shí)別任務(wù)是漢語(yǔ)語(yǔ)塊自動(dòng)分析中的一個(gè)基本任務(wù)。周強(qiáng)等[5-6]構(gòu)造了基于規(guī)則的漢語(yǔ)基本塊分析器,在其測(cè)試集上的F值達(dá)到了89.47%,在后續(xù)研究中又提出一種基本塊規(guī)則的自動(dòng)學(xué)習(xí)和擴(kuò)展進(jìn)化的方法;李超等[7]應(yīng)用最大熵馬爾可夫模型獲得了CIPS-ParsEval-2009評(píng)測(cè)任務(wù)的第一名,基本塊邊界識(shí)別F值達(dá)到了93.196%;侯瀟琪等[8]將詞的分布式實(shí)值表示應(yīng)用于基本塊識(shí)別任務(wù)中,比使用傳統(tǒng)的詞特征表示方法的標(biāo)記精度提高了1.86%。
上述方法中的絕大部分都需要抽取詞和詞性等特征,因此實(shí)際應(yīng)用中往往依賴詞性標(biāo)注系統(tǒng)、分詞系統(tǒng)的性能。李國(guó)臣等[9]給出了一種以字為標(biāo)注單位,以字為原始輸入層,來(lái)構(gòu)建漢語(yǔ)的基本塊識(shí)別的深層神經(jīng)網(wǎng)絡(luò)模型,并通過(guò)無(wú)監(jiān)督方法,學(xué)習(xí)到字的C&W和word2vec兩種分布表征,將其作為深層神經(jīng)網(wǎng)絡(luò)模型字表示層的初始輸入?yún)?shù)來(lái)強(qiáng)化模型參數(shù)的訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,使用五層神經(jīng)網(wǎng)絡(luò)模型的F值比基于字的CRF高出約5%。這種方法僅抽取語(yǔ)料中的漢字作為特征,避免了對(duì)分詞及詞性標(biāo)注結(jié)果的依賴,但總的識(shí)別性能不高,特別是對(duì)多字塊、多詞塊的識(shí)別精度不高。
由于以字為標(biāo)注單位的方法增大了基本塊識(shí)別的難度,因此我們借鑒了Collobert等人[10]文章提出的以整句似然函數(shù)代替單字似然函數(shù)作為似然函數(shù)的方法,由于整句似然函數(shù)考慮到了相鄰標(biāo)記間的轉(zhuǎn)移概率,因此對(duì)于多字塊、多詞塊等較長(zhǎng)語(yǔ)塊的識(shí)別應(yīng)該會(huì)好于單字似然函數(shù)。此外我們希望能在以漢字分布表征作為輸入的神經(jīng)網(wǎng)絡(luò)模型中,融合分詞任務(wù)模型中的隱層特性以改善基本塊的識(shí)別性能。為此本文提出一種聯(lián)合分詞任務(wù)與基本塊識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)模型,兩個(gè)任務(wù)共享同一個(gè)漢字分布表征參數(shù)矩陣并共同對(duì)該參數(shù)矩陣進(jìn)行更新,將分詞模型的隱層特征與基本塊識(shí)別模型的字特征共同作為基本塊識(shí)別模型的輸入層,兩模型相互交替優(yōu)化學(xué)習(xí)模型參數(shù),并實(shí)現(xiàn)了以整個(gè)句子似然函數(shù)(而非單個(gè)字似然函數(shù))作為優(yōu)化目標(biāo)的算法。
本文首先設(shè)計(jì)實(shí)驗(yàn)對(duì)比了單字似然函數(shù)與整句似然函數(shù)的差別,實(shí)驗(yàn)結(jié)果表明,整句似然函數(shù)下基本塊的識(shí)別結(jié)果好于單字似然的結(jié)果,特別是對(duì)多字塊、多詞塊的識(shí)別的召回率要好于單字似然函數(shù)。在分詞任務(wù)與基本塊識(shí)別任務(wù)聯(lián)合模型的性能調(diào)優(yōu)時(shí),本文設(shè)計(jì)了多種配置下的實(shí)驗(yàn),聯(lián)合模型中最終結(jié)果的F值提高了2.17%。
本文第二節(jié)主要介紹了聯(lián)合模型的實(shí)現(xiàn)細(xì)節(jié);第三節(jié)對(duì)實(shí)驗(yàn)設(shè)置、語(yǔ)料數(shù)據(jù)以及評(píng)價(jià)指標(biāo)等做了闡述;第四節(jié)給出了實(shí)驗(yàn)結(jié)果,并對(duì)結(jié)果做了分析;最后是對(duì)本文工作的總結(jié)和對(duì)未來(lái)研究工作的展望。
2.1 基本塊識(shí)別任務(wù)描述
漢語(yǔ)基本塊識(shí)別任務(wù)是給定一個(gè)句子,準(zhǔn)確識(shí)別出該句子中全部基本塊的左右邊界,以確定每個(gè)基本塊的正確位置。為正確識(shí)別出每個(gè)基本塊的邊界,通過(guò)“IOBES”標(biāo)記策略將基本塊識(shí)別任務(wù)轉(zhuǎn)換成基于“B、I、E、S、O”五種標(biāo)記的序列標(biāo)注問(wèn)題。假設(shè)句子S由n個(gè)字構(gòu)成,即S={x1x2…xn},則句子中每個(gè)字xi對(duì)應(yīng)一個(gè)分割標(biāo)記yi∈{B,I,E,S,O},yi=B表示xi為塊首字,yi=I表示xi為塊內(nèi)字,yi=E表示xi為塊尾字,yi=S表示xi為單字塊,yi=O表示xi為塊外字?;緣K識(shí)別任務(wù)可以表示為,給定句子S={x1x2…xn},找出其最優(yōu)的分割標(biāo)記序列Y={y1y2…yn}。
2.2 基于字分布表征的神經(jīng)網(wǎng)絡(luò)的漢語(yǔ)基本塊識(shí)別模型
李國(guó)臣等[8]的文章中提到,以字為標(biāo)注單位的方法,應(yīng)用深層神經(jīng)網(wǎng)絡(luò)模型比應(yīng)用傳統(tǒng)的機(jī)器學(xué)習(xí)模型(如最大熵、條件隨機(jī)場(chǎng)等)在基本塊識(shí)別任務(wù)中性能更佳。本文參照李國(guó)臣等的方法構(gòu)造了基于字分布表征神經(jīng)網(wǎng)絡(luò)的漢語(yǔ)基本塊識(shí)別模型的結(jié)構(gòu)(下文稱基本塊模型), 如圖1所示。
圖1 基于字分布表征的神經(jīng)網(wǎng)絡(luò)的漢語(yǔ)基本塊識(shí)別模型
模型結(jié)構(gòu)包含表示向量提取層、隱藏層與輸出層三層。表征向量提取層的作用是將字特征通過(guò)字的分布表征矩陣轉(zhuǎn)化為特征表示向量,圖中所示的是開3窗口的字特征轉(zhuǎn)化為表示向量的過(guò)程。首先本層中應(yīng)有一個(gè)大小為m*n的參數(shù)矩陣,稱為字分布表征矩陣,其中m為每個(gè)字的分布表征向量的維度,n表示字表的長(zhǎng)度,則矩陣中每一列都可以表示字表中的一個(gè)具體的字。設(shè){W1,W2,W3}為某標(biāo)記單位對(duì)應(yīng)的開3窗口特征三元組,{W1_INDEX,W2_INDEX,W3_INDEX}為此三元組在字表中對(duì)應(yīng)的位置索引,我們將字的位置索引作為本層的輸入,并通過(guò)索引值找到每個(gè)字在分布表征矩陣中對(duì)應(yīng)的列向量,然后將這些列向量拉直形成特征表示向量。
隱藏層的輸入為上一層的輸出向量,設(shè)F為本層輸入向量,W為本層的權(quán)重參數(shù)矩陣,b為本層的偏移項(xiàng),則線性計(jì)算過(guò)程可表示為:Linear(F)=W×F+b。我們選擇ReLu函數(shù)[11]作為隱藏層的激活函數(shù),設(shè)x為線性計(jì)算輸出結(jié)果的任一神經(jīng)元,ReLu函數(shù)形式如式(1)所示。
(1)
從公式(1)中可以看出,ReLu函數(shù)形式很簡(jiǎn)單,但是優(yōu)點(diǎn)卻很明顯:首先,由于函數(shù)大于0的部分梯度為1,可以使下層的梯度完整傳遞到上層從而避免梯度消失問(wèn)題(gradient vanishing problem),訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)模型時(shí)可以不依靠預(yù)訓(xùn)練;其次,強(qiáng)行剔除了小于0的神經(jīng)元,使模型具備了一定的稀疏性。因此,ReLu在深層神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域得到廣泛應(yīng)用[12-13]。
輸出層是對(duì)上一層的輸出的線性計(jì)算過(guò)程,線性計(jì)算的結(jié)果即為模型的輸出,但要注意的是輸出層的輸出向量的維度應(yīng)與對(duì)應(yīng)的標(biāo)記數(shù)量一致,如圖所示,以“BMESO”標(biāo)記策略作為基本塊識(shí)別的輸出標(biāo)記,則輸出層的每個(gè)輸出值都表示對(duì)某個(gè)標(biāo)記的輸出概率。
2.3 基于字分布表征的聯(lián)合分詞任務(wù)的漢語(yǔ)基本塊識(shí)別模型
為了將詞特征融入到基本塊識(shí)別模型中,我們分別構(gòu)造出基于同一表示向量提取層的分詞模型與基本塊識(shí)別模型,并將兩者結(jié)合在一起構(gòu)成基于字分布表征的聯(lián)合分詞任務(wù)的漢語(yǔ)基本塊識(shí)別聯(lián)合模型(下文稱聯(lián)合模型)。對(duì)于聯(lián)合模型的分詞部分,直接構(gòu)造以分布表征向量作為輸入的神經(jīng)網(wǎng)絡(luò)模型。對(duì)于基本塊識(shí)別部分,則首先要通過(guò)分詞部分計(jì)算出隱藏層的輸出向量,將此輸出向量與特征表示向量拉直作為基本塊識(shí)別模型的輸入,然后以此輸入構(gòu)造聯(lián)合模型的基本塊識(shí)別部分的神經(jīng)網(wǎng)絡(luò)模型。圖2為基于字分布表征的聯(lián)合分詞任務(wù)的漢語(yǔ)基本塊識(shí)別模型結(jié)構(gòu)圖。
圖2 基于字分布表征的聯(lián)合分詞任務(wù)的漢語(yǔ)基本塊識(shí)別模型
將分詞模型隱藏層的輸出作為基本塊識(shí)別模型的輸入是出于如下兩點(diǎn)的考慮。首先,隱藏層可以認(rèn)為是對(duì)輸入層的一種優(yōu)化表示,其壓縮了特征表示向量的長(zhǎng)度同時(shí)保留了對(duì)目標(biāo)任務(wù)有作用的部分信息;其次,我們還可以認(rèn)為它是對(duì)輸出層的一種間接反映,比僅包含分詞標(biāo)記概率的輸出層攜帶更多的詞層面信息。因此,將分詞隱藏層作為特征融入基本塊識(shí)別模型中可能增強(qiáng)模型的識(shí)別效果。
2.4 似然函數(shù)與優(yōu)化方法
本文采用極大似然估計(jì)法作為模型參數(shù)的估計(jì)方法。似然函數(shù)參考Collobert等人[10]文章中提出的單字似然函數(shù)與整句似然函數(shù)。兩種似然函數(shù)的區(qū)別在于單字似然函數(shù)只考慮每個(gè)字的輸入特征與輸出標(biāo)記間的概率函數(shù),而整句似然函數(shù)不僅要考慮每個(gè)字輸入特征與輸出標(biāo)記間的概率關(guān)系,還要考慮同一句子中所有輸出標(biāo)記之間的轉(zhuǎn)移概率,因此,整句似然函數(shù)需要一部分額外的參數(shù)用來(lái)記錄標(biāo)記與標(biāo)記間的轉(zhuǎn)移概率,并以整個(gè)句子的似然最大作為優(yōu)化目標(biāo)。因此,整句似然函數(shù)情形下,對(duì)于較長(zhǎng)語(yǔ)塊的邊界識(shí)別性能會(huì)好于單字似然函數(shù)。本文實(shí)驗(yàn)中對(duì)漢語(yǔ)基本塊識(shí)別任務(wù)的不同模型,分別采用以上兩種似然函數(shù)作為優(yōu)化目標(biāo)做了對(duì)比。
2.5 訓(xùn)練方法
2.5.1 參數(shù)優(yōu)化算法
本文中提到的模型均采用帶mini-batch的隨機(jī)梯度下降(SGD)算法作為參數(shù)的優(yōu)化算法。由于考慮到整句似然函數(shù)每次迭代的輸入為一整條句子,我們以句子數(shù)作為抽取的每批次訓(xùn)練樣例的單位。設(shè)訓(xùn)練中每批次抽取的訓(xùn)練樣例的句子數(shù)為m,L1,L2,…,Lm表示每條句子的長(zhǎng)度(包含字的個(gè)數(shù)),則對(duì)于字分布表征的參數(shù)以及神經(jīng)網(wǎng)絡(luò)中每一層的參數(shù),采用公式(2)進(jìn)行更新。
(2)
對(duì)于整句似然函數(shù)中的狀態(tài)轉(zhuǎn)移參數(shù),則用公式(3)更新。
(3)
其中θ表示原始參數(shù),θ′表示更新后的參數(shù),α為學(xué)習(xí)率,grad(θ)表示同一批次訓(xùn)練樣例對(duì)參數(shù)θ求得的梯度之和,由于求grad(θ)的過(guò)程中狀態(tài)轉(zhuǎn)移參數(shù)共計(jì)累加m次,其他參數(shù)共計(jì)累加L1+L2+…+Lm次(對(duì)狀態(tài)轉(zhuǎn)移參數(shù)每個(gè)句子只有一個(gè)梯度,對(duì)其他參數(shù)句子中每個(gè)字都有一個(gè)梯度),因此對(duì)于不同的參數(shù),我們先以梯度和除以累加次數(shù)得到平均梯度,再用于參數(shù)更新。
2.5.2 聯(lián)合模型的交替訓(xùn)練方法
對(duì)于聯(lián)合模型,我們采用兩個(gè)目標(biāo)任務(wù)交替訓(xùn)練的方法進(jìn)行訓(xùn)練。假設(shè)每批次數(shù)據(jù)量的大小為m,則包含分詞任務(wù)與基本塊識(shí)別任務(wù)的交替訓(xùn)練每次迭代都應(yīng)包含以下步驟:(1)在分詞數(shù)據(jù)中抽取m個(gè)數(shù)據(jù),通過(guò)模型計(jì)算分詞任務(wù)的似然與分詞模型涉及到的參數(shù)的梯度,根據(jù)梯度更新分詞任務(wù)涉及到的參數(shù);(2)在基本塊識(shí)別任務(wù)數(shù)據(jù)中抽取m個(gè)數(shù)據(jù),通過(guò)模型計(jì)算基本塊識(shí)別模型的似然與基本塊識(shí)別任務(wù)模型涉及到的參數(shù)的梯度,根據(jù)梯度更新基本塊識(shí)別任務(wù)涉及到的參數(shù)。需要注意的是,由于字分布表征矩陣由兩個(gè)任務(wù)所共享,因此對(duì)每個(gè)任務(wù)的參數(shù)進(jìn)行更新時(shí)都需要更新字分布表征矩陣的參數(shù)。
本文對(duì)分詞和基本塊識(shí)別兩個(gè)目標(biāo)任務(wù)交替進(jìn)行訓(xùn)練,而不是預(yù)先訓(xùn)練好分詞部分的參數(shù),再訓(xùn)練基本塊識(shí)別部分的參數(shù)的原因在于:首先,兩個(gè)目標(biāo)任務(wù)交替訓(xùn)練,可以防止分詞部分的參數(shù)對(duì)分詞任務(wù)過(guò)于擬合而影響到基本塊的識(shí)別性能;其次,由于我們模型中共享了字分布表征,交替訓(xùn)練的方法可以使字分布表征的參數(shù)不會(huì)過(guò)于偏向其中某個(gè)任務(wù)目標(biāo)而影響整體性能。
3.1 實(shí)驗(yàn)語(yǔ)料
3.1.1 基本塊識(shí)別語(yǔ)料
本文采用的基本塊識(shí)別任務(wù)的實(shí)驗(yàn)語(yǔ)料來(lái)自CIPS-ParsEval-2009評(píng)測(cè)任務(wù)[14]中發(fā)布的漢語(yǔ)基本塊分析語(yǔ)料。我們統(tǒng)計(jì)了該語(yǔ)料的部分信息并在表1中展示。
表1 基本塊識(shí)別語(yǔ)料規(guī)模
3.1.2 分詞語(yǔ)料
為了驗(yàn)證基于不同的分詞語(yǔ)料對(duì)實(shí)驗(yàn)結(jié)果可能帶來(lái)的影響,我們共選取三組分詞語(yǔ)料:一是山西大學(xué)構(gòu)建的山大500萬(wàn)字分詞語(yǔ)料中的一部分,稱為山大語(yǔ)料;二是Sighan 2005 backoff評(píng)測(cè)任務(wù)中由北京大學(xué)標(biāo)注的分詞語(yǔ)料,稱為北大語(yǔ)料;為了驗(yàn)證與基本塊任務(wù)采用相同的語(yǔ)料是否對(duì)標(biāo)注性能有幫助,我們剔除了基本塊識(shí)別任務(wù)語(yǔ)料中的訓(xùn)練數(shù)據(jù)集中的詞性與基本塊標(biāo)記信息,只保留了其中的詞語(yǔ)信息,將處理后的基本塊語(yǔ)料作為第三組分詞語(yǔ)料,稱為基本塊語(yǔ)料。表2展示了全部分詞語(yǔ)料的規(guī)模。
表2 分詞語(yǔ)料規(guī)模
3.2 評(píng)價(jià)指標(biāo)
以基本塊識(shí)別任務(wù)的F值作為模型整體性能的評(píng)價(jià)指標(biāo),其計(jì)算方法簡(jiǎn)要概括如下:
設(shè):A=預(yù)測(cè)結(jié)果中完全識(shí)別正確的基本塊的個(gè)數(shù)。
B=測(cè)試數(shù)據(jù)集中全部基本塊的個(gè)數(shù)。
C=預(yù)測(cè)結(jié)果中全部基本塊的個(gè)數(shù)。
則:準(zhǔn)確率=A/C,召回率=A/B,F(xiàn)值=2*準(zhǔn)確率*召回率/(準(zhǔn)確率+召回率)。
而模型對(duì)單字塊和多字塊的識(shí)別性能則采用其召回率作為評(píng)價(jià)指標(biāo)。
為了方便對(duì)比,并且考慮到計(jì)算復(fù)雜度的問(wèn)題,本文中實(shí)驗(yàn)參數(shù)均參照表3設(shè)置。
表3 試驗(yàn)參數(shù)
4.1 兩種似然函數(shù)的基本塊識(shí)別實(shí)驗(yàn)結(jié)果
為了驗(yàn)證單字似然函數(shù)和整句似然函數(shù)的性能,實(shí)驗(yàn)中將不同似然函數(shù)應(yīng)用于基本塊模型(沒(méi)有聯(lián)合分詞任務(wù)的模型)上,并統(tǒng)計(jì)了實(shí)驗(yàn)結(jié)果的準(zhǔn)確率、召回率、F值、單字塊以及多字塊的召回率,見表4。
表4 兩種似然函數(shù)的基本塊識(shí)別實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果中,整句似然函數(shù)比單字似然函數(shù)識(shí)別結(jié)果的F值高約1.34%,在多字塊的召回率上,整句似然函數(shù)要明顯優(yōu)于單字似然函數(shù),而準(zhǔn)確率方面略低于單字似然函數(shù)。我們抽取出測(cè)試語(yǔ)料具有代表性的一條樣例語(yǔ)句并展示了兩種不同似然函數(shù)對(duì)該樣例的識(shí)別結(jié)果,并且以中括號(hào)標(biāo)注了結(jié)果中能構(gòu)成完整基本塊的標(biāo)記序列。
例句 [中國(guó)古代][財(cái)政][為][“度支”]、[“國(guó)用”]、[“歲計(jì)”]、[“國(guó)計(jì)”]。
正確的標(biāo)記序列應(yīng)為:[BMME][BE][S][BMME]O[BMME]O[BMME]O[BMME]O
單字似然函數(shù)預(yù)測(cè)結(jié)果:[BMMMME]OOMEEOOMMOOOMEOOOBMMOO
整句似然函數(shù)預(yù)測(cè)結(jié)果:[BMMMME][S][BME]OO[BMME]O[BMME]O[BMME]O
可以看出,由于單字似然函數(shù)不考慮標(biāo)記間的轉(zhuǎn)移概率,致使預(yù)測(cè)結(jié)果中包含大量的非法序列(不能構(gòu)成完整基本塊的標(biāo)記序列,如BMMO),而且將大部分的引號(hào)標(biāo)注為塊外標(biāo)記O;而相對(duì)的整句似然函數(shù)的識(shí)別結(jié)果中,幾乎不存在非法序列,而且對(duì)[“度支”]、[“國(guó)用”]、[“歲計(jì)”]、[“國(guó)計(jì)”]幾個(gè)帶引號(hào)的塊也幾乎完全識(shí)別正確。因此,整句似然函數(shù)識(shí)別出的基本塊數(shù)要明顯大于單字似然函數(shù),特別是對(duì)多字塊的召回率都明顯高于單字似然函數(shù)。單字似然函數(shù)由于識(shí)別出的基本塊數(shù)較少,因而準(zhǔn)確率要略高于整句似然函數(shù)。
4.2 聯(lián)合模型的實(shí)驗(yàn)結(jié)果
我們對(duì)兩個(gè)任務(wù)目標(biāo)分別應(yīng)用不同的似然函數(shù),共設(shè)計(jì)三組實(shí)驗(yàn),每組實(shí)驗(yàn)中的分詞部分都使用了上文中提到的三種不同分詞語(yǔ)料作為訓(xùn)練語(yǔ)料,表5展示了三組實(shí)驗(yàn)的F值。
表5 聯(lián)合模型實(shí)驗(yàn)結(jié)果
可以看出三組實(shí)驗(yàn)中表現(xiàn)最好的是第二組,即分詞任務(wù)的似然函數(shù)采用單字似然函數(shù),基本塊識(shí)別任務(wù)的似然函數(shù)采用整句似然函數(shù)??梢娬渌迫缓瘮?shù)在分詞部分的表現(xiàn)并不好,考慮到由于分詞任務(wù)語(yǔ)料中詞語(yǔ)的平均長(zhǎng)度只有1.6字左右,可見大多數(shù)詞均為單字詞與二字詞,整句似然函數(shù)對(duì)于長(zhǎng)語(yǔ)塊的識(shí)別精度高的優(yōu)勢(shì)無(wú)法體現(xiàn)。而三種分詞語(yǔ)料中,山大語(yǔ)料與北大語(yǔ)料的結(jié)果差不多。
4.3 以不同漢字分布表征為初始輸入的結(jié)果
我們利用基本塊模型實(shí)驗(yàn)與聯(lián)合模型實(shí)驗(yàn)中表現(xiàn)最好的實(shí)驗(yàn)?zāi)P?,加入由word2vec[15]中包含的Skip-gram算法和CBOW算法訓(xùn)練得到的字的表征向量作為兩種模型中字分布表征矩陣的初始值,并將其結(jié)果與隨機(jī)初始值的結(jié)果進(jìn)行對(duì)比,其結(jié)果展示如表6所示。
表6 加入預(yù)訓(xùn)練字分布表征的實(shí)驗(yàn)結(jié)果
結(jié)果表明,使用經(jīng)Skip-gram算法得到的預(yù)訓(xùn)練的字分布表征作為初始輸入之后,使總體性能得到一定的提升,經(jīng)CBOW算法得到的分布表征與隨機(jī)值作為初始化參數(shù)結(jié)果差異不大。 最終結(jié)果是聯(lián)合模型的F值(76.06%)比基本塊模型(沒(méi)有聯(lián)合分詞任務(wù)的模型)中的F值73.89%提高了2.17%。
本文引用單字似然函數(shù)與整句似然函數(shù)作為極大似然估計(jì)的似然函數(shù),分別構(gòu)造了基于基本塊識(shí)別任務(wù)的基本塊模型,以及融合分詞隱層特征的基本塊識(shí)別聯(lián)合模型,實(shí)驗(yàn)證明聯(lián)合模型的性能比基本塊模型有了一定的提升。但由于聯(lián)合模型結(jié)構(gòu)上比較復(fù)雜,且存在訓(xùn)練時(shí)間較長(zhǎng),收斂速度慢的缺點(diǎn)。因此,后續(xù)研究當(dāng)從以下幾個(gè)方面展開:
(1) 改進(jìn)訓(xùn)練算法,加快收斂速度;
(2) 融入詞性標(biāo)注等其他任務(wù)的隱層特征,設(shè)計(jì)三個(gè)以上任務(wù)的聯(lián)合模型;
(3) 進(jìn)一步測(cè)試融入不同任務(wù)隱層特征對(duì)基本塊識(shí)別性能的提升效果。
[1] Kudoh T, Matsumoto Y. Use of support vector learning for chunk identification[C]//Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning-Volume 7. Association for Computational Linguistics, 2000: 142-144.
[2] Sha F, Pereira F. Shallow parsing with conditional random fields[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Association for Computational Linguistics, 2003: 134-141.
[3] Shen H, Sarkar A. Voting between multiple data representations for text chunking[M]. Springer Berlin Heidelberg, 2005.
[4] 周強(qiáng), 任海波, 孫茂松. 分階段構(gòu)建漢語(yǔ)樹庫(kù)[C]//第二屆中日自然語(yǔ)言處理專家研討會(huì),2002.
[5] 周強(qiáng). 基于規(guī)則的漢語(yǔ)基本塊自動(dòng)分析器[C]//第七屆中文信息處理國(guó)際會(huì)議.2007.
[6] 周強(qiáng). 漢語(yǔ)基本塊規(guī)則的自動(dòng)學(xué)習(xí)和擴(kuò)展進(jìn)化[J]. 清華大學(xué)學(xué)報(bào):自然科學(xué)版, 2008, 48:88-91.
[7] 李超,孫健,關(guān)毅,等. 基于最大熵模型的漢語(yǔ)基本塊分析技術(shù)研究 [R]CIPS-PaysEval. 2009.
[8] 侯瀟琪, 王瑞波, 李濟(jì)洪. 基于詞的分布式實(shí)值表示的漢語(yǔ)基本塊識(shí)別[J]. 中北大學(xué)學(xué)報(bào):自然科學(xué)版, 2013, (5):582-585.
[9] 李國(guó)臣,黨帥兵,王瑞波,等.基于字的分布表征的漢語(yǔ)基本塊識(shí)別[J]. 中文信息學(xué)報(bào), 2014, 28(6):18-25.
[10] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch. [J]. Journal of Machine Learning Research, 2011, 12(1):2493-2537.
[11] Nair V, Hinton G E. Rectified Linear Units Improve Restricted Boltzmann Machines.[C]//Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010:807-814.
[12] Zeiler, M.D, Ranzato M, Monga R, et al. On rectified linear units for speech processing[C]//Proceedings of Acoustics, Speech, and Signal Processing, 1988. ICASSP-88., 1988 International Conference 2013:3517-3521.
[13] Wu Y, Zhao H, Zhang L. Image Denoising with Rectified Linear Units[C]//Proceedings of Spriner International Publishing,2014:142-149.
[14] 周強(qiáng),李玉梅.漢語(yǔ)塊分析評(píng)測(cè)任務(wù)設(shè)計(jì)[J]. 中文信息學(xué)報(bào),2010, 24(1): 123-129.
[15] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[DB]. arXiv preprint arXiv:1301.3781, 2013.
Chinese Base-Chunk Identification Using Hidden-Layer Feature of Segmentation
LI Guochen1,2, LIU Zhanpeng1, WANG Ruibo3, LI Jihong3
(1. School of Computer and Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China;2. Department of Computer Engineering, Taiyuan Institute of Technology, Taiyuan, Shanxi 030008, China;3. Computer Center of Shanxi University, Taiyuan, Shanxi 030006, China)
Based on the unit of Chinese character, a neural network learning model for Chinese base-chunk identification is constructed. The model combines the neural network learning model of segmentation task with the model of base-chunk identification by using the hidden-layer features of segmentation. The sentence-level likelihood function for base-chunk identification task is employed as the optimization target. The parameters of the two learning model are trained in turn. The experimental results show that: 1) the F-score of base-chunk identification with sentence-level likelihood function is 1.33% higher than that with character-level likelihood function, and especially, the recall for the multi-characters chunk identification is improved as much as 4.68%. 2) The final result of using hidden-layer features of segmentation task is 2.17% higher.
distributed representation; Chinese base-chunk identification; neural network model; hidden-layer features; sentence-level likelihood function
李國(guó)臣(1963—),教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚怼?mail:ligc@sxu.edu.cn劉展鵬(1991—),通信作者,碩士,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E?mail:842888676@qq.com王瑞波(1985—),講師,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E?mail:wangruibo@sxu.edu.cn
1003-0077(2016)02-0012-06
2014-08-19 定稿日期: 2014-10-19
國(guó)家自然科學(xué)基金(61503228);國(guó)家自然科學(xué)基金委員會(huì)—廣東省政府聯(lián)合基金(第二期)超級(jí)計(jì)算科學(xué)應(yīng)用研究專項(xiàng)(NSFC 2015—268)
TP391
A