国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于字的分布表征的漢語基本塊識(shí)別

2014-02-28 01:25李國(guó)臣黨帥兵王瑞波李濟(jì)洪
中文信息學(xué)報(bào) 2014年6期
關(guān)鍵詞:分詞漢語神經(jīng)網(wǎng)絡(luò)

李國(guó)臣,黨帥兵,王瑞波,李濟(jì)洪

(1.太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;2. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3. 山西大學(xué) 計(jì)算中心,山西 太原 030006;)

1 引言

漢語句法分析體系,目前主要有兩種: 第一種是直接在分詞、詞性標(biāo)注的基礎(chǔ)上構(gòu)建漢語句子的完全句法分析樹,另外一種是將漢語句子分割成不同層面的語塊的淺層句法分析。后者的典型代表是周強(qiáng)等提出的語塊分析體系[1]。該體系中提出了漢語基本塊、多詞塊和功能塊3種塊。周強(qiáng)構(gòu)建了相應(yīng)語料,并設(shè)置了漢語基本塊等自動(dòng)識(shí)別任務(wù),開發(fā)了自動(dòng)分析工具。周強(qiáng)構(gòu)建的第一個(gè)基于規(guī)則的漢語基本塊分析器[2],在其測(cè)試集上F值達(dá)到89.47%。不過,該基本塊分析器十分依賴于漢語句子的分詞和詞性標(biāo)注性能。后來,宇航等[3]使用條件隨機(jī)場(chǎng)模型構(gòu)建了一個(gè)漢語基本塊標(biāo)注模型,模型的F值達(dá)到89.54%。在周強(qiáng)組織的漢語基本塊分析評(píng)測(cè)CIPS-Pars-Eval-2009中,基本塊自動(dòng)識(shí)別的最好結(jié)果為F值[4]93.20%(封閉測(cè)試)和90.53%(開放測(cè)試)。

需要注意的是,上述評(píng)測(cè)任務(wù)中,絕大多數(shù)是通過使用最大熵、條件隨機(jī)場(chǎng)等模型對(duì)漢語句子中的每個(gè)詞語進(jìn)行標(biāo)注,直接將詞語、詞性等原子特征及組合特征加入到學(xué)習(xí)算法中進(jìn)行訓(xùn)練,并最終將預(yù)測(cè)得到的標(biāo)記合并成漢語基本塊的識(shí)別結(jié)果。這種做法存在兩個(gè)問題: 第一,這些基本塊識(shí)別模型的性能非常依賴于測(cè)試集中分詞的正確性和一致性。設(shè)想如果測(cè)試集中使用的分詞規(guī)范和訓(xùn)練集不一致時(shí),基本塊自動(dòng)識(shí)別的性能會(huì)有很大的下降。第二,這些基本塊識(shí)別模型主要使用詞、詞性等示性特征,機(jī)器學(xué)習(xí)算法很難學(xué)習(xí)、泛化相同或相近句法結(jié)構(gòu)而使用不同詞語表達(dá)的樣例。

第一個(gè)問題的一種解決思路是避免使用詞語作為標(biāo)注單位,而直接使用漢字作為標(biāo)注單位。這樣可以避免由于分詞錯(cuò)誤或者不一致而導(dǎo)致的基本塊標(biāo)注的性能明顯下降。目前,已經(jīng)有很多的研究工作在探究直接從漢字出發(fā)來識(shí)別句法塊,構(gòu)建漢語句法分析樹[5]。本文采用這種方法,直接將漢語基本塊看作是以漢字為標(biāo)注單位的任務(wù),并使用條件隨機(jī)場(chǎng)、最大熵和深層神經(jīng)網(wǎng)絡(luò)等機(jī)器模型來進(jìn)行標(biāo)注。

第二個(gè)問題中,我們可以使用幾種方法來將詞語之間的句法、語義關(guān)聯(lián)信息加入到機(jī)器學(xué)習(xí)算法中。其中,一種方法是,直接使用知網(wǎng)、同義詞詞林等人工構(gòu)建的語義資源,以這些資源構(gòu)建特征加入到機(jī)器學(xué)習(xí)算法中,來提高模型識(shí)別的性能[6]。另外一種方法是,使用潛在語義分析,PLSA[7]以及LDA[8]等算法在使用大規(guī)模生語料庫訓(xùn)練出各個(gè)詞語的實(shí)值向量表示,并將這些表示作為特征加入到機(jī)器學(xué)習(xí)算法中,來改進(jìn)模型識(shí)別的精度。在本文提出的方法中,我們直接使用兩種經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型(C&W[9]和word2vec[10-12])在大規(guī)模語料上進(jìn)行無監(jiān)督的訓(xùn)練,得到漢字的分布表征,并將這種表征加入到基于字的漢語基本塊識(shí)別模型中,來驗(yàn)證該分布表征信息對(duì)模型性能的影響。

使用神經(jīng)網(wǎng)絡(luò)來獲取字以及詞的分布表征信息已經(jīng)得到了研究者的廣泛關(guān)注。其中,最著名的是Bengio等人[13]提出的語言模型。該工作中,將英文句子中詞語的n-gram串通過一個(gè)實(shí)值矩陣映射成一個(gè)固定維度的實(shí)值向量,然后將其作為輸入,使用神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了一個(gè)概率語言模型。在大規(guī)模語料上進(jìn)行訓(xùn)練中,不斷地對(duì)實(shí)值矩陣中的各個(gè)元素進(jìn)行更新學(xué)習(xí),最終形成了每個(gè)詞語的分布表征。在Collobert和Weston等人[9]的工作中,通過替換n-gram詞串的當(dāng)前詞來構(gòu)造出一些偽例,然后將真實(shí)的n-gram串和構(gòu)造的偽例作為訓(xùn)練樣本,使用hinge損失函數(shù)來無監(jiān)督地訓(xùn)練整個(gè)神經(jīng)網(wǎng)絡(luò)模型,獲得了英文詞語的分布表征。后來的很多研究工作將這種方法獲得的分布表征稱為C&W分布表征。另外一個(gè)著名的工作是Mikolov等人提出的[10]。該工作中提出的CBOW方法和Skip-gram算法具有訓(xùn)練速度快、分布表征性質(zhì)良好等特點(diǎn)。這些工作中有很多的例子表明,使用大規(guī)模無監(jiān)督的語料進(jìn)行訓(xùn)練后,詞語的分布表征可以較好地體現(xiàn)原詞語的句法、語義信息的相似性。本文主要使用了漢語字的C&W[9]分布表征和word2vec[10-12]分布表征(使用CBOW方法獲得)。

字和詞的分布表征也被很多研究者使用到自然語言處理的各種任務(wù)之中,例如,英文的情感分析、詞性標(biāo)注、命名體識(shí)別、語義角色標(biāo)注以及漢語的分詞[14]、基本塊識(shí)別[15]等任務(wù)中。Collobert和Weston等人的研究工作[9]將英文中的詞性標(biāo)注、名命體識(shí)別和語義角色標(biāo)注等多個(gè)任務(wù)直接放入到一個(gè)神經(jīng)網(wǎng)絡(luò)模型中,使用分布表征矩陣來將英文詞映射到實(shí)值向量上,并使用梯度下降算法進(jìn)行訓(xùn)練,得到了一個(gè)接近于目前最好性能的自然語言理解模型。Turian在文獻(xiàn)[16]中提出一種適用于自然語言理解任務(wù)的半監(jiān)督學(xué)習(xí)框架,即: 將無監(jiān)督訓(xùn)練得到的詞語的分布表征作為特征加入到有監(jiān)督的機(jī)器學(xué)習(xí)算法中,來改進(jìn)各種自然語言理解模型的性能。來斯惟等人使用字的分布表征和神經(jīng)網(wǎng)絡(luò)算法來構(gòu)建漢語分詞模型[14]。他們的實(shí)驗(yàn)結(jié)果表明,該方法在漢語分詞任務(wù)上有很大的潛力。侯瀟琪等人[15]將詞的分布表征加入到基本塊識(shí)別模型中,在正確分詞基礎(chǔ)上BIO的標(biāo)記精度達(dá)到85.90%的。不過,該工作使用詞作為標(biāo)注單位,實(shí)用中標(biāo)注結(jié)果明顯依賴于分詞性能的好壞。

本文直接將字作為標(biāo)注單位來構(gòu)建基本塊識(shí)別模型。在僅僅使用以字構(gòu)建的特征下,本文對(duì)比了條件隨機(jī)場(chǎng)、最大熵和深層神經(jīng)網(wǎng)絡(luò)等標(biāo)注模型,并對(duì)比了字的隨機(jī)向量表示、C&W表示和word2vec表示三種分布表征。實(shí)驗(yàn)結(jié)果表明,在[-3,3]窗口下,將字的word2vec分布表征融入到五層神經(jīng)網(wǎng)絡(luò)下,漢語基本塊的識(shí)別性能最好,可以達(dá)到77.12%的F值。本文的主要目的是基于漢語基本塊識(shí)別任務(wù),探討漢語詞語的表示學(xué)習(xí)以及深層神經(jīng)網(wǎng)絡(luò)語言模型的有效性。

本文章節(jié)安排如下: 第2節(jié)介紹了本文的整個(gè)基本塊識(shí)別模型框架,并詳細(xì)給出了本文使用的深層神經(jīng)網(wǎng)絡(luò)的具體配置以及標(biāo)注算法所使用的標(biāo)記集合;第3節(jié)描述了本文所用的實(shí)驗(yàn)數(shù)據(jù)、實(shí)驗(yàn)設(shè)置和評(píng)價(jià)指標(biāo);第4節(jié)總結(jié)了實(shí)驗(yàn)結(jié)果,并進(jìn)行了深入的分析;最后對(duì)本文工作做了總結(jié),并給出下一步的研究方向。

2 基于字的漢語基本塊識(shí)別模型描述

本文將基本塊識(shí)別轉(zhuǎn)化成漢字的序列標(biāo)注任務(wù),然后借助于多種統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法對(duì)該序列標(biāo)注問題進(jìn)行建模。

2.1 問題描述

漢語基本塊識(shí)別任務(wù)是對(duì)給定的一個(gè)漢語句子,標(biāo)注每個(gè)基本塊的位置,確定基本塊中所包含的具體詞語。由于一個(gè)句子中的漢語基本塊不存在重疊、嵌套和交叉問題。因此,我們可以很容易地將其轉(zhuǎn)化成一個(gè)序列分割問題,數(shù)學(xué)描述如下:

上述的序列分割問題,通常要引入一個(gè)標(biāo)記集合來將一個(gè)分割的識(shí)別問題轉(zhuǎn)化到分割中所包含字的標(biāo)注問題,即: 給分割中包含的每一個(gè)字賦予一個(gè)標(biāo)記來標(biāo)識(shí)該字在分割中的位置。常用的標(biāo)記集合有IOB1, IOB2, IOE1,IOE2, IOBES等,具體的轉(zhuǎn)化方法請(qǐng)參見文獻(xiàn)[17]。本文中采用了IOBES標(biāo)記集合。其中用“S”標(biāo)記單字基本塊,對(duì)于包含多個(gè)字的基本塊,塊中的第一個(gè)字用“B”標(biāo)記,最后一個(gè)字用“E”標(biāo)記,中間的字用“I”標(biāo)記,對(duì)于塊外的字統(tǒng)一用“O”標(biāo)記。具體的對(duì)應(yīng)關(guān)系如下例所示。

原始句子: 醫(yī)和藥是密切相關(guān)的。

基本塊信息: [ 醫(yī) ] 和 [ 藥 ] [ 是 ] [ 密切相關(guān) ] 的 。

標(biāo)記信息: 醫(yī)/S 和/O 藥/S 是/S 密/B 切/I 相/I 關(guān)/E 的/O 。/O

通過轉(zhuǎn)化,基本塊識(shí)別問題可以轉(zhuǎn)化成一個(gè)序列標(biāo)注問題: 給定漢語句子序列X=(x1x2…xn),正確識(shí)別出一個(gè)句子的基本塊信息標(biāo)記序列Y=y1y2…yn,其中,yi屬于{I,O,B,E,S}。即找到:

(1)

s.t.Y*是一個(gè)合理的序列,可以還原出基本塊信息。

2.2 深層神經(jīng)網(wǎng)絡(luò)模型

解決式(1)所描述的問題,條件隨機(jī)場(chǎng)模型[18]是一種較好的算法。不過,本文僅在一部分對(duì)比實(shí)驗(yàn)中使用了條件隨機(jī)場(chǎng)模型。本文主要關(guān)注最大熵模型和深層神經(jīng)網(wǎng)絡(luò)模型。這兩種模型均把式(1)描述的原始問題轉(zhuǎn)化成如下的問題:

s.t.Y*是一個(gè)合理的序列,可以還原出基本塊信息。

實(shí)際上,只有當(dāng)標(biāo)記序列Y中任意兩個(gè)yi和yj(i不等于j)之間相互獨(dú)立時(shí),式(1)才可以轉(zhuǎn)化成式(2)和式(3)。在本文中,為了簡(jiǎn)單處理,我們假設(shè)這種獨(dú)立性成立。最大熵算法的基本思想和模型形式在文獻(xiàn)[19]中已經(jīng)給出了很好的描述。這里,我們僅給出本文使用的深層神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)及一些參數(shù)設(shè)置。

本文所使用的深層神經(jīng)網(wǎng)絡(luò)為5層結(jié)構(gòu)(算上原始輸入層),如圖1所示。其中,原始輸入是w個(gè)字在字表中對(duì)應(yīng)的索引值,然后通過在分布表征矩陣中查找出這w個(gè)字中每個(gè)字所對(duì)應(yīng)的n維的實(shí)值向量,并依字序首尾相接成的w·n維的實(shí)值向量v。在第1隱層直接使用tanh函數(shù)對(duì)向量v進(jìn)行非線性變換形成h1,該層中的每個(gè)節(jié)點(diǎn)h1j都與表示層中的每個(gè)節(jié)點(diǎn)vi相連。進(jìn)而,在第2隱層中,將h1使用tanh變換得到h2。同樣,h1和h2之間的節(jié)點(diǎn)也是完全相連的。最后,在輸出層,使用softmax函數(shù)對(duì)h2層的節(jié)點(diǎn)值進(jìn)行概率歸一化得出P(yi=t|X),t屬于{B,I,O,E,S}。最終,使用輸出層的5個(gè)節(jié)點(diǎn)中最大概率值對(duì)應(yīng)的標(biāo)記作為第i詞的最終標(biāo)記。

圖1 深層神經(jīng)網(wǎng)絡(luò)模型圖

2.3 字的分布表征

一般來說,在使用機(jī)器學(xué)習(xí)算法解決式(1)和式(3)中描述的問題時(shí),并沒有將整個(gè)句子X中的所有信息引入來預(yù)測(cè)每個(gè)字的標(biāo)記信息。在預(yù)測(cè)第i個(gè)字的標(biāo)記時(shí),通常只是將該字周圍的一些字的信息作為特征加入到機(jī)器學(xué)習(xí)算法中,即,使用開窗口的方式來進(jìn)行特征選取。本文也采用了這種做法。

區(qū)別于直接使用字、詞作為特征,本文使用了字的分布表征作為特征信息。不同于字的0-1向量表

示,字的分布表征是將字表示成為一個(gè)定長(zhǎng)的實(shí)值向量。該實(shí)值向量是通過某個(gè)表示學(xué)習(xí)模型來獲得的。具體請(qǐng)參考本文第一部分給出的相關(guān)文獻(xiàn)。

需要注意的是,假設(shè)常用字有5 000個(gè),并且特征窗口設(shè)置為[-2,2],如果直接使用字的0-1向量表示作為特征,那么機(jī)器學(xué)習(xí)算法就必須處理25 000維的特征向量。如果再考慮上字、詞特征之間的組合特征等,那么特征向量的維度會(huì)成倍地往上增長(zhǎng)。這很容易引起維數(shù)災(zāi)難問題。并且,在這樣的特征矩陣?yán)?,存在著?yán)重的稀疏問題。字的分布表征一般為低維(比如100維)的實(shí)值向量,那么上面的問題就可以轉(zhuǎn)化為一個(gè)在500維特征上的一個(gè)學(xué)習(xí)問題。值得說明的是,字的分布表征中能學(xué)習(xí)到字之間的句法、語義的某些關(guān)聯(lián)性,這為自然語言處理許多任務(wù)帶來新思路、新方法。下面的幾節(jié)中,給出漢語基本塊識(shí)別任務(wù)實(shí)驗(yàn)。

3 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)主要關(guān)心使用字的分布表征來進(jìn)行基本塊的識(shí)別實(shí)驗(yàn)。在所有實(shí)驗(yàn)中,基本塊的識(shí)別問題被轉(zhuǎn)化成字層面的序列標(biāo)注問題。本文主要使用了IOBES標(biāo)注集合。實(shí)驗(yàn)中嘗試了多種機(jī)器學(xué)習(xí)算法,并對(duì)它們進(jìn)行了比較。

3.1 實(shí)驗(yàn)語料

實(shí)驗(yàn)語料使用了CIPS-ParsEval-2009中發(fā)布的漢語基本塊分析語料。語料庫總規(guī)模為765 820字, 訓(xùn)練文件數(shù)為171個(gè), 包含14 249條句子, 共計(jì)618 231字。測(cè)試文件數(shù)為 43個(gè), 包含3 751條句子 ,共計(jì)147 589字。語料中,基本塊的塊長(zhǎng)(塊中所含字?jǐn)?shù))統(tǒng)計(jì)如表1所示。

表1 基本塊語料塊長(zhǎng)度統(tǒng)計(jì)

從表1中可以看出,塊長(zhǎng)小于等于5的塊占到近95%,而長(zhǎng)度不大于7的塊占所有塊的99%。因此,在實(shí)驗(yàn)中,本文分別使用[-2,2]和[-3,3]窗口內(nèi)的字的分布表征作為特征,來對(duì)當(dāng)前字進(jìn)行標(biāo)注。

3.2 要對(duì)比的標(biāo)注模型

本文使用了3種標(biāo)注模型: 最大熵、條件隨機(jī)場(chǎng)和深層神經(jīng)網(wǎng)絡(luò)。其中,條件隨機(jī)場(chǎng)模型在序列分割和標(biāo)注任務(wù)中得到了廣泛的應(yīng)用[18]。本文使用了張樂博士開發(fā)的MaxEnt最大熵工具包[20]。在將字的分布表征作為特征值代入到最大熵工具時(shí),做了平移處理(加上某個(gè)常量)讓所有的值都轉(zhuǎn)變?yōu)檎龜?shù)。實(shí)驗(yàn)中,高斯懲罰參數(shù)設(shè)為1.0。本文使用的深層神經(jīng)網(wǎng)絡(luò)模型是在pylearn2工具包[21]上開發(fā)得到的。本文主要構(gòu)建了一個(gè)五層神經(jīng)網(wǎng)絡(luò)模型,該模型的結(jié)構(gòu)在3.2節(jié)中給出。其中,第一個(gè)隱層的單元個(gè)數(shù)為300,第二個(gè)隱層的單元個(gè)數(shù)為100。另外,本文進(jìn)行對(duì)照實(shí)驗(yàn)使用條件隨機(jī)場(chǎng)模型的crfpp工具包[22]。

3.3 字的分布表征學(xué)習(xí)算法

本文使用C&W算法[9]和 word2vec工具包[10-12]的CBOW算法來獲得字的分布表征。其中,我們?cè)O(shè)置每一個(gè)字使用100維的實(shí)值向量來表示。兩種工具包的訓(xùn)練語料均使用的是山西大學(xué)500萬分詞語料。學(xué)習(xí)分布表征前,我們對(duì)語料庫進(jìn)行了簡(jiǎn)單的預(yù)處理,把所有的英文字母統(tǒng)一用“WORD”表示,所有的數(shù)字用“NUMBER”表示。在進(jìn)行基本塊識(shí)別前,我們將每一個(gè)字的分布表征單位化成一個(gè)長(zhǎng)度為1的向量。

在C&W算法中,本文僅將隱層設(shè)置為一層,學(xué)習(xí)率設(shè)置為0.000 000 01,迭代時(shí)使用的是句子中字的5元組作為原始輸入。模型使用BGD(Batch Gradient Descent)優(yōu)化算法,其中,每一個(gè)minibatch設(shè)置為1 000。由于該表示學(xué)習(xí)算法可以無限地迭代下去,本文僅選擇迭代到5 500萬minibatch后生成的字的分布表征。

在word2vec工具包中,本文使用的是CBOW算法,并且使用層次化的softmax層作為輸出層,在訓(xùn)練時(shí)設(shè)置窗口大小為5。

為了觀察C&W方法和word2vec方法的訓(xùn)練效果,本文仿照文獻(xiàn)[14],選取了“一”、“李”、“江”和“急”4個(gè)字,并給出了它們的最相似字。這里,我們先將字的分布表征向量進(jìn)行單位化,然后使用夾角余弦計(jì)算相似度。具體結(jié)果見表2。

從表2中可以看出,C&W和word2vec兩種方法學(xué)習(xí)到的字的分布表征還是有所差別的。從直覺來看,C&W方法對(duì)“李”的聚類結(jié)果要比word2vec方法的要好。而對(duì)于“一”、“江”和“急”,兩種方法的聚類結(jié)果盡管不盡相同,但是,并沒有明顯的好壞之分。

表2 不同字表示學(xué)習(xí)方法得到的“一”“李”“江”“急”的最相似字

3.4 評(píng)價(jià)指標(biāo)

本文從字層面和塊的層面來評(píng)價(jià)基本塊識(shí)別模型的性能。其中,在字層面,本文使用了標(biāo)記準(zhǔn)確率,它指的是所有標(biāo)簽中標(biāo)記正確的標(biāo)記數(shù)與總的標(biāo)記數(shù)的比值。在塊層面,本文使用了塊識(shí)別的準(zhǔn)確率、召回率和F值。它們的定義如下:

4 實(shí)驗(yàn)結(jié)果和分析

本節(jié)中,我們首先分析了不使用字的分布表征,只使用字作為特征的各種基本塊識(shí)別模型性能,然后又分析了使用字的分布表征的各模型性能,最后對(duì)基于詞的神經(jīng)網(wǎng)絡(luò)模型與基于字的神經(jīng)網(wǎng)絡(luò)模型做了對(duì)比分析。

4.1 不使用字的分布表征的結(jié)果

我們直接將字作為特征代入到基本塊識(shí)別模型中。表3和表4分別給出了兩種學(xué)習(xí)算法使用字特征時(shí)的基本塊識(shí)別性能。

表3 MaxEnt算法+字特征

表4 Crfpp算法+字特征

對(duì)比表3和表4可以發(fā)現(xiàn),兩者的實(shí)驗(yàn)結(jié)果都較目前較好的一些基本塊分析模型的性能[4]要差很多。這主要是因?yàn)樯鲜鰧?shí)驗(yàn)中并沒有考慮詞性特征和詞、詞性的組合和搭配特征,而這些特征的加入可以明顯改善基本塊識(shí)別的性能。之所以不加入這些特征,主要是本文旨在探討字的分布表征對(duì)基本塊識(shí)別的影響。

表5中給出了將詞作為標(biāo)注單位,將[-2,2]窗口內(nèi)的詞特征加入到條件隨機(jī)場(chǎng)模型中,進(jìn)行基本塊識(shí)別的結(jié)果。為了對(duì)比字特征與詞特征對(duì)于基本塊識(shí)別性能的影響,我們?cè)趯?shí)驗(yàn)中也未使用詞性特征,以及多元的組合搭配特征。

表5 詞為標(biāo)注單位+Crfpp+[-2,2]窗口

從表5中可以看出,如果分詞信息正確,基本詞層面的塊識(shí)別F值可以達(dá)到82.18%。但是,當(dāng)使用山西大學(xué)分詞軟件FC2000對(duì)測(cè)試集的句子自動(dòng)分詞后,基本塊識(shí)別的F值僅可以達(dá)到73.16%,明顯低于分詞信息正確時(shí)的實(shí)驗(yàn)結(jié)果。這說明以詞語為標(biāo)注單位的基本塊識(shí)別模型在實(shí)際使用中,對(duì)于分詞系統(tǒng)的性能有著很大的依賴性。這也是本文希望研究以字為標(biāo)注單位的基本塊識(shí)別模型的重要原因之一。

4.2 使用字的分布表征的結(jié)果

這一小節(jié),我們將字的分布表征分別加入到最大熵模型,CRF模型和深層神經(jīng)網(wǎng)絡(luò)模型后的實(shí)驗(yàn)結(jié)果。

4.2.1 最大熵+字的分布表征

為了對(duì)比驗(yàn)證,我們將如下3種字的分布表征加入到最大熵模型中。3種分布表征中,除了包含上文提到的C&W字表示和word2vec字表示,本文還加入了完全隨機(jī)的字表示。隨機(jī)字表示是針對(duì)每一個(gè)字隨機(jī)生成了一個(gè)100維的實(shí)值向量。向量中的每一個(gè)元素從[-0.01,0.01]的均勻分布中抽取,然后,對(duì)該向量進(jìn)行單位化。

表6給出了將字的3種分布表征加入到最大熵算法中的基本塊識(shí)別結(jié)果。

表6 MaxEnt算法+字的分布表征

對(duì)比表6中的3種分布表征的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),雖然C&W表示特征和word2vec表示特征的識(shí)別結(jié)果較完全隨機(jī)的表示特征有著明顯的上升(F值上升近10%~15%),但識(shí)別結(jié)果也很不理想(F值僅在50%左右)。探究其原因,從分類算法的角度來看,主要因?yàn)樽畲箪胤诸惼鞑⒉豢紤]整個(gè)序列的全局優(yōu)化,僅是針對(duì)每個(gè)字的標(biāo)記的單點(diǎn)優(yōu)化;從特征的表示來看,C&W和word2vec的分布表征盡管克服了原有的0-1表示特征的數(shù)據(jù)稀疏問題,但是,兩種分布表征是使用無監(jiān)督的方式訓(xùn)練得到的,而沒有針對(duì)具體任務(wù)進(jìn)行優(yōu)化,因此,它們并沒有很好地表達(dá)出基本塊識(shí)別所需要的句法語義信息。

對(duì)比表6中的兩種窗口下的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),窗口的擴(kuò)大并沒有帶來識(shí)別結(jié)果的明顯提升,甚至在隨機(jī)分布表征和word2vec分布表征的兩種情況下,窗口的擴(kuò)大還帶來了塊F值的些許下降。

4.2.2 CRF+字的分布表征

為了與基于字特征的CRF模型作對(duì)比,我們把上述3種分布表征作為特征直接應(yīng)用到CRF模型中。表7是得到的詳細(xì)結(jié)果。

表7 CRF算法+字的分布表征

對(duì)比表7和表4,可以發(fā)現(xiàn),使用字的分布表征時(shí),其最好結(jié)果也明顯低于僅使用字特征的CRF模型。

4.2.3 深層神經(jīng)網(wǎng)絡(luò)+字的分布表征

這一小節(jié),我們給出了使用深層神經(jīng)網(wǎng)絡(luò)來進(jìn)行基本塊識(shí)別的實(shí)驗(yàn)結(jié)果。表8中詳細(xì)總結(jié)了在兩種窗口下3種分布表征的條件下,基本塊識(shí)別的詳細(xì)結(jié)果。

表8 深層神經(jīng)網(wǎng)絡(luò)+字的分布表征

分別對(duì)比表8和表6、表7,可以看出,5層的神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果明顯好于最大熵模型和CRF模型。這一方面得益于深層神經(jīng)網(wǎng)絡(luò)模型使用多個(gè)非線性隱層來對(duì)原始的分布表征進(jìn)行變換,形成更為有用的特征。另一方面體現(xiàn)出深層神經(jīng)網(wǎng)絡(luò)在進(jìn)行基本塊的學(xué)習(xí)過程中,對(duì)原有分布表征進(jìn)行調(diào)整,形成了對(duì)基本塊識(shí)別任務(wù)更為有利的分布表征。

對(duì)比表8中3種分布表征的影響,可以看出,盡管基于C&W分布表征和word2vec分布表征所得到的基本塊識(shí)別結(jié)果都比使用完全隨機(jī)的分布表征要好一些,但是3種分布表征的實(shí)驗(yàn)結(jié)果之間的差異不大,word2vec分布表征的結(jié)果略高一些。也就是說,3種表示作為深層神經(jīng)網(wǎng)絡(luò)的初始輸入,對(duì)最后的基本塊識(shí)別影響不大。這也說明,神經(jīng)網(wǎng)絡(luò)模型在迭代計(jì)算的過程,對(duì)字的分布表征進(jìn)行不斷地學(xué)習(xí)、修正,弱化了對(duì)初始值的依賴,形成了基本塊識(shí)別任務(wù)需要的字的分布表征。

在表8中,不同窗口的實(shí)驗(yàn)結(jié)果表明,擴(kuò)大特征窗口可以帶來識(shí)別結(jié)果的明顯上升。而且在[-3,3]窗口內(nèi),使用word2vec分布表征可以達(dá)到本文最高的識(shí)別F值,即77.12%。這明顯好于表4中給出的條件隨機(jī)場(chǎng)情況下使用字特征得到的實(shí)驗(yàn)結(jié)果(F值為72.28%)。需要強(qiáng)調(diào)的是,和最大熵模型一樣,本文使用的深層神經(jīng)網(wǎng)絡(luò)模型是僅針對(duì)每個(gè)字的單點(diǎn)標(biāo)記似然進(jìn)行最大化,而不是優(yōu)化整個(gè)序列上的似然函數(shù)。因此,使用深層神經(jīng)網(wǎng)絡(luò)的識(shí)別結(jié)果能高出條件隨機(jī)場(chǎng)識(shí)別結(jié)果近5%的F值也是相當(dāng)可觀的。

另外,本文使用word2vec分布表征,分別用4層、6層神經(jīng)網(wǎng)絡(luò)也做了實(shí)驗(yàn),其結(jié)果均低于5層神經(jīng)網(wǎng)絡(luò)模型,但差異不大(表9)。這說明,在漢語基本塊識(shí)別任務(wù)中選擇5層神經(jīng)網(wǎng)絡(luò)是合適的。從語言層面來分析,可以將h1隱層理解為關(guān)于詞的特征表示,h2隱層可以理解為關(guān)于基本塊的特征表示。字的分布表征是經(jīng)過詞的特征表示再到基本塊的特征表示,或略掉詞的特征表示層(h1隱層)直接到基本塊的特征表示層(h2隱層),即用4層神經(jīng)網(wǎng)絡(luò),是不可取的。同樣,多于5層時(shí)模型結(jié)構(gòu)難以從語言層面合理解釋,相應(yīng)的標(biāo)注結(jié)果也有所下降。

表9 使用word2vec的4層和6層神經(jīng)網(wǎng)絡(luò)的結(jié)果

4.3 基于詞的深層神經(jīng)網(wǎng)絡(luò)模型結(jié)果

表10給出了基于詞的神經(jīng)網(wǎng)絡(luò)模型結(jié)果,為了與基于字的神經(jīng)網(wǎng)絡(luò)模型作對(duì)比,測(cè)試集分別使用了原人工標(biāo)注的正確分詞語料和經(jīng)過山西大學(xué)分詞軟件FC2000重新分詞后的語料。

表10 基于詞的神經(jīng)網(wǎng)絡(luò)模型

對(duì)比表10和表5可以看出,本文所用到的神經(jīng)網(wǎng)絡(luò)模型性能要優(yōu)于CRF模型,這也與上一小節(jié)得到的結(jié)論一致。比較表10和表8可以看出當(dāng)測(cè)試集使用自動(dòng)分詞語料時(shí),其結(jié)果要低于基于字的神經(jīng)網(wǎng)絡(luò)模型,這也在神經(jīng)網(wǎng)絡(luò)模型上驗(yàn)證了4.1小節(jié)由表5得到的結(jié)論。

5 總結(jié)與展望

本文研究和對(duì)比了使用字的分布表征來進(jìn)行基本塊識(shí)別的若干種方法。在這些方法中,本文主要使用了最大熵、條件隨機(jī)場(chǎng)和深層神經(jīng)網(wǎng)絡(luò)3種模型,并且使用了字的C&W分布表征、word2vec分布表征、隨機(jī)的字分布表征,在[-2,2]和[-3,3]兩種特征窗口情形下,我們對(duì)多個(gè)基本塊識(shí)別模型進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,使用在[-3,3]窗口下,將字的word2vec分布表征融入到5層神經(jīng)網(wǎng)絡(luò)模型下,可以得到漢語基本塊的一個(gè)較好的識(shí)別性能(F值達(dá)到了77.12%)。這個(gè)結(jié)果要明顯好于直接將[-3,3]窗口內(nèi)的字特征加入到條件隨機(jī)場(chǎng)模型所得到的識(shí)別模型(F值為72.28%)。

實(shí)際上,本文的所有實(shí)驗(yàn)中并未能融入詞性信息、字的組合搭配信息等更為豐富的特征信息。我們相信如果將這些信息進(jìn)一步加入到本文的模型中,基本塊的識(shí)別性能還會(huì)有大幅度的提高。但如何獲得詞性的分布表征以及相鄰字的組合串的分布表征是需要我們進(jìn)一步研究的。

[1] 周強(qiáng),任海波,孫茂松. 分階段構(gòu)建漢語樹庫[C].

Proceedings of The Second China-Japan Natural Language Processing Joint Research Promotion Conference, 2002: 189-197.

[2] 周強(qiáng). 基于規(guī)則的漢語基本塊自動(dòng)分析器[C].第七屆中文信息處理國(guó)際會(huì)議論文集(ICCC-2007).2007: 137-142.

[3] 宇航,周強(qiáng). 漢語基本塊標(biāo)注系統(tǒng)的內(nèi)部關(guān)系分析[J]. 清華大學(xué)學(xué)報(bào),2009, 49(10): 136-140.

[4] 李超,孫健,關(guān)毅,徐興軍,侯磊,李生. 基于最大熵模型的漢語基本塊分析技術(shù)研究[R]. CIPS-ParsEval -2009.

[5] 趙海,揭春雨,宋彥. 基于字依存樹的中文詞法-句法一體化分析[C].全國(guó)第十屆計(jì)算語言學(xué)學(xué)術(shù)會(huì)議(C- NCCL-2009), 2009: 82-88.

[6] 齊璇,王挺,陳火旺. 義類自動(dòng)標(biāo)注方法的研究[J]. 中文信息學(xué)報(bào),2001,15(3): 9-15.

[7] 吳志媛,錢雪忠 .基于PLSI的標(biāo)簽聚類研究[J]. 計(jì)算機(jī)應(yīng)用研究,2013,30(5): 1316-1319.

[8] David M. Blei. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003(3): 993-1022.

[9] Ronan Collobert, Jason Weston, Léon Bottou, et al. Natural Language Processing (Almost) from Scratch[J]. Journal of Machine Learning Research (JMLR), 2011(12): 2493-2537.

[10] Tomas Mikolov, Kai Chen, Greg Corrado, et al. Efficient Estimation of Word Representations in Vector Space [R]. arXiv preprint arXiv,2013.

[11] Tomas Mikolov, Ilya Sutskever, Kai Chen, et al. Distributed representations of words and phrases and their compositionality[R]. arXiv preprint arXiv,2013.

[12] Tomas Mikolov,Wen-tau Yih, and Geoffrey Zweig.Linguistic Regularities in Continuous Space Word Repre- sentations[C]//Proceedings of NAACL HLT, 2013.

[13] Yoshua Bengio, Rejean Ducharme, Pascal Vincent, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research (JMLR),2003(3): 1137-1155.

[14] 來斯惟,徐立恒,陳玉博,劉康,趙軍. 基于表示學(xué)習(xí)的中文分詞算法探索[J]. 中文信息學(xué)報(bào),2013,27(5): 8-14.

[15] 侯瀟琪,王瑞波,李濟(jì)洪. 基于詞的分布式實(shí)值表示的漢語基本塊識(shí)別[J]. 中北大學(xué)學(xué)報(bào)(自然科學(xué)版).2013,34(5): 582-585.

[16] Turian Joseph, Lev Ratinov, and Yoshua Bengio. Word representations: a simple and general method for sem- i-supervised learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL).2010.

[17] Taku Kudo, Yuji Matsumoto. Chunking with support vector machine[C]//Proceedings of the second meeti- ng of North American chapter of association for computational linguistics(NAACL), 2001: 192-199.

[18] John Lafferty, Andrew Mccallum, FernandoPereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of International Conferenceon Machine Learning (ICML 01). Williamstown, MA, USA, 2001: 282-289.

[19] Berger Adam, Stephen Della, Pietra Adam, Vincent Della Pietra. A maximum entropy approach to natural language processing [J]. Computational Linguistics, 1996, 22(1): 39-71.

[20] 張樂. 最大熵工具包MaxEnt(2004版)[CP/OL].2004.http://homepages. inf.ed.ac.uk/s0450736/maxent_ toolkit .html.

[21] Ian J. Goodfellow, David Warde-Farley, Pascal Lamblin, Vincent Dumoulin, Mehdi Mirza, Razvan Pascanu, James Bergstra, Frédéric Bastien, Yoshua Bengio. Pylearn2: a machine learning research library[J]. arXi-v preprint arXiv: 1308.4214.

[22] TakuKudo, CRF++toolkit[CP], 2005. http://crfpp.sourceforge.net/.

猜你喜歡
分詞漢語神經(jīng)網(wǎng)絡(luò)
學(xué)漢語
基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
分詞在英語教學(xué)中的妙用
輕輕松松聊漢語 后海
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
追劇宅女教漢語
漢語不能成為“亂燉”
敖汉旗| 朝阳市| 错那县| 綦江县| 汉川市| 汕头市| 五原县| 夏河县| 瓦房店市| 金川县| 沁源县| 海丰县| 锦屏县| 房产| 九江县| 西充县| 天柱县| 宜宾县| 大安市| 青阳县| 明水县| 呼和浩特市| 鲁山县| 湖北省| 云和县| 通化县| 尼勒克县| 砚山县| 肇庆市| 冀州市| 沙洋县| 宣化县| 卢氏县| 辽宁省| 广元市| 静海县| 苍山县| 蒙山县| 阳江市| 雷州市| 安乡县|