国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于貝葉斯分類器和條件隨機(jī)場(chǎng)模型的詞義消歧對(duì)比研究

2011-12-31 13:42屠明萍
文教資料 2011年36期
關(guān)鍵詞:消歧貝葉斯詞義

屠明萍

(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

詞義消歧就是在某個(gè)特定的上下文中,確定某個(gè)多義詞在該上下文中特定義項(xiàng)的過程[1]。詞義消歧作為一個(gè)中間任務(wù),對(duì)自然語言處理十分重要,很多應(yīng)用都需要經(jīng)過詞義消歧才能更好地發(fā)揮作用,比如機(jī)器翻譯、信息檢索、自然語言內(nèi)容語義分析、語法分析、語音識(shí)別和文語轉(zhuǎn)換等都需要詞義消歧的結(jié)果。詞義消歧是一種自然語言處理技術(shù),它根據(jù)知識(shí)獲取的方法可分為兩種:一是基于詞典的消歧方法,指把機(jī)讀詞典(語文詞典或義類詞典)作為外部知識(shí)源,它本質(zhì)上是一種基于規(guī)則的方法,有時(shí)也用到簡(jiǎn)單的統(tǒng)計(jì),但并非語言模型意義上的統(tǒng)計(jì);二是基于統(tǒng)計(jì)的消歧方法,由研究者給出多義詞形的義項(xiàng)數(shù)并分義項(xiàng)提供訓(xùn)練用的例句,例如貝葉斯分類器(Naive Bayes Classifier,NBC)。

條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)自從被引入自然語言處理以來,在詞性標(biāo)注、專名識(shí)別和語義角色標(biāo)注中都取得了很好的效果,而它在詞義消歧任務(wù)中的出色表現(xiàn)更是吸引了很多人的注意。本文通過“保守”一詞的詞義消歧實(shí)驗(yàn)將貝葉斯分類器和條件隨機(jī)場(chǎng)模型的消歧效果進(jìn)行了比較,進(jìn)而根據(jù)實(shí)驗(yàn)結(jié)果對(duì)比分析兩種模型的優(yōu)缺點(diǎn)。

1.兩種典型的詞義消歧模型概述

1.1貝葉斯分類器(NBC)

貝葉斯分類器是一種用于單點(diǎn)分類的概率模型,是貝葉斯公式的推廣,適合處理單點(diǎn)分類問題。所謂“單點(diǎn)分類”,是指序列中的一個(gè)符號(hào)對(duì)應(yīng)于什么狀態(tài),與序列中的其他符號(hào)對(duì)應(yīng)于什么狀態(tài)無關(guān)。它用來做詞義消歧時(shí)遵循的基本思路是考慮歧義詞周圍的其他詞的信息,把上下文(觀察窗口)看成詞的集合(詞袋),根據(jù)這些信息進(jìn)行詞義消歧。對(duì)于詞義消岐來說意味著:窗口中的詞序和結(jié)構(gòu)不重要,窗口中的詞都是獨(dú)立地起作用,這就是樸素貝葉斯假設(shè)。貝葉斯分類器的消歧算法如下:

forallsensesskofw{score(sk) =logP(sk);forallwordsvjinthewindowc score(sk) +=logP(vj|sk);}chooses’=argmaxskscore(sk);

這類似于一個(gè)投票過程:k個(gè)詞義,好比k個(gè)候選人。每個(gè)詞義的選票數(shù)相同。每個(gè)詞義本身的費(fèi)用,是一張保底的選票。Baseline消岐算法只看這一張選票。其余選票數(shù)(線索詞個(gè)數(shù))不大于窗口寬度,可能是贊成票(正數(shù)),也可能是反對(duì)票(負(fù)數(shù))。投票結(jié)束時(shí),累計(jì)費(fèi)用最小的詞義“當(dāng)選”,即為消岐結(jié)果。

1.2條件隨機(jī)場(chǎng)模型(CRF)

1.2.1條件隨機(jī)場(chǎng)概述

條件隨機(jī)場(chǎng)是一個(gè)在給定輸入節(jié)點(diǎn)(觀察值)條件下計(jì)算輸出節(jié)點(diǎn)(標(biāo)記)的條件概率的無向圖模型,特別擅長(zhǎng)處理序列標(biāo)記問題。(2)其公式表示為:

pλ(Y|X)是求在λ參數(shù)制約下類別向量Y的條件概率

Z(x)是歸一化因子。n是序列長(zhǎng)度,m是特征函數(shù)個(gè)數(shù)。特征函數(shù)fi有兩種:一是狀態(tài)特征函數(shù),二是轉(zhuǎn)移特征函數(shù)。

1.2.2CRF訓(xùn)練和標(biāo)注的相關(guān)文件及格式

用條件隨機(jī)場(chǎng)模型進(jìn)行訓(xùn)練有兩個(gè)輸入文件,一是訓(xùn)練語料,二是特征模板。訓(xùn)練語料有特定的格式要求,它由若干行組成,每行的列數(shù)必須相同,第一列是待分類的token,最后一列是類別標(biāo)記。若干個(gè)連續(xù)的tokens組成一個(gè)sentence,每個(gè)sentence后面有一個(gè)空行,文件結(jié)束時(shí)再加一個(gè)空行。表1是本文所用到的條件隨機(jī)場(chǎng)訓(xùn)練文件的一部分。其中第一列是詞,第二列是詞性,第三列中只對(duì)歧義詞進(jìn)行詞義標(biāo)記,其它詞的詞義都用none標(biāo)記(如左圖表1)。

?

特征模板是訓(xùn)練出模型必不可少的條件,它的基本格式是%x[row,col],其中row表示與當(dāng)前token的相對(duì)行數(shù),col表示列的絕對(duì)位置。特征可分為原子特征,一元復(fù)合特征和二元特征。表2是一個(gè)CRF特征模板樣本及其意義解釋。

?

CRF訓(xùn)練有一個(gè)輸出文件,即模型文件。CRF標(biāo)注同樣有兩個(gè)輸入文件和一個(gè)輸出文件。輸入文件包括測(cè)試語料和模型文件,測(cè)試語料的格式與訓(xùn)練語料大致相同,但可以沒有標(biāo)記。本文的測(cè)試語料是有標(biāo)記的,這是為了便于評(píng)測(cè)正確率。測(cè)試所用的模型文件就是訓(xùn)練得到的模型文件。標(biāo)注的輸出文件就是標(biāo)注好的語料,其結(jié)果是在測(cè)試語料增加一列類別標(biāo)記。

2.實(shí)驗(yàn)過程

2.1實(shí)驗(yàn)前的準(zhǔn)備

本文是為了比較兩個(gè)模型在詞義消歧任務(wù)上的優(yōu)劣,所以實(shí)驗(yàn)分為兩部分,一是基于貝葉斯分類器的詞義消歧實(shí)驗(yàn),二是基于條件隨機(jī)場(chǎng)模型的詞義消歧實(shí)驗(yàn)。本次實(shí)驗(yàn)的操作平臺(tái)為Windows7系統(tǒng)?;跅l件隨機(jī)場(chǎng)的訓(xùn)練和測(cè)試采用TakuKudo編寫的工具包“CRF++0.47”。(下載地址:http://crfpp.sourceforge.net/)。

兩個(gè)實(shí)驗(yàn)所用的語料都是來自1998年上半年《人民日?qǐng)?bào)》的1356句包括“保守”一詞的句子,因?yàn)椤氨J亍笔且粋€(gè)典型的多義詞,一個(gè)意思是“嚴(yán)守”,另一個(gè)意思是“守舊”。其中,用1260句作為訓(xùn)練語料,另外96句作為測(cè)試語料。訓(xùn)練語料和測(cè)試語料都經(jīng)過分詞和詞性標(biāo)注。

2.2貝葉斯分類器詞義消歧

用貝葉斯分類器做詞義消歧的實(shí)驗(yàn)分為三個(gè)步驟:訓(xùn)練、分類和評(píng)測(cè)。

訓(xùn)練階段,設(shè)定訓(xùn)練文件的上下文窗口為5,在每個(gè)句子前人工標(biāo)注該句中“保守”的正確意義。訓(xùn)練得到模型,即線索詞及其詞頻信息。分類階段,加載訓(xùn)練得到的模型,輸出詞義消歧的結(jié)果。評(píng)測(cè)階段,制作測(cè)試文件的標(biāo)準(zhǔn)答案,并對(duì)消歧結(jié)果計(jì)算其召回率。

2.3條件隨機(jī)場(chǎng)模型詞義消歧

基于條件隨機(jī)場(chǎng)模型的詞義消歧實(shí)驗(yàn)同樣分為三個(gè)步驟:訓(xùn)練、標(biāo)注和評(píng)測(cè)。

訓(xùn)練階段,首先要用轉(zhuǎn)換程序?qū)⑵胀ㄎ谋靖袷降挠?xùn)練語料轉(zhuǎn)換為條件隨機(jī)場(chǎng)模型特定的訓(xùn)練文件格式。然后,也是最重要的一步,就是特征模板的確定。多義詞的一個(gè)顯著特點(diǎn)是,意義與詞性之間存在密切聯(lián)系,詞性不同,往往意義也不同。根據(jù)這一特點(diǎn),此次實(shí)驗(yàn)采用的7個(gè)模板有6個(gè)加入了詞性特征,只有1個(gè)未加詞性特征,以觀察詞性特征對(duì)詞義消歧的貢獻(xiàn)。這7個(gè)模板及其解釋如表3所示。(表中的“∪”表示取并集)

?

訓(xùn)練時(shí)添加特征模板、訓(xùn)練文件及一個(gè)空的模型文件,再進(jìn)行一些參數(shù)的設(shè)置,即得到了模型文件。標(biāo)注階段,在標(biāo)注窗口添加模型文件、已轉(zhuǎn)換成相應(yīng)格式的測(cè)試文件以及一個(gè)空的標(biāo)注結(jié)果文件(用于輸出)。評(píng)測(cè)階段,用CRF評(píng)測(cè)程序?qū)?biāo)注結(jié)果進(jìn)行評(píng)測(cè),得出詞和句子的標(biāo)注正確率。

3.實(shí)驗(yàn)結(jié)果及分析

3.1CRF詞義消歧結(jié)果分析

基于條件隨機(jī)場(chǎng)的消歧實(shí)驗(yàn)使用了7個(gè)不同的特征模板,所以有7個(gè)消歧結(jié)果,并且每個(gè)結(jié)果都有封閉測(cè)試和開放測(cè)試結(jié)果,而封閉測(cè)試和開放測(cè)試都有其詞正確率和句子正確率。關(guān)于實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo),本文采用召回率(R),其計(jì)算公式如下:

召回率(R)=正確標(biāo)注的個(gè)數(shù)/待標(biāo)注多義詞的個(gè)數(shù)

具體數(shù)據(jù)如表4所示。

?

結(jié)合表5我們可以更清晰地看出各個(gè)消歧正確率的對(duì)比。7個(gè)模板的封閉測(cè)試詞正確率和句子正確率都在99%以上,且詞正確率和句子正確率差距很小,這是因?yàn)榇舜螌?shí)驗(yàn)只針對(duì)每個(gè)句子中的一個(gè)多義詞進(jìn)行消歧,其他詞都標(biāo)注為none。但是封閉測(cè)試并不能說明多大問題,主要是看開放測(cè)試正確率。讓人驚喜的是,本次實(shí)驗(yàn)開放測(cè)試正確率也相當(dāng)高,詞正確率依然在99%以上,句子正確率也達(dá)到了97%以上。再看各個(gè)模板開放測(cè)試的結(jié)果。T1到T2窗口長(zhǎng)度由1變?yōu)?,詞正確率和句子正確率都提高了。T2到T4雖然窗口長(zhǎng)度由2逐漸拓寬到4,但詞正確率和句子正確率反而下降了,這說明窗口長(zhǎng)度在2時(shí)達(dá)到最佳消歧效果,再加大窗口長(zhǎng)度只會(huì)增加噪聲,不利于消歧。T5由T2再加上上下文窗口為1的詞和詞性的一元復(fù)合特征,正確率并沒有提高。這說明在本次實(shí)驗(yàn)中一元復(fù)合特征對(duì)消歧結(jié)果并無影響,但是不排除在其他實(shí)驗(yàn)中有作用,至于是積極作用還是消極作用有待于以后更深入的研究。T6是在T5基礎(chǔ)上增加了二元特征,但結(jié)果表明消歧正確率并未因此而提高。T7和T2相比少了詞性特征,正確率降低了不少,特別是句子正確率,是所有模板中正確率最低的。這說明詞性特征對(duì)詞義消歧作用是非常積極的。這根漢語多義詞的特點(diǎn)有關(guān),很多多義詞由于詞性不同意義也會(huì)不同,例如本次試驗(yàn)中的“保守”作為嚴(yán)守義是動(dòng)詞,而作為守舊義是形容詞。

表5

3.2CRF與NBC詞義消歧結(jié)果對(duì)比分析

貝葉斯分類器的結(jié)果只有一個(gè),而條件隨機(jī)場(chǎng)模型詞義消歧的結(jié)果有若干個(gè),究竟取哪個(gè)與貝葉斯分類器作比較呢?我們發(fā)現(xiàn),條件隨機(jī)場(chǎng)模型消歧實(shí)驗(yàn)開放測(cè)試結(jié)果中的句子正確率其實(shí)就是我們所要使用的評(píng)價(jià)指標(biāo)(召回率),因?yàn)樗从沉嗽~義標(biāo)注的實(shí)際結(jié)果。為了更公平地比較兩者的消歧效果,我們用條件隨機(jī)場(chǎng)實(shí)驗(yàn)的句子正確率的平均值與貝葉斯分類器的召回率作比較。具體數(shù)據(jù)見表6。

?

顯然,條件隨機(jī)場(chǎng)模型的消歧效果要優(yōu)于貝葉斯分類器的消歧效果,在本次實(shí)驗(yàn)中前者比后者要高出1.8個(gè)百分點(diǎn)。條件隨機(jī)場(chǎng)模型能出色地完成詞義消歧任務(wù)與該模型的特性是分不開的。CRF模型較好地克服了輸出獨(dú)立性假設(shè)和馬爾科夫性假設(shè)的局限性,能從上下文中任意地選擇所需要的特征,并且有很強(qiáng)的特征組合能力。特別是在本次實(shí)驗(yàn)中,詞性特征顯示出極為重要的作用,正是因?yàn)檫@一點(diǎn),條件隨機(jī)場(chǎng)模型在詞義消歧任務(wù)上要明顯勝于貝葉斯分類器。

然而不得不提的是,貝葉斯分類器雖然在最終消歧結(jié)果上不及條件隨機(jī)場(chǎng)模型,但是它的訓(xùn)練簡(jiǎn)單省時(shí),而條件隨機(jī)場(chǎng)模型需要在訓(xùn)練之前準(zhǔn)備好特征模板,而且參數(shù)過大,訓(xùn)練時(shí)間較長(zhǎng)。在這一點(diǎn)上貝葉斯分類器又有其優(yōu)勢(shì)。

4.結(jié)語

本文采用貝葉斯分類器和條件隨機(jī)場(chǎng)模型分別在同等規(guī)模的訓(xùn)練集和測(cè)試集上進(jìn)行了詞義消歧的對(duì)比實(shí)驗(yàn)。在理論上條件隨機(jī)場(chǎng)模型能從上下文中任意地選擇所需要的特征,而且有很強(qiáng)的特征組合能力,而貝葉斯分類器只對(duì)上下文的詞形做訓(xùn)練,所以消歧結(jié)果應(yīng)該是條件隨機(jī)場(chǎng)模型優(yōu)于貝葉斯分類器,而實(shí)驗(yàn)結(jié)果也證明了這一點(diǎn)。但是在訓(xùn)練復(fù)雜度上,條件隨機(jī)場(chǎng)模型要比貝葉斯分類器更為復(fù)雜一些。本文的實(shí)驗(yàn)還有一些不足的地方,比如條件隨機(jī)場(chǎng)模型的特征選擇,除了詞和詞性以外應(yīng)該還可以增加其他特征以提高消歧正確率,這就需要更深入的研究了。

[1]黃昌寧,夏瑩.語言信息處理專論[M].北京:清華大學(xué)出版社,1996:78-101.

[2]丁德鑫,曲維光,徐濤,董宇.基于CRF模型的組合型歧義消解研究[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2008,8,(4):73-76.

[3]苗雪雷.基于條件隨機(jī)場(chǎng)的漢語詞義消歧方法研究[D].[碩士學(xué)位論文].沈陽:沈陽航空工業(yè)學(xué)院,2007.

[4]王達(dá),張坤.貝葉斯模型在詞義消歧中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2009,(7).

[5]于麗麗,丁德鑫,曲維光,陳小荷,李惠.基于條件隨機(jī)場(chǎng)的古漢語詞義消歧研究[J].微電子學(xué)與計(jì)算機(jī),2009,(10).

猜你喜歡
消歧貝葉斯詞義
基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
西夏語“頭項(xiàng)”詞義考
詞義辨別小妙招——看圖辨詞
藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
貝葉斯公式及其應(yīng)用
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
一種基于貝葉斯壓縮感知的說話人識(shí)別方法
字意與詞義
IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
安新县| 开平市| 格尔木市| 太仆寺旗| 麦盖提县| 潢川县| 吴桥县| 郎溪县| 太白县| 潞城市| 常山县| 分宜县| 南溪县| 玉龙| 孟村| 都安| 吉木萨尔县| 海城市| 山西省| 隆化县| 河东区| 涞水县| 定边县| 南城县| 江西省| 阿拉善盟| 乳源| 许昌县| 肥乡县| 甘泉县| 怀宁县| 云龙县| 繁峙县| 桃江县| 志丹县| 吉木萨尔县| 莆田市| 武夷山市| 信宜市| 洪湖市| 鹤壁市|