基于隱最大熵原理的漢語詞義消歧方法

2012-06-29 03:54張仰森黃改娟蘇文杰

中文信息學(xué)報(bào) 2012年3期

張仰森，黃改娟，蘇文杰

(北京信息科技大學(xué) 智能信息處理研究所，北京 100192)

1 引言

漢語詞匯中的多義詞始終是自然語言理解中難以處理的問題，多年以來，關(guān)于漢語詞匯的語義消歧研究一直是中文信息處理領(lǐng)域的研究熱點(diǎn)。詞義消歧從研究方法上講主要有基于規(guī)則的方法、基于詞典知識的方法、有指導(dǎo)的統(tǒng)計(jì)消歧法、無指導(dǎo)的統(tǒng)計(jì)消歧法[1]。其中有指導(dǎo)的統(tǒng)計(jì)詞義消歧法是目前WSD領(lǐng)域的主流，它將詞義消歧問題作為分類問題來考慮，將機(jī)器學(xué)習(xí)領(lǐng)域里廣泛流行的算法用于詞義消歧，包括決策樹(Decision Tree)方法(Black,1988)[2]、決策表(Decision List)方法(Yarowsky)[3]、Na?ve Bayes方法[4]、向量空間模型(VSM)[5]、最大熵方法(Maximum Entropy)[6-7]、神經(jīng)網(wǎng)絡(luò)模型[8]、基于實(shí)例的方法[9]等。其中，最大熵方法由于可以將多種上下文特征集于統(tǒng)一的模型框架之中，詞義消歧效果比較好，受到學(xué)界的廣泛應(yīng)用。最大熵模型與n-gram模型相比，能夠獲取和使用自然語言多個(gè)方面的信息特征，將多種特征信息集成于一個(gè)模型之中，與樸素貝葉斯模型、決策樹等統(tǒng)計(jì)語言建模方法相比，有無需獨(dú)立性假設(shè)及自動特征權(quán)重確定的優(yōu)點(diǎn)。但其主要缺點(diǎn)是只能處理顯性統(tǒng)計(jì)特征信息，對那些自然語言中經(jīng)常遇到的語義和句法信息無法進(jìn)行處理。

為了將自然語言中人們不能直接觀察到的隱性特征，如語義信息或語法結(jié)構(gòu)引入最大熵方法中，本文提出基于隱最大熵原理的詞義消歧方法，將語義搭配特征等隱性特征與顯性統(tǒng)計(jì)特征等一同引入一體化的指數(shù)性概率框架模型之中，以提高漢語詞匯的語義消歧正確率。

2 隱最大熵原理

在最大熵方法中，由于使用的是顯性統(tǒng)計(jì)特征，因此，在進(jìn)行模型參數(shù)估計(jì)時(shí)，可以使用最大似然估計(jì)法來計(jì)算訓(xùn)練語料中的概率分布，對模型參數(shù)進(jìn)行估計(jì)。然而，對于真實(shí)的自然語言來說，除了詞語、詞性標(biāo)注等顯性統(tǒng)計(jì)特征以外，還有句法和語義特征，如何將句法語義特征融入最大熵模型以提高模型的效率，shaojun wang等于2002年提出了隱最大熵原理[10]，提出了將句法語義信息融入模型的方法。

設(shè)X∈Φ是概率為p(X)的完全數(shù)據(jù)，Φ為一自然語言，Y∈Ψ是可觀察的非完全數(shù)據(jù)，Ψ表示詞、句、文檔等，并且Y=Y(X)是一個(gè)從Φ到Ψ的多對一映射，丟失的數(shù)據(jù)在文檔級為語義內(nèi)容，在語句級為句法結(jié)構(gòu)，如圖1所示。

圖1 語言信息結(jié)構(gòu)表示

圖1中表示自然語言可觀察的不完全數(shù)據(jù)是詞、句、文檔，丟失數(shù)據(jù)語句級是語法結(jié)構(gòu)，文檔級是語義內(nèi)容，圖中黑節(jié)點(diǎn)表示丟失的信息。

設(shè)P(Y)表示Y的概率，P(X|Y)為給定Y條件下的X的條件概率。則：

這里，Φ(Y)={X：X∈Φ，Y(X)=Y},并且p(X)=p(Y)p(X|Y)具有隱變量的最大熵原理的問題是從一組允許的概率分布中選擇一個(gè)模型p，使其具有最大的熵：

(1)

服從

(2)

對隱變量沒有約束，最大熵的解將把相等的概率分配到各隱變量上去，如果沒有丟失數(shù)據(jù)，則問題將被簡化為Jaynes模型，因此，式(2)比ME具有更一般的描述。

3 特征表示與特征提取

隨機(jī)過程的輸出與上下文信息x有關(guān)，但在建立語言模型時(shí)，如果考慮所有與y同現(xiàn)的上下文信息，則建立的語言模型會很繁瑣，而且從語言學(xué)的知識上來講，也不可能所有的上下文信息都與輸出有關(guān)。所以在構(gòu)造模型時(shí)，只要從上下文信息中選出與輸出相關(guān)的信息即可，稱這些對輸出有用的信息為特征。

特征表示由兩部分構(gòu)成，一部分是目標(biāo)類的上下文語境x，另一部分是目標(biāo)類y。為了讓模型能夠理解特征，可以使用特征函數(shù)來表示(x,y)的特性。定義一個(gè){0,1}域上的二值函數(shù)來表示特征：

(3)

特征的選擇與提取可通過特征模板的方法來實(shí)現(xiàn)，在設(shè)計(jì)模板時(shí)可將影響多義詞詞義的上下文距離信息以及特定位置上的詞性信息考慮進(jìn)來。一般考慮的因素有：(1)特征類型，包括詞形(Word)、詞性(Pos)、詞形+詞性； (2)窗口大小，包括語句中當(dāng)前詞前后的n個(gè)詞；詞形特征表示使用Word+Index的形式, 詞性特征表示法與詞形類似。這里Word用字母W表示，Index為特征詞相對于當(dāng)前詞的位置。本文中所設(shè)計(jì)的特征模板如表1所示。依據(jù)特征模板進(jìn)行特征提取過程如算法1所示。

表1 特征模板設(shè)計(jì)

算法1特征提取算法

Step1: 從第一句開始掃描語料庫；

Step2: 循環(huán)特征模板中的特征列表，利用當(dāng)前模板開始匹配特征并進(jìn)行提取，命名為feature；

Step3: 查看特征文件中feature是否存在，如果已經(jīng)存在，特征數(shù)目加1，轉(zhuǎn)到Step2；如果不存在，將feature寫入特征文件，轉(zhuǎn)到Step2；

Step4: 是否掃描到語料庫結(jié)尾，如果是，結(jié)束；否則，轉(zhuǎn)到Step1繼續(xù)掃描。

利用特征模板所得到的候選特征集合比較大，需要采用特征篩選方法從中篩選出對輸出影響較大的特征。本文采用特征頻次和互信息相互結(jié)合的特征選擇方法進(jìn)行特征篩選。

(1) 特征頻次篩選法。特征頻次篩選法就是計(jì)算特征集中每個(gè)特征出現(xiàn)的次數(shù)，并根據(jù)實(shí)驗(yàn)需求設(shè)定一個(gè)閾值，把出現(xiàn)次數(shù)較少的特征舍棄[11]。

(2) 互信息選擇法?；バ畔⑹怯脕砗饬績蓚€(gè)變量之間的相關(guān)度的量[12]。詞義消歧中可以使用互信息來表示特征詞與多義詞之間的相對語義距離。計(jì)算公式如下：

(4)

P(w1)、P(w2)和P(w1,w2)分別是詞語在語料庫中出現(xiàn)的概率和共現(xiàn)概率。根據(jù)計(jì)算結(jié)果，選擇滿足一定互信息要求的特征。

4 基于義原搭配信息的文本隱性特征提取

利用上述設(shè)計(jì)的特征模板提取的上下文特征屬于顯性統(tǒng)計(jì)特征，是比較容易獲取的，如果上下文的窗口寬度選擇的比較大的話，其特征數(shù)量將是相當(dāng)大的，參數(shù)空間也會非常大，使建模的工作量增大。所抽取的特征反映的是上下文中詞語與當(dāng)前詞之間的詞語搭配特征，而更深一層次的語義特征被忽略了。借助《知網(wǎng)》，詞語搭配之間更抽象一層關(guān)系能夠被抽取出來，這就是義原搭配信息[13]。為了避免算法過于復(fù)雜，本文只考慮從動賓結(jié)構(gòu)中抽取義原搭配特征。將動賓結(jié)構(gòu)中的兩個(gè)詞語之間的二元搭配組合轉(zhuǎn)變?yōu)槎鄠€(gè)義原之間相互制約的多元組合。這樣就豐富了文本特征所涵蓋的語義信息。

表2中給出了義原搭配的例子。多義動詞為“吃”，可能的賓語為“老本”、“利息”、“面包”、“飯”、“汽油”等。在傳統(tǒng)最大熵模型中，這些搭配信息都會被考慮到。但如果借助《知網(wǎng)》，就能夠抽取出義原搭配的信息，獲取到語義搭配特征。表2中詞義ID是表示當(dāng)前多義動詞“吃”的義項(xiàng)編號。表中第三列和第四列分別是從《知網(wǎng)》中抽取出來的動詞和賓語的義原信息。這種義原信息可以反映出上下文的語義搭配特征，大大減少最大熵模型的特征數(shù)量，縮小參數(shù)空間，優(yōu)勢是顯而易見的。

表2 義原搭配示例

義原搭配信息能夠表征語義特征，但如何獲取和存儲語義搭配特征就成為關(guān)鍵。下面以動賓結(jié)構(gòu)短語為例，給出獲取和構(gòu)建義原搭配信息數(shù)據(jù)庫的方法，如算法2所示。在本算法中暫不考慮動賓結(jié)構(gòu)中動詞和名詞均為多義詞的情況。

算法2義原搭配信息數(shù)據(jù)庫的構(gòu)建算法

Step1: 從訓(xùn)練語料中抽取動賓結(jié)構(gòu)搭配詞語，作為義原搭配信息抽取的對象。

Step2: 在《知網(wǎng)》知識庫中查找動詞條目。以“展開”為例，查找“W_C=展開”，若存在，判斷詞性是否為動詞，即G_C的值是否以“V”開始，若是，則跳到下一步；若不是，則返回step2繼續(xù)查找；若文件結(jié)束，則返回。

Step3: 在“DEF”中讀取動詞概念中的第一義原，記作Verb_DEF。如果動詞在《知網(wǎng)》知識庫中具有多個(gè)概念，則抽取訓(xùn)練語料中與動詞所標(biāo)注詞義相一致的概念所在的義原。

Step4: 在《知網(wǎng)》知識庫中查找名詞條目。以“地圖”為例，查找“W_C=地圖”，若存在，判斷其詞性是否為名詞，即G_C的值是否以“N”開始，若是，則執(zhí)行下一步；若不是，則繼續(xù)執(zhí)行查找；若文件結(jié)束，則返回。

Step5: 在“DEF”中讀取名詞概念中的第一義原、領(lǐng)域義原和主體義原，分別記作Nouns_Sememe_First，Nouns_Sememe_Domain，Nouns_Sememe_Host。如果領(lǐng)域義原或主體義原不存在，則賦值空串。

Step6: 更新數(shù)據(jù)庫操作。將step2和step5中所抽取的信息插入到數(shù)據(jù)庫中。

Step7: 如果還存在未處理的動賓結(jié)構(gòu)搭配詞語跳轉(zhuǎn)step2，否則，結(jié)束。

生成的義原搭配信息將被存儲于MySQL數(shù)據(jù)庫中。數(shù)據(jù)庫建立完成之后，義原搭配信息在數(shù)據(jù)庫中存儲形式如圖2所示。其中第三列(Verb_Word)為多義動詞原型；第五列(Feature_Verb_Sememe)為多義動詞的義原信息；第六列(Feature_Nouns_Sememe)為多義動詞的義原搭配信息；最后一列(Sence_ID)為動詞的義項(xiàng)標(biāo)示。將最后兩列按照一定的格式，輸出到文本文件中，就可以作為隱性特征供詞義消歧模型來使用。

圖2 數(shù)據(jù)庫中的義原搭配信息

5 基于隱最大熵原理的詞義消歧實(shí)現(xiàn)

最大熵模型的缺點(diǎn)是它只考慮了目標(biāo)詞所在上下文中的顯性特征[14]。隱最大熵模型是在最大熵模型基礎(chǔ)上考慮了隱性特征，將顯性特征和隱性特征相結(jié)合應(yīng)用于消歧模型。本文通過《知網(wǎng)》從詞語搭配中所獲取義原搭配是一種語義搭配特征，它將最大熵模型的特征空間變成了語義類的特征空間，從而使參數(shù)空間大大縮小，提高了最大熵參數(shù)估計(jì)算法的效率和詞義消歧的準(zhǔn)確率。

本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)詞義消歧實(shí)驗(yàn)系統(tǒng)。它把系統(tǒng)分成了三個(gè)大的部分：訓(xùn)練模塊、測試模塊、評價(jià)模塊。本實(shí)驗(yàn)采用OpenNLP MaxEnt[15]提供的以Java程序編寫的最大熵模型參數(shù)計(jì)算開源代碼，參數(shù)計(jì)算算法為GIS。詞義消歧系統(tǒng)的總體設(shè)計(jì)框架如圖3所示。

機(jī)器學(xué)習(xí)模塊主要包括文本預(yù)處理、特征提取、模型參數(shù)計(jì)算等操作。文本預(yù)處理主要的功能是去除停用詞和非法字符等。特征提取包括顯性特征提取和隱性特征提取。顯性特征依據(jù)算法1按照所設(shè)計(jì)的特征提取模板來實(shí)現(xiàn)，隱性特征的提取則依據(jù)《知網(wǎng)》，依據(jù)算法2實(shí)現(xiàn)。模型參數(shù)的訓(xùn)練使用隱最大熵原理來實(shí)現(xiàn)，輸出的模型參數(shù)信息將保存在文本文件中供下一步中的預(yù)測模塊來使用。

圖3 基于隱最大熵的詞義消歧系統(tǒng)的總體設(shè)計(jì)框架圖

詞義消歧模塊用來對待消歧的文本進(jìn)行詞義消歧。本模塊中文本預(yù)處理過程與機(jī)器學(xué)習(xí)模塊相同。特征提取模塊提取多義動詞所在上下文的特征詞語，用頻次和互信息相結(jié)合的方法來進(jìn)行特征篩選，同時(shí)提取該多義動詞的賓語，并獲取機(jī)器學(xué)習(xí)模塊所獲得的義原搭配信息，最后根據(jù)模型參數(shù)與所選特征，計(jì)算出該多義動詞的可能詞義。

結(jié)果評測模塊是通過將機(jī)器標(biāo)注的語料與人工標(biāo)注的語料進(jìn)行比較，對詞義標(biāo)注模型與算法的性能進(jìn)行評價(jià)。

6 實(shí)驗(yàn)結(jié)果與分析

6.1 系統(tǒng)實(shí)現(xiàn)工具與實(shí)驗(yàn)語料的選擇

Java語言和Eclipse是目前的強(qiáng)勢語言和開發(fā)環(huán)境之一，從系統(tǒng)的可移植性以及人才培養(yǎng)的角度考慮，本課題選擇的開發(fā)語言為Java，開發(fā)環(huán)境為Eclipse。數(shù)據(jù)庫使用MySQL3.5版本。數(shù)據(jù)庫設(shè)計(jì)工具使用MySQL Workbench5.0。

我們選取了由北京大學(xué)計(jì)算語言所開發(fā)的粗粒度詞義標(biāo)注語料庫。該語料庫是在北京大學(xué)與富士通公司共同制作的2000年《人民日報(bào)》基本標(biāo)注語料庫的基礎(chǔ)上，以《現(xiàn)代漢語語法信息詞典》和《現(xiàn)代漢語語義詞典》為依據(jù)，經(jīng)過機(jī)器粗標(biāo)再經(jīng)過人工校對而完成的詞義標(biāo)注語料庫，在國內(nèi)外具有較大影響。本實(shí)驗(yàn)選用2000年11和12月的詞義標(biāo)注語料庫開展研究，其中50天的語料作為模型參數(shù)訓(xùn)練語料，剩下十天語料作為測試與評測語料。

另外，所選擇的《人民日報(bào)》粗粒度詞義標(biāo)注語料是以《現(xiàn)代漢語語法信息詞典》和《現(xiàn)代漢語語義詞典》的體系為依據(jù)構(gòu)建而成，而我們在進(jìn)行隱性信息提取時(shí)所采用的語義類是以《知網(wǎng)》中的義原為依據(jù)。盡管兩個(gè)知識資源的標(biāo)注體系不同，但本文在應(yīng)用它們時(shí)并不會引起矛盾。我們的詞義標(biāo)注體系采用與北京大學(xué)計(jì)算語言所《人民日報(bào)》詞義標(biāo)注語料相同的體系，對于《知網(wǎng)》的應(yīng)用主要采用其“義原”的思想將多義詞上下文語境中的特征詞映射為語義類，這樣就將字詞級特征空間轉(zhuǎn)換為語義類特征空間，使得參數(shù)訓(xùn)練的規(guī)模大大縮小。所以，《知網(wǎng)》主要應(yīng)用在特征的提取方面，使得一些的隱性的語義類特征能夠被提取出來，以提高標(biāo)注模型的通用性和正確率。

為了使實(shí)驗(yàn)簡單，我們從確定的語料中選取十個(gè)多義動詞進(jìn)行實(shí)驗(yàn)。選取目標(biāo)多義詞的原則如下：

(1) 目標(biāo)詞應(yīng)當(dāng)具有多于一個(gè)詞義；

(2) 應(yīng)當(dāng)選取出現(xiàn)次數(shù)較多的動詞，一般來說，出現(xiàn)的次數(shù)越多越好；

(3) 多義詞的某一詞義在所有詞義中所占的比重不應(yīng)當(dāng)太大。例如，某個(gè)動詞有三個(gè)詞義，而其中一個(gè)詞義所占比重達(dá)到90%，其他兩個(gè)詞義總共占10%，剩余兩個(gè)詞義的區(qū)分將變得十分困難。選定的多義動詞及其在語料中出現(xiàn)的次數(shù)如表3所示。

表3 多義詞表

續(xù)表

所選動詞的詞義數(shù)目為2、3、4，在統(tǒng)計(jì)詞義的過程中，我們發(fā)現(xiàn)，所用的北大《人民日報(bào)》基本標(biāo)注語料庫的義項(xiàng)數(shù)與《知網(wǎng)》中所列義項(xiàng)數(shù)并不完全一致。我們以《人民日報(bào)》語料所標(biāo)的義項(xiàng)為準(zhǔn)。

6.2 實(shí)驗(yàn)結(jié)果與分析

系統(tǒng)采用準(zhǔn)確率、召回率和F值對實(shí)驗(yàn)結(jié)果進(jìn)行評測。對測試語料去除義項(xiàng)標(biāo)注后，進(jìn)行義項(xiàng)標(biāo)注的測試。實(shí)驗(yàn)結(jié)果按未使用義原搭配信息和使用義原搭配信息來進(jìn)行分類。實(shí)驗(yàn)系統(tǒng)運(yùn)行結(jié)果如表4所示。

表4 多義動詞消歧結(jié)果

上面的表格顯示出不同多義詞在使用義原搭配信息和不使用義原搭配信息情況下的準(zhǔn)確率對比。從表4中可以看出。

(1) 使用義原搭配隱性特征后，系統(tǒng)詞義消歧的平均準(zhǔn)確率為84.06%，比未使用義原搭配信息前提高了大約4個(gè)百分點(diǎn)。

(2) 系統(tǒng)對義項(xiàng)數(shù)目較少的多義詞，消歧結(jié)果較好，例如，“發(fā)表”、“表示”，“發(fā)動”等，而當(dāng)多義詞義項(xiàng)數(shù)目較多時(shí)，消歧的結(jié)果稍差。分析原因主要有兩點(diǎn)：a)對于某些詞，如“發(fā)表”，在《人民日報(bào)》的語料中有其固定的搭配?！度嗣袢請?bào)》不是小說，一些擬人、虛構(gòu)等手法在《人民日報(bào)》中并不會出現(xiàn)。《人民日報(bào)》語料中更多的是關(guān)于政治、事實(shí)的報(bào)道，一些固定搭配可能對詞義消歧產(chǎn)生較大影響。例如：

例句①：表示/v!1 親切/a 的/ud 問候/vn !/wt

例句②：按照/p “/wyz 三/m 個(gè)/qe 代表/v!2 ”/wyy 的/ud 要求/n

對于例句①和例句②中“表示”、“代表”的消歧，固定搭配將會起到關(guān)鍵性作用； b)當(dāng)多義詞義項(xiàng)數(shù)目較多，而在訓(xùn)練集或測試集中出現(xiàn)的次數(shù)較少時(shí)，由于語料的不充分造成的準(zhǔn)確率不高。

(3) 有少量詞在使用義原搭配信息后并未呈現(xiàn)出較好的結(jié)果，例如，“出”、“想”，分析其原因，可能的因素有兩個(gè)方面：一是多義詞在語料中出現(xiàn)的次數(shù)較少造成的；二是可能多義詞詞義較多，系統(tǒng)抽取義原搭配信息的結(jié)果會導(dǎo)致其中某兩個(gè)詞義或多個(gè)詞義出現(xiàn)義原搭配相同或相似的情況，對詞義消歧產(chǎn)生混淆作用，從而導(dǎo)致消歧的準(zhǔn)確率下降。

[1] 張仰森.面向語言資源建設(shè)的漢語詞義消歧與標(biāo)注方法研究[D]. 北京大學(xué)博士后研究工作報(bào)告. 2006.12.

[2] Black, Ezra. An Experiment in Computational Discrimination of English Word Sense[J]. IBM Journal of Research and Development, 1988, 32(2): 185-194.

[3] Yarowsky, D. Decision Lists for Lexical Ambiguity Resolution: Appliaction to Accent Restoration in Spanish and French[C]// Proceedings of the 32th Annual Meeting of ACL. 1994.

[4] Escudero G, Marquez L , et al. Naive Bayes and examplar-based approaches to word sense disambiguation revisited[C]// Proceedings of the 14th Europear Conference on Artificial Intelligence (ECAI) , 2000.

[5] Schutze, H. Automatic word sense discrimination. Computational Linguistics[J]. 1998,24(1):97-124.

[6] Adam L.Berger, Stephen A. Della Pietra, Vincent J.Della Pietra. A Maximum Entropy Approach to Natural Language Processing[J]. Computational Linguistics, 1996, 22(1): 1-36.

[7] Gerald Chao, Michael G.Dyer, Maximum Entropy Models for Word Sense Disambiguation[C]// Proceeding of COLING 2002 1: 155-161.

[8] Kawamoto, A.H. Distributed representations of ambiguous words and their resolution in a connectionist network[C]// Proceeding of Small, S., ed.Lexical Ambiguity Resolution: Perspectives from Psycholinguistics, Neuropsychology, and Artificial Intelligence. San Mateo, CA:Morgan Kaufman, 1998: 195-228.

[9] Ng, H.T. Exemplar-Based word sense disambiguation: some recent improvements[C]// Proceeding of Johnson, M., Allegrini, P., eds. Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing. Providence, Rhode Island, 1997: 208-213.

[10] Shaojun Wang, Dale Schuurmans, Yunxin Zhao. The Latent Maximum Entropy Principle[C]// Proceeding of IEEE International Symposium on Information Theory, 2002：182-185.

[11] 代六玲，黃河燕，陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報(bào)，2004，18(1)：26-32.

[12] 王國胤，于洪，楊大春.基于條件信息熵的決策表約簡[J].計(jì)算機(jī)學(xué)報(bào)，2002，25(7)：759-766.

[13] 郭充, 張仰森. 基于《知網(wǎng)》義原搭配的中文文本語義級自動查錯研究[J], 計(jì)算機(jī)工程與設(shè)計(jì), 2010.9,31(17)：3924-3928.

[14] 張仰森.基于最大熵模型的漢語詞義消歧與標(biāo)注方法[J].計(jì)算機(jī)工程，2009,(9)：15-18.

[15] http://maxent.sourceforge.net[OL].

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡