国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合語義類信息的句法分析統(tǒng)計(jì)模型*

2017-02-25 02:40:11袁里馳
數(shù)據(jù)采集與處理 2017年1期
關(guān)鍵詞:分析方法語料短語

袁里馳

(江西財(cái)經(jīng)大學(xué)信息管理學(xué)院,南昌,330013)

融合語義類信息的句法分析統(tǒng)計(jì)模型*

袁里馳

(江西財(cái)經(jīng)大學(xué)信息管理學(xué)院,南昌,330013)

稀疏數(shù)據(jù)嚴(yán)重影響句子結(jié)構(gòu)分析模型的結(jié)果, 而句法結(jié)構(gòu)是語義內(nèi)容和句法分析形式的結(jié)合。本文在語義結(jié)構(gòu)信息標(biāo)注的基礎(chǔ)上提出了一種基于語義搭配關(guān)系的詞聚類模型和算法,建立基于語義類的頭驅(qū)動(dòng)句子結(jié)構(gòu)分析統(tǒng)計(jì)模型。該語言模型不但比較成功地解決了數(shù)據(jù)稀疏問題, 而且句子結(jié)構(gòu)分析系統(tǒng)性能也有了明顯的提高。句子結(jié)構(gòu)分析實(shí)驗(yàn)結(jié)果表明,基于語義類的頭驅(qū)動(dòng)的句子結(jié)構(gòu)分析統(tǒng)計(jì)模型,其召回率和精確率的值相應(yīng)為88.26%和88.73%,綜合指標(biāo)改進(jìn)了8.39%。

句子結(jié)構(gòu)分析統(tǒng)計(jì)模型;語義角色標(biāo)注;詞的自動(dòng)聚類;頭驅(qū)動(dòng)

引 言

句子結(jié)構(gòu)分析是自然語言處理的一個(gè)最基本的問題,同時(shí)也是自然語言處理的關(guān)鍵技術(shù)之一。句子結(jié)構(gòu)分析的主要目標(biāo)是依據(jù)一定的句法規(guī)則分析出句子的短語組成關(guān)系,即句子包括的短語以及短語組成之間的語義、語法聯(lián)系。主要的句子結(jié)構(gòu)分析方法分為兩種途徑:基于統(tǒng)計(jì)的句子結(jié)構(gòu)分析方法[1-11]和基于規(guī)則的句子結(jié)構(gòu)分析方法。當(dāng)前,句子結(jié)構(gòu)分析方法主要有依存分析方法和短語組成分析方法。句子短語組成分析方法主要基于上下文無關(guān)概率文法(Probabilistic context free grammar,PCFG)。早期的句子結(jié)構(gòu)分析上下文無關(guān)模型從標(biāo)注句法樹庫中直接抽取語法規(guī)則,并且將相對(duì)出現(xiàn)次數(shù)計(jì)算為語法規(guī)則的概率[12]。這種句法分析模型實(shí)現(xiàn)容易,然而以前的句法分析研究證明這類句法分析模型的效果并不令人滿意,其重要原因是:上下文無關(guān)概率語法里的一些獨(dú)立假定在實(shí)際中可能并不正確。依存關(guān)系文法[13-15]容易標(biāo)注、結(jié)構(gòu)簡(jiǎn)單, 漸漸得到重用。雖然目前漢語依存關(guān)系語法分析研究取得了一定的進(jìn)展,但是其準(zhǔn)確率和效率仍然不能滿足實(shí)際應(yīng)用的需要。Collins[11]等學(xué)者將詞匯的依存關(guān)系引入到語法中,提出了一種詞匯化的上下文無關(guān)概率句子結(jié)構(gòu)分析方法, 推動(dòng)了句子結(jié)構(gòu)分析技術(shù)和方法的飛速發(fā)展。該方法的基本思想就是將短語中心詞和詞匯等語義信息融入上下文無關(guān)語法規(guī)則,此兩類語義信息的融入,大大提高了句子結(jié)構(gòu)分析方法的消歧效果,但該方法產(chǎn)生了比較嚴(yán)重的稀疏數(shù)據(jù)難題。句子結(jié)構(gòu)分析是語義分析和短語結(jié)構(gòu)分析的有機(jī)結(jié)合。句法分析不僅需做短語結(jié)構(gòu)分析,比如句子主要短語組成分析、句子型式分析及短語成分聯(lián)系分析等等,并且還必須做相關(guān)的語義聯(lián)系分析。對(duì)語義聯(lián)系分析越深刻和全面,將更能夠?qū)Χ陶Z結(jié)構(gòu)上的種種語言問題給予合理和科學(xué)的解答。詞匯句子結(jié)構(gòu)分析的當(dāng)前模型如依存關(guān)系語法、頭驅(qū)動(dòng)的句子結(jié)構(gòu)分析方法[11]只引入詞語的語義依存信息, 但沒有考慮語義方面其他有關(guān)信息,比如詞語語義搭配、詞語的語義類等語義有關(guān)知識(shí),然而一些語義有關(guān)的知識(shí)對(duì)語義關(guān)系、句子結(jié)構(gòu)的計(jì)算和分析非常有用。語義關(guān)系分析是自然語言理解的一個(gè)關(guān)鍵技術(shù)問題。作為當(dāng)前的自然語言研究熱點(diǎn)課題之一,語義角色的標(biāo)注[16-19](Semantic role labeling, SRL)是淺層語義關(guān)系分析的一種。語義角色標(biāo)注是在句子成分級(jí)別進(jìn)行淺層的語義關(guān)系分析,即對(duì)于給定的一個(gè)句子,對(duì)該句中的每個(gè)謂詞成分標(biāo)注出對(duì)應(yīng)的語義關(guān)系成分,并且確定其對(duì)應(yīng)的語義關(guān)系標(biāo)記,如施事成分、受事成分、工具成分或附加語成分等。 當(dāng)前的句子結(jié)構(gòu)分析方法還不能夠成功地描述出中文語言的基本特點(diǎn)[20-23],使得當(dāng)前中文語義關(guān)系、句子結(jié)構(gòu)的計(jì)算和分析的結(jié)果相比英語差距很明顯。針對(duì)傳統(tǒng)句法結(jié)構(gòu)分析統(tǒng)計(jì)方法存在的一些問題,本文建立了一種新穎的融合詞語語義類信息的句法結(jié)構(gòu)分析模型,提出了一種基于詞語語義搭配關(guān)系的詞聚類模型和相應(yīng)算法, 解決句法結(jié)構(gòu)分析統(tǒng)計(jì)模型在引入詞匯信息時(shí)帶來的稀疏數(shù)據(jù)問題。

1 基于語義相似度的詞聚類模型和算法

詞匯化句子結(jié)構(gòu)分析模型如頭驅(qū)動(dòng)句子結(jié)構(gòu)分析方法, 為了利用語義知識(shí),句子語法生成式中的任何一個(gè)非終結(jié)符號(hào)均引入詞性/核心詞等語義知識(shí)。然而語義知識(shí)的引進(jìn)產(chǎn)生了稀疏數(shù)據(jù)難題。建立基于語義類的詞類語言模型[24-28]替換基于詞的語言模型是緩解句子結(jié)構(gòu)分析方法稀疏數(shù)據(jù)難題的主要途徑之一。依據(jù)詞語的語法特點(diǎn)和詞語語義搭配之間的聯(lián)系對(duì)詞聚類極為重要。雖然語言學(xué)家可根據(jù)所掌握的語言信息對(duì)詞分類,然而結(jié)合語言信息,應(yīng)用統(tǒng)計(jì)方法自動(dòng)分類詞的辦法應(yīng)該更為可行。

1.1 詞的聚類模型

假定w1,w2是含有語義搭配聯(lián)系Rel的二元詞組,本文用三元數(shù)組(w1,rel,w2)代表二元詞組及兩個(gè)詞之間的語義聯(lián)系。二元詞組 (w1,w2) 在語義聯(lián)系rel下的點(diǎn)互信息可定義為

(1)

其中

這里的概率計(jì)算使用極大似然估計(jì)方法計(jì)算如下,即

(2-a)

(2-b)

(2-c)

(2-d)

其中* 表示可能的詞或語義聯(lián)系,因而有

(3)

定義1 二元詞組w1,w2在語義聯(lián)系rel下的近似度由式(4,5)定義

(4)

(5)

其中參數(shù)1≥αrel≥0,1≥βrel≥0使用最大似然估計(jì)計(jì)算,分別由式(6,7)確定

(6)

(7)

定義2 二元詞組w1,w2之間的近似度定義為

(8)

基于詞近似度,詞類C1,C2之間的近似度定義為

(9)

其中Count(wi),Count(wj) 分別表示詞wi與wj在語料中出現(xiàn)的數(shù)量。

1.2 詞的聚類算法

詞的聚類算法如下:(1)計(jì)算出任意兩個(gè)詞的語義近似度;(2)開始設(shè)置:詞匯表里的任意一個(gè)詞均假定為一個(gè)詞類,總計(jì)N個(gè)詞類(N是詞的總數(shù)目);(3)把語義近似度最大的兩個(gè)詞類合成為一個(gè)詞類;(4)計(jì)算出其他詞類和新合成的詞類之間的語義近似度;(5)查驗(yàn)算法是否滿足完結(jié)要求:詞類的最大語義近似度小于事先確定的某個(gè)數(shù)值,或者詞類合并個(gè)數(shù)滿足算法的結(jié)束條件,如是,算法完結(jié);否則,轉(zhuǎn)(3)。

2 基于語義類的頭驅(qū)動(dòng)句法分析方法

頭驅(qū)動(dòng)的句子結(jié)構(gòu)分析統(tǒng)計(jì)方法是典型的利用語義信息的句子結(jié)構(gòu)分析方法。為了利用語義知識(shí),句子語法生成式中的任何一個(gè)非終結(jié)符均引入詞性/核心詞等語義知識(shí)。然而語義知識(shí)的引進(jìn)產(chǎn)生了稀疏數(shù)據(jù)難題。為了解決稀疏數(shù)據(jù)難題,該方法將語法規(guī)則的右邊分解為三個(gè)主要組成:一個(gè)頭成分、在右側(cè)的幾個(gè)短語組成和頭左側(cè)的幾個(gè)短語組成,其中后面兩個(gè)組成起修飾作用。即每個(gè)語法規(guī)則為

P(ht,hw)-Lm(ltm,lwm)…L1(lt1,lw1)H(ht,hw)

R1(rt1,rw1)…Rn(rtn,rwn)

(10)

式中:P為非終結(jié)符號(hào);H為中心短語成分;L1為左邊短語修飾成分;R1為右邊短語修飾成分;hw,lw,rw都為短語成分的核心詞;ht,lt,rt相應(yīng)表示核心詞的詞性。假定由非終結(jié)符號(hào)P生成中心短語H,再分別以短語H為核心獨(dú)立地生成所有左右兩側(cè)的短語(起修飾作用)。因而語法規(guī)則(10)的概率計(jì)算為

(11)

式中:Lm+1和Rn+1分別表示左右兩側(cè)的相應(yīng)中止符,Δl(i-1)表示一種距離函數(shù),用于對(duì)組成等信息的不足進(jìn)行補(bǔ)償。這里的距離函數(shù)主要補(bǔ)償3類情形:(a)這個(gè)短語組成前面是否出現(xiàn)動(dòng)詞短語;(b)這個(gè)短語組成前面是否有短語組成;(c) 這個(gè)短語組成前面是否有標(biāo)點(diǎn)符號(hào)。

使用詞類語言模型(基于語義類)替換詞的語言模型, 可以緩解稀疏數(shù)據(jù)難題。令C(w)代表w基于語義搭配關(guān)系的詞聚類,則文法規(guī)則(10)就轉(zhuǎn)換成如下形式,即有

P(ht,C(hw))-Lm(ltm,C(lwm))…L1(lt1,C(lw1))

(12)

而式(11)中的概率可近似為

(13)

3 實(shí)驗(yàn)驗(yàn)證

3 .1 詞聚類實(shí)驗(yàn)

詞聚類實(shí)驗(yàn)中采用的Baseline系統(tǒng)是一種較好的常規(guī)貪婪聚類方法[28]。本文采用《人民日?qǐng)?bào)》中文標(biāo)注語料庫1月份語料和中文PropBank2.0、中文NomBank1.0等中文語料庫作為詞聚類實(shí)驗(yàn)語料?!度嗣袢?qǐng)?bào)》中文標(biāo)注語料庫由富士通研究開發(fā)中心和北京大學(xué)計(jì)算語言學(xué)研究所共同加工《人民日?qǐng)?bào)》1998年中文語料制作。語言數(shù)據(jù)聯(lián)盟公布了CTB中文樹庫,該樹庫是一個(gè)很好的中文句子結(jié)構(gòu)分析測(cè)試和訓(xùn)練語料庫。PropBank2.0語料庫是賓夕法尼亞大學(xué)在TreeBank5.1中文句法結(jié)構(gòu)分析語料庫的基礎(chǔ)上再標(biāo)注了動(dòng)詞性謂詞及其語義角色的中文語料庫。而開發(fā)NomBank1.0中文語料庫是為了彌補(bǔ)PropBank中文語料庫只標(biāo)注了動(dòng)詞性謂詞的局限,它標(biāo)注了TreeBank5.1中文樹庫中的名詞性謂詞和其語義角色?!度嗣袢?qǐng)?bào)》中文1月份標(biāo)注語料庫共120萬個(gè)詞,現(xiàn)從其中選取約90萬個(gè)詞作為詞的貪婪聚類算法訓(xùn)練用語料,其余約30萬詞作為貪婪聚類算法和基于語義相似度的聚類算法的開放測(cè)試語料,而中文PropBank2.0、中文NomBank1.0等語料作為基于語義相似度聚類算法的訓(xùn)練語料。測(cè)試結(jié)果采用語言模型的困惑度作為評(píng)價(jià)指標(biāo),其定義為

(14)

式中:困惑度PPw為測(cè)試集概率分布幾何平均的倒數(shù);Nw為測(cè)試語料中總詞數(shù);C(wi-1)代表詞wi-1所在的詞類。一般來說,困惑度較小,語言模型更佳。

表1 兩種詞聚類算法的聚類效果

Tab.1 Clustering effects of two word clustering algorithms

聚類算法困惑度貪婪聚類算法283.0基于語義相似度的聚類算法209.3

表1列出了兩種聚類算法的聚類效果。從表1可以看出,基于語義相似度的詞聚類算法的聚類效果明顯好于常規(guī)貪婪聚類方法。

3.2 句法分析實(shí)驗(yàn)

句法分析試驗(yàn)數(shù)據(jù)取自中文PropBank2.0和中文 NomBank1.0。為了在訓(xùn)練語料、開發(fā)語料和測(cè)試語料中平衡各種語料來源,參考Xue[19]的試驗(yàn)設(shè)置, 分別利用漢語PropBank2.0和NomBank1.0中的各40個(gè)數(shù)據(jù)文件共80個(gè)數(shù)據(jù)文件當(dāng)作句子結(jié)構(gòu)分析試驗(yàn)的開發(fā)語料, 各648個(gè)數(shù)據(jù)文件共1296個(gè)數(shù)據(jù)文件當(dāng)作句子結(jié)構(gòu)分析試驗(yàn)的訓(xùn)練語料。另利用144個(gè)數(shù)據(jù)文件當(dāng)作句子結(jié)構(gòu)分析試驗(yàn)的測(cè)試語料。在句子結(jié)構(gòu)分析試驗(yàn)中,統(tǒng)計(jì)方法的主要參數(shù)均為利用極大似然法和平滑方法,從訓(xùn)練語料中計(jì)算出來。

采用句法分析召回率R、句法分析準(zhǔn)確率P、句法分析的交叉括號(hào)CB和綜合指標(biāo)F值等4個(gè)典型的指標(biāo)來評(píng)測(cè)句子結(jié)構(gòu)分析試驗(yàn)的結(jié)果。評(píng)測(cè)指標(biāo)的計(jì)算如下:精確率(P)表示句子結(jié)構(gòu)分析結(jié)果中正確的短語結(jié)構(gòu)在全部分析的短語結(jié)構(gòu)中所占的比值;召回率(R)表示句子結(jié)構(gòu)分析結(jié)果中正確短語結(jié)構(gòu)在實(shí)際短語結(jié)構(gòu)中所占的比值;綜合指標(biāo):F=(P×R×2)/(P+R);交叉括號(hào)CB表示一個(gè)句子結(jié)構(gòu)分析樹與另外的句法樹短語結(jié)構(gòu)之間發(fā)生交界的平均短語結(jié)構(gòu)數(shù)。

句子結(jié)構(gòu)分析試驗(yàn)中取基于頭驅(qū)動(dòng)句子結(jié)構(gòu)分析方法執(zhí)行的DBParser作為基本方法。Petrov[29]將自動(dòng)發(fā)現(xiàn)隱藏的短語子塊計(jì)算方法應(yīng)用于漢語句子結(jié)構(gòu)分析樹庫,基于正確的漢語分詞,在CTB5.0漢語句子結(jié)構(gòu)分析樹庫上獲得了當(dāng)時(shí)已知的基于正確漢語分詞的漢語句子結(jié)構(gòu)分析單語言模型的最高性能。表2列出了基本方法、Petrov句子結(jié)構(gòu)分析方法和基于語義類的頭驅(qū)動(dòng)句子結(jié)構(gòu)分析統(tǒng)計(jì)方法的測(cè)試數(shù)據(jù)。

表2 句子結(jié)構(gòu)分析測(cè)試數(shù)據(jù)

圖1 組合模型的綜合指標(biāo)F值 Fig.1 Comprehensive index F of combination model

稀疏數(shù)據(jù)難題嚴(yán)重影響句法結(jié)構(gòu)分析模型的性能, 本文采用基于語義聚類的平滑方法,比較成功地解決了稀疏數(shù)據(jù)問題, 改進(jìn)語言模型的各項(xiàng)性能比Petrov句法分析模型、著名的頭驅(qū)動(dòng)句法結(jié)構(gòu)分析模型有較明顯的提高。哈爾濱工業(yè)大學(xué)的曹海龍[1]等提出了一個(gè)兩級(jí)的中文句法分析方法,實(shí)驗(yàn)語料采用哈爾濱工業(yè)大學(xué)樹庫,實(shí)驗(yàn)結(jié)果為:召回率88.0%,準(zhǔn)確率87.5%。這是已知中文句法分析的比較好的分析結(jié)果。與曹海龍等的句法分析方法相比較, 模型2的性能也得到很大的提高。

本文還將改良的句子結(jié)構(gòu)分析方法與頭驅(qū)動(dòng)的句子結(jié)構(gòu)分析方法進(jìn)行了組合,令分析樹按照改良的句子結(jié)構(gòu)分析方法、頭驅(qū)動(dòng)的句子結(jié)構(gòu)分析方法分別計(jì)算的概率為P1,P2,組合模型的概率P為

(15)

其中λ取值為0≤λ≤1,通過改變?chǔ)说闹?可以調(diào)整方法1和頭驅(qū)動(dòng)句法分析方法各自的貢獻(xiàn)度。本文在開發(fā)集上進(jìn)行實(shí)驗(yàn),其綜合指標(biāo)F值如圖1所示。當(dāng)λ約為0.6時(shí), 組合句法結(jié)構(gòu)分析方法的綜合指標(biāo)F的值最好。

4 結(jié)束語

句子結(jié)構(gòu)分析是語義分析和短語結(jié)構(gòu)分析的有機(jī)結(jié)合。句法分析不僅需做短語結(jié)構(gòu)分析,比如句子主要短語組成分析、句子型式分析及短語成分聯(lián)系分析等,并且還必需做相關(guān)的語義聯(lián)系分析。對(duì)語義聯(lián)系分析越深刻和全面,將更能夠?qū)Χ陶Z結(jié)構(gòu)上的種種語言問題給予合理和科學(xué)的解答。在短語結(jié)構(gòu)分析模型中融入諸如語義知識(shí),詞的語義搭配、詞的語義依存和詞的語義類等語義知識(shí),將對(duì)語義和短語結(jié)構(gòu)的分析和計(jì)算非常有用。為了緩解句子結(jié)構(gòu)分析方法融入語義知識(shí)而引起的稀疏數(shù)據(jù)難題,本文在語義知識(shí)標(biāo)注基礎(chǔ)上提出了基于語義搭配關(guān)系的詞聚類模型和算法,不但比較成功地緩解了稀疏數(shù)據(jù)難題,而且明顯地提高了系統(tǒng)性能。

[1] 曹海龍.基于詞匯化統(tǒng)計(jì)模型的漢語句法分析研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2006: 64-83.

Cao Hailong. Research on Chinese syntactic parsing based on lexicalized statistica model[D]. Harbin: Harbin University of Technology, 2006: 64-83.

[2] Vilares J, Alonso M A, Vilares M. Extraction of complex index terms in non-English IR: A shallow parsing based approach[J]. Information Processing and Management, 2008, 44(4):1517-1537.

[3] 劉水, 李生, 趙鐵軍,等. 頭驅(qū)動(dòng)句法分析中的直接插值平滑算法[J]. 軟件學(xué)報(bào), 2009, 20(11): 2915-2924.

Liu Shui, Li Sheng, Zhao Tiejun, et al. Directly smooth interpolation algorithm in head-driven parsing[J]. Journal of Software, 2009, 20(11):2915-2924.

[4] 代印唐,吳承榮,馬勝祥,等.層級(jí)分類概率句法分析[J].軟件學(xué)報(bào), 2011,22(2): 245-257.

Dai Yintang,Wu Chengrong, Ma Shengxiang, et al. Hierarchically classified probabilistic grammar parsing[J]. Journal of Software, 2011,22(2): 245-257.

[5] Aviran S, Siegel P H, Wolf J K. Optimal parsing trees for run-length coding of biased data[J]. IEEE Transaction on Information Theory, 2008, 54(2):841-849.

[6] Zhou Deyu, He Yulan. Discriminative training of the hidden vectors state model for semantic parsing[J]. IEEE Transaction on Knowledge and Data Engineering, 2009, 21(1): 66-77.

[7] 吳偉成,周俊生,曲維光.基于統(tǒng)計(jì)學(xué)習(xí)模型的句法分析方法綜述[J]. 中文信息學(xué)報(bào), 2013, 27(3):9-19.

Wu Weicheng, Zhou Junsheng, Qu Weiguang. A survey of syntactic parsing based on statistical learning[J]. Journal of Chinese Information Processing, 2013, 27(3):9-19.

[8] 孫昂,江銘虎,賀一帆,等. 基于句法分析和答案分類的中文問答系統(tǒng)[J]. 電子學(xué)報(bào), 2008,36(5): 833-839.

Sun Ang, Jiang Minghu, He Yifan, et al. Chinese question answering based on syntax analysis and answer classification[J]. Acta Electronica Sinica, 2008, 36(5): 833-839.

[9] 陳毅恒, 秦兵, 宋凡, 等. 基于ontology抽取優(yōu)化初始選擇的檢索結(jié)果聚類[J]. 電子學(xué)報(bào), 2008,36(12A):166-171.

Chen Yiheng, Qin Bing, Song Fan, et al. Search result clustering based on centroid optimization by ontology extraction[J]. Acta Electronica Sinica, 2008,36(12A):166-171.

[10]袁里馳. 融合語言知識(shí)的統(tǒng)計(jì)句法分析[J]. 中南大學(xué)學(xué)報(bào): 自然科學(xué)版, 2012, 43(3): 986-991.

Yuan Lichi. Statistical parsing with linguistic features[J]. Journal of Central South University: Natural Science, 2012, 43(3): 986-991.

[11]Collins M. Head-driven statistical models for natural language parsing[J]. Computational Linguistics, 2003, 29(4): 589-637.

[12]Jurafsky D,Martin J H. Speech and language processing[M]. New Jersey: Prentice Hall,2009:210-265.

[13]Zhou M. A block-based dependency parser for unrestricted Chinese text[C] //Proceedings of the 2nd Chinese Language Processing Workshop. Hong Kong: Association for Computing Machinery, 2000: 78-84.

[14]Gao J F, Suzuki H. Unsupervised learning of dependency structure for language modeling[C]//Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan: Association for Computing Machinery, 2003: 521-528.

[15]Lai T B Y, Huang C N, Zhou M, et al. Span-based statistical dependency parsing of Chinese[C] //Proceedings of the 6th Natural Language Processing Pacific Rim Symposium (NLPRS2001). Tokyo, Japan: IEEE Computer Society, 2001: 677-684.

[16]李軍輝. 中文句法語義分析及其聯(lián)合學(xué)習(xí)機(jī)制研究[D]. 蘇州:蘇州大學(xué), 2010: 64-103.

Li Junhui. Research on joint syntactic and semantic parsing for Chinese[D]. Suzhou:Soochow University, 2010: 64-103.

[17]李軍輝, 周國(guó)棟, 朱巧明, 等. 中文名詞性謂詞語義角色標(biāo)注[J]. 軟件學(xué)報(bào), 2011, 22(8): 1725-1737.

Li Junhui, Zhou Guodong, Zhu Qiaoming,et al.Semantic role labeling in Chinese language for nominal predicates[J]. Journal of Software, 2011, 22(8): 1725-1737.

[18]吳方磊,李軍輝,朱巧明,等. 基于樹核函數(shù)的中文語義角色分類研究[J]. 中文信息學(xué)報(bào), 2011, 25(3): 51-58.

Wu Fanglei, Li Junhui, Zhu Qiaoming, et al. Tree kernel-based semantic role classification in Chinese language[J]. Journal of Chinese Information Processing,2011, 25(3): 51-58.

[19]Xue Nianwen. Labeling Chinese predicates with semantic roles[J]. Computational Linguistics, 2008, 34(2): 225-255.

[20]Bassiou N, Kotropoulos C. Long distance bigram models applied to word clustering[J]. Pattern Recognition, 2011, 44(1): 145-158.

[21]宗慧, 劉金嶺. 基于短文本信息流的熱點(diǎn)話題檢測(cè)[J]. 數(shù)據(jù)采集與處理, 2015, 30(2): 464-468.

Zong Hui, Liu Jinling. Hot topic detection based on short text information flow[J]. Journal of Data Acquisition and Processing, 2015, 30(2): 464-468.

[22]宋文杰, 周俊生, 曲維光. 基于詞典信息和網(wǎng)絡(luò)百科的下位詞獲取[J]. 數(shù)據(jù)采集與處理, 2014, 29(5): 821-827.

Song Wenjie, Zhou Junsheng, Qu Weiguang. Chinese hyponymy extraction based on dictionary and encyclopedia resources[J]. Journal of Data Acquisition and Processing, 2014, 29(5): 821-827.

[23]Ido Dagan, Shaul Marcusb, Shaul Markovitchc. Context word similarity and estimation from sparse data[J]. Computer Speech and Language, 1995, 9(2): 123-152.

[24]袁里馳. 基于相似度的詞聚類算法和可變長(zhǎng)語言模型[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2009, 30(5): 912-915.

Yuan Lichi. Word clustering based on similarity and vari-gram language model[J]. Journal of Chinese Computer Systems, 2009, 30(5): 912-915.

[25]Enhong Chen, Liu Shi, Dawei Hu. Probabilistic model for syntactic and semantic dependency parsing[C]// Proceedings of the 12th Conference on Computational Natural Language Learning. Manchester: Association for Computing Machinery, 2008:263-267.

[26]Surdeanu M, Johansson R,Meyers A, et al. The CoNLL-2008 shared task on joint parsing of syntactic and semantic dependencies[C]// Proceedings of the 12th Conference on Computational Natural Language Learning. Manchester: Association for Computing Machinery,2008:159-177.

[27]Duan Xiangyu, Zhao Jun,Xu Bo. Probabilistic models for action-based Chinese dependency parsing [C]// Proceedings of the 18th European Conference on Machine Learning. Warsaw, Poland: Springer, 2007: 559-566.

[28]Brown P F, Pietra V J D ,deSouza P V, et al. Class-based n-gram models of natural language[J]. Computational Linguistics,1992(18):467-479.

[29]Slav P,Klein D. Improved inference for unlexicalized parsing[C]// Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics. New York: Association for Computing Machinery, 2007:404-411.

Statistical Syntactic Parsing Model Fusing Semantic Category Information

Yuan Lichi

(School of Information Technology, Jiangxi University of Finance and Economics, Nanchang,330013,China)

Data sparseness severely affects the system performances of syntactic parsing, and syntactic structures are unities of syntactic forms and semantic contents. Based on the labeling of semantic information, a word clustering model and algorithm is proposed.And a head-driven statistical syntactic parsing model based on semantic category is established. The problem of data sparseness is successfully solved, and the system performances of syntactic parsing are obviously enhanced. Experiments are conducted for the head-driven statistical syntactic parsing model based on semantic category. It achieves 88.73% precision and 88.26% recall. F measure is improved 8.39% compared with the distinctive head-driven parsing model.

statistical syntactic parsing model; semantic role labeling; word clustering; head-drive

國(guó)家自然科學(xué)基金(61262035,61562034)資助項(xiàng)目; 江西省自然科學(xué)基金(20142BAB207028)資助項(xiàng)目; 江西省科技支撐計(jì)劃(20151BBE50082)資助項(xiàng)目。

2015-05-16;

2015-06-02

TP391

A

袁里馳(1973-),男,博士,副教授,研究方向:自然語言處理,E-mail: yuanlichi@sohu.com。

猜你喜歡
分析方法語料短語
基于EMD的MEMS陀螺儀隨機(jī)漂移分析方法
一種角接觸球軸承靜特性分析方法
中國(guó)設(shè)立PSSA的可行性及其分析方法
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
核安全設(shè)備疲勞分析方法與步驟
南木林县| 西城区| 大关县| 定西市| 长沙市| 侯马市| 呼图壁县| 贵定县| 台山市| 大同市| 汤阴县| 永寿县| 图们市| 兴文县| 麟游县| 西盟| 茌平县| 荔波县| 武定县| 陆良县| 邮箱| 家居| 九龙坡区| 荔波县| 武定县| 德阳市| 曲水县| 修武县| 五台县| 龙陵县| 江山市| 保定市| 海丰县| 民乐县| 汾阳市| 吉首市| 贵南县| 友谊县| 九台市| 繁峙县| 盐城市|