国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于規(guī)則的復句關(guān)系詞的自動標識

2015-04-25 09:57:25賈遂民雷利利胡明生
中文信息學報 2015年1期
關(guān)鍵詞:復句約束條件語料庫

賈遂民,雷利利,胡明生

(1.鄭州師范學院 信息科學與技術(shù)學院,河南 鄭州 450044;2. 河南財經(jīng)稅務高等??茖W校 綜合實驗實訓中心,河南 鄭州 451464)

?

基于規(guī)則的復句關(guān)系詞的自動標識

賈遂民1,雷利利2,胡明生1

(1.鄭州師范學院 信息科學與技術(shù)學院,河南 鄭州 450044;2. 河南財經(jīng)稅務高等??茖W校 綜合實驗實訓中心,河南 鄭州 451464)

關(guān)系詞的自動標識是中文信息處理領(lǐng)域的基礎(chǔ)性研究課題,該文利用規(guī)則實現(xiàn)其自動標識。首先通過語料的分析總結(jié)出關(guān)系詞在使用過程中的12種特征,以這些特征建立規(guī)則的約束條件;然后提出包含匹配算法實現(xiàn)復句準關(guān)系詞序列與規(guī)則索引詞的匹配,以此獲取目標規(guī)則,并根據(jù)目標規(guī)則約束條件與關(guān)系詞所在語境的匹配結(jié)果得到匹配規(guī)則;最后利用匹配規(guī)則的結(jié)論實現(xiàn)關(guān)系詞的自動標識。實驗結(jié)果表明,該方法對關(guān)系詞標識的正確率達到70.9%。

關(guān)系詞;規(guī)則;復句;自動標識

1 引言

隨著中文信息處理的不斷發(fā)展,人們迫切地需要計算機能夠?qū)φ鎸嵨谋具M行自動處理,以實現(xiàn)對文本淺層甚至深層的分析。關(guān)系詞作為漢語復句的重要組成單位,它是連接小句和復句的主要成分,其研究結(jié)果不僅影響到復句類別的標識以及層次的劃分,也影響到復句和篇章語意的理解,進而影響到機器翻譯等眾多領(lǐng)域的發(fā)展進程。但是由于漢語語言的隱晦性、靈活性以及復雜性等特點,復句的分句之間常存在包孕、并列、擴展和交叉等情況,這大大增加了關(guān)系詞識別的難度?;谝?guī)則的研究是自然語言處理的研究方法之一,而基于規(guī)則的關(guān)系詞自動標識是以實際語料為依據(jù),以分析歸納為手段,找出相應的關(guān)系規(guī)則并建立規(guī)則庫,根據(jù)規(guī)則對輸入的復句關(guān)系詞進行標識,因此是一種比較行之有效的方法。

胡金柱等人[1-2]曾基于規(guī)則對關(guān)系詞的標識進行初步的探討,并結(jié)合詞性標記和關(guān)系詞搭配理論,提出“正向選擇算法”來標識關(guān)系詞。本文是在以上研究的基礎(chǔ)上,根據(jù)語料庫建立規(guī)則,利用規(guī)則的結(jié)論來標識準關(guān)系詞。

2 關(guān)系詞規(guī)則的建立

2.1 關(guān)系詞特征的建立

關(guān)系詞的使用比較靈活多變,這就加大了規(guī)則的制定難度,因此需要將關(guān)系詞的特征加以總結(jié)分類,以全面清晰的制定各種類型的規(guī)則。CCCS語料庫[3]為漢語復句語料庫(the Corpus of Chinese Compound Sentences,簡稱CCCS),它是華中師范大學語言與語言教育研究中心開發(fā)的,收錄了近百萬條漢語復句,是目前比較完善的一個語料庫,因此是本文研究復句的主要語料庫。根據(jù)對語料庫內(nèi)復句的分析歸類得到12種關(guān)系詞特征,具體如表1所示[4]。

表1中12種關(guān)系詞特征是根據(jù)關(guān)系詞在復句中的使用情況來制定的。本文中規(guī)則制定的難點在于約束條件,即準關(guān)系詞在什么條件下能被標識為關(guān)系詞或者不被標識為關(guān)系詞。復句的結(jié)構(gòu)是復雜的,改變關(guān)系詞能影響其語義,判斷準關(guān)系詞是否為真正的關(guān)系詞必須考察各種語言環(huán)境,就這導致約束條件的類型千變?nèi)f化。將規(guī)則形式化時,會得到約束條件的邏輯表達式,其中涉及大量的自定義函數(shù),對每種關(guān)系詞特征再次細化,得到每種關(guān)系詞特征的約束條件。表1的關(guān)系詞特征共對應46個約束條件,以字面約束的6個約束條件為例,如表2所示[4]。

表1 關(guān)系詞特征

表2 字面約束的6種約束條件

形式化描述規(guī)則能使其具有可運行化的性質(zhì),使得計算機能夠解析規(guī)則。根據(jù)關(guān)系詞特征與約束條件制定關(guān)系詞的規(guī)則,規(guī)則組合成為規(guī)則庫。目前規(guī)則庫內(nèi)有1 421條規(guī)則,挑選其中的兩條如表3 所示。

表3 規(guī)則庫內(nèi)的規(guī)則

索引詞(indexWord)為觸發(fā)該規(guī)則的關(guān)系詞序列,主要是與復句的準關(guān)系詞序列進行匹配;優(yōu)先級別(priority)是針對矛盾規(guī)則而制定的,值越低優(yōu)先級別越高,若為空,則表示規(guī)則之間不存在矛盾;約束類型(constraintType)即為關(guān)系詞特征(表1);約束條件(constraints)為準關(guān)系詞所在復句必須滿足的條件,與關(guān)系詞特征相對應;結(jié)論(result)為標識結(jié)果。例如,約束條件“D(不但,反而)>4”屬于關(guān)系詞特征2,即分句位置約束,表示“不但”與“反而”所在分句的句間跨度大于4,規(guī)則的結(jié)論R(不但)=true,表示準關(guān)系詞“不但”標識為關(guān)系詞。從表3可以看出一個規(guī)則的約束條件通常有多個,復句中的準關(guān)系詞只有滿足所有的約束條件,才能利用該規(guī)則的結(jié)論來標識準關(guān)系詞。

2.2 連用關(guān)系詞分類

連用關(guān)系詞[5-6]是指兩個或者兩個以上的關(guān)系詞在復句中位置相鄰。如例1所示。

例1 不管是北風呼嘯的嚴冬,還是悶熱難熬的盛夏,他都和科技人員一道,在知識的海洋里拼命吸吮,在科學的道路上奮力探索。(《長江日報》1982年10月21日)

“不管”與“是”都是準關(guān)系詞,它們在復句中位置相鄰,所以將“不管是”稱作連用關(guān)系詞或者連用詞。

根據(jù)對語料庫內(nèi)連用關(guān)系詞復句的總結(jié),發(fā)現(xiàn)一些兩標記連用的關(guān)系詞存在一個特性,即這兩個準關(guān)系詞有且只有一個能夠標識為關(guān)系詞。這樣的兩標記連用的關(guān)系詞共有21對: 甚至于是、如果說也、如果因此、如果只不過、盡管隨后、因為隨后、即使因此、于是只好、所以只好、但因此、卻因此、既一方面、也首先、并隨后、而是卻、另一方面可是、加之隨后、是因此、而最后、而隨后、但隨后,其中前11對可以直接判定結(jié)果,后面的10對需要借助其他條件來判定。

關(guān)系標記連用分為兩類: 矛盾類與限制類。矛盾類: 兩標記連用的準關(guān)系詞A和B若同時充當關(guān)系詞,會導致所引領(lǐng)的成分在表述時存在邏輯上的矛盾。判定A、B其中一個是偽關(guān)系詞,一個為關(guān)系詞。矛盾類針對兩標識連用的關(guān)系詞,可以直接標識其是否為關(guān)系詞,上述的21對即為矛盾類;限制類: 兩標記連用的準關(guān)系詞A與B需要一定的限制條件,即一定的語境,根據(jù)關(guān)系詞特征來限制A、B所在復句必須滿足的條件來判定它們是否為關(guān)系詞。

3 復句關(guān)系詞與規(guī)則的匹配及標識

3.1 規(guī)則的匹配流程

復句關(guān)系詞的標識過程大致可以分為三種: 輸入、處理和輸出。處理過程是其中最核心也最重要的流程,其過程如圖1所示。

圖1 規(guī)則匹配流程圖

對復句進行分詞之后需要對分詞結(jié)果進行預處理,利用關(guān)系詞本體知識庫[7]以初步標識出準關(guān)系詞,進而利用關(guān)系詞的匹配關(guān)系,得到關(guān)系詞組。根據(jù)復句的準關(guān)系詞組與規(guī)則索引詞的匹配結(jié)果獲取目標規(guī)則。其中的難點為圖1中的“解析、匹配規(guī)則”,這個過程包含兩個難點: ①復句內(nèi)準關(guān)系詞序列與規(guī)則庫中索引詞的匹配;②規(guī)則約束條件的解析。

3.2 準關(guān)系詞與規(guī)則庫的匹配

將復句內(nèi)準關(guān)系詞序列看作模式串,規(guī)則庫的索引詞看做文本串,復句內(nèi)準關(guān)系詞序列與規(guī)則庫內(nèi)索引詞的匹配必須滿足包含匹配,包含匹配定義如下:

定義1 包含匹配: 對于文本串S={S1,S2,...,Sm}、模式串T={T1,T2,...,Tn}(n≤m),如果文本串S存在子串S′={Si,Sj,...,Sk}(1≤i

由包含匹配的定義可以看出,包含匹配不要求子串在文本串中位置相鄰,子串元素與模式串元素只需保持前后順序一致即可。

有限自動機M=(Q,Σ,δ,q0,F(xiàn))[8]接受的語言是定義在Σ上被M接受的所有符號串的集合,形式化表示為公式(1)。

以文本串S={g r a p p e }與模式串T={g r a p e }為例,有限自動機的匹配過程如圖2所示。

由上圖可以看出文本串與模式串匹配,利用有限自動機能夠?qū)崿F(xiàn)包含匹配,但是卻不能找到所有匹配子串,但是復句可能有許多重復的準關(guān)系詞,匹配的目的是要找到文本串內(nèi)所有符合包含匹配的子串,以根據(jù)子串去匹配規(guī)則。這里提出新的算法,具體如下。

圖2 包含匹配

Step1: 根據(jù)復句分詞結(jié)果與本體知識庫的匹配,得到復句的準關(guān)系詞序列S={S1,S2,...,Sm},以及要匹配規(guī)則的索引詞T={T1,T2,...,Tn};

Step2: 根據(jù)T中的每個準關(guān)系詞,在S中找到與其相同的索引詞,并利用二維數(shù)組A存儲S的下標號,數(shù)組的行列數(shù)為T內(nèi)準關(guān)系詞的個數(shù),設為n。數(shù)組第j列的元素A[][j](0≤j

SA[i][j]=Tj+1(0≤i

具體存儲方法為: 找到S中與T1相同的準關(guān)系詞集合,依次將集合的下標號存儲到數(shù)組A的第0列;找到S中與T2相同的準關(guān)系詞集合,依次將集合的下標號存儲到數(shù)組的第1列,以此類推直到第n-1列。如果T中有個標記Tj與S的任意一個元素都不相同,則S不包含匹配T,結(jié)束;否則轉(zhuǎn)至Step3;

Step3: 根據(jù)數(shù)組構(gòu)造所有滿足條件的子串,數(shù)組A以列為單位,每一列選擇任意一個元素i(i≠0),按列號從小到大組合為一個有序集合I={A[][0],A[][1],…,A[][n-1]}?{I1,I2,...In},集合I若滿足條件Ij

3.3 規(guī)則約束條件的解析

由于約束條件為文本形式,這就增加了約束條件解析的難度。這里使用拆分策略,提取約束條件的關(guān)鍵信息來解析。具體過程如流程圖3所示。

圖3 單個規(guī)則約束條件的解析過程

上圖中的關(guān)鍵符為一些特殊分隔符號,如逗號、括號等,通過拆分規(guī)則的單個約束條件就可略除約束條件內(nèi)的無用信息,以得到關(guān)鍵信息。例如,約束條件“D(不但,反而)>4”,通過拆分之后得到“D、不但、反而、>、4”這5個關(guān)鍵信息,并將它們加入到cons線性表中,利用“D”這個關(guān)鍵信息,分析復句內(nèi)的準關(guān)系詞“不但”與“反而”所在分句的跨距,通過準關(guān)系詞所在語境來獲取匹配規(guī)則。如果復句的準關(guān)系詞滿足規(guī)則的所有約束條件,就可以取此規(guī)則的結(jié)論,利用規(guī)則的結(jié)論來標識準關(guān)系詞。

4 實驗結(jié)果及分析

為了驗證本方法的正確性與可行性,特利用實例來詳細說明基于規(guī)則的關(guān)系詞的標識策略,如例2 所示。

例2 據(jù)生理醫(yī)學研究,運動不足不僅對兒童智力和生長發(fā)育有妨害,而且還會給健康狀況帶來不良后果,甚至影響成年后的健康。(《長江日報》1998年04月28日)

根據(jù)輸入的復句例2,規(guī)則解析器的執(zhí)行流程如下:

第一步: 利用中科院的分詞系統(tǒng)得到復句的分詞結(jié)果為“據(jù)/p生理/n醫(yī)學/n研究/vn,/w運動/n不足/an不僅/c對/p兒童/n智力/n和/c生長/v發(fā)育/v有/v妨害/v,/w而且/c還/d會/v給/p健康/a狀況/n帶/v來/v不良/a后果/n,/w甚至/c影響/vn成年/n后/f的/u健康/an。/w”,計算起始字符與終止字符時加入了分隔符與詞性,文獻[7]給出了詞性的標注約定。根據(jù)分詞結(jié)果與本體知識庫的匹配得到例2的準關(guān)系詞,如表4所示。

表4 例(2)的準關(guān)系詞

根據(jù)對規(guī)則庫內(nèi)準關(guān)系詞的匹配以及約束條件的解析,得到基于規(guī)則的解析結(jié)果,如表5所示。

表5 例2準關(guān)系詞的標識結(jié)果

由表5可知基于規(guī)則的標識結(jié)果與人工判定一致,即判定準關(guān)系詞都為關(guān)系詞。為了進一步驗證本方法的可行性,本文選取CCCS語料庫[3]中117條復句作為測試用例,這些測試實例共包含365個準關(guān)系詞,利用規(guī)則去標識關(guān)系詞的正確率為70.9%,表面上看測試實例所得的正確率并不高,其主要原因有兩點: 一是規(guī)則庫還不完善,有大約18.7%的關(guān)系詞并沒有找到匹配的規(guī)則;第二點則是因為規(guī)則是由人工制定,存在一定的主觀性,因此需要進一步檢測、修正并擴充規(guī)則庫。

5 結(jié)束語

本文是在以往研究的基礎(chǔ)上,根據(jù)規(guī)則索引詞的匹配需求,提出包含匹配方法以獲取匹配子串,然后對規(guī)則約束條件提出解析方案,通過實例證明研究方法的可行性。但同時也應看到,由于規(guī)則庫的不完善造成標識準關(guān)系詞的正確率還不是很高,而規(guī)則的制定是一項長期且工作量很大的工程, 難以一步到位,同時由于規(guī)則是由人工制定,不可避免的帶有一定的主觀性,因此研究規(guī)則的自動挖掘技術(shù),完成規(guī)則的自動生成將是一項有意義的研究課題。

由于關(guān)系詞的自動識別是一項極具挑戰(zhàn)性的工作,僅用一兩種方法在短時間內(nèi)很難使自動識別率達到很高的水平,今后還需要探索更有效的方法來進一步地提高識別的正確率,從而使得所做的研究可以更有效地應用于實際。

[1] 胡金柱,沈威,杜超華.基于規(guī)則的復句中的關(guān)系詞標注探討[J].福建電腦,2009,4:398-401.

[2] 胡金柱,舒江波,姚雙,等.面向中文信息處理的復句關(guān)系詞提取算法研究[J].計算機工程與科學,2009,31(10):90-93.

[3] 舒江波.面向中文信息處理的復句關(guān)系詞自動標識研究[D].武漢:華中師范大學博士學位論文,2011.

[4] 陳江曼.復句關(guān)系詞自動標識系統(tǒng)中規(guī)則庫及其維護方法研究[D].武漢:華中師范大學碩士學位論文,2012.

[5] 胡金柱,雷利利,楊進才,等.多重復句關(guān)系標記搭配的求解模型研究[J].計算機工程與科學,2011,33(11):177-182.

[6] 胡金柱,陳江曼,楊進才,等.基于規(guī)則的連用關(guān)系標記的自動標識研究[J].計算機科學,2012,39(7):190-194.

[7] 雷利利.復句關(guān)系詞自動標識系統(tǒng)中規(guī)則解析器的研究[D].武漢:華中師范大學碩士論文,2012.

[8] Peter Linz著,孫家骕等譯.形式語言與自動機導論[M].北京:機械工業(yè)出版社,2004.

[9] 胡金柱,俞小娟,李瓊,等.基于規(guī)則庫和聚類分析的復句短語字段的自動識別研究[J].華中師范大學學報(自然科學版),2008,42(2):190-194.

[10] 張金,王軍海,耿標.基于規(guī)則解析的柔性編碼系統(tǒng)[J].計算機系統(tǒng)應用,2006,3:17-20.

[11] Schubert Foo, Hui Li. Chinese word segmentation and its effect on information retrieval [J]. Information Processing and Management, 2004, 40(1):161-191.

[12] George A Miller. WordNet: A Lexical Database for English[C]//Proceedings of Communications of the ACM. 1995, 38:39-41.

[13] Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th ICML-01, 2001:282-289.

[14] Zhang Kunli, Zhang Wencong, Zan Hongying, et al. Studies on automatic recognition of several common Chinese adverbs’ usages based on BP neural networks[C]//Proceedings of the 10th Chinese Lexical Semantics Workshop. 煙臺:魯東大學出版社,2009: 31-37.

[15] Lovasz L, Plummer M D. Matching theory [M]. Amsterdam: Elsevier Science, 2009.

[16] 劉盈盈,羅森林,馮揚,等. BFS-CTC漢語句義結(jié)構(gòu)標注語料庫[J].中文信息學報,2013,27(1):72-80.

[17] 張坤麗,趙丹,昝紅英,等. 常用現(xiàn)代漢語副詞用法自動識別研究[J].中文信息學報,2012,26(6):65-71.

Rule Based Identification of Compound Sentences Relation Words

JIA Suimin1, LEI Lili2, HU Mingsheng1

(1. College of Information Science & Technology, Zhengzhou Normal University, Zhengzhou, Henan 450044, China; 2. Comprehensive Experimental & Training Center, HeNan College of Finace & Taxation, Zhengzhou, Henan 451464, China)

Automatic identifying the relation words of compound sentences is a fundamental issue in the field of Chinese information processing. This paper describe a rule based method for automatic identification of compound sentence relation words. To construct the rule, 12 featuresare summarized from the corpus. Then a match algorithm is described to obtaind the candidate relation word sequence. Finally the context of the relation words is employed to match with the rules. Experiment results show that this method achieves an accuracy of 70.9%.

relation words; rule; compound sentences; auto-identifying

賈遂民(1968—),本科,副教授,主要研究領(lǐng)域為中文信息處理與應用數(shù)學。E?mail:jiasuimin@163.com雷利利(1986—),碩士,講師,主要研究領(lǐng)域為中文信息處理與復雜網(wǎng)絡。E?mail:leili_lei@163.com胡明生(1973—),博士,副教授,主要研究領(lǐng)域為復雜網(wǎng)絡與人工智能。E?mail:hero_jack@163.com

1003-0077(2015)01-0044-05

2013-08-29 定稿日期: 2013-11-12

國家自然科學基金(U1204703);中央高?;究蒲袠I(yè)務費資助(HUST: 2012QN087, 2012QN088);河南省重點科技攻關(guān)項目(122102310004);鄭州市創(chuàng)新型科技人才隊伍建設工程(10LJRC190)

TP391

A

猜你喜歡
復句約束條件語料庫
基于一種改進AZSVPWM的滿調(diào)制度死區(qū)約束條件分析
連動結(jié)構(gòu)“VP1來VP2”的復句化及新興小句連接詞“來”的形成
漢語復句學說的源流
韓國語復句結(jié)構(gòu)的二分說
東疆學刊(2021年4期)2021-02-12 01:51:18
《語料庫翻譯文體學》評介
A literature review of research exploring the experiences of overseas nurses in the United Kingdom (2002–2017)
把課文的優(yōu)美表達存進語料庫
線性規(guī)劃的八大妙用
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
復句內(nèi)部不應當用句號
小金县| 盐边县| 界首市| 白水县| 肇庆市| 宜兴市| 永州市| 阿图什市| 余干县| 铜川市| 宁陕县| 前郭尔| 梅河口市| 清涧县| 元朗区| 宣武区| 山东省| 黑龙江省| 台州市| 调兵山市| 新干县| 孝昌县| 偃师市| 尤溪县| 长白| 罗山县| 恭城| 东乡县| 巴青县| 宁都县| 兴仁县| 东港市| 定结县| 固安县| 安乡县| 美姑县| 库尔勒市| 顺义区| 大新县| 泰安市| 扬州市|