国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義依存關(guān)系的漢語復(fù)句關(guān)系詞自動(dòng)識(shí)別*

2021-09-15 08:35楊進(jìn)才
關(guān)鍵詞:復(fù)句例句語料庫(kù)

楊進(jìn)才 鄭 雷 胡 泉

(華中師范大學(xué)計(jì)算機(jī)學(xué)院 武漢 430079)

1 引言

在中文信息處理領(lǐng)域,單句處理已經(jīng)成熟,而復(fù)句處理還有很大的空間[1~2]。復(fù)句是由兩個(gè)和兩個(gè)以上的分句組成,而關(guān)系詞是連接兩個(gè)分句的標(biāo)志[3~4]。關(guān)系詞的正確識(shí)別是分析有標(biāo)復(fù)句關(guān)系的前提,對(duì)復(fù)句的處理有著重要的意義。

關(guān)系詞在各個(gè)復(fù)句中出現(xiàn)的搭配、形式、詞性都不盡相同,在一些的句子中充當(dāng)關(guān)系詞,而在另外句子中可能不充當(dāng)關(guān)系詞。這種不確定性給復(fù)句關(guān)系詞的識(shí)別帶來困難。關(guān)系詞是復(fù)句格式的組成形式,復(fù)句格式一旦形成,就會(huì)對(duì)復(fù)句語義進(jìn)行反制約[3]。如“雖然/但是”充當(dāng)關(guān)系詞時(shí),其所對(duì)應(yīng)的兩個(gè)分句之間的語義關(guān)系必然是轉(zhuǎn)折關(guān)系。關(guān)系詞識(shí)別不正確時(shí),復(fù)句的語義也會(huì)出現(xiàn)錯(cuò)誤,如例1所示。

例句1:醫(yī)務(wù)人員一面檢查,一面問診(《長(zhǎng)江日?qǐng)?bào)》1990年07月25日01版次)。

圖1 例句1語義依存分析圖

在例句1中,準(zhǔn)關(guān)系詞“一面/一面”充當(dāng)關(guān)系詞,表示兩個(gè)分句是并列關(guān)系。例1的語義依存分析將“一面/一面”的詞性標(biāo)注為d(副詞),語義依存關(guān)系都是Mann(方式角色),且兩個(gè)分句之間是eSucc(順承關(guān)系)。關(guān)系詞以及分句間的關(guān)系標(biāo)注錯(cuò)誤,錯(cuò)誤原因在于未能正確識(shí)別“一面/一面”關(guān)系詞搭配,僅僅是按照“檢查”和“問診”這兩個(gè)v(動(dòng)詞)之間的語義關(guān)系來判斷分句之間為順承關(guān)系。

2 相關(guān)研究

關(guān)系詞的自動(dòng)識(shí)別方法分為兩種,基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。

基于規(guī)則的識(shí)別方法通過人工對(duì)語料庫(kù)中的關(guān)系詞以及在句子中出現(xiàn)的特征進(jìn)行歸納總結(jié),將提取約束條件表示成規(guī)則錄入規(guī)則庫(kù)。再根據(jù)規(guī)則庫(kù)中的規(guī)則去匹配復(fù)句特征分析器的分析結(jié)果,以此來判斷準(zhǔn)關(guān)系詞是否充當(dāng)關(guān)系詞。其優(yōu)勢(shì)在于直接利用了語言學(xué)家總結(jié)的規(guī)律,識(shí)別的準(zhǔn)確率相對(duì)較高,其缺點(diǎn)是過度依賴人工挖掘的規(guī)則;因人工歸納的規(guī)則的不全面與準(zhǔn)確而導(dǎo)致識(shí)別率相對(duì)降低,且人工總結(jié)規(guī)則需要消耗大量人力。賈遂民[6]通過分析漢語復(fù)句語料庫(kù)總結(jié)出用于關(guān)系詞識(shí)別的12種特征,以這些特征建立規(guī)則的約束條件,再對(duì)規(guī)則進(jìn)行匹配進(jìn)而識(shí)別關(guān)系詞。楊進(jìn)才[12]等總結(jié)出關(guān)系詞出現(xiàn)在句子中的依存句法特征,采用規(guī)則的方法進(jìn)行復(fù)句關(guān)系詞識(shí)別。

基于機(jī)器學(xué)習(xí)的方法使用模型有決策樹[13],貝葉斯網(wǎng)絡(luò)和支持向量機(jī)[14]。模型的效果取決于訓(xùn)練的語料庫(kù)的選取,當(dāng)訓(xùn)練語料庫(kù)和測(cè)試的模型越相似,結(jié)果就越好。相比較基于規(guī)則的方法,該方法優(yōu)點(diǎn)是不需要人工的總結(jié)規(guī)則,利用機(jī)器自動(dòng)識(shí)別,其識(shí)別率較高,但是準(zhǔn)確率較低。李艷翠[13]中從清華漢語樹庫(kù)中抽取帶功能標(biāo)記和不帶功能標(biāo)記的自動(dòng)句法樹的句法、詞法、位置特征,并利用決策樹的方法進(jìn)行復(fù)句關(guān)系詞的識(shí)別。

目前,無論是基于規(guī)則的還是基于機(jī)器學(xué)習(xí)方法的識(shí)別,都只使用到了字面特征或者語法特征,并沒有使用到語義層次的上的特征[5~12]。本文所采用的是哈工大LTP-Cloud[17]平臺(tái)對(duì)語料庫(kù)進(jìn)行語義依存分析,從分析結(jié)果中提取關(guān)系詞的語義依存特征,再利用隨機(jī)森林模型對(duì)關(guān)系詞進(jìn)行識(shí)別。

利用LTP-Cloud對(duì)例句2進(jìn)行語義依存分析的結(jié)果如圖2所示。

圖2 例句2語義依存分析圖

例句2:雖然目前面臨著困難,但是大家有信心克服(《長(zhǎng)江日?qǐng)?bào)》1991年05月03日01版次)。

例句2中關(guān)系詞為“雖然/但是”,其語義依存分析圖表明“雖然/但是”在句中詞性均標(biāo)注為mConj(連詞標(biāo)記),分句之間的語義依存關(guān)系為eResu(結(jié)果關(guān)系)。雖然例1、例2的語義依存樹中沒有標(biāo)識(shí)出關(guān)系詞,分句間的關(guān)系語義依存關(guān)系類型也不完全正確,但語義依存關(guān)系反映了分句之間的語義關(guān)系,反過來為判別準(zhǔn)關(guān)系詞是否充當(dāng)關(guān)系詞提供重要的依據(jù)。

語義依存分析是建立依存理論基礎(chǔ)上[15],可以不受句子表層句法結(jié)構(gòu)的約束,直接獲取句子所表達(dá)的語義信息。分析句子詞之間的語義關(guān)聯(lián),并以依存結(jié)構(gòu)來呈現(xiàn)。與語法依存結(jié)構(gòu)不同的是語義依存分析不只關(guān)注句子的主要?jiǎng)釉~,而是整個(gè)句子。語義依存關(guān)系更加深刻地描敘了詞與詞和句子與句子之間的信息,這更利于復(fù)句關(guān)系詞的自動(dòng)識(shí)別。

3 復(fù)句關(guān)系詞特征提取與表示

本文數(shù)據(jù)來自于華中師范大學(xué)語言與語言教育研究中心開發(fā)的漢語復(fù)句語料庫(kù)CCCS(the Corpus of Chinese Compound Sentences),該語料庫(kù)是專門面向漢語復(fù)句關(guān)系詞研究的語料庫(kù),共收錄有標(biāo)復(fù)句658447條。利用哈爾濱工業(yè)大學(xué)的LTP平臺(tái)對(duì)語料庫(kù)中的復(fù)句進(jìn)行語義依存分析,構(gòu)建語義依存樹庫(kù)。

通過對(duì)語義依存樹庫(kù)中大量復(fù)句語料的分析和總結(jié),將關(guān)系詞提取的特征歸納為以下幾類。

1)關(guān)系詞的詞性

在語義依存樹庫(kù)中,共有28種詞性。根據(jù)語料庫(kù)關(guān)系詞的統(tǒng)計(jì)可得,關(guān)系詞在復(fù)句中的詞性為連詞、副詞、動(dòng)詞、介詞占總數(shù)的97.89%。

2)關(guān)系詞的支配詞的詞性

在語義依存樹中,每一個(gè)關(guān)系詞最多只能有一個(gè)父節(jié)點(diǎn),該父節(jié)點(diǎn)即為關(guān)系詞的支配詞。如例句1中分別列舉了含有“一面/一面”搭配的例句,其詞性標(biāo)注為d(副詞),支配詞分別為“檢查”,“不足”,詞性都為v(動(dòng)詞)。

3)關(guān)系詞支配其它詞的詞性

語義依存樹中,非葉子節(jié)點(diǎn)都會(huì)有自己的支配詞。根據(jù)語義依存語法分析,復(fù)句關(guān)系詞在語義依存樹中一般為葉子節(jié)點(diǎn)。所以如果準(zhǔn)關(guān)系詞支配了其它詞,且詞性不為wp(標(biāo)點(diǎn)符號(hào)),該準(zhǔn)關(guān)系詞不充當(dāng)關(guān)系詞。

4)關(guān)系詞左右詞的詞性

在復(fù)句中關(guān)系詞左右詞的詞性,若為空,則用Null表示。

5)關(guān)系詞所在復(fù)句的位置

以逗號(hào)為分割點(diǎn),將復(fù)句劃分成為若干分句,提取關(guān)系詞所在分句的位置。

6)關(guān)系詞在分句中的位置

本文只考慮關(guān)系詞在某個(gè)分句中最左邊、中間、最右邊的情況。關(guān)系詞左端無詞右端有詞表示為-1,右端無詞左端有詞表示為1,左右兩端都有詞表示為0,左右兩端都無詞表示為-2。

7)關(guān)系詞之間層次距離

一個(gè)關(guān)系詞按照句子中詞的順序從左或從右的方向開始匹配另外的一個(gè)關(guān)系詞,在這個(gè)過程中所隔的詞數(shù)為搭配距離[4]。在依存樹中,則用“依存距離”來表示搭配距離。語義依存樹是建立在依存句法樹的基礎(chǔ)上擴(kuò)展的樹[16],所以依存句法中的“依存距離”概念在語義依存樹依舊有效。其指的是支配詞和從屬詞之間的距離。當(dāng)兩個(gè)關(guān)系詞所代表的葉子節(jié)點(diǎn)同時(shí)向上搜索,找到相同的父節(jié)點(diǎn)所經(jīng)過節(jié)點(diǎn)的數(shù)值之差即為層次距離,即為兩個(gè)關(guān)系詞在依存樹中的層次距離。

例3:不是占有她,而是送她回家(《長(zhǎng)江日?qǐng)?bào)》1982年07月07日04版次)。

由圖3可知,關(guān)系詞“不是”和“而是”到根節(jié)點(diǎn)“占有”的層次距離分別是1和2,其層次距離差為2-1=1,故“不是”和“而是”的層次距離為1。

圖3 例句3中“不是/而是”語義依存關(guān)系

8)關(guān)系詞與支配詞之間的語義依存關(guān)系

在LTP處理后的語義依存樹中,共有71種語義依存關(guān)系[17]。每個(gè)詞和其支配詞之間都只有一種語義依存關(guān)系,但在復(fù)句中的關(guān)系詞由于語義依存樹的不同可能存在多種依存關(guān)系。準(zhǔn)關(guān)系詞在復(fù)句中是否充當(dāng)關(guān)系詞,會(huì)改變其和支配詞之間的依存關(guān)系,因此準(zhǔn)關(guān)系詞與支配詞之間的語義依存關(guān)系,可以作為判定準(zhǔn)關(guān)系詞是否為關(guān)系詞的重要依據(jù)。

例4:這二者既有統(tǒng)一的一面,又有矛盾的一面(《人民日?qǐng)?bào)》1980年11月13日)。

例4中有兩對(duì)準(zhǔn)關(guān)系詞,其中“即/又”充當(dāng)關(guān)系詞,“一面/一面”是偽關(guān)系詞。從圖4中可知“即/又”和其支配詞之間的都是mConj(連詞標(biāo)記),充當(dāng)關(guān)系詞。而“一面/一面”不充當(dāng)關(guān)系詞,搭配依存于“統(tǒng)一/矛盾”,語義依存關(guān)系為Feat(描寫角色),在句子充當(dāng)了角色,故是不充當(dāng)關(guān)系詞。

圖4 例句4中語義依存樹

9)關(guān)系詞之間的語義依存事件關(guān)系的差集

在語義依存樹中71種語義依存關(guān)系被分為三類,分別是主要語義角色,每一種語義角色對(duì)應(yīng)存在一個(gè)嵌套關(guān)系和反關(guān)系;事件關(guān)系,描述兩個(gè)事件間的關(guān)系;語義依附標(biāo)記,標(biāo)記說話者語氣等依附性信息[17]。其中事件關(guān)系都是以“e”開頭的語義依存關(guān)系,它很好地刻畫不同分句之間的關(guān)系,當(dāng)準(zhǔn)關(guān)系詞之間的語義關(guān)系和其所在分句之間的事件關(guān)系相同時(shí),則可為準(zhǔn)關(guān)系詞的判斷帶來一定的幫助。

本文定義的語義依存樹中,關(guān)系詞之間的語義依存事件關(guān)系的差集為從關(guān)系詞所在依存樹的節(jié)點(diǎn)出發(fā),向上遍歷直至根節(jié)點(diǎn),同時(shí)建立兩個(gè)數(shù)組A、B存儲(chǔ)對(duì)應(yīng)的關(guān)系詞遍歷途中所有的語義事件關(guān)系(以“e”開頭);然后對(duì)A,B數(shù)組中的元素做差集;最后將A,B數(shù)組中的元素分別取出來,同數(shù)組元素以“+”連接,不同數(shù)組元素以“/”連接。設(shè)A,B數(shù)組經(jīng)過差集后的數(shù)組元素分別為A1,A2和B1,B2,B3,可表示為“A1+A2/B1+B2+B3”。具體實(shí)例如例4和例5所示。

例5:他們想革新,又怕革新,想突破,又怕突破(《長(zhǎng)江日?qǐng)?bào)》1985年10月25日04版次)。

例6:城周雖僅二、三里,但依山負(fù)險(xiǎn),異常堅(jiān)固(《長(zhǎng)江日?qǐng)?bào)》1986年04月08日04版次)。

例5中“又/又”充當(dāng)關(guān)系詞,由圖5可知關(guān)系詞到根節(jié)點(diǎn)的語義依存關(guān)系,依次為“mConj,eProg(遞進(jìn)關(guān)系)”和“mFreq(頻率標(biāo)記),eResu(結(jié)果關(guān)系),eResu,eProg”,篩選出事件關(guān)系后為“eProg”和“eResu,eResu,eProg”,故例6的語義依存事件關(guān)系的差集為“eResu,eResu”,表示為“/eResu+eResu”。圖6同理可得,“雖/但”充當(dāng)關(guān)系詞,其到根節(jié)點(diǎn)“城周”的語義依存關(guān)系分別為“mConj,eCoo(并列關(guān)系)”和“mConj,eAdvt(轉(zhuǎn)折關(guān)系)”,篩選出事件關(guān)系后為“eCoo”和“eAdvt”,故例6的關(guān)系詞“又/又”的語義依存事件關(guān)系的差集為“eCoo,eAdvt”,表示為“eCoo/eAdvt”。

圖5 例句5中語義依存樹

圖6 例句6中語義依存樹

單個(gè)關(guān)系詞提取特征的方式和上述提取方式相同。其中,涉及到兩個(gè)關(guān)系詞之間的特征,在單關(guān)系詞中是以關(guān)系詞和根節(jié)點(diǎn)特征表示。如:例3中雙關(guān)系詞“不是”和“而是”的層次距離為1。那么單關(guān)系詞“不是”層次距離為1,“而是”的層次距離為2。同理例6中,“又/又”關(guān)系詞之間的語義依存事件關(guān)系的差集是“eCoo/eAdvt”,那么其中第一個(gè)關(guān)系詞“又”和第二個(gè)關(guān)系詞“又”的語義依存事件關(guān)系的差集分別是“eCoo”,“eAdvt”。

4 隨機(jī)森林模型構(gòu)建

關(guān)系詞的自動(dòng)識(shí)別,可以轉(zhuǎn)化為準(zhǔn)關(guān)系詞的分類的問題。隨機(jī)森林的分類原理是在數(shù)據(jù)集N中有放回地隨機(jī)抽取n(n≤N)個(gè)數(shù)據(jù)生成新的訓(xùn)練樣本集合,然后在n個(gè)樣本集中的M個(gè)特征隨機(jī)選取m(m≤M)個(gè)特征,生成n個(gè)分類樹組成隨機(jī)森林,測(cè)試數(shù)據(jù)的分類結(jié)果是根據(jù)分類樹投票多少而定[18]。

分類樹是按照基尼指數(shù)來選取特征,以該特征作為分類屬性進(jìn)行節(jié)點(diǎn)分類。假設(shè)有M個(gè)類別,樣本點(diǎn)屬于第K類的概率為Pk,其概率分布的gini指數(shù)如式(1)所示。

如果樣本集合D以某個(gè)特征A被分割為D1,D2兩個(gè)部分,那么在選擇特征A的條件下,集合D的Gini指數(shù)的定義為

Gini(D,A)表示當(dāng)以特征A作為分割屬性時(shí),對(duì)數(shù)據(jù)集D分割后的不確定性。Gini指數(shù)的值越小,分類的正確率就越高。

4.1 隨機(jī)森林模型改進(jìn)

由于關(guān)系詞提取特征比較多,且每個(gè)特征對(duì)應(yīng)的屬性值也比較多。這可能會(huì)導(dǎo)致隨機(jī)森林決策樹過度生長(zhǎng),泛化能力變差。故本文的決策不以單個(gè)離散的特征屬性作為節(jié)點(diǎn)分裂的依據(jù),而是以特征屬性的范圍進(jìn)行節(jié)點(diǎn)分裂。改進(jìn)后的決策流程如下。

Step1:首先對(duì)提取的特征進(jìn)行數(shù)值化,并對(duì)數(shù)值化后的特征進(jìn)行縮放。

Step2:根據(jù)基尼指數(shù)選取最佳的特征屬性的范圍,作為當(dāng)前樹的根節(jié)點(diǎn),并分裂成兩個(gè)節(jié)點(diǎn),其中一個(gè)滿足根節(jié)點(diǎn)的特征范圍,另一個(gè)不滿足特征范圍。

Step3:將分裂后的節(jié)點(diǎn)作為當(dāng)前根節(jié)點(diǎn)。轉(zhuǎn)到Step2的操作,直到不滿足節(jié)點(diǎn)分類條件。

Step4:按照Step2和Step3步驟構(gòu)建隨機(jī)森林。

隨機(jī)森林生成的決策樹數(shù)量大,決策樹很大,圖7僅顯示一顆決策樹的一部分。

圖7 決策樹的一部分

4.2 復(fù)句關(guān)系詞自動(dòng)標(biāo)識(shí)過程

先通過LTP對(duì)CCCS漢語復(fù)句語料庫(kù)中的復(fù)句進(jìn)行語義依存解析,提取基于依存關(guān)系的復(fù)句關(guān)系詞特征,并將特征向量化,通過本文改進(jìn)的隨機(jī)森林算法,構(gòu)建復(fù)句的關(guān)系詞自動(dòng)識(shí)別模型。為了驗(yàn)證我們模型的有效性,將這些特征數(shù)據(jù)的4/5用作訓(xùn)練集,剩下的用作測(cè)試集來驗(yàn)證模型的合理性。同時(shí)也平衡訓(xùn)練集中不同類別的數(shù)量,使結(jié)果中是關(guān)系詞和不是關(guān)系詞提取的特征數(shù)量基本保持一致。具體流程如圖8所示。

圖8 復(fù)句關(guān)系詞自動(dòng)識(shí)別流程圖

例7:既直觀,又朦朧(《長(zhǎng)江日?qǐng)?bào)》1998年09月02日14版次)。

首先將句子經(jīng)過LTP處理得到語義依存樹[[0,“既”,“c”,1,“mConj”],[1,“直 觀”,“a”,-1,“Root”],[2,“,”,“wp”,1,“mPunc”],[3,“又”,“d”,4,“mConj”],[4,“朦朧”,“a”,1,“eCoo”],[5,“?!?,“wp”,4,“mPunc”]]。其中“既”和“又”為準(zhǔn)關(guān)系詞,且二者也在關(guān)系詞搭配庫(kù)中,分別以該句中的單個(gè)準(zhǔn)關(guān)系詞和兩個(gè)準(zhǔn)關(guān)系詞共同作為關(guān)系詞搭配詞來提取特征。提取的特征如表1所示。

將表1提取到的兩種特征依次輸入隨機(jī)森林中進(jìn)行決策,對(duì)于單個(gè)關(guān)系詞提取的特征經(jīng)過決策后的結(jié)果:“即”,“又”分別充當(dāng)關(guān)系詞的概率為95.12%,85.36%。而關(guān)系詞搭配提取的特征決策結(jié)果:“即,又”共同充當(dāng)關(guān)系詞的概率為90.12%。兩者都超過50%,故“即,又”充當(dāng)關(guān)系詞。

表1 從依存樹中提取的特征

5 實(shí)驗(yàn)結(jié)果分析

本文對(duì)復(fù)句關(guān)系詞CCCS數(shù)據(jù)進(jìn)行篩選,共得到538190條數(shù)據(jù),經(jīng)過LTP平臺(tái)處理后,提取單個(gè)關(guān)系詞語義依存特征共1749962條,兩個(gè)關(guān)系詞語義依存特征1413573條,平均每條復(fù)句可以提取3.25條單關(guān)系詞特征,2.63條雙關(guān)系詞特征。以50000條復(fù)句為一組,取其中10組,分別將單關(guān)系詞特征和雙關(guān)系詞特征都放入隨機(jī)森林進(jìn)行分類。為了試驗(yàn)結(jié)果的可靠性和可讀性,本文每組數(shù)據(jù)都經(jīng)過10次隨機(jī)森林模型決策,并將其所有結(jié)果取平均值,以百分號(hào)來表示。其實(shí)驗(yàn)詳細(xì)結(jié)果如表2所示。

表2 實(shí)驗(yàn)結(jié)果簡(jiǎn)化分析

表2顯示單雙關(guān)系詞提取特征后的平均的正確率分別為92.32%和91.13%。其中隨機(jī)森林中的袋外得分可以有效表示該模型的泛化能力,袋外得分越高則泛化能力越好。單雙關(guān)系詞的袋外得分都達(dá)到90%以上,具有不錯(cuò)的泛化能力。同時(shí)單關(guān)系詞識(shí)別的結(jié)果在不同評(píng)價(jià)標(biāo)準(zhǔn)下都略好于雙關(guān)系詞,這說明本文的方法更適用于單關(guān)系詞提取的特征。由于單關(guān)系詞提取特征與復(fù)句中分句的多少無關(guān),故本文的方法適用于所有有標(biāo)分句類型。同時(shí)在隨機(jī)森林模型中,統(tǒng)計(jì)每個(gè)特征的重要度,結(jié)果如表3所示。

表3 特征的重要度

在表3中,雙關(guān)系詞有兩欄,左邊表示的是第一個(gè)關(guān)系詞對(duì)應(yīng)的特征,右邊表示第二個(gè)關(guān)系詞對(duì)應(yīng)的特征。從表中可知單關(guān)系詞有11個(gè)特征,雙關(guān)系詞有20個(gè)特征。無論是使用單關(guān)系詞還是雙關(guān)系詞提取的特征,詞名的特征重要度最高,關(guān)系詞的詞性其次。而關(guān)系詞與支配詞之間的語義依存關(guān)系,在單關(guān)系詞中重要度達(dá)到了9.2%,在雙關(guān)系詞中重要度為4.9%+4.73%=10.36%,同時(shí)本文的關(guān)系詞之間的語義依存事件關(guān)系特征重要度也達(dá)到了9.31%和6.13%。關(guān)系詞一般不支配其他詞,詞性一般都為Null,不具備區(qū)分能力,故關(guān)系詞支配其它詞的詞性的重要程度最低。由此可見,從語義依存關(guān)系的角度,使用隨機(jī)森林方法分析關(guān)系詞搭配是有效的。

本文的方法與相關(guān)的方法如表4所示。

表4 相關(guān)工作的比較

文獻(xiàn)[12]是利用依存語法中的依存關(guān)系,來分析漢語復(fù)句中關(guān)系詞搭配的依存關(guān)系,從中總結(jié)出約束條件,并把約束條件形成依存關(guān)系規(guī)則加入規(guī)則庫(kù)中,運(yùn)用字面特征與語法特征相結(jié)合的規(guī)則識(shí)別漢語復(fù)句關(guān)系詞。文獻(xiàn)[13]是根據(jù)清華漢語樹庫(kù)的標(biāo)注方法,利用規(guī)則從中提取復(fù)句關(guān)系詞并標(biāo)注其類別,然后分別抽取帶功能標(biāo)記和不帶功能標(biāo)記的自動(dòng)句法樹的句法、詞法、位置特征,進(jìn)行復(fù)句關(guān)系詞的識(shí)別。本文為了統(tǒng)一比較,此處只比較不帶功能標(biāo)記作為識(shí)別對(duì)象。文獻(xiàn)[14]根據(jù)復(fù)句關(guān)系詞字面關(guān)系和關(guān)系詞搭配方面進(jìn)行特征的提取,利用貝葉斯模型對(duì)特征集合進(jìn)行訓(xùn)練和測(cè)試,將結(jié)果轉(zhuǎn)化為規(guī)則庫(kù),然后根據(jù)規(guī)則庫(kù)進(jìn)行關(guān)系詞自動(dòng)識(shí)別。本文的方法比基于決策樹模型的方法正確率要高,證明了使用語義依存特征進(jìn)行關(guān)系詞識(shí)別的可行性。同時(shí)本文的正確率比后兩個(gè)方法低,但優(yōu)點(diǎn)是不需要人工歸納規(guī)則,隨著對(duì)復(fù)句的語義依存識(shí)別的準(zhǔn)確率上升,關(guān)系詞識(shí)別的正確率必定會(huì)有所提升。

6 結(jié)語

本文對(duì)復(fù)句語料庫(kù)CCCS進(jìn)行語義依存分析建立依存樹庫(kù),提取語義依存特征,將對(duì)關(guān)系詞的自動(dòng)識(shí)別從利用字面特征與句法特征提升到語義特征層面。通過隨機(jī)森林模型進(jìn)行分類,即保證了該方法的泛化性,又不需要人工的總結(jié)規(guī)則,節(jié)省人力物力。實(shí)驗(yàn)結(jié)果也證明了該方法的可行性。

本文關(guān)系詞識(shí)別的特征依舊是人工提取,下一步研究將使用神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征,進(jìn)行關(guān)系詞的自動(dòng)識(shí)別。

猜你喜歡
復(fù)句例句語料庫(kù)
連動(dòng)結(jié)構(gòu)“VP1來VP2”的復(fù)句化及新興小句連接詞“來”的形成
基于語料庫(kù)的清末民初日源外來詞漢化研究
中日目的關(guān)系復(fù)句在句法層面的對(duì)比研究
哈漢復(fù)合句對(duì)比
運(yùn)用語料庫(kù)輔助高中英語寫作
好詞好句
好詞好句
好詞好句
好詞好句
語料庫(kù)與譯者培養(yǎng)探索