昝紅英,周麗娟,張坤麗
(鄭州大學(xué) 信息工程學(xué)院,河南 鄭州450001)
連詞是一種具有連接作用的虛詞,能夠連接詞語(yǔ)、短語(yǔ)、小句、句子乃至句群,可以表示并列、選擇、轉(zhuǎn)折、遞進(jìn)、目的、因果等多種關(guān)系。能夠連接詞語(yǔ)、短語(yǔ)的連詞,例如,“和、與、并、及、或、而、甚至、以、以至”等;連接小句、句子的連詞,例如,“不但、雖然、如果、與其、然而”等;連接句群的連詞,例如,“再次、總之、由此可見(jiàn)”等。連詞結(jié)構(gòu)短語(yǔ)指的是連接詞語(yǔ)、短語(yǔ)的連詞所連接的包含連詞在內(nèi)的短語(yǔ),即含有連詞的有標(biāo)記聯(lián)合短語(yǔ)。根據(jù)表示關(guān)系的不同可以細(xì)分成不同的連詞結(jié)構(gòu)短語(yǔ),例如,由“和、與、并、及”構(gòu)成并列的連詞結(jié)構(gòu)短語(yǔ),由“或”構(gòu)成選擇的連詞結(jié)構(gòu)短語(yǔ),由“而”構(gòu)成轉(zhuǎn)折或補(bǔ)充的連詞結(jié)構(gòu)短語(yǔ)等。本文用一對(duì)“<CP_xx>”和“</CP_xx>”來(lái)標(biāo)記連詞結(jié)構(gòu)短語(yǔ),其中“xx”表示連詞結(jié)構(gòu)的關(guān)系類(lèi)別,如下面例句所示,其中“bl、xz、bc”分別是并列、選擇、補(bǔ)充等關(guān)系的漢語(yǔ)拼音縮寫(xiě)。
(1)<CP_bl>改革、發(fā)展和穩(wěn)定</CP_bl>的任務(wù)十分繁重。
(2)消費(fèi)者愿意為<CP_xz>新型產(chǎn)品或現(xiàn)有產(chǎn)品的改進(jìn)型</CP_xz>支付更高的價(jià)錢(qián)。
(3)大家的心情<CP_bc>激動(dòng)而又新奇</CP_bc>。
連詞結(jié)構(gòu)短語(yǔ)的識(shí)別有助于提高機(jī)器翻譯的質(zhì)量。如下面是美國(guó)斯坦福國(guó)際咨詢研究所(SRI)中提供的句子漢英翻譯結(jié)果。
(4)當(dāng)天,<CP_bl>長(zhǎng)崎市民團(tuán)體和原子彈爆炸受害者</CP_bl>等約70人在長(zhǎng)崎和平公園靜坐。
譯文:On the same day,victims of the atomic bombings of nagasaki civic groups and about 70 people,including the peace park in nagasaki meditation.
(5)如果<CP_xz>狗換了主人或主人地址變更</CP_xz>,要及時(shí)更新登記信息 。
譯文:If a dog in the address of the owner or master of change,and to update information in a timely manner.
如果能正確識(shí)別漢語(yǔ)句子中的連詞結(jié)構(gòu)短語(yǔ),那么在翻譯時(shí)首先可以確保這個(gè)短語(yǔ)不會(huì)翻譯錯(cuò),也不會(huì)把短語(yǔ)的成分和句子的其他成分混淆。因此,連詞結(jié)構(gòu)短語(yǔ)的識(shí)別具有重要意義。
周強(qiáng)[1]通過(guò)計(jì)算詞語(yǔ)的相似度來(lái)尋找聯(lián)合結(jié)構(gòu)形成的最優(yōu)路徑,主要是利用從樹(shù)庫(kù)中得到的數(shù)據(jù),構(gòu)造統(tǒng)計(jì)模型,進(jìn)行短語(yǔ)自動(dòng)界定處理,并根據(jù)錯(cuò)誤事例和語(yǔ)言學(xué)知識(shí)形成調(diào)整規(guī)則來(lái)降低自動(dòng)界定的錯(cuò)誤率。孫宏林[2]根據(jù)聯(lián)合成分之間的對(duì)稱(chēng)性對(duì)連詞左右兩邊的詞串進(jìn)行概率評(píng)分,選擇一個(gè)概率最大的組合從而進(jìn)行識(shí)別。吳云芳[3]從語(yǔ)言學(xué)角度研究并列結(jié)構(gòu)的特點(diǎn),根據(jù)中心語(yǔ)相似和結(jié)構(gòu)平行識(shí)別有標(biāo)記并列結(jié)構(gòu),通過(guò)辨別同類(lèi)詞連用形成的歧義格式識(shí)別無(wú)標(biāo)記并列結(jié)構(gòu)。王東波等[4-5]采用條件隨機(jī)場(chǎng)模型,并結(jié)合語(yǔ)言學(xué)特征識(shí)別有標(biāo)記的聯(lián)合結(jié)構(gòu)。
本文在王東波的基礎(chǔ)上,結(jié)合虛詞用法知識(shí)庫(kù)中連詞的用法來(lái)識(shí)別連詞結(jié)構(gòu)短語(yǔ)。首先根據(jù)連詞的用法對(duì)每個(gè)可以連接詞語(yǔ)、短語(yǔ)的連詞編寫(xiě)若干條規(guī)則,實(shí)現(xiàn)基于規(guī)則的連詞結(jié)構(gòu)短語(yǔ)識(shí)別。然后將連詞用法作為特征,采用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)基于統(tǒng)計(jì)的連詞結(jié)構(gòu)短語(yǔ)識(shí)別,進(jìn)而分析了不同長(zhǎng)度的連詞結(jié)構(gòu)短語(yǔ)識(shí)別情況,并與未加入連詞用法特征的方法進(jìn)行了比較。
在連詞用法詞典和連詞用法規(guī)則的基礎(chǔ)上,對(duì)各個(gè)連詞的用法進(jìn)行了考察,找到每個(gè)用法所對(duì)應(yīng)的連詞結(jié)構(gòu)短語(yǔ)的形式化表示或邊界,然后抽取其中具有可操作性的判斷條件特征,以有序的BNF范式描述連詞結(jié)構(gòu)短語(yǔ)的識(shí)別規(guī)則。因?yàn)檫B詞結(jié)構(gòu)短語(yǔ)涉及到左右兩個(gè)邊界,所以目前抽取的主要識(shí)別特征有:左搭配M、左緊鄰L、右緊鄰R、右搭配N(xiāo)。另外在規(guī)則庫(kù)中引入了其他一些符號(hào),如A表示同詞性同詞,B表示同詞性不同詞。識(shí)別規(guī)則的一般描述形式為:
<ID>→[M][L][R][N]
M→<詞語(yǔ)1>|<詞語(yǔ)2>|…|n|v|a|…
L →<詞語(yǔ)1>|<詞語(yǔ)2>|…|n|v|a|…
R →<詞語(yǔ)1>|<詞語(yǔ)2>|…|n|v|a|…
N →<詞語(yǔ)1>|<詞語(yǔ)2>|…|n|v|a|…
其中,規(guī)則元語(yǔ)言中的符號(hào)“→”表示定義為,符號(hào)“|”表示多選一,規(guī)則右部順序出現(xiàn)的字符表示其所代表的特征屬性為有序合取關(guān)系。規(guī)則中的符號(hào)<ID>為連詞用法編碼,“<詞語(yǔ)>”表示該屬性位置上出現(xiàn)的詞語(yǔ),“n、v、a”等表示該屬性位置上出現(xiàn)的詞性。連詞結(jié)構(gòu)短語(yǔ)識(shí)別規(guī)則的描述形式類(lèi)似于連詞用法規(guī)則的描述形式,不同的是連詞結(jié)構(gòu)短語(yǔ)識(shí)別規(guī)則中沒(méi)有用到句首F和句末E這兩個(gè)特征,并且<ID>后的定義不是這個(gè)用法的定義,而是這個(gè)用法所對(duì)應(yīng)的連詞結(jié)構(gòu)短語(yǔ)的定義。連詞用法詞典和連詞用法規(guī)則的詳細(xì)說(shuō)明可以參考文獻(xiàn)[6]。下面是連詞“和”的結(jié)構(gòu)短語(yǔ)識(shí)別規(guī)則:
$和
@<c_h(yuǎn)e2_1>→B~B^B→n|a|v
@<c_h(yuǎn)e2_1a>→B、{B、}~B^B→a|v|n
@<c_h(yuǎn)e2_1a>→MN^M→X、^N→</CP>(等|的)
@<c_h(yuǎn)e2_1c>→B~B^B→a|v
@<c_h(yuǎn)e2_1c>→MN^M→v^N→n
@<c_h(yuǎn)e2_2>→MN^M→(無(wú)論|不論|不管)<CP> ^N→</CP>(,|。)
@<c_h(yuǎn)e2_1b>→MN^M→X(、|與|同|及|以及)^N→(、|與|同|及|以及)X
用法“c_h(yuǎn)e2_1a”表示連接三項(xiàng)以上成分,它對(duì)應(yīng)的連詞結(jié)構(gòu)短語(yǔ)的左邊界是第一個(gè)成分,右邊界是最后一個(gè)成分,因此這個(gè)連詞結(jié)構(gòu)短語(yǔ)就用“B、{B、}~B”表示?!癱_h(yuǎn)e2_2”用法用于“無(wú)論、不論、不管”后,它對(duì)應(yīng)的連詞結(jié)構(gòu)短語(yǔ)的左邊界是“無(wú)論、不論、不管”后的第一個(gè)詞語(yǔ),右邊界沒(méi)有明顯的特點(diǎn),就規(guī)定到小句末尾。規(guī)則中的“<CP>”和“</CP>”是連詞結(jié)構(gòu)短語(yǔ)的開(kāi)始和結(jié)束標(biāo)記。默認(rèn)情況下,M、L對(duì)應(yīng)左邊界,R、N對(duì)應(yīng)右邊界,這時(shí)不用加標(biāo)記。然而“c_h(yuǎn)e2_2”對(duì)應(yīng)的短語(yǔ)左邊界在M所定義的那些詞之后,所以在“無(wú)論、不論、不管”后加上“<CP>”,表示左邊界在這些詞之后。同理,加上“</CP>”表示右邊界在對(duì)應(yīng)這些詞語(yǔ)的前面。
基于規(guī)則的連詞結(jié)構(gòu)短語(yǔ)識(shí)別程序是以行為單位進(jìn)行文本處理的,處理一行文本的具體流程如下。
(1)讀取一行文本,按逗號(hào)、分號(hào)、冒號(hào)、句號(hào)、問(wèn)號(hào)、嘆號(hào)分割成小句。
(2)判斷小句是否為空及是否含有連詞。若不為空且含有連詞,記錄連詞所在的位置pos及用法編碼ID;否則,將該小句寫(xiě)入結(jié)果文件,處理下一個(gè)小句直到全部處理完。
(3)根據(jù)ID從規(guī)則文件中解析規(guī)則,得到ID對(duì)應(yīng)的連詞結(jié)構(gòu)短語(yǔ)的規(guī)則表示,記為S。若找不到ID,將這個(gè)小句中的ID左邊的字符串(包括ID)寫(xiě)入結(jié)果文件,ID右邊的字符串設(shè)為新的小句,轉(zhuǎn)至(2)。
(4)從S中獲得連詞結(jié)構(gòu)短語(yǔ)左右邊界的特征及定義,并根據(jù)是否含有“<CP>”和“</CP>”確定邊界的位置。
(5)根據(jù)連詞結(jié)構(gòu)短語(yǔ)左右邊界的特征在pos前后匹配。若匹配成功,根據(jù)連詞用法詞典,得到ID對(duì)應(yīng)的關(guān)系標(biāo)記xx,左邊界前插入“<CP_xx>”,右邊界后插入“</CP_xx>”,并將這個(gè)小句中的ID左邊的字符串(包括ID)寫(xiě)入結(jié)果文件,右邊的字符串設(shè)為新的小句,轉(zhuǎn)至(2);否則,解析ID對(duì)應(yīng)的下一個(gè)連詞結(jié)構(gòu)短語(yǔ)的規(guī)則表示,轉(zhuǎn)至(3)。
本文的實(shí)驗(yàn)語(yǔ)料是“北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所”提供的2000年1月《人民日?qǐng)?bào)》分詞與詞性標(biāo)注語(yǔ)料,并由“鄭州大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室”預(yù)先完成其中連詞用法的標(biāo)注[6],實(shí)驗(yàn)的輸入和輸出語(yǔ)料如下所示。
輸入:改革/vn、/w發(fā)展/vn和/c<c_h(yuǎn)e2_1a>穩(wěn)定/vn的/ud任務(wù)/n十分/d繁重/a。/wj
輸出:<CP_bl> 改革/vn、/w 發(fā)展/vn和/c<c_h(yuǎn)e2_1a> 穩(wěn)定/vn</CP_bl> 的/ud任務(wù)/n十分/d繁重/a。/wj
通過(guò)規(guī)則識(shí)別與多人交叉人工標(biāo)注校對(duì)的連詞結(jié)構(gòu)短語(yǔ)的正確答案進(jìn)行比較,正確答案中所有連詞結(jié)構(gòu)短語(yǔ)總共有14 169個(gè),準(zhǔn)確率為48.67%,召回率為30.98%,F(xiàn)值為39.19%。規(guī)則識(shí)別結(jié)果比較低,主要原因是,規(guī)則是根據(jù)有限的語(yǔ)料人工總結(jié)的,具有局限性和片面性。如下面句子是“和”的部分規(guī)則識(shí)別結(jié)果。第一個(gè)句子(6)用法為“c_h(yuǎn)e2_1”,但它的結(jié)構(gòu)并不是左右兩邊都是名詞、形容詞或動(dòng)詞,這樣規(guī)則就無(wú)法表示。第二個(gè)例句(7)跟“c_h(yuǎn)e2_1a”的第二個(gè)規(guī)則很接近,右邊界標(biāo)注正確,因左邊界未找到正確的位置“節(jié)水/vi”,仍然無(wú)法完全標(biāo)注正確。第三個(gè)例句(8)是動(dòng)詞短語(yǔ)的并列,符合“c_h(yuǎn)e2_1c”的第二個(gè)規(guī)則,在確定右邊界時(shí)采用最小匹配,找到第一個(gè)名詞就結(jié)束,導(dǎo)致標(biāo)注錯(cuò)誤。因此,本文下面嘗試基于統(tǒng)計(jì)的連詞結(jié)構(gòu)短語(yǔ)識(shí)別。
(6)20000101-01-001-002/m — —/wp 在/p首都/n各界/rz迎接/v新/a世紀(jì)/n和/c<c_h(yuǎn)e2_1> 新/a千年/t慶祝/vn 活動(dòng)/vn 上{shang5}/f的/ud講話/n
(7)各地/rz開(kāi)展/v的/ud節(jié)水/vi<CP_bl>灌溉/v、/wu 打井/vi、/wu 集/Vg 雨/n 節(jié)灌/vn和/c<c_h(yuǎn)e2_1a> 灌區(qū)/n節(jié)水/vn</CP_bl>等/u工作/vn,/wd
(8)<CP_bl> 發(fā)展/v地方{di4fang1}/n經(jīng)濟(jì)/n和/c<c_h(yuǎn)e2_1c> 保持/v社會(huì)/n</CP_bl>穩(wěn)定/vn ,/wd 兩者/rz是/vl相輔相成/iv 的/ud。/wj
基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法是從訓(xùn)練數(shù)據(jù)中自動(dòng)地或半自動(dòng)地獲取語(yǔ)言知識(shí),建立有效的統(tǒng)計(jì)語(yǔ)言模型,并根據(jù)訓(xùn)練數(shù)據(jù)的實(shí)際情況不斷地優(yōu)化,而基于規(guī)則的理性主義方法正如前面一部分所述,事先總結(jié)好的,很難根據(jù)實(shí)際的數(shù)據(jù)進(jìn)行調(diào)整,因此規(guī)則方法在某些方面不如基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法好。本文采用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型進(jìn)行連詞結(jié)構(gòu)短語(yǔ)識(shí)別。
CRF模型[7]是由Lafferty在2001年提出的一種典型的判別式模型,給定輸入節(jié)點(diǎn)值,通過(guò)訓(xùn)練學(xué)習(xí),計(jì)算給定輸出節(jié)點(diǎn)的條件概率,并使得條件概率獲得最大值。近年來(lái),該模型在中文分詞[8]、中文命名實(shí)體識(shí)別[9]、歧義消解[10]等漢語(yǔ)自然語(yǔ)言處理任務(wù)中有廣泛的應(yīng)用。連詞結(jié)構(gòu)短語(yǔ)識(shí)別可以看成是文本中詞語(yǔ)與詞性序列選擇標(biāo)記、確定邊界的過(guò)程。因此本文選擇CRF模型來(lái)確定邊界,識(shí)別連詞結(jié)構(gòu)短語(yǔ)。
CRF模型是序列標(biāo)注問(wèn)題,能充分考慮上下文中的特征,綜合利用詞和詞性等特征。優(yōu)點(diǎn)是可以任意加入與處理對(duì)象有關(guān)的語(yǔ)言學(xué)特征,作為一個(gè)獨(dú)立的語(yǔ)言學(xué)結(jié)構(gòu)。在連詞結(jié)構(gòu)短語(yǔ)的識(shí)別中,很顯然,有連接功能的連詞以及頓號(hào)對(duì)短語(yǔ)的識(shí)別有一定的幫助作用。因此,本文選擇詞語(yǔ)、詞性以及連接功能標(biāo)記作為特征。為了判別連詞用法對(duì)連詞結(jié)構(gòu)短語(yǔ)的識(shí)別是否有影響,本文采用兩組特征集,這兩組特征集的區(qū)別在于連接功能標(biāo)記。特征集Ⅰ
特征模板采用25個(gè)特征,其中詞語(yǔ)為7個(gè)窗口,范圍是{-3,-2,-1,0,1,2,3},詞性為5個(gè)窗口,范圍是{-2,-1,0,1,2},連接結(jié)構(gòu)標(biāo)記為5個(gè)中,連接功能標(biāo)記為Y和N,即如果是連詞或頓號(hào),標(biāo)記為Y,其他情況標(biāo)記為N。特征集Ⅱ中,如果是連詞,標(biāo)記用連詞用法的ID表示;如果是頓號(hào),標(biāo)記為Y;其他的情況標(biāo)記為N。
連詞結(jié)構(gòu)短語(yǔ)的識(shí)別標(biāo)記參考王東波[4-5]使用的方法,根據(jù)公式得出語(yǔ)料中連詞結(jié)構(gòu)短語(yǔ)的平均長(zhǎng)度,從而確定使用7詞位標(biāo)注集。其中,Ni表示長(zhǎng)度為i的連詞結(jié)構(gòu)短語(yǔ)的個(gè)數(shù),K表示連詞結(jié)構(gòu)短語(yǔ)的最大長(zhǎng)度,N表示連詞結(jié)構(gòu)短語(yǔ)的總個(gè)數(shù)。連詞結(jié)構(gòu)短語(yǔ)的長(zhǎng)度指的是連詞結(jié)構(gòu)短語(yǔ)中詞語(yǔ)的總個(gè)數(shù),并且包括連詞在內(nèi),所以長(zhǎng)度的最小值為3。具體的標(biāo)注集為T(mén)= {B,S,T,F(xiàn),M,E,O},其中B是連詞結(jié)構(gòu)短語(yǔ)的開(kāi)始詞,S是短語(yǔ)中第二個(gè)詞,T是短語(yǔ)中第三個(gè)詞,F(xiàn)是短語(yǔ)中第四個(gè)詞,M是短語(yǔ)中第五個(gè)以上(包括第五個(gè))的詞,E是短語(yǔ)結(jié)尾的詞,O是連詞結(jié)構(gòu)短語(yǔ)外部的詞。兩組特征集如表1所示,其中表1a是特征集Ⅰ,表1b是特征集Ⅱ。窗口,范圍是{-2,-1,0,1,2}。其中0代表當(dāng)前位置,-1代表左邊第一個(gè)位置,1代表右邊第一個(gè)位置。
表1b 特征Ⅱ表示
基于統(tǒng)計(jì)方法的實(shí)驗(yàn)語(yǔ)料和規(guī)則的實(shí)驗(yàn)語(yǔ)料一樣,采用10折交叉進(jìn)行驗(yàn)證實(shí)驗(yàn)。具體流程如圖1所示。
圖1 基于統(tǒng)計(jì)的連詞結(jié)構(gòu)短語(yǔ)識(shí)別過(guò)程
對(duì)語(yǔ)料中的所有連詞結(jié)構(gòu)短語(yǔ)進(jìn)行實(shí)驗(yàn),結(jié)果如表2所示。結(jié)果顯示,基于統(tǒng)計(jì)的方法比規(guī)則方法提高很多,并且使用連詞用詞特征的識(shí)別結(jié)果比沒(méi)有使用連詞用法特征的識(shí)別結(jié)果好,這初步說(shuō)明了連詞的用法對(duì)連詞結(jié)構(gòu)短語(yǔ)的識(shí)別有一定的幫助。因?yàn)閺哪承┻B詞的用法上能夠確定某些連詞結(jié)構(gòu)短語(yǔ)的邊界,所以可以將連詞用法應(yīng)用在連詞結(jié)構(gòu)短語(yǔ)的識(shí)別中。
表2 基于統(tǒng)計(jì)的連詞結(jié)構(gòu)短語(yǔ)識(shí)別結(jié)果
連詞結(jié)構(gòu)短語(yǔ)的長(zhǎng)度不同,表現(xiàn)的特點(diǎn)也不一樣。這里,連詞結(jié)構(gòu)短語(yǔ)的長(zhǎng)度指的是連詞結(jié)構(gòu)短語(yǔ)中詞語(yǔ)的總個(gè)數(shù)。為了訓(xùn)練得到更好的模型,本文對(duì)不同長(zhǎng)度的連詞結(jié)構(gòu)短語(yǔ)分別進(jìn)行訓(xùn)練和測(cè)試,這里只考慮簡(jiǎn)單結(jié)構(gòu)(不含嵌套結(jié)構(gòu)),結(jié)果如表3所示。明顯地,不同的長(zhǎng)度識(shí)別結(jié)果不同,長(zhǎng)度越短識(shí)別效果越好。另外,連詞用法特征對(duì)各種長(zhǎng)度的識(shí)別效果不同。其中,長(zhǎng)度為3、5、8、10及10以上時(shí),準(zhǔn)確率、召回率和F值都有所提高,最高提高了4.29%;長(zhǎng)度為4、6、9時(shí),準(zhǔn)確率提高,而召回率和F值降低;只有長(zhǎng)度為7時(shí),準(zhǔn)確率、召回率和F值都降低,下降0.5%左右。原因可能是,連詞用法詞典及規(guī)則還不完善,連詞用法標(biāo)注可能存在錯(cuò)誤的現(xiàn)象,這時(shí)就會(huì)引入噪聲數(shù)據(jù),從而影響連詞結(jié)構(gòu)短語(yǔ)的識(shí)別結(jié)果。不過(guò),從總體上來(lái)看,用法特征對(duì)識(shí)別結(jié)果起到促進(jìn)作用。
表3 不同長(zhǎng)度的連詞結(jié)構(gòu)短語(yǔ)識(shí)別結(jié)果
不同連詞所連接的連詞結(jié)構(gòu)短語(yǔ)識(shí)別情況也有所差異,本文對(duì)連詞所連接的連詞結(jié)構(gòu)短語(yǔ)總數(shù)中位于前6位的連詞分別進(jìn)行了考察,涉及到4種關(guān)系的連詞結(jié)構(gòu)短語(yǔ),包括并列關(guān)系(由“和、與、及、并”連接)、轉(zhuǎn)折關(guān)系(由“而”連接)、補(bǔ)充關(guān)系(由“而”連接)、選擇關(guān)系(由“或”連接)。其中連詞“和”出現(xiàn)的次數(shù)將近一半,它所連接的短語(yǔ)占76,14%,說(shuō)明所有短語(yǔ)中并列結(jié)構(gòu)短語(yǔ)居多。表4、5、6分別顯示的是不同連詞所連接的長(zhǎng)度為3、5、8的短語(yǔ)識(shí)別結(jié)果。分布率Ⅰ表示某個(gè)連詞連接的某個(gè)長(zhǎng)度的短語(yǔ)個(gè)數(shù)與這個(gè)長(zhǎng)度的短語(yǔ)總個(gè)數(shù)的比例,分布率Ⅱ表示某個(gè)連詞連接的某個(gè)長(zhǎng)度的短語(yǔ)個(gè)數(shù)與這個(gè)連詞所連接的短語(yǔ)總個(gè)數(shù)的比例。雖然從每個(gè)長(zhǎng)度的總體識(shí)別結(jié)果來(lái)看,連詞的用法促進(jìn)了連詞結(jié)構(gòu)短語(yǔ)的識(shí)別,但是也存在一些詞,連詞的用法起到相反作用,如長(zhǎng)度為5時(shí)的“和、與、及、而”。
表4 長(zhǎng)度為3的常用連詞的短語(yǔ)識(shí)別結(jié)果
表5 長(zhǎng)度為5的常用連詞的短語(yǔ)識(shí)別結(jié)果
表6 長(zhǎng)度為8的常用連詞的短語(yǔ)識(shí)別結(jié)果
本文利用連詞的用法分別實(shí)現(xiàn)了基于規(guī)則和統(tǒng)計(jì)的連詞結(jié)構(gòu)短語(yǔ)識(shí)別,基于條件隨機(jī)場(chǎng)統(tǒng)計(jì)模型的識(shí)別結(jié)果明顯高于規(guī)則的識(shí)別結(jié)果,雖然連詞用法沒(méi)有提高很多的識(shí)別效果,但是實(shí)驗(yàn)結(jié)果表明連詞用法對(duì)連詞結(jié)構(gòu)短語(yǔ)的識(shí)別是有幫助的。下一步,將根據(jù)連詞用法知識(shí)庫(kù)嘗試把更多的語(yǔ)言學(xué)特征加入到連詞結(jié)構(gòu)短語(yǔ)識(shí)別中,并將不同長(zhǎng)度短語(yǔ)的識(shí)別也擴(kuò)展到復(fù)雜結(jié)構(gòu)中,期望能為機(jī)器翻譯提供更好的預(yù)處理知識(shí)。
附錄A 連詞“和”的部分屬性說(shuō)明
ID 釋義 用法例句c_h(yuǎn)e2_1 表示平等的聯(lián)合關(guān)系。<b>連接類(lèi)別或結(jié)構(gòu)相近的并列成分。<b><CP_bl>老師~同學(xué)</CP_bl>都贊成這么做<b>|<CP_bl>稻場(chǎng)上~小溪邊</CP_bl>頓時(shí)少了那些女人們的蹤跡<x>c_h(yuǎn)e2_1a 表示平等的聯(lián)合關(guān)系。<b>連接三項(xiàng)以上時(shí)“和”放在最后兩項(xiàng)之間,前面的成分用頓號(hào)連接。<b>一切事物都有<CP_bl>發(fā)生、發(fā)展~消亡</CP_bl>的過(guò)程<b>|<CP_bl>北京、上海、天津~重慶</CP_bl>都是直轄市<x>c_h(yuǎn)e2_1b 表示平等的聯(lián)合關(guān)系。<b>多項(xiàng)并列成分如果有幾個(gè)層次,可用“和”表示一種層次,用頓號(hào)或“與、同、以及、及”表示另一種層次。<b><CP_bl>爸爸、媽媽~哥哥、姐姐</CP_bl>都不在家<b>c_h(yuǎn)e2_1c 表示平等的聯(lián)合關(guān)系。<b>連接做謂語(yǔ)的動(dòng)詞短語(yǔ)、形容詞短語(yǔ)時(shí),動(dòng)、形限于雙音節(jié)。謂語(yǔ)前或后必有共同的附加成分或連帶成分。<b>事情還要進(jìn)一步<CP_bl>調(diào)查~了解</CP_bl><b><x>|泰山的景色十分<CP_bl>雄偉~壯麗</CP_bl><b>c_h(yuǎn)e2_2 表示選擇,相當(dāng)于“或”。<x> 常用于“無(wú)論、不論、不管”后。<b> 這意味著,只要在滬注冊(cè)的企業(yè)不論<CP_xz>所有制~歸屬</CP_xz>,都可以享受這一政策。<r>
[1]周強(qiáng).漢語(yǔ)語(yǔ)料庫(kù)的短語(yǔ)自動(dòng)劃分和標(biāo)注研究[D].北京:北京大學(xué),1996.
[2]孫宏林.現(xiàn)代漢語(yǔ)非受限文本的實(shí)語(yǔ)塊分析[D].北京:北京大學(xué),2001.
[3]吳云芳.面向中文信息處理的現(xiàn)代漢語(yǔ)并列結(jié)構(gòu)研究[D].北京:北京大學(xué),2003.
[4]王東波,陳小荷,年洪東.基于條件隨機(jī)場(chǎng)的有標(biāo)記聯(lián)合結(jié)構(gòu)自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2008,22 (6):3-8.
[5]Dongbo Wang,Danhao Zhu,Xinning Su,et al.Automatic Identification of Parallel Structure Based on Conditional Random Field[C]//Proceedings of the 3rd International Symposium on Computer Science and Computational Technology(ISCSCT'10),Jiaozuo,2010:400-404.
[6]Hongying Zan,Lijuan Zhou,Kunli Zhang.Studies on the Automatic Recognition of Modern Chinese Conjunction Usages[J].Lecture Notes in Computer Science,2011,6838:472-479.
[7]Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th ICML-01,Montreal,2001:282-289.
[8]Hai Zhao,Changning Huang,Mu Li.An Improved Chinese Word Segmentation System with Conditional Random Field[C]//Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing(SIGHAN-5).Sydeny,2006:162-165.
[9]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J].電子學(xué)報(bào),2006,5:804-809.
[10]丁德鑫,曲維光,徐濤,等.基于CRF模型的組合型歧義消解研究[J].南京師范大學(xué)學(xué)報(bào),2008,8(4):73-76.