李艷翠,谷晶晶,周國棟
(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;3. 蘇州大學(xué) 自然語言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)
標(biāo)點(diǎn)符號(hào)是書面語言的重要組成部分,同一種標(biāo)點(diǎn)往往有不同的句法或篇章功能,例如,逗號(hào)有分隔小句、主謂關(guān)系和短語并列等不同的語言功能[1]。有效識(shí)別標(biāo)點(diǎn)的功能,有助于句法分析、篇章分析、機(jī)器翻譯等自然語言處理技術(shù)效果的提高。
在句法分析方面,李辛等[2]引入標(biāo)點(diǎn)處理進(jìn)行漢語長句句法分析,利用部分標(biāo)點(diǎn)符號(hào)的特殊功能將復(fù)雜長句分割成子句序列,把整句的句法分析分成兩級(jí)來進(jìn)行,從而提高了復(fù)雜長句分析的正確率和召回率。Jin等[3]提出利用逗號(hào)對(duì)漢語長句進(jìn)行劃分,通過漢語句子的上下文識(shí)別逗號(hào)左右兩邊的子句是并列關(guān)系還是從屬關(guān)系,并利用這兩種關(guān)系對(duì)逗號(hào)進(jìn)行分類,進(jìn)而提高句法分析的性能。在篇章分析方面,Xue等[4]進(jìn)行表示句子邊界的逗號(hào)識(shí)別研究,提出逗號(hào)可等同于句子邊界時(shí)要滿足兩點(diǎn)要求: 一是逗號(hào)前后子句有完整的句法結(jié)構(gòu)(即具有一個(gè)完整的IP結(jié)構(gòu),存在主謂賓);二是具有獨(dú)立的句義且逗號(hào)前后子句間沒有緊密的句法關(guān)系。Yang等[5]對(duì)逗號(hào)的使用方法進(jìn)行了更詳細(xì)的分類,共分為七類: SB、IP_COORD、VP_COORD、ADJ、COMP、SBJ和Other。Yang等采用了兩種基于句法信息的方法實(shí)現(xiàn)逗號(hào)的自動(dòng)分類。谷晶晶等[6]提出一種基于漢語句子的分詞與詞性標(biāo)注信息做逗號(hào)自動(dòng)分類的方法,結(jié)果表明利用詞與詞性進(jìn)行逗號(hào)分類的方法是可行的。在機(jī)器翻譯方面,黃河燕等[7]利用標(biāo)點(diǎn)符號(hào)和關(guān)聯(lián)詞等把復(fù)雜長句進(jìn)行切分,簡化為多個(gè)獨(dú)立的簡單句,再進(jìn)行翻譯處理,以此提高機(jī)器翻譯的性能。
從以上的研究可以發(fā)現(xiàn),逗號(hào)功能識(shí)別是標(biāo)點(diǎn)研究中的重點(diǎn)和難點(diǎn),本文主要研究漢語逗號(hào)的功能分類。文獻(xiàn)[8]統(tǒng)計(jì)顯示漢語賓州樹庫(CTB6.0)中句號(hào)、問號(hào)、嘆號(hào)、分號(hào)、逗號(hào)和冒號(hào)等標(biāo)點(diǎn)的使用頻率,其中句號(hào)、問號(hào)、嘆號(hào)共占29.55%,逗號(hào)高達(dá)67.17%,其次是冒號(hào)(1.69%)和分號(hào)(1.85%)。由于逗號(hào)所占比例較大并且具有較多不同的功能,因此非常有必要進(jìn)行逗號(hào)的功能分類研究。漢語句子中使用頻率最高的除了逗號(hào),還有冒號(hào)和分號(hào),本文分別將CTB6.0語料中含有冒號(hào)和分號(hào)的句子抽取出來,進(jìn)行逗號(hào)的自動(dòng)分類識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)(見表1),含冒號(hào)句子的語料和分號(hào)句子的語料中,逗號(hào)自動(dòng)分類的總體正確率都嚴(yán)重低于全體語料的總體正確率,尤其是句子邊界(SB)分類逗號(hào)的F值嚴(yán)重下降。說明含有冒號(hào)或分號(hào)的句子中逗號(hào)多元分類的自動(dòng)識(shí)別效果不好,文獻(xiàn)[6]中的錯(cuò)誤分析也指出了IP_COORD類與SB分類容易混淆。
表1 全體語料與局部語料總體正確率對(duì)比
說明: 實(shí)驗(yàn)采用文獻(xiàn)[6]的特征和最大熵分類器。含冒號(hào)語料是指從全體語料中抽取出來每個(gè)句子中至少包含一個(gè)冒號(hào)的語料;含分號(hào)語料是指從全體語料中抽取出來的每個(gè)句子中至少包含一個(gè)分號(hào)的語料。
逗號(hào)、冒號(hào)和分號(hào)在使用上存在一定的層次關(guān)系。通常情況下,分號(hào)的層次比逗號(hào)更接近根節(jié)點(diǎn)。在冒號(hào)作用域內(nèi),分號(hào)層次低于冒號(hào),高于逗號(hào)。這些標(biāo)點(diǎn)符號(hào)豐富的使用方法導(dǎo)致了漢語句子長度較長且語義復(fù)雜。逗號(hào)分類是標(biāo)點(diǎn)分析的一個(gè)重要工作,由表1可知,含有冒號(hào)和分號(hào)的語料中逗號(hào)的分類效果較差,所以有必要專門進(jìn)行處理,看能否增加逗號(hào)分類的正確率。
本文主要研究添加冒號(hào)和分號(hào)分類標(biāo)簽為特征后的逗號(hào)自動(dòng)分類。主要從以下3方面進(jìn)行展開: 首先給出標(biāo)點(diǎn)分類方法;然后介紹基于此分類方法的標(biāo)點(diǎn)分類語料庫;最后給出冒號(hào)和分號(hào)對(duì)逗號(hào)分類影響的實(shí)驗(yàn)結(jié)果與分析。
本文借鑒Yang等[5]提出的逗號(hào)分類標(biāo)準(zhǔn),將逗號(hào)使用方法劃分為7類。首先把逗號(hào)的使用方法在總體上分為兩種,即所連接的兩子句之間存在關(guān)系和不存在關(guān)系。兩子句之間存在的關(guān)系又分為并列關(guān)系和從屬關(guān)系。并列關(guān)系有3種類型(SB、IP_COORD與VP_COORD),從屬關(guān)系也有3種類型(ADJ、COMP與SBJ)。每種類別的具體說明見文獻(xiàn)[6],圖1展示了逗號(hào)分類類別。下面對(duì)每種類別進(jìn)行簡單說明,實(shí)例中屬于此類的逗號(hào)用c1...cn標(biāo)識(shí),如例1中的c1和c2屬于類別SB,例2中的c3屬于IP_COORD類。
圖1 逗號(hào)分類類別
SB(SentenceBoundary): 分割句子邊界的逗號(hào)。該類逗號(hào)是指在某些語境下,起句子邊界的作用。該類逗號(hào)要求逗號(hào)左右的子句都是IP結(jié)構(gòu),父節(jié)點(diǎn)為根節(jié)點(diǎn)。如例1中的c1和c2。
例1陜西省目前批準(zhǔn)的外資項(xiàng)目已達(dá)兩千四百多個(gè),c1協(xié)議利用外資額四十多億美元,c2實(shí)際引進(jìn)外資超出十六億美元。
IP_COORD(IPCoordination): 分割父節(jié)點(diǎn)為非根節(jié)點(diǎn)的并列IP結(jié)構(gòu)的逗號(hào)。如c3和c4。
例2他指出,中國共產(chǎn)黨在農(nóng)村改革中形成了一整套基本政策,c3實(shí)踐證明是正確的,c4必須保持穩(wěn)定性和連續(xù)性。
VP_COORD(VPCoordination): 分割并列動(dòng)賓短語的逗號(hào)。這一類的逗號(hào)與IP_COORD類逗號(hào)相似,都是分割嵌套結(jié)構(gòu)中的并列結(jié)構(gòu)。
例3中國銀行是四大國有商業(yè)銀行之一,c5也是中國主要的外匯銀行。
ADJ(Adjunction): 分割附屬從句與主句的逗號(hào)。附屬從句是指在句子中擔(dān)當(dāng)某種句子成分的主屬結(jié)構(gòu)。雖然從句部分的句子結(jié)構(gòu)是完整的,但它并不能脫離主句部分獨(dú)立完整地表達(dá)意思。
例4為了在運(yùn)行機(jī)制上與保護(hù)區(qū)相配套,c6寧波保護(hù)區(qū)率先在中國實(shí)施了企業(yè)依法注冊(cè)直接登記制的試行一站式管理。
COMP(Complementation): 分割句子謂語與賓語的逗號(hào)。通常出現(xiàn)在“表示”、“指出”、“認(rèn)為”、“介紹”等提示性動(dòng)詞之后。
例5業(yè)內(nèi)人士認(rèn)為: c7它將為中韓兩國經(jīng)貿(mào)界提供一次擴(kuò)大交流與合作的良機(jī)。
SBJ(SententialSubject): 分割句子主語和謂語的逗號(hào)。SBJ類逗號(hào)表示的是逗號(hào)分割開了句子的主語與動(dòng)賓結(jié)構(gòu)。
例6出口快速增長,c8成為推動(dòng)經(jīng)濟(jì)增長的重要力量。
Other: 其他類型。本文將不屬于上述6種類型的逗號(hào)都劃分為Other類型。
[1],本文將冒號(hào)的使用方法歸納為7類(如圖2): 引用、動(dòng)賓、邊界、總分、解說、提示、Other。其中引用、動(dòng)賓和邊界又歸為話語引用類,而總分、長解說和短解說又歸為解釋說明類。Other分類是對(duì)冒號(hào)的一些不經(jīng)常使用的用法歸類。下面對(duì)每種類別的冒號(hào)進(jìn)行舉例說明。
圖2 冒號(hào)分類標(biāo)準(zhǔn)
例7秦牧: c9要學(xué)好語文,必須注意多讀、多寫、多思索。
動(dòng)賓(VP): 該類冒號(hào)分割開了謂語動(dòng)詞與賓語。常用的謂語動(dòng)詞有: 問、答、說、曰、云、想、是、證明、宣布、例如、如下等。
例8克萊因說: c10“普遍的觀點(diǎn)是人以群分,人們總喜歡和自己相似的人,所以有理論提出多樣化不利于團(tuán)結(jié)?!?/p>
邊界(SB): 該類冒號(hào)被定義為句子邊界,冒號(hào)前后的句子都是一個(gè)完整的IP結(jié)構(gòu),可獨(dú)立存在。冒號(hào)后的句子一般是對(duì)冒號(hào)前句中主語的話語引用,由左右雙引號(hào)界定。
例9鳳姐連忙告訴小丫頭傳飯: c11“我和太太都跟著老太太吃?!?/p>
總分(ZF): 冒號(hào)前的句子是總說,冒號(hào)后面的句子是對(duì)前面句子的分說。
例10本文將冒號(hào)的使用方法歸納為七類: c12引用、動(dòng)賓、邊界、總分、短解說、提示、Other。
解說(LJ): 后面的句子是對(duì)冒號(hào)前面的詞語的解釋說明。
例11有人曾做過對(duì)比實(shí)驗(yàn): c13兩個(gè)病情相近,年齡和體重相差無幾的手術(shù)患者,每天食用一只海參的患者,會(huì)比另一個(gè)患者提前20天左右全面康復(fù)。
提示(SJ): 該類是生活中常用的、位于提示短語后的冒號(hào)。該類冒號(hào)是從解說類中分離出來的一類,冒號(hào)后的內(nèi)容也是對(duì)冒號(hào)前詞或短語的解說,該類冒號(hào)前通常只有一個(gè)詞或短語。
例12電話: c14 8888888
Other: 本文設(shè)置一個(gè)Other類,是因?yàn)榇嬖谝恍┦褂梅椒ǔ霈F(xiàn)頻率較低的冒號(hào),有分總類冒號(hào)、呼語類冒號(hào)以及作者與作品之間的冒號(hào),例如,“朱自清: 《背影》”。這些使用方法的冒號(hào)都可單獨(dú)作為一類,但由于實(shí)際語料中出現(xiàn)的頻率較低,故將這些使用方法統(tǒng)歸為Other類。
參考文獻(xiàn)[1],本文對(duì)分號(hào)設(shè)置3類標(biāo)注標(biāo)簽,分別是: 并列關(guān)系(BL)、非并列關(guān)系(FB)和條款類(TK)。其中,并列關(guān)系是指分號(hào)兩邊的多個(gè)子句是并列的關(guān)系,而非并列關(guān)系是指兩邊的多個(gè)子句間存在轉(zhuǎn)折、因果等非并列關(guān)系。條款類是指分條或分行列舉的分句之間使用的分號(hào),這類分號(hào)通常用在冒號(hào)的作用域內(nèi)。標(biāo)注方法與標(biāo)注冒號(hào)的分類標(biāo)簽方法相同。
例13語言,人們用來抒情達(dá)意;c15文字,人們用來記言記事。
例14我國年滿十八周歲的公民,不分民族、種族、性別、職業(yè)、家庭出身、宗教信仰、教育程度、財(cái)產(chǎn)狀況、居住年限,都有選舉權(quán)和被選舉權(quán);c16但是依照法律被剝奪政治權(quán)力的人除外。
例15中華人民共和國行政區(qū)域劃分如下: c17(一)全國分為省、自治區(qū)、直轄市;c18(二)省、自治區(qū)分自治州、縣、自治縣、市;c19(三)縣、自治縣分鄉(xiāng)、民族鄉(xiāng)、鎮(zhèn)。
例13中的分號(hào)為并列關(guān)系類,例14中的分號(hào)屬于非并列關(guān)系類,例15中的分號(hào)屬于條款類。對(duì)于條款類的分號(hào),有時(shí)一個(gè)分句為一行,如例15中的(一)(二)(三)可以分別作為一個(gè)段落,這時(shí)的分號(hào)相當(dāng)于段落間的分割符號(hào)。識(shí)別該類分號(hào)對(duì)于基于段落的篇章分析有一定的幫助。
據(jù)統(tǒng)計(jì),CTB 6.0語料中共有51 886個(gè)逗號(hào),各分類所占的逗號(hào)數(shù)量比例如表2所示。采用與文獻(xiàn)[6]中相同的訓(xùn)練語料和測(cè)試語料劃分方式,訓(xùn)練語料包含了42 497個(gè)逗號(hào),測(cè)試語料包含了5 436個(gè)逗號(hào)。
表2 CTB 6.0語料中各類逗號(hào)分布
本文的冒號(hào)語料實(shí)驗(yàn)數(shù)據(jù)是從逗號(hào)自動(dòng)分類與識(shí)別語料(CTB6.0)中抽取出來的。抽取出的冒號(hào)語料大小為原始全體語料的9%,具體標(biāo)注的冒號(hào)數(shù)量和冒號(hào)語料中逗號(hào)的數(shù)量如表3所示。由表3可以看出,語料中含有的冒號(hào)的個(gè)數(shù)只是逗號(hào)個(gè)數(shù)的50%左右,但是位于冒號(hào)后的逗號(hào)占逗號(hào)總數(shù)的78%。由此也可以預(yù)見,添加冒號(hào)分類標(biāo)簽特征后,將對(duì)逗號(hào)的自動(dòng)分類與識(shí)別產(chǎn)生影響。在逗號(hào)分類的訓(xùn)練語料和測(cè)試語料中分別抽出所有包含冒號(hào)的句子,構(gòu)成新的訓(xùn)練語料和測(cè)試語料。對(duì)抽取出來的訓(xùn)練語料和測(cè)試語料,首先分別進(jìn)行預(yù)處理,再分別進(jìn)行人工標(biāo)注漢語冒號(hào)分類標(biāo)簽。所標(biāo)注的冒號(hào)分類標(biāo)簽參考2.2中的冒號(hào)分類,主要標(biāo)注7類標(biāo)簽,分別是引用(Nm)、動(dòng)賓(VP)、邊界(SB)、總分(ZF)、解說(LJ)、提示(SJ)和Other。
表3 冒號(hào)語料中各標(biāo)點(diǎn)個(gè)數(shù)
冒號(hào)語料中存在與例16類似的句子,即句子中只含有冒號(hào)而沒有逗號(hào),且冒號(hào)位于句末,這種情況的句子不在本文實(shí)驗(yàn)的考察范圍之內(nèi)。類似例16中的冒號(hào)一般是位于一個(gè)段落的結(jié)尾處,下面緊跟著的一個(gè)段落或者是多個(gè)段落都在該冒號(hào)作用域內(nèi),但這些段落中的逗號(hào)分類與識(shí)別已經(jīng)不受該冒號(hào)的影響,故該類冒號(hào)不在本文的考察范圍之內(nèi)。
例16港臺(tái)會(huì)師看新局:
分號(hào)語料同樣是從逗號(hào)自動(dòng)分類與識(shí)別語料中抽取出來的。采取和冒號(hào)語料同樣的處理方法,經(jīng)過預(yù)處理后再進(jìn)行人工標(biāo)注。
分號(hào)語料中含有的分號(hào)和逗號(hào)個(gè)數(shù)統(tǒng)計(jì)結(jié)果如表4所示。據(jù)統(tǒng)計(jì),抽取出的分號(hào)語料大小為原始全體語料的5.5%。相比于冒號(hào),分號(hào)數(shù)量更少。
表4 分號(hào)語料中各標(biāo)點(diǎn)個(gè)數(shù)
本節(jié)分別進(jìn)行了添加冒號(hào)分類標(biāo)簽特征、添加分號(hào)分類標(biāo)簽特征和同時(shí)添加這兩種標(biāo)點(diǎn)分類標(biāo)簽特征的實(shí)驗(yàn)。這3個(gè)實(shí)驗(yàn)采用了基本相同的方法,流程如圖3所示。根據(jù)Yang等人[5]一文中介紹的逗號(hào)各分類對(duì)應(yīng)的句法模型,預(yù)處理系統(tǒng)每次讀入一個(gè)帶句法信息的句子,對(duì)句中逗號(hào),分別提取逗號(hào)分類的三元組文件,即[句子標(biāo)號(hào),逗號(hào)序號(hào),逗號(hào)分類標(biāo)簽]。通過對(duì)CTB 6.0句法樹庫的自動(dòng)提取(即預(yù)處理系統(tǒng)),可以得到該實(shí)驗(yàn)訓(xùn)練模型時(shí)所需要的逗號(hào)訓(xùn)練樣例(即三元組文件)和測(cè)試樣例。
圖3 添加冒號(hào)(分號(hào))分類標(biāo)簽特征的逗號(hào)分類流程圖
本文基本特征選取和文獻(xiàn)[6]相同: 1) 子句主干特征,從分詞與詞性標(biāo)注的序列中,選取3個(gè)能表示子句主干的詞;2) 當(dāng)前逗號(hào)序號(hào)及序號(hào)前的逗號(hào)分類類別,通過提取這些特征可以間接反映句子的層次結(jié)構(gòu);3) 詞匯特征,提取詞匯特征是為了得到體現(xiàn)逗號(hào)左右子句特點(diǎn)的詞,比如存在介詞、連詞、副詞等。另外,分別添加冒號(hào)或分號(hào)的分類標(biāo)簽為一組新特征。
4.1.1 冒號(hào)語料的實(shí)驗(yàn)結(jié)果
按照文獻(xiàn)[6]的最大熵模型實(shí)驗(yàn)提取上下文特征的方法,在提取原特征的基礎(chǔ)上,將當(dāng)前逗號(hào)前的冒號(hào)分類標(biāo)簽作為一個(gè)新的特征加入到特征集合中。實(shí)驗(yàn)的結(jié)果如表5所示。
表5 冒號(hào)語料中逗號(hào)自動(dòng)識(shí)別結(jié)果
從表5可以看出,逗號(hào)分類的自動(dòng)識(shí)別整體正確率提高了9.9%,說明通過添加冒號(hào)分類標(biāo)簽特征來提高逗號(hào)自動(dòng)識(shí)別正確率的方法是可行的,而這兩類標(biāo)點(diǎn)符號(hào)之間是存在影響的。表5中,各分類逗號(hào)的F值都有不同程度的提高,尤其是SB分類和IP_COORD分類,分別提高了32.3%和23.0%。說明添加的冒號(hào)分類標(biāo)簽,對(duì)這兩類逗號(hào)識(shí)別正確率影響最大,一些被錯(cuò)分為SB分類的逗號(hào),在本實(shí)驗(yàn)中被正確識(shí)別為IP_COORD分類。至于SBJ分類的自動(dòng)識(shí)別F值為零,是由于屬于該分類的逗號(hào)在訓(xùn)練樣例中只出現(xiàn)了3次,在測(cè)試樣例中只有1個(gè)。
4.1.2 全體語料的實(shí)驗(yàn)結(jié)果
在冒號(hào)語料的實(shí)驗(yàn)取得成功后,本實(shí)驗(yàn)將標(biāo)注了冒號(hào)分類標(biāo)簽的語料帶入到全體語料中,替換沒有被標(biāo)注的冒號(hào)句子。在標(biāo)注了冒號(hào)分類標(biāo)簽的全體語料上,再次進(jìn)行實(shí)驗(yàn),新實(shí)驗(yàn)同樣是在添加冒號(hào)分類標(biāo)簽特征后進(jìn)行多元逗號(hào)分類。實(shí)驗(yàn)結(jié)果如表6所示。
表6列出了添加冒號(hào)分類標(biāo)簽前后,分別采用最大熵模型和CRF模型的實(shí)驗(yàn)結(jié)果。基于最大熵模型的全體語料整體正確率提高了0.7%,基于CRF模型的全體正確率提高了0.8%,由此也再次說明基于CRF模型的自動(dòng)分類識(shí)別正確率要高于基于最大熵模型的自動(dòng)識(shí)別正確率。由表3統(tǒng)計(jì)的數(shù)據(jù)可知,冒號(hào)語料中的逗號(hào)個(gè)數(shù)占全體語料中逗號(hào)個(gè)數(shù)的6.9%,而由表5添加冒號(hào)分類標(biāo)簽特征的冒號(hào)語料逗號(hào)分類總體正確率提高9.9%,表6全體語料總體正確率提高0.8%,實(shí)驗(yàn)說明冒號(hào)語料和全體語料在添加冒號(hào)分類標(biāo)簽特征后,提高的總體正確率是成比例的。
同時(shí),SB分類和IP_COORD分類的逗號(hào)在全體語料的實(shí)驗(yàn)中,結(jié)果都有一定的提高。在全體語料上,SB分類并沒有IP_COORD分類F值提高的多,因?yàn)樵谌w語料中,SB分類共有1311個(gè),而IP_COORD分類只有506個(gè)。
4.1.3 邊界識(shí)別
引言中提到冒號(hào)對(duì)IP_COORD分類和SB分類的逗號(hào)存在明顯影響,由于SB分類屬于逗號(hào)標(biāo)示句子邊界的情況,所以本文將同樣考察冒號(hào)對(duì)識(shí)別逗號(hào)作為句子邊界情況存在的影響。識(shí)別SB分類,即為識(shí)別句子邊界(EOS,End Of a Sentence)。結(jié)合本文的實(shí)驗(yàn),只需將SB分類歸為EOS,余下的6類歸為非句子邊界(Non-EOS,Not the End Of a Sentence)。表7列出了基于最大熵模型的全體語料在添加冒號(hào)標(biāo)簽特征前后,識(shí)別逗號(hào)標(biāo)示句子邊界的實(shí)驗(yàn)結(jié)果。
由表7可以看出,在添加冒號(hào)標(biāo)簽特征后,逗號(hào)標(biāo)示句子邊界的實(shí)驗(yàn)結(jié)果在總體正確率上提高1.2%,EOS和NEOS分類的F值也分別有所提高。再次說明,冒號(hào)分類標(biāo)簽對(duì)逗號(hào)的分類自動(dòng)識(shí)別存在影響。
表7 逗號(hào)標(biāo)示句子邊界的識(shí)別結(jié)果
4.2.1 分號(hào)語料的實(shí)驗(yàn)結(jié)果
添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)與添加冒號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)類似。在提取原有特征的基礎(chǔ)上,將當(dāng)前逗號(hào)前的分號(hào)分類標(biāo)簽作為一組新的特征添加到特征集合中。實(shí)驗(yàn)結(jié)果如表8所示。
表8 分號(hào)語料中逗號(hào)分類自動(dòng)識(shí)別結(jié)果及對(duì)比
表8中分號(hào)語料基準(zhǔn)系統(tǒng)的實(shí)驗(yàn)是基于最大熵模型的,添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)分別采用了最大熵和CRF兩種模型。CRF模型的自動(dòng)識(shí)別正確率比最大熵模型的更高,但這里主要對(duì)比添加分號(hào)分類標(biāo)簽特征前后的最大熵模型的實(shí)驗(yàn)結(jié)果。由表8可知,基于最大熵模型的實(shí)驗(yàn)結(jié)果中,逗號(hào)分類的自動(dòng)識(shí)別整體正確率提高了4.6%。
表8中,各分類逗號(hào)的F值都有不同程度的提高,但并不像添加冒號(hào)分類標(biāo)簽的實(shí)驗(yàn)結(jié)果中SB分類和IP_COORD分類正確率提高的幅度那樣大。正確率提高相對(duì)較高的是ADJ類逗號(hào)和VP_COORD類逗號(hào)。實(shí)驗(yàn)表明添加分號(hào)分類標(biāo)簽特征提高逗號(hào)自動(dòng)識(shí)別正確率的方法是可行的。
4.2.2 全體語料的實(shí)驗(yàn)結(jié)果
在分號(hào)語料的實(shí)驗(yàn)取得成功后,本文同樣將已標(biāo)注的分號(hào)語料反饋到原語料中。同樣的方法,實(shí)驗(yàn)結(jié)果如表9所示。
表9 添加分號(hào)標(biāo)簽后的全體語料實(shí)驗(yàn)結(jié)果及對(duì)比
由表9可知,添加新特征后最大熵模型的總體正確率提高了0.2%,而CRF模型的總體正確率提高了0.5%。在添加冒號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)結(jié)果(表6)中,CRF模型和最大熵模型分別提高了0.7%和0.8%。添加分號(hào)分類標(biāo)簽特征效果沒有添加冒號(hào)分類標(biāo)簽特征明顯與它們?cè)谡Z料中所占的比例有關(guān),由3.2和3.3節(jié)可知,冒號(hào)語料占全體語料的9%,而分號(hào)語料明顯較小,占全體語料的5.5%。
比較表6和表9可知,CRF模型比最大熵模型效果要好。因?yàn)镃RF模型計(jì)算了全局最優(yōu)的輸出節(jié)點(diǎn)的條件概率,而不是只通過當(dāng)前的狀態(tài)來定義下一個(gè)節(jié)點(diǎn)的狀態(tài)。通過分析冒號(hào)和分號(hào)的作用域可以發(fā)現(xiàn),冒號(hào)的作用域是從冒號(hào)后的第一個(gè)字符開始到句末標(biāo)點(diǎn)結(jié)束;而分號(hào)的作用域不止包含在分號(hào)后面的句子部分,它的作用域?yàn)楫?dāng)前分號(hào)前后相鄰的兩個(gè)分號(hào)(相鄰不是分號(hào)時(shí),為句子開始字符和句子結(jié)束字符)之間。故在添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)中,更能體現(xiàn)CRF模型的優(yōu)越性。
同時(shí)添加冒號(hào)和分號(hào)分類標(biāo)簽為特征的實(shí)驗(yàn),是指同時(shí)添加當(dāng)前逗號(hào)前的冒號(hào)的分類標(biāo)簽和分號(hào)的分類標(biāo)簽作為一組新的特征進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表10所示。
通過對(duì)全體語料的基準(zhǔn)系統(tǒng)和分別添加其中某一個(gè)標(biāo)點(diǎn)的分類結(jié)果對(duì)比,該綜合實(shí)驗(yàn)的總體正確率及各項(xiàng)的分類的F值都有所提高,說明本文提出的添加其他標(biāo)點(diǎn)符號(hào)的分類標(biāo)簽特征輔助逗號(hào)多元分類的自動(dòng)識(shí)別方法是可行的,且取得了相對(duì)較好的成績。CRF模型的總體正確率達(dá)到69.2%,已經(jīng)非常接近Yang等基于句法信息的71.5%的總體正確率。
本文主要研究了分別添加冒號(hào)和分號(hào)分類標(biāo)簽,以及同時(shí)添加兩類標(biāo)點(diǎn)的分類標(biāo)簽特征后,對(duì)逗號(hào)自動(dòng)分類結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明,在分別添加冒號(hào)或分號(hào)分類標(biāo)簽特征后,逗號(hào)多元分類的自動(dòng)識(shí)別正確率都有所提高。在同時(shí)添加這兩類標(biāo)點(diǎn)分類標(biāo)簽特征時(shí),逗號(hào)識(shí)別的正確率達(dá)到69.2%。本文實(shí)驗(yàn)說明分號(hào)和冒號(hào)分類對(duì)逗號(hào)分類是存在影響的,合理地利用冒號(hào)或分號(hào)分類標(biāo)簽可以提高逗號(hào)分類的正確率。
參考文獻(xiàn)
[1] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局、中國國家標(biāo)準(zhǔn)化管理委員會(huì). GB/T15834-2011標(biāo)點(diǎn)符號(hào)用法[M].北京:中國標(biāo)準(zhǔn)出版社, 2011.
[2] 李幸, 宗成慶. 引入標(biāo)點(diǎn)處理的層次化漢語長句句法分析方法[J]. 中文信息學(xué)報(bào), 2006, 20(4): 8-15.
[3] Mei xunjin,Mi-Yong kim,Dongi kim, et al. Segmentation of Chinese long sentences using commas[C]// Proceedings of 3rd ACL SIGHAN Workshop. Barcelona,2004: 1-8.
[4] Nianwen Xue, Yaqin Yang. Chinese sentence segmentation as comma classification. [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 631-635.
[5] Yaqin Yang, Nianwen Xue. Chinese Comma Disambiguation for Discourse Analysis. [C]//Proceedings of Annual Meeting on Association for Computational Linguistics (ACL), 2012: 786-794
[6] 谷晶晶, 周國棟. 基于分詞與詞性標(biāo)注的漢語逗號(hào)自動(dòng)分類[J]. 計(jì)算機(jī)工程與應(yīng)用,http://www.cnki.net/kcms/doi/10.3778/j.ssn.1002-8331,2014: 1310-0034.
[7] 黃河燕, 陳肇雄. 基于多策略分析的復(fù)雜長句翻譯處理算法[J]. 中文信息學(xué)報(bào), 2002, 16(3): 1-7.
[8] 李艷翠, 馮文賀, 周國棟. 基于逗號(hào)的漢語子句識(shí)別研究[J].北京大學(xué)學(xué)報(bào),2013,49(1): 7-14.