添加冒號(hào)和分號(hào)分類標(biāo)簽特征的漢語逗號(hào)分類

2014-02-27 07:07:37李艷翠谷晶晶周國棟

中文信息學(xué)報(bào) 2014年5期

李艷翠，谷晶晶，周國棟

(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006；2. 河南科技學(xué)院信息工程學(xué)院，河南新鄉(xiāng) 453003;3. 蘇州大學(xué) 自然語言處理實(shí)驗(yàn)室，江蘇蘇州 215006)

1 引言

標(biāo)點(diǎn)符號(hào)是書面語言的重要組成部分，同一種標(biāo)點(diǎn)往往有不同的句法或篇章功能，例如，逗號(hào)有分隔小句、主謂關(guān)系和短語并列等不同的語言功能[1]。有效識(shí)別標(biāo)點(diǎn)的功能，有助于句法分析、篇章分析、機(jī)器翻譯等自然語言處理技術(shù)效果的提高。

在句法分析方面，李辛等[2]引入標(biāo)點(diǎn)處理進(jìn)行漢語長句句法分析，利用部分標(biāo)點(diǎn)符號(hào)的特殊功能將復(fù)雜長句分割成子句序列，把整句的句法分析分成兩級(jí)來進(jìn)行，從而提高了復(fù)雜長句分析的正確率和召回率。Jin等[3]提出利用逗號(hào)對(duì)漢語長句進(jìn)行劃分，通過漢語句子的上下文識(shí)別逗號(hào)左右兩邊的子句是并列關(guān)系還是從屬關(guān)系，并利用這兩種關(guān)系對(duì)逗號(hào)進(jìn)行分類，進(jìn)而提高句法分析的性能。在篇章分析方面，Xue等[4]進(jìn)行表示句子邊界的逗號(hào)識(shí)別研究，提出逗號(hào)可等同于句子邊界時(shí)要滿足兩點(diǎn)要求: 一是逗號(hào)前后子句有完整的句法結(jié)構(gòu)(即具有一個(gè)完整的IP結(jié)構(gòu)，存在主謂賓)；二是具有獨(dú)立的句義且逗號(hào)前后子句間沒有緊密的句法關(guān)系。Yang等[5]對(duì)逗號(hào)的使用方法進(jìn)行了更詳細(xì)的分類，共分為七類: SB、IP_COORD、VP_COORD、ADJ、COMP、SBJ和Other。Yang等采用了兩種基于句法信息的方法實(shí)現(xiàn)逗號(hào)的自動(dòng)分類。谷晶晶等[6]提出一種基于漢語句子的分詞與詞性標(biāo)注信息做逗號(hào)自動(dòng)分類的方法，結(jié)果表明利用詞與詞性進(jìn)行逗號(hào)分類的方法是可行的。在機(jī)器翻譯方面，黃河燕等[7]利用標(biāo)點(diǎn)符號(hào)和關(guān)聯(lián)詞等把復(fù)雜長句進(jìn)行切分，簡化為多個(gè)獨(dú)立的簡單句，再進(jìn)行翻譯處理，以此提高機(jī)器翻譯的性能。

從以上的研究可以發(fā)現(xiàn)，逗號(hào)功能識(shí)別是標(biāo)點(diǎn)研究中的重點(diǎn)和難點(diǎn)，本文主要研究漢語逗號(hào)的功能分類。文獻(xiàn)[8]統(tǒng)計(jì)顯示漢語賓州樹庫(CTB6.0)中句號(hào)、問號(hào)、嘆號(hào)、分號(hào)、逗號(hào)和冒號(hào)等標(biāo)點(diǎn)的使用頻率，其中句號(hào)、問號(hào)、嘆號(hào)共占29.55%，逗號(hào)高達(dá)67.17%，其次是冒號(hào)(1.69%)和分號(hào)(1.85%)。由于逗號(hào)所占比例較大并且具有較多不同的功能，因此非常有必要進(jìn)行逗號(hào)的功能分類研究。漢語句子中使用頻率最高的除了逗號(hào)，還有冒號(hào)和分號(hào)，本文分別將CTB6.0語料中含有冒號(hào)和分號(hào)的句子抽取出來，進(jìn)行逗號(hào)的自動(dòng)分類識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)(見表1)，含冒號(hào)句子的語料和分號(hào)句子的語料中，逗號(hào)自動(dòng)分類的總體正確率都嚴(yán)重低于全體語料的總體正確率，尤其是句子邊界(SB)分類逗號(hào)的F值嚴(yán)重下降。說明含有冒號(hào)或分號(hào)的句子中逗號(hào)多元分類的自動(dòng)識(shí)別效果不好，文獻(xiàn)[6]中的錯(cuò)誤分析也指出了IP_COORD類與SB分類容易混淆。

表1 全體語料與局部語料總體正確率對(duì)比

說明: 實(shí)驗(yàn)采用文獻(xiàn)[6]的特征和最大熵分類器。含冒號(hào)語料是指從全體語料中抽取出來每個(gè)句子中至少包含一個(gè)冒號(hào)的語料；含分號(hào)語料是指從全體語料中抽取出來的每個(gè)句子中至少包含一個(gè)分號(hào)的語料。

逗號(hào)、冒號(hào)和分號(hào)在使用上存在一定的層次關(guān)系。通常情況下，分號(hào)的層次比逗號(hào)更接近根節(jié)點(diǎn)。在冒號(hào)作用域內(nèi)，分號(hào)層次低于冒號(hào)，高于逗號(hào)。這些標(biāo)點(diǎn)符號(hào)豐富的使用方法導(dǎo)致了漢語句子長度較長且語義復(fù)雜。逗號(hào)分類是標(biāo)點(diǎn)分析的一個(gè)重要工作，由表1可知，含有冒號(hào)和分號(hào)的語料中逗號(hào)的分類效果較差，所以有必要專門進(jìn)行處理，看能否增加逗號(hào)分類的正確率。

本文主要研究添加冒號(hào)和分號(hào)分類標(biāo)簽為特征后的逗號(hào)自動(dòng)分類。主要從以下3方面進(jìn)行展開: 首先給出標(biāo)點(diǎn)分類方法；然后介紹基于此分類方法的標(biāo)點(diǎn)分類語料庫；最后給出冒號(hào)和分號(hào)對(duì)逗號(hào)分類影響的實(shí)驗(yàn)結(jié)果與分析。

2 標(biāo)點(diǎn)分類

2.1 逗號(hào)分類

本文借鑒Yang等[5]提出的逗號(hào)分類標(biāo)準(zhǔn)，將逗號(hào)使用方法劃分為7類。首先把逗號(hào)的使用方法在總體上分為兩種，即所連接的兩子句之間存在關(guān)系和不存在關(guān)系。兩子句之間存在的關(guān)系又分為并列關(guān)系和從屬關(guān)系。并列關(guān)系有3種類型(SB、IP_COORD與VP_COORD)，從屬關(guān)系也有3種類型(ADJ、COMP與SBJ)。每種類別的具體說明見文獻(xiàn)[6]，圖1展示了逗號(hào)分類類別。下面對(duì)每種類別進(jìn)行簡單說明，實(shí)例中屬于此類的逗號(hào)用c1...cn標(biāo)識(shí)，如例1中的c1和c2屬于類別SB，例2中的c3屬于IP_COORD類。

圖1 逗號(hào)分類類別

SB(SentenceBoundary): 分割句子邊界的逗號(hào)。該類逗號(hào)是指在某些語境下，起句子邊界的作用。該類逗號(hào)要求逗號(hào)左右的子句都是IP結(jié)構(gòu)，父節(jié)點(diǎn)為根節(jié)點(diǎn)。如例1中的c1和c2。

例1陜西省目前批準(zhǔn)的外資項(xiàng)目已達(dá)兩千四百多個(gè)，c1協(xié)議利用外資額四十多億美元，c2實(shí)際引進(jìn)外資超出十六億美元。

IP_COORD(IPCoordination): 分割父節(jié)點(diǎn)為非根節(jié)點(diǎn)的并列IP結(jié)構(gòu)的逗號(hào)。如c3和c4。

例2他指出，中國共產(chǎn)黨在農(nóng)村改革中形成了一整套基本政策，c3實(shí)踐證明是正確的，c4必須保持穩(wěn)定性和連續(xù)性。

VP_COORD(VPCoordination): 分割并列動(dòng)賓短語的逗號(hào)。這一類的逗號(hào)與IP_COORD類逗號(hào)相似，都是分割嵌套結(jié)構(gòu)中的并列結(jié)構(gòu)。

例3中國銀行是四大國有商業(yè)銀行之一，c5也是中國主要的外匯銀行。

ADJ(Adjunction): 分割附屬從句與主句的逗號(hào)。附屬從句是指在句子中擔(dān)當(dāng)某種句子成分的主屬結(jié)構(gòu)。雖然從句部分的句子結(jié)構(gòu)是完整的，但它并不能脫離主句部分獨(dú)立完整地表達(dá)意思。

例4為了在運(yùn)行機(jī)制上與保護(hù)區(qū)相配套，c6寧波保護(hù)區(qū)率先在中國實(shí)施了企業(yè)依法注冊(cè)直接登記制的試行一站式管理。

COMP(Complementation): 分割句子謂語與賓語的逗號(hào)。通常出現(xiàn)在“表示”、“指出”、“認(rèn)為”、“介紹”等提示性動(dòng)詞之后。

例5業(yè)內(nèi)人士認(rèn)為： c7它將為中韓兩國經(jīng)貿(mào)界提供一次擴(kuò)大交流與合作的良機(jī)。

SBJ(SententialSubject): 分割句子主語和謂語的逗號(hào)。SBJ類逗號(hào)表示的是逗號(hào)分割開了句子的主語與動(dòng)賓結(jié)構(gòu)。

例6出口快速增長，c8成為推動(dòng)經(jīng)濟(jì)增長的重要力量。

Other: 其他類型。本文將不屬于上述6種類型的逗號(hào)都劃分為Other類型。

2.2 冒號(hào)分類

[1]，本文將冒號(hào)的使用方法歸納為7類(如圖2): 引用、動(dòng)賓、邊界、總分、解說、提示、Other。其中引用、動(dòng)賓和邊界又歸為話語引用類，而總分、長解說和短解說又歸為解釋說明類。Other分類是對(duì)冒號(hào)的一些不經(jīng)常使用的用法歸類。下面對(duì)每種類別的冒號(hào)進(jìn)行舉例說明。

圖2 冒號(hào)分類標(biāo)準(zhǔn)

例7秦牧: c9要學(xué)好語文，必須注意多讀、多寫、多思索。

動(dòng)賓(VP): 該類冒號(hào)分割開了謂語動(dòng)詞與賓語。常用的謂語動(dòng)詞有: 問、答、說、曰、云、想、是、證明、宣布、例如、如下等。

例8克萊因說: c10“普遍的觀點(diǎn)是人以群分，人們總喜歡和自己相似的人，所以有理論提出多樣化不利于團(tuán)結(jié)?！?/p>

邊界(SB): 該類冒號(hào)被定義為句子邊界，冒號(hào)前后的句子都是一個(gè)完整的IP結(jié)構(gòu)，可獨(dú)立存在。冒號(hào)后的句子一般是對(duì)冒號(hào)前句中主語的話語引用，由左右雙引號(hào)界定。

例9鳳姐連忙告訴小丫頭傳飯: c11“我和太太都跟著老太太吃?！?/p>

總分(ZF): 冒號(hào)前的句子是總說，冒號(hào)后面的句子是對(duì)前面句子的分說。

例10本文將冒號(hào)的使用方法歸納為七類: c12引用、動(dòng)賓、邊界、總分、短解說、提示、Other。

解說(LJ): 后面的句子是對(duì)冒號(hào)前面的詞語的解釋說明。

例11有人曾做過對(duì)比實(shí)驗(yàn): c13兩個(gè)病情相近，年齡和體重相差無幾的手術(shù)患者，每天食用一只海參的患者，會(huì)比另一個(gè)患者提前20天左右全面康復(fù)。

提示(SJ): 該類是生活中常用的、位于提示短語后的冒號(hào)。該類冒號(hào)是從解說類中分離出來的一類，冒號(hào)后的內(nèi)容也是對(duì)冒號(hào)前詞或短語的解說，該類冒號(hào)前通常只有一個(gè)詞或短語。

例12電話: c14 8888888

Other: 本文設(shè)置一個(gè)Other類，是因?yàn)榇嬖谝恍┦褂梅椒ǔ霈F(xiàn)頻率較低的冒號(hào)，有分總類冒號(hào)、呼語類冒號(hào)以及作者與作品之間的冒號(hào)，例如，“朱自清: 《背影》”。這些使用方法的冒號(hào)都可單獨(dú)作為一類，但由于實(shí)際語料中出現(xiàn)的頻率較低，故將這些使用方法統(tǒng)歸為Other類。

2.3 分號(hào)分類

參考文獻(xiàn)[1]，本文對(duì)分號(hào)設(shè)置3類標(biāo)注標(biāo)簽，分別是: 并列關(guān)系(BL)、非并列關(guān)系(FB)和條款類(TK)。其中，并列關(guān)系是指分號(hào)兩邊的多個(gè)子句是并列的關(guān)系，而非并列關(guān)系是指兩邊的多個(gè)子句間存在轉(zhuǎn)折、因果等非并列關(guān)系。條款類是指分條或分行列舉的分句之間使用的分號(hào)，這類分號(hào)通常用在冒號(hào)的作用域內(nèi)。標(biāo)注方法與標(biāo)注冒號(hào)的分類標(biāo)簽方法相同。

例13語言，人們用來抒情達(dá)意；c15文字，人們用來記言記事。

例14我國年滿十八周歲的公民，不分民族、種族、性別、職業(yè)、家庭出身、宗教信仰、教育程度、財(cái)產(chǎn)狀況、居住年限，都有選舉權(quán)和被選舉權(quán)；c16但是依照法律被剝奪政治權(quán)力的人除外。

例15中華人民共和國行政區(qū)域劃分如下: c17(一)全國分為省、自治區(qū)、直轄市；c18(二)省、自治區(qū)分自治州、縣、自治縣、市；c19(三)縣、自治縣分鄉(xiāng)、民族鄉(xiāng)、鎮(zhèn)。

例13中的分號(hào)為并列關(guān)系類，例14中的分號(hào)屬于非并列關(guān)系類，例15中的分號(hào)屬于條款類。對(duì)于條款類的分號(hào)，有時(shí)一個(gè)分句為一行，如例15中的(一)(二)(三)可以分別作為一個(gè)段落，這時(shí)的分號(hào)相當(dāng)于段落間的分割符號(hào)。識(shí)別該類分號(hào)對(duì)于基于段落的篇章分析有一定的幫助。

3 標(biāo)點(diǎn)分類語料

3.1 逗號(hào)分類語料

據(jù)統(tǒng)計(jì)，CTB 6.0語料中共有51 886個(gè)逗號(hào)，各分類所占的逗號(hào)數(shù)量比例如表2所示。采用與文獻(xiàn)[6]中相同的訓(xùn)練語料和測(cè)試語料劃分方式，訓(xùn)練語料包含了42 497個(gè)逗號(hào)，測(cè)試語料包含了5 436個(gè)逗號(hào)。

表2 CTB 6.0語料中各類逗號(hào)分布

3.2 冒號(hào)分類語料

本文的冒號(hào)語料實(shí)驗(yàn)數(shù)據(jù)是從逗號(hào)自動(dòng)分類與識(shí)別語料(CTB6.0)中抽取出來的。抽取出的冒號(hào)語料大小為原始全體語料的9%，具體標(biāo)注的冒號(hào)數(shù)量和冒號(hào)語料中逗號(hào)的數(shù)量如表3所示。由表3可以看出，語料中含有的冒號(hào)的個(gè)數(shù)只是逗號(hào)個(gè)數(shù)的50%左右，但是位于冒號(hào)后的逗號(hào)占逗號(hào)總數(shù)的78%。由此也可以預(yù)見，添加冒號(hào)分類標(biāo)簽特征后，將對(duì)逗號(hào)的自動(dòng)分類與識(shí)別產(chǎn)生影響。在逗號(hào)分類的訓(xùn)練語料和測(cè)試語料中分別抽出所有包含冒號(hào)的句子，構(gòu)成新的訓(xùn)練語料和測(cè)試語料。對(duì)抽取出來的訓(xùn)練語料和測(cè)試語料，首先分別進(jìn)行預(yù)處理，再分別進(jìn)行人工標(biāo)注漢語冒號(hào)分類標(biāo)簽。所標(biāo)注的冒號(hào)分類標(biāo)簽參考2.2中的冒號(hào)分類，主要標(biāo)注7類標(biāo)簽，分別是引用(Nm)、動(dòng)賓(VP)、邊界(SB)、總分(ZF)、解說(LJ)、提示(SJ)和Other。

表3 冒號(hào)語料中各標(biāo)點(diǎn)個(gè)數(shù)

冒號(hào)語料中存在與例16類似的句子，即句子中只含有冒號(hào)而沒有逗號(hào)，且冒號(hào)位于句末，這種情況的句子不在本文實(shí)驗(yàn)的考察范圍之內(nèi)。類似例16中的冒號(hào)一般是位于一個(gè)段落的結(jié)尾處，下面緊跟著的一個(gè)段落或者是多個(gè)段落都在該冒號(hào)作用域內(nèi)，但這些段落中的逗號(hào)分類與識(shí)別已經(jīng)不受該冒號(hào)的影響，故該類冒號(hào)不在本文的考察范圍之內(nèi)。

例16港臺(tái)會(huì)師看新局:

3.3 分號(hào)語料

分號(hào)語料同樣是從逗號(hào)自動(dòng)分類與識(shí)別語料中抽取出來的。采取和冒號(hào)語料同樣的處理方法，經(jīng)過預(yù)處理后再進(jìn)行人工標(biāo)注。

分號(hào)語料中含有的分號(hào)和逗號(hào)個(gè)數(shù)統(tǒng)計(jì)結(jié)果如表4所示。據(jù)統(tǒng)計(jì)，抽取出的分號(hào)語料大小為原始全體語料的5.5%。相比于冒號(hào)，分號(hào)數(shù)量更少。

表4 分號(hào)語料中各標(biāo)點(diǎn)個(gè)數(shù)

4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)分別進(jìn)行了添加冒號(hào)分類標(biāo)簽特征、添加分號(hào)分類標(biāo)簽特征和同時(shí)添加這兩種標(biāo)點(diǎn)分類標(biāo)簽特征的實(shí)驗(yàn)。這3個(gè)實(shí)驗(yàn)采用了基本相同的方法，流程如圖3所示。根據(jù)Yang等人[5]一文中介紹的逗號(hào)各分類對(duì)應(yīng)的句法模型，預(yù)處理系統(tǒng)每次讀入一個(gè)帶句法信息的句子，對(duì)句中逗號(hào)，分別提取逗號(hào)分類的三元組文件，即[句子標(biāo)號(hào)，逗號(hào)序號(hào)，逗號(hào)分類標(biāo)簽]。通過對(duì)CTB 6.0句法樹庫的自動(dòng)提取(即預(yù)處理系統(tǒng))，可以得到該實(shí)驗(yàn)訓(xùn)練模型時(shí)所需要的逗號(hào)訓(xùn)練樣例(即三元組文件)和測(cè)試樣例。

圖3 添加冒號(hào)(分號(hào))分類標(biāo)簽特征的逗號(hào)分類流程圖

本文基本特征選取和文獻(xiàn)[6]相同: 1) 子句主干特征，從分詞與詞性標(biāo)注的序列中，選取3個(gè)能表示子句主干的詞；2) 當(dāng)前逗號(hào)序號(hào)及序號(hào)前的逗號(hào)分類類別，通過提取這些特征可以間接反映句子的層次結(jié)構(gòu)；3) 詞匯特征，提取詞匯特征是為了得到體現(xiàn)逗號(hào)左右子句特點(diǎn)的詞，比如存在介詞、連詞、副詞等。另外，分別添加冒號(hào)或分號(hào)的分類標(biāo)簽為一組新特征。

4.1 添加冒號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)結(jié)果及分析

4.1.1 冒號(hào)語料的實(shí)驗(yàn)結(jié)果

按照文獻(xiàn)[6]的最大熵模型實(shí)驗(yàn)提取上下文特征的方法，在提取原特征的基礎(chǔ)上，將當(dāng)前逗號(hào)前的冒號(hào)分類標(biāo)簽作為一個(gè)新的特征加入到特征集合中。實(shí)驗(yàn)的結(jié)果如表5所示。

表5 冒號(hào)語料中逗號(hào)自動(dòng)識(shí)別結(jié)果

從表5可以看出，逗號(hào)分類的自動(dòng)識(shí)別整體正確率提高了9.9%，說明通過添加冒號(hào)分類標(biāo)簽特征來提高逗號(hào)自動(dòng)識(shí)別正確率的方法是可行的，而這兩類標(biāo)點(diǎn)符號(hào)之間是存在影響的。表5中，各分類逗號(hào)的F值都有不同程度的提高，尤其是SB分類和IP_COORD分類，分別提高了32.3%和23.0%。說明添加的冒號(hào)分類標(biāo)簽，對(duì)這兩類逗號(hào)識(shí)別正確率影響最大，一些被錯(cuò)分為SB分類的逗號(hào)，在本實(shí)驗(yàn)中被正確識(shí)別為IP_COORD分類。至于SBJ分類的自動(dòng)識(shí)別F值為零，是由于屬于該分類的逗號(hào)在訓(xùn)練樣例中只出現(xiàn)了3次，在測(cè)試樣例中只有1個(gè)。

4.1.2 全體語料的實(shí)驗(yàn)結(jié)果

在冒號(hào)語料的實(shí)驗(yàn)取得成功后，本實(shí)驗(yàn)將標(biāo)注了冒號(hào)分類標(biāo)簽的語料帶入到全體語料中，替換沒有被標(biāo)注的冒號(hào)句子。在標(biāo)注了冒號(hào)分類標(biāo)簽的全體語料上，再次進(jìn)行實(shí)驗(yàn)，新實(shí)驗(yàn)同樣是在添加冒號(hào)分類標(biāo)簽特征后進(jìn)行多元逗號(hào)分類。實(shí)驗(yàn)結(jié)果如表6所示。

表6列出了添加冒號(hào)分類標(biāo)簽前后，分別采用最大熵模型和CRF模型的實(shí)驗(yàn)結(jié)果。基于最大熵模型的全體語料整體正確率提高了0.7%，基于CRF模型的全體正確率提高了0.8%，由此也再次說明基于CRF模型的自動(dòng)分類識(shí)別正確率要高于基于最大熵模型的自動(dòng)識(shí)別正確率。由表3統(tǒng)計(jì)的數(shù)據(jù)可知，冒號(hào)語料中的逗號(hào)個(gè)數(shù)占全體語料中逗號(hào)個(gè)數(shù)的6.9%，而由表5添加冒號(hào)分類標(biāo)簽特征的冒號(hào)語料逗號(hào)分類總體正確率提高9.9%，表6全體語料總體正確率提高0.8%，實(shí)驗(yàn)說明冒號(hào)語料和全體語料在添加冒號(hào)分類標(biāo)簽特征后，提高的總體正確率是成比例的。

同時(shí)，SB分類和IP_COORD分類的逗號(hào)在全體語料的實(shí)驗(yàn)中，結(jié)果都有一定的提高。在全體語料上，SB分類并沒有IP_COORD分類F值提高的多，因?yàn)樵谌w語料中，SB分類共有1311個(gè)，而IP_COORD分類只有506個(gè)。

4.1.3 邊界識(shí)別

引言中提到冒號(hào)對(duì)IP_COORD分類和SB分類的逗號(hào)存在明顯影響，由于SB分類屬于逗號(hào)標(biāo)示句子邊界的情況，所以本文將同樣考察冒號(hào)對(duì)識(shí)別逗號(hào)作為句子邊界情況存在的影響。識(shí)別SB分類，即為識(shí)別句子邊界(EOS，End Of a Sentence)。結(jié)合本文的實(shí)驗(yàn)，只需將SB分類歸為EOS，余下的6類歸為非句子邊界(Non-EOS，Not the End Of a Sentence)。表7列出了基于最大熵模型的全體語料在添加冒號(hào)標(biāo)簽特征前后，識(shí)別逗號(hào)標(biāo)示句子邊界的實(shí)驗(yàn)結(jié)果。

由表7可以看出，在添加冒號(hào)標(biāo)簽特征后，逗號(hào)標(biāo)示句子邊界的實(shí)驗(yàn)結(jié)果在總體正確率上提高1.2%，EOS和NEOS分類的F值也分別有所提高。再次說明，冒號(hào)分類標(biāo)簽對(duì)逗號(hào)的分類自動(dòng)識(shí)別存在影響。

表7 逗號(hào)標(biāo)示句子邊界的識(shí)別結(jié)果

4.2 添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)及分析

4.2.1 分號(hào)語料的實(shí)驗(yàn)結(jié)果

添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)與添加冒號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)類似。在提取原有特征的基礎(chǔ)上，將當(dāng)前逗號(hào)前的分號(hào)分類標(biāo)簽作為一組新的特征添加到特征集合中。實(shí)驗(yàn)結(jié)果如表8所示。

表8 分號(hào)語料中逗號(hào)分類自動(dòng)識(shí)別結(jié)果及對(duì)比

表8中分號(hào)語料基準(zhǔn)系統(tǒng)的實(shí)驗(yàn)是基于最大熵模型的，添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)分別采用了最大熵和CRF兩種模型。CRF模型的自動(dòng)識(shí)別正確率比最大熵模型的更高，但這里主要對(duì)比添加分號(hào)分類標(biāo)簽特征前后的最大熵模型的實(shí)驗(yàn)結(jié)果。由表8可知，基于最大熵模型的實(shí)驗(yàn)結(jié)果中，逗號(hào)分類的自動(dòng)識(shí)別整體正確率提高了4.6%。

表8中，各分類逗號(hào)的F值都有不同程度的提高，但并不像添加冒號(hào)分類標(biāo)簽的實(shí)驗(yàn)結(jié)果中SB分類和IP_COORD分類正確率提高的幅度那樣大。正確率提高相對(duì)較高的是ADJ類逗號(hào)和VP_COORD類逗號(hào)。實(shí)驗(yàn)表明添加分號(hào)分類標(biāo)簽特征提高逗號(hào)自動(dòng)識(shí)別正確率的方法是可行的。

4.2.2 全體語料的實(shí)驗(yàn)結(jié)果

在分號(hào)語料的實(shí)驗(yàn)取得成功后，本文同樣將已標(biāo)注的分號(hào)語料反饋到原語料中。同樣的方法，實(shí)驗(yàn)結(jié)果如表9所示。

表9 添加分號(hào)標(biāo)簽后的全體語料實(shí)驗(yàn)結(jié)果及對(duì)比

由表9可知，添加新特征后最大熵模型的總體正確率提高了0.2%，而CRF模型的總體正確率提高了0.5%。在添加冒號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)結(jié)果(表6)中，CRF模型和最大熵模型分別提高了0.7%和0.8%。添加分號(hào)分類標(biāo)簽特征效果沒有添加冒號(hào)分類標(biāo)簽特征明顯與它們?cè)谡Z料中所占的比例有關(guān)，由3.2和3.3節(jié)可知，冒號(hào)語料占全體語料的9%，而分號(hào)語料明顯較小，占全體語料的5.5%。

比較表6和表9可知，CRF模型比最大熵模型效果要好。因?yàn)镃RF模型計(jì)算了全局最優(yōu)的輸出節(jié)點(diǎn)的條件概率，而不是只通過當(dāng)前的狀態(tài)來定義下一個(gè)節(jié)點(diǎn)的狀態(tài)。通過分析冒號(hào)和分號(hào)的作用域可以發(fā)現(xiàn)，冒號(hào)的作用域是從冒號(hào)后的第一個(gè)字符開始到句末標(biāo)點(diǎn)結(jié)束；而分號(hào)的作用域不止包含在分號(hào)后面的句子部分，它的作用域?yàn)楫?dāng)前分號(hào)前后相鄰的兩個(gè)分號(hào)(相鄰不是分號(hào)時(shí)，為句子開始字符和句子結(jié)束字符)之間。故在添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)中，更能體現(xiàn)CRF模型的優(yōu)越性。

4.3 同時(shí)添加冒號(hào)和分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)

同時(shí)添加冒號(hào)和分號(hào)分類標(biāo)簽為特征的實(shí)驗(yàn)，是指同時(shí)添加當(dāng)前逗號(hào)前的冒號(hào)的分類標(biāo)簽和分號(hào)的分類標(biāo)簽作為一組新的特征進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表10所示。

通過對(duì)全體語料的基準(zhǔn)系統(tǒng)和分別添加其中某一個(gè)標(biāo)點(diǎn)的分類結(jié)果對(duì)比，該綜合實(shí)驗(yàn)的總體正確率及各項(xiàng)的分類的F值都有所提高，說明本文提出的添加其他標(biāo)點(diǎn)符號(hào)的分類標(biāo)簽特征輔助逗號(hào)多元分類的自動(dòng)識(shí)別方法是可行的，且取得了相對(duì)較好的成績。CRF模型的總體正確率達(dá)到69.2%，已經(jīng)非常接近Yang等基于句法信息的71.5%的總體正確率。

5 結(jié)論

本文主要研究了分別添加冒號(hào)和分號(hào)分類標(biāo)簽，以及同時(shí)添加兩類標(biāo)點(diǎn)的分類標(biāo)簽特征后，對(duì)逗號(hào)自動(dòng)分類結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明，在分別添加冒號(hào)或分號(hào)分類標(biāo)簽特征后，逗號(hào)多元分類的自動(dòng)識(shí)別正確率都有所提高。在同時(shí)添加這兩類標(biāo)點(diǎn)分類標(biāo)簽特征時(shí)，逗號(hào)識(shí)別的正確率達(dá)到69.2%。本文實(shí)驗(yàn)說明分號(hào)和冒號(hào)分類對(duì)逗號(hào)分類是存在影響的，合理地利用冒號(hào)或分號(hào)分類標(biāo)簽可以提高逗號(hào)分類的正確率。

參考文獻(xiàn)

[1] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局、中國國家標(biāo)準(zhǔn)化管理委員會(huì). GB/T15834-2011標(biāo)點(diǎn)符號(hào)用法[M].北京:中國標(biāo)準(zhǔn)出版社, 2011.

[2] 李幸, 宗成慶. 引入標(biāo)點(diǎn)處理的層次化漢語長句句法分析方法[J]. 中文信息學(xué)報(bào), 2006, 20(4): 8-15.

[3] Mei xunjin,Mi-Yong kim,Dongi kim, et al. Segmentation of Chinese long sentences using commas[C]// Proceedings of 3rd ACL SIGHAN Workshop. Barcelona,2004: 1-8.

[4] Nianwen Xue, Yaqin Yang. Chinese sentence segmentation as comma classification. [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 631-635.

[5] Yaqin Yang, Nianwen Xue. Chinese Comma Disambiguation for Discourse Analysis. [C]//Proceedings of Annual Meeting on Association for Computational Linguistics (ACL), 2012: 786-794

[6] 谷晶晶, 周國棟. 基于分詞與詞性標(biāo)注的漢語逗號(hào)自動(dòng)分類[J]. 計(jì)算機(jī)工程與應(yīng)用，http://www.cnki.net/kcms/doi/10.3778/j.ssn.1002-8331,2014: 1310-0034.

[7] 黃河燕, 陳肇雄. 基于多策略分析的復(fù)雜長句翻譯處理算法[J]. 中文信息學(xué)報(bào), 2002, 16(3): 1-7.

[8] 李艷翠, 馮文賀, 周國棟. 基于逗號(hào)的漢語子句識(shí)別研究[J].北京大學(xué)學(xué)報(bào),2013,49(1): 7-14.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡