仵永栩,呂學(xué)強(qiáng),周 強(qiáng),關(guān)曉炟
(1. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;(2. 清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌),清華大學(xué)信息技術(shù)研究院語音與語言技術(shù)中心, 北京 100084)
漢語概念復(fù)合塊的自動(dòng)分析
仵永栩1,2,呂學(xué)強(qiáng)1,周 強(qiáng)2,關(guān)曉炟1,2
(1. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;(2. 清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌),清華大學(xué)信息技術(shù)研究院語音與語言技術(shù)中心, 北京 100084)
為解決句法分析任務(wù)中的塊邊界識(shí)別和塊內(nèi)結(jié)構(gòu)分析問題,該文基于概念復(fù)合塊描述體系進(jìn)行了塊分析探索。通過概念復(fù)合塊與以往的基本塊和功能塊描述體系的對比分析,深入挖掘了概念復(fù)合塊自動(dòng)分析的主要難點(diǎn)所在,提出了一種基于“移進(jìn)-歸約”模型的漢語概念復(fù)合塊自動(dòng)分析方法。在從清華句法樹庫TCT中自動(dòng)提取的概念復(fù)合塊標(biāo)注庫上,多層次、多角度對概念復(fù)合塊自動(dòng)分析性能進(jìn)行了縱向與橫向評估,初步實(shí)驗(yàn)結(jié)果證明了該分析方法對簡單概念復(fù)合塊分析的有效性,為后續(xù)進(jìn)行更復(fù)雜的概念復(fù)合塊的句法語義分析研究打下了很好的基礎(chǔ)。
句法分析;塊識(shí)別;概念復(fù)合塊;移進(jìn)-歸約分析
塊分析是自然語言處理的一個(gè)重要技術(shù),是處于詞法分析和完全句法分析之間的一個(gè)中間步驟。它采取“分而治之”策略,降低句法分析的難度,能夠?yàn)楹芏嘞嚓P(guān)語言信息處理提供基礎(chǔ)服務(wù)。Abney[1]提出了一個(gè)完整的語塊描述體系。在此基礎(chǔ)上CoNLL國際會(huì)議在2000年提出塊分析共享任務(wù)[2],大大促進(jìn)了塊分析技術(shù)的研究。2009年第一屆漢語句法分析評測學(xué)術(shù)研討會(huì)(CIPS-ParsEval-2009)也包含了塊分析任務(wù)[3]。近年來塊分析技術(shù)逐步受到關(guān)注,在語義角色標(biāo)注[4-5]、機(jī)器翻譯[6]等領(lǐng)域得到廣泛應(yīng)用。
漢語塊研究經(jīng)歷了一個(gè)逐步發(fā)展的過程,起初側(cè)重于對基本名詞[7]、介詞短語[8]等的研究。隨著語料庫的發(fā)展,研究者們提出了各自不同的塊描述體系,文獻(xiàn)[9]將組塊定義為圍繞一個(gè)中心詞展開的一種非遞歸、不重疊、不覆蓋的語法結(jié)構(gòu)。文獻(xiàn)[10]提出了基于拓?fù)浣Y(jié)構(gòu)的基本塊描述體系,通過成分和關(guān)系標(biāo)記描述組塊的外部功能和內(nèi)部組成。文獻(xiàn)[11]定義了不同類型的功能塊描述漢語句子的基本骨架。文獻(xiàn)[12]定義組塊為被標(biāo)記了句法功能的非遞歸、非嵌套、不重疊的詞序列。這些組塊描述體系均注重于把句子解析成較小的單元,只關(guān)注句子中相對較簡單、功能相對重要的成分。
Abney將句法分析問題分為三個(gè)階段:塊識(shí)別、塊內(nèi)結(jié)構(gòu)分析、塊間關(guān)系分析,最終組成完整句法樹?,F(xiàn)階段已有的塊體系多為線性結(jié)構(gòu),對塊內(nèi)結(jié)構(gòu)分析已經(jīng)做了一些工作但關(guān)注度仍然較低。文獻(xiàn)[10]通過關(guān)系標(biāo)記來確定塊的內(nèi)部結(jié)構(gòu)。目前塊處理多數(shù)側(cè)重于鄰近幾個(gè)詞的組合,塊的粒度較小,因此后續(xù)的塊間關(guān)系分析難度依然很大[13]。
本文的研究主要基于漢語概念復(fù)合塊描述體系*漢語概念復(fù)合塊標(biāo)注規(guī)范。清華大學(xué)信息技術(shù)研究院語音和語言技術(shù)中心技術(shù)報(bào)告。。該體系不僅限于處理句子中結(jié)構(gòu)相對簡單的較小單元,也著重對跨度較大的成分進(jìn)行描述,除關(guān)注塊的邊界及其在句子中充當(dāng)?shù)墓δ芡?,也關(guān)注塊內(nèi)部的結(jié)構(gòu)以及內(nèi)部各組成成分之間的關(guān)聯(lián)關(guān)系。針對概念復(fù)合塊特點(diǎn),我們分析了概念復(fù)合塊自動(dòng)處理的難點(diǎn),并提出一套初步的概念復(fù)合塊自動(dòng)分析解決方案。
通過概念復(fù)合塊的處理,一方面,塊的粒度擴(kuò)大以及包含信息的完整性將為完全句法分析提供更好的幫助;另一方面,將句子分解為“謂詞-論元”結(jié)構(gòu)的基本信息單位,為進(jìn)一步進(jìn)行漢語句子“謂詞-論元”關(guān)系分析打下良好的基礎(chǔ)。
簡單地說,概念復(fù)合塊(Concept Compound Chunk, CCC)是由兩個(gè)或兩個(gè)以上的詞語按照一定的關(guān)聯(lián)關(guān)系組合形成的信息描述單位。CCC的自動(dòng)分析,輸入為給定的已經(jīng)過詞語切分和詞性標(biāo)注的句子,目標(biāo)是自動(dòng)分析出其中不同實(shí)義詞和功能詞組合形成的概念復(fù)合塊。CCC的定義與已有的組塊描述體系存在很大的區(qū)別,以基本塊(Base Chunk, BC)[10]及功能塊(Functional Chunk, FC)[11]為例,針對以下的原始句子:中國是多民族國家,中華民族是50多個(gè)民族的總稱。
BC標(biāo)注形式為:
? [np-SG 中國/nS ] [vp-SG 是/v ] [np-LN 多/a 民族/n 國家/n ] ,/wP [np-ZX 中華/nR 民族/n ] [vp-SG 是/v ] [mp-ZX 50/m 多/m 個(gè)/qN ] [np-SG 民族/n ] 的/uJDE [np-SG 總稱/n ] 。/wE
FC標(biāo)注形式為:
? [S中國/nS ] [P 是/vC ] [O 多/a 民族/n 國家/n ] ,/wP [S 中華/nR 民族/n ] [P 是/vC ] [O 50/m 多/m 個(gè)/qN 民族/n 的/uJDE 總稱/n ] 。/wE
而依照CCC描述體系,該句子將被標(biāo)注為:
? 中國/nS 是/v [np-AH [np-AH 多/a 民族/n ] 國家/n ] ,/wP [np-AH 中華/nR 民族/n ] 是/v [np-AH [np-CO [np-AH [mp-AH [mbar-XX 50/m 多/m ] 個(gè)/qN ] 民族/n ] 的/uJDE ] 總稱/n ] 。/wE
每個(gè)CCC由成分和關(guān)系標(biāo)記描述其外部句法功能和內(nèi)部組合關(guān)系,為簡化描述,采用二叉樹結(jié)構(gòu)標(biāo)注。
以往的組塊分析體系往往是線性的,主要關(guān)注塊邊界,典型的如FC體系。BC體系雖然通過關(guān)系標(biāo)記描述塊內(nèi)的基本組合模式,然而BC的處理只針對句子中與實(shí)義詞緊密組合的內(nèi)容,并不能覆蓋整個(gè)句子。CCC標(biāo)注的最外層塊的邊界劃分與FC類似,將句子切分成可以充當(dāng)主、謂、賓語的成分,同時(shí)對塊的內(nèi)部給出了完整的組織結(jié)構(gòu)。上面例句的拓?fù)浣Y(jié)構(gòu)如圖1所示。
CCC按其內(nèi)部組成可主要分成以下幾個(gè)大類:
類別1 多核心CCC:兩個(gè)核心不分主次。典型結(jié)構(gòu)包括并列、重疊、順序、復(fù)指等,如 “[np-AH [np-CO 自然界/n 的/uJDE ] [np-LH 植物/n [np-FH 、/wD [np-LH 動(dòng)物/n [np-FH 、/wD 礦物/n ] ] ] ] ]”。
類別2 由功能詞控制的單核心CCC(CO,OC):其中的功能詞作為控制核心(Operator),直接控制CCC內(nèi)另一成分,主要由介詞、方位詞、結(jié)構(gòu)助詞、時(shí)間詞等充當(dāng),另一成分作為受該核心控制的補(bǔ)足語(Complement),如“[np-CO 漫長/a 的/uJDE ]”、“[pp-OC 在/p 歐洲/nS ]”等。
圖1 CCC標(biāo)注句子示例
類別3 實(shí)義詞與附加體組合而成的單核心CCC(HA,AH):語義核心部分(Head)主要為名、動(dòng)、形容詞等實(shí)義詞,另一成分直接依附于語義核心,成為附加體(Adjunct),如“[np-AH 針灸/n 專著/n ]”、“[vp-HA 產(chǎn)生/v 了/uA ]”等。
類別4 實(shí)義詞與連詞、標(biāo)點(diǎn)等組合而成的單核心CCC(HF,FH):語義核心部分同類別3,但另一成分與核心并不直接發(fā)生依存關(guān)系,直接體現(xiàn)出不同的句法功能,作為內(nèi)部附加功能成分(Functional Constituent),多為連詞、標(biāo)點(diǎn)符號等,如“[np-FH 《/wLB [np-HF 山海經(jīng)/nR 》/wRB ] ]”。
以上四個(gè)類別占總數(shù)的92%以上,此外還包括少量的其他組合類型,如嵌套事件句式中的HC(Head-Complement)組合結(jié)構(gòu)等。
為了準(zhǔn)確把握對CCC進(jìn)行自動(dòng)分析的難點(diǎn),本文從不同角度對CCC,BC和FC進(jìn)行了統(tǒng)計(jì)分析。統(tǒng)計(jì)數(shù)據(jù)來源為依照CCC描述體系從TCT樹庫[14]轉(zhuǎn)化得到的CCC標(biāo)注庫以及按照文獻(xiàn)[10-11]中描述轉(zhuǎn)化得到的BC和FC標(biāo)注庫,選取其中學(xué)術(shù)及新聞?lì)惖奈谋?,基本統(tǒng)計(jì)數(shù)據(jù)為:文件數(shù)185,句子總數(shù)16 200,詞語總數(shù)443 594,平均句子長度為27.38詞。在提取的基礎(chǔ)上,按照比例從每個(gè)類別中抽取一定的文件數(shù),最終抽取樣本為40個(gè)文件,包含句子2 467,總詞數(shù)約5萬詞。對這部分自動(dòng)提取的正確性進(jìn)行了人工校對,最終數(shù)據(jù)表明,程序自動(dòng)提取的CCC標(biāo)注庫準(zhǔn)確率達(dá)99%以上。
表 1為幾種常見成分類型的CCC和BC平均長度的對比(BC中不包含的類型用"-"表示),BC中包含大量由單個(gè)詞語構(gòu)成的塊,而CCC并不關(guān)注單個(gè)詞形成塊的情況,因此統(tǒng)計(jì)中排除BC中的單詞塊。一般來說組塊的長度越大,其本身的正確分析就越困難,組塊的詞長越小,其本身的正確分析則相對越容易[13]。表 1中可以看出,任何一種成分類型,CCC的組塊平均詞長均大于BC,而從整體看,CCC的平均長度大于BC的兩倍,因此相對而言進(jìn)行CCC自動(dòng)分析的難度更大。
表1 不同成分CCC與BC平均詞長對比
FC體系注重描述塊在句子層面擔(dān)當(dāng)?shù)木浞üδ?,主要包括主、謂、賓、狀、定語等類型,表 2列出FC中主要類型的長度統(tǒng)計(jì)信息(排除單個(gè)詞形成的FC)。從平均長度上來看,F(xiàn)C與CCC更為接近。CCC長度大于BC和FC,說明CCC的復(fù)雜性更大;而FC的長度大于BC,說明FC的分析比BC難度更高,這與前人研究中的理論分析[13]及實(shí)踐驗(yàn)證[11,15]均一致,體現(xiàn)了上述推斷的合理性。
表2 不同類型的FC平均長度
以上為CCC與以往組塊體系分析難度的橫向?qū)Ρ?。從CCC體系本身來看,幾個(gè)主要類別的平均長度見表 3,主要類別分布于不同區(qū)間的比例見表 4,不同長度的分布見圖 2。CCC的長度跨度非常大,當(dāng)長度大于30時(shí),CCC數(shù)量相對稀少,為方便觀察分布規(guī)律,圖中僅展示長度不大于30的塊分布。從以上統(tǒng)計(jì)可看出類別3為CCC中的優(yōu)勢類別,而類別1的平均長度最大,隨著長度增加,各個(gè)類別的數(shù)量逐漸下降。類別2、3、4均在長度2達(dá)到峰值,類別1的兩個(gè)峰值分別為3和5,并且下降趨勢更為平緩,類別1在長度較大的區(qū)間具有較大的比例(見表4),這是由于類別1中包含大量復(fù)雜多核心成分。從平均長度來看類別1>類別4>類別2>類別3,說明了不同類別CCC內(nèi)部組成具有不同的復(fù)雜性,對其進(jìn)行自動(dòng)分析的預(yù)期難度序列可能為:類別1>類別4>類別2>類別3。
表3 CCC主要類別的平均長度
表4 CCC主要類別長度分布對比
圖2 CCC主要類別長度分布
名詞性和動(dòng)詞性塊在CCC占近80%的比重,是CCC處理的重點(diǎn),尤其是名詞性塊,在CCC中比重及平均長度均為最大,是CCC自動(dòng)分析的重點(diǎn)和難點(diǎn)問題。對CCC中不同類型的np, vp塊統(tǒng)計(jì)長度分布情況如圖 3和圖 4所示??梢钥闯?,各個(gè)類別的分布規(guī)律與在CCC中整體分布大致相同,但在不同的成分類型中分布情況存在著一定的差異。相比np,vp中類別1的比重更多,這些vp中的多核心結(jié)構(gòu)也是自動(dòng)分析的難點(diǎn)。np中類別3隨著長度的增加下降趨勢比vp平緩,主要是由于在np中存在一些嵌套的事件句式(Event Construction, EC),以及一部分跨度較大的并列結(jié)構(gòu)等。CCC中比重最大的兩個(gè)成分中均有相當(dāng)比例的塊長度在6以上,進(jìn)一步體現(xiàn)了對CCC進(jìn)行自動(dòng)分析的難度。
圖3 np主要類別的長度分布
圖4 vp主要類別的長度分布
CCC的體詞性塊中有些包含嵌套的事件句式,其中主要為定語部分由動(dòng)詞性成分或小句充當(dāng)?shù)膹?fù)雜定語從句結(jié)構(gòu),它們是CCC自動(dòng)分析的主要難點(diǎn)之一??紤]到其內(nèi)部組成規(guī)則上與其他CCC類型塊存在著較大的區(qū)別,且為CCC中的弱勢組合,因此本文暫不處理這部分包含EC的CCC。即便如此,CCC自身的復(fù)雜度仍然很高,自動(dòng)分析復(fù)雜度遠(yuǎn)大于之前的組塊體系。
CCC的分析工作包括CCC邊界界定和CCC的成分和關(guān)系標(biāo)記類型識(shí)別。與以往的組塊分析不同,CCC分析需給出塊內(nèi)部的完整結(jié)構(gòu),常見的序列標(biāo)注模型不能滿足CCC分析的需求。與完全句法分析相比,CCC的分析更關(guān)注局部語境,確定性更強(qiáng),因而本文采用“移進(jìn)-歸約(Shift-Reduce, SR)”模型實(shí)現(xiàn)CCC分析器(SR CCC Parser),該模型不但更適應(yīng)CCC的局部語境組合分析特點(diǎn),且更易于訓(xùn)練,與全局尋優(yōu)的算法相比,該方法分析速度快,更能適應(yīng)實(shí)際應(yīng)用的需求。
4.1 移進(jìn)-歸約塊分析方法
SR CCC Parser分析的輸入為已經(jīng)分詞并帶有詞性標(biāo)注的句子,分析過程主要的數(shù)據(jù)結(jié)構(gòu)為一個(gè)棧(S)和一個(gè)隊(duì)列(Q),輸入的<詞,詞性>對按順序存儲(chǔ)于隊(duì)列中,棧中存放分析過程中每一步產(chǎn)生的部分句法樹,對于每一個(gè)分析步驟,其狀態(tài)由當(dāng)前棧和隊(duì)列中的內(nèi)容表示。
本文采用SVM分類器[16]對當(dāng)前的狀態(tài)做出動(dòng)作決策。動(dòng)作模式主要分為兩大類。第一類為“移進(jìn)(shift)”動(dòng)作,代表從隊(duì)列中取出第一個(gè)元素并將其壓入棧頂;第二類為“歸約(reduce)”動(dòng)作,代表連續(xù)出棧兩次,將棧頂?shù)膬蓚€(gè)元素合并為一個(gè)新節(jié)點(diǎn),兩個(gè)元素分別作為新節(jié)點(diǎn)的左右孩子,按照歸約產(chǎn)生新節(jié)點(diǎn)的標(biāo)記類型,對歸約進(jìn)行分類,例如“reduce: np-AH”,表示兩個(gè)節(jié)點(diǎn)歸約為一個(gè)右孩子為語義核心的np塊。
針對完整句法樹的SR分析將持續(xù)到棧中元素歸約為一個(gè)節(jié)點(diǎn)且隊(duì)列為空,此時(shí)一個(gè)句子分析成功。在塊分析中,一個(gè)句子的理想分析結(jié)果為若干詞、CCC的序列,體現(xiàn)在數(shù)據(jù)結(jié)構(gòu)上是一個(gè)森林,因此與完全句法分析不同,CCC分析的停止條件為:隊(duì)列為空,且分類器不再做出任何歸約動(dòng)作。
分析處理流程如圖5所示。
圖5 算法流程圖
4.2 特征選擇
在CCC分析過程中,分類的準(zhǔn)確度是影響分析器性能的至關(guān)重要的因素。對于CCC分析,將要進(jìn)行的每一個(gè)動(dòng)作為一個(gè)事件,由棧和隊(duì)列中的節(jié)點(diǎn)信息來確定一個(gè)事件的特征集合。根據(jù)影響當(dāng)前動(dòng)作決策的各種因素,可供選擇的特征如下:(1) 當(dāng)前詞、詞性;(2) CCC雙標(biāo)記;(3) CCC核心詞及詞性;(4) 動(dòng)作: 分類器的上一個(gè)動(dòng)作決策;(5) CCC成分。
已有句法分析方法在搜索短語的核心詞時(shí),通常采取規(guī)則方法,而SR CCC Parser根據(jù)CCC關(guān)系標(biāo)記精確搜索任意塊的核心詞節(jié)點(diǎn),采取自頂向下的遞歸搜索算法,直到遇到葉子節(jié)點(diǎn)返回,即可得到CCC的核心詞節(jié)點(diǎn),表 5列出本文對于不同類型CCC的核心詞搜索規(guī)則。
設(shè)Si為S中第i個(gè)節(jié)點(diǎn),Qi為Q中第i個(gè)節(jié)點(diǎn),最終使用的特征模板如表 6所示。
表5 CCC核心詞搜索規(guī)則
表6 CCC分析特征模板
續(xù)表
5.1 實(shí)驗(yàn)設(shè)置
為全面評測目前CCC自動(dòng)分析的效果,對本文SR CCC Parser分析結(jié)果進(jìn)行了縱向及橫向?qū)Ρ?,所用語料選取自TCT中的學(xué)術(shù)及新聞?lì)惖奈谋荆灿?jì)185個(gè)文件,包含完整漢語句子16 200句,約44萬詞,不同實(shí)驗(yàn)所用的數(shù)據(jù)分別為由這部分語料產(chǎn)生的不同層次標(biāo)注庫。
(1) CCC Data Set: 根據(jù)CCC描述體系自動(dòng)轉(zhuǎn)換得到的CCC標(biāo)注庫,包含CCC共255 828個(gè)*根據(jù)第三節(jié)的描述,本文所有實(shí)驗(yàn)數(shù)據(jù)集排除了包含嵌套事件句式的名詞性概念復(fù)合塊。,作為SR CCC Parser縱向分析及與Berkeley Parser橫向比較的訓(xùn)練及測試語料。
(2) TCT Data Set: TCT原始標(biāo)注文件,作為驗(yàn)證Berkeley Parser在CCC體系下性能可靠性的訓(xùn)練及測試語料。
(3) BC Data Set: 按照BC定義自動(dòng)提取形成的BC標(biāo)注庫,由于處理的出發(fā)點(diǎn)不同,排除了BC體系中的單詞語塊,提取BC中與CCC交集的部分,包含BC共82 164個(gè),作為CCC Parser與BC Parser橫向比較的訓(xùn)練及測試語料。
(4) FC Data Set: 按照FC定義自動(dòng)提取形成的FC標(biāo)注庫,排除單個(gè)詞語形成的FC和包含事件句式的復(fù)雜功能塊,提取FC中與CCC交集的部分,包含F(xiàn)C共72 465個(gè),作為CCC Parser與FC Parser橫向比較的訓(xùn)練及測試語料。
實(shí)驗(yàn)采用PARSEVAL[17]評價(jià)體系中的準(zhǔn)確率(Precision, P)、召回率(Recall, R)作為評價(jià)指標(biāo),另外計(jì)算F1值(F1-measure, F)作為綜合評價(jià)。令分析結(jié)果中正確的塊個(gè)數(shù)為A,測試集中標(biāo)準(zhǔn)的塊數(shù)量為B,分析結(jié)果中的塊數(shù)量為C,則P=A/C, R=A/B, F=2PR/(P+R)。
5.2 SR CCC Parser縱向性能分析
以CCC Data Set為實(shí)驗(yàn)數(shù)據(jù)集,將語料隨機(jī)分為三等份,記為PA、PB、PC。采用交叉實(shí)驗(yàn)方法分為三組進(jìn)行驗(yàn)證,首先,第一組實(shí)驗(yàn)使用PA與PB為訓(xùn)練集,測試集從PC中隨機(jī)選取10%;其次,第二組實(shí)驗(yàn)使用PA與PC為訓(xùn)練集,測試集從PB中隨機(jī)選取10%;最后,第三組實(shí)驗(yàn)使用PB與PC為訓(xùn)練集,測試集從PA中隨機(jī)選取10%。三組實(shí)驗(yàn)的訓(xùn)練集規(guī)模均為10 800句,測試集均為540句。其對應(yīng)的測試集包含的CCC個(gè)數(shù)分別為8 034、7 890、7 734個(gè)。第一組實(shí)驗(yàn)所得SR CCC Parser性能見表7。
表7 不同類別CCC的分析效果
第二組實(shí)驗(yàn)所得SR CCC Parser性能見表8。
表8 不同類別CCC的分析效果
第三組實(shí)驗(yàn)所得SR CCC Parser性能見表9。
表9 不同類別CCC的分析效果
最終三組實(shí)驗(yàn)所得的P、R、F平均值為0.832 3、0.782 1、0.806 4。整體的F值為0.806 4,類別1的分析效果較差,相比其他類別有較大的差距,體現(xiàn)了多核心CCC的復(fù)雜性,為下一階段的研究需要重點(diǎn)關(guān)注的問題之一?,F(xiàn)階段SR CCC Parser對類別2、3的處理效果較好,說明這兩類CCC中組合規(guī)則的一致性較好,作為語義核心及控制核心的詞區(qū)分度高,因此這兩類CCC具有更強(qiáng)的規(guī)律性。不同類別CCC的性能表現(xiàn)與第三節(jié)的定性分析結(jié)論基本一致。不同長度的CCC分析性能見圖6。
圖6 不同長度的CCC性能
從圖中可見,長度為2的塊,F(xiàn)值達(dá)到了90%,隨著塊長度的增加,塊數(shù)量減少,性能曲線出現(xiàn)上下波動(dòng),通過趨勢線可以看出分析性能呈明顯下降趨勢,在長度大于30的區(qū)間,塊數(shù)量較為稀疏,性能曲線不連續(xù),故圖中不展示30以上長度的性能數(shù)據(jù)。不同長度的CCC的分析效果,與預(yù)期的結(jié)果相一致,實(shí)驗(yàn)結(jié)果中,長度6詞以上的CCC自動(dòng)分析性能較低(低于75%),如何提升這部分CCC的分析性能,是后續(xù)研究所要關(guān)注的主要方向。
5.3 SR CCC Parser橫向性能比較
(1) SR CCC Parser與BC,F(xiàn)C parser對比實(shí)驗(yàn)
在BC層面,比較對象為CIPS-ParsEval-2009的基本塊分析任務(wù)中,開放測試效果最好的基本塊自動(dòng)分析器(Base Chunk Parser, BC Parser)[15],它首先使用最大熵馬爾可夫模型(MEMM)識(shí)別基本塊邊界和成分標(biāo)記,然后進(jìn)一步使用最大熵模型(MEM)識(shí)別基本塊關(guān)系標(biāo)記;在FC層面,比較對象為CIPS-ParsEval-2009的功能塊分析任務(wù)性能最好的功能塊自動(dòng)分析器(Functional Chunk Parser, FC Parser)[18],該方法采用基于CRF的序列標(biāo)注模型識(shí)別FC塊。
實(shí)驗(yàn)所用語料與SR CCC Parser對應(yīng),從BC Data Set及FC Data Set中選取每類前五個(gè)文件作為測試集,其余為訓(xùn)練集,測試集包含句子數(shù)1 464,BC實(shí)驗(yàn)測試文件包含BC個(gè)數(shù)6 730,F(xiàn)C實(shí)驗(yàn)測試文件包含F(xiàn)C個(gè)數(shù)6 571。在此層面上對SR CCC Parser與BC, FC Parser分析結(jié)果進(jìn)行比較,如表 10,表11所示。
表10 SR CCC Parser與BC Parser性能比較
表11 SR CCC Parser與FC Parser性能比較
在BC層面,SR CCC Parser性能對比BC Parser有著較明顯的優(yōu)勢,說明該分析方法對于范圍較小、聚合緊密的塊體系分析比序列標(biāo)注模型更加有效。對于FC的分析,SR CCC Parser性能優(yōu)勢并不明顯,由于FC塊只關(guān)注整體的邊界劃分,而CCC內(nèi)部具有完整層次結(jié)構(gòu),任一內(nèi)部成分的分析錯(cuò)誤都有可能導(dǎo)致最上層邊界的劃分錯(cuò)誤,因而分析難度更大。以上實(shí)驗(yàn)結(jié)果證明,在BC及FC層面,SR CCC Parser方法都是有效的。
(2) SR CCC Parser與Chart-based Chunk Parser對比實(shí)驗(yàn)
Berkeley Parser[19-20]是一個(gè)基于線圖(Chart)的概率上下文無關(guān)文法句法分析器,可進(jìn)行短語結(jié)構(gòu)語法體系下的句法分析,其句法分析性能較好,運(yùn)行速度快,可支持中文,在ACL*Association for Computational Linguistics: http://www.aclweb.org/,NAACL*The North American Chapter of the Association for Computational Linguistics: http://naacl.org/等主流國際會(huì)議論文中廣泛被使用,經(jīng)過多次的版本更新,最新版本為2012年10月更新的1.7版本。CCC標(biāo)注形式可視為部分句法樹,因此可以通過Berkeley Parser進(jìn)行訓(xùn)練和分析(Berkeley CCC Parser)。Berkeley CCC Parser實(shí)驗(yàn)語料同SR CCC Parser實(shí)驗(yàn),所得實(shí)驗(yàn)結(jié)果如表 12,圖7所示。
表12 不同類別上SR CCC Parser與Berkeley CCC Parser性能比較
圖7 不同長度的SR CCC Parser與Berkeley CCC Parser性能比較
從實(shí)驗(yàn)結(jié)果可得,對于類別1和4,Berkeley CCC Parser性能強(qiáng)于SR CCC Parser,說明了Berkeley CCC Parser對較長、較復(fù)雜的塊分析效果好于SR CCC Parser,但對于CCC中的優(yōu)勢類別2和3,SR CCC Parser的性能更好,由于SR CCC Parser更關(guān)注CCC中占比重較大的np、vp塊,這兩種塊的長度集中在區(qū)間1到7的范圍內(nèi),且在長度為2時(shí)達(dá)到峰。在長度>5時(shí),Berkeley CCC Parser性能強(qiáng)于SR CCC Parser,然而總體效果上SR CCC Parser優(yōu)于Berkeley CCC Parser。下一步需要進(jìn)一步改善移進(jìn)-歸約方法,使得對長度較大的CCC分析更加準(zhǔn)確。
在CCC Data Set上訓(xùn)練得到的Berkeley Parser的性能低于文獻(xiàn)[20]中報(bào)告的數(shù)值,推測是由于Berkeley Parser處理的關(guān)鍵之一是在學(xué)習(xí)語法過程中對非終結(jié)節(jié)點(diǎn)的語法功能進(jìn)行進(jìn)一步的分類,例如將作為主語的np成分與作為賓語的np成分加以區(qū)別,而在CCC體系中,句子被分解為謂詞-論元的基本信息單元,丟失了進(jìn)行重分類學(xué)習(xí)的基礎(chǔ)標(biāo)注數(shù)據(jù),從而使相關(guān)分析器沒能達(dá)到理想的效果,為驗(yàn)證這一推斷,采用TCT Data Set進(jìn)行了Berkeley Parser訓(xùn)練和測試,并對測試結(jié)果中屬于CCC層面的相應(yīng)成分進(jìn)行性能評價(jià),訓(xùn)練集測試集比例與上述實(shí)驗(yàn)相同,所得結(jié)果見表 13??梢娪猛暾鸗CT訓(xùn)練得到的Berkeley Parser,在CCC層次上的性能表現(xiàn)要好于現(xiàn)階段的SR CCC Parser及Berkeley CCC Parser,驗(yàn)證了上述推斷的合理性。
表13 SR CCC Parser, Berkeley CCC Parser及Berkeley TCT Parser在CCC層面對比
前人在漢語組塊分析方面,已經(jīng)有了很多類似的工作,研究者們根據(jù)自己的資源及研究目的,分別提出了很多種組塊描述體系。針對不同的組塊定義,研究者們提出了相應(yīng)的分析方法。
對組塊定義的研究,比較有代表性的有清華大學(xué)[4,10-11]、北京大學(xué)[13]、微軟亞洲研究院[21]及東北大學(xué)[22]等,以上組塊定義有的無縫覆蓋整個(gè)句子,如文獻(xiàn)[11]將句子劃分為基本的主謂賓等功能骨架結(jié)構(gòu),文獻(xiàn)[13]將連詞、虛詞等歸入特殊的組塊類型;有的處理特定的短語類型,如文獻(xiàn)[4]中將漢語名詞短語分成三類,并對最長名詞短語的識(shí)別進(jìn)行了深入的研究。它們的共同點(diǎn)在于均為線性結(jié)構(gòu),側(cè)重于對塊邊界的界定及句法成分的標(biāo)注問題。文獻(xiàn)[10]通過三種基本拓?fù)浣Y(jié)構(gòu)描述塊內(nèi)部的組合規(guī)則,但其組塊描述體系只針對句子中直接相鄰的、由實(shí)義詞與鄰接詞直接聚合而成的小粒度塊,具有一定的局限性。
組塊分析方法方面,組塊邊界的劃分常采用BIO及類似標(biāo)記方式,將組塊分析問題視為序列標(biāo)注問題,用機(jī)器學(xué)習(xí)的方法如條件隨機(jī)場[12,17-18],隱馬爾科夫支持向量機(jī)[25],最大熵馬爾科夫[15]等,組塊類型的確定常采用最大熵[15],支持向量機(jī)[26]等分類器。
本文工作與以上的研究相比,具有如下特點(diǎn):
(1) 通過對句子進(jìn)行CCC標(biāo)注,將句子中可作為“謂詞-論元”基本信息單元的成分捆綁在一起,將句法分析中“詞語→小句”的任務(wù)合理分解為“詞語→概念復(fù)合塊→小句”,降低了后續(xù)謂詞論元關(guān)系分析的處理難度。
(2) 區(qū)別于常規(guī)組塊“不嵌套”的原則,CCC描述體系不但注重塊邊界與句法成分,同樣注重塊內(nèi)部的層次結(jié)構(gòu)以及內(nèi)部詞、塊之間的關(guān)系,通過成分、關(guān)系標(biāo)記與樹形結(jié)構(gòu)標(biāo)注,完整地描述塊的各種信息。
(3) 提出“移進(jìn)-歸約”式的CCC自動(dòng)分析方法,不但對具有層次結(jié)構(gòu)的概念復(fù)合塊具有較好的分析效果,在內(nèi)部結(jié)構(gòu)為線性序列的塊層面上與前人方法相比也有更優(yōu)的性能。
塊分析是介于詞法分析和句法分析之間的一個(gè)自然語言處理技術(shù)。確定適當(dāng)?shù)牧6?,能夠?qū)渥又幸恍┗窘Y(jié)構(gòu)進(jìn)行分析,為完全句法分析提供幫助。概念復(fù)合塊不但關(guān)注塊的邊界和外部句法功能,同樣注重內(nèi)部詞、塊間的關(guān)聯(lián)關(guān)系。其目標(biāo)為將句子處理為基本的謂詞-論元信息單元的序列。
本文針對概念復(fù)合塊特點(diǎn),提出了一套概念復(fù)合塊的自動(dòng)分析方法,不但能準(zhǔn)確識(shí)別塊的邊界及句法成分類型,更能對塊內(nèi)部子樹結(jié)構(gòu)以及內(nèi)部組成關(guān)系進(jìn)行完善的分析,對概念復(fù)合塊的分析性能優(yōu)于已有的句法分析方法,并且在以往研究的單層次塊分析上性能優(yōu)于傳統(tǒng)塊分析方法。
本文充分分析了概念復(fù)合塊自動(dòng)分析的難點(diǎn)所在,并提出了初步的解決方案,對分析性能從多個(gè)層次和角度進(jìn)行了詳細(xì)的分析。在后續(xù)的工作中,可以對復(fù)雜名詞性成分中包含變形事件句式的結(jié)構(gòu)及進(jìn)行深度的剖析,對包含多個(gè)核心動(dòng)詞的動(dòng)詞性塊以及長度大于6的各種塊結(jié)構(gòu)進(jìn)一步研究合適的處理方法,并不斷完善理論體系。從語法知識(shí)表示和分析方法兩方面作為切入點(diǎn),不斷提高自動(dòng)分析的性能,為后續(xù)深層次的研究工作提供更有利的幫助。
致謝
本文主要工作是論文第一作者在清華大學(xué)信息技術(shù)研究院語音與語言技術(shù)中心訪問時(shí)完成的,期間使用了清華句法樹庫(TCT)及其從中自動(dòng)提取出的概念復(fù)合塊、基本塊和功能塊標(biāo)注庫,在此一并表示感謝。
[1] Abney S P. Parsing by chunks[M]. Springer Netherlands, 1992.
[2] Tjong Kim Sang E F, Buchholz S. Introduction to the CoNLL-2000 shared task: Chunking[C]//Proceedings of the 2nd Workshop on Learning language in Logic and the 4th Conference on Computational Natural Language Learning-Volume 7. Association for Computational Linguistics, 2000: 127-132.
[3] 周強(qiáng), 李玉梅. CIPS-ParsEval-2009評測報(bào)告[C]//第一屆漢語句法分析評測學(xué)術(shù)研討會(huì)論文集(CIPS-ParsEval-2009),北京,2009
[4] 王鑫, 孫薇薇, 穗志方. 基于淺層句法分析的中文語義角色標(biāo)注研究[J]. 中文信息學(xué)報(bào), 2011, 25(1): 116-122.
[5] 丁偉偉, 常寶寶. 基于語義組塊分析的漢語語義角色標(biāo)注[J]. 中文信息學(xué)報(bào), 2009, 23(5): 53-61.
[6] 李沐, 呂學(xué)強(qiáng), 姚天順. 一種基于 E-Chunk 的機(jī)器翻譯模型[J]. Journal of Software, 2002, 13(4): 669-676.
[7] 周強(qiáng), 孫茂松, 黃昌寧. 漢語最長名詞短語的自動(dòng)識(shí)別[J]. 軟件學(xué)報(bào), 2000, 11(2): 195-201.
[8] 王立霞, 孫宏林. 現(xiàn)代漢語介詞短語邊界識(shí)別研究[J]. 中文信息學(xué)報(bào), 2005, 19(3): 80-86.
[9] 李素建, 劉群, 白碩. 統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語組塊分析[J]. 計(jì)算機(jī)研究與發(fā)展, 2002, 39(4): 385-391.
[10] 周強(qiáng). 漢語基本塊描述體系[J]. 中文信息學(xué)報(bào), 2007, 21(3): 21-27.
[11] 周強(qiáng), 趙穎澤. 漢語功能塊自動(dòng)分析[J]. 中文信息學(xué)報(bào), 2007, 21(5): 18-24.
[12] 孫廣路.基于條件隨機(jī)域和語義類的中文組塊分析方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2011,43(7): 135-139.
[13] 李素建, 劉群, 孫茂松. 漢語組塊的定義和獲取[C]//語言計(jì)算與基于內(nèi)容的文本處理——全國計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議 (SWCL2003) 論文集. 北京: 清華大學(xué)出版社. 2003: 110-115.
[14] 周強(qiáng).漢語句法樹庫標(biāo)注體系[J].中文信息學(xué)報(bào),2004,18(4):1-8.
[15] 李超等.基于最大熵模型的漢語基本塊分析技術(shù)研究[C]//第一屆漢語句法分析評測學(xué)術(shù)研討會(huì)論文集(CIPS-ParsEval-2009),北京,2009.
[16] Chang C C, Lin C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.
[17] Abney S, Flickenger S, Gdaniec C, et al. Procedure for quantitatively comparing the syntactic coverage of English grammars[C]//Proceedings of the Workshop on Speech and Natural Language. Association for Computational Linguistics, 1991: 306-311.
[18] 王昕, 王金勇, 劉春陽等. 基于CRF的漢語語塊分析和事件描述小句識(shí)別[C]//第一屆漢語句法分析評測學(xué)術(shù)研討會(huì)論文集(CIPS-ParsEval-2009),北京,2009.
[19] Petrov S, Barrett L, Thibaux R, et al. Learning accurate, compact, and interpretable tree annotation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006: 433-440.
[20] Petrov S, Klein D. Improved Inference for Unlexicalized Parsing[C]//Proceedings of HLT-NAACL. 2007: 404-411.
[21] Li H, Huang C N, Gao J, et al. Chinese chunking with another type of spec[C]//Proceedings of The Third SIGHAN Workshop on Chinese Language Processing. 2004: 24-26.
[22] 李珩, 譚詠梅, 朱靖波, 等. 漢語組塊識(shí)別[J]. 東北大學(xué)學(xué)報(bào) (自然科學(xué)版), 2004, 25(2): 114-117.
[23] 周俊生,戴新宇,陳家駿等 基于大間隔方法的漢語組塊分析[J]. 軟件學(xué)報(bào),2009,20(4) : 870-877.
[24] 周俏麗, 劉新, 郎文靜, 等. 基于分治策略的組塊分析[J]. 中文信息學(xué)報(bào), 2012, 26(5): 120-128.
[25] 王仲華, 盧嬌麗, 付繼宗. 基于 HMSVM 模型的中文淺層句法分析[J]. 電腦開發(fā)與應(yīng)用, 2013, 26(2): 30-32.
[26] 孔令鵬, 張琛, 張權(quán). 基于 SVM 的快速中文組塊分析方法[J]. 現(xiàn)代電子技術(shù), 2012, 35(21): 93-96.
Automatic Parsing of Chinese Concept Compound Chunk
WU Yongxu1,2, LV Xueqiang1, ZHOU Qiang2,GUAN Xiaoda1,2
(1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University, Beijing 100101, China;(2. Tsinghua National Laboratory for Information Science and Technology(TNList), Center for Speech and Language Technologies, Research Institute of Information Technology, Tsinghua University, Beijing 100084, China)
In order to solve the problems of chunk boundary identification and intra-chunk structure analysis, this paper explores a new chunk parsing task based on the Chinese concept compound chunk (CCC) scheme. After making detailed comparisons with previous base chunk and functional chunk schemes, the main parsing difficulties for CCC chunking are revealed. Therefore, the paper proposes a CCC parsing method based on the “shift-reduce” model. The experiments on the CCC bank automatically extracted from Tsinghua Chinese Treebank (TCT) show the feasibility of the method for parsing some simple CCCs, which facilitates further syntactic and semantic parsing on complex CCCs.
syntactic parsing; chunk recognition; concept compound chunk; shift-reduce parsing
仵永栩(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E?mail:372281543@qq.com呂學(xué)強(qiáng)(1970—),博士,教授,主要研究領(lǐng)域?yàn)橹形呐c多媒體信息處理。E?mail:lvxueqiang@aliyun.com周強(qiáng)(1967—),博士,研究員,主要研究領(lǐng)域?yàn)樽匀徽Z言理解。E?mail:zq?lxd@mail.tsinghua.edu.cn
1003-0077(2016)02-0001-11
2013-11-18 定稿日期: 2015-03-10
國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃資助項(xiàng)目(2013CB329304);國家自然科學(xué)基金(61373075,61271304);北京市教委科技發(fā)展計(jì)劃重點(diǎn)項(xiàng)目暨北京市自然科學(xué)基金B(yǎng)類重點(diǎn)項(xiàng)目(KZ201311232037); 北京市優(yōu)秀人才培養(yǎng)資助青年骨干項(xiàng)目(2014000020124G099)
TP391
A