周 強(qiáng),李玉梅
(清華大學(xué) 信息技術(shù)研究院 語音和語言技術(shù)中心,清華大學(xué) 信息科學(xué)與技術(shù)國家實驗室,北京100084)
有效的真實文本評測任務(wù)設(shè)計是提升自然語言處理技術(shù)的一個重要途徑。英語方面的一個典型例子CoNLL設(shè)計的一系列共享分析任務(wù),包括基本名詞短語識別[1]、文本塊分析[2]、子句識別[3]、命名實體識別[4-5]、語義角色標(biāo)注[6-7]、依存分析、句法依存和語義角色一體化處理等,從簡單到復(fù)雜,通過設(shè)計合適的分析任務(wù),構(gòu)建共享評測數(shù)據(jù)(Benchmark),吸引了國內(nèi)外大量感興趣的研究人員探索了各種機(jī)器學(xué)習(xí)模型在不同的分析任務(wù)中的應(yīng)用方法,開發(fā)出一組可共享的英語文本句法語義分析工具。
在漢語方面,從2003年起,SigHan分別組織了三屆漢語詞語切分評測Bake-off,大大推動了相關(guān)研究技術(shù)的發(fā)展。2007~2008年,又與中國中文信息學(xué)會聯(lián)合舉辦了第4屆Bake-off評測[8],進(jìn)一步增加了漢語詞性標(biāo)注和命名實體識別評測任務(wù)。但與英文相比,在句法語義分析層面上的評測任務(wù)則比較少。
受中國中文信息學(xué)會委托,從2008年10月起,清華大學(xué)和東北大學(xué)開始籌辦中國中文信息學(xué)會句法評測CIPS-ParsEval-2009[9]。其主要目標(biāo)是針對漢語描述特點,設(shè)計合適的評測任務(wù),開發(fā)有效的評測數(shù)據(jù)集合。并以此為契機(jī),推動國內(nèi)漢語文本句法分析的研究水平。通過深入研究,我們提出了5項評測任務(wù)[9],包括:漢語詞性標(biāo)注(任務(wù)1)、基本塊分析(任務(wù)2)、功能塊分析(任務(wù)3)、事件描述小句識別(任務(wù)4)和句法樹分析(任務(wù)5)。其中3項(任務(wù)2~4)涉及漢語文本的塊分析問題。本文將對有關(guān)內(nèi)容進(jìn)行具體介紹和說明。
本次評測設(shè)計了以下3項塊分析子任務(wù):1)基本塊分析; 2)功能塊分析; 3)事件描述小句識別。其處理要點是對經(jīng)過正確詞語切分和詞性標(biāo)注處理的漢語句子自動分析形成不同層次的塊標(biāo)注序列。對每個子任務(wù),都可以使用以下兩種開發(fā)模式:1)封閉學(xué)習(xí),即只使用訓(xùn)練數(shù)據(jù)習(xí)得相關(guān)分析模型; 2)開放學(xué)習(xí):可以使用其他任何資源習(xí)得合適的分析模型。下面通過一個具體實例簡要介紹這3個分析任務(wù),有關(guān)詳細(xì)標(biāo)注格式和標(biāo)記含義可參閱文獻(xiàn)[9]。
原始輸入:要/vM 使/vJY 這/rN 項/qN 工作/n 抓出/v 成果/n,/wP 首先/d 需要/v 這些/rN 部門/n 的/uJDE 主要/b 領(lǐng)導(dǎo)/n 以身作則/v 、 /wD 身先士卒/v 。/wE*相關(guān)詞類標(biāo)記簡要說明:vM-助動詞;vJY-兼語動詞;rN-名代詞;qN-名量詞;n-名詞;v-動詞;wP-分隔點號;d-副詞;uJDE-結(jié)構(gòu)助詞:的、之;b-區(qū)別詞;wD-頓號;wE-結(jié)句點號。
基本塊分析輸出:[vp-SG 要/vM ] [vp-SG 使/vJY ] [mp-ZX 這/rN 項/qN ] [np-SG 工作/n ] [vp-PO 抓出/v 成果/n ],/wP [dp-SG 首先/d ] [vp-SG 需要/v ] [np-ZX 這些/rN 部門/n ] 的/uJDE [np-ZX 主要/b 領(lǐng)導(dǎo)/n ] [vp-SG 以身作則/v ] 、 /、 [vp-SG 身先士卒/v ] 。/。*相關(guān)基本塊標(biāo)記簡要說明:vp-動詞塊;mp-數(shù)量塊;np-名詞塊;dp-副詞塊;SG-單詞語塊;ZX-右角依存結(jié)構(gòu);PO-述賓關(guān)系結(jié)構(gòu)。
功能塊分析輸出:[D 要/vM ] [P 使/vJY ] [J 這/rN 項/qN 工作/n ] [P 抓出/v 成果/n ],/wP [D 首先/d ] [P 需要/v ] [S 這些/rN 部門/n 的/uJDE 主要/b 領(lǐng)導(dǎo)/n ] [P 以身作則/v ] 、 /wD [P 身先士卒/v ] 。/wE
事件描述小句輸出:[E2 要/vM 使/vJY 這/rN 項/qN 工作/n 抓出/v 成果/n ],/wP [E2 首先/d 需要/v 這些/rN 部門/n 的/uJDE 主要/b 領(lǐng)導(dǎo)/n 以身作則/v 、 /wD 身先士卒/v ] 。/wE
我們的塊分析體系設(shè)計的基本理念是:塊是句法語義信息的結(jié)合體,塊內(nèi)部的詞語關(guān)聯(lián)性是句法語義聯(lián)系的橋梁。一個理想的塊設(shè)計應(yīng)該既能找到明確的句法判據(jù),又可以形成合理的語義解釋,達(dá)到形式和意義的完美結(jié)合。目前,基本塊主要采用了內(nèi)聚性判據(jù),通過分析其內(nèi)部詞語組成的不同拓?fù)浣Y(jié)構(gòu)特點來判斷是否成塊;功能塊和事件描述小句主要采用了外延性判據(jù),通過分析它們在更大的事件句式和復(fù)雜句子中所處的功能位置及其與其他相鄰成分的句法語義關(guān)系來判斷是否成塊。下面幾節(jié)將對有關(guān)內(nèi)容進(jìn)行簡要說明。
1) 基本塊(Base Chunk, BC)
我們把基本塊定義為單個或多個實詞按照一定的關(guān)聯(lián)關(guān)系組合形成的基本信息單元[11]。通過對基本塊內(nèi)部各種詞匯關(guān)聯(lián)關(guān)系的深入分析,我們提煉出了三種典型的拓?fù)浣Y(jié)構(gòu):左角中心結(jié)構(gòu)(LCC)、右角中心結(jié)構(gòu)(RCC)和鏈?zhǔn)疥P(guān)聯(lián)結(jié)構(gòu)(CHC),它們覆蓋了基本塊內(nèi)部的以下句法關(guān)聯(lián)關(guān)系:1)修飾關(guān)系:覆蓋體詞塊和謂詞塊RCC和CHC; 2)并列關(guān)系:覆蓋體詞塊和謂詞塊CHC; 3)述賓、述補(bǔ)和附加關(guān)系:覆蓋謂詞塊LCC。
這樣,就形成了以下基本塊內(nèi)聚性判據(jù):1)句子中的實詞組合符合上面的一種拓?fù)浣Y(jié)構(gòu),則形成一個多詞語基本塊; 2)句子中的其他獨立出現(xiàn)的實詞直接形成一個單詞語基本塊。對分析出的每個基本塊,將給出“成分標(biāo)記+關(guān)系標(biāo)記”的雙標(biāo)記描述[11]。
2) 功能塊(Functional Chunk, FC)
漢語功能塊主要描述句子中反映不同事件內(nèi)容的基本單元。確定依據(jù)主要是它們在事件描述小句的不同層次事件句式中所處的功能位置。目前主要考慮了以下兩類事件句式:1)小句層面上的基本句式結(jié)構(gòu)。據(jù)此,可以確定主、謂、狀、賓、補(bǔ)等功能塊。2)復(fù)雜名詞短語層面上的句式結(jié)構(gòu)變體。據(jù)此,確定定語塊、中心塊等功能塊。
為了簡化起見,在本次評測中,我們只考慮各個事件描述小句的事件骨架樹中最低層次(即葉子節(jié)點)的功能塊,將它們按照從左到右的順序排列形成整個事件描述小句的功能塊標(biāo)注序列。
這樣,就形成了以下功能塊外延性判據(jù):選擇事件描述小句的事件骨架樹中最低層次(即葉子節(jié)點)的詞語組合形成各個功能塊。對分析出的每個功能塊,將分別使用以下10個功能標(biāo)記來標(biāo)注:主語塊(S)、狀語塊(D)、述語塊(P)、賓語塊(O)、補(bǔ)語塊(C)、兼語塊(J)、定語塊(A)、中心塊(H)、獨立塊(T)和其他特殊塊(X)。
3) 事件描述小句(Event Descriptive Clause, EDC)
我們以句號、問號和嘆號等作為完整漢語句子的分隔符。在此基礎(chǔ)上的事件描述小句確定主要依據(jù)了以下判定條件:1)以逗號、分號、句號、問號等點號分隔而形成的詞語序列; 2)內(nèi)部包含完整的主、狀、謂、賓等事件句式,考慮到各種省略情況,其中至少應(yīng)包含一個謂語塊; 3)復(fù)句層面的狀語和獨立語成分可以作為一個特殊的EDC。它們共同形成EDC的外延性判據(jù)。
我們使用以下4個標(biāo)記來標(biāo)注不同的EDC:1) E1——包含主題信息的EDC;2)E2——主題信息省略的EDC;3) D1——復(fù)句層面的狀語塊;4) T——復(fù)句層面的獨立語塊。其中E1和E2組成了典型的事件描述小句。
以漢語句法樹庫TCT[10]作為統(tǒng)一的數(shù)據(jù)源,充分利用其中提供的豐富句法成分和關(guān)系標(biāo)記信息,將上面設(shè)計的三種塊的句法判據(jù)進(jìn)行具體化和實例化,我們可以自動提取形成不同的塊標(biāo)注語料庫,從而可以對這三個不同層次的塊分析任務(wù)的處理難度進(jìn)行初步估計。在下面的實驗中,主要選擇了TCT中所有的新聞類文本。其基本統(tǒng)計數(shù)據(jù)是:文件數(shù)185,漢字總數(shù)325 806,詞語項總數(shù)207 372,句子總數(shù)8 137,平均長度為25.49詞/句。
1) 基本塊數(shù)據(jù)分析
從6個主要基本塊的長度分布數(shù)據(jù)可以看出[11],真實文本句子中描述實體內(nèi)容的名詞基本塊和描述動作狀態(tài)的動詞基本塊占了大多數(shù),達(dá)到單詞語塊總數(shù)的91%和多詞語塊總數(shù)77%,是我們研究的重點。相對而言,動詞塊的平均長度較短。在多詞語塊中,只包含兩個詞語的塊占了93%以上;而在np多詞語塊中,包含兩個詞語的塊只占了71%左右,約30%的名詞塊長度超過了3個詞語。因此,基本名詞塊的內(nèi)部描述復(fù)雜度更高,進(jìn)行自動準(zhǔn)確分析的難度也更大。
2) 功能塊數(shù)據(jù)分析
表1列出了功能塊長度分布數(shù)據(jù)。從中我們可以發(fā)現(xiàn):
表1 功能塊長度分布
? 真實文本句子中P、D、S、O塊占了絕大多數(shù),它們是形成事件句式的基本單元。其中的主要識別難點是復(fù)雜的賓語、狀語和主語塊。
? H和A塊主要出現(xiàn)在定語從句中,其平均長度和分布特點基本與S塊相當(dāng),但由于出現(xiàn)數(shù)量較少,再加上漢語典型歧義結(jié)構(gòu)“V N 的 N”的影響,會導(dǎo)致統(tǒng)計學(xué)習(xí)模型訓(xùn)練不充分,從而增大識別難度。而H塊由于前面一般有助詞“的”,會更容易識別。
? 在剩余的4個非典型功能塊中,J和C盡管出現(xiàn)頻度較少,但由于語境特征明顯,其識別難度應(yīng)該與H塊相當(dāng)。而T和X則由于組合情況復(fù)雜和語境分布特征不明顯,自動識別難度會很大,但由于其絕對數(shù)量很少,對整體性能的影響可以忽略。
綜上所述,在我們關(guān)注的8個功能塊(PDSOHAJC)中,預(yù)期的識別難度排列會是:P, 簡單D,S,O 3) 事件描述小句數(shù)據(jù)分析 表2列出了不同類型的事件描述小句的長度分布數(shù)據(jù)。 圖1 不同長度EDC 所占比例分布 表2 事件描述小句長度分布 圖1顯示了其中不同長度EDC 的分布比例。從這些數(shù)據(jù)可以看出: ? 漢語真實文本中包含完整事件內(nèi)容的典型EDC塊(E1+E2類)占了95%以上,是自動識別研究的主體。 ? 典型EDC塊的平均長度達(dá)到9個詞以上,遠(yuǎn)高于功能塊和基本塊,并且長度大于10個詞的EDC塊比例超過了30%,長度大于20個詞的EDC塊比例也達(dá)到了6%,這就進(jìn)一步加大了相關(guān)EDC塊的識別難度。 ? 點號作為事件描述小句的天然分隔符,應(yīng)該可以在EDC識別中發(fā)揮重要作用。但漢語點號使用非常靈活,可用來分隔主、狀、賓等功能塊,可用來分隔各個功能塊內(nèi)部的并列成分,也可用來分隔復(fù)雜從句內(nèi)部的各個小句,以上這些情況在我們目前的EDC劃分原則下都應(yīng)包含在某個EDC內(nèi)部。對目前的2萬多個EDC進(jìn)行內(nèi)部信息分析,發(fā)現(xiàn)包含 點號的EDC占塊總數(shù)的16%,占覆蓋詞語總數(shù)的32%。這表明僅僅依靠點號信息來切分EDC會帶來很大的副作用,需要引入更多有效的判別特征。 ? 漢語事件描述小句內(nèi)部的功能塊組合非常復(fù)雜,包含多個謂語塊的EDC比例達(dá)到了37%以上,其中包括復(fù)雜從句和連謂、兼語、并列等復(fù)雜謂語結(jié)構(gòu),它們會形成復(fù)雜的事件句式和事件骨架樹。這些情況與靈活的點號使用習(xí)慣混雜在一起,對準(zhǔn)確識別表征完整事件描述內(nèi)容的EDC任務(wù),提出了很大的挑戰(zhàn)。 本次評測各個分析任務(wù)統(tǒng)一采用塊分析準(zhǔn)確率(P)、召回率(F)和F-1測度等評價指標(biāo)。并針對不同層次的塊分析任務(wù),確定不同的正確性判據(jù)(詳見文獻(xiàn)[9])。從中分別選擇“邊界+成分標(biāo)記”、“邊界+功能標(biāo)記”以及“邊界”識別正確判據(jù)下的整體評價F-1值作為任務(wù)2、3、4的主要評價排序指標(biāo)。 表3、表4和表5列出了參加三個塊分析任務(wù)的性能最好的前5個系統(tǒng)的相應(yīng)評測成績。其中的ID列表示各個參評單位編號,Run-ID列顯示了各個參評隊伍提交的不同系統(tǒng)編號。 從中可以看出,在本次評測提供的完全相同的測試數(shù)據(jù)集上,Top-5基本塊識別系統(tǒng)的整體F-1值(在“邊界+成分+關(guān)系”正確性判據(jù)下)達(dá)到了90%~92%左右,而Top-5功能塊識別系統(tǒng)的整體F-1值只達(dá)到了85%左右,兩者相差了5%~7%。如何分析與挖掘?qū)δ軌K識別更為重要的新特征,并把它們有機(jī)結(jié)合入不同的統(tǒng)計模型中,應(yīng)該是下一步的研究重點。另外,使用更大規(guī)模的功能塊標(biāo)注語料是否會對性能提升有幫助,也值得深入研究。 表3 任務(wù)2的前5個系統(tǒng)的評測結(jié)果 表4 任務(wù)3的前5個系統(tǒng)的評測結(jié)果 表5 任務(wù)4的前5個系統(tǒng)的評測結(jié)果 最好的EDC識別系統(tǒng)的F-1值達(dá)到了80%左右(開放學(xué)習(xí)),其中使用了外部語義知識庫和功能塊分析器提供的功能塊描述特征。完全使用EDC標(biāo)注庫信息的最好系統(tǒng)的F-1值為78%左右(封閉學(xué)習(xí))。這表明了EDC識別問題的處理難度。如何發(fā)現(xiàn)與挖掘小句層面的描述特征,以提升EDC識別性能,將是今后研究的一個重要方向。 在基本塊層面,英語方面的工作主要基于Abney(1991)提出的語塊(Chunk)概念[18]。CoNLL-2000在《華爾街日報》語料庫上進(jìn)行的全面測試表明,在這個體系下建立的英語基本名詞和動詞塊的識別性能達(dá)到93%左右[2]。在漢語方面的類似工作有清華大學(xué)[13]和哈爾濱工業(yè)大學(xué)[14]的基本短語描述體系和微軟的塊描述體系[15]等。這些體系的共同點在于它們都是從句法層面上來定義和描述塊信息,主要側(cè)重塊邊界確定和句法成分標(biāo)注問題,不太關(guān)心各個塊的內(nèi)部關(guān)系分析。另一類相關(guān)的研究則關(guān)注類似基本塊的實詞組合的整體語義表現(xiàn)和內(nèi)部組合關(guān)系,典型的工作包括命名實體定義和識別[4-5]、多詞表達(dá)的內(nèi)部詞匯語義組合性評估問題[12]等。 而我們提出的基本塊描述體系則以語義中心驅(qū)動的典型拓?fù)浣Y(jié)構(gòu)分析為基本判據(jù),將以上兩部分的工作有機(jī)結(jié)合起來,達(dá)到了基本塊形式和意義的初步融合。另外,還首次將緊密結(jié)合的述賓結(jié)構(gòu)關(guān)系納入基本塊描述體系中,使之基本覆蓋了漢語中所有實詞之間的重要詞匯關(guān)聯(lián)關(guān)系,為在此層面上進(jìn)行漢語詞匯關(guān)系的自動獲取研究打下了很好的基礎(chǔ)。 在功能塊層面,英語方面的研究主要集中在語義角色標(biāo)注(SRL)方面,通過對句子進(jìn)行淺層語義分析,確定各個目標(biāo)動詞控制的核心語義角色的準(zhǔn)確邊界,在語義層面上直接完成事件框架的分析識別。目前在英語Propbank測試庫上的最好系統(tǒng)的SRL性能F值達(dá)到了80%左右[7],近幾年也沒有很大性能提升[19]。對實驗結(jié)果的深入分析發(fā)現(xiàn),其中的主要問題出在論元成分識別階段:在81%邊界識別正確的論元成分中,95%以上都可以準(zhǔn)確標(biāo)注上合適的語義角色[7]。而且核心角色和外圍角色的識別性能差異明顯(80% VS 60%),顯示出一定的統(tǒng)計偏置性。 而我們的研究則側(cè)重從句法層面先識別出進(jìn)行可以充當(dāng)論元成分的功能塊以及相應(yīng)的事件句式,從而抓住了SRL的核心問題。這個研究從最初的單層次功能塊[16],到逐步細(xì)化的二層次功能塊[17],到目前的覆蓋所有基本事件描述小句的功能塊,再配合以事件骨架樹的準(zhǔn)確分析,可以實現(xiàn)語義層面的SRL在句法層面上的有效模擬。 在事件描述小句層面,國內(nèi)外的相關(guān)研究不是很多。CoNLL-2001曾提出一個英語子句識別任務(wù)[3],其目標(biāo)是自動識別英語句子中的所有嵌套子句。考慮到這個問題的復(fù)雜性,他們把它拆分成三項子任務(wù):子句起點識別、終點識別和完整嵌套結(jié)構(gòu)識別。其中最困難的第三項子任務(wù)基本上與我們定義的事件描述小句識別任務(wù)相當(dāng),只是我們只處理最上層的EDC。當(dāng)時最好系統(tǒng)的開放測試F1值為78.63%[3],后來,通過改進(jìn)算法,將分析性能提高到了80.44%[20]。 英語子句一般由先行詞引導(dǎo),具有比較明顯的形式標(biāo)記,這是設(shè)計嵌套子句識別任務(wù)的描述基礎(chǔ)。而漢語各個從句之間一般沒有特別的形式標(biāo)記,因此我們選擇以點號分隔的EDC作為識別重點,可能更適合漢語的描述特點。 本文針對漢語的描述特點,提出了三項漢語塊分析評測任務(wù):基本塊分析,功能塊分析和事件描述小句識別?;谡鎸嵨谋緲?biāo)注庫的數(shù)據(jù)統(tǒng)計分析和國內(nèi)外相關(guān)體系的對比分析研究顯示,這套塊分析評測任務(wù)設(shè)計具有以下特點:1)在基本塊層面,以語義中心驅(qū)動的拓?fù)浣Y(jié)構(gòu)分析作為基本塊的主要判據(jù),并加入緊密結(jié)合的述賓關(guān)系描述,使之基本覆蓋了漢語中所有實詞之間的重要詞匯關(guān)聯(lián)關(guān)系; 2)在功能塊層面,選擇不同層次事件句式中的各個最小描述單元作為處理對象,最大限度地保留了句子中各個不同層面的事件描述信息,形成了進(jìn)行事件骨架樹分析的研究基礎(chǔ); 3)在事件描述小句層面,以點號分隔的完整事件單元識別作為突破口,可以形成進(jìn)行漢語“句→段”意合分析的中樞橋梁。 從目前的評測結(jié)果看,這三項塊分析任務(wù)的識別難度為:基本塊<功能塊<事件描述小句。在此基礎(chǔ)上,下一步的研究方向是:1)利用基本塊和功能塊的信息互補(bǔ)特點,通過適當(dāng)?shù)娜诤咸幚?,獲取信息更完整的功能塊(功能標(biāo)記+成分標(biāo)記+中心詞位置),以此作為事件骨架樹分析的葉子節(jié)點;2)探索有效的事件骨架樹分析方法,準(zhǔn)確識別句子中由功能塊組合形成的不同層次的事件句式,補(bǔ)充“功能塊→事件描述小句”之間的事件信息描述空白。 [1] Introduction to CoNLL-1999 Shared Task: NP braketing [OL].http://www.cnts.ua.ac.be/conll99/. [2] Erik F. Tjong Kim Sang and Sabine Buchholz. Introduction to CoNLL-2000 Shared Task: Chunking [C]//Proceedings of CoNLL-2000 and LLL-2000. Lisbon, Portugal, 2000: 127-132. [3] Sang T K and D jean H. Introduction to the CoNLL-2001 Shared Task: Clause Identification [C]//Proc. of CoNLL-2001, Toulouse, France, 2001: p53-57. [4] Erik F. Tjong Kim Sang Introduction to the CoNLL-2002 Shared Task: Language Independent Named Entity Recognition[C]//Proc. of CoNLL-2002,2002. [5] Erik F. Tjong Kim Sang & Fien De Meulder Introduction to the CoNLL-2003 Shared Task: Language Independent Named Entity Recognition[C]//Proc. of CoNLL-2003,2003. [6] Carreras, X. and M`arquez, L. Introduction to the conll-2004 shared tasks: Semantic role labeling [C]//Proc. of CoNLL-2004,2004. [7] Carreras X. and M`arquez, L. Introduction to the conll-2005 shared tasks: Semantic role labeling [C]//Proc. of CoNLL-2005,2005. [8] Guangjin Jin, Xiao Chen The Fourth International Chinese Language Processing Bakeoff: Chinese Word Segmentation, Named Entity Recognition and Chinese POS Tagging [C]//Proc. of Sixth SIGHAN Workshop on Chinese Language Processing,2008. [9] 中文信息學(xué)會句法分析評測CIPS-ParsEval-2009介紹[OL]. http://www.ncmmsc.org/CIPS-ParsEval-2009/. [10] 周強(qiáng). 漢語句法樹庫標(biāo)注體系 [J]. 中文信息學(xué)報,2004, 18(4): 1-8. [11] 周強(qiáng). 漢語基本塊描述體系[J]. 中文信息學(xué)報,2007,21(3): 21-27. [12] Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger Multiword Expressions: A Pain in the Neck for NLP [C]//Proc. Third International Conference of Computational Linguistics and Intelligent Text Processing (CICLing 2002), Mexico City, Mexico, February 17-23, 2002. [13] 張昱琪,周強(qiáng). 漢語基本短語的自動識別 [J]. 中文信息學(xué)報,2002,16(6): 1-8. [14] Tiejun Zhao, Muyun Yang et al. Statistics Based Hybrid Approach to Chinese Base Phrase Identification [C]//Proc. of the Second Chinese Language Processing. ACL 2000, Hong Kong,2000. [15] Li, H., C. N. Huang, J. Gao, and X. Fan Chinese Chunking with Another Type of Spec [C]//Proceedings of the 3rd ACL SIGHAN Workshop, Barcelona, Spain, 2004: 41-48. [16] 周強(qiáng),趙穎澤. 漢語功能塊自動分析 [J]. 中文信息學(xué)報,2007,21(5): 18-27. [17] 陳億,周強(qiáng),宇航分層次的漢語功能塊描述庫構(gòu)建分析 [J]. 中文信息學(xué)報, 2008,22(3): 24-31. [18] Steven Abney(1991). Parsing by Chunks [C]//Robert Berwick, Steven Abney and Carol Tenny (eds.) Principle-Based Parsing, Kluwer Academic Publishers. [19] L. Marquez, X. Carreras, K.C. Litkowski, and S. Stevenson. Semantic Role Labeling: An Introduction to the Special Issue[J]. Computational Linguistics, 2008,34(2): 145-159. [20] Xavier Carreras1, Lluis Marquez, et. al. Learning and Inference for Clause Identification [C]//Proc. of ECML'02, 2002.4 評測結(jié)果分析
5 相關(guān)研究工作評述
6 總結(jié)與展望