劉海霞,黃德根
(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連116024)
漢語功能塊識別屬于漢語句法分析范疇,漢語的句法分析按其分析處理深度可依次分為詞性標(biāo)注處理、句法塊分析、句法樹分析等,功能塊分析屬于句法塊分析的一種。句法塊分析是一種部分分析技術(shù),它與完全句法分析相對,完全句法分析要求通過一系列分析過程,最終得到句子的完整的句法樹。而句法塊分析是對完整的句法樹分析進(jìn)行合理分解[1],使得句法分析任務(wù)在某種程度上得到簡化,達(dá)到提高句法分析效率的目的,同時(shí)也有利于句法分析技術(shù)在大規(guī)模真實(shí)文本處理系統(tǒng)中迅速得到應(yīng)用。
由CIPS-ParsEval-2009的測試方案可知,漢語功能塊是定義在句子層面上的功能性成分,主要描述句子中反映不同事件內(nèi)容的基本信息單元[2]。它們一般占據(jù)了句子中的主語、謂語、賓語、狀語、定語、中心語等功能位置,通過組合形成不同的句式,完成對真實(shí)世界中不同事件內(nèi)容的再現(xiàn)描述,體現(xiàn)了漢語句子的基本骨架。功能塊識別的目的是正確標(biāo)注出包括主語塊、狀語塊、述語塊、賓語塊、補(bǔ)語塊、兼語塊、定語塊、中心塊、獨(dú)立塊、其他特殊塊等在內(nèi)的功能塊標(biāo)記信息,覆蓋自頂向下進(jìn)行事件句式拆分而形成的各個(gè)基本信息單元,以顯示句子在小句層面上的基本結(jié)構(gòu)及骨架,為進(jìn)一步的事件骨架樹分析提供最小的功能塊描述序列。
塊(Chunk)的概念最早是由Abney在1991年提出的[3],在引入句法塊概念的同時(shí),他將句法分析分為三個(gè)階段來進(jìn)行:(1)塊識別,利用基于有限狀態(tài)分析機(jī)制的塊識別器(Chunker)識別出句子中所有的塊;(2)塊內(nèi)結(jié)構(gòu)分析,對每個(gè)塊內(nèi)部的成分賦予合適的句法結(jié)構(gòu);(3)塊間關(guān)系分析,利用塊連接器(Attacker)將各個(gè)不同的塊合成完整的句法分析樹。依據(jù)這樣的研究思路,將句法分析分解進(jìn)行,一方面,可以對不同的子問題進(jìn)行有針對性的處理,選用適合的語言模型和策略加以分析;另一方面,通過在塊層次上進(jìn)行自底向上的塊間關(guān)系分析和自頂向下的塊內(nèi)結(jié)構(gòu)分析,可以提高整體分析效率,降低句子分析的難度。
由于漢語功能塊與漢語組塊同屬于句法塊分析范疇,因此組塊識別的研究經(jīng)驗(yàn)也可以借鑒到功能塊識別的研究任務(wù)中來。組塊識別是在自然語言學(xué)習(xí)國際會(huì)議CoNLL-2000中作為共享任務(wù)提出的,用于組塊識別研究的主流技術(shù)是統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,其中包括隱馬爾可夫模型(HMM)[4]、支持向量機(jī)模型(SVM)[5]、最大熵模型(ME)[6]和條件隨機(jī)域模型(CRFs)[7-8]等。文獻(xiàn)[9]采用基于HMM 的組塊分析方法,加入基于記憶學(xué)習(xí)過程的組塊生成概率,得到整體識別的F1-measure值為92.12%;文獻(xiàn)[10]則使用了一個(gè)標(biāo)準(zhǔn)的最大熵學(xué)習(xí)器,通過輸入單詞和詞性標(biāo)記信息來生成組塊標(biāo)記,最后得到整體識別的F1-measure值為 91.97%。對比于英語CONLL-2000提出的語塊共享任務(wù)的描述體系,文獻(xiàn)[11]提出了漢語功能塊的標(biāo)注體系,強(qiáng)調(diào)對句子整體功能塊的描述,側(cè)重于自頂向下地描述句子的基本骨架。文獻(xiàn)[12]以語塊識別結(jié)果為基礎(chǔ)自動(dòng)構(gòu)建德語和英語的部分句法樹,得到相應(yīng)功能塊自動(dòng)識別的整體識別準(zhǔn)確率分別為89.73%和90.40%,召回率分別為61.45%和59.78%。文獻(xiàn)[13]利用判定樹模型進(jìn)行各個(gè)功能塊的邊界識別研究,得到了最高 74.1%的 F1-measure值。文獻(xiàn)[14]利用SVM 模型對主語-述語塊(SP)和述語—賓語塊(PO)進(jìn)行邊界識別,得到的最好F1-measure值分別為76.56%和82.26%。還有文獻(xiàn)[15]使用了兩種不同的功能塊分析模型,在詞和詞性的基礎(chǔ)上利用CRF模型進(jìn)行序列標(biāo)注,最終功能塊整體識別的F1-measure值達(dá)到了78.63%。在2009年第一屆中國中文信息學(xué)會(huì)句法分析評測中,文獻(xiàn)[16]利用條件隨機(jī)域模型進(jìn)行漢語功能塊的分析,得到的F1-measure值為85.90%。文獻(xiàn)[17]在自動(dòng)識別的基本塊基礎(chǔ)上進(jìn)行基本塊到功能塊的級聯(lián)分析,利用SVM模型得到功能塊識別的F1-measure值為84.72%。
由文獻(xiàn)[18]可知,由于現(xiàn)有的功能塊分析器采用統(tǒng)計(jì)學(xué)習(xí)的方法,選取的特征具有一定的局部性,所以像賓語塊這樣長度較長且結(jié)構(gòu)相對復(fù)雜的塊是現(xiàn)有分析器的一個(gè)難點(diǎn)所在,因此也成為識別性能提高的關(guān)鍵。本文首次將語義知識引入到漢語功能塊的識別中,不再局限于僅利用句子中的詞和詞性標(biāo)注信息,而是將某種語義詞典中的語義編碼作為一種語義標(biāo)記加入到訓(xùn)練語料和測試語料中,把在語義和句法功能上相同或相近的詞用同一個(gè)語義編碼來代替,這樣就能夠降低特征空間的維數(shù),緩解數(shù)據(jù)稀疏問題對識別性能的影響,更好地解析復(fù)雜句子的結(jié)構(gòu),從而提高漢語功能塊的識別性能。
隨著自然語言處理研究的不斷發(fā)展,20世紀(jì)80年代以來,許多關(guān)于英語和漢語方面的大規(guī)模語義計(jì)算資源被不斷地開發(fā)出來,其中比較有代表性的有英語方面的WordNet、FrameNet、MindNet等;漢語方面的知網(wǎng)HowNet、《同義詞詞林》等。本文需要的正是能夠反映漢語單詞語義特征的代碼化語義系統(tǒng),而《同義詞詞林》中的每一個(gè)單詞都有表示語義的編碼,正好是一個(gè)代碼化的語義系統(tǒng)。因此,我們將《同義詞詞林》引入到漢語功能塊識別系統(tǒng)中,利用詞林中每個(gè)單詞被賦予的語義編碼所包含的豐富語義信息來改善系統(tǒng)的識別效果。
目前的語義資源中記錄的語義知識主要就是語義關(guān)系知識[19],語義關(guān)系分為聚合關(guān)系和組合關(guān)系兩類,詞義聚合關(guān)系又可以細(xì)分為各種各樣的關(guān)系,例如:同義(近義)關(guān)系、反義關(guān)系、同位關(guān)系、上位關(guān)系、下位關(guān)系和整體部分關(guān)系等?!锻x詞詞林》是通過詞義聚合關(guān)系組織起來的語義詞典,主要是用同義詞集合來表示詞義,所有同類的語義項(xiàng)即詞群構(gòu)成一個(gè)樹狀結(jié)構(gòu),詞語之間的上下位關(guān)系以及整體部分關(guān)系就通過這個(gè)樹狀結(jié)構(gòu)來表達(dá)。這是一部對漢語詞匯按語義進(jìn)行全面分類的詞典[20],根據(jù)漢語的特點(diǎn)和使用原則,確定了詞的語義分類原為以詞義為主,兼顧詞類,并充分注意題材的集中。將現(xiàn)代漢語的63895個(gè)詞語義項(xiàng)分為大、中、小類三級,共有12個(gè)大類(A類為人、B類為物、C類為時(shí)間與空間、D類為抽象事物、E類為特征、F類為動(dòng)作、G類為心理活動(dòng)、H類為活動(dòng)、I類為現(xiàn)象與狀態(tài)、J類為關(guān)聯(lián)、K類為助語、L類為敬語),94個(gè)中類和1428個(gè)小類,小類下再根據(jù)詞義的遠(yuǎn)近和相關(guān)性劃分詞群,共有3925個(gè)同義詞群。
本文使用的是哈工大信息檢索研究室的同義詞詞林?jǐn)U展版,擴(kuò)展后的《同義詞詞林》,含有更加豐富的語義信息。對比原版的三級分類結(jié)果擴(kuò)展到了現(xiàn)在的五級分類結(jié)果,針對每個(gè)詞語義項(xiàng)形成的完整8位語義編碼,可以唯一的代表詞典中出現(xiàn)的詞語。編碼位按照從左到右的順序排列,第1位代表的是大類,用大寫英文字母表示,是第一級分類的編碼;第2位代表中類,用小寫英文字母表示,是第二級分類的編碼;第三級代表小類,用二位十進(jìn)制整數(shù)表示,占據(jù)編碼位的第3位和第4位。第5位代表詞群,用大寫英文字母表示,是第四級分類的編碼;第五級代表原子詞群,用二位十進(jìn)制整數(shù)表示,占據(jù)編碼位的第6位和第7位。隨著級別的遞增,詞義刻畫得越來越細(xì),到了第五級,每個(gè)分類里詞語的數(shù)量己經(jīng)不多,很多只有一個(gè)詞語,已經(jīng)不可再分,所以將其稱為原子詞群、原子類或原子節(jié)點(diǎn)。由于第五級的分類結(jié)果需要特別說明,例如,有的行是同義詞,有的行是相關(guān)詞,有的行只有一個(gè)詞,可以分出具體的三種情況。在使用上,有時(shí)需要對這三種情況進(jìn)行區(qū)別對待,所以有必要再增加標(biāo)記來分別代表上述幾種情形。增加的標(biāo)記占據(jù)編碼位的第8位,共有3種標(biāo)記,分別是“=”、“#”和“@”,其中“=”代表“相等”、“同義”,表明本詞群中的詞語屬于同義詞語;“#”代表“不等”、“同類”,表明本詞群中的詞語屬于相關(guān)詞語;“@”代表“自我封閉”、“獨(dú)立”,這種詞群中只包含一個(gè)詞語,表明它在詞典中既沒有同義詞,也沒有相關(guān)詞。具體的編碼規(guī)則見表1。
表1 《同義詞詞林》擴(kuò)展版編碼規(guī)則表① 該表來源于《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》說明
本文將漢語功能塊的自動(dòng)識別問題轉(zhuǎn)化為序列標(biāo)注問題[21],利用條件隨機(jī)域建立功能塊的序列標(biāo)注模型。條件隨機(jī)域(Conditional Random Fields,CRFs)模型是一個(gè)基于無向圖的條件概率模型[22],可以任意添加有效的特征向量,具有表達(dá)長距離依賴性和交疊性特征的能力,能夠較好地解決標(biāo)注(分類)偏置等問題。而且所有特征可以進(jìn)行全局歸一化,能夠求得全局的最優(yōu)解,對于輸入和輸出的幾率分布不像隱馬爾科夫模型那樣強(qiáng)烈的假設(shè)存在,很適合做序列標(biāo)注分析,所以我們使用條件隨機(jī)域模型來實(shí)現(xiàn)功能塊分析的序列標(biāo)注處理。
本文介紹的條件隨機(jī)域模型是比較簡單的線性鏈條件隨機(jī)域,給定參數(shù) Λ=(λ1,λ2,…,λn),線性鏈條件隨機(jī)域定義在一個(gè)給定的觀測序列X=x1,x2,…,xT上對應(yīng)的狀態(tài)標(biāo)記序列Y=y1,y2,…,yT的條件概率為:
其中ZX是所有狀態(tài)序列的歸一化因子,使得在給定輸入上所有可能狀態(tài)序列的概率之和為1。fk(yt-1,yt,x,t)通常被定義為關(guān)于整個(gè)觀測序列和位置t以及位置t-1標(biāo)記的二值特征向量函數(shù),參數(shù)λk是在訓(xùn)練中得到的與特征函數(shù)fk相關(guān)的權(quán)重,當(dāng)訓(xùn)練狀態(tài)序列被完全明確地標(biāo)記后,可為該模型找到最優(yōu)的λ值,一旦這些值被找到,一個(gè)新的未標(biāo)記序列的標(biāo)記工作就可以用Viterbi算法來完成,k的取值范圍取決于模版中特征的數(shù)量。
那么求解序列標(biāo)注的任務(wù)就是求出使條件概率PΛ(Y|X)最大的Y,即最大可能的標(biāo)記序列為:
將漢語功能塊的自動(dòng)識別問題轉(zhuǎn)化為序列標(biāo)注問題需要定義標(biāo)注集合,通過為文本句子中的每個(gè)詞語標(biāo)注一個(gè)合適的類別標(biāo)記,實(shí)現(xiàn)功能塊的自動(dòng)識別。
為了標(biāo)識塊與塊之間的邊界和功能信息,我們采用IOB2的標(biāo)注集合來標(biāo)記功能塊,標(biāo)記集中的每個(gè)標(biāo)記均由兩部分構(gòu)成,第一部分為詞語在功能塊中的位置,如功能塊的起始位置用B表示,內(nèi)部位置用I表示;第二部分為功能塊的類型標(biāo)記[23],具體如表2所示,在這兩部分標(biāo)記之間用“-”來分隔。對于不屬于這幾類功能塊的單詞和符號,統(tǒng)一使用O來標(biāo)記。這樣10種功能標(biāo)記類型加上O標(biāo)記,最后形成包括21種功能塊標(biāo)記的標(biāo)注集合。任意一個(gè)詞被標(biāo)記為21種功能塊標(biāo)記中的一種,標(biāo)記為同一類別B和I的詞,構(gòu)成一個(gè)功能塊,該功能塊直到遇到下一個(gè)標(biāo)記為B或者O的詞為止。
表2 功能塊類型標(biāo)記集
以“能脫離其他運(yùn)動(dòng)形式獨(dú)立存在,”為例,利用IOB2標(biāo)注集合對其進(jìn)行標(biāo)注的中間結(jié)果為:“能/vM/B-P脫離/v/B-P其他/rN/B-O運(yùn)動(dòng)/n/I-O形式/n/I-O 獨(dú)立/aD/B-P存在/v/I-P,/wP/O”,再經(jīng)過處理得到最后的標(biāo)注結(jié)果為:“[P能/vM][P脫離/v][O其他/rN運(yùn)動(dòng)/n形式/n][P獨(dú)立/aD存在/v],/wP”。
實(shí)驗(yàn)使用的語料是第一屆中文信息學(xué)會(huì)句法分析評測發(fā)布的約48萬詞規(guī)模新聞學(xué)術(shù)類TCT(清華句法樹庫)語料庫[23],充分利用TCT中提供的豐富句法標(biāo)記信息,自動(dòng)提取形成了相應(yīng)的功能塊標(biāo)注語料庫。其中訓(xùn)練語料大小為3.83M,包含約39萬詞次,測試語料大小為730K,包含9萬多詞次,訓(xùn)練集和測試集的大小比例約為5∶1。
依據(jù)CIPS-ParsEval-2009評測標(biāo)準(zhǔn),對漢語功能塊的標(biāo)注結(jié)果進(jìn)行評價(jià)的主要評價(jià)指標(biāo)包括功能塊分析的準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F-1測度(F-1 measure,Fβ=1)。評價(jià)功能塊識別性能指標(biāo)的計(jì)算公式如下[24]:
(1)功能塊識別準(zhǔn)確率(Precision):
(2)召回率(Recall):
(3)F-1測度(F-1 measure):
其中:
正確功能塊數(shù):某類正確分析的功能塊總數(shù)。
召回功能塊數(shù):某類自動(dòng)分析的功能塊總數(shù)。
功能塊總數(shù):某類Gold-standard(標(biāo)準(zhǔn)的標(biāo)注結(jié)果)功能塊總數(shù)。
4.2.1 條件隨機(jī)域識別結(jié)果
條件隨機(jī)域模型識別漢語功能塊的關(guān)鍵在于特征的選擇,特征的選擇恰當(dāng)與否會(huì)對識別結(jié)果產(chǎn)生直接的影響。通常來講,豐富的上下文特征對于識別精確率的提高有著積極的作用。本文在進(jìn)行特征選擇的時(shí)候,不僅充分利用了詞和詞性本身的信息,考慮到詞和詞性及其上下文之間存在著的種種依賴關(guān)系,還利用了融入更多上下文信息的組合特征。表3為條件隨機(jī)域模型所采用的特征模板,其中Wn代表詞本身特征,Pn代表詞的詞性特征,其他特征為詞和詞性的組合特征。
表3 特征模板的符號化表示
利用表3中的特征模板,將給定的訓(xùn)練語料拿到CRF①Taku Kudo開發(fā)的開源CRF++-0.53軟件包,網(wǎng)址:http://crfpp.sourceforge.net/.上進(jìn)行訓(xùn)練,再用訓(xùn)練得到的功能塊分析模型對測試語料進(jìn)行標(biāo)注,最后得到功能塊的識別結(jié)果。表4是塊的邊界識別結(jié)果以及邊界加上功能信息的整體識別結(jié)果,后續(xù)實(shí)驗(yàn)所取得的結(jié)果以此為基礎(chǔ),并起到對比分析的作用。
表4 條件隨機(jī)域識別結(jié)果
4.2.2 結(jié)合語義信息識別結(jié)果
結(jié)合語義信息識別漢語功能塊的具體做法是將《同義詞詞林》詞典文件中的語義編碼作為一種語義標(biāo)記引入到語料中,把語料中的同義詞語、相關(guān)詞語和獨(dú)立詞語分別用相同的語義標(biāo)記來標(biāo)識,其他不在詞典中的詞或標(biāo)點(diǎn)符號等統(tǒng)一用數(shù)字0來標(biāo)識。也就是說,語料中凡是屬于同一詞群的詞語都被標(biāo)記成相同的語義編碼,而不在詞典中的詞具有相同的語義編碼0,這樣就構(gòu)建出包含語義信息的訓(xùn)練語料和測試語料。表5為語料中引入了語義標(biāo)記的功能塊標(biāo)注舉例。
表5 帶語義標(biāo)記的功能塊標(biāo)注舉例
在進(jìn)行具體實(shí)驗(yàn)的時(shí)候,將語義標(biāo)記作為一個(gè)特征向量,也就是將詞群特征加入到條件隨機(jī)域模型當(dāng)中,目的是縮小分析模型的特征空間,增強(qiáng)模型學(xué)習(xí)效果,從而取得更好的標(biāo)注結(jié)果。本文在針對語義信息進(jìn)行特征抽取實(shí)驗(yàn)的時(shí)候,綜合考慮到語義信息對復(fù)雜句子識別的有效性以及盡量避免由此產(chǎn)生的模型復(fù)雜度過高,最終選定兩個(gè)特征組合加入到條件隨機(jī)域模型的特征模板中,分別為:(1)當(dāng)前詞的詞群和后詞的詞群組合特征;(2)當(dāng)前詞的詞群和前詞的詞群以及前兩詞的詞群組合特征。表6為新增特征組合符號化表示,其中Sn代表詞的詞群特征。
表6 新增特征組合的符號化表示
表7為加入兩個(gè)詞群特征組合前后,系統(tǒng)對主語塊S、述語塊P、賓語塊O和狀語塊D進(jìn)行識別的結(jié)果比較??梢钥闯?詞群特征的加入改善了系統(tǒng)對這四個(gè)典型功能塊的識別性能,尤其是對結(jié)構(gòu)相對復(fù)雜的賓語塊的識別效果最好,其F值提高了0.58個(gè)百分點(diǎn),召回率則提高了0.81個(gè)百分點(diǎn)。
表7 結(jié)合語義前后四個(gè)典型功能塊識別結(jié)果比較
從表7可以看出,語義信息的加入使得系統(tǒng)能夠識別出比單純條件隨機(jī)域模型更多的功能塊,尤其對賓語塊召回率的提高效果最為明顯。通過對實(shí)驗(yàn)結(jié)果的分析發(fā)現(xiàn),賓語塊召回率的提高有賴于以下兩種情況:召回未被識別的賓語塊和糾正被錯(cuò)誤標(biāo)注成賓語塊的塊,經(jīng)過抽樣統(tǒng)計(jì)可知兩者所占比重分別為64%和36%,下面將這兩種情況的一些具體實(shí)例列于表8和表9中。
表8 加入語義信息后新召回的賓語塊實(shí)例
續(xù)表
表8中第一列的斜體字部分表示應(yīng)該屬于賓語塊卻被識別為其他類型的塊,第二列為加入語義信息特征之前被錯(cuò)誤識別成的塊類型。
表9 糾正被錯(cuò)誤標(biāo)注成賓語塊的實(shí)例
表9中第一列的斜體字部分表示應(yīng)該屬于其他類型的塊卻被錯(cuò)誤地識別為賓語塊,第二列表示斜體部分應(yīng)該屬于的塊類型。
通過對實(shí)例的統(tǒng)計(jì),混淆識別為賓語塊加中心塊的“的”字結(jié)構(gòu)(O+“的”+H)以及謂語塊加中心塊的“的”字結(jié)構(gòu)(P+“的”+H)的情況占60%以上,其典型句式除了“的”字結(jié)構(gòu),還有“之”字結(jié)構(gòu)、“等”字結(jié)構(gòu)等,其余實(shí)例大多屬于比較復(fù)雜的賓語塊,它們被錯(cuò)誤標(biāo)記成的塊類型可參見表2中說明。表8所示情況對賓語塊召回率的提高起主要作用,表9中第一行所起作用與表8相同,除第一行以外其他行所示情況能夠起到提高其他塊類型召回率的作用。也就是說,語義編碼這個(gè)新特征的加入使得識別系統(tǒng)能夠正確識別出更多的復(fù)雜賓語塊及“的”字結(jié)構(gòu)賓語塊,由于“的”字在現(xiàn)代漢語中是運(yùn)用頻率很高的虛詞,“的”字前的定語一般修飾“的”字后的中心語,而可作定語中心語的詞類很廣泛,這就決定了“的”字結(jié)構(gòu)的普遍性所產(chǎn)生的歧義。因此可以說語義特征能夠很好的區(qū)分“的”字結(jié)構(gòu)應(yīng)該屬于的塊類型,對解決這種結(jié)構(gòu)所產(chǎn)生的歧義具有重要的意義。
表10為引入語義信息以后塊的邊界識別結(jié)果以及邊界加上功能信息的整體識別結(jié)果。
表10 結(jié)合語義信息識別結(jié)果
通過表4和表10的實(shí)驗(yàn)數(shù)據(jù),我們發(fā)現(xiàn)加入語義特征的實(shí)驗(yàn)?zāi)P捅葐渭儣l件隨機(jī)域模型取得了更好的識別效果,這說明結(jié)合語義資源的漢語功能塊識別系統(tǒng)能夠獲得更加穩(wěn)定的識別性能。
由于本文使用的實(shí)驗(yàn)數(shù)據(jù)與2009年第一屆中國中文信息學(xué)會(huì)句法分析評測提供的實(shí)驗(yàn)數(shù)據(jù)相同,所以我們將實(shí)驗(yàn)結(jié)果與評測中使用其他方法的測試結(jié)果進(jìn)行了比較,表11顯示了比較的具體情況,可以看出本文所采用的CRF結(jié)合語義資源進(jìn)行漢語功能塊識別的方法取得了很好的效果。
表11 與CIPS-ParsEval-2009結(jié)果的比較
漢語功能塊識別作為一種較好的部分分析結(jié)果,相當(dāng)于完整句法樹的一棵子樹,可以與完整的句法樹分析有效配合,形成可適應(yīng)不同應(yīng)用需求的句法分析結(jié)果。
本文將語義資源同義詞詞林引入到功能塊的識別過程當(dāng)中,用詞典中唯一的8位語義編碼代替語料中出現(xiàn)的在句法功能或者語義上相同或相近的詞。由于詞性的種類有幾十種,而詞的種類為幾十萬種,相比于詞和詞性這兩種特征之間的巨大差距,語義詞典中的詞群正好彌補(bǔ)了這種差距,詞群的種類為幾千種,正好是詞和詞性特征的一種折中。介于詞和詞性特征之間詞群特征不僅彌補(bǔ)了詞性特征區(qū)分度過小的缺點(diǎn),而且還有效緩解了詞特征的數(shù)據(jù)稀疏問題。
實(shí)驗(yàn)結(jié)果表明,本系統(tǒng)可以改善漢語功能塊的自動(dòng)識別性能,并且在對主語塊、述語塊、賓語塊和狀語塊的識別上均取得了不錯(cuò)的效果,尤其是結(jié)構(gòu)相對復(fù)雜的賓語塊的識別結(jié)果有了較大幅度的提高。由于它們占據(jù)了功能塊總數(shù)的主要份額,所以這四個(gè)典型功能塊的識別結(jié)果對最后結(jié)果的影響較大。
在以后的研究工作中,我們將進(jìn)一步完善結(jié)合語義知識進(jìn)行漢語功能塊識別的方法,在改善現(xiàn)有語義詞典的同時(shí),將尋求更多用于功能塊識別的語義資源,并且通過結(jié)合其他方法來改善漢語功能塊的整體識別性能。
[1]周強(qiáng).漢語基本塊描述體系[J].中文信息學(xué)報(bào),2007,21(3):21-27.
[2]周強(qiáng),李玉梅.漢語塊分析評測任務(wù)設(shè)計(jì)[J].中文信息學(xué)報(bào),2010,24(1):123-128.
[3]Steven Abney.Parsing by chunks[C]//Robert Berwick,Steven Abney and Carol Tenny(eds.).Principle-Based Parsing.Dordrecht:Kluwer Academic Publishers,1991,257-278.
[4]李珩,楊峰,朱靖波,等.基于增益的隱馬爾科夫模型的文本組塊分析[J].計(jì)算機(jī)科學(xué),2004,152-154.
[5]李珩,朱靖波,姚天順.基于SVM的中文組塊分析[J].中文信息學(xué)報(bào),2004,18(2):1-7.
[6]李素建,劉群,楊志峰.基于最大熵模型的組塊分析[J].計(jì)算機(jī)報(bào),2003,1722-1727.
[7]Fei Sha,Fernando Pereira.Shallow parsing with conditional random fields[C]//Proc.of Human Language Technology/North American chapter of the Association for Computational Linguistics annual meeting.Edmonton:2003,213-220.
[8]Yongmei Tan,Tianshun Yao,Qing Chen and Jingbo Zhu.Applying conditional random fields to Chinese shallow parsing[C]//Proc.of CICLing-2005.Mexico:2005,167-176.
[9]GuoDong Zhou,Jian Su,TongGuan Tey.Hybrid text chunking[C]//Proc.of CoNLL-2000 and LLL-2000,Lisbon,Portugal:2000,163-165.
[10]Rob Koeling.Chunking with maximum entropy models[C]//Proc.of CoNLL-2000 and LLL-2000,Lisbon,Portugal:2000,139-141.
[11]周強(qiáng),任海波,詹衛(wèi)東.構(gòu)建大規(guī)模漢語語塊庫[M]//黃昌寧,張普.自然語言理解與機(jī)器翻譯.北京:清華大學(xué)出版社,2001,102-107.
[12]Sandra Kübler,Erhard W.Hinrichs.From chunks to function-argument structure:A similarity-based approach[C]//Proc.of ACL/EACL 2001.Toulouse,France:2001.338-345.
[13]Elliott Franco Dr bek,Qiang Zhou.Experiments in Learning Models for Functional Chunking of Chinese Text[C]//Proc.of IEEE International Workshop on Natural Language Processing and Knowledge engineering.Tucson,Arizona,2001,859-864.
[14]Yingze Zhao,Qiang Zhou.A SVM-based Model for Chinese Functional Chunk Parsing[C]//Proc.of the Fifth SIGHAN Workshop on Chinese Language Processing.Sydney:2006,94-101.
[15]周強(qiáng),趙穎澤.漢語功能塊自動(dòng)分析[J].中文信息學(xué)報(bào),2007,21(5):18-24.
[16]王昕,等.基于CRF的漢語語塊分析和事件描述小句識別[C]//第一屆漢語句法分析評測學(xué)術(shù)研討會(huì)論文集.北京:2009.
[17]李軍輝,周國棟.蘇州大學(xué)第一屆中文信息學(xué)會(huì)句法分析評測技術(shù)報(bào)告[C]//周強(qiáng),朱靖波.第一屆漢語句法分析評測學(xué)術(shù)研討會(huì)論文集.北京:2009.
[18]陳億,周強(qiáng),宇航.分層次的漢語功能塊描述庫構(gòu)建分析[J].中文信息學(xué)報(bào),2008,22(3):24-31.
[19]詹衛(wèi)東.面向自然語言處理的大規(guī)模語義知識庫研究述要[C]//徐波.中文信息處理若干重要問題.北京:科學(xué)出版社,2003,107.
[20]梅家駒,等.同義詞詞林[M].上海:上海辭書出版社,1983.
[21]LanceA.Ramshaw,Mitchell P.Marcus.Text chunking using transformation-based learning[C]//Proc.of the Third ACL Workshop on Very Large Corpora.Boston:1995,82-94.
[22]J.Lafferty,A.McCallum,F.Pereira.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proc.of the 18th International Conference on MachineLearning.San Francisco:Morgan Kaufmann,2001,282-289.
[23]周強(qiáng).漢語句法樹庫標(biāo)注體系[J].中文信息學(xué)報(bào),2004,18(4):1-8.
[24]黃德根,于靜.分布式策略與CRFs相結(jié)合識別漢語組塊[J].中文信息學(xué)報(bào),2009,23(1):16-23.
[25]計(jì)峰,等.FudanN LP:一個(gè)基于在線學(xué)習(xí)算法的中文自然語言處理工具包[C]//第一屆漢語句法分析評測學(xué)術(shù)研討會(huì)論文集.北京:2009.
[26]谷波,等.漢語基本塊與功能塊的自動(dòng)分析[C]//第一屆漢語句法分析評測學(xué)術(shù)研討會(huì)論文集.北京:2009.