石 民,李 斌,陳小荷
(南京師范大學文學院,江蘇南京,210097)
中文信息處理研究在現(xiàn)代漢語領(lǐng)域已經(jīng)取得了比較豐碩的成果,但古代漢語信息處理還有待探索。目前,先秦文獻的信息處理大體還處于字處理階段,以解決古文字的輸入輸出、文獻逐字索引等問題為主要內(nèi)容,實用成果僅限于古籍文獻的專題索引和查詢。
我們正在實施的項目是“先秦漢語詞匯統(tǒng)計與知識檢索系統(tǒng)”,準備對25種最重要的先秦傳世文獻進行詞語切分、詞性標注、個別常用詞(包括古今字和通假字)的詞義標注,建立先秦文獻的詞匯知識庫以及歷史知識庫,并研制相應的檢索系統(tǒng)。要實現(xiàn)這一目標,古文獻的切分標注是古漢語語料庫建設(shè)的一項基礎(chǔ)性工作。先秦漢語以單字詞為主,也存在著一定量的多字詞,在缺少分詞詞典和訓練語料的條件下,分詞標注仍有難度。正如古漢語計算語言學家尉遲治平的呼吁:“我們期望能有可以用于漢語史電子文獻自動分詞、自動斷句、自動標注的軟件早日問世,專家只需對結(jié)果刊謬補缺,這將大大減輕屬性式標注的勞動強度,加快工作進度[1]?!?/p>
針對古漢語的自動分詞,已經(jīng)有了一些研究成果。臺北中研院的“漢籍電子文獻”對以《十三經(jīng)》為主的先秦文獻進行了分詞和詞性標注,可以通過“瀚典全文檢索系統(tǒng)”對文獻進行檢索、統(tǒng)計、搭配[2]。但文獻數(shù)量還較少,分詞標注方法也以較為傳統(tǒng)的最大概率和隱馬爾科夫模型為主。邱冰則提出一種啟發(fā)式的混合分詞方法,以反向最大匹配分詞為主,同時統(tǒng)計已出現(xiàn)詞語的頻率和漢字間的互信息,一方面對高頻詞進行直接的提取,另一方面調(diào)整詞表增加新的詞語[3]。由于采用《漢語大詞典》作為通用分詞詞典,存在一定的局限性。
漢語的分詞和詞性標注工作,通常是在自動分詞的基礎(chǔ)上,再進行詞性標注。這種“兩步走”的方法,存在錯誤擴散問題,會影響到最后的標注精度。白栓虎給出了漢語詞切分和詞性標注一體化的隱馬爾科夫模型,并進行了小規(guī)模試驗[4]。Hwee Tou Ng和Jin Kiat Low則深入比較了兩步走和一體化的優(yōu)劣,提出基于字標注的一體化方法是最佳的方案,其分詞系統(tǒng)獲得Sighan2003四個測試語料中的三項封閉測試第一,同時又肯定了兩步方案在訓練和測試時間上的優(yōu)勢[5]。Yue Zhang和 Stephen Clark提出使用單一感知器模型的分詞和標注一體化方法,由于充分利用了詞性信息,分詞準確率和召回率均有大幅提高[6]。這些研究表明,在現(xiàn)代漢語語料上,分詞標注一體化方法效果較好,只是訓練時間開銷較大。
本文著力研究面向先秦文本的分詞和詞性標注,以人工標校的《左傳》作為實驗對象。首先進行了語料分析,然后分別設(shè)計了基于條件隨機場模型(CRF)的自動分詞、詞性標注、分詞標注一體化實驗,以尋找適合古漢語分詞標注的最佳方案。研究成果可以服務于古籍文獻的語料庫建設(shè),將研究人員從繁重的語料標注工作中解脫出來,僅需校對機器自動處理的結(jié)果,也可以有效緩解人工標注一致性較差的問題。
《左傳》是先秦文獻的經(jīng)典之作,內(nèi)容是傳《春秋》的,即春秋時期各國的歷史。篇幅約23萬字,是先秦傳世文獻中單本字數(shù)最多的文獻,非常適合用來作為機器學習的對象,服務于先秦其他文獻的自動標注。
本文使用的語料底本,是由香港中文大學中國古籍研究中心建設(shè)的漢達文庫的《左傳》的“傳”文。該文庫收錄的文獻版本,均為舊刻善本,后由研究人員重新標點、校勘。為了保證語料質(zhì)量,我們參照了古文獻界較為公認的楊伯峻的《春秋左傳注》[7],以解決異文(添字、缺字、異體字等)問題,不一致處按中華書局版校正。語料采用Unicode編碼存儲。
確定古漢語的分詞標準及詞類體系,是分詞標注的基本前提。我們參照了臺北中研院的《資訊處理用分詞規(guī)范》,采用詞匯意義和語法功能兼顧的標準,確定出適合古漢語的分詞單位及詞類體系①可以查閱南京師范大學CIPP中文信息處理平臺網(wǎng)站《先秦漢語分詞標注規(guī)范》,http://www.cipp.cn/new s_view.asp?id=76。。和中研院的主要差別是,將數(shù)詞進行了捆綁處理,區(qū)分了三種常見的詞類活用方式,共設(shè)立了21個詞類標記(見表1)。
表1 先秦漢語詞類標注基本集及詞類統(tǒng)計信息
續(xù)表
四位語言學專業(yè)的研究生,參照楊伯峻的注釋和《春秋左傳詳解詞典》[8],對語料進行了人工切分標注和校對。本文所用語料版本為V 2.0①CNCCL2009會議論文所用語料為V 1.0,詳見《中國計算語言學研究前沿進展》,P46-P51,清華大學出版社,2009年7月出版。會后對語料進行了一次校對工作,形成現(xiàn)在的版本V 2.0。?!蹲髠鳌返膫魑牟糠?共179 792個漢字,除去標點,共3 308個字型、14 600個詞型(區(qū)分詞性)。其中,多字詞有9 973個詞型,占全部詞型的68.31%,但只占詞例數(shù)的21.02%(見表2),平均詞長為1.81字。由此可見,先秦漢語的基本特點是以單字詞為主的,同時,多字詞也是不可忽視的。如果整個語料按照單字來切分,正確率大約只有79%。因此,如何處理多字詞應成為分詞的重點研究對象。
表2 左傳詞型、詞例統(tǒng)計(除去標點,區(qū)分詞性)
《左傳》按照魯國12個國君的謚號,共分12卷。在實驗中,本文將前十卷作為訓練語料,后兩卷作為測試語料,訓練測試比約為6∶1(見表3)。
表3 訓練測試語料情況
本文采用由字構(gòu)詞原理進行漢語自動分詞,將分詞問題轉(zhuǎn)化為詞位信息的序列標注問題。CRF是一個應用廣泛的序列標注模型,該模型允許增加復雜特征,可以有效地處理標記偏置問題。實驗采用Taku Kudo開發(fā)的“CRF++0.53”工具包進行訓練和測試。②下載地址為:h ttp://crfpp.sou rceforge.net/ 。由于《左傳》的平均詞長為1.81字,且存在三字以上的詞,因此使用四詞位標注集,即T={B,M,E,S},其中B代表詞首第一個字,E代表詞尾最末字,M代表一個詞中間的任意字,S代表單字詞和標點。語料樣例見表5的“字符”列和“分詞格式”列。
仿照SIGHAN競賽,我們給分詞精度設(shè)定了Baseline和Topline。分別為采用訓練和測試語料的詞表,對測試語料進行正向最大匹配法分詞,F值分別為83.39%和96.46%。
實驗一 采用字面信息作為特征,比較了上下文窗口為左右1~3個字,以及二字、三字同現(xiàn)情況下的分詞結(jié)果。
從表4可以看出,任何一個分詞結(jié)果都超過了Baseline。增加二元、三元同現(xiàn)特征,比單字上下文特征效果要好。在窗口為±1個字、二元字同現(xiàn)(1W+2)的情況下,精度最高,達到了93.75%。
表4 基于字面特征的分詞評測結(jié)果
實驗二 為了獲得更佳的分詞效果,以分詞效果較好的“1W+2”、“2W+2” 、“3W+2”3 個模板為基礎(chǔ),增加了一些語言學特征進行實驗。這些特征包括字符分類、聲、韻、調(diào)、部首。我們將字符分為“漢字(HZ)、普通標點(Punc)、句末標點(Sen-Punc)、西文數(shù)字(Num)、漢字數(shù)字(CNum)、干支(CCNum)”等類別。由于先秦漢語的聲、韻、調(diào)皆為擬音推測,也沒有比較公認的數(shù)據(jù)庫,因此選取了描寫中古漢語的《廣韻》作為基本數(shù)據(jù)庫來近似,為了保證字符的覆蓋率,部首信息取自《康熙字典》。語料樣例見表5(“分詞標注一體化格式”列除外)。
表5 增加語言學特征的分詞/一體化訓練和測試語料樣例
根據(jù)是否采用字符分類特征以及不同的特征組合、上下文窗口,分別進行了四組實驗(見表6)。第一組與第二、三組的區(qū)別為是否增加字符分類,二至四組主要是上下文窗口長度不同。
從實驗結(jié)果來看:
(1)增加字符分類特征有助于提高分詞精度。使用字符分類特征的結(jié)果普遍好于不使用的結(jié)果。在“2W+2+C1”和“2W+2+C123”下,精度最高,F值達到了93.79%,且以“2W+2+C1”為基礎(chǔ)的模板性能最為穩(wěn)定,實驗效果普遍較好。因此,我們進一步增加了字符分類的二元同現(xiàn)特征,F值提高到93.92%(見表7前三列)。
(2)“2W+2+C1”效果好也說明,字符二元同現(xiàn)是有效的特征。而宋彥在現(xiàn)代漢語分詞實驗中,六詞位標記集在字符三元同現(xiàn)條件下效果最好[9]。這可能正是先秦漢語的特點造成的。現(xiàn)代漢語以多字詞為主,三元同現(xiàn)可以提供充足的構(gòu)詞信息,而在古漢語中單字詞居多,三元同現(xiàn)可能是冗余信息。
(3)在字符分類基礎(chǔ)上再增加聲韻、聲韻調(diào)、聲韻調(diào)及部首,實驗效果差別不大,特別是增加部首后,甚至出現(xiàn)了下降。究其原因,聲韻調(diào)這三個特征本身也需要消除歧義。每個字的聲韻調(diào),在不同的詞性或義項下往往是不同的,還需要仔細分析。而漢字的部首是不需要消歧的,分詞精度的下降,說明部首特征對于分類并無貢獻。
表6 增加語言學特征模板的分詞評測結(jié)果1
實驗三 先秦漢語的聲韻系統(tǒng)本身就比較復雜,我們使用的《廣韻》是中古音系,有206韻,對于先秦漢語的聲韻來說可能不太準確,但調(diào)類只有“平、上、去、入”四類,消歧也許相對容易,為此本文在聲韻調(diào)內(nèi)部又做了對比實驗。在模板選擇上,以“2W+2+C1′”為基礎(chǔ)模板,然后分別增加聲、韻、調(diào)特征(見表7)。
表7 增加語言學特征模板的分詞評測結(jié)果2
通過表7與表6的對比,我們發(fā)現(xiàn)字符分類二元同現(xiàn)特征能夠提高分詞精度,F值最多提高了0.15個百分點。增加聲、調(diào)特征后也有不同程度提高 ,而加韻后明顯降低,“2W+2+C1′24”模板實驗效果最佳,F值達到了93.94%??梢娐?、調(diào)對于漢字也是有效的特征,但作用并不顯著,還需要進一步探討??梢缘贸龅某醪浇Y(jié)論是:基于上下文兩個漢字、二字同現(xiàn)、字符分類二元同現(xiàn)的模板“2W+2+C1′”,最適合《左傳》的自動分詞。
詞性標注是CRF模型的典型應用,可以將詞性標注問題視為詞語的詞類屬性的序列化標注問題,這里不再詳述。特征選擇上,僅使用詞形信息,分別在上下文詞語觀察窗口為[-1,1]、[-2,2]、[-3,3]的基礎(chǔ)上增加詞語二元同現(xiàn)。為了驗證“兩步走”方案在先秦語料上是否存在弊端,在詞性標注時,分別對標準分詞文本(Right,即人工校對過的標準答案)和實驗得到的最佳分詞文本(BestSeg,由3.2節(jié)復雜特征模板“2W+2+C1′24”得到)進行了評測。
表8 CRF詞性標注評測結(jié)果
與單純使用字面信息的分詞實驗一樣,表8中“1W+2”特征模板下的詞性標注效果最好。在BestSeg和Right分詞文本基礎(chǔ)上,F值分別達到了86.82%和91.95%。如果把BestSeg文本的分詞精度93.94%和Right文本的詞性標注精度91.95%相乘,則可得到BestSeg文本詞性標注的預測值86.38%,和實際測得的86.82%是相近的。實際測得的精度略高,是由于標點部分的詞性標注都是正確的,不會受到分詞錯誤的影響。
我們將“由字構(gòu)詞”的方案應用到詞性標注問題上,讓漢字承載分詞和詞性的雙重信息,即該字所屬詞的詞性標記(n、v等)以及該字在詞中的詞位信息(B、M 、E、S)。例如:“范獻子/nr” ,“范”為詞首 B,“子”為詞尾E,“獻”為詞內(nèi)字M 。則詞性標注格式為“范 B-nr,獻 M-nr,子 E-nr”。語料樣例見表 5(“分詞格式”列除外)。
在3.2節(jié)的分詞實驗中,使用語言學特征時,我們得出模板“2W+2+C1′”最適合《左傳》的自動分詞,分別增加聲、調(diào)特征也都有不同程度提高,在模板“2W+2+C1′24”上效果最佳,因此在基于字的一體化標注時,我們設(shè)計了“2W+2”、“2W+2+C1”、“2W+2+C1′” 、“2W+2+C1′2” 、“2W+2+C1′4” 、“2W+2+C1′24”六個模板進行對比實驗。為了和上文的實驗結(jié)果對比,對一體化標注分別給出了分詞和詞性標注的評測結(jié)果。
從實驗結(jié)果來看:
(1)分詞精度有較大提升。表9與表7相比,一體化實驗效果均優(yōu)于單獨分詞,F值最多提高了0.66個百分點,說明一體化方法能將漢字的詞位信息和所屬詞的詞性信息結(jié)合起來,有效提高分詞效果。
(2)詞性標注精度明顯提升。表9與表8中基于BestSeg文本的詞性標注最好結(jié)果相比,F值提高了2.83個百分點,說明一體化方法能有效減少“兩步走”方法分詞錯誤導致的擴散。
表9 一體化分詞標注評測結(jié)果
(3)字符分類依然是有效特征,增加聲、調(diào)特征性能并不穩(wěn)定。由于測試語料的標準切分單位總數(shù)是固定的,從召回率上考慮,分詞最佳模板為“2W+2+C1′2” ,詞性標注最佳模板為“2W+2+C1′4” ;從綜合性能上考慮,“2W+2+C1′”是比較穩(wěn)定的方式,研究者可以根據(jù)側(cè)重點的不同進行取舍。當然,更好的特征模板仍然是我們進一步尋找的目標。
從平均時間消耗(Tave)上來看,一體化方法在時間開銷上,確實比較大。本文實驗采用的硬件配置為Intel四核處理器,4G內(nèi)存。3.2節(jié)分詞實驗Tave為326秒;3.3節(jié)詞性標注實驗Tave為6 732秒,約1.87小時;3.4節(jié)一體化方法Tave為98 945秒,約27.48小時。雖然分詞標注一體化方法性能優(yōu)于兩步方法,但由于分類的類別數(shù)量大,時間消耗也大了很多。
總的來說,一體化方法不僅提高了分詞精度,詞性標注效果也有了明顯提升。由于先秦語料庫的建設(shè),往往是人工標校出一部分語料作為訓練數(shù)據(jù),使用一體化方法來標注,可以滿足實際需要。而在訓練時間的開銷方面,問題并不是很大,因為20多種先秦文本的規(guī)模總共只有200多萬字,訓練語料的數(shù)量更是有限的。
本節(jié)對一體化最佳標注結(jié)果的分詞和詞性標注錯誤類型做了分類統(tǒng)計(見表10)。在分詞錯誤中,未登錄詞和分詞標準問題導致的錯誤占到77.97%。測試語料中未出現(xiàn)于訓練語料的未登錄詞(OOV)共1817個,OOV率為8.75%,切分個數(shù)為1 693個,正確個數(shù)為1214個,準確率為71.70%,召回率為66.81%,F值為69.17%。在錯誤的603個未登錄詞中,多字詞占97.18%。同時,多字詞的錯誤率占全部錯誤總數(shù)的70.87%??梢?多字詞是古漢語信息處理的難點。分詞標準問題是指,機器自動切分的結(jié)果,分與合在意義上是兩可的,只是與人工標注不同。切分歧義中,交集型歧義很少,組合型歧義居多。我們采用全切分算法統(tǒng)計了測試語料中的交集型歧義字段,總計只有84個段型和128個段例,其中錯誤的僅為9例。組合型歧義錯誤,則多是將二字詞誤切為兩個單字,這主要是這些字在訓練語料中多為單字詞。人工標注錯誤而機器標注正確的詞也有部分存在,這也可以看到自動標注具有一定的自動糾錯能力。
表10 分詞標注錯誤統(tǒng)計
在詞性標注錯誤中,n、ns、nr三個詞類之間混淆錯標的占全部標注錯誤的37.04%,這源于《左傳》中的姓氏多取自爵位、職官、封邑等,造成識別困難。由n、v混淆錯標以及錯標為n或 v的共占43.89%,其中“v → n” 占 13.43%,“n → v”占9.48%。這是由于古漢語詞的兼類和活用現(xiàn)象比較頻繁,造成詞類消歧困難。
本文在古代漢語自然語言處理領(lǐng)域進行了新的探索。在《左傳》傳文上的一系列實驗表明,基于CRF的分詞標注一體化方法可以用于古代漢語語料庫建設(shè)。與兩步方法相比,分詞、詞性標注性能均有明顯提高,開放測試的F值分別達到了94.60%和89.65%。該方法可以應用于先秦其他語料的自動標注工作,有效降低人工標注的工作量,加快語料庫的建設(shè)。從《左傳》得到的訓練模型,可以用于先秦語料中內(nèi)容相近的語料的自動標注,如《公羊傳》、《谷梁傳》和《呂氏春秋》等,給我們的項目進展帶來了巨大的效益。
我們下一步的工作主要是:(1)考慮先秦語料中詩詞、語錄體、典章制度等與《左傳》差異較大的文本的自動標注。采取“人工標注訓練語料→機器學習自動標注→人工校對”的方式,完成先秦25種傳世文獻的切分標注和后期校對,建立起先秦文獻切分標注語料庫。(2)繼續(xù)探索改善CRF標注性能的特征模板和方法,如采用多分類器集成技術(shù)和遷移學習技術(shù)。(3)進一步細化詞類體系。本文分詞標注遵循的是《先秦漢語分詞標注規(guī)范基本集》,僅僅給出了21個詞類標記,對各詞類的內(nèi)部子類沒有細分,今后要嘗試對詞類進一步擴展,制定出《擴展集》,將先秦漢語的語料庫加工技術(shù)研究深入下去,在此基礎(chǔ)上進行詞匯統(tǒng)計和知識檢索的工作。
致謝 感謝碩士生于麗麗、汪青青、肖磊同學在語料標注校對方面所做的大量工作。
[1] 尉遲治平.計算機技術(shù)和漢語史研究[J].古漢語研究,2000,3:56-60.
[2] 魏培泉,黃居仁,等.建構(gòu)一個以共時與歷時語言研究為導向的歷史語料庫[J].中文計算語言學期刊,1997,2(1):131-145.
[3] 邱冰.基于中文信息處理的古代漢語分詞研究[J].微計算機信息,2008,1:100-102.
[4] 白拴虎.漢語詞切分及詞性標注一體化方法[C]//計算語言學進展與應用.北京:清華大學出版社,1995:56-61.
[5] Hwee Tou Ng and Jin K iat Low.Chinese Part-of-Speech Tagging:One-at-a-Time or A ll-at-Once?Word-Based or Character-Based?[C]//Proceedings of ACL-04:277-284.
[6] Yue Zhang and Stephen Clark.Joint Word Segmentation and POS Tagging using a Sing le Percep tron[C]//Proceedings of ACL-08:888-896.
[7] 楊伯峻.春秋左傳注(修訂版)[M].北京:中華書局,1990.
[8] 陳克炯.春秋左傳詳解詞典[M].河南:中州古籍出版社,2004.
[9] 宋彥,等.一種基于字詞聯(lián)合解碼的中文分詞方法[J].軟件學報,2009,9:2366-2375.