留金騰,宋 彥,夏 飛
(1. 香港城市大學 中文、翻譯及語言學系,中國香港;2. 香港理工大學 香港專上學院,中國香港;3. 華盛頓大學 語言學系,美國 華盛頓 西雅圖)
在互聯(lián)網(wǎng)以及數(shù)字化浪潮的推動下,大量的文本資源變得易于獲取,從而推動了語料庫技術(shù)的發(fā)展。為了在詞匯學、語義學和語法學等方面深入研究,人們構(gòu)建了大量帶標注語料庫(Labeled Corpus)以提供豐富的描述信息以供進行多層次的分析和檢索。然而,由于實際應用的需要,這些語料庫大多都是基于現(xiàn)代語言;以漢語為例,多數(shù)語料庫都來自近二十年的新聞及通訊文本(如文獻[1-2])。在古漢語*根據(jù)文獻[10]的說法,漢語詞匯史分期,可以東漢為界,在大約公元3世紀以前的是上古漢語;東漢其下的是中古漢語;南宋(大約公元13世紀)之后,則是近代漢語;五四運動(公元1919年)以來,就是現(xiàn)代漢語。方面,這類帶標注的語料庫資源極度匱乏。隨著漢語研究的深入,對于這類資源的需求也變得更為迫切。由于古漢語相對于現(xiàn)代漢語有很多不同之處,無法簡單地把現(xiàn)代漢語的資源運用于古漢語的研究和分析,建立專門的古漢語語料庫尤為重要。
在此基礎(chǔ)上,我們選擇以上古漢語文獻《淮南子》為基礎(chǔ),建構(gòu)了一個上古漢語分詞及詞性標注*分詞及詞性標注是最基本的語料庫標注信息。實際上,有了分詞和詞性標注信息,很多古漢語的相關(guān)研究都可以得到很大的幫助。語料庫。我們分析了上古漢語的一些特點,包括構(gòu)詞、形態(tài)和語素等方面,并針對這些特點提出了可能影響分詞和詞性標注的問題。進而,為了有效提升語料庫構(gòu)建的效率,并且盡量降低人工標注的工作量和主觀標注錯誤率,我們構(gòu)建語料庫的過程采用了自動標注與人工校正相結(jié)合的方法,首先利用自動方法為語料切分詞語并進行詞性標注,然后在自動標注的基礎(chǔ)上進行人工校正。值得提出的是,我們的自動分詞和標注方法有效利用了現(xiàn)代漢語的帶標注資源,并使用領(lǐng)域適應(Domain Adaptation)方法顯著提高了分詞和標注的準確率,降低了后續(xù)的人工校正工作量。在人工校正的同時,我們還分析了自動標注存在的問題,并總結(jié)了不同的錯誤類型,為改進后續(xù)的自動方法提供了指導。最終,我們僅使用較少的人力和時間便得到了一個擁有接近14萬詞規(guī)模的高質(zhì)量上古漢語分詞及詞性標注語料庫,這對于古代漢語詞匯研究及解讀經(jīng)典,有莫大的助益。同時,以標注得到的語料庫為基礎(chǔ),可以更方便地對更多古漢語資源進行分析和處理。
本文的結(jié)構(gòu)描述如下: 第2節(jié)為相關(guān)工作,我們選取并描述了兩個具有代表性的語料;第3節(jié)是以《淮南子》為基礎(chǔ),針對上古漢語的語言特點的分析,并從中提出了一些有助于自動分詞和標注的特征;第4節(jié)描述了我們的方法,特別是采用領(lǐng)域適應技術(shù)對上古漢語進行分詞和標注的量化分析,同時總結(jié)了人工校正過程中發(fā)現(xiàn)的分詞及標注問題;第5節(jié)是該語料庫的詞匯及詞性統(tǒng)計分析;最后一節(jié)是對本文的總結(jié)。
目前,上古漢語語料庫資源還較為稀少,特別是帶標注的語料庫尤其稀缺。以下我們介紹兩個(分別為帶標注和不帶標注)現(xiàn)存較大規(guī)模、覆蓋較為全面的古代漢語語料庫。
該語料庫是中國臺灣“中央”研究院古漢語語料庫(Academia Sinica Ancient Chinese Corpus)的次級語料庫[3],從1995年開始輸入及標注,計劃輸入包括先秦至西漢時期七十多種的文獻,現(xiàn)今完成并開放使用的有三十六種文獻,其中包括十三經(jīng)和先秦諸子,以及一部分西漢的著作。該上古語料庫包括大約2 500 000漢字,是現(xiàn)今最大的上古漢語帶標記語料庫。
該語料庫進行了分詞和詞性標注,并以檢索為主要使用目的,提供了以詞為單位的線上檢索功能。因此,檢索結(jié)果對于分詞的準確性和一致性較為敏感。如果出現(xiàn)切分甚至標注不一致的情況,則可能無法得到檢索結(jié)果*例如,我們檢索“司馬”及“司馬子反”,分別得到: “酣戰(zhàn)之時,司馬(NA1)[+others]子反(NB1)[+prop]渴而求飲””以及“臨戰(zhàn),司馬子反(NB1)[+prop]渴而求飲”其中關(guān)于“司馬子反”的兩個記錄具有不同的標注。“司馬”是戰(zhàn)國時期的官職,并不是罕見詞,該語料庫針對“司馬”一詞具有不一致的切分結(jié)果,其中前一個切分和標注更為合理。。另一方面,該語料庫采用的是其自定義的詞性標注規(guī)范,與現(xiàn)代漢語的流行標注規(guī)范[1]有較大差別,如果需要對古今漢語進行比較研究,會帶來一定困難。
該語料庫[4]收錄了先秦至民國的古代漢語語料,包括經(jīng)、史、子、集各類文獻,主要有《十三經(jīng)》、二十五史、諸子百家、《全唐詩》、《全宋詞》、《全元曲》、《道藏》、《大藏經(jīng)》等,超過1億7千萬字,可能是現(xiàn)存最大可供在線檢索的古代漢語語料庫。
盡管該語料庫規(guī)模較大,但該語料庫并未進行分詞及詞性標注,所以只能提供給學者檢索文獻及語句之用,在檢索時可以設(shè)定最多顯示字數(shù),并且可自定檢索字詞左、右的字數(shù),提供窗口模式的檢索結(jié)果。例如,檢索“羽民”,并設(shè)定左、右各顯示10個字的窗口,就會出現(xiàn)如下的結(jié)果,如表1所示。
表1北京大學中國語言學研究中心古代漢語語料庫檢索結(jié)果
有角,乗之壽二千歲。羽民國,其民皆生羽毛。卵比翼。一曰在南山東。羽民國在其東南,其為人長奔晉。又【山海經(jīng)】羽民國,其人長項,身生羽仆,獸名?!静┪镏尽坑鹈駠蝎F,文似豹,名虎
該語料庫為古代漢語研究提供了很大的幫助。然而,因為沒有分詞和詞性標注信息,對古代漢語詞匯和語法的研究幫助有限,如若對該語料進行分詞和詞性標注,進一步提升語料庫的應用價值,對古漢語文學、語言、文化研究將更有裨益。
我們的工作使用《淮南子》一書作為標注語料?!痘茨献印肥俏鳚h淮南王劉安(前179-前122)及其門客集體撰寫的一部著作,是模仿《呂氏春秋》而編撰的,其內(nèi)容廣博,包覽各種知識,其詞匯豐富,并且具有多樣性,是上古漢語比較有代表性的作品*西漢(前206-9)建立了中國歷史上繁榮的統(tǒng)一國家,其科技、文化相比于先秦時期有了較大的發(fā)展,社會生活更為豐盛,促使語言詞匯的豐富與發(fā)展,新的詞語不斷產(chǎn)生,形成新的語言面貌。而且,西漢是上古漢語向中古漢語發(fā)展的階段,學者一般認為漢語復音化是在東漢時開始迅速加快[16-17],而《淮南子》作為西漢文獻,介乎先秦漢語與東漢漢語之間,可以預見,這一時期的漢語既逐漸增加復音詞匯,又保留較多先秦至漢初的上古漢語詞匯,其詞匯內(nèi)容是很豐富的。。因此,以本書作為語料可以保證我們得到的帶標注語料庫對上古漢語具有較高的覆蓋度,并且更方便將來以此為基礎(chǔ),將標注資源擴展到不同的上古漢語文獻。這一節(jié)我們將介紹一些基于我們預料中的上古漢語中可能對分詞和詞性標注產(chǎn)生影響的特點。
通常情況下,在上古漢語中,一個字便可以獨立成詞。然而,除了這些單音詞之外,上古漢語也已經(jīng)有了復音詞[5],這些詞在構(gòu)成后,每個單字變成詞的一部分,這些字構(gòu)成的復音詞很容易產(chǎn)生詞語切分的歧義。同時,這些構(gòu)成復音詞的字,即使本來有各自的意義,一旦成為復音詞后,它們本身的詞義便可能與新形成的詞義不同,因此一定程度上也會帶來詞性標注的歧義。例如,“春”和“秋”本來是兩個季節(jié),如《管子·形勢解》: “故曰: 春/秋/冬/夏/,/不/更/其/節(jié)/也?!焙铣梢辉~則應解釋為“年”,也代表年歲,如《戰(zhàn)國策·秦策》“王/之/春秋/高/,/一/日/山陵/崩?!倍笥肿?yōu)闀r代的稱呼: 周代的春秋時期,如《論衡·龍?zhí)摗贰按呵?之/時/,/龍/見/于/絳/郊?!边@類單音復音同步使用的現(xiàn)象在上古漢語中非常普遍,然而在現(xiàn)代漢語中卻一般較為少見,前述單音詞分開使用時,一般要加上詞綴,如“天”、“季”等。下面我們列出上古漢語中的復音詞的幾種形式,并指出他們可能帶來的分詞或者詞性標注的困難。
3.1.1 構(gòu)成新義
由本身有意義的語素組成,形成新的概念,表達一個與原本意義不同的詞。例如,左右(君主的近臣)、執(zhí)圭(戰(zhàn)國時代楚國的一個爵位)、股肱(君主的得力大臣)。這一類詞在標注的時候,需要特別注意意義的變化所帶來的詞性轉(zhuǎn)變。
3.1.2 并列復合
由意義相同、相近,甚至相反的語素組成,它們在單獨使用和合成使用的意義都沒有變化,一般合成使用時,是為了配合句子的音節(jié),也可以說是為了配合語法的需要而結(jié)合的,例如,布施、積聚、寂漠、仁義、禮樂。而反義復合詞有的是同時總括兩面的意義,并非實指,如賞罰、進退。
3.1.3 偏正復合
同現(xiàn)代漢語的偏正結(jié)構(gòu),前一個語素修飾后一個語素,形成的意義一般沒有變化,通常也可以將其中各個單音字分開使用,然而由于其結(jié)構(gòu)和意義很固定,使用頻率又比較高,所以也當視作復音詞。如: 明主、道術(shù)、美人等。
3.1.4 意義偏指
由同類或反義的語素組成,結(jié)合后只保留其中一部分的意義,或者是淡化另一部分的意義。例如,禽獸(只表示獸類)、國家(只表示諸侯封地“國”,不表示大夫封地“家”)、肌膚(表示皮膚,沒有肌肉之義)、無有(指“無”)、好惡(指“好”)。
3.1.5 特指和泛指的轉(zhuǎn)化
由本有所特指的語素組成,本身意義沒有變化,但整體的意義指涉更寬泛了。例如,骨骸(本指骨頭,轉(zhuǎn)化為泛指身體)、江河(本指長江和黃河,后則泛指河流,由此會產(chǎn)生詞性從專有名詞到一般名詞的變化)。另外還有由本來泛指的意義,合并后轉(zhuǎn)為特定的意義。例如,北面(稱臣的特指,從LC到VV的詞性變化)、三王(特指遠古三皇*上古漢語中,“三皇”常常寫作“三王”。如《禮記·內(nèi)則》: “凡養(yǎng)老,五帝憲,三王有乞言?!薄稇?zhàn)國策·秦策一》: “雖古五帝、三王、五伯,明主賢君,常欲坐而致之,其勢不能,故以戰(zhàn)續(xù)之。”《莊子·天運》: “夫三王五帝之治天下不同,其系聲名一也。”。,一般指伏羲、神農(nóng)、女媧)、五帝(特指上古五帝,一般指黃帝、顓頊、帝嚳、帝堯、帝舜)。
另外,上古漢語還存在一些單純復音詞,主要有: 1. 疊音詞,例如,昭昭、曠曠;2. 雙聲詞,例如,蟋蟀、薎蒙;3. 疊韻詞,例如,籠蒙、常羊等。除此之外,一般的古代漢語都應視為單音詞,即使有些使用頻高,意義緊密的兩字詞,我們也只能視為是詞組,而不是詞語,例如,“異類”、“無端”等。而有的是在古漢語的語法下,不能成詞,例如,“喜不以賞賜”,是說用“賞”(禮物)來“賜”(贈送)給別人,而并非把“賞賜”當作為一個詞語。正因為大多數(shù)單音詞以及上述一部分復音詞的存在,給詞語切分帶來了一定困難。
除了復音詞的構(gòu)成特點,上古漢語在詞語的組成模式方面,也存在一些形態(tài)特征?;谏弦还?jié)所描述的復音詞的構(gòu)詞特點,我們更傾向于尋找一些顯式的詞語形態(tài)特征,這些特征將更容易被歸納并使用到自動分詞和詞性標注中。
3.2.1 詞語形態(tài)
在上古漢語中,有一部份復音詞是由同義、近義或者同類形的單音字(或單音詞)組成的。這一特點反映在上古漢語中,漢字中同一偏旁的字,一般具有近義或同義關(guān)系。我們找出《淮南子》書中一些相同偏旁并組成復合詞的例子,如表2所示。我們希望這種特征可以幫助分析一些復音詞語的構(gòu)成。
表2 同偏旁詞語示例
同時,利用偏旁的性質(zhì),也可以幫助自動標注過程更準確地判定詞性。依照偏旁的性質(zhì),可以一定程度上判定是詞性的大類,例如,動詞或者名詞。以上述例子來看,“/足”部的復合詞,一般都是動詞,而具有“木”偏旁的,都是名詞,甚至可以分出凡“木”部的都是樹名、木材或木制器具?!扳?心”部的則大多表示心情的狀態(tài),較多是形容詞。實際上,這一特征在現(xiàn)代漢語中也適用[6],在現(xiàn)代漢語的詞性標注實驗中也證實了該特征的有效性。
3.2.2 詞語模式
在上古漢語中,一種非常普遍的詞語模式是疊字組合*實際上,現(xiàn)代漢語也滿足該特征。。這些疊字組合很多情況下都應當被當作一個詞。此外兩組疊字一般也是詞,如果結(jié)合上述的偏旁來看,同偏旁的AABB疊字,則皆是詞。例如,睢睢盱盱、昧昧晽晽、浩浩蕩蕩、洞洞灟灟等詞。而且,在我們的語料中,這類詞語通常具有形容詞屬性,因此這類詞語模式特征,可以對自動和人工詞性標注帶來幫助。
3.2.3 前后綴特征
上古漢語中有些詞綴相對固定,并和它們之前或之后的字組成詞語。通常某個單字和這些詞綴組成的詞語代表著某一類事物的意思,例如,“者”*這里補充一下,“者”字有時并不作詞綴用,而是和“也”字一起使用,用于判定句。例如《淮南子·繆稱訓》: “道者,物之所導也;德者,性之所扶也;仁者,積恩之見證也;義者,比于人心而合于眾適者也?!贝颂幍摹啊摺病笔且唤M判定句,當中的“者”字并不能視為詞綴。,和它組成詞語以表示某種人,例如,“狂者”,也可以代表某種物類,例如,“羽者”表示鳥類,“毛者”表示獸類(表3)。
表3 古漢語詞綴示例
這些詞綴對詞性標注較為有益,例如,凡綴有“者”、“氏”、“公”、“伯”等字的復音詞,大多可以標為名詞。其外,綴有“然”字的復音詞,如果其后是動詞的話,這個“V+然”構(gòu)成的詞通常便是副詞。
3.3.1 兼類
兼類是說一個詞經(jīng)常具有兩個不同詞類(性)的功能[7],這種情況在古漢語中大量存在,一般來說,這種兼用的漢語詞匯,大部分體現(xiàn)在名詞、動詞兼用上,也延續(xù)到現(xiàn)代漢語里,例如,“效”,現(xiàn)代漢語因其動詞和名詞詞性而有“效勞”和“功效”二詞。下面舉《淮南子》中的例子,其中NN,VV和JJ分別為名詞、動詞和形容詞(表4)。*這些詞性均使用自文獻[14]所描述的詞性標注體系。
表4 古漢語兼類詞語示例
兼類詞語的標注,需要依據(jù)他們的位置和語法功能做出判斷。對于這類詞語的詞性標注,有助于在將來對其所處文本進行句法分析。
3.3.2 活用
活用不是某種詞類的固有用法,只是其偶爾出現(xiàn)的一種特例[7],這種臨時改變詞性的做法,在古漢語中非常常見(表5)。
表5 活用詞語舉例
表中“新”本為形容詞(JJ),“西”是方位詞(LC),“鏡”乃一般名詞(NN),但活用時都可以做一般動詞(VV)。因此,詞的活用對于自動標注而言較為困難,通常需要上下文的詞性序列幫助判定其活用詞性。而對于人工標注而言,可以通過觀察其句法位置幫助判定詞性。
我們采用賓州中文樹庫(CTB)[1]作為我們語料庫的分詞和詞性標注標準[8-9]*雖然這些規(guī)范是針對現(xiàn)代漢語提出的,但對于古漢語的處理依然具有指導意義。。我們的工作分為兩部分,自動標注以及人工校正。在詞語切分和詞性標注兩個環(huán)節(jié),自動標注和人工校正是交替進行的,其流程可以簡單描述為(圖1):
圖1 自動標注和人工校正流程
下面分別就自動分詞和標注的過程以及人工校正中發(fā)現(xiàn)的錯誤及總結(jié)分別描述我們的工作。
老家永新是老蘇區(qū),我們村子里有不少人當了紅軍。第五次反“圍剿”之后,他們都隨紅六軍團參加了長征。我們村是全縣北鄉(xiāng)最大的山村,當紅軍的有上百人,全國解放后回鄉(xiāng)探親的老紅軍只剩下四個人。他們都被尊稱為長征家。每一個長征家回鄉(xiāng)探親的時候,縣里會派幾名挑夫并配有幾匹馬接送他們及其家眷。他們抵家的那天,家門口會被圍得水泄不通,聞訊而來看熱鬧的人絡(luò)繹不絕。這種獨有的榮耀散發(fā)出的光暈像久雨之后的陽光,絢爛得讓人眼花繚亂。
針對自動分詞和詞性標注,我們面臨幾大挑戰(zhàn): (1)理想情況下,我們應該使用已有的古漢語標注語料作為訓練數(shù)據(jù),而這并不容易得到,甚至因為標注標準不同而無法使用; (2)由于沒有現(xiàn)成的上古漢語訓練語料,如果使用不太相關(guān)的訓練數(shù)據(jù),在古漢語上得到的結(jié)果很可能并不理想,進而加大后續(xù)的人工標注的難度。因此,我們需要在數(shù)據(jù)和方法上有效適應這一特殊的應用??紤]到上述問題,我們嘗試使用領(lǐng)域適應(Domain Adaptation)方法,并以一定量來自目標領(lǐng)域的種子數(shù)據(jù)(Seed Data)為基礎(chǔ),借助現(xiàn)代漢語資源,有效地提高分詞和詞性標注的準確率。
因此,在訓練語料方面,我們采用整個賓州中文樹庫7.0版(CTB7)作為訓練基線(Baseline)模型的資源。針對前面提到的挑戰(zhàn),我們考慮到: (1)由于我們沒有其他現(xiàn)成的古漢語標注資源作為訓練數(shù)據(jù),因此使用已知較好的現(xiàn)代漢語資源是有效且易于推廣的方法,同時配合領(lǐng)域適應技術(shù),可以一定程度上解決語料差異帶來的負面影響; (2)由于我們使用CTB7的切分和標注標準,采用CTB7作為標注數(shù)據(jù)不會造成標注結(jié)果偏向于其他訓練語料的標注標準,從而使得后續(xù)的校正和分析亦會更容易;而且,就我們所知,目前也沒有使用CTB7標注標準的古漢語資料可供使用。對于最終的分詞和詞性標注,我們使用的種子數(shù)據(jù)是從古漢語語料中隨機選取并人工標注的非常有限規(guī)模的一個數(shù)據(jù)集,用于提供基本的字詞特征作為訓練數(shù)據(jù)。
為了較為準確地評估自動標注的效果,我們隨機選取了占整個數(shù)據(jù)約10%的子集作為測試語料。值得說明的是,這10%的數(shù)據(jù)是從《淮南子》各章節(jié)中選出的,包括了哲學、政治、人文、建筑、天文、地理、動物、植物等各個主題,有效涵蓋了整個語料中的大部分詞匯,以這部分數(shù)據(jù)作為測試語料,所得出的結(jié)果,將可以更有效地反映出我們的自動標注系統(tǒng)的性能。針對這部分語料我們完全使用人工分詞和標注,以保證其質(zhì)量,并且這樣做會有效避免自動標注的結(jié)果帶來的偏向性。人工標注的種子和測試數(shù)據(jù)的統(tǒng)計信息如表6所示。
表6 訓練及測試數(shù)據(jù)的統(tǒng)計信息
在領(lǐng)域適應方面,我們采用文獻[10]所描述的半監(jiān)督學習(Semi-supervised Learning)領(lǐng)域適應技術(shù)將基于現(xiàn)代漢語訓練的模型應用于古漢語的分詞任務中。其核心是采用描述長度增益(Descriptive Length Gain, DLG)對古漢語生語料進行非監(jiān)督學習(Unsupervised Learning),從而得到的所有可能成詞字串,并將其轉(zhuǎn)化為特征加入訓練語料中,使得訓練的模型傾向于對該類型的測試語料有更強的標注能力。具體地,DLG是Kit等[11]提出的一種基于文本信息量(熵)的文本字(詞)串評價方法,并有效地使用在了詞匯獲取的任務中[12]。具體的方法可參考文獻[10],我們在此不再贅述。值得提出的是,我們的DLG特征來自于所有可用訓練數(shù)據(jù)(CTB7+Seed),而且我們針對文獻[13]提出的基于特征擴增(Feature Augmentation)的領(lǐng)域適應方法,將來自CTB7的特征擴增為具有通用領(lǐng)域(General Domain)和源領(lǐng)域(Source Domain)標識的兩部分,同時將來自種子數(shù)據(jù)的特征擴增為具有通用領(lǐng)域和目標領(lǐng)域(Target Domain)標識的兩部分,然后在此基礎(chǔ)上進行模型的訓練,使得模型可以有效地針對不同領(lǐng)域的特征估計不同的權(quán)重。相應地,測試數(shù)據(jù)包含的特征也采用與種子數(shù)據(jù)一致的擴增方案。
分詞方面,我們采用了基于字標注的條件隨機場(Conditional Random Fields,CRF)模型,使用了被廣泛采用的6-Tag標注集(B,B2,B3,M,E,S)[10,14-15],以及DLG特征和上文所描述的古漢語語言學特征。最終的特征模版(Template)如表7所示。其中所有的字特征屬于基本特征(構(gòu)成基線系統(tǒng)的特征),其余為附加特征。模式和詞綴都屬于布爾(Boolean)類型(即滿足或者不滿足某類標記)的特征,僅僅描述該字(及其上下文)是否可以作為某種類型或者某種詞綴。例如,字串“睢睢盱盱”可以匹配上AABB模式,則對于賦予每個字相應的特征,如“睢A /睢A /盱B /盱B”,其余字串無法匹配上的,則標為Null。對于詞綴而言,如字符串“伏犧氏”,我們在“氏”字這一常用詞綴上加入詞綴特征標記,該字符串對應的詞綴特征則為“伏 Null/犧 Null氏/X”。對于偏旁特征而言,直接標記該字的主要偏旁是何種偏旁即可,例如,前文表2所示。其中,偏旁和模式特征均來自于當前字本身,而詞綴特征則來自于人工總結(jié)出的一些詞綴例子,如前綴“有”,后綴“氏”、“者”、“公”、“伯”、“然”等等,如表7所示。
表7 分詞模型使用的特征模版
詞性標注方面,我們也采用了CRF模型以及與分詞類似的特征模版,不同之處在于,使用詞而不是字作為基本的標注單元。特征模版如表8所示,采用了與分詞系統(tǒng)類似的基本特征和附加特征。這里,模式特征是當前詞的模式(如AABB等),詞綴特征則是該詞的前后綴字(例如,“伏犧氏”的前后綴特征為“伏”和“氏”),而偏旁特征則是前后綴字的偏旁信息。
表8 詞性標注模型使用的特征模版
需要說明的是,我們采用串行的分詞+標注的方案,而不是分詞和詞性標注的聯(lián)合解碼(Joint Decoding),是基于下面的考慮: (1)雖然使用聯(lián)合解碼可以得到更好的分詞性能,但在詞性標注上的結(jié)果卻可能并不理想,同時采用這種方法訓練模型需要耗費巨大的計算資源(相當于使用了非常多的類別,訓練速度很慢),往往周期太長; (2)由于采用人工驗證的標注方式,分詞的結(jié)果可以得到迅速驗證并更正,而且古漢語詞粒度和句長通常較小,人工驗證也較為方便。因此在驗證的分詞基礎(chǔ)上再進行詞性標注可以得到更好的標注結(jié)果。
我們的分詞和詞性標注實驗結(jié)果如表9和10所示,其中,分詞結(jié)果包含了準確率(Precision),召回率(Recall)和F值(F-score),詞性標注結(jié)果使用標注精確率(Accuracy)來描述。表中基本特征來源指字詞特征來自于哪個語料(或者兩個語料的并集),DLG,RPX是指我們的附加特征,Domain指采用特征擴增方案。為了進一步展現(xiàn)不同系統(tǒng)的差距,我們還使用了錯誤率降低(Error Rate Reduction, ERR)指數(shù)來描述各個系統(tǒng)相對于基線系統(tǒng)*基線系統(tǒng)僅采用CTB7作為基本特征的來源,同時不使用任何附加特征。表9和表10中的第一行分別展示了分詞和詞性標注基線系統(tǒng)的性能。② 其中領(lǐng)域適應方法擴增了DLG和X特征。來自CTB7和Seed的這些特征分別對應原領(lǐng)域和目標領(lǐng)域。的性能提升。
表9 基于不同訓練數(shù)據(jù)和方法的分詞結(jié)果②
表10 基于不同訓練數(shù)據(jù)和方法的詞性標注結(jié)果*其中領(lǐng)域適應方法擴增了RPX特征,擴增方式同上。
很明顯地,表9顯示,在分詞方面基于有限的種子數(shù)據(jù)訓練(指基本特征的來源)得到的模型比基于CTB7得到的模型具有更好的性能,這充分反映了古漢語在構(gòu)詞,詞性方面與現(xiàn)代漢語的不同。相對于測試數(shù)據(jù),CTB7可以認為是領(lǐng)域外(Out-of-domain)數(shù)據(jù),因此即使其規(guī)模遠大于種子數(shù)據(jù),也無法得到更好的性能。其次,采用了半監(jiān)督學習方法(+DLG)的領(lǐng)域適應技術(shù)可以進一步增強基于任何訓練數(shù)據(jù)訓練的分詞模型, 對其準確率均會帶來提升*實際上,考慮到古漢語單子詞占絕大多數(shù)的情況,如果將古漢語統(tǒng)一切分成一個個單字詞,甚至可以得到更高的F值。然而,我們的目標是語料庫建設(shè),單字切分會為正確標注和修正復音詞帶來困難,而我們也希望使用已有資源對古漢語標注進行有效指導。。加入古漢語的語言學和形態(tài)特征(RPX)也可以有效提高整體的分詞性能。這些特征可以幫助分詞系統(tǒng)得到較高的分詞準確率,但同時犧牲了召回率。表10顯示,在詞性標注方面*采用CTB7和種子數(shù)據(jù)作為聯(lián)合訓練數(shù)據(jù)(基本特征來源)可以得到比單獨使用各自訓練數(shù)據(jù)更好的性能,這一點與分詞結(jié)果稍有差異,其原因可能來自兩個方面: 第一,詞性標注對于現(xiàn)代漢語和古漢語的差別沒有分詞那么敏感;第二,我們的種子數(shù)據(jù)規(guī)模有限,不足以反映出其相對于CTB7的優(yōu)勢。,這些特征同樣有效提高了系統(tǒng)性能,實際上證實了我們之前對于古漢語詞匯的分析,這些詞所包含的語言學和形態(tài)特征的確表現(xiàn)出非常強的對詞性的指導作用*限于篇幅,我們在此并未分別測試各個不同的特征對系統(tǒng)性能的影響。。加入這些特征在詞性標注方面對系統(tǒng)的輸出結(jié)果帶來了較大的改善,進而減少了后續(xù)人工校正的工作量和難度*本語料庫的人工分詞和標注是由研究上古漢語詞匯和詞義的學者擔任。在沒有自動標注協(xié)助的情況下,對《淮南子》進行分詞和詞性標注,一個人大約需要九個月時間。在本文提出的方法和實驗環(huán)境下,校正工作則只需要大約兩個月時間,效率得到了大幅提升。。最后,使用特征擴增的方法之后,不論對于分詞還是詞性標注系統(tǒng)的性能都帶來了可觀的增長。系統(tǒng)在考慮了整體訓練集的同時,對于關(guān)聯(lián)到不同領(lǐng)域的特征進行了有效區(qū)分,在聯(lián)合使用CTB7和種子數(shù)據(jù)集進行訓練的基礎(chǔ)上得到了更好的分詞和詞性標注結(jié)果。表9和表10中所展示的相對錯誤率的降幅充分說明了我們方法的有效性,同時也更直觀地展現(xiàn)出使用不同特征和方法的差別。
通過上面的工作,我們得到了基本的分詞和詞性標注結(jié)果,并進行人工校正。在校正過程中,我們總結(jié)出了一些常見的自動切分及詞性標注錯誤,分析如下。
4.2.1 詞綴的黏合不準確
在自動切分結(jié)果中,存在相當一部分詞綴和詞語的組合切分不準確的情況。以“氏”字為例,在自動分詞時只要前面搭配單一的姓氏,一般都能準確地分為一詞,例如,“陳氏”、“劉氏”、“趙氏”等。但如果前面搭配的是復姓或其他名稱,便不能準確地切分。例如,“匠驪氏”便會被切分為“匠驪/氏”,“夏后氏”被切分為“夏后/氏”,“仲孫氏”被切分為“仲/孫氏”等。其他詞綴也存在類似復音詞干擾的情況,其中“然”字最為突出,搭配單字時比較準確,在搭配兩字或以上以表示狀態(tài)時,錯誤比例較高。
4.2.2 多音詞切分不準確
這種錯誤大多出現(xiàn)在人名或地名的切分中,例如,“厘負羇”(人名)會被切分為“厘/負羇”或“厘負/羇”,或和后面的詞混在一起切分,分為“厘/負/羇遺”、“厘/負/羇遺”、“厘/負/羈止”等。這種人名或地名的切分錯誤,可以使用迭代(Iterative)校正和訓練的方法,校正其中具有代表性和高覆蓋度的部分例子,然后再進行訓練和標注,以提高整體正確率。
4.2.3 一般詞性標注錯誤
在詞性自動標注結(jié)果中,一般的標注錯誤主要來自于現(xiàn)代漢語訓練語料中某種詞類的詞性所帶來的影響。其一是句末詞(SP)標注錯誤,上古漢語的句末詞主要有“也”、“乎”、“焉”、“哉”、“矣”等,其中以“也”的標注錯誤最明顯,大多會被標為副詞(AD),這是由于在我們所使用的現(xiàn)代漢語訓練語料中,“也”通常是作為副詞而存在的。另外,“乎”字作為表示疑問或感嘆的句末詞,則被錯誤標注為一般動詞(VV)*“乎”也有在句子中擔當介詞(P),但也大多錯標為一般動詞(VV)。;“焉”字則常被錯標為一般名詞(NN),另外小部分則被錯標為一般動詞(VV)。這些錯誤皆緣于古今漢語語法和詞義差異,錯把一些詞依現(xiàn)代漢語詞性進行標注,還有如“非”,依照CTB7標為系動詞(VC),然而在古漢語中,“非”除了作系動詞外,還有與“不”有相同的用法,應標為副詞(AD)。還有如“無”字,通常標為VE,然而“無”除了表示沒有之外,也有與“不”同樣做副詞的功能。以上有關(guān)“非”和“無”的標注錯誤也可通過校正并重新訓練得到更好的自動標注結(jié)果。
4.2.4 多義詞導致標注錯誤
在我們自動標注的上古漢語中,有兩個特別容易標注錯誤的詞。其一是“之”,該詞既是代詞(PN),表示他、它、他們等,又可表示屬格關(guān)聯(lián)詞“的”(DEG)。例如,“秋毫之末”的“之”應該是DEG,卻誤標為作為補語(Complementizer)或名詞化尾綴(Nominalizer)的DEC。其二是“為”,這個詞一般可以當作系動詞(VC)使用,但又有“做”的意思,應標為一般動詞(VV)。例如,“與高辛爭為帝”中的“為”是VV,結(jié)果被誤標為VC。有兩方面的原因?qū)е铝诉@些詞語的標注錯誤,其一是從如前面所述的現(xiàn)代漢語訓練語料帶來的差異;其二是在古漢語中,如果上下文信息及其標注序列不能對該詞的詞性進行有效指導,也會帶來標注錯誤。
4.2.5 古今語法差異導致標注錯誤
這個主要表現(xiàn)在發(fā)語詞(Literary Auxiliary Particle)上,發(fā)語詞是句首的語氣助詞,起引起下文的作用,沒有實際意義。這種情況通常不會出現(xiàn)在現(xiàn)代漢語中,所以在現(xiàn)代漢語的訓練語料中缺失了這類訓練樣本,因而在自動詞性標注時大多未能準確標注。本語料中所見的發(fā)語詞有“夫”、“今夫”、“若夫”等,我們暫且將其詞性統(tǒng)一標為其他質(zhì)詞(MSP)。
基于上面的工作,我們得到了一個約16萬字,接近14萬詞的《淮南子》分詞及詞性標注語料庫。接下來,我們從《淮南子》的詞匯及詞性方面,分析整個語料庫的詞頻、詞長和詞性標注的統(tǒng)計分布,進一步展示我們得到的語料庫。
我們構(gòu)建的《淮南子》語料庫包含11 031詞形(Word Type)。其中,除了一些語法功能詞,如“之”、“乎”、“者”、“也”、“而”、“則”等,我們特別統(tǒng)計出現(xiàn)頻率超過300以上的詞語,從中大致看出上古漢語中最為常見的詞語分布,如表11所示。有意思的是,除了大部分單音詞,“天下”是唯一使用頻率超過300的復音詞。
表11 《淮南子》中詞頻高于300的詞語及其詞性
根據(jù)統(tǒng)計,《淮南子》中絕大多數(shù)都是單字詞,而復音詞又以雙音詞為最多。詞長為三字或四字的,通常都是專名(Proper Names)或疊字詞,詞長超過四個字的詞都是數(shù)詞。詞長及詞頻的詳細統(tǒng)計信息如表12所示(語料庫中的最長詞是10字詞)??傮w上,該語料的平均詞長度為1.15。而對于不同詞形,復音詞的詞形數(shù)遠多于單字詞。從單個詞形平均使用率(詞數(shù)/詞形)數(shù)據(jù)也可以看出,復音詞相比于單字詞使用得并不頻繁。
表12 《淮南子》詞語長度頻率分布
整個《淮南子》語料庫中僅包含24種詞性,我們將各個詞性按照其詞數(shù)的頻率倒序排列,如表13所示。其中,名詞和動詞占據(jù)多數(shù),所有類型的名詞(NN、NR、NT)加起來共有38 109個,而各類動詞(VV、VE、VA、VC)總和則是32 350個。與現(xiàn)代漢語相比,我們的語料庫所包含的詞性種類顯然更少,這是因為在古代漢語里,有些句法和詞性模式并不存在。例如,DEC(補語或名詞化尾綴“的”)、DER(現(xiàn)代漢語“得”)、DEV(現(xiàn)代漢語“地”)、AS(Aspect Particle,動態(tài)助詞,如“著”、“了”、“過”)等。*實際上,古代漢語有些詞語也不能完全借用現(xiàn)代漢語的標注。例如,古代漢語的“發(fā)語詞”,可能應該具有獨立的詞性,但在本文中,我們暫時歸為MSP,這是為了保證我們的語料庫與CTB使用同一套標注系統(tǒng)。因此我們語料庫中包含的詞性標注集可以視為CTB標注系統(tǒng)的一個子集,方便將來與現(xiàn)代漢語語料庫進行比較。
表13 《淮南子》詞性標注分布
本文描述了我們構(gòu)建的基于《淮南子》的上古漢語分詞及詞性標注語料庫,并著重分析了上古漢語在構(gòu)詞及詞性方面的一些特點及其在分詞和詞性標注方面所帶來的困難。在該語料庫的構(gòu)建方面,我們采用了自動分詞和標注配合以后續(xù)人工校正的方法,利用現(xiàn)代漢語作為基線訓練語料,并輔助以非常少量的人工標注上古漢語數(shù)據(jù),使用領(lǐng)域適應技術(shù)提升自動標注的準確率,在具有高覆蓋度的測試集上證明了我們使用方法的有效性。而在人工校正的過程中,我們總結(jié)了自動分詞和詞性標注中出現(xiàn)較多的錯誤,分析了錯誤原因,同時針對部分錯誤也提出了解決方案。最終,我們得到了一個具有分詞兼詞性標注的上古漢語語料庫。在該工作中,人工工作已經(jīng)被縮減到了最低限度,相比于從零開始分詞和標注,我們已經(jīng)使得人工工作僅局限于校正一些特定的錯誤類別,并且這些錯誤很容易通過迭代校正及再次訓練得到修正,進一步縮減人工校正的工作量和難度。
通過構(gòu)建《淮南子》全本分詞及詞性標注語料,我們的方法被證明可以有效運用于古漢語標注,因此可以進一步推廣到其他語料庫上,從而利用有限的人力資源得到更多的古漢語標注語料。同時, 以《淮南子》為基礎(chǔ),我們已經(jīng)具備一定量的具有高覆蓋度的上古漢語標注資源,以其作為訓練數(shù)據(jù),可以不再依賴于現(xiàn)代漢語資源,并有效提高未來在古漢語上自動分詞及標注的準確率。而且,在此基礎(chǔ)上,我們未來還將對這些語料標注到句法甚至是語義角色的層級,為古漢語分析及文本建模提供更為完善的標注資源。目前,本文所提到的語料庫還在進一步校正和整理,未來我們將會發(fā)布該語料庫,進一步完善古漢語資源建設(shè)。
[1] Fei Xia, Martha Palmer, NianwenXue, Mary Ellen Okurowski, John Kovarik, FudongChiou, Shizhe Huang, Tony Kroch, and Mitch Marcus. Developing Guidelines and Ensuring Consistency for Chinese Text Annotation[C]//Proceedings of the Second Language Resources and Evaluation Conference (LREC-2000), Athens, Greece, 2000.
[2] Zhou, Q. Annotation scheme for Chinese Treebank [J]. Journal of Chinese Information Processing, 2004, 18(4):1-8.
[3] http://old-chinese.ling.sinica.edu.tw/[DB/OL]
[4] http://ccl.pku.edu.cn:8080/ccl_corpus/[DB/OL]
[5] 王力. 漢語史稿[M]. 北京: 中華書局, 1980.
[6] 王麗杰,車萬翔,劉挺. 基于SVMTool的中文詞性標注[J]. 中文信息學報, 2009, 23(4):16-21.
[7] 李佐豐. 古代漢語語法學[M]. 北京: 商務印書館, 2004.
[8] Fei Xia. The Segmentation Guidelines for the Penn Chinese Treebank (3.0), IRCS Report 00-06[R], University of Pennsylvania, Oct, 2000.
[9] Fei Xia. The Part-of-Speech Guidelines for the Penn Chinese Treebank (3.0), IRCS Report 00-07[R], University of Pennsylvania, Oct, 2000.
[10] Yan Song, Fei Xia. Using a goodness measurement for domain adaptation: A case study on Chinese word segmentation[C]//Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012), Istanbul, Turkey, 2012:3853-3860.
[11] Chunyu Kit, YorickWilks. Unsupervised learning of word boundary with description length gain[C]//Proceedings of CoNLL-99, 1999: 1-6.
[12] Chunyu Kit. Unsupervised lexical learning as inductive inference via compression[C]//J. W. Minett and W. S.Y. Wang, editors, Language Acquisition, Change and Emergence.Hong Kong: City University of Hong Kong Press,2005: 251-296.
[13] Hal Daume III.Frustratingly easy domain adaptation[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (ACL),2007: 256-263.
[14] Hai Zhao, Chunyu Kit. Unsupervised segmentation helps supervised learning of character tagging for word segmentation and named entity recognition[C]//Proceedings of The Sixth SIGHAN Workshop on Chinese Language Processing, Hyderabad, India, 2008: 106-111.
[15] Hai Zhao, Chunyu Kit. Integrating unsupervised and supervised word segmentation: The role of goodness measures[J]. Information Sciences, 2011,181(1):163-183.
[16] 程湘清. 《論衡》雙音詞研究[C]//程湘清. 兩漢漢語研究. 濟南: 山東教育出版社,1992: 262-340.
[17] 方一新. 東漢語料與詞匯史研究芻議[J]. 中國語文, 1996, (2): 140-144.