化振紅(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
1990年代以來,漢語史語料庫已經(jīng)成為漢語學(xué)者不可或缺的學(xué)術(shù)利器,最早的語料庫相當(dāng)于匯集若干古代文獻的電子書,僅支持簡單的文本閱讀。隨后出現(xiàn)了可以進行字、詞、句單項或組合檢索的文本數(shù)據(jù)庫,流傳較廣者如《二十五史全文閱讀檢索系統(tǒng)》、國學(xué)寶典等。也出現(xiàn)了一些基于掃描技術(shù)的圖像版古籍?dāng)?shù)據(jù)庫,由于沒有對圖像進行OCR識別,用戶難以進行全文檢索。隨著圖像處理和超鏈接技術(shù)的迅猛發(fā)展,支持分類檢索、書名檢索、著者檢索、全文檢索等多種檢索方式的圖像與文本對照的數(shù)據(jù)庫陸續(xù)問世,著名者如文淵閣《四庫全書》《四部叢刊》全文檢索系統(tǒng)、中國基本古籍庫等。近10年來,為了滿足漢語研究的需要,學(xué)界開始嘗試建設(shè)深加工的標注型語料庫,具體工作包括對古代文獻進行詞語切分,并添加詞性、義項、語法地位標注等多方面信息。以董志翹教授主持的國家社科基金重大招標項目“深加工中古漢語語料庫建設(shè)研究”為依托的中古漢語語料庫(MCC),就是其中的嘗試之一。MCC課題組選取“既能從整體上反映中古漢語的真實面貌,又能夠展示中古漢語局部的各種比較突出的特點”的中古文獻,包括正史作品8種,約420萬字;子部作品如漢譯佛經(jīng)、佛道文獻、筆記小說、醫(yī)農(nóng)雜著、詩歌40種,約490萬字;敦煌吐魯番文獻、碑刻文獻等出土文獻約80萬字。上述入庫文獻共約1000萬字。在確定入庫文獻的版本并進行反復(fù)??敝缶瓦M入了文本處理環(huán)節(jié)。在此基礎(chǔ)上對入庫語料進行詞語切分并標注其詞性、義項、語法地位等語言學(xué)信息。在文本處理這一環(huán)節(jié),由于歷代文獻材料中大多包含著一些并無實際意義也不具備任何研究價值的冗余材料,如作者及其身份的重復(fù)標記、行文卷數(shù)的交叉標記等;也往往攙雜了一些學(xué)界公認的后代注釋材料;還有一些材料雖然具有一定的研究價值,現(xiàn)有的語料庫技術(shù)手段卻難以準確反映,或者極大地增加語料庫操作層面的難度,或者可能對語料庫未來的用戶體驗產(chǎn)生過于負面的影響,等等。因此,需要對入庫文獻的轉(zhuǎn)錄文本進行相應(yīng)的技術(shù)處理,以形成最終的語料文本。本文擬以中古漢語語料庫中文本處理的基本思路、具體方法為中心,結(jié)合漢語史、文獻學(xué)相關(guān)理論以及語料庫建設(shè)的實際操作過程,對漢語史語料庫的文本處理問題展開探討,希望得到方家同行的指正。
中古文獻往往采用正文與注釋材料并列的行文方式。兩者的界限最初是涇渭分明的:正文采用單行、大字的形式;子注則緊隨其后,雙行書寫,(1)現(xiàn)代的校點本、注釋本大多改成了單行小字的排版形式。字號明顯小于正文,故而又稱“夾文小注”或“夾文子注”。陳寅恪《讀〈洛陽伽藍記〉書后》最早揭示了這種行文方式“乃摹擬魏晉南北朝僧徒合本子注之體”。合本子注源于佛經(jīng)翻譯,主要是為了讓讀者更好地理解經(jīng)文,而將各家所譯佛經(jīng)的不同之處標注在正文后邊。隨著佛經(jīng)的廣泛流傳,佛經(jīng)之外的世俗文獻特別是子部作品大多深受其影響,因而成了魏晉六朝頗為流行的著述體式。其中以楊衒之《洛陽伽藍記》、賈思勰《齊民要術(shù)》、酈道元《水經(jīng)注》最為知名,包括中古史書在內(nèi)的其他文獻也都受到了不同程度的影響。
從正文與子注的關(guān)系看,正文無疑是全文的主體部分,子注則是對正文內(nèi)容的延展,主要包括與正文內(nèi)容相關(guān)的文獻材料,對正文的進一步解釋、說明,對正文中疑難字詞的音義注釋等。在后來的輾轉(zhuǎn)傳抄過程中,不少文獻的正文與子注逐漸變得相互混淆以至難以分辨,這種現(xiàn)象在《洛陽伽藍記》《水經(jīng)注》中尤為突出。
從語料性質(zhì)看,正文顯然出自作者之手,屬于典型的中古語料。對正文內(nèi)容進行補充、解釋、說明的子注,大多出自作者之手,同樣也屬于中古語料;對疑難字詞進行音義訓(xùn)釋的子注,情況比較復(fù)雜,有可能是作者的附注,也可能是當(dāng)時或者后來的讀者添加的,現(xiàn)在已經(jīng)很難分清了。不過,就音義材料的篇幅而言,與正文以及其他子注相比,幾乎可以忽略不計。例如:
凡谷,成熟有早晩,苗稈有高下,收實有多少,質(zhì)性有強弱,米味有美惡,粒實有息耗。早熟者苗短而收多,晚熟者苗長而收少。強苗者短,黃谷之屬是也;弱苗者長,青、白、黑者是也。收少者美而耗,收多者惡而息也。(《齊民要術(shù)·種谷》)
案:大字部分是《齊民要術(shù)》的正文,夾文小注是賈思勰的自注,進一步解釋谷物成熟的早晚、苗桿的長短與作物收成之間的關(guān)系,二者顯然屬于同時代材料,語料性質(zhì)完全相同。
客有問陳季方:《海內(nèi)先賢傳》曰:“陳諶字季方,寔少子也。才識博達,司空掾公車征,不就。”“足下家君太丘有何功德而荷天下重名?”(《世說新語·德行》)
案:大字部分是南朝宋劉義慶《世說新語》的正文;夾文小注出自南朝梁劉孝標之手,引用《海內(nèi)先賢傳》補充陳季方的基本情況。宋梁兩朝相距不遠,正文與夾文小注均屬南北朝語料。
昆侖墟在西北。三成為昆侖丘?!独稣f》曰:昆侖之山三級,下曰樊桐,一名板桐;二曰玄圃,一名閬風(fēng);上曰層城,一名天庭,是為太帝之居。(《水經(jīng)注·河水》)
案:大字部分是《水經(jīng)》原文;夾文小注則是酈道元引用其他文獻材料對《水經(jīng)》的注解,也就是《水經(jīng)注》正文。其中存在相當(dāng)嚴重的經(jīng)、注相混現(xiàn)象,不少段落甚至完全無法分辨。由于注文篇幅遠遠超過《水經(jīng)》原文,可以把二者暫時都視為中古語料。
九功既歌,六代惟時。被徳在樂,宣道以詩。穆矣太和,品物咸熙。慶積自遠,告成在茲。右《肆夏》樂歌四章??腿?,于四廂振作《于鑠曲》?;实郛?dāng)陽,四廂振作《將將曲》,皇帝入變服,四廂振作《于鑠》《將將》二曲。又黃鐘、太蔟二廂作《法章》、《九功》二曲。(《宋書·樂志二》)
案:大字部分是《宋書》原文;夾文小注是編纂者記述的樂歌演奏過程。由于《樂志二》重在記錄樂歌的歌詞,與歌曲有關(guān)的演奏過程就被當(dāng)作補充材料而采用了雙行小字的書寫形式。它們的語料性質(zhì)則是完全相同的。
稻苗漸長,復(fù)須薅。拔草曰薅,虎高切。薅訖,決去水,曝根令堅。(《齊民要術(shù)·水稻》)
案:“拔草曰薅”是薅字的釋義,“虎高切”是薅字的反切注音。類似的音義材料,究竟出自賈思勰或者同時代人之手,或者是后人添加的,現(xiàn)在已經(jīng)無從查考,因而難以判斷其時代性。
基于上述分析,中古漢語語料庫處理正文的注釋材料時,采用了王曉玉《論中古語料庫古籍電子化相關(guān)問題》所描述的三種具體方法:(1)對正文進行補充、解釋、說明的作者自注,視為與正文性質(zhì)相同的語料,在每段注釋材料的起止位置,分別添加符號“[J]”作為標記,(2)這里的“J”,是“夾文小注”漢語拼音的首字母。添加這個標記僅僅是為了便于系統(tǒng)軟件后臺的識別,最終不會出現(xiàn)在用戶檢索結(jié)果的界面上。詳參王曉玉:《論中古語料庫古籍電子化相關(guān)問題》,《古籍整理研究學(xué)刊》2018年第4期。以示與原文的區(qū)別。(2)同時代人添加的子注,均視為正文的一部分進行相同的加工處理,并在整段材料的起止位添加“[某某注]”作為標記。(3)后時代人添加的或者時代不明的子注,從原文中予以剔除,不進行切詞、標注,僅用按語的形式保存相關(guān)文字,以便用戶核查。
需要說明的是,與其他的文本型、圖文型語料庫相比,作為標注型語料庫的中古漢語語料庫處理夾文小注時遇到了更多的細節(jié)問題,目前的一些操作規(guī)定,只能算是暫時性的應(yīng)對策略,今后的漢語史語料庫也許能夠找到更為合適的處理方法。如:
東京兆寄治滎陽,領(lǐng)長安、漢舊縣、萬年、別見。新豐、別見。藍田、別見。蒲阪二漢、晉《太康地志》屬河?xùn)|。凡六縣。(《宋書·州郡志二》)
案:夾文小注是作者對部分地名做出的補充說明,屬于《宋書》原文不可分割的組成部分。這種行文方式在中古史書文獻中最為常見,在其他文獻中則主要是針對疑難字詞做出的音義訓(xùn)釋,如:《齊民要術(shù)·種谷》:“以汁和蠶矢、羊矢各等分,撓呼毛反,攪也。令洞洞如稠粥。”
在文本型語料庫、圖文型語料庫中,這種現(xiàn)象并不存在太大的問題。中古漢語語料庫需要進行詞語切分、義項及語法地位標注,就有可能造成詞語或句子成分的前后割裂。以上邊的兩個句子為例,程序軟件會把“蒲阪二漢晉《太康地志》屬河?xùn)|”“撓呼毛反攪也令洞洞如稠粥”識別為兩個句子;如果在“蒲阪”“撓”的后邊添加標點符號,它們又分別變成了獨立的句子,“令洞洞如稠粥”則成了另外一個句子。無論哪種處理方式,顯然都違背了漢語詞匯、語法常識。在加注標點符號的現(xiàn)代整理本中,目前也有不同的處理方法,中華書局出版的《宋書》校點本在“長安”“萬年”“新豐”“藍田”后邊都加了頓號,“蒲阪”后面卻沒有添加標點符號,略顯矛盾;繆啟愉《齊民要術(shù)校釋》所采用的“撓呼毛反,攪也。令洞洞如稠粥”,從整體上看應(yīng)該更為合理。
中古漢語語料庫針對夾文小注的各種情況,采用了下述處理方法。(1)注釋材料的字號均比正文縮小一號,以顯示兩者之間的差別;(2)注釋材料的起止位置,分別添加“[J]”,將它和前后正文隔離開來;(3)有可能造成詞語或句子成分前后割裂的音義注釋材料,被釋字詞的后面不加標點符號,[]里面的音義注釋材料句尾也不添加標點符號。上述句子的處理結(jié)果分別為:“東京兆寄治滎陽,領(lǐng)長安[J漢舊縣J]、萬年[J別見J]”,“以汁和蠶矢、羊矢各等分,撓[J呼毛反,攪也J]令洞洞如稠粥?!?/p>
除了夾文子注,如何看待、處理古代文獻中的附屬材料,也是中古漢語語料庫的一個重要問題。在中古文獻的流傳過程中,歷代傳抄者往往出于各種目的,自行添加一些與正文內(nèi)容有關(guān)的附屬性文字。從語料本身的性質(zhì)、價值看,這些材料雖然無法與原文相提并論,它們和原文之間卻存在著一定的關(guān)聯(lián)性,因此,中古漢語語料庫不能采取一律刪除的辦法,而需要根據(jù)具體情況采用不同的處理方式。
1.佚文
在古代文獻流傳過程中,部分句子、段落、篇章的漏失甚至全文的亡佚,是一個極為普遍的現(xiàn)象。幸運的是,其中的一些文字由于其他文獻的征引而存留至今。古人征引他人文獻時,往往對原文進行各種各樣的加工,如,改換其中的部分字詞,僅僅轉(zhuǎn)引其大意而非照錄原文,甚至可能故意造假冒充原文等。經(jīng)過歷代學(xué)者的鉤稽,得到了中古文獻的不少佚文材料。在現(xiàn)代的校點、整理本中,通常會附錄在原文的相應(yīng)位置。如:
[存]甲部第一云:“學(xué)士習(xí)用其書,尋得其根,根之本宗,三一為主?!薄兜澜塘x樞》卷二《七部義》及《云笈七簽》卷六《四輔》引。(《太平經(jīng)》甲部)
案:中古漢語語料庫中的《太平經(jīng)》以中華書局出版的王明《太平經(jīng)合?!窞榈妆尽_@段材料中,“[存]”后面的文字是從其他文獻中鉤稽出來的佚文及其具體出處,如凡例所說,“《太平經(jīng)圣君秘旨》及他書中往往引有《太平經(jīng)》之佚文,凡知其在經(jīng)卷之地位者,則分別依上三例校訂之。其地位失考而知其卷數(shù)者,則附存卷末。僅知其帙數(shù)者(每部十七卷為一帙),則附存帙末。若卷帙均不知者,則附存全書之末?!?/p>
諸如此類的佚文材料,雖然具有一定的學(xué)術(shù)價值,卻可能夾雜著一些竄改、偽托的成分,并不能完全等同于中古文獻。因此,中古漢語語料庫對《太平經(jīng)》的收錄、加工,同樣采用了比較審慎的處理方法:收錄時保留這些佚文材料,按照與正文相同的方式進行切詞、標注,同時在它們的起止位置添加“存某書某篇”之類的說明性文字。當(dāng)然,也可以根據(jù)語料庫的設(shè)計框架添加統(tǒng)一的符號性標記。
2.標記性附屬材料
中古文獻的正文之外,大多包含著一些與正文內(nèi)容相關(guān)的標記性文字,主要包括書名、篇名、作者以及卷數(shù)序號等,大致可以視為不同層級標題的組成部分,如《洛陽伽藍記》《齊民要術(shù)》每卷的卷首都有“后魏撫軍府司馬楊衒之撰”“后魏高陽太守賈思勰撰”以及文獻名稱、具體卷數(shù)等字眼,每篇的開頭也有篇名及其在全書中序號的說明。中古漢語語料庫把各級標題中的這些說明性文字統(tǒng)統(tǒng)視為標記性附屬材料,僅僅保留原文,不做其他切詞、標注工作。因為卷數(shù)序號基本上不具備漢語史研究價值,時代、職銜及作者姓名則是后人添加的,同樣也不具備漢語史研究價值。
中古文獻的正文中,還會有一些比較特殊的標記性文字,通常也采用夾文小注的形式,其內(nèi)容與正文密切相關(guān),但又不能完全等同。如:
別日何易會日難,山川悠遠路漫漫。(一解)郁陶思君未敢言,寄書浮云往不還。(二解)涕零雨面毀形顏,誰能懷憂獨不嘆。(三解)耿耿伏枕不能眠,披衣出戶步東西。(四解)展詩清歌聊自寬,樂往哀來摧心肝,悲風(fēng)清厲秋氣寒,羅幃徐動經(jīng)秦軒。(五解)仰戴星月觀云間,飛鳥晨鳴聲可憐,留連顧懷不自存。(六解)(《宋書·樂志三》)
案:這是曹丕《燕歌行》的歌詞。其中的“解”,表示古代長篇詩歌、樂曲的章節(jié),“一解”就是第一次奏樂,“二解”就是第二次奏樂,依此類推。另如曹操《苦寒行》“北上太二行二山二,艱二哉二何二巍二巍二”等歌詞中的“二”,表示字、詞、詩句甚至若干句歌詞的復(fù)奏或復(fù)唱,也就是說,奏唱時需要重復(fù)“二”前面的字、詞、句。如清人趙翼《陔馀叢考·重字二點》:“凡重字,下者可作二畫;始于《石鼓文》,重字皆二畫也。后人襲之,因作二點;今并有作一點者?!边@在中華書局點校本《宋書》中曹操《秋胡行》的注釋也有大致相同的解釋:“古人凡重字,下一字可作二畫。石鼓文凡重字皆作二畫,蓋其濫觴。此篇每一字之下作二畫者,其讀法猶若音樂中之復(fù)奏?!?/p>
一解、二解以及表示重字的“二”,雖然作為夾文小注附在歌詞之后,卻不能算是歌詞本身,更不能視為古代文獻中的重言詞。從嚴格意義上說,這些文字材料僅僅相當(dāng)于一些特殊的提示符號。即使與純粹的音義注釋材料相比,其漢語史價值也是微乎其微的。如果中古漢語語料庫保留這些標記性文字,就需要根據(jù)其特點、性質(zhì)分別設(shè)計不同的符號。這樣的處理,不僅增加了語料庫的結(jié)構(gòu)層次,而且也加大了語料甄別的工作量及難度,更重要的是它們并不具備漢語史研究價值,因此,中古漢語語料庫原則上刪除了諸如此類的標記性文字。
古代文獻的用字情況紛繁復(fù)雜。對于中古漢語語料庫而言,除了繁簡字、古今字、假借字、異體字、正俗字、避諱字、缺字、生僻字等比較常見的古代用字現(xiàn)象,還要解決古代文獻向入庫文本轉(zhuǎn)換過程中的諸多難題,如字庫未收字、新舊字形、紙質(zhì)印刷體與電腦字庫的不同、大陸與港臺地區(qū)繁體字的差異、類推簡化的范圍等。為了便于表述,本文把一個字在各個歷史階段的不同寫法統(tǒng)稱為“異形字”。這樣,中古漢語語料庫的文字問題,自然而然地就簡化成了兩個大類:一是各種情況下出現(xiàn)的異形字;二是在古代文獻中出現(xiàn)、電腦字庫中不存在的字庫未收字。相對而言,后者主要涉及電腦造字、語料庫顯示以及原文圖像與所造之字如何關(guān)聯(lián)等問題,基本上屬于技術(shù)與操作層面的問題,處理起來并不是非常困難。也就是說,最大的難題在于如何處理異形字。因為中古文獻中的不少異形字問題,同時涉及到了多種比較復(fù)雜的用字現(xiàn)象,必須根據(jù)具體情況分別進行處理。
在純粹的基于掃描技術(shù)的圖像版古籍?dāng)?shù)據(jù)庫中,完全保持了古籍的原貌,自然不存在復(fù)雜的文字問題,但是,在目前的技術(shù)條件下,這樣的數(shù)據(jù)庫很難滿足用戶的檢索需求,對于漢語史研究并沒有太大的實用價值。現(xiàn)有的各種圖像與文本對照數(shù)據(jù)庫以及標注型漢語史語料庫,都不可避免地受到了文字處理方面的困擾。如文淵閣《四庫全書》全文檢索系統(tǒng)就存在不少無法顯示的空字,如《齊民要術(shù)·小豆》文例:
這幾個字符實際上包含著兩個層面的問題:前者在圖像版中完全不能正常顯示;后者在圖像版中能夠正常顯示,轉(zhuǎn)換后卻無法正常顯示。兩者可以統(tǒng)稱為漢字信息處理過程中的亂碼現(xiàn)象,如尉遲治平《電子古籍的異體字處理研究》所說:“電子文獻中的漢字, 只是數(shù)字的顯示形式??虒憹h字包括形音義三要素, 數(shù)碼漢字包括碼形音義四要素。因此, 二者的處理機制不同, 前者由人腦處理, 后者由計算機處理。”“數(shù)碼漢字在計算機屏幕上顯示的是字形, 在系統(tǒng)里儲存的是數(shù)字。碼點相同即使形音義不同, 計算機也作為同一漢字處理, 反之, 碼點不同即使形音義相同, 計算機也作為不同的漢字處理——這就是所謂‘亂碼’”。(3)尉遲治平:《電子古籍的異體字處理研究》,《語言研究》2007年第3期。亂碼現(xiàn)象是文淵閣《四庫全書》全文的常見現(xiàn)象,比較典型者又如為避諱康熙、乾隆的名字“玄燁”“弘歷”,紙質(zhì)版《四庫全書》把玄、弘二字均改為缺筆,圖像版《四庫全書》中雖然能夠正常顯示,粘貼復(fù)制之后卻全部顯示為空格。所有的以“玄”為部件構(gòu)成的字,如泫、眩、炫、鉉、弦等,在圖像版《四庫全書》中都存在同樣的情況。
作為標注型語料庫的中古漢語語料庫,主要用于漢語詞匯、語法等領(lǐng)域的研究?,F(xiàn)有的圖像文本型語料庫,設(shè)計原則總體上是盡可能保存古籍原貌,如祝敬國《古籍語料庫字體與結(jié)構(gòu)研究》所說:“在古籍電腦化中可以利用電腦的多媒體技術(shù), 把古籍原始的書刻印刷狀態(tài)以圖象方式存儲到電腦中。當(dāng)信息輸出時, 以文字反映古籍的文獻內(nèi)容, 以圖象反映古籍的文物內(nèi)容。這樣,古籍的原始字體字形(包括避諱等因素造成的字形變異) 等書刻特征就得到了完整的融匯。”甚至還要試圖保存“古籍的裝幀、收藏家印鑒、題跋、批注圈點等體現(xiàn)文物價值的圖象內(nèi)容”。(4)祝敬國:《古籍語料庫字體與結(jié)構(gòu)研究》,《文物保護與考古科學(xué)》1995年第1期。一些主要用于漢字研究的標注型語料庫,往往也采用相同的設(shè)計思路,尉遲治平主持的國家社科基金重大課題“漢語信息處理和計算機輔助漢語史研究”,《廣韻》文本的數(shù)字化整理是其中的一項工作。眾所周知,《廣韻》是現(xiàn)存最早最完整的官修韻書,同時也是收字最多的字書之一。古代的紙本文獻由書家抄寫,經(jīng)刻工雕版印制而成。在這個過程中,任何一個漢字形體,不管實際上有沒有這個字,也不論書寫時是否正確,即便是書家或刻工率性而為的結(jié)果,都可以進行刻??;但是,數(shù)字化處理的古籍只能顯示電腦字庫中存儲的漢字。從本質(zhì)上說,漢字刻寫的開放性與電腦字庫的封閉性之間的矛盾其實是永遠都無法避免的。因此,尉遲治平《電子古籍的異體字處理研究》提出了基于語言學(xué)的處理方法,“將電子古籍看作是一種新的版本, 按照數(shù)字化研究的要求對數(shù)碼漢字異體進行先期處理”,并歸納出了“辭書從嚴, 一般古籍從寬”,“字頭從嚴,一般行文從寬”,“字形辨析從嚴,一般內(nèi)容從寬”等三條基本原則。這些思路雖然針對的是《廣韻》的異體字,對漢語史語料庫諸多文字問題的處理都具有一定的借鑒意義。
中古漢語語料庫中的各種用字現(xiàn)象,按照下述思路分別予以相應(yīng)處理。
第一,以文字處理而非圖像處理為總體目標,原則上不強調(diào)古籍外在形式的真實,重在整理一個新的較為可靠的版本,為漢語詞匯、語法研究提供內(nèi)容真實的語言材料。用戶可以通過電腦閱讀文本,更重要的則是通過計算機進行處理。文獻學(xué)所需的校勘、版本、辨?zhèn)蔚裙δ?,文字學(xué)所要求的呈現(xiàn)各個共時平面的漢字原始形貌、不同歷時階段的字形演變情況,以及文物學(xué)領(lǐng)域的保存古籍原版的紙張、色澤、書法等實體信息等,中古漢語語料庫通常不予考慮。
第二,字形的選擇設(shè)立三個不同的優(yōu)先層級。一級字形:以2013年國務(wù)院頒布的《通用規(guī)范漢字表》及其附件《規(guī)范字與繁體字、異體字對照表》,作為中古漢語語料庫用字的標準字形。(5)國家語言文字工作委員會:《通用規(guī)范漢字表》,北京:語文出版社,2013年。這兩個文件中列出的字形,加上類推出來的字形,已經(jīng)足以覆蓋中古文獻中的大多數(shù)漢字;二級字形:上述兩個文件之外的漢字優(yōu)先采用方正超大字符集中的字形;三級字形:方正超大字符集以外的生僻漢字,利用電腦系統(tǒng)的造字程序造出新字,同時以圖片鏈接的方式顯示其文本中的字形。
第三,字形的歸并原則。中古漢語語料庫使用繁體字,《通用規(guī)范漢字表》所附《規(guī)范字與繁體字、異體字對照表》之外的繁體字,使用《四庫全書》中最為常用的字形。具體操作方式如下:
1.異體字
分為異寫字、異構(gòu)字兩種情況。
如果是出于書寫者、刻版者個體習(xí)慣而造成的字形細節(jié)差異,包括線條、筆畫方面的臨時變異,即王寧《計算機古籍字庫的建立與漢字的理論研究》所說的“異寫字”,(6)王寧:《計算機古籍字庫的建立與漢字的理論研究》,《語言文字應(yīng)用》1994年第1期。遵循前條所述優(yōu)先原則分別改為通用字形。因為異寫字屬于典型的冗余字形,為它們造不同的字符必然占用大量的資源,也會給今后的用戶檢索帶來極大的不變。因為避諱而產(chǎn)生的漢字變體,如玄、泫、炫、弘等,也視為廣義的異寫字。按照同樣的方法改為相應(yīng)的通用字形。
如果字的結(jié)構(gòu)和造意發(fā)生了變化,主要是指歷代不同形體的漢字積淀到后代而產(chǎn)生的若干字形,即王寧所說的“異構(gòu)字”。這種類型的異體字,中古漢語語料庫采用了王東?!豆盼墨I數(shù)字語料庫的異形字處理》提出的處理方法:根據(jù)各個字形的使用頻率,在多個形體中確定一個字形作為標準體, 在語料庫中進行置換,也就是說廢除了標準體以外的其他字形。(7)王東海:《古文獻數(shù)字語料庫的異形字處理》,《語言文字應(yīng)用》2005年第4期。因為中古漢語語料庫使用的方正超大字符集,所收字符只有7萬個左右,顯然難以滿足建設(shè)語料庫的用字需要。造字、圖片關(guān)聯(lián)等操作方法,不僅存在一系列技術(shù)問題,也會導(dǎo)致語料庫使用時的一些問題,目前的技術(shù)條件下應(yīng)該盡量減少其使用。將來則可以循序漸進地使用該文所說的第二種方法,對異構(gòu)字的基礎(chǔ)構(gòu)件或形素加以規(guī)范,進而通過類推應(yīng)用于同一構(gòu)件的漢字中。甚至可以造出更多的新字形,升級現(xiàn)有的電腦字庫,利用新的程序軟件逐一查找、核對、替換現(xiàn)階段被置換的字形,以達到更為貼近古籍文本原貌的目的。
具有多重身份的異體字,即所謂“一對多”的異體字,采用楊應(yīng)芹《關(guān)于古籍整理中異體字的研究》提出的處理方法——根據(jù)該字在具體文獻語境中的意義,改為相應(yīng)的通用字形。(8)楊應(yīng)芹:《關(guān)于古籍整理中異體字的研究》,《江淮論壇》1992年第6期。
2.繁簡字
中古漢語語料庫中的文本,原則上完全轉(zhuǎn)換為繁體字。其中存在一些比較特殊的情況:
一部分現(xiàn)代的簡體字,其字形的產(chǎn)生時代可能早于繁體字,或者在時代性方面存在一定的交叉,或者難以準確判定繁、簡字形產(chǎn)生的時代,統(tǒng)一改為常用的繁體字。(9)正字和俗字也存在類似的情況,其產(chǎn)生時代可能早晚不一,通用的時代可能互有交叉,甚至“正”或“俗”的身份地位也可能出現(xiàn)完全相反的變化。目前的處理辦法是以現(xiàn)代校點本的字形為正字,然后改為《通用規(guī)范漢字表》及其附件《規(guī)范字與繁體字、異體字對照表》中相應(yīng)的字形。
一部分現(xiàn)代的簡體字,其字形對應(yīng)著古代的多個繁體字,也就是通常所說的“一對多”現(xiàn)象,根據(jù)字的意義、用法改為相應(yīng)的繁體字。尤其需要注意的是,地名、人名等專名中的字,紙質(zhì)文本如果用的是簡體字形,必須維持其原貌而不能改為繁體字。這是因為古代的兩個字,現(xiàn)代簡化成了同一個字。如,古代地名“武強”,不能改為“武彊”;用作姓氏的“仇”,不能改為“讎”。
部分繁體字的字形,大陸地區(qū)和港臺地區(qū)存在細節(jié)性差異。文本轉(zhuǎn)換之后,如果電腦系統(tǒng)使用的是港臺地區(qū)的繁體字,則統(tǒng)一改為《通用規(guī)范漢字表》所附《規(guī)范字與繁體字、異體字對照表》中列出的字形。
3.古今字和假借字
保持文本中的字形,假借字也不必改為相應(yīng)的本字。
4.字庫未收字
電腦系統(tǒng)無法輸出的疑難漢字,以方正超大字符集中相應(yīng)的字形進行補充;方正超大字符集沒有收錄的生僻漢字,利用電腦的造字程序進行造字;極少數(shù)由于抄寫、刻印原因而導(dǎo)致的難以辨識其結(jié)構(gòu)、無法造字的漢字,則以圖片鏈接的形式維持其在文獻中的字形原貌。
5.新舊字形
早期所說的新舊字形,以1965年公布的《印刷通用漢字字形表》為標準,表中列出的印刷字形為當(dāng)時的新字形,也就是通用的規(guī)范的字形;與之不同的則為舊字形。2013年《通用規(guī)范漢字表》及其附件《規(guī)范字與繁體字、異體字對照表》頒布之后,與表中字形存在差別的就變成了新的“舊字形”。例如:曾/曽、吳/呉、爲/為、説/說,前者為新字形,后者則為與之相對應(yīng)的舊字形。此外,紙質(zhì)印刷體與電腦用字之間也存在一些差異。這些字形差異,既有異寫字性質(zhì)的線條、筆畫方面的不同,也有異構(gòu)字性質(zhì)的結(jié)構(gòu)、造意方面的不同,中古漢語語料庫從便于研究者使用的角度出發(fā),理論上把它們視同于個人書寫習(xí)慣的差異,操作過程中則參照異體字的處理方法,統(tǒng)一改為《通用規(guī)范漢字表》及其附件《規(guī)范字與繁體字、異體字對照表》列出的通用字形。
除了上述問題,中古漢語語料庫文本處理過程中還存在標點符號的使用、句子的分合、文本中的空格等諸多問題,目前也做出了一些初步的規(guī)定。比如,原則上使用現(xiàn)代標點符號,具體操作過程中不必拘泥于細節(jié),因為用戶不可能檢索標點。所以,可以把現(xiàn)代整理本中的省略號、嘆號等改為句號,刪除現(xiàn)代整理本中表示地名的橫線、波浪線等專名符號而僅僅保留其書名號;現(xiàn)代整理本中表示闕文的 “□”,盡量根據(jù)其他本子補充完整,等等。毋庸諱言,其中的部分規(guī)定,更多的是考慮到語料庫操作以及用戶檢索和使用的便利而制定的,學(xué)理上可能還存在一些瑕疵。我們相信,隨著中古漢語語料庫建設(shè)的不斷深入,目前大部分問題都能夠找出更為理想的解決辦法。
煙臺大學(xué)學(xué)報(哲學(xué)社會科學(xué)版)2021年5期