徐潤(rùn)華,梁社會(huì)
(1.金陵科技學(xué)院 人文學(xué)院,江蘇 南京 210038;2.南京師范大學(xué) 國(guó)際文化教育學(xué)院,江蘇 南京 210097)
先秦文獻(xiàn)專指秦朝統(tǒng)一之前、誕生于春秋戰(zhàn)國(guó)時(shí)代的一大批優(yōu)秀文學(xué)作品。隨著時(shí)代的發(fā)展,古籍文獻(xiàn)的數(shù)字化、語(yǔ)料化的需求越來(lái)越大,這也使得對(duì)先秦文獻(xiàn)進(jìn)行信息處理方面的研究具有了更加積極的意義。先秦文獻(xiàn)信息處理應(yīng)該是中文信息處理的一個(gè)分支,但在使用現(xiàn)代漢語(yǔ)信息處理方法來(lái)處理先秦文獻(xiàn)的時(shí)候,效果并不理想。幾乎每種先秦文獻(xiàn)都有非常豐富的注疏文獻(xiàn),這些注疏文獻(xiàn)是歷代學(xué)者對(duì)先秦文獻(xiàn)的人工分析的積累,可以轉(zhuǎn)化為結(jié)構(gòu)化的形式加以利用。通過(guò)挖掘注疏文獻(xiàn)中的這些知識(shí),我們就可以對(duì)先秦文獻(xiàn)做詞語(yǔ)切分、專名標(biāo)注和詞義標(biāo)注等信息處理工作。
注疏是注文和解釋注文及文字的合稱,舊時(shí)稱解釋古書意義,即對(duì)經(jīng)書字句注解的為“注”,又稱“傳”“箋”“解”“章句”等;疏通注文意義、即對(duì)“注”進(jìn)行注解的為“疏”,又稱“義疏”“正義”“疏義”等。本研究選取了25本先秦文獻(xiàn)的注疏文獻(xiàn),有些注疏文獻(xiàn)其實(shí)是一種注釋文獻(xiàn),和“十三經(jīng)注疏”中的“注疏”之意有不同:注釋文獻(xiàn)往往只是對(duì)原文的“注”,沒(méi)有“疏”這個(gè)層面的信息,如《老子集注》;有些注釋文獻(xiàn)只是對(duì)原文部分內(nèi)容的注解而非全部,如《管子輕重篇新詮》。包括“十三經(jīng)”在內(nèi),25本先秦文獻(xiàn)的注疏文獻(xiàn)信息如表1所示。
表1 25種先秦文獻(xiàn)的注疏文獻(xiàn)
注疏文獻(xiàn)是對(duì)經(jīng)文所做的注解,因此依托于經(jīng)文原文的內(nèi)容。但它依然有著自己相對(duì)獨(dú)立的行文組織方式和結(jié)構(gòu)特點(diǎn),我們以《左傳》注疏《春秋左傳正義》為例,分析注疏文獻(xiàn)的具體內(nèi)容。
注疏文獻(xiàn)雖然是針對(duì)原文進(jìn)行注解,但并非所有的注解都是直接針對(duì)所援引原文的語(yǔ)句進(jìn)行,每篇注疏文獻(xiàn)都會(huì)有一定的篇幅用來(lái)對(duì)原文作者、寫作背景等信息進(jìn)行注解。例如,在《春秋左傳正義》這本《左傳》注疏文獻(xiàn)的開(kāi)頭部分,有如下內(nèi)容:
卷二 隱元年,盡二年
杜預(yù) 孔穎達(dá),31284字
隱公○陸曰:解,佳頭反。舊夫子之經(jīng)與丘明之傳各卷,氏合而釋之,故曰《經(jīng)傳集解》。
[疏]正義曰:五經(jīng)題篇,皆出注者之意,人各有心,故題無(wú)常準(zhǔn)。
杜氏
[疏]正義曰:杜氏,名預(yù),字元?jiǎng)P,畿之孫,恕之子也。陳壽《魏志》云:“杜畿,字伯侯,京兆杜陵人也。”
上述內(nèi)容中,按從前往后的順序,“卷二 隱元年,盡二年”“杜預(yù) 孔穎達(dá)”“31284字”是和文獻(xiàn)相關(guān)的一些信息,如涉及年代、作者姓名、字?jǐn)?shù)等?!半[公○陸曰:解,佳頭反。舊夫子之經(jīng)與丘明之傳各卷,氏合而釋之,故曰《經(jīng)傳集解》”是對(duì)寫作背景的一些介紹,“[疏]正義曰:五經(jīng)題篇,皆出注者之意,人各有心,故題無(wú)常準(zhǔn)”是對(duì)介紹內(nèi)容的一些補(bǔ)充解釋?!岸攀稀笔亲髡咝彰?“[疏]正義曰:杜氏,名預(yù),字元?jiǎng)P,畿之孫,恕之子也。陳壽《魏志》云:‘杜畿,字伯侯,京兆杜陵人也。’”是對(duì)作者信息的詳細(xì)介紹。
然而,不引用原文,而是對(duì)原文作者、背景等信息進(jìn)行介紹的內(nèi)容在注疏文獻(xiàn)中畢竟所占比重小,并且只會(huì)出現(xiàn)在注疏文獻(xiàn)的開(kāi)頭部分;注疏文獻(xiàn)中的其他大部分內(nèi)容采用的都是援引原文并針對(duì)該原文進(jìn)行解釋的寫作模式,以下為注疏文獻(xiàn)《春秋左傳正義》中的部分內(nèi)容示例:
【傳】元年,春,王周正月。言周以別夏殷?!饎e,彼列反。夏,戶雅反。三代之號(hào),可以意求。不書即位,攝也。假攝君政。不脩即位之禮,故史不書與策,傳所以見(jiàn)異與常?!鹨?jiàn),賢遍反。
[疏]“不書即位,攝也”?!鹫x曰:攝訓(xùn)持也。隱以桓公幼少,且攝持國(guó)政,待其年長(zhǎng),所以不行即位之禮。史官不書即位,仲尼因而不改,故發(fā)傳以解之。公實(shí)不即位,史本無(wú)可書。莊、閔、僖不書即位,義亦然也。舊說(shuō)賈、服之徒以為四公皆實(shí)即位,孔子脩經(jīng),乃有不書,故杜詳辨之。
注疏文獻(xiàn)是一種半結(jié)構(gòu)化的文獻(xiàn),其內(nèi)部構(gòu)成方式呈現(xiàn)出明顯的規(guī)律性。上例中,“元年,春,王周正月”“不書即位,攝也”都是援引自《左傳》原文的引文,引文后面的內(nèi)容是對(duì)該引文所做的注釋?!洞呵镒髠髡x》基本由“傳”和“疏”構(gòu)成,“傳”和“疏”均以段落為界,每段文字由引文和注釋構(gòu)成,引文常常間斷為若干小句。
通過(guò)對(duì)《左傳》注疏《春秋左傳正義》的分析觀察,可以看出注疏文獻(xiàn)在行文結(jié)構(gòu)上所具有的一些特點(diǎn):基本上是由“對(duì)原文的援引”和“對(duì)引文的注解”這兩部分構(gòu)成;“對(duì)引文的注解”分為“注”和“疏”兩部分,“注”緊跟引文之后,“疏”則另起一段文字;一段引文及“注”的內(nèi)容,加上一段“疏”的內(nèi)容,形成了注疏文獻(xiàn)的最基本構(gòu)成單位。
但是,上述這些特點(diǎn),僅僅是根據(jù)對(duì)《春秋左傳正義》的分析觀察而發(fā)現(xiàn)的,而《春秋左傳正義》并不能代表全部注疏文獻(xiàn)的結(jié)構(gòu)行文特點(diǎn)。因此,本研究又選取了《論語(yǔ)》的注疏《論語(yǔ)注疏》以及《孟子》的注疏《孟子注疏》中的一些具體例子,來(lái)分析觀察各種不同的注疏文獻(xiàn)中所具有的不同特點(diǎn),并總結(jié)出其中的共同之處。
首先選取了《論語(yǔ)注疏》中的部分內(nèi)容,示例如下:
卷一·學(xué)而第一
何晏 邢昺,8920字
子曰:“學(xué)而時(shí)習(xí)之,不亦說(shuō)乎?馬曰:“子者,男子之通稱,謂孔子也?!蓖踉?“時(shí)者,學(xué)者以時(shí)誦習(xí)之。誦習(xí)以時(shí),學(xué)無(wú)廢業(yè),所以為說(shuō)懌?!庇信笞赃h(yuǎn)方來(lái),不亦樂(lè)乎?……
[疏]“子曰學(xué)而”至“君子乎”。
正義曰:此章勸人學(xué)為君子也?!白印闭?古人稱師曰子。子,男子之通稱。此言“子”者,謂孔子也?!霸弧闭?《說(shuō)文》云:“詞也。從口,乙聲。亦象口氣出也?!薄?/p>
注“慍怒”至“不怒”。
正義曰:云:“凡人有所不知,君子不怒”者,其說(shuō)有二:一云古之學(xué)者為己,己得先王之道,含章內(nèi)映,而他人不見(jiàn)不知,而我不怒也。一云君子易事,不求備于一人,故為教誨之道,若有人鈍根不能知解者,君子恕之而不慍怒也。
接著選取了《孟子注疏》中的部分內(nèi)容,示例如下:
卷十一·告子章句上
趙岐 孫奭,19803字
告子章句上(凡二十章)
告子者,告,姓也;子,男子之通稱也;名不害。兼治儒墨之道者,嘗學(xué)于孟子,而不能純徹性命之理?!墩撜Z(yǔ)》曰:“子罕言命?!敝^性命難言也。以告子能執(zhí)弟子之問(wèn),故以題篇。
[疏]○正義曰:此篇首論告子言性,所以次于《萬(wàn)章》問(wèn)孝之篇者,以其為孝之道,其本在性也,故此篇首以告子之言性,遂為篇題,次于《萬(wàn)章》,不亦宜乎。此篇凡三十六章,趙氏分之以成上下卷。此卷凡二十章而已?!?/p>
注“告子者姓”至“篇題”。
正義曰:云“告子名不害”者,《盡心篇》有浩生不害,疑為告子,姓告名不害,以浩生為字。趙注又云:浩生姓,名不害。又為二人。其佗經(jīng)傳未詳甚人。云《論語(yǔ)》子罕言命,盡《論語(yǔ)》第九篇首云也,故以題其篇。
觀察分析《論語(yǔ)注疏》和《孟子注疏》的結(jié)構(gòu)特點(diǎn),可以發(fā)現(xiàn),這兩部注疏文獻(xiàn)的基本行文結(jié)構(gòu)和《春秋左傳正義》一致,都是以“原文引文+‘注’+‘疏’”作為基本構(gòu)成單位,其中“注”緊跟引文之后,“疏”部分則單獨(dú)成行。
但是,它們之間也有著不同之處:《春秋左傳正義》中,引文和“注”構(gòu)成一行,其所對(duì)應(yīng)的“疏”單獨(dú)構(gòu)成另一行;而在《論語(yǔ)注疏》中,引文和“注”所對(duì)應(yīng)的“疏”有可能不止一行,上例中,“[疏]‘子曰學(xué)而’”至“君子乎”?!边@部分內(nèi)容和“注“包曰:同門曰朋”?!边@部分內(nèi)容以及“注“慍怒”至“不怒”?!边@部分內(nèi)容,全部都是針對(duì)“子曰:“學(xué)而時(shí)習(xí)之,……”這一段文字所進(jìn)行的“疏”;在《孟子注疏》中也有類似的情況,在“告子者,……”這段引文及“注”內(nèi)容之后,“[疏]○正義曰:此篇首論告子言性,……”和“注“告子者姓”至“篇題”?!边@兩部分內(nèi)容全部都是針對(duì)前面引文和“注”所進(jìn)行的“疏”。
“疏”不局限于只注解“注”,“疏”往往是對(duì)“原文引文和相應(yīng)‘注’內(nèi)容”進(jìn)行整體或局部的注解,因此,對(duì)于同一段的“原文引文和相應(yīng)‘注’內(nèi)容”,所對(duì)應(yīng)的“疏”可能有多個(gè),分別注解不同范圍的內(nèi)容:或者第一個(gè)“疏”注解全部,接下來(lái)的“疏”分別按順序注解各個(gè)部分;或者多個(gè)“疏”都是只注解“原文引文和相應(yīng)‘注’內(nèi)容”的某一部分而已。而這樣的情況,正是在《論語(yǔ)注疏》和《孟子注疏》中所表現(xiàn)出來(lái)的注疏行文結(jié)構(gòu)的又一特點(diǎn)。
根據(jù)對(duì)多部注疏文獻(xiàn)的觀察和分析,可以總結(jié)歸納出注疏文獻(xiàn)的一般結(jié)構(gòu)范式,如圖1:
圖1 先秦注疏文獻(xiàn)的格式范式
注疏文獻(xiàn)是半結(jié)構(gòu)化文本,其中的內(nèi)容都是按照特定的結(jié)構(gòu)方式來(lái)組織排列的,但對(duì)于計(jì)算機(jī)來(lái)說(shuō),半結(jié)構(gòu)化的信息仍然不便于直接使用。只有對(duì)注疏文獻(xiàn)進(jìn)行結(jié)構(gòu)化處理、進(jìn)行內(nèi)容再分類后,才能被計(jì)算機(jī)理解并應(yīng)用到對(duì)原文信息處理的輔助工作中去。注疏文獻(xiàn)的格式調(diào)整只是注疏結(jié)構(gòu)化的基礎(chǔ)工作;總結(jié)出的注疏結(jié)構(gòu)范式只是解決了理論層面上的問(wèn)題;只有把理論轉(zhuǎn)換為規(guī)則、應(yīng)用到實(shí)際的分類算法中去,才能真正實(shí)現(xiàn)對(duì)注疏文獻(xiàn)的信息處理任務(wù)。
注疏文獻(xiàn)的分類工作指的是,將半結(jié)構(gòu)化的注疏文獻(xiàn)結(jié)構(gòu)化,將注疏文獻(xiàn)中的相應(yīng)內(nèi)容按照“原文引文”“注”“疏”等類別進(jìn)行再分類,以便于計(jì)算機(jī)對(duì)注疏文獻(xiàn)的進(jìn)一步理解。分類工作以注疏文獻(xiàn)的一般結(jié)構(gòu)范式為基礎(chǔ),考慮各種特殊情況,大致步驟為:全文查找(確認(rèn)原文引文(確認(rèn)注和疏,流程如圖2所示:
圖2 注疏文獻(xiàn)的分類流程
分離的關(guān)鍵是如何發(fā)現(xiàn)引文,因?yàn)椤白ⅰ本o接在引文之后,一旦找到了引文,剩下的內(nèi)容自然就是“注”。一種相對(duì)簡(jiǎn)單、較為容易操作的發(fā)現(xiàn)引文的方法是全文查找,按照原文小句的先后順序,在注疏的全部?jī)?nèi)容中進(jìn)行查找和匹配。
引文和“注”的分離過(guò)程中所面臨的最大難點(diǎn)是繁體字、異體字的對(duì)應(yīng)問(wèn)題。同一個(gè)字,在原文中和在引文中可能繁簡(jiǎn)不一致,也可能用字版本不一致,在《左傳》原文和其注疏文獻(xiàn)《春秋左傳正義》之間,就存在著許多這樣的情況,以下表2為其中部分實(shí)例:
表2 《左傳》與《春秋左傳正義》的用字不同
解決這個(gè)問(wèn)題除了要使用繁簡(jiǎn)字、異體字對(duì)應(yīng)表之外,還要在查找、匹配原文的過(guò)程中,引入相似度計(jì)算的約束。查找過(guò)程中,不能要求必須百分之百匹配成功,如果原文和引文的相似度數(shù)值能夠高出某個(gè)閾值,那么也可以認(rèn)為查找到了原文。下面三個(gè)例子中,左邊的小句和右邊的小句都不是完全相同,但通過(guò)相似度計(jì)算,仍然可以匹配成功:
將虢是滅, 將虢是滅,
何愛(ài)與虞? 何愛(ài)于虞?
且虞能親與桓、莊乎? 且虞能親于桓、莊乎,
正確分離的關(guān)鍵,在于對(duì)“注”“疏”格式的正確理解和形式化。分離時(shí),主要使用上文所歸納得到的注疏文獻(xiàn)的結(jié)構(gòu)范式,與此同時(shí),考慮一些特殊情況下的例子。
第一,“注”可能沒(méi)有:
【傳】四年,春,衛(wèi)州吁殺式桓公而立。公與宋公為會(huì),將尋宿之盟。未及期,衛(wèi)人來(lái)告亂。夏,公及宋公遇于清。宿盟在元年。
宋殤公之即位也,公子馮出奔鄭,鄭人欲納之。及衛(wèi)州吁立,將脩先君之怨于鄭,謂二年鄭人伐衛(wèi)之怨。
[疏]注“謂二”至“之怨”?!鹫x曰:二年伐衛(wèi)見(jiàn)經(jīng),故以屬之,…… ……
上例中,劃?rùn)M線部分為引文,該部分引文沒(méi)有相應(yīng)的“注”。
第二,“疏”可能沒(méi)有:
惠公之季年,敗宋師于黃。黃,宋邑。陳留外黃縣東有黃城?!饠?必邁反,敗他也。后仿此。公立,而求成焉。九月,及宋人盟于宿,始通也。經(jīng)元義例,故傳直言其歸宿而已。他皆仿此。冬,十月,庚申,改葬惠公。公弗臨,故不書。以桓為大子,故隱公讓而不敢為喪主。隱攝君政,故據(jù)隱而言?;莨耙?有宋師,太子少,葬故有闕,是以改葬?!鹕?詩(shī)照反。
[疏]“有宋”至“改葬”?!鹫x曰:上云“惠公之季年,…… ……
上例中,劃?rùn)M線部分為引文和“注”,該部分內(nèi)容沒(méi)有相應(yīng)的“疏”。
此外,針對(duì)同一部分的引文和“注”,“疏”可能有多個(gè),分別注解不同范圍的內(nèi)容。往往第一個(gè)“疏”注解全部,接下來(lái)的“疏”分別進(jìn)行注解。此種情況,上文已有相關(guān)實(shí)例介紹,這里不再重復(fù)例舉。
“疏”的格式相對(duì)比較復(fù)雜。并非“疏”所在的整個(gè)段落全部都是注解內(nèi)容,需要先對(duì)“疏”的格式進(jìn)行分析:從整體上看,存在一段“疏”或者多段“疏”之別;從內(nèi)容上看,“疏”后面有可能緊跟注解范圍,也可能沒(méi)有;從形式上看,注解范圍和注解內(nèi)容之間有時(shí)存在明顯的邊界,有時(shí)沒(méi)有。如圖3所示:
圖3 引文和注疏之間的對(duì)應(yīng)關(guān)系
針對(duì)“疏”的各種格式,以下分別舉例說(shuō)明:
(1)“疏”后面無(wú)注解范圍。示例:
乾下乾上。乾:元、亨、利、貞。
[疏]正義曰:“乾”者,此卦之名。謂之卦者,…… ……
(2)“疏”后面緊跟注解范圍,注解范圍和注解內(nèi)容之間無(wú)邊界標(biāo)志。示例:
“春秋”者,魯史記之名也。
[疏]“春秋”至“名也”。人臣奉主,品目不同?!?……
(3)“疏”后面緊跟注解范圍,注解范圍和注解內(nèi)容之間有邊界標(biāo)志。示例:
司馬牛問(wèn)仁。子曰:“仁者,其言也讱?!笨自?“讱,難也。牛,宋人,弟子司馬犂。”曰:“其言也讱,斯謂之仁已乎?”子曰:“為之難,言之得無(wú)讱乎?”子曰:“行仁難,言仁亦不得不難?!?/p>
[疏]“司馬牛問(wèn)仁”至“讱乎”。
正義曰:此章言仁之難也。“子曰:仁者,其言也讱”者,…… ……
(4)同一部分引文和“注”對(duì)應(yīng)多段“疏”。示例:
子曰:“學(xué)而時(shí)習(xí)之,不亦說(shuō)乎?馬曰:“子者,男子之通稱,謂孔子也?!蓖踉?“時(shí)者,學(xué)者以時(shí)誦習(xí)之。誦習(xí)以時(shí),學(xué)無(wú)廢業(yè),所以為說(shuō)懌?!庇信笞赃h(yuǎn)方來(lái),不亦樂(lè)乎?包曰:“同門曰朋。”人不知而不慍,不亦君子乎?”慍,怒也。凡人有所不知,君子不怒。
[疏]“子曰學(xué)而”至“君子乎”。
正義曰:此章勸人學(xué)為君子也?!白印闭?…… ……
注“包曰:同門曰朋”。
正義曰:鄭玄注《大司徒》云:“同師曰朋,同志曰友?!薄?……
以上文所述的分類方法為基礎(chǔ),對(duì)《左傳》的注疏文獻(xiàn)《春秋左傳正義》進(jìn)行分類,理想的分類結(jié)果如下所示:
分類前的注疏文獻(xiàn)內(nèi)容:
三月,公及邾儀父盟于蔑,邾子克也???儀父名。未王命,故不書爵。曰“儀父”,貴之也。王未賜命以為諸侯,其后儀父服事齊桓以獎(jiǎng)王室,王命以為邾子,故莊十六年經(jīng)書“邾子克卒”?!稹肮什粫簟?一本無(wú)“故”字。獎(jiǎng),將丈反。
[疏]注“王未”至“克卒”。○正義曰:莊十三年齊桓會(huì)諸國(guó)于北杏,邾人在焉。及十六年而書“邾子克卒”,故知由事齊桓乃得王命也。賈、服以為北杏之會(huì)時(shí)巳得王命,蓋以北杏之會(huì)邾人在列,故謂其巳得命也?!?…… …… ……
分類后的注疏文獻(xiàn)內(nèi)容:
【“經(jīng)”的原文】: 三月,公及邾儀父盟于蔑——邾子克也。
【“注”援引“經(jīng)”的原文】: 三月,公及邾儀父盟于蔑,邾子克也。
【“注”對(duì)“經(jīng)”原文的解釋】: 克,儀父名。
【“經(jīng)”的原文】: 未王命,故不書爵,曰:“儀父”,貴之也。
【“注”援引“經(jīng)”的原文】: 未王命,故不書爵。曰“儀父”,貴之也。
【“注”對(duì)“經(jīng)”原文的解釋】: 王未賜命以為諸侯,其后儀父服事齊桓以獎(jiǎng)王室,王命以為邾子,故莊十六年經(jīng)書“邾子克卒”。“故不書爵”,一本無(wú)“故”字。獎(jiǎng),將丈反。
【“疏”援引“注”的原文】: [疏]注“王未”至“克卒”。
【“疏”對(duì)“注”原文的解釋】: 正義曰:莊十三年齊桓會(huì)諸國(guó)于北杏,邾人在焉。及十六年而書“邾子克卒”,故知由事齊桓乃得王命也。賈、服以為北杏之會(huì)時(shí)巳得王命,蓋以北杏之會(huì)邾人在列,故謂其巳得命也?!?…… …… ……
上例只是一個(gè)較為理想的正確分類結(jié)果,在實(shí)際的注疏文獻(xiàn)的分類過(guò)程中,“注”和“疏”的分離效果較好,但引文和“注”的分離效果不佳。因?yàn)樵诜诸愡^(guò)程中,發(fā)現(xiàn)引文的方法是全文查找,而這種方法有著比較明顯的局限性:例如,原文句子“不書即位,攝也?!敝械男【洹安粫次弧毙枰谧⑹栉墨I(xiàn)中查找引文,可以同時(shí)找到8個(gè)完全匹配成功的“不書即位”;同樣,原文句子“不書,非公命也。”中的小句“非公命也”在注疏文獻(xiàn)中可以找到6個(gè)完全匹配的實(shí)例。當(dāng)遇到這種情況的時(shí)候,簡(jiǎn)單的通過(guò)全文查找來(lái)確認(rèn)引文的方法就會(huì)顯得無(wú)能為力,這就要求我們必須在這種相對(duì)粗糙方法的基礎(chǔ)上,進(jìn)行更深一步的研究,探索出更為有效的發(fā)現(xiàn)引文的方法,使得引文和“注”能夠更準(zhǔn)確的進(jìn)行對(duì)應(yīng)。這也是本研究接下來(lái)要繼續(xù)探索和改進(jìn)的方向。