趙婭娜 (東南大學(xué)經(jīng)濟(jì)管理學(xué)院 江蘇 南京 211189)
常 娥 (東南大學(xué)圖書館 江蘇 南京 211189)
書目版本數(shù)據(jù)是對(duì)文獻(xiàn)內(nèi)容的重要揭示,有助于用戶鑒別和選擇不同版本的圖書。近年來,由于出版行業(yè)的蓬勃發(fā)展,圖書出版的數(shù)量和種類迅猛增長。2016年,全國共出版圖書49.99萬種,較2015年增長5.1%。其中新版圖書26.2萬種,增長0.8%,重版、重印圖書23.8萬種,同比2015年增長10.3%,占2016年出版總量的48%[1]。這些圖書進(jìn)入圖書館后著錄要涉及查重問題,同時(shí)需要識(shí)別同一種文獻(xiàn)的不同版本,以便更好地進(jìn)行文獻(xiàn)的聚集。但由于版本信息復(fù)雜多樣,版本的認(rèn)定與著錄本身比較困難,對(duì)于某一種圖書版本的著錄會(huì)出現(xiàn)不同形式的著錄結(jié)果,究其原因可歸納為3種:第一,著錄規(guī)則的不同,我國當(dāng)前對(duì)于圖書使用的著錄規(guī)則主要有《中國文獻(xiàn)編目規(guī)則》及其第2版、CALIS《中文圖書著錄規(guī)則》和《GB/T 3792.2 85/2006普通圖書著錄規(guī)則》,不同的規(guī)則在對(duì)版本進(jìn)行著錄時(shí)有不同的要求[2]。第二,規(guī)則的變更以及規(guī)則描述的不清晰造成編目員理解的不一致,如對(duì)于說明著作內(nèi)容特征的文字(縮寫本、繪畫本、英漢對(duì)照本等),《中國文獻(xiàn)編目規(guī)則》第一版中規(guī)定著錄于版本項(xiàng),而《中國文獻(xiàn)編目規(guī)則》(第2版)規(guī)定一般不著錄于版本項(xiàng)[3]。第三,對(duì)反映圖書版本的著錄信息源前后描述不一致,如“中國分類主題詞表(第二版)/國家圖書館《中國圖書館分類法》編輯委員會(huì)編”,版權(quán)頁為“2005年9月第1版”的著錄[4]。版本信息著錄結(jié)果的不同,使得同一種圖書分散在各個(gè)地方,難以將各個(gè)不同版本的圖書進(jìn)行聚集,讀者在利用書目系統(tǒng)查詢圖書時(shí),只能檢索出同一題名的圖書。對(duì)于該書的不同版本資源,需要讀者自己識(shí)別,因而降低了讀者對(duì)書目查詢系統(tǒng)的使用體驗(yàn)。而對(duì)于圖書編目人員而言,在對(duì)新入藏的圖書進(jìn)行編目時(shí),影響查重效率,造成同書多編,也不利于從歷史書目版本信息的著錄中發(fā)現(xiàn)對(duì)版本著錄存在的問題及進(jìn)行更好的優(yōu)化。
本文擬在深入分析文獻(xiàn)版本相關(guān)概念和常用文獻(xiàn)版本資源聚集方法基礎(chǔ)上,以中文機(jī)讀書目數(shù)據(jù)為例,提出同一種文獻(xiàn)不同版本數(shù)據(jù)歸類與識(shí)別模型,從而實(shí)現(xiàn)在已有機(jī)讀書目數(shù)據(jù)中同一種文獻(xiàn)不同版本資源的識(shí)別與聚集,以滿足普通用戶和專業(yè)人士的多重閱讀與研究需求,具有重要現(xiàn)實(shí)意義。
文獻(xiàn)版本研究由來已久。西漢伊始,人們就講究傳本,把手抄的書籍稱為“本”,每一代傳人整理的書籍稱為“傳本”。進(jìn)入宋、元,雕版印刷術(shù)盛行,把印刷的書籍稱為“版”,版本由此而來。版本研究目的在于考究文獻(xiàn)版本優(yōu)劣,發(fā)現(xiàn)善本。隨著現(xiàn)代社會(huì)出版技術(shù)的發(fā)展與進(jìn)步,文獻(xiàn)版本越來越豐富,需要對(duì)不同版本書籍進(jìn)行更好的編目與聚集,以滿足人們多重閱讀與研究需求。要實(shí)現(xiàn)同種文獻(xiàn)不同版本的聚集,需要了解什么是同一種文獻(xiàn)以及什么是同一種文獻(xiàn)的不同版本。
對(duì)于同一種文獻(xiàn),王瑋琦認(rèn)為,“同一責(zé)任者所寫的同一題材的書為同種書。允許書名改變,但題材內(nèi)容和第一責(zé)任者不能變?!盵5]馬蘭芳提出,“當(dāng)題名、主要責(zé)任者、主要內(nèi)容相同時(shí)被視為同一種書。”[6]郁德祥認(rèn)為,“同類中凡書名相同、內(nèi)容關(guān)聯(lián)、書名關(guān)聯(lián)、內(nèi)容相同者被認(rèn)為是同種書?!盵7]這些學(xué)者對(duì)于什么是同一種書,都認(rèn)同內(nèi)容必須相同,而對(duì)于題名、責(zé)任者、出版、印刷等項(xiàng)是否相同則有不同的見解。本文認(rèn)為由于第一責(zé)任者對(duì)文獻(xiàn)的創(chuàng)作負(fù)有主要責(zé)任,若第一責(zé)任者不同,說明文獻(xiàn)內(nèi)容有可能發(fā)生了較大改動(dòng),可作為不同種文獻(xiàn)處理。所以同一種文獻(xiàn)是指同一責(zé)任者所著的主要內(nèi)容相同的圖書,包括不同版次、不同譯者、修改者等改變了書名和體裁,但沒有改變第一責(zé)任者和主要內(nèi)容的文獻(xiàn)。
對(duì)于同一種文獻(xiàn)的不同版本的認(rèn)定,馬蘭芳認(rèn)為,題名、責(zé)任者、內(nèi)容完全相同時(shí)為同一版本,主要責(zé)任者和體裁不變,內(nèi)容有所變動(dòng)時(shí)作不同版本處理[6]。《中國文獻(xiàn)編目規(guī)則》(第二版)指出,版本是同一種文獻(xiàn)(出版物),因編輯、排版、裝訂或制作形式的不同而產(chǎn)生的不同的本子[8]?!镀胀▓D書著錄規(guī)則圖例手冊(cè)》指出,出版本是指內(nèi)容或形式上與原版有所不同的作品[9]。從對(duì)不同版本的認(rèn)定可以看出,對(duì)于內(nèi)容改變必然會(huì)產(chǎn)生不同的版本,但是對(duì)于形式改變是否應(yīng)該認(rèn)為是不同的版本,說法不一。因隨著圖書出版數(shù)量增加,其出版形式復(fù)雜多樣,在一定程度上出版形式的改變能影響用戶對(duì)圖書的選擇。所以本文認(rèn)為當(dāng)同一種文獻(xiàn)的內(nèi)容或形式發(fā)生改變時(shí),都應(yīng)該認(rèn)為是同一種文獻(xiàn)的不同版本。
圖書館在著錄書目時(shí),意識(shí)到了多版本問題的存在,為了將文獻(xiàn)進(jìn)行聚集,不同的學(xué)者提出了不同見解。趙伯興提出,通過采用規(guī)范控制、分類和字段連接方法來聚集翻譯作品[10];王玉梅提出,字段連接法、統(tǒng)一標(biāo)目法和歸類一致法能夠?qū)崿F(xiàn)對(duì)于原作與譯作、譯作與譯作的聚集[11];但梁美宏認(rèn)為,趙伯興和王玉梅提出的版本聚集方法只能揭示兩兩之間的關(guān)系,關(guān)聯(lián)程度較低[12]。所以在此基礎(chǔ)上提出采用關(guān)聯(lián)分析的方法來實(shí)現(xiàn)不同文獻(xiàn)版本的深度關(guān)聯(lián)。目前常用的版本資源聚集方法共有4種:款目連接法、規(guī)范控制法、同一分類法和關(guān)聯(lián)分析法。
款目連接法主要指利用機(jī)讀目錄中相應(yīng)字段實(shí)施控制。在中文機(jī)讀目錄中,主要通過451、452、453、454、455、456字段實(shí)現(xiàn)同一載體版本、不同載體版本,原作和譯作以及原作和復(fù)制品的書目連接。4--字段作為選擇性字段,雖然能實(shí)現(xiàn)書目連接,但實(shí)際應(yīng)用操作難度較大,基本不做或很少做著錄。另外我國中文文獻(xiàn)用CNMARC著錄,外文用MARC21,實(shí)現(xiàn)中文和外文之間的連接較為困難,所以難以實(shí)現(xiàn)多版本文獻(xiàn)聚集。
規(guī)范控制法是指對(duì)圖書題名和作者名稱進(jìn)行規(guī)范控制來實(shí)現(xiàn)書目連接。中文機(jī)讀目錄通過500字段的統(tǒng)一題名進(jìn)行題名規(guī)范,作者名稱控制則建立人名規(guī)范擋。但因目前絕大部分圖書館自動(dòng)化系統(tǒng)都沒有提供或者啟用規(guī)范及掛接功能[13],所以利用規(guī)范檢索點(diǎn)發(fā)現(xiàn)同一種文獻(xiàn)的不同版本的優(yōu)勢實(shí)際上無法體現(xiàn)。另外雖然采用500字段對(duì)題名進(jìn)行規(guī)范,但在實(shí)際操作中對(duì)于統(tǒng)一題名的選擇有較高要求。
同一分類法是指通過賦以統(tǒng)一的分類號(hào)和種次號(hào),并且附加輔助區(qū)分號(hào),在一定程度上能夠?qū)崿F(xiàn)不同版本資源聚集和區(qū)分功能。但是著錄規(guī)則不統(tǒng)一及著錄人員對(duì)版本信息源理解的不一致等原因,導(dǎo)致這一方法仍未發(fā)揮出該有的作用。而且在實(shí)際書目檢索系統(tǒng)中,用某一分類號(hào)進(jìn)行檢索,往往得到的是這一類書,鮮有包含同一種文獻(xiàn)的所有不同版本資源。
關(guān)聯(lián)分析法主要借用關(guān)聯(lián)數(shù)據(jù)名稱唯一性特點(diǎn),構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)和書目數(shù)據(jù)的文獻(xiàn)版本關(guān)系發(fā)現(xiàn)方法[12]。目前該方法只研究了單屬性版本關(guān)系發(fā)現(xiàn),即只有一種屬性不同,其他版本屬性都相同的同種文獻(xiàn)版本關(guān)系,對(duì)于多屬性版本關(guān)系識(shí)別研究還未開展,如同版次不同版式關(guān)系、同版式不同版次版本關(guān)系、不同版次不同版式版本關(guān)系等。此外,通過關(guān)聯(lián)分析法實(shí)現(xiàn)圖書館中不同版本書目數(shù)據(jù)的聚集,首先要求將MARC中的書目發(fā)布為關(guān)聯(lián)數(shù)據(jù),而當(dāng)前圖書館發(fā)布關(guān)聯(lián)數(shù)據(jù)集較多的國家為德國、美國、英國、法國以及一些國際聯(lián)合項(xiàng)目,亞洲只有日本發(fā)布了關(guān)聯(lián)數(shù)據(jù)[14]。
綜上所述,這4種方式在一定程度上能夠?qū)崿F(xiàn)同一種文獻(xiàn)不同版本資源的聚集,但在實(shí)際應(yīng)用中作用不明顯。為了便于讀者在圖書的不同版本資源中進(jìn)行選擇利用,本文嘗試在已有的機(jī)讀書目數(shù)據(jù)中進(jìn)行多屬性版本文獻(xiàn)的自動(dòng)識(shí)別與挖掘。
王玉梅提出文獻(xiàn)版本有多種表現(xiàn)形式,載體不同時(shí)會(huì)產(chǎn)生不同的版本,載體相同時(shí)對(duì)于普通圖書來說主要有原本與譯本、不同名稱、不同出版者、不同譯者、收錄叢書不同、影印本、注釋本7種[11];房亞玉根據(jù)實(shí)際工作中遇到的情況將版本類型歸納為版次、印次、出版單位、裝幀(裝訂、版式、冊(cè)次)、不同譯者、不同題名6種;何云、黃久斌通過對(duì)《普通圖書著錄規(guī)則圖例手冊(cè)》的理解,將版本歸納為版刻、版次、文種、文體、出版者等13個(gè)類型[15];梁美宏、曾建勛結(jié)合當(dāng)前研究和實(shí)際編目情況歸納出版次、其他責(zé)任者、版刻、版式、裝幀形式、語言、卷冊(cè)、出版社、出版時(shí)間和書名共10種類型[13]。
對(duì)于版本的類型各個(gè)學(xué)者看法不一,本文結(jié)合現(xiàn)有研究同時(shí)根據(jù)對(duì)《普通圖書著錄規(guī)則圖例手冊(cè)》的理解,從形式和內(nèi)容上歸納出12種版本類型的劃分依據(jù),詳見表1所示。
表1 版本類型劃分依據(jù)及內(nèi)涵
因文獻(xiàn)版本類型復(fù)雜,以上所列的版本類型在機(jī)讀數(shù)據(jù)中并不能一一對(duì)應(yīng),本文就機(jī)讀目錄中與版本相關(guān)的字段進(jìn)行了整理,其對(duì)照關(guān)系如表2所示。
表2 中文文獻(xiàn)版本關(guān)系識(shí)別字段
綜上所述,本研究認(rèn)為同一種文獻(xiàn)是指同一責(zé)任者所著的主要內(nèi)容相同的文獻(xiàn),包括由于不同版次、不同譯者、不同修改者等改變了書名和體裁,但沒有改變第一責(zé)任者的文獻(xiàn)。當(dāng)同一種文獻(xiàn)的內(nèi)容或形式發(fā)生改變時(shí)認(rèn)為是同一種文獻(xiàn)的不同版本。本文以CNMARC數(shù)據(jù)為例,構(gòu)建了文獻(xiàn)版本關(guān)系識(shí)別與挖掘模型,如圖1所示。
由圖1可知,文獻(xiàn)版本關(guān)系識(shí)別主要包含兩個(gè)步驟。
第一步,識(shí)別出某一種文獻(xiàn)的所有書目數(shù)據(jù),主要采用“題名+第一責(zé)任者”進(jìn)行挖掘。
圖1 文獻(xiàn)版本關(guān)系與挖掘模型
說明:CNMARC在著錄書目數(shù)據(jù)時(shí),與題名相關(guān)的信息著錄在200$a正題名子字段和5--相關(guān)題名塊字段,責(zé)任者字段著錄在200$f第一責(zé)任者子字段、200$g其他責(zé)任者子字段和7--知識(shí)責(zé)任者塊。因此選用5--字段的內(nèi)容和200$a作為識(shí)別文獻(xiàn)題名200$f的字段。200子字段中的第一責(zé)任說明和其他責(zé)任說明在7--字段會(huì)重復(fù)著錄,為了做一簡化處理,選用200子字段的信息。經(jīng)過處理后CNMARC中中文圖書著錄項(xiàng)目中識(shí)別同一種文獻(xiàn)相關(guān)的字段及子字段(見表3)。
具體處理流程包含步驟1.1和步驟1.2兩步。
步驟1.1,給出原文獻(xiàn)的題名,若檢索出的文獻(xiàn)正題名200$a 與原文獻(xiàn)題名相同時(shí),繼續(xù)比較與原文獻(xiàn)200 $f第一責(zé)任說明是否相同,若相同,則結(jié)束匹配,認(rèn)為這是同一種文獻(xiàn),然后輸出“判斷題名”之外的其他題名和輸出該文獻(xiàn);若檢索出的文獻(xiàn)正題名200$a與原文獻(xiàn)不同,則取正題名之外的其他的題名與原文獻(xiàn)的題名比較,若相同,則繼續(xù)比較與原文獻(xiàn)200 $f第一責(zé)任說明是否相同,若相同,則結(jié)束匹配,認(rèn)為這是同一種文獻(xiàn),然后輸出“判斷題名”之外的其他題名和輸出該文獻(xiàn),若與原文獻(xiàn)200 $f 第一責(zé)任說明不同,則結(jié)束匹配,認(rèn)為這不是同一種文獻(xiàn)。
步驟1.2,從步驟1.1中得到的所有題名進(jìn)行去重,除去與檢索題名相同的題名,形成新的檢索題名集,若新的題名集為空集,則結(jié)束檢索同種文獻(xiàn),若非空,則進(jìn)入步驟1.1檢索同種文獻(xiàn)。
第二步,將步驟一中輸出的所有文獻(xiàn)進(jìn)行去重后進(jìn)入第二步的版本歸類,將識(shí)別出的書目數(shù)據(jù)按屬性值匹配的方式歸入不同的版本類型。
說明:根據(jù)CNMARC書目版本數(shù)據(jù)中發(fā)現(xiàn)與版本相關(guān)的字段類型和實(shí)際聚類需求,將版本類型分為裝幀、語種、其他責(zé)任者、版次、出版發(fā)行者、出版發(fā)行時(shí)間6種類型,按CNMARC與版本相關(guān)的屬性逐項(xiàng)匹配,歸入所屬類別,因每個(gè)版本數(shù)據(jù)有多個(gè)屬性,可按版本的性質(zhì)歸入多個(gè)類別。
首先將第一步識(shí)別出的所有文獻(xiàn)的010$b的值與原版文獻(xiàn)比較,若取值相同,則歸入該裝幀類,否則建立新的裝幀類別。不同版本語種的識(shí)別是通過101$a + 101$c來進(jìn)行匹配的。其他責(zé)任者識(shí)別是將200$g與原版書目信息匹配,若相同,則歸入這一責(zé)任者數(shù)據(jù)集,否則建立新的數(shù)據(jù)集,實(shí)現(xiàn)不同的注者、譯者、校者的書目數(shù)據(jù)的聚類。版本識(shí)別是通過205$a,匹配,得到同一種文獻(xiàn)的修訂版、增訂版、第二版等。出版社的識(shí)別主要是210 $c數(shù)據(jù)與原版文獻(xiàn)的匹配,聚類得到不同出版單位出版的同一種文獻(xiàn)。時(shí)間識(shí)別是210$d出版發(fā)行時(shí)間來聚類,可以得到按不同時(shí)間出版的同一著作的不同版本。
表3 中文文獻(xiàn)同種文獻(xiàn)識(shí)別字段
以東南大學(xué)圖書館書目數(shù)據(jù)為數(shù)據(jù)源,針對(duì)法國作家Dumas Alexandre的作品Les trois mousquetaires的不同版本文獻(xiàn)資源進(jìn)行識(shí)別與挖掘?qū)嶒?yàn)。其原著為法語版,有原版和續(xù)版。原版法語名稱有“Les trois mousquetaires”“Trois mousquetaires”,英文譯名有“Three musketeers”,中文譯名有“三個(gè)火槍手”“三劍客”“三劍俠”“俠隱記”等。續(xù)版法語名稱為“Vingt ans apres”,中文譯名有“二十年后”“三個(gè)火槍手續(xù)集”“三劍客續(xù)”等。
第一步:同種文獻(xiàn)的判斷。
表4 第一輪檢索文獻(xiàn)判斷情況及去重后的題名
通過對(duì)法國作家Dumas Alexandre的作品Les trois mousquetaires進(jìn)行版本挖掘,共經(jīng)過三輪檢索與判斷:第一輪,以題名“三個(gè)火槍手”檢索,檢出24篇文獻(xiàn),判別出同種文獻(xiàn)23篇,第二輪,以“二十年后”“效忠國王”等7個(gè)題名進(jìn)行檢索,檢出文獻(xiàn)34篇,判別出同種文獻(xiàn)28篇,第三輪,以“三劍客”“Vingt ans apres”等4個(gè)題名進(jìn)行檢索,檢出文獻(xiàn)20篇,判別出同種文獻(xiàn)16篇,每輪的檢索題名根據(jù)識(shí)別模型獲得。將三輪獲得的文獻(xiàn)根據(jù)001字段的值是否相同(001字段值具有唯一性),進(jìn)行去重后獲得該作品的同一種文獻(xiàn)有38種。由于MARC數(shù)據(jù)源本身存在重復(fù)編目、錯(cuò)編等問題,所以對(duì)38種文獻(xiàn)數(shù)據(jù)再進(jìn)行人工清洗后,最終剩余33種文獻(xiàn)數(shù)據(jù)。詳細(xì)過程如下:
第一輪判斷:本文以Les trois mousquetaires最常用的中文譯名之一“三個(gè)火槍手”為題名進(jìn)行檢索,共檢出24篇中文數(shù)據(jù)文獻(xiàn),分別編號(hào)為A1-A24,提取出每條數(shù)據(jù)的正題名、其他題名信息和第一責(zé)任者,分別判斷每篇文獻(xiàn)與原著是否為同一種文獻(xiàn)。
以A1為例,判斷其是否為同一種文獻(xiàn):
(1)判斷題名是否相同 A1題名:三個(gè)火槍手=檢索題名:三個(gè)火槍手,正題名相同
(2)判斷作者是否相同 A1:第一責(zé)任者=(法)大仲馬,作者是Dumas Alexandre的中文譯名
(3)判斷是否是同種文獻(xiàn) 是
(4)因?yàn)榕袛囝}名為“三個(gè)火槍手”,輸出判斷題名之外的其他題 名:Trois mousquetaires,同時(shí)輸出A1。同理判斷文獻(xiàn)A2-A24,結(jié)果如表4所示。
第二輪判斷:以第一輪判斷去重后的7個(gè)題名為檢索題名進(jìn)行第二輪檢索,共檢出34篇中文數(shù)據(jù)文獻(xiàn),將檢出文獻(xiàn)編號(hào)為B1-B34,提取出每條數(shù)據(jù)的正題名、其他題名信息和第一責(zé)任者。與第一輪檢索結(jié)果判斷原理相同,依次判斷文獻(xiàn)B1-B34是否為同一種文獻(xiàn),結(jié)果如表5所示。
第三輪判斷:以第二輪判斷去重后的4個(gè)題名為檢索題名進(jìn)行第三輪檢索,共檢出20篇中文數(shù)據(jù)文獻(xiàn),將識(shí)別出的文獻(xiàn)編號(hào)為C1-C20,提取出每條數(shù)據(jù)的正題名、其他提名信息和第一責(zé)任者,同理判斷C1-C20是否為同一種文獻(xiàn),結(jié)果如表6所示。
因第三輪去重后題名為空集,所以結(jié)束檢索。
結(jié)論:共檢出78篇,進(jìn)行判斷后發(fā)現(xiàn)同一種文獻(xiàn)67篇。因文獻(xiàn)的CNMARC的001字段具有唯一性,所以根據(jù)001字段去重,如前所述,由于MARC數(shù)據(jù)源本身存在重復(fù)編目、錯(cuò)編等問題,所以經(jīng)過人工清洗后最終獲得與原著構(gòu)成同種文獻(xiàn)關(guān)系的33種文獻(xiàn)(詳細(xì)列表省略)。
表5 第二輪檢索文獻(xiàn)判斷情況及去重后的題名
第二步:對(duì)33種文獻(xiàn)根據(jù)版本類型進(jìn)行歸類。
提取33種文獻(xiàn)的相關(guān)CNMARC字段,進(jìn)行版本類型歸類,包括200$a、010$b、010$d、101$a+101$c、200$g、205$a、210$d和210$c這8個(gè)字段信息,部分信息如表7所示。200$a表示正題名;010$b表示文獻(xiàn)的裝幀類型,包括精裝、平裝等;010$d表示文獻(xiàn)的分冊(cè)出版情況;101$a表示文獻(xiàn)正文所用語種,101$c表示原著語種;200$g表示其他責(zé)任者,意為除第一責(zé)任者外,對(duì)文獻(xiàn)負(fù)有其他責(zé)任的人,包括譯者、改寫者等;205$a表示版本類型,如第2版、修訂版等;210$d表示出版時(shí)間;210$c表示出版單位。
本文根據(jù)表1給出的12種版本類型劃分依據(jù),并結(jié)合33種同種文獻(xiàn)的版本信息,進(jìn)行歸納總結(jié)后,將其劃分為8種版本類型,包括中文譯本、中英對(duì)照本、中法對(duì)照本等,具體版本類型及對(duì)應(yīng)文獻(xiàn)信息如圖2所示。
圖2 文獻(xiàn)版本類型關(guān)系
中文版本 :中文版本的圖書涉及24種,匯集了包括“三個(gè)火槍手”“三劍客”“二十年后”等為文獻(xiàn)正題名的圖書,其中一部著作分兩冊(cè)出版的圖書有14種,以一冊(cè)形式出版的圖書有10種。圖書出版年從1978—2017年,其出版社種類繁多。
英文版本:英文版本有4種,正題名的形式有“The three musketeers”“三個(gè)火槍手”,以全一冊(cè)的形式出版,其中A17是英文縮寫本,由上海外語教育出版社于2003年出版,B16由Ladybird出版社于2008年出版,A9、A24由外語教學(xué)與研究出版社分別于2011年,1994年出版,但是A9的譯者是郝運(yùn)、王振孫,A24的其他責(zé)任者是程靜英。
法文版本:法文版本有1種,為A23。原著經(jīng)勒馬歇爾改寫,韓伏秋注釋。正題名被譯為三個(gè)火槍手,于1991年由商務(wù)印書館出版。
中英對(duì)照本:中英對(duì)照本有3種,其正題名形式有“三個(gè)火槍手”“三劍客”,全部以全一冊(cè)的形式出版,B19由中國大百科全書出版社于2001年出版,A13由航空工業(yè)出版社于2007年出版,A20由外語教學(xué)與研究出版社在1985年出版。
中法對(duì)照本:中法對(duì)照本有1種,題名全部被翻譯為“三個(gè)火槍手”,其中A8由R.de Roussy de Sales改編,李洪峰翻譯,于2011年由北京語言大學(xué)出版社出版。
精裝本:精裝本有5種,全部是中文譯本,翻譯者有李玉民、周克希、羅國林、王振孫等,其中3種以全兩冊(cè)的形式出版,2種以全一冊(cè)的形式出版,其中精裝版本多集中在2013—2015年出版。
注釋本:原著注釋本有3種,A17的正文是英文,注釋是中文;A24正文是英文,注釋是英文;A23正文是法文,注釋是中文。3種文獻(xiàn)都是以全一冊(cè)的形式出版,其出版社、出版年和其他責(zé)任者均不同。
續(xù)本:續(xù)本有6種,所有續(xù)本的正題名是“二十年后”,全部為中文譯本,部分圖書采用精裝的形式出版,其中3種圖書以全兩冊(cè)的形式出版,另外3種圖書以全一冊(cè)的形式出版,出版年從1982—2014年。
以法國作家Dumas Alexandre的作品Les trois mousquetaires在東南大學(xué)圖書館書目數(shù)據(jù)中進(jìn)行版本挖掘,發(fā)現(xiàn)該文獻(xiàn)版本類型十分豐富,主要有中文版、英文版、法文版、中英對(duì)照版本、中法對(duì)照本、續(xù)寫本、注釋本、精裝本8種類型;涉及20個(gè)譯者和注釋者,其中李玉民翻譯出版的圖書種類最多;文獻(xiàn)出版時(shí)間跨度從1978至2017年,約30年之久,涉及出版社多達(dá)24家,其中上海譯文出版社、上海三聯(lián)書店出版的圖書較多。這些文獻(xiàn)版本聚集信息不僅可為Les trois mousquetaires作品的文學(xué)分析與研究,而且可為圖書館經(jīng)典圖書的篩選和導(dǎo)讀工作提供幫助。
當(dāng)前匯文系統(tǒng)的OPAC檢索基本無文獻(xiàn)版本聚集功能,在OPAC系統(tǒng)中需分別以Les trois mousquetaires不同改版題名進(jìn)行檢索,并加以人工判斷才能識(shí)別出少量版本信息。若以當(dāng)前在機(jī)讀數(shù)據(jù)中廣泛采用的以統(tǒng)一題名的方式進(jìn)行版本挖掘,能夠檢索出以《三個(gè)火槍手》《三劍客》為正題名的文獻(xiàn),但數(shù)量亦十分有限,主要是由于部分文獻(xiàn)在著錄時(shí)未著錄統(tǒng)一題名項(xiàng),同時(shí)每篇文獻(xiàn)的統(tǒng)一題名的著錄不同,使得難以實(shí)現(xiàn)對(duì)所有版本的聚集。而本文建立的文獻(xiàn)版本挖掘模型能夠識(shí)別出以《三個(gè)火槍手》《三劍客》《The three musketeers》《二十年后》為文獻(xiàn)正題名的33種原著同種文獻(xiàn),能夠起到較好的版本挖據(jù)與聚集功能。本文研究不足之處在于,對(duì)于原著的另外兩篇同種文獻(xiàn),即正題名分別為《俠隱記》和《三劍俠》的文獻(xiàn),卻沒有能夠進(jìn)行有效聚集。
本文通過對(duì)版本的發(fā)現(xiàn)過程,同一種文獻(xiàn)和同種文獻(xiàn)不同版本的認(rèn)定,常用的文獻(xiàn)版本聚集方法及版本數(shù)據(jù)在機(jī)讀數(shù)據(jù)中的表現(xiàn),構(gòu)建了文獻(xiàn)版本關(guān)系識(shí)別與挖掘模型,以Les trois mousquetaires作品為例,以“三個(gè)火槍手”作為檢索初始入口,能夠?qū)崿F(xiàn)因裝幀不同、出版社不同、出版時(shí)間不同、版次不同、語種不同等同種文獻(xiàn)的發(fā)現(xiàn)。由于本文構(gòu)建的文獻(xiàn)版本關(guān)系識(shí)別模型具有滾動(dòng)性,因此以“三劍客”“The three musketeers”“二十年后”或“效忠國王”等為初始檢索入口,同樣能夠達(dá)到以“三個(gè)火槍手”作為初始檢索入口的挖掘效果。另外,因書目元數(shù)據(jù)本身在著錄的過程中一些人為因素存在一定的質(zhì)量問題,會(huì)影響識(shí)別和版本聚類過程。在進(jìn)行同種文獻(xiàn)識(shí)別過程中,文獻(xiàn)200$a 正題名、5--相關(guān)題名塊是識(shí)別因題名不同的同種文獻(xiàn)的關(guān)鍵字段,不同題名的文獻(xiàn)之間也因200$a正題名、5--相關(guān)題名塊之間存在一定的關(guān)系,所以能被識(shí)別出,若同種文獻(xiàn)題名之間沒有任何關(guān)系,則很難被識(shí)別出,例如本文研究中Dumas Alexandre的作品Les trois mousquetaires被翻譯為“俠隱記”和“三劍俠”沒有作為同一種文獻(xiàn)被識(shí)別出。因此對(duì)于題名變動(dòng)較大或改換題名的同一種文獻(xiàn)的識(shí)別將成為本文今后進(jìn)一步研究的方向。