徐 燁,肖 明
《中國圖書館分類法》 (Chinese Library Classification,CLC)是我國圖情單位普遍使用的綜合性分類法;《美國國會圖書館分類法》(Libraryof Congress Classification,LCC)是美國國會圖書館編制的綜合性等級列舉式圖書分類法,也是世界上最重要的分類法之一。隨著國內(nèi)各圖書館不斷購置大量的英文圖書,如果對這些英文圖書進(jìn)行分類時僅依靠人工判斷,將會花費(fèi)大量的人工成本,且工作效率很低。因此,實(shí)現(xiàn)中文詞表與英文詞表之間的互操作,將是解決有效檢索和利用英文圖書的重要途徑。
詞表間的互操作主要通過建立類表之間的映射來實(shí)現(xiàn),可細(xì)分為3種類型:直接映射、間接映射和同現(xiàn)映射[1]。直接映射是指直接在不同的受控詞表之間建立語詞和分類號的匹配關(guān)系,主要依靠人工來判斷類目之間的映射關(guān)系;間接映射是指利用計算機(jī)計算類目語義相關(guān)度來確定匹配類型;同現(xiàn)映射是基于書目數(shù)據(jù)庫的映射,是指通過統(tǒng)計同一元數(shù)據(jù)集中表達(dá)不同主題的語詞或分類號同現(xiàn)頻次,計算語詞和分類號之間的相關(guān)度,從而實(shí)現(xiàn)類目匹配。目前國內(nèi)外對詞表之間的映射研究都有一定探究[2-3]。
國外對詞表之間映射的研究開展得早一些。1987年瑞典皇家圖書館通過直接映射實(shí)現(xiàn)《瑞典圖書分類法》(SAB)和《杜威十進(jìn)分類法》(DDC)的映射[4],主要是將DDC中的部分表翻譯成瑞典語,再人工將其進(jìn)行關(guān)聯(lián),并保存在數(shù)據(jù)庫中,以實(shí)現(xiàn)二者之間的映射。1995年,紐約州立大學(xué)設(shè)計一種面向?qū)ο蠛突诳蚣芊治龅膶<蚁到y(tǒng),將美國《數(shù)學(xué)主題分類表》(MSC)和DDC進(jìn)行了映射[5],并將映射關(guān)系細(xì)分為8種類型:精確匹配、不匹配、專指到泛指、泛指到專指、多對一、循環(huán)映射、上位映射、下位映射。2001年歐盟發(fā)起Renardus項目[6],實(shí)現(xiàn)DDC與各國分類法及專業(yè)分類法之間的映射。用戶可以通過Renardus對各國門戶網(wǎng)站進(jìn)行檢索,再根據(jù)映射結(jié)果來實(shí)現(xiàn)各國信息門戶按DDC 類目進(jìn)行顯示。
國內(nèi)對詞表之間映射的研究集中在DDC 與CLC之間,以及《國際專利分類法》(IPC)與CLC之間的映射上。其中,針對DDC與CLC之間的映射研究開展得更早一些。戴劍波等[7]分析了DDC 與CLC 之間相互映射的可行性、映射實(shí)現(xiàn)模式、自動映射的實(shí)現(xiàn)原理,并且對比分析DDC與CLC之間的差異,提出實(shí)現(xiàn)間接映射的原理及可行性。楊眉等[8]采用直接映射和同現(xiàn)映射相結(jié)合的方法,對DDC與CLC中的化學(xué)工業(yè)領(lǐng)域類目進(jìn)行研究分析,總結(jié)出映射過程中所存在的問題,并且提出了相應(yīng)的解決方案。趙冬梅[9]運(yùn)用統(tǒng)計學(xué)的方法對DDC與CLC中的數(shù)學(xué)類目進(jìn)行了差異性分析。賈君枝等[10-11]提出了DDC與CLC之間的類目映射原理與方法,并對類目自動映射進(jìn)行了較為系統(tǒng)的研究,提出了實(shí)現(xiàn)自動映射的各種算法。李珂等[12]采用直接映射的方法對DDC與CLC之間的農(nóng)業(yè)科學(xué)領(lǐng)域類目進(jìn)行映射研究,并對映射結(jié)果進(jìn)行統(tǒng)計分析。國內(nèi)研究人員針對IPC與CLC之間的映射研究相對較少一些。周林志等[13]提出基于詞匯相似度建立IPC與CLC之間映射的方法,其主要目標(biāo)是要解決專利數(shù)據(jù)庫使用率低和降低專利數(shù)據(jù)的孤立程度。
綜上所述,國內(nèi)針對詞表之間互操作的研究集中在DDC與CLC之間的映射上;在映射方法研究方面則主要采用直接映射法?;诖耍疚氖紫确治鯟LC 與LCC 類目映射的可行性,然后以圖情領(lǐng)域為例,采用一種基于書目記錄的CLC與LCC類目同現(xiàn)映射方法來實(shí)現(xiàn)類目間的映射,并分析該方法的優(yōu)缺點(diǎn),最后對映射結(jié)果中一對多的映射關(guān)系進(jìn)行討論。
《中國圖書館分類法》(CLC)是由國家圖書館《中國圖書館分類法》編輯委員會編制的綜合性分類法[14]。CLC以馬克思列寧主義、毛澤東思想為指導(dǎo)思想,以辯證唯物主義和歷史唯物主義為編制依據(jù),以學(xué)科分類和知識分類為基礎(chǔ),強(qiáng)調(diào)類目的完整性、類目體系的平衡性,以及知識覆蓋的全面性。如果從宏觀結(jié)構(gòu)上分析,則CLC是由編制說明、基本大類表、基本類目表(簡表)、主表、附表(通用復(fù)分表),以及字順?biāo)饕?、使用手冊等部分組成;如果從微觀上分析,則CLC的類目是由類號、類名、類級、注釋、參照等部分組成。除主表外,CLC宏觀結(jié)構(gòu)還包括附表、索引、使用手冊等組成部分,其微觀結(jié)構(gòu)則包括類號、類名、類級、注釋、參照等組成部分。CLC力求簡明,易懂易記,不僅適應(yīng)了我國圖書資料分類實(shí)踐的需要,而且為我國圖書資料統(tǒng)一分類編目創(chuàng)造了便利條件。
《美國國會圖書館分類法》(LCC)是美國國會圖書館在其館長普特南(G.H.Putnam,1861-1955)主持下,根據(jù)該館藏書所編制的一部綜合性等級列舉式分類法[15-16],主要有7 大特點(diǎn):第一,實(shí)用性強(qiáng)。它專門為美國國會圖書館排架使用而編制,從類目安排到號碼配置,都處處考慮了該館藏書的實(shí)際需要。第二,類目詳盡,多達(dá)20多萬個,是世界上類目最多、篇幅最大的分類法。第三,它不僅可以適用于綜合性圖書館,而且適用于專業(yè)圖書館。第四,它及時反映了新學(xué)科和新主題情況。美國國會圖書館設(shè)有專門部門來管理LCC,根據(jù)館藏變化來及時修訂類表,并且按季度編印發(fā)行《LCC的補(bǔ)充和修改》,及時報道LCC類號的修訂信息。第五,其各大類分別獨(dú)立編制,出版時間和版本并不統(tǒng)一,也沒有統(tǒng)一的編制體例以及通用復(fù)分表和總索引。第六,它基本上采用的是順序標(biāo)記制,故其類號簡短,但類號不能表達(dá)類目之間的等級關(guān)系,且助記性較差。第七,應(yīng)用廣泛。目前,LCC號碼已被應(yīng)用到美國國會圖書館發(fā)行的印刷卡片和機(jī)讀目錄,以及美、英等國出版的圖書在版編目數(shù)據(jù)中。除了美國國會圖書館以外,LCC還被美國許多高等學(xué)校圖書館、專門圖書館以及美國以外的一些國家的圖書館所采用。
CLC和LCC在圖情領(lǐng)域的類目設(shè)置方面存在很大差異,如表1所示。
表1 CLC與LCC在圖情領(lǐng)域的類目設(shè)置比較
由于篇幅所限,表1中只羅列出這兩部分類法中的部分類目。在圖書館學(xué)領(lǐng)域,CLC羅列到四級類目,LCC只羅列到三級類目;在目錄學(xué)領(lǐng)域,LCC只羅列到二級類目。從表1中還可以看出,CLC與LCC在圖情領(lǐng)域上的類目設(shè)置有很大不同。例如,在CLC中,“圖書館事業(yè)、信息事業(yè)”是G大類下的三級類目,而應(yīng)該與之對應(yīng)的“Bibliography.Library Science.Information Resources”則是Z 大類,屬于一級類目。CLC與LCC在類目設(shè)置上的差異性是巨大的,從而為實(shí)現(xiàn)二者之間的映射帶來了較大挑戰(zhàn)。從整體上分析,造成這種差異性的主要原因是中外文化上的差異。CLC的類目設(shè)置相對側(cè)重于圖書整理;LCC則相對偏重于圖書館的社會性,即更側(cè)重于圖書館的利用。如果單從圖情領(lǐng)域的類目設(shè)置上來分析,則這種差異性主要體現(xiàn)在兩個方面。
一是對圖情學(xué)科理解的差異性。例如,LCC中的“General Bibliography”“National Bibliography”“Subject Bibliography”和“Personal Bibliography”雖然與CLC中的“G257 目錄學(xué)”有一定的關(guān)系,但是主要還是對應(yīng)到CLC中“Z8 圖書報刊目錄、文摘、索引”二級類目下的“Z81/86 各種圖書目錄”“Z81 國家總目錄”“Z88??颇夸洝薄癦86個人著作目錄”等三級類目中。
二是設(shè)置類目等級體系的差異性。在整體結(jié)構(gòu)上看,CLC將整個圖情學(xué)科設(shè)置在“G2 信息與知識傳播”之下,并將“圖書館事業(yè)、信息事業(yè)”與“新聞事業(yè)”“博物館事業(yè)”“檔案事業(yè)”等并列起來;LCC 則將“Bibliography.Library Science.Information Resources”單獨(dú)設(shè)置成Z大類。此外,CLC將“圖書館學(xué)”“情報學(xué)”“文獻(xiàn)學(xué)”“目錄學(xué)”等均設(shè)置為“圖書館事業(yè)、信息事業(yè)”的下位類,而將“圖書館學(xué)、情報學(xué)”與“目錄學(xué)”視作同位類;LCC 則將“Libraries”與“General Bibliography”設(shè)置為二級類目,并將兩者視為同位類,且將“Library Science.Information Science”設(shè)置為“Libraries”的下位類。
在圖情領(lǐng)域類目設(shè)置上,CLC與LCC存在明顯的差異,具體類目分布情況見表2。從表2中發(fā)現(xiàn),在圖情領(lǐng)域,CLC共有186個類目,從三級類目橫跨到七級類目。其中,五級類目和六級類目共占類目總數(shù)約78%;LCC共計有72個類目,從一級類目橫跨到五級類目。其中,三級類目、四級類目、五級類目共占類目總數(shù)約91.7%。CLC類目設(shè)置更多,而LCC的類名則相對較長一些,它通常會使用兩個及兩個以上的詞語組合作為類名。
表2 CLC與LCC在圖情領(lǐng)域的類目分布差異
中美兩國在文化環(huán)境、分類原則、分類等級等方面存在諸多差異,導(dǎo)致CLC 與LCC 在類目設(shè)置上存在著明顯的差異性。如果采取直接映射方法,則需要人工判斷類目的語義、功用等不同層面,將會耗費(fèi)大量的人力成本。目前,國內(nèi)外在映射方法研究方面大多集中在間接映射方法上,但間接映射方法往往忽略類目本身的復(fù)雜語義,從而導(dǎo)致其映射效果不佳。本文提出了一種同現(xiàn)映射方法,該方法主要是利用已經(jīng)由國家圖書館工作人員標(biāo)注好的中英文圖書的書目數(shù)據(jù),較好地實(shí)現(xiàn)了CLC與LCC的類目映射。
同現(xiàn)映射是以書目數(shù)據(jù)庫中的書目記錄作為基礎(chǔ),通過統(tǒng)計同一元數(shù)據(jù)集中表達(dá)不同主題的語詞或分類號的同現(xiàn)頻次來計算語詞和分類號之間的相似度,從而實(shí)現(xiàn)類目映射。在本文中,筆者首先選用圖情領(lǐng)域中英文圖書的書目數(shù)據(jù)作為數(shù)據(jù)源,共計包括2506條書目記錄;然后根據(jù)這些書目記錄計算CLC 下的某一類目與LCC 下的某一類目的相似度,實(shí)現(xiàn)了CLC 與LCC 的類目映射。
2.2.1 相似度的計算
鄭麗萍給出了如下類目相似度定義[17]:
其中,Sim(A,B)表示類目A與類目B的相關(guān)程度,其取值范圍在0和1之間;d1和d2均表示類目下的書目記錄;O1和O2均表示需要映射的分類法。當(dāng)Sim(A,B)=0時,表示類目A與類目B是完全不相關(guān)的;當(dāng)Sim(A,B)=1時,表示類目A與類目B是完全相同的。
具體計算相似度的方法有很多,在需要映射的兩個分類法中,利用類目下的具體書目記錄對類目間的相似度進(jìn)行計算。筆者采用Jaccard系數(shù)來計算相似度。該系數(shù)的計算公式為:
2.2.2 算法步驟
根據(jù)上述計算類目間相似度的公式,可以用分類法中類目A和類目B的具體書目記錄來計算其中,P(A,B)表示一條書目記錄既屬于類目A又屬于類目B的概率;表示一條書目記錄屬于類目A但不屬于類目B的概率;表示一條書目記錄不屬于類目A卻屬于類目B的概率。
以計算P(A,B)為例,基于書目記錄的類目同現(xiàn)映射相似度計算方法如圖1所示。
圖1 基于書目記錄的類目同現(xiàn)映射相似度計算方法
具體算法主要包括6個步驟。(1)將分類法O1的書目記錄數(shù)據(jù)集U1,分成屬于類目A的數(shù)據(jù)集和不屬于類目A的數(shù)據(jù)集(2)將這兩個數(shù)據(jù)集中的書目記錄分別作為正反樣本,采用機(jī)器學(xué)習(xí)方法來進(jìn)行訓(xùn)練,最終得到關(guān)于類目A的學(xué)習(xí)器L。(3)將分類法O2的書目記錄數(shù)據(jù)集U2,分成屬于類目B的數(shù)據(jù)集和不屬于類目B的數(shù)據(jù)集(4)使用學(xué)習(xí)器L對數(shù)據(jù)集中的書目記錄進(jìn)行分類,分成兩個數(shù)據(jù)集同樣地,將數(shù)據(jù)集分成數(shù)據(jù)集(5)將分類法O1和分類法O2的位置調(diào)換,重復(fù)上述步驟,同樣可以分成數(shù)據(jù)集和(6)根據(jù)上述結(jié)果,分別計算P(A,B),的值:
根據(jù)上述Sim(A,B)的公式,即:
計算得出類目A與類目B的相似度,再根據(jù)相似度的取值,判斷類目A與類目B能否建立映射,從而實(shí)現(xiàn)CLC與LCC之間的類目映射。
筆者根據(jù)上述方法,將CLC 與LCC 這兩部分類法中有關(guān)圖情領(lǐng)域的類目進(jìn)行了映射。下面以CLC中的“G252.6 參考咨詢”類目和LCC 的“Z711-711.95 Public Services.Reference Services”類目的相似度計算為例來加以說明。首先,對CLC 中“G252.6 參考咨詢”類目的書目記錄進(jìn)行樣本訓(xùn)練。由書目記錄可以計算得到:再對LCC 中的“Z711-711.95 Public Services.Reference Services”類目進(jìn)行分類,同樣可以計算得到:同理,可以計算得出的值。由于本例中CLC與LCC下的書目記錄個數(shù)是相同的,故N(U1)=N(U2),計算得出的值是相同的。最后,根據(jù)前文提及的相關(guān)公式,計算得到Sim(A,B)的值:
同理,可計算出其他類目之間的相似度,見表3和表4(按從高到低進(jìn)行排序)。
從表3和表4看出,相似度的值存在兩極分化現(xiàn)象。在表3中,類目“G252.6參考咨詢”與類目“Z711-711.95 Public Services.Reference Services”之間相似度的值要明顯高于類目“G252.6”與其他LCC類目之間相似度的值;在表4中,類目“Z711-711.95”與類目“G252.6”及類目“G252”之間相似度的值要明顯高于類目“Z711-711.95”與其他CLC類目之間相似度的值。因此,LCC中的類目“Z711-711.95”,可與CLC中的類目“G252.6”和“G252”進(jìn)行映射,并形成一對多的映射關(guān)系。從直接映射角度來看,LCC中的“Z711-711.95 Public Services.Reference Services”類目的類目名為組合類目,可將其翻譯為“公共服務(wù)和參考咨詢服務(wù)”,它可以與CLC中的“G252.6 參考咨詢”類目和“G252 信息資源服務(wù)”類目確定映射關(guān)系。通過比較“Z711-711.95”類目與“G252.0”類目、“G252.1”類目、“G252.6”類目之間的相似度大小,就可以發(fā)現(xiàn)相鄰?fù)活愵惸恐g的相似度存在著明顯的區(qū)分度。因此,上述基于書目記錄來實(shí)現(xiàn)類目同現(xiàn)映射的方法是可行的,也與直接映射的結(jié)果關(guān)聯(lián)起來,映射效果較好。
表3 CLC“參考咨詢”類目與LCC部分類目間的相似度
表4 LCC“Public Services.Reference Services”類目與CLC部分類目間的相似度
雖然相似度的值存在著明顯的兩極分化現(xiàn)象,區(qū)分度較大,但是計算得出的相似度的值并不高。其主要原因有以下3 點(diǎn):(1)正如上文所述,CLC與LCC類目結(jié)構(gòu)的差異性較大,所以在書目記錄中,同屬于CLC 類目與LCC 類目的書目記錄數(shù)量與屬于CLC 類目但不屬于LCC 類目(或者不屬于CLC類目但屬于LCC類目)相比,相對較少;(2)類目間存在一對多的映射情況,LCC的類目名經(jīng)常由多個詞組成,導(dǎo)致其映射到CLC的類目上時,種類較多;(3)書目記錄中存在一些分類不合理的書目記錄,例如,將關(guān)于圖情領(lǐng)域的國外書籍直接分到“G259 世界各國圖書館事業(yè)、信息事業(yè)”類目下,并未對其按內(nèi)容進(jìn)行分類,盡管這批書目記錄數(shù)量較小,但也在一定程度上影響了相似度的計算。
采用上述方法對CLC 與LCC 中圖情領(lǐng)域的類目進(jìn)行同現(xiàn)映射,最終得到的部分同現(xiàn)映射結(jié)果(存在一對多的情況)如表5所示。
從表5看出,映射結(jié)果存在一部分一對多的映射情況。從實(shí)驗結(jié)果分析可知,LCC 中的“Z711-711.95 Public Services.Reference Services”類目與CLC中的“G252信息資源服務(wù)”“G252.6 參考咨詢”類目的相似度較高,且與其他CLC類目的相似度存在明顯的區(qū)分,所以判定其為一對多的映射關(guān)系。從類目名稱分析,LCC中的“Z711-711.95 Public Services.Reference Services”類目是由多個詞組成的組合類目,所以極有可能是一對多的映射關(guān)系,這與實(shí)驗結(jié)果符合。但也存在實(shí)驗結(jié)果與類目名稱分析結(jié)果不相符的情況,例如,“G255.72 微縮資料”從類目名稱分析結(jié)果上看,應(yīng)與“Z691-692 Special Classes of Materials Including Manuscripts,Maps,Microforms,Serials”類目產(chǎn)生映射,但從實(shí)驗結(jié)果看并沒有(見表5),原因是“G255.72 微縮資料”的書目記錄僅有4 條,相似度較小。所以,判斷一對多的映射結(jié)果時,除了依據(jù)相似度的大小,也應(yīng)對類目名稱進(jìn)行分析,尤其要注意由多個詞組成的組合類目。
表5 CLC與LCC中圖情領(lǐng)域類目同現(xiàn)映射的結(jié)果(部分)
如果從類目名稱進(jìn)行分析,并且采用人工翻譯方法來完成直接映射,則其結(jié)果與表5所示的同現(xiàn)映射結(jié)果相差不大。但是,其中的少部分映射結(jié)果會存在以下3種不足:第一,部分類目無映射,其主要原因是該類目下書目記錄數(shù)較少。例如,表5中的“Z662-664”類目下書目記錄數(shù)僅為8條;第二,部分類目映射不全,其主要原因是該類目下的書目記錄分布不均勻。例如,表5中的“Z691-692”類目,該類目下與“G255.75”類目相關(guān)聯(lián)的類目較多,而與“G255.72”類目相關(guān)聯(lián)的類目較少;第三,部分類目映射存在錯誤,主要是因為國內(nèi)圖書館在對國外圖書進(jìn)行分類時,本身就存在著錯誤分類的情況。
綜上所述,從本次實(shí)驗的整體情況來看,基于書目記錄的類目同現(xiàn)映射方法可以為實(shí)現(xiàn)CLC與LCC之間的互操作提供依據(jù),還會對實(shí)現(xiàn)分類法之間的自動映射有所幫助。但是,需要特別注意的是,同現(xiàn)映射結(jié)果的好壞會嚴(yán)重依賴于書目記錄的數(shù)量和質(zhì)量。
鑒于CLC與LCC這兩部分類法在分類角度、整體結(jié)構(gòu)等方面存在著明顯的差異性,所以國內(nèi)鮮有研究CLC 與LCC 之間的映射。筆者在本文中提出了一種基于書目記錄的類目同現(xiàn)映射方法,從而實(shí)現(xiàn)了CLC 與LCC 之間的類目映射。與直接映射法相比較,筆者提出的方法不僅更加節(jié)約人工判斷所引發(fā)的成本,而且映射效果相對更好一些,可供CLC 與LCC 之間互操作的實(shí)現(xiàn)參考借鑒。同時,需要特別注意的是,該方法仍然存在兩個不足:第一,該方法依賴于書目記錄。書目記錄越多,則類目映射的效果就會越好;第二,該方法忽略了類目之間本身可能存在的語義關(guān)系,僅通過相似度來定義映射關(guān)系,顯得比較片面。因此,筆者下一步的研究打算從類目的語義層面、功用層面、書目記錄等其他多個角度出發(fā),綜合考慮類目之間的映射關(guān)系,最終建立起更加合理、更加完善的類目映射規(guī)則。