王 卉
近代廣東海關(guān)檔案數(shù)量浩繁,具有珍貴的原始價值和研究價值,1980年代開始受到學(xué)界關(guān)注。由于近代廣東海關(guān)系統(tǒng)的國際化特征,其形成的歷史檔案存在語言與書寫多樣的現(xiàn)象,給各類檔案名稱的文字表達(dá)和識別帶來了極大困難。當(dāng)前,隨著檔案開放和社會信息化進(jìn)程加快,歷史檔案的利用需求越來越大,如何對近代廣東海關(guān)檔案中的各類名稱及其變體形式進(jìn)行規(guī)范控制,確保檔案信息檢索點的一致性和關(guān)聯(lián)性,已成為亟需解決的問題?;诖耍疚囊試鴥?nèi)外相關(guān)理論和實踐成果為參照,通過解析近代廣東海關(guān)檔案中的語言文字一致性、同音異義詞的辨別以及中英譯意的轉(zhuǎn)化等問題,分析其中的邏輯語義關(guān)系,進(jìn)而構(gòu)建廣東海關(guān)檔案名稱規(guī)范檔,以期為海關(guān)檔案的開發(fā)利用提供參考。
名稱規(guī)范檔,是指一種對描述記錄中的名稱標(biāo)目進(jìn)行規(guī)范控制的工具,處理范圍包括人名、機(jī)構(gòu)團(tuán)體名、著作題名等[1],主要作用在于通過對名稱中同義詞、多義詞及不同文種名稱之間的轉(zhuǎn)換進(jìn)行處理、規(guī)范,以方便相關(guān)信息的標(biāo)引和檢索,促進(jìn)信息資源的共享。針對檔案信息資源的開發(fā)利用,名稱規(guī)范檔不僅有助于聚合同一名稱的變體形式,而且為構(gòu)建以關(guān)聯(lián)數(shù)據(jù)為基礎(chǔ)的語義關(guān)系網(wǎng)提供規(guī)范化的數(shù)據(jù)源。正是鑒于規(guī)范記錄在檔案著錄中的重要地位,國內(nèi)外較早就很重視名稱規(guī)范檔的建設(shè)。1993 年,國際檔案理事會檔案著錄標(biāo)準(zhǔn)特別委員會就開始考慮檔案著錄過程中檢索點的規(guī)范問題,于1996年發(fā)布第1版《國際標(biāo)準(zhǔn)—團(tuán)體、個人和家族檔案規(guī)范記錄》[簡稱ISAAR(CPF)],明確規(guī)定檔案內(nèi)容著錄的標(biāo)準(zhǔn),且將檔案規(guī)范記錄(Archival Authority Records)作為獨立的標(biāo)準(zhǔn)。加拿大的《檔案著錄規(guī)則》(Rules for Archival Description)對人物、機(jī)關(guān)團(tuán)體的標(biāo)目及參照關(guān)系等進(jìn)行了規(guī)范。英國國家檔案館在ISAAR(CPF)基礎(chǔ)上編制《人名、地名和機(jī)構(gòu)名稱著錄規(guī)則》(Rules for the Con‐struction of Personal, Place and Corporate Names)。
與此同時,我國也開展了對名稱規(guī)范檔的實踐。比如,1999年1月由嶺南大學(xué)發(fā)起的合作項目,即“中文名稱規(guī)范控制”,是香港中文名稱規(guī)范工作小組在規(guī)范控制的基礎(chǔ)上,構(gòu)建反映中文人名和機(jī)構(gòu)名特征的“香港中文名稱規(guī)范數(shù)據(jù)庫”(簡稱HKCAN);臺灣建構(gòu)的“明清檔案人名權(quán)威系統(tǒng)”整理了明清人物傳記資料,記錄了史料來源的脈略線索,較完整地呈現(xiàn)了明清時期相關(guān)的人物信息以及內(nèi)容關(guān)聯(lián);上海圖書館數(shù)字人文平臺建構(gòu)的“人名規(guī)范庫”不僅提供了人名規(guī)范控制服務(wù),也提供人物資料服務(wù),動態(tài)地呈現(xiàn)了實體間的關(guān)聯(lián)關(guān)系,為社會網(wǎng)絡(luò)分析提供了便利。但整體而言,無論是在編目規(guī)則還是在資料庫建置上,國內(nèi)各館藏機(jī)構(gòu)均缺乏規(guī)范化的標(biāo)準(zhǔn)[2]。目前可見的檔案著錄參考規(guī)范僅有《DA/T 18-1999檔案著錄規(guī)則》,缺少針對檔案信息的規(guī)范控制規(guī)則。臺灣大學(xué)洪一梅指出,就數(shù)量而言,檔案是唯一的;就性質(zhì)而言,檔案內(nèi)容具有多元性;檔案典藏的時間、空間范圍不同,牽涉到的詞匯即有不同,同時人名權(quán)威資料必須再區(qū)分為明清人物、民國人物,而且同是清代檔案內(nèi)閣大庫與淡新檔案,典藏單位對權(quán)威檔功能的需求不同,建立的權(quán)威框架就不同[3]。這意味著檔案機(jī)構(gòu)在針對館藏建構(gòu)規(guī)范檔過程中,既需要遵守國家通用標(biāo)準(zhǔn),也需要考慮不同檔案文獻(xiàn)的特性,應(yīng)基于具體的檔案文獻(xiàn)情況來描述多元化內(nèi)容。
就近代廣東海關(guān)檔案來說,雖然目前已完成全文數(shù)字化掃描工作,但尚沒有形成數(shù)字化的目錄數(shù)據(jù)庫,不能提供機(jī)檢目錄,故在利用時只能依靠手工檢索,效率較低,耗時耗力。尤其是對那些不熟悉檔案內(nèi)容或者需要進(jìn)行大范圍信息查找和統(tǒng)計的利用者來說,很難進(jìn)行全面且準(zhǔn)確的信息檢索和定位。為解決這一問題,需通過構(gòu)建海關(guān)檔案名稱規(guī)范檔,解決檔案信息查找過程中的信息模糊問題,有效地控制不規(guī)范的信息表達(dá)。
外籍稅務(wù)司制度下的中國海關(guān),是一個特殊的國際性機(jī)構(gòu),其檔案的形式與內(nèi)容也呈現(xiàn)出獨特的風(fēng)格。綜觀近代廣東海關(guān)檔案的文獻(xiàn)記錄,大都混合使用了拉丁文字和象形文字,前者含有羅馬字母和漢語拼音,后者包括繁體字和簡體字。這些語言文字的混合使用,導(dǎo)致了文字多樣與同音異義現(xiàn)象,是近代廣東海關(guān)檔案名稱規(guī)范化過程中首要解決的問題之一。
在目前的廣東海關(guān)檔案文獻(xiàn)中,專有名詞多樣化主要體現(xiàn)在羅馬拼音系統(tǒng)上。當(dāng)前,較完整的羅馬拼音系統(tǒng)有50種[4],涉及中英語音轉(zhuǎn)寫的有22種,出現(xiàn)在近代廣東海關(guān)檔案文獻(xiàn)中較完整的有馬禮遜系統(tǒng)(Morrison System,1879)、威妥瑪-翟理斯系統(tǒng)(Wade-Giles System,1892)和郵政拼音系統(tǒng)(Postal Spelling System,1906)。多種拼音系統(tǒng)的混用使檔案文獻(xiàn)中專有名詞的表達(dá)不能達(dá)成統(tǒng)一。比如:
人 名: 程 學(xué) 啟, Ch’eng Hsueh- ch’i(Genteral Ching)
地名:廈門,(Amoy,Hsia-men,Samen)
職位名:知縣,(Che hsien,Chih-hsien,District Magistrate)
機(jī)構(gòu)名: 京師館, Ching- shih Kwan(Ching-shih kuan)(see also Tsing-shih Kwan)
這些文字散布于海關(guān)檔案文獻(xiàn)之中,使得同一專有名詞不同形式的變體難以關(guān)聯(lián)與聚合,進(jìn)而導(dǎo)致海關(guān)檔案數(shù)據(jù)庫構(gòu)建中的信息流失。
基于檔案專有名詞的形式特征及其分類情況,近代廣東海關(guān)檔案中的同音異義主要包括一音多詞(一詞多義)和一詞多音(一義多詞)兩種情況。
(1)一音多詞(一詞多義)。在語言文字識別中,判斷漢語詞義的關(guān)鍵是聲調(diào)和語境。沒有聲調(diào),往往導(dǎo)致詞義的模糊;沒有語境,僅通過讀音則無法辨別詞匯的含義。近代廣東海關(guān)檔案中的拼音詞匯,大多從中文專有名詞音譯而來,因而在書寫形式上沒有音調(diào)標(biāo)注,以致僅僅憑借拼音則通常無法辨識詞匯的含義。例如,在檔案中讀到“Hoo Chow”一詞時,只知道它是專有名詞,基本上不能辨認(rèn)它屬于人名、地名、機(jī)構(gòu)名還是職位名,即便是參考專有名詞對照詞典,如果沒有相關(guān)歷史背景供借鑒或參照,則無法確認(rèn)該羅馬文字所指代的含義。通過查詢《華英詞典》《中國近代海關(guān)常用詞語》以及相關(guān)的海關(guān)檔案文獻(xiàn),方知“Hoo Chow”對應(yīng)的漢字有3種情況:實物為“護(hù)照”、地名有“湖州”、機(jī)構(gòu)名稱有“湖州府”。顯然,這種情況對使用羅馬文字檢索檔案信息的用戶造成不便,至少在某種程度上,信息檢索的查準(zhǔn)率不高。
(2)一詞多音(一義多詞)。一詞多音可以分為兩類情形:一類是指多音字現(xiàn)象,如“長”字有“chang”“zhang”兩種發(fā)音;二類是指因地域差異而同一漢字讀音不同,如“廈”字可以發(fā)音為“xia”“a”“sia”。第二類現(xiàn)象在近代廣東海關(guān)檔案中更為普遍。比如:
人名:“長善”(Chang Shen,Chang Shan)
地名:“中國”(China,Chung-kuo)
職位名:“監(jiān)察御史”(Chien-ch’a yüshih,His Excellency Censor)
機(jī)構(gòu)名:“廣州府”(Kwang chow foo,Kuang-chou fu,Canton Prefecture)
對這種存在多語種、異文本的檔案文獻(xiàn),如果按照現(xiàn)在的漢語拼音規(guī)范來進(jìn)行信息檢索,不能保證所檢索的信息就是用戶所需要的信息。面對這種情況,需要將一詞多音的表達(dá)形式進(jìn)行關(guān)聯(lián),使其在數(shù)據(jù)庫建設(shè)的過程中或是進(jìn)行檔案回溯性檢索時,極大限度地保證檔案信息資源檢索的完備性和準(zhǔn)確性。
近代廣東海關(guān)檔案中的部分專有名詞還有相對應(yīng)的英文對譯。雖然羅馬拼音和英文對譯都是拉丁字母,但羅馬拼音是從形式角度來展現(xiàn),拼音本身并無實際意義;英文對譯是從內(nèi)容角度進(jìn)行的翻譯,由字母構(gòu)成的單詞可以傳達(dá)具體的含義。具體例子參見表1。
從表1中可以發(fā)現(xiàn),15個專有名詞的漢字以繁體字形式呈現(xiàn)。從拼音形式看,這些名詞的表示方式不止一種,差別迥異。以“副總辦”為例,其兩種拼音“Foo Keen Tuhi”和“Fuchien-tu”并無形似之處,但在海關(guān)檔案中都是“副總辦”的拼音書寫形式。這種情況的出現(xiàn)是由漢語方言的差異以及語音演變所導(dǎo)致的——雖漢字相同,但發(fā)音相異;從音節(jié)書寫上看,“副”字的發(fā)音“foo”和“fu”沒有本質(zhì)上的區(qū)別,但文本寫法上又大有不同。從語義角度看,在英文檔案中,“副總辦”譯為“assistant superintendent”。除此之外,檔案中還有另外兩種羅馬文字的語音轉(zhuǎn)寫,即“Foo Keen Tuhi”和“Fu-chien-tu”。當(dāng)然,像“差事”“知縣”“俸祿”“監(jiān)督”“舉人”“欽差”“幫辦”“宰相”“總兵銜”等專有名詞都采用了類似的表達(dá)形式。
表1 近代廣東海關(guān)檔案中的專有名詞的表達(dá)形式
圖1 名稱復(fù)雜性展示圖[5]
在構(gòu)建近代廣東海關(guān)檔案數(shù)據(jù)庫的過程中,音節(jié)構(gòu)成、書寫文字、英文對譯所造成的書寫不一致的情況(如圖1),致使無法將同一檔案內(nèi)容的變體信息進(jìn)行關(guān)聯(lián),以至檔案用戶在開發(fā)利用檔案信息資源時,無法將檔案的證據(jù)價值與情報價值充分發(fā)揮,在一定程度上造成了檔案文獻(xiàn)資源的閑置與不能充分利用。按照信息著錄和檢索的要求,近代廣東海關(guān)檔案名稱規(guī)范數(shù)據(jù)必須建立在規(guī)范控制的基礎(chǔ)之上。因此,借鑒國內(nèi)外信息組織的有益經(jīng)驗,建立近代廣東海關(guān)檔案名稱規(guī)范檔勢在必行。
綜觀國內(nèi)外名稱規(guī)范檔的建設(shè)經(jīng)驗,建立近代廣東海關(guān)檔案名稱規(guī)范檔,首先需要明確、清晰地表達(dá)名稱規(guī)范數(shù)據(jù),建構(gòu)不同名稱數(shù)據(jù)之間的關(guān)系(見圖2)。對此,筆者認(rèn)為,可以結(jié)合《中國檔案主題詞表》和現(xiàn)有相關(guān)的近代廣東海關(guān)專有名詞詞典,借助敘詞表中的語義關(guān)系以及Schema.org 層次結(jié)構(gòu),將近代廣東海關(guān)檔案中的各類名稱進(jìn)行分類;再根據(jù)不同的邏輯關(guān)系,對不一致的名稱表述形式進(jìn)行歸類,保證同一名詞之不同變體形式的全面性和關(guān)聯(lián)性。
圖2 近代廣東海關(guān)檔案名稱控制規(guī)范的框架模型
構(gòu)建名稱規(guī)范檔語義模型的目的,在于明確檔案用戶關(guān)注的對象,從實體和屬性關(guān)系的角度厘清各類名稱之間的語義關(guān)系,為規(guī)范化描述準(zhǔn)備。因此,針對近代廣東海關(guān)檔案名稱不一致的問題,首先應(yīng)解決哪些名稱需要建立規(guī)范檔,以及如何架構(gòu)不同詞匯之間關(guān)系的問題。在構(gòu)建近代廣東海關(guān)檔案規(guī)范數(shù)據(jù)語義模型的過程中,核心概念集的確定是最重要也是最基礎(chǔ)的工作。因此,在參考近代期刊元數(shù)據(jù)方案的基礎(chǔ)上,將人物、地點、機(jī)構(gòu)、職位4 個類別作為核心概念。其中,人物是檔案文獻(xiàn)所涉及的具有代表性的人物,像海關(guān)稅務(wù)司李泰國、赫德等;地點主要是指該檔案中所記載的、與各地區(qū)海關(guān)相關(guān)的地點名稱以及地理區(qū)域等;機(jī)構(gòu)是指具有一定歷史地位的中國近代政府機(jī)構(gòu),由于機(jī)構(gòu)是極其重要的資源,將其作為單獨的概念類別,有助于把機(jī)構(gòu)組織的相關(guān)信息進(jìn)行聚類以及對其進(jìn)行結(jié)構(gòu)化、規(guī)范化地呈現(xiàn),如機(jī)構(gòu)負(fù)責(zé)人、機(jī)構(gòu)地點、機(jī)構(gòu)的管轄區(qū)域及功能等。在這4 類核心概念的基礎(chǔ)上,以人名檔、地名檔、機(jī)構(gòu)檔(包含職銜信息)為基點作為語義關(guān)聯(lián),建構(gòu)近代廣東海關(guān)檔案名稱規(guī)范檔語義模型框架。參見圖3。
圖3 近代海關(guān)檔案名稱規(guī)范檔之關(guān)聯(lián)圖
圖4 Schema.org類型層次結(jié)構(gòu)
除需要考慮概念、名稱外,名稱規(guī)范檔的創(chuàng)建還應(yīng)逐步轉(zhuǎn)到對實體的描述上,如人物(Person)、組織(Organization)、地點(Place)、事件(Event)、 產(chǎn) 品(Product)、 評 論(Review)[6]等?;谶@種考慮,可以參考Schema.org的類型層次結(jié)構(gòu)(見圖4)[7],根據(jù)該框架所描述的事物類型,按照一定的層次結(jié)構(gòu)進(jìn)行組合,每一類都有自己的屬性,子類繼承父類的屬性[8]。針對近代廣東海關(guān)檔案各類實體信息,在來源原則的基礎(chǔ)上,確定核心概念及其層次結(jié)構(gòu),通過屬性進(jìn)行概念的描述,進(jìn)而建立不同概念之間的聯(lián)系。參見表2-4。
表2 基于“個人”的屬性
表3 基于“地點”的屬性
表4 基于“機(jī)構(gòu)”的屬性
近代廣東海關(guān)檔案名稱的實體關(guān)系,是指各類名稱實體及其相應(yīng)的邏輯關(guān)系。在海關(guān)檔案開發(fā)問題上,參考規(guī)范化范式的敘詞表,通過限定詞匯的內(nèi)容(概念)和形式(系統(tǒng)),展示概念術(shù)語之間的語義關(guān)系及其范圍大小之間的邏輯關(guān)系,進(jìn)而構(gòu)建海關(guān)領(lǐng)域規(guī)范化、完整的詞表模型[9]?;诮鷱V東海關(guān)檔案中的人名、地名、機(jī)構(gòu)名、職位名等不同的表達(dá)形式,對比分析《中國檔案主題詞表》和中國近代廣東海關(guān)專有名詞詞典,參照敘詞表相關(guān)的語義分類,可以得出近代廣東海關(guān)檔案名稱之間存在的主要語義關(guān)系[10]。
根據(jù)上文描述的各類實體信息,借助由斯坦福大學(xué)研發(fā)的本體編輯工具Protégé對近代廣東海關(guān)檔案為中心的各類實體以及名稱實體概念與屬性關(guān)系進(jìn)行形式化描述,建立以海關(guān)機(jī)構(gòu)為中心的語義網(wǎng)絡(luò),并以.owl的形式進(jìn)行保存。在該工具中,“OWL:Thing”被默認(rèn)為頂級類別,它是包含所有類別的上義詞;在此基礎(chǔ)上,建立下義詞。在OWL 語言中,“subclass of”連接上下義關(guān)系,根據(jù)中國近代海關(guān)檔案本體的應(yīng)用目的,即描述以中國近代海關(guān)機(jī)構(gòu)為核心的概念與術(shù)語,如“海關(guān)機(jī)構(gòu)”是“海關(guān)監(jiān)督”與“稅務(wù)司署”的上義詞,“稅務(wù)司署”又是“征稅部門”“船鈔部分”“郵政部門”“教習(xí)部分”的上義詞,采用自頂向下的方式來建立基于近代廣東海關(guān)檔案中的各種概念以及相應(yīng)的層次關(guān)系,進(jìn)而構(gòu)建其基本框架,如圖5。
圖5 近代廣東海關(guān)檔案知識本體的概念層次結(jié)構(gòu)
名稱規(guī)范數(shù)據(jù)模型是準(zhǔn)確描述名稱以及各類款目的重要基礎(chǔ),為近代廣東海關(guān)檔案著錄本體的構(gòu)建提供了參考框架。根據(jù)上文所述的名稱屬性及其各類關(guān)系,可以總結(jié)出近代廣東海關(guān)檔案名稱規(guī)范檔的規(guī)范信息(表5)[11]。
表5 近代廣東海關(guān)檔案名稱規(guī)范檔的相關(guān)屬性、關(guān)系及其RDF映射
結(jié)合現(xiàn)有的Schema.org詞匯表,包括人物(person)、地點(place)、組織(organization)、關(guān)系(relationship)等,以一定的層次結(jié)構(gòu)將檔案中的各類實體信息組織起來,并通過RDF映射關(guān)系進(jìn)行列表描述,得出近代廣東海關(guān)檔案名稱屬性與關(guān)系模型,具體如圖6-7所示。
以上模型是建立在近代廣東海關(guān)檔案名稱規(guī)范數(shù)據(jù)的基礎(chǔ)上,從來源原則的角度,保證了信息的準(zhǔn)確性和一致性。在此基礎(chǔ)上所形成的語義模型,不僅可以滿足傳統(tǒng)檢索環(huán)境下的信息識別,同時也為網(wǎng)絡(luò)環(huán)境下的信息交換與互操作性提供了框架基礎(chǔ)。
圖6 近代廣東海關(guān)檔案名稱規(guī)范數(shù)據(jù)實體屬性模型
本研究以粵海關(guān)檔案為對象,時間跨度為1861-1949 年,探析近代廣東海關(guān)檔案中的類與屬性特征。考慮到粵海關(guān)檔案不同類別信息的原始性與完整性,特別選取粵海關(guān)副稅務(wù)司“盧力飛”與粵海關(guān)文案“葉鳳儀”的人事類檔案作為分析案例(見圖8-9)?!氨R力飛”與“葉鳳儀”分別是粵海關(guān)機(jī)構(gòu)的洋員與華員,人名變化主要包括3種情形:
中文:盧力飛、葉鳳儀
拼音:Lu Lifei、Yeh Fêng-i
英文:R.de.Luca、無
盧力飛與葉鳳儀兩位海關(guān)人員的中文名稱資源標(biāo)識符分別是:http://www.semanticweb.org/wanghui/ontologies/2020/3/untitled-ontology-15#和http://www.semanticweb.org/Wanghui/ontol‐ogies/2020/3/untitled-ontology-15#。
而其對應(yīng)的拼音標(biāo)識符分別為:http://www.semanticweb.org/wanghui/ontologies/2020/3/untitled-ontology-15#Lu_Lifei 和http://www. semanticweb.org/wanghui/ontologies/2020/3/untitledontology-15#Yeh_Fêng-i。
圖7 近代廣東海關(guān)檔案名稱規(guī)范數(shù)據(jù)關(guān)系模型
圖8 粵海關(guān)檔案實體信息實例分析——“盧力飛”與“葉鳳儀”
圖9 粵海關(guān)檔案實體信息——“盧力飛”與“葉鳳儀”
當(dāng)然,除定義名稱,根據(jù)粵海關(guān)檔案的具體記載,其他的相關(guān)信息也可以通過資源描述框架rdfs:comment進(jìn)行整合。
近代廣東海關(guān)檔案內(nèi)容層次的劃分是建立在中國近代海關(guān)機(jī)構(gòu)不同類別的基礎(chǔ)之上,本文根據(jù)檔案所涉及的主體信息,對近代廣東海關(guān)檔案實體的類與屬性進(jìn)行了分析。在Protégé工具的輔助下,結(jié)合各類實體的屬性特征,用OWL形式化語言構(gòu)建近代廣東海關(guān)檔案規(guī)范信息,為后續(xù)進(jìn)一步研究中國近代海關(guān)檔案著錄本體與關(guān)聯(lián)數(shù)據(jù)信息奠定了基礎(chǔ)。
本文從構(gòu)建名稱規(guī)范檔的角度探討海關(guān)檔案中各類名稱的語義關(guān)系,從傳統(tǒng)角度開發(fā)利用檔案信息資源,以保證檔案信息形式的邏輯性和內(nèi)容的完整性,同時,在數(shù)字網(wǎng)絡(luò)環(huán)境下,通過對檔案數(shù)據(jù)進(jìn)行語義轉(zhuǎn)換和數(shù)據(jù)關(guān)聯(lián),實現(xiàn)信息時代背景下數(shù)據(jù)資源充分的開發(fā)利用,促進(jìn)多元異構(gòu)數(shù)據(jù)環(huán)境下信息的傳遞和知識共享。此外,依據(jù)上述的屬性和關(guān)系,結(jié)合現(xiàn)已成熟的詞匯集,對近代廣東海關(guān)檔案專有名詞的實體和屬性關(guān)系進(jìn)行映射與描述,增強(qiáng)海關(guān)檔案名稱規(guī)范數(shù)據(jù)之間的語義關(guān)聯(lián),有效地實現(xiàn)海關(guān)檔案數(shù)據(jù)資源的關(guān)聯(lián)、共享和最大利用。