国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向數(shù)字人文的辭書關(guān)聯(lián)數(shù)據(jù)知識組織*

2021-12-15 12:32:44張志美錢智勇
圖書館論壇 2021年12期
關(guān)鍵詞:爾雅詞表典籍

張志美,陳 濤,錢智勇,何 書

0 引言

辭書古代又稱 “字書”,是記錄語言和語言文化的載體,用來解釋字形、讀音和釋義,是館藏重要文獻資源和人文研究的重要工具。古代辭書知識涉及文字、音韻、語法、修辭、詞匯、???、句讀、句段、篇章等內(nèi)容。先秦時代的《爾雅》是世界上第一部按同義和百科分類的義類綜合性語文辭書,爾雅以古代中原地區(qū)規(guī)范通用的語言訓(xùn)釋上古典籍中的難字和百科異名,反映了先秦時代的社會生活,是人類寶貴的文化遺產(chǎn)[1]。漢代以來的《爾雅》注疏文獻是研究典籍文獻及先秦語言和文化的知識寶庫[2],也是大數(shù)據(jù)時代重要的知識組織工具。利用現(xiàn)代技術(shù)研究古代經(jīng)典辭書,使非結(jié)構(gòu)化的古代語言知識成為互聯(lián)網(wǎng)的結(jié)構(gòu)化的開放互聯(lián)數(shù)據(jù),通過網(wǎng)絡(luò)傳承中國優(yōu)秀傳統(tǒng)文化,是通過推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展,讓收藏在博物館里的文物、陳列在廣闊大地上遺產(chǎn)、書寫在古籍里的文字都活起來的重要手段[3]。以元數(shù)據(jù)為基礎(chǔ)的關(guān)聯(lián)數(shù)據(jù)已經(jīng)成為通用的語義互聯(lián)的標準規(guī)范,利用關(guān)聯(lián)數(shù)據(jù)對辭書知識組織,以三元組存儲詞匯知識庫,是典籍數(shù)字人文的基礎(chǔ)建設(shè)。網(wǎng)上已發(fā)布的詞表中包括了大量現(xiàn)代語言同義詞和語義概念關(guān)系,大量的詞表本體研究與實踐,為爾雅詞表本體構(gòu)建提供了可以復(fù)用的數(shù)據(jù)和結(jié)構(gòu)。構(gòu)建爾雅詞表本體可以實現(xiàn)爾雅詞匯知識的跨語言知識檢索與共享復(fù)用,將對外國留學生及其他讀者檢索中文古籍詞匯提供幫助;通過詞表本體學習、本體進化等技術(shù),爾雅詞表本體也將成為自然語言處理、搜索引擎智能檢索、典籍標注和數(shù)字人文研究的重要知識組織工具。

1 關(guān)聯(lián)數(shù)據(jù)知識組織與數(shù)字人文的關(guān)系

1.1 關(guān)聯(lián)數(shù)據(jù)簡述

關(guān)聯(lián)數(shù)據(jù)(Linked data) 最早是Berners-Lee[4]提出的概念,初衷是將WEB中沒有進行關(guān)聯(lián)的數(shù)據(jù)鏈接起來,構(gòu)建可被機器理解的包含語義關(guān)系的數(shù)據(jù)網(wǎng)絡(luò)。關(guān)聯(lián)數(shù)據(jù)有4個基本原則[4]:用URI來為任何事物標識名稱;通過HTTP協(xié)議便于用戶可以查找到這些名稱;以RDF 和SPARQL的形式提供原始數(shù)據(jù);盡可能提供鏈接以發(fā)現(xiàn)更多信息資源。關(guān)聯(lián)數(shù)據(jù)的核心是資源描述框架(RDF),RDF 采用基于RDF/XML 的語法進行數(shù)據(jù)存儲與交換,使用三元組(主語—謂語—賓語)并通過URI標識網(wǎng)絡(luò)中的資源和元數(shù)據(jù),資源的概念對應(yīng)于主語,資源的屬性類型對應(yīng)于謂語,資源的屬性值對應(yīng)于賓語,主語與謂語使用唯一標識HTTP URI,賓語可以是字符串,也可以是其它對象實體,謂語反映了資源之間的關(guān)系。RDF定義的元數(shù)據(jù)描述方法不僅為各種類型資源的描述提供統(tǒng)一的數(shù)據(jù)模型,允許不同領(lǐng)域的用戶根據(jù)不同資源編制各自所需要的詞匯表描述領(lǐng)域元數(shù)據(jù)的語義,同時還提供不同元數(shù)據(jù)之間相互兼容,相互操作的平臺。關(guān)聯(lián)數(shù)據(jù)已經(jīng)在大眾傳媒、圖書館、文化遺產(chǎn)、數(shù)字人文、政府電子政務(wù)、商業(yè)企業(yè)等領(lǐng)域廣泛應(yīng)用。

1.2 關(guān)聯(lián)數(shù)據(jù)在數(shù)字人文中的作用

隨著數(shù)字媒介和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,對不同載體文本進行保存、計算分析、編輯和內(nèi)容建模等數(shù)字人文研究漸成趨勢。在數(shù)字人文過程中關(guān)聯(lián)數(shù)據(jù)的作用見圖1,數(shù)字人文研究過程包括對數(shù)字資源組織與保存、文本計算分析、圖像文本編輯和內(nèi)容建模等方面。首先在數(shù)字資源的組織與保存方面,利用關(guān)聯(lián)數(shù)據(jù)我們把網(wǎng)上各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)資源,通過URI鏈接,以RDF/XML三元組語法描述,并以專門用來存取RDF數(shù)據(jù)的三元組數(shù)據(jù)庫保存各種數(shù)據(jù)。其次,在對文本的計算分析過程中,利用關(guān)聯(lián)數(shù)據(jù)、本體、描述邏輯語言對文獻進行字詞句關(guān)聯(lián)查詢、??狈治?、注釋內(nèi)容比對分析、版本分析、概念關(guān)系抽取、作品作者時空分析等處理。第三,在數(shù)字人文的文本編輯階段,利用關(guān)聯(lián)數(shù)據(jù)技術(shù)與國際圖像互操作框架結(jié)合,對文本中的圖文聲像等開放數(shù)據(jù)進行基于不同時期作品的編輯,例如對一部典籍作品在歷史形成過程中出現(xiàn)的各種不同版本、修訂情況進行整合編輯,利用國際圖像互操作協(xié)議(IIIF)對各種版本的圖像文本進行圖像編輯并基于RDF的知識圖譜展示串聯(lián)成文獻版本發(fā)現(xiàn)證據(jù)鏈,這種時空維度下的圖像編輯將超越人文研究傳統(tǒng)文本記錄的界限。第四,在數(shù)字人文的內(nèi)容建模階段,可以根據(jù)不同文本內(nèi)容結(jié)構(gòu),利用關(guān)聯(lián)數(shù)據(jù)和已有本體模型結(jié)構(gòu)對文本內(nèi)容進行建模,在萬維網(wǎng)的數(shù)字環(huán)境中,遵循已有的關(guān)聯(lián)數(shù)據(jù)規(guī)范和推薦協(xié)議,完全可以為典籍文獻、文化遺產(chǎn)、歷史遺跡、考古等多維空間虛擬世界建立基于文本內(nèi)容的仿真模型和研究場景。這些數(shù)字人文基礎(chǔ)建設(shè)與應(yīng)用過程是以數(shù)字資源描述框架為基礎(chǔ)的關(guān)聯(lián)數(shù)據(jù)理伭和技術(shù)為支撐的。反過來數(shù)字人文中的文本數(shù)字化保存、計算分析、圖文編輯以及內(nèi)容建模等過程也推進了以關(guān)聯(lián)數(shù)據(jù)為核心的語義技術(shù)架構(gòu)的改進和發(fā)展。

圖1 關(guān)聯(lián)數(shù)據(jù)在數(shù)字人文中的作用

1.3 圖書館關(guān)聯(lián)數(shù)據(jù)與辭書知識組織相關(guān)研究

圖書館關(guān)聯(lián)數(shù)據(jù)應(yīng)用是以元數(shù)據(jù)和書目數(shù)據(jù)的轉(zhuǎn)換為基礎(chǔ)開始的。美國國會圖書館2017年將全部館藏和規(guī)范目錄從傳統(tǒng)的MARC書目轉(zhuǎn)換到BIBFRAME(書目描述框架)并推廣使用。已經(jīng)建成可供參考的重要本體詞表包括元數(shù)據(jù)集(DCMI)、關(guān)聯(lián)數(shù)據(jù)集詞表、古籍書目本體等。國內(nèi)采用關(guān)聯(lián)數(shù)據(jù)技術(shù)研究構(gòu)建特定領(lǐng)域敘詞表應(yīng)用成為趨勢,近年國內(nèi)館藏文獻資源關(guān)聯(lián)數(shù)據(jù)知識組織相關(guān)研究有:夏翠娟等[5]基于關(guān)聯(lián)數(shù)據(jù)四原則和語義技術(shù)框架設(shè)計和發(fā)布上海圖書館的家譜本體詞表;白林林等[6]利用Drupal平臺研究中文古籍書目關(guān)聯(lián)數(shù)據(jù)發(fā)布過程;陳濤等[7]提出書目數(shù)據(jù)在BIBFRAME中的知識關(guān)聯(lián)框架;侯西龍等[8]基于關(guān)聯(lián)數(shù)據(jù)技術(shù)研究非遺知識組織與關(guān)聯(lián)數(shù)據(jù)集構(gòu)建的過程;王曉光等[9]研究敦煌壁畫敘詞表關(guān)聯(lián)數(shù)據(jù);徐晨飛等[10]研究方志物產(chǎn)史料關(guān)聯(lián)數(shù)據(jù)構(gòu)建與知識庫應(yīng)用。

在辭書語義知識組織研究方面有:《同義詞詞林》[11]及其編碼系統(tǒng)將漢語詞匯按語義分為大類、中類和小類,類下再以同義主題歸集;知網(wǎng)概念關(guān)系詞表(HowNet)揭示漢、英詞語概念以及屬性之間的關(guān)系;中英雙語知識本體詞網(wǎng)(ECTEC)是結(jié)合詞網(wǎng)、知識本體與領(lǐng)域標記的詞匯知識庫;WordNet以同義詞集合表示語義概念;FrameNet使用“框架元素” 進行詞匯含義描述。已有的研究在關(guān)聯(lián)數(shù)據(jù)標準規(guī)范、中文名稱規(guī)范語義描述、本體構(gòu)建、詞匯語義相似度計算和詞匯語義分類等方面的研究與實踐成果為本文的研究提供了理伭指導(dǎo)和方法借鑒。辭書是人文研究的重要工具,利用關(guān)聯(lián)數(shù)據(jù)對中國古代辭書中詞匯語義進行知識組織是數(shù)字人文基礎(chǔ)建設(shè)的重要內(nèi)容。本文以《爾雅》詞表構(gòu)建、本體模型設(shè)計與關(guān)聯(lián)數(shù)據(jù)發(fā)布為例,探索辭書關(guān)聯(lián)數(shù)據(jù)知識組織理伭方法與實現(xiàn)過程,以期推進古代辭書典籍的知識組織與數(shù)字人文研究。

2 爾雅詞表構(gòu)建與本體設(shè)計

2.1 爾雅詞表構(gòu)建概述

《爾雅》是中國第一部按詞義和分類編排的綜合性語文辭書。《爾雅》原有20篇,現(xiàn)存19篇按內(nèi)容分為普通語詞和百科名詞兩個部分[1]。普通語詞即生活中常用的一般詞語,包括“釋詁”“釋言”“釋訓(xùn)” 三篇。《爾雅》百科名詞共分16個大類,其中有解釋古代親屬關(guān)系的 “釋親”,有解釋和反映上古人類日常生活的“釋宮”“釋器”“釋樂”,有解釋古代天象稱謂的 “釋天”,還有解釋古代動物稱謂的 “釋蟲”“釋魚”“釋鳥”“釋獸”“釋畜” 等,每個類篇目下細分小的分類。這些分類反映了戰(zhàn)國至秦漢時代人們的衣食住行等社會生活和文化知識結(jié)構(gòu),爾雅訓(xùn)詁資料也成為后人通釋經(jīng)書和典籍文獻的參考工具。課題以實現(xiàn)辭書典籍語義知識檢索與輔助數(shù)字人文研究為目標,研究爾雅多語詞表構(gòu)建。選取上海古籍出版社2004 年出版的簡體本《爾雅譯注》(胡奇光,方環(huán)海著),該書是上海古籍出版社邀請名家歷經(jīng)10年完成的簡體中文《十三經(jīng)譯注》之一,可幫助讀者最大程度讀通和理解原著;爾雅注釋還參照南開大學出版社1987年出版的《爾雅今注》(徐朝華著),該書是當代第一次使用語體文為爾雅作注的著作[2]。上述書中的注釋原句引用參考郭璞《爾雅注》、邢昺《爾雅疏》、郝懿行《爾雅義疏》、邵晉涵《爾雅正義》、孫炎《爾雅音義》、黃侃《爾雅音訓(xùn)》、阮元《爾雅注疏校勘記》,釋義例句參考許慎《說文解字》、劉熙《釋名》、楊雄《方言》、顧野王《玉篇》、司馬光《類篇》、陳彭年等《廣韻》、陸德明《經(jīng)典釋文》等典籍。爾雅詞表中的詞匯結(jié)構(gòu)由訓(xùn)釋詞語、被訓(xùn)釋詞語、例證三部分組成。

爾雅中的訓(xùn)釋詞語包括類義編碼和釋義兩個部分。對每個被訓(xùn)釋詞語給出唯一的類義編碼,詞語編碼參考《同義詞詞林》的分類編碼規(guī)則,以英文字母大寫的A-S表示《爾雅》中的十九個大類,以英文字母小寫的a-y表示大類之下的2級小類,小寫字母z表示0,以001-999位數(shù)字代表概念同義詞集。訓(xùn)釋詞語或百科名詞稱謂包括中文、英文、日文、韓文,分別以語種標簽cn、en、ja、ko區(qū)分語種標記。

被訓(xùn)釋詞語內(nèi)容包括漢語拼音、注音、古今字、異體字、通假字,釋義(中文、英文、日文、韓文)、典籍中注釋原句(加雙引號)、注釋者(注者名、字、朝代、籍貫),注釋句典籍出處、典籍中注疏原句和注疏者(名、字、朝代、籍貫)。

例證包括典籍中的例句、例句出處、例句作者(名、字、朝代、籍貫)、例句注釋語句、例句注釋者(名、字、朝代、籍貫)、例句注釋出處、例句注疏語句、例句注疏者(名、字、朝代、籍貫)、例句注疏語句、例句注疏出處、例句注箋句、例句注箋者(名、字、朝代、籍貫)和例句注箋出處。

爾雅詞表全面反映了被訓(xùn)釋語詞的讀音、字形變化、多語種釋義、分類、例證及其注、疏、箋等內(nèi)容。比如“釋器” 中的被訓(xùn)釋詞語“罍”的完整標注如下:

罍/léi/ㄌㄟ'/壺形青銅酒器/Ff003/(cn)古代壺形酒器,與壺相似,用來盛酒或水,多用青銅鑄造,亦有陶制的/(en)Ancient pot shaped wine vessels/(ja)古代の壷形酒器/(ko)?????????/“罍,酒尊也?!?陸德明(名元朗,字德明)/唐/蘇州吳縣(今江蘇省蘇州市)人/《經(jīng)典釋文》/“罍者,尊之大者也?!?邢昺(字叔明)/北宋/曹州濟陰郡(今山東省菏澤市曹縣北) 人/《爾雅疏》/“我姑酌彼金罍,維以不永懷?!?《詩經(jīng)·周南·卷耳》/“罍,酒器,刻為云雷之象,以黃金飾之。”/朱熹(字元晦,又字仲晦,號晦庵)/南宋/南劍州尤溪(今屬福建三明市尤溪縣)人/《詩經(jīng)集傳》

這段標注中被訓(xùn)釋詞 “罍” 的類義編碼Ff003中,F表示大類“釋器”,f表示小類“酒器”,003表示小類“酒器” 中的壺形青銅酒器,通過Ff003就將不同語種的“罍” 的解釋映射出來,從而實現(xiàn)語義關(guān)聯(lián)和跨語言檢索。由語言學老師與多名古漢語、英語、日語、韓語研究生,根據(jù)《爾雅譯注》中詞語的簡體中文釋義,借助翻譯詞典進行詞語釋義的手工翻譯、標注和校對工作,我們完成了爾雅簡體字版本共3584個被訓(xùn)釋詞語和百科名詞稱謂,以及2219個訓(xùn)釋詞語和百科名稱的多語種釋義。爾雅詞表的標注為爾雅本體設(shè)計完成了數(shù)據(jù)準備。

2.2 爾雅詞表本體設(shè)計

2.2.1 爾雅詞表本體的定義與設(shè)計原則

本體在牛津詞典中解釋為:本體是關(guān)于某個主題領(lǐng)域中的概念和類別并顯示它們之間的關(guān)系的列表。在知識工程領(lǐng)域,Neches最早給本體的定義為[12]:特定主題領(lǐng)域詞表基本術(shù)語及關(guān)系,再結(jié)合這些術(shù)語及關(guān)系定義詞表的外延規(guī)則。湯姆·格魯伯給本體定義為[13]:一個共享的概念化模型的明確規(guī)范說明。張曉林認為[14]:本體就是概念集,是特定領(lǐng)域內(nèi)公認的關(guān)于該領(lǐng)域的對象及其關(guān)系的概念化表示,包括對象類等級體系、類屬性及取值約束、對象類之間邏輯關(guān)系、對象類及關(guān)系的推理規(guī)則。根據(jù)上述本體概念的解釋,結(jié)合爾雅詞表的內(nèi)容結(jié)構(gòu),給爾雅詞表本體定義為:爾雅詞表本體是利用本體語言和規(guī)范描述爾雅詞表中的被訓(xùn)釋詞語及百科名詞釋義并給出詞間關(guān)系的可視化的語義詞表。用ERYA表示爾雅詞表本體,公式表示為:ERYA={C,P,I,O},公式右邊括號中的C為概念,在爾雅詞表中包括全部訓(xùn)釋詞語和類義編碼;P為屬性,包括對象屬性和數(shù)據(jù)屬性;I為實例;O為公理,表示概念的永真斷言,用于被訓(xùn)釋詞語之間隱含關(guān)系推理。與關(guān)系型數(shù)據(jù)詞表相比,爾雅詞表本體的最大作用是實現(xiàn)基于爾雅訓(xùn)釋詞語概念的分類檢索和詞表的關(guān)聯(lián)數(shù)據(jù)開放服務(wù),便于與其他詞表互操作,實現(xiàn)爾雅知識共享和復(fù)用;可用于字人文中典籍文本的語義標注,使隱含在文本中的隱性知識顯式化。

爾雅詞表本體設(shè)計遵循三個基本原則:首先盡量利用現(xiàn)有的本體數(shù)據(jù)模型,找到相似本體的類、屬性和關(guān)系,在它們的基礎(chǔ)上添加、修改、創(chuàng)建本體;其次最大限度的重用已經(jīng)發(fā)布使用的詞匯表和術(shù)語以便于以后的關(guān)聯(lián),在此基礎(chǔ)上創(chuàng)建新的術(shù)語類及其屬性,盡量給新建詞匯添加注釋信息,如使用rdfs:label屬性定義詞匯標簽;最后要為詞表給出命名空間聲明并賦予一個穩(wěn)定、永久的URI,為本體本身添加注釋,說明本體的版本及版本兼容信息,以利于爾雅詞表的共享和重用。

2.2.2 爾雅詞表本體設(shè)計步驟

爾雅詞表本體模型設(shè)計采用自上向下與自下向上相結(jié)合的方法,爾雅詞表總體設(shè)計采用自上而下的元數(shù)據(jù)分析方法,參考國家圖書館的《基于元數(shù)據(jù)的本體構(gòu)建規(guī)范與應(yīng)用指南》[15],本體模型設(shè)計采用自下而上的方法,通過對詞表進行內(nèi)容分析,制定本體設(shè)計流程和步驟。將爾雅詞表本體的設(shè)計流程概括為三個步驟。

(1)定義爾雅詞表概念類。通過對爾雅詞表標注字段及內(nèi)容的分析,定義爾雅本體的實體具名類。類是具有共同屬性特征的個體或?qū)ο蟮募?所謂具名類就是由設(shè)計者在創(chuàng)建本體時直接定義并賦予明確名稱標識的類。

在定義具名類時,共定義5個類(見表1)。從爾雅詞表的元數(shù)據(jù)中看出,一條完整的被訓(xùn)釋詞主要涉及到對爾雅被訓(xùn)釋詞的解釋(erya:Concept)、被訓(xùn)釋詞所屬分類(erya:Category)、被訓(xùn)釋詞所在原始例句(erya:Sentence)以及例句的典籍出處(bibo:Book)幾大信息塊,其他的具體信息都可以歸納到這幾大信息塊中,為后續(xù)可以和更多的人物知識庫關(guān)聯(lián),在典籍出處中又單獨抽出人物類。考慮可以復(fù)用現(xiàn)有本體包括國會圖書館bibo 書目本體和foaf 本體的人物類(foaf:Person),首先定義一個表示爾雅概念的類,我們定義一個“Concept” 類表示詞表實體對象的概念集合。爾雅詞表中的詞語釋義和例證來自典籍文獻,把典籍實體抽取出來定義一個表示所有注釋和例證出處的類,這里復(fù)用bibo本體中“bibo:Book” 類。爾雅詞表中的訓(xùn)釋詞語都有唯一的類義編碼,根據(jù)爾雅的分類編碼定義一個“Category”(分類)類。爾雅詞表中的詞語釋義包括中英日韓多語釋義句子,還包括例句及其注、疏、箋句,為集中表示句子概念實體,定義了一個“Sentence”(句子)類。爾雅詞表中的人包括作者、注者、注疏者、注箋者等,關(guān)于人的實體,有成熟的本體類,復(fù)用foaf 本體中的“foaf:Person” 類。這樣就完成爾雅詞表本體5個實體類的構(gòu)建。爾雅詞表本體類構(gòu)建代碼如下:

表1 爾雅詞表本體類

(2)定義詞表本體類的屬性及其屬性約束,完成爾雅詞表本體模型(見圖2)構(gòu)建。詞表本體中屬性的作用是描述類的主要特征以及類和類、類和實例之間的關(guān)系。屬性主要有兩種,一種是對象屬性,描述的對象是實體類,另一種是數(shù)據(jù)類型屬性,描述的對象是字符串、數(shù)字、日期等數(shù)值型數(shù)據(jù)。每個屬性都有定義域(領(lǐng)域)和值域,定義域是指屬性的應(yīng)用范圍(領(lǐng)域中的哪些類),值域是指屬性的取值范圍,對于對象屬性,其值域是某個類,對于數(shù)值屬性,其值域就是不同數(shù)據(jù)類型。爾雅詞表本體類的對象屬性見表2,詞表本體的數(shù)據(jù)屬性見表3。

表2 爾雅詞表本體的對象屬性

表3 爾雅詞表本體的數(shù)據(jù)屬性

圖2 爾雅詞表本體模型

通過概念抽取程序完成爾雅詞表本體2,219個訓(xùn)釋詞語概念,3,584個被訓(xùn)釋詞語和百科名詞異名的術(shù)語實例,其中釋詁被訓(xùn)釋詞語1,029個,釋言詞語653個,釋訓(xùn)詞語249個,百科詞語1,650個。通過12個對象屬性和17個數(shù)據(jù)屬性及其約束實現(xiàn)了基于訓(xùn)釋詞語概念的多維度語義關(guān)聯(lián)。圖3可視化展示了爾雅詞表本體的概念類及屬性關(guān)系。

圖3 爾雅詞表本體可視化

(3)為本體本身添加注釋屬性并完成本體的測試、修改和完善。為本體自身添加注釋屬性包括版本信息及名稱空間聲明,版本信息包括版本號、URI、發(fā)布機構(gòu)以及版本兼容信息等,以利于本體的共享和重用。本體的測試采用上海圖書館本體服務(wù)中心校驗系統(tǒng)對爾雅詞表數(shù)據(jù)的正確性和一致性進行數(shù)據(jù)檢驗,并根據(jù)檢測結(jié)果對爾雅詞表本體文檔進行糾錯和優(yōu)化,保證了爾雅詞表本體數(shù)據(jù)的正確。

3 爾雅詞表本體關(guān)聯(lián)數(shù)據(jù)發(fā)布與檢索

3.1 關(guān)聯(lián)數(shù)據(jù)發(fā)布規(guī)范與步驟

關(guān)聯(lián)數(shù)據(jù)發(fā)布是依據(jù)關(guān)聯(lián)數(shù)據(jù)基本原則對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)作了規(guī)范和限定之后,通過一定技術(shù)步驟發(fā)布出來以供檢索與數(shù)據(jù)開放共享的過程。國外圖書館書目數(shù)據(jù)、敘詞表、元數(shù)據(jù)相關(guān)標準等較早發(fā)布為關(guān)聯(lián)數(shù)據(jù)本體[16-17]。隨著關(guān)聯(lián)數(shù)據(jù)發(fā)布實踐的逐漸增多,近年來國內(nèi)圖書館領(lǐng)域?qū)﹃P(guān)聯(lián)數(shù)據(jù)構(gòu)建的研究水平有很大提高。王忠義等[18]研究將分布式人類計算(DHC)應(yīng)用于數(shù)字圖書館的深層關(guān)聯(lián)數(shù)據(jù)發(fā)布架構(gòu);牛永骎等[19]通過開源軟件D2R發(fā)布圖書情報領(lǐng)域?qū)W者的關(guān)聯(lián)數(shù)據(jù)集,探索實體URI定義、作者重名、專著與網(wǎng)絡(luò)學術(shù)記錄難以采全等問題;陳濤等[20]以關(guān)聯(lián)數(shù)據(jù)七星模型為基礎(chǔ),結(jié)合國外和國內(nèi)諸多關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺實施的實例,深入分析關(guān)聯(lián)數(shù)據(jù)創(chuàng)建與發(fā)布過程中存在的問題和對策思考,提出了關(guān)聯(lián)數(shù)據(jù)發(fā)布的十個常用規(guī)范和建議。這些研究與實踐為爾雅詞表關(guān)聯(lián)數(shù)據(jù)的發(fā)布提供了指導(dǎo)和借鑒。根據(jù)爾雅詞表本體的內(nèi)容性質(zhì)與特點,我們提出爾雅詞表關(guān)聯(lián)數(shù)據(jù)發(fā)布的六個基本步驟(見圖4)和遵循的規(guī)范。

圖4 本體詞表關(guān)聯(lián)數(shù)據(jù)發(fā)布流程

(1)詞表數(shù)據(jù)準備。設(shè)計爾雅詞表URI時,考慮爾雅URI 除作為爾雅詞表本體的標識名稱之外,還考慮到在爾雅詞表發(fā)布后,方便領(lǐng)域人員通過HTTP訪問爾雅詞表資源,設(shè)置URI采用了機構(gòu)域名http://ww.ntu.edu.cn/erya/ontology/,這樣便于今后永久訪問爾雅詞表資源同時利于復(fù)用和與其他詞表的關(guān)聯(lián)。

(2)詞表本體設(shè)計。抽取爾雅詞表的數(shù)據(jù)結(jié)構(gòu),按照知識組織的標準規(guī)范設(shè)計爾雅詞表本體,盡量復(fù)用已有本體,復(fù)用和擴展本體屬性時,區(qū)分對象屬性與數(shù)據(jù)屬性,爾雅本體設(shè)計過程中復(fù)用了dc、bibo、foaf等詞表規(guī)范。

(3)詞表關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換。依據(jù)本體將爾雅詞表中的數(shù)據(jù)轉(zhuǎn)換為RDF格式,從爾雅文本的結(jié)構(gòu)化表格轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)。除了提供SPARQL端口形式以訪問爾雅詞表數(shù)據(jù)之外,還提供爾雅詞表資源的內(nèi)容協(xié)商獲取方式,支持機器可讀和復(fù)用。

(4)詞表的數(shù)據(jù)存儲。將轉(zhuǎn)換好的關(guān)聯(lián)數(shù)據(jù)存儲到數(shù)據(jù)庫,采用三元組數(shù)據(jù)庫存儲爾雅詞表的RDF數(shù)據(jù),選用適合爾雅詞表的圖模式進行詞表的數(shù)據(jù)存儲并與爾雅詞表的關(guān)系型數(shù)據(jù)庫及詞表索引庫共存。

(5)詞表的發(fā)布。按照關(guān)聯(lián)數(shù)據(jù)四個基本原則與開放數(shù)據(jù)的七星標準,發(fā)布爾雅詞表本體和詞語訓(xùn)釋實例數(shù)據(jù)。描述爾雅資源時嚴格區(qū)分爾雅本體的類與屬性,在發(fā)布爾雅詞表數(shù)據(jù)集的同時,以高可讀性形式發(fā)布爾雅詞表數(shù)據(jù)集對應(yīng)的爾雅詞表本體,并加注本體的元數(shù)據(jù)信息。

(6)詞表本體可視化檢索與應(yīng)用。提供的數(shù)據(jù)服務(wù)包括爾雅詞表的檢索,提供爾雅數(shù)據(jù)集的數(shù)據(jù)狀態(tài),詞表檢索結(jié)果的可視化,通過本體對齊,爾雅詞表與外部詞表的鏈接,支持典籍語義標注研究。爾雅詞表按照這樣標準化的步驟和規(guī)范發(fā)布出來,所有的詞匯都是實體,可以元數(shù)據(jù)注釋自解釋,爾雅詞表不僅被機器可讀,而且被任意鏈接復(fù)用,爾雅詞表中的詞語概念、關(guān)系都可以被重用,實現(xiàn)更大范圍的詞表資源互操作。

3.2 爾雅詞表關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換與發(fā)布

爾雅詞表是基于Excel 的數(shù)據(jù)表,使用Excel2RDF數(shù)據(jù)映射轉(zhuǎn)換完成三元組數(shù)據(jù)發(fā)布。Excel2RDF映射過程見圖5。例如,爾雅原始詞表中的被訓(xùn)釋詞“俶” 的內(nèi)容結(jié)構(gòu)見表4-5。

圖5 爾雅詞表Excel2RDF映射過程

表4 “俶” 的訓(xùn)釋詞語類義編碼

表5 “俶” 的音、形、義標注

第一層是類義編碼層,類義編碼 “A”,表示“訓(xùn)詁” 類,給出“類義編碼” 的隨機碼URI作主語,取值“A” 作賓語。第二層是訓(xùn)釋詞語層,訓(xùn)釋詞語“始也(開始)” 的“類義編碼” 是“Az001”,“訓(xùn)釋詞語”(ch、en、ja、ko)分別作謂語,表中對應(yīng)不同列(不同語種的“始也”)作賓語。第三層是有關(guān)被訓(xùn)釋詞語 “初” 的所有列(表中節(jié)選了部分),表中的列還包括“俶” 的讀音、注音、古今字、異體字、通假字、釋義、注釋原句、注釋出處、注者、注疏句、注疏出處、疏者、例句、例句出處、例句作者、例句注、疏、箋等,行的主鍵值 “俶” 作主語,表中的這些列都被作為謂語抽取,行的句子數(shù)據(jù)取值被作為賓語抽取。通過這樣的三層代碼轉(zhuǎn)換,完成爾雅本體詞表從Excel到RDF的映射。被訓(xùn)釋詞語 “俶” 的RDF映射轉(zhuǎn)換代碼如下:

詞表本體簡單的存儲方法是以文件方式保存,適用于數(shù)據(jù)量小的靜態(tài)文件,如已歸檔的本體文件。對動態(tài)的數(shù)據(jù)庫和表格數(shù)據(jù)的存儲以圖數(shù)據(jù)庫為主流。爾雅詞表本體是動態(tài)表格數(shù)據(jù),選擇三元組數(shù)據(jù)庫存儲(Triplestore),優(yōu)點包括:模式靈活,可對RDF存儲進行相當于模式更改的實時操作,無需任何停機或重新設(shè)計;使用輕便,RDF存儲通常通過HTTP進行查詢,易放入服務(wù)架構(gòu);語言標準,使用RDF和SPARQL實現(xiàn)的標準化水平遠高于SQL,在系統(tǒng)之間移動數(shù)據(jù)易,因為語言統(tǒng)一;表達方便,在RDF中對復(fù)雜數(shù)據(jù)建模要比在SQL 中容易,查詢語言SPARQL的操作更容易;蹤跡可尋,SPARQL允許用戶跟蹤每一條信息的來源,并存儲關(guān)于它的元數(shù)據(jù),輕松完成復(fù)雜的查詢。爾雅詞表本體選擇使用OpenLink Virtuoso進行存儲,OpenLink Virtuoso支持關(guān)系數(shù)據(jù)、對象-關(guān)系數(shù)據(jù)、RDF數(shù)據(jù)、XML數(shù)據(jù)和文本數(shù)據(jù)的統(tǒng)一管理,支持sparql1.1語法查詢,支持W3C的關(guān)聯(lián)數(shù)據(jù)系列協(xié)議,可以把三元組數(shù)據(jù)直接存儲在數(shù)據(jù)庫表中,定義了RDF_QUAD表,每個三元組存儲為RDF_QUAD中的一行,表的列分別代表圖、主語、謂語和賓語。RDF_DATATYPE表,保存賓語的類型名和2個字節(jié)值的映射。

3.3 爾雅詞表本體的檢索與利用

3.3.1 爾雅詞表本體的SPARQL檢索

爾雅詞表本體存儲到OpenLink Virtuoso后,可以通過SPARQL直接檢索爾雅詞表中的詞語,SPARQL是W3C制定并推薦的在RDF數(shù)據(jù)庫中查詢和操縱RDF數(shù)據(jù)的語言和協(xié)議,可根據(jù)需要通過SPARQL語句描述爾雅詞表中的變量及其關(guān)系,構(gòu)成帶有變量的圖模式查詢表達式,例如查詢爾雅被訓(xùn)釋詞語“元” 的所有釋義,構(gòu)造SPARQL表達式查詢見下,SPARQL查詢結(jié)果如表6。通過SPARQL 的Restful API 接口,外部系統(tǒng)可以查詢和關(guān)聯(lián)到爾雅詞表,并獲取相關(guān)詞在爾雅詞表中的所有關(guān)聯(lián)信息。

表6 爾雅詞表SPARQL檢索結(jié)果

3.3.2 爾雅詞表本體可視化檢索系統(tǒng)

爾雅本體詞表檢索通過可視化檢索平臺SOOOPA,可以檢索爾雅詞表中全部被訓(xùn)釋詞語及實體類、屬性關(guān)聯(lián),并可視化顯示每個實體類及其個體詞語的三元組。比如,查詢 “馬”,如圖6列表顯示爾雅詞表中“釋畜” 類下馬屬子類的全部97 個馬的訓(xùn)釋詞語以及被訓(xùn)釋詞語不同馬的稱謂及中、英、日、韓語釋義,注釋出處,例句等三元組數(shù)據(jù)。圖7可視化顯示 “釋畜” 類 “馬屬”“骃” 字的關(guān)聯(lián)數(shù)據(jù)知識圖譜,圖中展示古代一種被稱作 “骃” 的馬的中、英、日、韓文釋義、屬種、注釋原句、注釋出處、詩經(jīng)中的例句及注釋,也關(guān)聯(lián)與“骃” 相關(guān)的其他馬的稱謂及其解釋,這種圖像化的詞匯知識便于讀者研究和學習古代語言,同時多語言釋義也方便了外語讀者和留學生學習中國古代漢語時作為檢索工具。后續(xù)將爾雅詞表本體與圖書館古籍書目本體關(guān)聯(lián),可以擴充檢索爾雅注釋館藏出處和版本信息。

圖6 爾雅詞表本體概念檢索“馬”

圖7 爾雅詞表中“骃” 字關(guān)聯(lián)數(shù)據(jù)知識圖譜

4 結(jié)語

為實現(xiàn)古代經(jīng)典辭書語義知識組織和數(shù)字人文研究,通過對辭書爾雅內(nèi)容的分析,以簡體本的《爾雅譯注》為基礎(chǔ),構(gòu)建含有中、英、日、韓文釋義的爾雅詞表,基于此探索以詞表、典籍、句子、分類和人物為實體類的爾雅詞表領(lǐng)域知識本體構(gòu)建,并定義概念屬性關(guān)系,完成爾雅詞匯的實例抽?。辉僖罁?jù)本體,對爾雅詞表進行關(guān)聯(lián)數(shù)據(jù)映射轉(zhuǎn)換與存儲發(fā)布,實現(xiàn)爾雅詞表本體知識的跨語言關(guān)聯(lián)檢索與可視化呈現(xiàn),為典籍數(shù)字人文提供了可以復(fù)用的辭書多語語義詞典。不足之處在于爾雅詞表本體構(gòu)建基本以手工方式為主,詞匯內(nèi)容僅選取的簡體中文版的爾雅注釋,詞匯英文、日文、韓文釋義是參照《爾雅譯注》 中的簡體中文釋義手工翻譯,難免有對古文釋義的深度翻譯不到位的地方,此外還需要豐富不同版本館藏古籍注釋中的詞匯釋義??梢酝ㄟ^辭書典籍標注的眾包平臺,由更多的人文學者參與辭書標注與校對,并研究利用機器學習和自然語言處理的中文分詞和語義標注技術(shù),對典籍注釋進行半自動標注,并在詞表中添加爾雅圖像的內(nèi)容和注釋,豐富詞表的語言和知識。未來通過研究詞表本體對齊和本體映射技術(shù),可以將爾雅詞表與wordnet 英、日、韓文等多語詞表進行映射關(guān)聯(lián),實現(xiàn)詞表詞語更大范圍的在線關(guān)聯(lián)檢索。此外,還可以利用爾雅詞表構(gòu)建《詩經(jīng)》《國語》等典籍知識圖譜,再與機器深度學習技術(shù)相結(jié)合,對中國典籍文獻進行跨學科機器翻譯、智慧學習等數(shù)字人文應(yīng)用,通過預(yù)測典籍知識單元之間的各種關(guān)系,包括概念之間的生成關(guān)系、上下文關(guān)系、同義關(guān)系等,從關(guān)聯(lián)的辭書和典籍資源中發(fā)現(xiàn)新概念和屬性關(guān)系,并應(yīng)用于在線學習平臺,支持讀者和外國留學生碎片化閱讀和自助學習。通過對不同時間和地點不同作者的詞匯釋義聚合、比對、推理分析計算,輔助人文學者進行典籍文本挖掘與知識發(fā)現(xiàn)研究。

猜你喜歡
爾雅詞表典籍
《典籍里的中國》為什么火?
金橋(2021年4期)2021-05-21 08:19:24
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
英語世界(2021年13期)2021-01-12 05:47:51
《爾雅注疏》點校零識
天一閣文叢(2018年0期)2018-11-29 07:48:28
在詩詞典籍中賞春日盛景
學生天地(2017年8期)2017-05-17 05:49:53
丁子峻溫文俊士爾雅男神
商界·時尚(2016年2期)2017-05-15 21:13:52
作家爾雅《同塵》研討會順利舉行
長江叢刊(2016年36期)2017-01-10 04:55:40
敘詞表與其他詞表的互操作標準
典籍翻譯模式的構(gòu)建與啟發(fā)
先秦典籍中的男嬖形象探微
《爾雅》研究史的立體化構(gòu)建——朱祖延先生雅學研究管窺
彭泽县| 汨罗市| 东安县| 商水县| 奇台县| 滨州市| 丰台区| 高唐县| 金溪县| 台东县| 广饶县| 纳雍县| 山东| 德州市| 衡山县| 濮阳市| 虞城县| 乐平市| 北安市| 乾安县| 博客| 西昌市| 鱼台县| 东明县| 房产| 连平县| 昆明市| 嘉祥县| 宜兰县| 邛崃市| 本溪市| 济源市| 金阳县| 红桥区| 武平县| 博白县| 唐山市| 新源县| 拉萨市| 亚东县| 梅州市|