夏翠娟,劉 煒,張 磊,朱雯晶
書目框架(BIBFRAME)是美國(guó)國(guó)會(huì)圖書館牽頭開發(fā)的下一代書目數(shù)據(jù)格式標(biāo)準(zhǔn),也是該開發(fā)項(xiàng)目的簡(jiǎn)稱。自2011年5月起,美國(guó)國(guó)會(huì)圖書館聯(lián)合大英圖書館、德國(guó)國(guó)家圖書館等6個(gè)圖書館,請(qǐng)DC元數(shù)據(jù)的發(fā)明人之一,也是語(yǔ)義萬(wàn)維網(wǎng)技術(shù)的倡導(dǎo)者Eric Miller領(lǐng)銜,正式啟動(dòng)“書目框架計(jì)劃”。該計(jì)劃的主要目標(biāo)是設(shè)計(jì)一套互聯(lián)網(wǎng)時(shí)代的書目數(shù)據(jù)標(biāo)準(zhǔn),用以取代MARC,并能為圖書館、檔案館、博物館、美術(shù)館等“人類文化記憶機(jī)構(gòu)”共同使用[1]。經(jīng)過(guò)3年多的開發(fā),書目框架模型基本成型,各相關(guān)規(guī)范的文本編寫接近尾聲。目前其官方網(wǎng)站(http://www.loc.gov/bibframe/)發(fā)布的成果包括書目框架模型(BIBFRAME Model)、術(shù)語(yǔ)詞表(BIBFRAME vocabulary,包含300多個(gè)術(shù)語(yǔ),并還在根據(jù)需要增加和修訂)、BIBFRAME綱要(BIBFRAME Profile,對(duì)于各類“社區(qū)”應(yīng)用書目框架的進(jìn)一步限定或擴(kuò)展的規(guī)定)、書目框架權(quán)威檔(BIBFRAME Authorities)、關(guān)系描述(BIBFRAME Relationships)以及MARC數(shù)據(jù)轉(zhuǎn)換為BIBFRAME格式的工具、書目框架編輯器(BIBFRAME Editor)的演示平臺(tái)等,內(nèi)容非常豐富;但行百里者半九十,尚有一些關(guān)鍵細(xì)節(jié)還沒(méi)有定論,如對(duì)書目框架的形式化表達(dá)和書目數(shù)據(jù)的RDF序列化規(guī)則等方面還有大量的工作要做,特別是對(duì)如何保留或有沒(méi)有必要保留那些基于AACR2或RDA的編目規(guī)則而得到的大量豐富而微妙的語(yǔ)義,正在進(jìn)行激烈的論辯。
家譜是一類記載具有血緣關(guān)系的家族世系繁衍情況和重要人物及事跡的歷史文獻(xiàn),是研究人文歷史和地域文化的重要資源。上海圖書館是全世界收藏中文家譜(原件)數(shù)量最多的機(jī)構(gòu)。為了更好地保護(hù)和庋藏這些資料,上海圖書館在過(guò)去10多年一直在進(jìn)行家譜的整理和數(shù)字化工作,初步建立了包含1.8萬(wàn)余種家譜的影像資源庫(kù),以圖書館人熟悉的MARC格式作為數(shù)據(jù)檢索和交換格式提供服務(wù)。近年隨著“數(shù)字人文”研究的興起和各類相關(guān)工具平臺(tái)的建立,基于文獻(xiàn)的揭示方式難以滿足學(xué)者進(jìn)行深入研究的需要。比如,家譜中包含豐富的人、地、時(shí)、事、機(jī)構(gòu)及相互關(guān)系等,都不是基于MARC的系統(tǒng)所能描述和揭示的,還必須進(jìn)一步進(jìn)行基于內(nèi)容的深度加工和揭示,并提供靈活的、多維度的展示和操控工具,才能使數(shù)字家譜得到更好的利用。
語(yǔ)義萬(wàn)維網(wǎng)技術(shù)尤其是關(guān)聯(lián)數(shù)據(jù)技術(shù)為上述需求提供了可行的方案。書目框架就是該技術(shù)在圖情領(lǐng)域的最新應(yīng)用,正好能為重組家譜資源、重構(gòu)家譜服務(wù)系統(tǒng)提供新的解決方案。書目框架是基于關(guān)聯(lián)數(shù)據(jù)技術(shù)框架設(shè)計(jì)的。關(guān)聯(lián)數(shù)據(jù)是語(yǔ)義萬(wàn)維網(wǎng)的輕量級(jí)實(shí)現(xiàn)方式,它植根于現(xiàn)有的Web基礎(chǔ)技術(shù):用HTTP URI來(lái)標(biāo)識(shí)數(shù)據(jù),使URI不僅作為事物的名稱,同時(shí)兼作存取地址;以服務(wù)器對(duì)不同請(qǐng)求的響應(yīng)來(lái)區(qū)分信息資源或非信息資源;采用RDF模型作為描述世間萬(wàn)物及其相互關(guān)系的基本結(jié)構(gòu),在此基礎(chǔ)上可以利用萬(wàn)維網(wǎng)本體語(yǔ)言(OWL)建立更為復(fù)雜的領(lǐng)域知識(shí)模型,為更廣泛的基于機(jī)器理解的語(yǔ)義互操作奠定了基礎(chǔ)[2-3]。
知識(shí)本體給數(shù)據(jù)賦予了語(yǔ)義,關(guān)聯(lián)數(shù)據(jù)技術(shù)以標(biāo)準(zhǔn)的格式為數(shù)據(jù)編碼使得機(jī)器能夠理解語(yǔ)義并處理數(shù)據(jù)間的關(guān)系。本文提出采用語(yǔ)義萬(wàn)維網(wǎng)技術(shù)來(lái)建設(shè)新的家譜知識(shí)庫(kù)系統(tǒng),設(shè)計(jì)一個(gè)向下兼容、易于擴(kuò)展、便于重用和共享、支持家譜數(shù)據(jù)重組和知識(shí)建模的家譜知識(shí)本體,這是首要的工作。設(shè)計(jì)知識(shí)本體的一個(gè)重要原則是盡量復(fù)用已有的本體模型和術(shù)語(yǔ)詞表。本文在文獻(xiàn)調(diào)研、家譜領(lǐng)域現(xiàn)有案例分析以及技術(shù)現(xiàn)狀研究的基礎(chǔ)上,基于書目框架模型,復(fù)用書目框架術(shù)語(yǔ)詞表中的術(shù)語(yǔ),設(shè)計(jì)了上海圖書館家譜本體,并采用書目框架應(yīng)用綱要來(lái)規(guī)范家譜本體的應(yīng)用和實(shí)施,這是利用語(yǔ)義萬(wàn)維網(wǎng)技術(shù)改造圖書館傳統(tǒng)資源的組織方式,以提升服務(wù)效果的一種嘗試,也是對(duì)正在發(fā)展之中的書目框架應(yīng)用于中文環(huán)境的試驗(yàn)和檢測(cè)。
家譜收藏機(jī)構(gòu)主要是圖書館和教會(huì)、宗親會(huì)等機(jī)構(gòu)。在國(guó)外,家譜收藏機(jī)構(gòu)有美國(guó)猶他家譜研究學(xué)會(huì)、日本國(guó)立國(guó)會(huì)圖書館等;在我國(guó)港臺(tái)地區(qū),臺(tái)灣“故宮博物院”和臺(tái)北“國(guó)家圖書館”收藏家譜較多,香港大學(xué)圖書館也有少量收藏;我國(guó)大陸家譜收藏和研究機(jī)構(gòu)主要有中國(guó)國(guó)家圖書館,上海圖書館等幾個(gè)大型的省級(jí)公共圖書館,以及少數(shù)高校圖書館。目前主要的家譜應(yīng)用系統(tǒng)有猶他家譜研究學(xué)會(huì)的家譜檢索中心(FamilySearch.org)、日本國(guó)立國(guó)會(huì)圖書館的東洋文庫(kù)、中國(guó)國(guó)家圖書館的“中華尋根網(wǎng)”、上海圖書館的家譜數(shù)據(jù)庫(kù)、臺(tái)灣地區(qū)家譜聯(lián)合目錄數(shù)據(jù)庫(kù)、《四庫(kù)全書》等大型數(shù)字化古籍?dāng)?shù)據(jù)庫(kù)中的家譜資源庫(kù)等。王昭[4]和毛建軍[5]對(duì)上述家譜收藏機(jī)構(gòu)和家譜應(yīng)用系統(tǒng)進(jìn)行了介紹分析。
日本國(guó)立國(guó)會(huì)圖書館的東洋文庫(kù)、中國(guó)國(guó)家圖書館的“中華尋根網(wǎng)”、上海圖書館的家譜數(shù)據(jù)庫(kù)均采用題名、著者、姓氏、居地、名人等字段進(jìn)行檢索,是基于字段關(guān)鍵詞匹配、面向家譜文獻(xiàn)資源的檢索系統(tǒng)。猶他家譜研究學(xué)會(huì)的FamilySearch.org不僅可以根據(jù)文獻(xiàn)的收藏地、類型、批次號(hào)碼和縮微膠卷編號(hào)來(lái)查詢家譜資料,還可根據(jù)姓氏和名字、生平事跡(出生、結(jié)婚、居所、死亡等)、配偶或父母關(guān)系來(lái)查詢。國(guó)外還有Ancestry.com 和WeRelate等家譜網(wǎng)站,與FamilySearch一樣,允許用戶自行創(chuàng)建家族樹,上傳家族照片和撰寫人物生平大事,甚至多個(gè)不同用戶可共同維護(hù)一棵家族樹。
國(guó)外家譜領(lǐng)域應(yīng)用較為廣泛的技術(shù)標(biāo)準(zhǔn)是GEDCOM,較有影響的家譜概念模型是GENTECH。GEDCOM 是用于在不同的家譜軟件之間交換數(shù)據(jù)的家譜數(shù)據(jù)交換標(biāo)準(zhǔn),最開始是為耶穌基督后期圣徒教會(huì)(The Church of Jesus Christ of Latter-day Saints)的需求設(shè)計(jì),也被美國(guó)猶他家譜研究學(xué)會(huì)采用。它不是一個(gè)數(shù)據(jù)模型,可看做是用于家譜數(shù)據(jù)的文本標(biāo)記語(yǔ)言。GEDCOM 文件是包含家譜文獻(xiàn)元數(shù)據(jù)記錄的純文本,其結(jié)構(gòu)適合于20世紀(jì)90年代的技術(shù)環(huán)境。Campanya Artes Joan[6]指出:在目前的環(huán)境下,它有以下幾個(gè)弊端:專用的格式不利于進(jìn)一步發(fā)展;標(biāo)準(zhǔn)的定義不夠嚴(yán)謹(jǐn),在應(yīng)用過(guò)程中容易產(chǎn)生分歧;數(shù)據(jù)冗余導(dǎo)致不一致性;沒(méi)有足夠的靈活性來(lái)適應(yīng)不同的文化環(huán)境,如人名、地名的定義和描述,只能用于家譜領(lǐng)域,無(wú)法與其他領(lǐng)域進(jìn)行數(shù)據(jù)交換。GENTECH是一個(gè)家譜概念模型,源于一個(gè)研究者之間的合作項(xiàng)目,只在2000-2004年間延續(xù)了很短的時(shí)間,但得到美國(guó)全國(guó)宗譜協(xié)會(huì)(U.S.National Genealogical Society)的關(guān)注。雖然它沒(méi)有具體的應(yīng)用實(shí)施方案指南,但常被作為許多相關(guān)應(yīng)用的參考。GENTECH在某種程度上提供了一種處理復(fù)雜問(wèn)題的解決方案[7],比如不同歷史時(shí)期同一地理位置具有不同的地理名稱的問(wèn)題;另一方面,該模型將所有與人有關(guān)的信息關(guān)聯(lián)起來(lái),比如機(jī)構(gòu)、歷史事件、家族活動(dòng),還提供將初始數(shù)據(jù)表達(dá)成為具體應(yīng)用所需的不同形式(文檔、記錄、文件)的靈活性和可擴(kuò)展性。由于GENTECH沒(méi)有成為被廣泛接受的標(biāo)準(zhǔn)規(guī)范,沒(méi)有得到應(yīng)用和推廣。GEDCOM 和GENTECH主要是為歐美家譜而設(shè)計(jì),在我國(guó)少見(jiàn)應(yīng)用。
21世紀(jì)初,W3C推出諸如XML超文本標(biāo)記語(yǔ)言,GEDCOM 為適應(yīng)這個(gè)趨勢(shì)進(jìn)行升級(jí),GEDCOM6.0版也叫GEDCOM XML。其它基于XML格式的家譜標(biāo)記語(yǔ)言GedML、EeniML、GenXML,與GEDCOM 一樣,只有少數(shù)機(jī)構(gòu)在使用。隨著語(yǔ)義萬(wàn)維網(wǎng)概念的提出,W3C又推出資源描述框架(RDF)、知識(shí)本體語(yǔ)言(OWL)等語(yǔ)義萬(wàn)維網(wǎng)相關(guān)標(biāo)準(zhǔn)規(guī)范。RDF/XML作為W3C的推薦標(biāo)準(zhǔn)和語(yǔ)義萬(wàn)維網(wǎng)技術(shù)的基礎(chǔ),可被大部分機(jī)器語(yǔ)言識(shí)別和處理,已被廣泛應(yīng)用于多種不同的領(lǐng)域,有利于跨領(lǐng)域的共享和重用。Jay Askren開發(fā)了傳統(tǒng)的GEDCOM 格式轉(zhuǎn)換為RDF/XML格式的工具,以證明RDF的廣泛適應(yīng)性[8]。語(yǔ)義技術(shù)作為歷史研究的工具得到重視,Albert Mero?o-Pe?uela對(duì)基于語(yǔ)義技術(shù)的歷史研究方法作了調(diào)研,其中涉及家譜研究[9]。關(guān)聯(lián)數(shù)據(jù)作為語(yǔ)義萬(wàn)維網(wǎng)的輕量級(jí)實(shí)現(xiàn)方式也受到關(guān)注,Josh Hansen[10]論述了利用關(guān)聯(lián)數(shù)據(jù)技術(shù)來(lái)實(shí)現(xiàn)家譜數(shù)據(jù)全球共建共享的可行性和方法,其中提到了基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的一個(gè)家譜數(shù)據(jù)集John Goodwin’s Family Tree[11],該數(shù)據(jù)集已在最大的關(guān)聯(lián)數(shù)據(jù)集注冊(cè)中心thedatahub.org注冊(cè)。
在資源組織上,圖書館習(xí)慣于將家譜作為一種歷史文獻(xiàn)資源來(lái)保存和處理,主要集中在對(duì)家譜文獻(xiàn)的整理和元數(shù)據(jù)著錄上,過(guò)去大多利用圖書館編目系統(tǒng)著錄,采用MARC數(shù)據(jù)格式。近年開始采用DC元數(shù)據(jù)標(biāo)準(zhǔn)來(lái)為家譜資源設(shè)計(jì)元數(shù)據(jù)方案,尤其是在我國(guó),如科技部科技基礎(chǔ)性工作專項(xiàng)資金重大項(xiàng)目——我國(guó)數(shù)字圖書館標(biāo)準(zhǔn)與規(guī)范建設(shè)的家譜元數(shù)據(jù)規(guī)范子項(xiàng)目的成果:張秋芳等人的《家譜描述元數(shù)據(jù)規(guī)范》[12];國(guó)家數(shù)字圖書館工程標(biāo)準(zhǔn)規(guī)范項(xiàng)目的成果:趙亮等人的《國(guó)家圖書館家譜元數(shù)據(jù)規(guī)范與著錄規(guī)則》[13],上海圖書館參與了這兩個(gè)項(xiàng)目。在這兩個(gè)項(xiàng)目的元數(shù)據(jù)方案中,元數(shù)據(jù)元素大都包括題名、卷數(shù)、修撰者(著者)、版本、譜籍地、堂號(hào)、始祖、始遷祖、收藏地、提要等信息。2000年由上海圖書館牽頭,猶他家譜研究學(xué)會(huì)以及我國(guó)臺(tái)灣、香港的家譜收藏機(jī)構(gòu)參與整理的《中國(guó)家譜總目》[14]是迄今為止收錄我國(guó)家譜最多、著錄內(nèi)容最為豐富的一部專題性聯(lián)合目錄,基本采用上述元數(shù)據(jù)元素。
近年逐漸出現(xiàn)基于知識(shí)本體的解決方案,國(guó)外有多篇文獻(xiàn)記載家譜本體的設(shè)計(jì)。2005年荷蘭一家為圖書館、檔案館、博物館提供咨詢服務(wù)的公司Ivo Zandhuis[15]論述了家譜本體的設(shè)計(jì),定義了一套術(shù)語(yǔ)詞表,以RDF/XML格式在Web上發(fā)布。美國(guó)楊百翰大學(xué)(BYU)的Charla Woodbury和David W.Embley在探索中記載了設(shè)計(jì)的家譜本體和基于本體進(jìn)行邏輯推理和知識(shí)挖掘,處理同一人多名的方法[16]。Josh Hansen闡述了基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的家譜本體設(shè)計(jì)思路,發(fā)布了一個(gè)家譜本體術(shù)語(yǔ)詞表(http://purl.org/gen/0.1#)。在我國(guó),上海交通大學(xué)的陳艷以上海圖書館的家譜為例論述了中國(guó)家譜本體的構(gòu)建方法、過(guò)程和結(jié)果[17],武漢大學(xué)的董慧等在2008年IEEE大會(huì)上介紹了基于本體的家譜知識(shí)建模方法[18],遺憾的是沒(méi)有公開發(fā)布家譜本體術(shù)語(yǔ)詞表。
與家譜信息中包含多種實(shí)體相關(guān)的知識(shí)本體有用于人和機(jī)構(gòu)的本體FOAF[19]、關(guān)于人與人之間關(guān)系的本體Relationship[20]、地理本體GeoNames Ontology[21]、時(shí)間本體TimeOntology[22]、事 件 本 體Event[23],Albert Mero?o-Pe?uela對(duì)上述本體作了調(diào)研[9]。這些本體為解決家譜中的具體問(wèn)題提供了建模方法上的參考,且其詞表以RDF/XML格式發(fā)布,其中的術(shù)語(yǔ)可被方便地重用在家譜的本地應(yīng)用系統(tǒng)。在圖書館中,家譜作為文獻(xiàn)的特征仍然需要得到充分揭示,相關(guān)的本體有歐洲數(shù)字圖書館數(shù)據(jù)模型(EDM)[24]、OCLC的Schema.org書目擴(kuò)展SchemaBibEX[25],以及美國(guó)國(guó)會(huì)圖書館的書目框架,與前二者相比,書目框架明確以替代MARC為目的,不僅僅是一種書目格式,而是一個(gè)從模型到詞表、到實(shí)現(xiàn)技術(shù)的系統(tǒng)性框架。書目框架能兼容RDA、FRBR等已有的標(biāo)準(zhǔn),也支持與SchemaBibEX甚至檔案界VRA模型的互操作,既能夠深度描述資源的文獻(xiàn)特征,也能描述人、地、時(shí)、事等內(nèi)容特征,雖然尚有諸多細(xì)節(jié)有待討論,但仍被寄予厚望。
目前的家譜信息系統(tǒng)大致可以分為兩類:一是以家譜文獻(xiàn)為主要管理對(duì)象,二是以家族世襲人物關(guān)系及其相關(guān)事跡記載為主要對(duì)象。當(dāng)然,這兩類信息系統(tǒng)經(jīng)常無(wú)法截然分開,前者必然會(huì)涉及家譜對(duì)內(nèi)容的描述,比如始祖、始遷祖、宗族名人、遷徙地;而后者也離不開家譜文獻(xiàn),也是通過(guò)對(duì)家譜記載或修譜時(shí)描述而進(jìn)行記錄。
上海圖書館已有的家譜系統(tǒng)以家譜文獻(xiàn)為管理對(duì)象,采用對(duì)文獻(xiàn)進(jìn)行著錄的一整套元數(shù)據(jù)元素集,以MARC為數(shù)據(jù)格式,可通過(guò)題名、姓氏、居地、堂號(hào)、著者、名人、叢書、索取號(hào)等與家譜文獻(xiàn)相關(guān)的字段進(jìn)行檢索,在家譜閱覽室可以查看掃描的影像文件。這種僅僅以文獻(xiàn)方式建立的信息系統(tǒng)在很多時(shí)候無(wú)法滿足用戶的查檢需求,最大的問(wèn)題是缺乏規(guī)范控制,對(duì)于姓氏、年代、人名、地名等所有字段都只能采用關(guān)鍵詞(自由詞)匹配而不是概念匹配,缺乏必要的準(zhǔn)確性,極大地影響了查全率和查準(zhǔn)率,而且缺乏聚類功能、關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)等。這些缺陷正好都是目前關(guān)聯(lián)數(shù)據(jù)技術(shù)的強(qiáng)項(xiàng),也是上海圖書館要以尚未開發(fā)完成的書目框架模型來(lái)建立家譜信息本體的主因,希望能夠兼顧家譜文獻(xiàn)管理和內(nèi)容揭示兩方面需求,使圖書館的信息系統(tǒng)由于應(yīng)用了語(yǔ)義技術(shù),而能夠?yàn)楦嗟娜怂谩?/p>
本文中所說(shuō)的知識(shí)本體(有時(shí)簡(jiǎn)稱本體),是專指對(duì)領(lǐng)域知識(shí)進(jìn)行抽象,建立一定的概念模型,并使計(jì)算機(jī)能夠“理解”這個(gè)模型的一種形式化知識(shí)表達(dá)工具。知識(shí)本體常常表現(xiàn)為一套體系化的術(shù)語(yǔ)詞表及其相互之間關(guān)系描述,并以一定的機(jī)器語(yǔ)言進(jìn)行編碼而得到的代碼體系。比如,傳統(tǒng)分類編目工作常用的分類法和主題詞表等,如果以SKOS這種專門的、基于RDFS的編碼規(guī)范進(jìn)行編碼之后,所形成的知識(shí)體系就可看成是一種本體。知識(shí)本體應(yīng)包括每一個(gè)術(shù)語(yǔ)的明確定義及其關(guān)系(比如敘詞表種的用、代、屬、分、參之類的關(guān)系),術(shù)語(yǔ)分為類(Class)和屬性(Property)兩種,類是對(duì)同一類實(shí)體對(duì)象的抽象,屬性是對(duì)類的各種特征的抽象,用于表示類與類之間的關(guān)系。
書目框架是圖書館領(lǐng)域一個(gè)最新的本體模型,它由許多不同的實(shí)體類和屬性構(gòu)成,類和屬性的定義及取值都在書目框架術(shù)語(yǔ)詞表(BIBFRAME vocabulary)中規(guī)定。書目框架模型[26](見(jiàn)圖1)包含四大類:創(chuàng)造性作品(Work)、實(shí)例(Instance)、規(guī)范(Authority)、注釋(Annotation),其中與文獻(xiàn)相關(guān)的是作品和實(shí)例,與內(nèi)容相關(guān)的屬性屬于作品,與格式和載體相關(guān)的屬性屬于實(shí)例。這與書目記錄的功能需求(FRBR)模型的四大類相比更為簡(jiǎn)潔,作品對(duì)應(yīng)FRBR模型中的作品(Work)和內(nèi)容表達(dá)(Expression),實(shí)例對(duì)應(yīng)著FRBR模型的載體表現(xiàn)(Manifestation),而FRBR中與館藏復(fù)本相關(guān)的單件(Item)則作為書目框架的注釋(Annotation)的一個(gè)子類。注釋體現(xiàn)了書目框架模型的開放性,在注釋模型中,容納館藏相關(guān)的本地信息,可以將各種互聯(lián)網(wǎng)資源如書評(píng)、評(píng)分等信息與書目數(shù)據(jù)相關(guān)聯(lián)。FRBR第二組實(shí)體人、機(jī)構(gòu)等規(guī)范控制相關(guān)的數(shù)據(jù)在書目框架中屬于規(guī)范(Authority),規(guī)范提供一個(gè)輕量級(jí)的規(guī)范控制層,可利用已有的規(guī)范詞表如VIAF、LCSH等,使Web級(jí)的規(guī)范控制更為有效?;跁靠蚣苣P驮O(shè)計(jì)家譜本體,可以將家譜數(shù)據(jù)中的內(nèi)容和載體明顯地區(qū)分開,并利用書目框架的規(guī)范控制方法,實(shí)現(xiàn)基于Web的規(guī)范控制,利用注釋模型引入更多的開放資源,補(bǔ)充家譜知識(shí)庫(kù)的不足。
圖1 書目框架的核心模型和注釋模型
到目前為止,書目框架術(shù)語(yǔ)詞表共定義了338個(gè)術(shù)語(yǔ),除了明確定義核心模型的四大類外,一些與四大類相關(guān)的其他資源也被抽象為與這四類同級(jí)的資源類,都作為bf:Resource類的子類,比如事件(Event)、關(guān)系(Related)、題名項(xiàng)(Title)、標(biāo)識(shí)符(Identifier)、語(yǔ)種項(xiàng)(Language)等,根據(jù)關(guān)聯(lián)數(shù)據(jù)的原則,這些在MARC記錄中以文本出現(xiàn)的字段值在書目框架中作為資源對(duì)象來(lái)處理。家譜中的各類數(shù)據(jù)實(shí)體包括文獻(xiàn)相關(guān)的類,如題名、責(zé)任者、載體項(xiàng)、出版項(xiàng)等,以及可用于家族信息建模的類,如人、家族、機(jī)構(gòu)、地、時(shí)、事等均可在書目框架中找到對(duì)應(yīng)的類——bf:Person,Organi zation,bf:Place,bf:Temporal,bf:Family,有豐富的屬性來(lái)表達(dá)類與類之間的關(guān)系。這樣原MARC記錄中作為文本串的數(shù)據(jù)可以作為資源對(duì)象,利用明確定義的屬性來(lái)表達(dá)對(duì)象之間的關(guān)聯(lián)關(guān)系,為數(shù)據(jù)賦予語(yǔ)義,便于機(jī)器處理和跨系統(tǒng)的互操作。該術(shù)語(yǔ)詞表已用RDF Schema編碼,提供RDF/XML格式的文件下載。
上海圖書館大量已有家譜數(shù)據(jù)是MARC格式,而書目框架的目標(biāo)在于取代MARC,并非拋棄MARC。大量的MARC格式的數(shù)據(jù)是圖書館的寶貴財(cái)產(chǎn)。新的書目格式必須兼容舊格式,使已有數(shù)據(jù)能夠順暢地轉(zhuǎn)換為新格式。BIBFRAME的核心數(shù)據(jù)模型和本體詞表全面考慮了MARC格式的兼容性,且項(xiàng)目組正在開發(fā)MARC轉(zhuǎn)換為BIBFRAME的工具和平臺(tái)?;跁靠蚣軄?lái)設(shè)計(jì)家譜本體,在系統(tǒng)實(shí)現(xiàn)時(shí)可以利用這些工具、平臺(tái),借鑒其方法。
上海圖書館現(xiàn)有的家譜數(shù)據(jù)庫(kù)已有一套元數(shù)據(jù)方案,這決定了數(shù)據(jù)庫(kù)中的元數(shù)據(jù)記錄的結(jié)構(gòu)。知識(shí)本體的設(shè)計(jì)必須考慮容納現(xiàn)有的數(shù)據(jù)項(xiàng),基于現(xiàn)有數(shù)據(jù)結(jié)構(gòu)來(lái)厘清數(shù)據(jù)之間的關(guān)系。知識(shí)本體是元數(shù)據(jù)方案的立體化[27],有哪些元數(shù)據(jù)元素決定著需要設(shè)計(jì)哪些類和屬性。元數(shù)據(jù)方案是平面的,而知識(shí)本體則是厘清了元素所描述的類(Class),定義了類與類之間的關(guān)系,以屬性(Property)來(lái)明確表達(dá)這些關(guān)系而形成的立體網(wǎng)狀模型[28]。在設(shè)計(jì)本體時(shí),一個(gè)原則是盡可能地復(fù)用已有本體的類和屬性,如果已有本體中的類和屬性不足以表達(dá)具體應(yīng)用領(lǐng)域中的數(shù)據(jù)實(shí)體及其關(guān)系,就需要自定義新的類和屬性。上海圖書館的家譜本體需建立在上海圖書館的家譜元數(shù)據(jù)方案之上,表1是上海圖書館家譜元數(shù)據(jù)元素與書目框架術(shù)語(yǔ)詞表中類和屬性的對(duì)應(yīng)。從家譜元數(shù)據(jù)中可以發(fā)現(xiàn)家譜資源與圖書館其他資源相比的共性和特殊性。共性表現(xiàn)在題名項(xiàng)、責(zé)任者項(xiàng)、出版項(xiàng)、載體形態(tài)項(xiàng)、館藏項(xiàng)等文獻(xiàn)特征,這在書目框架術(shù)語(yǔ)詞表中有足夠的類和屬性與之相對(duì)應(yīng)。特殊性表現(xiàn)在和家族相關(guān)的屬性如始祖、始遷祖、散居地等,人的屬性如姓、名、字、號(hào)、兄弟排行等屬性是家譜甚至是我國(guó)家譜所獨(dú)有的信息,書目框架的類和屬性不足以描述這些特有屬性,現(xiàn)有的家譜本體以及應(yīng)用最為廣泛的描述人的本體FOAF也沒(méi)有相應(yīng)的屬性來(lái)描述這些特性,因而需要自定義家譜資源專有的類和屬性。在自定義類和屬性時(shí),盡量用繼承的方式繼承書目框架已有的類及其屬性,這樣就能繼承父類中已有的屬性,并保證與書目框架兼容。
家譜中的遷徙信息一般由人(始祖或始遷祖)、地(原居地和遷居地)、時(shí)(何時(shí)遷往何地)三要素構(gòu)成,因此被作為事件(bf:Event)來(lái)處理。始祖、始遷祖、支祖、房祖、名人等人有所處時(shí)代、原居地、遷居地、名、字、號(hào)、排行等特性,可以用一個(gè)特定的類及其屬性來(lái)建模。始祖、始遷祖、支祖、房祖、名人、散居地等屬于某個(gè)家族的信息,可用“家族”類來(lái)建模。因而自定義了三個(gè)類: shlgen:Family(家族);shlgen:Person(人);shlgen:FamilyName(姓氏)。“shlgen”是上海圖書館家譜本體命名空間的前綴,帶有該前綴的類和屬性即為自定義的類和屬性。其中shlgen:Family繼承bf:
Family,shlgen:Person繼承bf:Person,bf是書目框架命名空間的前綴,帶有該前綴的類和屬性即為書目框架所定義。之所以要把姓氏shlgen:FamilyName也定義為一個(gè)類,是因?yàn)樵诩易V數(shù)據(jù)中,姓氏是非常重要的資源,上海圖書館的家譜數(shù)據(jù)中包括335個(gè)姓氏,張、陳、王、李、劉、吳等姓的家譜文獻(xiàn)均在500種以上,而周、朱、徐、黃、楊、胡等姓也達(dá)數(shù)百種之多,冷僻姓氏有90余種。將姓氏作為資源對(duì)象來(lái)處理,有利于將關(guān)于姓氏的信息,如發(fā)源地、地域分布等數(shù)據(jù)結(jié)構(gòu)化、語(yǔ)義化。
表1 家譜元數(shù)據(jù)與家譜知識(shí)本體的對(duì)應(yīng)關(guān)系
書目框架本體對(duì)家譜文獻(xiàn)特征描述的類和屬性較為充足,無(wú)需作進(jìn)一步擴(kuò)展。遵照書目框架的核心數(shù)據(jù)模型,將家譜分為作品、實(shí)例兩個(gè)主要部分。家譜元數(shù)據(jù)中的題名項(xiàng)、責(zé)任者項(xiàng)、附注項(xiàng)以及其他與家譜文獻(xiàn)內(nèi)容有關(guān)的人、地、時(shí)、事、家族信息等屬性歸于作品,將與文獻(xiàn)載體有關(guān)的出版項(xiàng)、載體形態(tài)項(xiàng)、版本項(xiàng)歸于實(shí)例,而規(guī)范與注釋都通過(guò)作品和實(shí)例各自的屬性所定義的關(guān)聯(lián)關(guān)系與作品和實(shí)例相關(guān)聯(lián),見(jiàn)圖2。
圖2 基于書目框架的家譜本體模型
作品、實(shí)例、家族、人之間的實(shí)體關(guān)系可用實(shí)體關(guān)系圖來(lái)分析。圖3是與作品相關(guān)的類和屬性關(guān)系圖,圖中圓角矩形表示類,用帶箭頭的有向線條表示屬性,用直角矩形表示文本串(Literal),子類用rdfs:subClassOf表示,類及其屬性的域(Domain)和范圍(Range)可從圖中的有向線條及其起止點(diǎn)看出。比如,代表屬性“bf:creator(責(zé)任者)”的有向線條從bf:Work類指向bf:Agent類,那么屬性“bf:creator(責(zé)任者)”的域是類“bf:Work(作品)”,表示該屬性是用于描述該類的,其范圍是bf:Agent類,表示該屬性的取值屬于shlgen:Person類,而屬性bf:role(責(zé)任方式)的取值是一個(gè)文本串(Literal),用直角矩形表示。
自定義的shlgen:Family類和shlgen:Person類是這樣與bf:Work類發(fā)生關(guān)聯(lián)的:作品的主題屬性(bf:subject)的范圍是bf:Authority,而shlgen:Family類繼承了bf:Authority的子類bf:Agent的子類bf:Family(見(jiàn)圖5),所以也繼承了bf:Authority,故可以將shlgen:Family作為作品主題的一種加以揭示。作品的責(zé)任者屬性(bf:creator)的范圍是bf:Agent,而shlgen:Person繼 承 了bf:Agent的子類bf:Person(見(jiàn)圖6),因而可以將shlgen:Person作為責(zé)任者的一種。
圖3 作品相關(guān)的類、屬性及其關(guān)系
圖4 實(shí)例相關(guān)的類、屬性及其關(guān)系
地點(diǎn)和時(shí)間通過(guò)屬性bf:place和屬性bf:temporalCoverageNote來(lái)與bf:Work發(fā)生關(guān)聯(lián),這兩個(gè)屬性的范圍分別是地點(diǎn)(bf:Place)和時(shí)間(bf:Temporal),都是規(guī)范(bf:Authority)的子類。圖4中的收藏者屬性(bf:held By)所指向的機(jī)構(gòu)(bf:Organization)和出版地屬性(bf:providerPlace)所指向的地點(diǎn)(bf:Place)也是如此。對(duì)注釋(bf:Annotation)來(lái)說(shuō),作品的附注(bf:Summary)(見(jiàn)圖3)是它的子類,實(shí)例的館藏信息(bf:Held Item)(見(jiàn)圖4)是它的子類bf:Held Material的子類。
圖5 上海圖書館家譜本體中家族相關(guān)的類、屬性及其關(guān)系
圖6 上海圖書館家譜本體中人相關(guān)的類、屬性及其關(guān)系
值得注意的是,對(duì)責(zé)任者和相應(yīng)的責(zé)任者角色的對(duì)應(yīng)處理,在書目框架里有兩種方式:一是bf:creator直接指向責(zé)任者實(shí)體對(duì)象;二是bf:creator的范圍是一個(gè)抽象的中間類bf:Related(關(guān)系),由“關(guān)系”類的屬性bf:related To來(lái)指向責(zé)任者實(shí)體對(duì)象,由bf:related Type來(lái)表示相應(yīng)的責(zé)任者角色,這里采用第一種方法,最新的BIBFRAME本體詞表中也將bf:creator的范圍定義為bf:Agent類。bf:Agent是bf:Authority的子類,子類可以繼承父類的屬性,因而用從bf:Authority類繼承過(guò)來(lái)的屬性bf:role來(lái)表示責(zé)任者的角色,其范圍是一個(gè)文本串,取值約束定義為一個(gè)列表:主編、主修、總纂、纂修、續(xù)修(見(jiàn)圖3)。對(duì)取值約束的定義在“實(shí)例”的版本(bf:edition)屬性和載體形態(tài)屬性(bf:categoryValue)上也有體現(xiàn)(見(jiàn)圖4)。
在書目框架中,很多在元數(shù)據(jù)記錄中取值范圍為字符串的屬性被作為實(shí)體對(duì)象來(lái)處理,如標(biāo)識(shí)符、題名、版本項(xiàng)、載體項(xiàng)、出版者項(xiàng)。以題名為例,作品的題名屬性bf:w orkTitle的范圍不再是一個(gè)文本串,而是bf:Title類,該類的兩個(gè)屬性bf:titleType和bf:Value分別定義題名的類型(縮寫、封面、書脊……)和值。對(duì)于上海圖書館家譜數(shù)據(jù)來(lái)說(shuō),當(dāng)一個(gè)作品有多個(gè)書名時(shí),用這種面向?qū)ο蟮姆绞礁子谔幚頃愋秃椭档膶?duì)應(yīng)關(guān)系。用RDF三元組表示如下:
作品0010012——bf:workTitle——題名1
題名1——bf:titleType——“卷端”
題名1——bf:titleValue——“維揚(yáng)安阜洲丁氏重修族譜六卷”
作品0010012——bf:workTitle——題名2
題名2——bf:titleType——“版心”
題名2——bf:titleValue——“丁氏族譜”
家族shlgen:Family、人shlgen:Person、姓氏shlgen:FamilyName這三個(gè)類及其屬性見(jiàn)圖5和圖6所示。
書目框架是一個(gè)試圖兼容MARC、RDA、VRA以及未來(lái)可能出現(xiàn)的標(biāo)準(zhǔn)規(guī)范的框架,被設(shè)計(jì)成具有一定的靈活性和可擴(kuò)展性,因而不能對(duì)具體領(lǐng)域的具體應(yīng)用作出具體的規(guī)定。書目框架應(yīng)用綱要是根據(jù)具體需求為領(lǐng)域本體的實(shí)施和應(yīng)用在語(yǔ)法、用法甚至數(shù)據(jù)格式上作出明確定義的規(guī)范文檔,它獨(dú)立于書目框架模型和術(shù)語(yǔ)詞表,由特定的應(yīng)用領(lǐng)域自行維護(hù),以適應(yīng)具體的應(yīng)用需求。書目框架應(yīng)用綱要具體表現(xiàn)為一個(gè)或多個(gè)文件,以一定的格式編寫而成,可被機(jī)器處理,是抽象的本體到具體的應(yīng)用系統(tǒng)之間的橋梁。書目框架應(yīng)用綱要(BibFrame Profile)規(guī)范[29]是如何將BIBFRAME核心模型和本體詞表應(yīng)用于具體領(lǐng)域的指南性規(guī)范,定義了如何為領(lǐng)域應(yīng)用構(gòu)造一個(gè)應(yīng)用綱要的規(guī)則和語(yǔ)法。應(yīng)用綱要由“綱要定義(Profile Definition)”和多個(gè)“資源模板(Resources Templates)”組成,“綱要定義”聲明了該應(yīng)用綱要用于哪種,比如“專著”、“信函”等,“資源模板”規(guī)定具體應(yīng)用綱要包含哪些類(如作品、實(shí)例、規(guī)范、注釋)。一個(gè)“資源模板”包含多個(gè)“屬性模板(Properties Template)”。屬性模板定義一個(gè)類有哪些屬性,各個(gè)屬性的域和范圍,以及屬性的數(shù)據(jù)類型約束和取值約束?!熬V要定義”“資源模板”和“屬性模板”都有各自的元素來(lái)明確定義,比如“綱要定義”需由identifier(應(yīng)用綱要的標(biāo)識(shí)符,機(jī)讀)、Title(應(yīng)用綱要的標(biāo)題,人讀)、Description(應(yīng)用綱要的描述)、Resource Templates(應(yīng)用綱要所包含的資源模板)等元素來(lái)描述。
基于書目框架設(shè)計(jì)的家譜本體即是一個(gè)領(lǐng)域本體,如何在系統(tǒng)中得到應(yīng)用和實(shí)施可以用書目框架應(yīng)用綱要來(lái)定義。應(yīng)用綱要由標(biāo)準(zhǔn)的編碼語(yǔ)言編寫,可被機(jī)器處理。系統(tǒng)讀取應(yīng)用綱要定義的規(guī)則自動(dòng)生成基于家譜本體的對(duì)象數(shù)據(jù)。家譜的書目框架應(yīng)用綱要以JSON格式來(lái)定義,限于篇幅,這里只截取“綱要定義”、一個(gè)“資源模板”和兩個(gè)“屬性模板”的定義代碼?!百Y源模板”以shlgen:Person為例,“屬性模板”以shlgen:family和shlgen:given-Name為例。第一個(gè)屬性的范圍是shgen:Family類,第二個(gè)屬性的范圍是Literal,其中“"type":"resource",”這 行 代 碼 表 示 屬 性shlgen:family的范圍是另一個(gè)資源對(duì)象,“"valueTemplateRefs":["bfp:Family",]”指明是哪種資源對(duì)象,"bfp:Family"指的是另一個(gè)資源模板的ID,這個(gè)資源模板所定義的類(shlgen:Family)是屬性shlgen:family的范圍。代碼如下:
上述家譜本體中類和屬性主要基于目前上海圖書館家譜數(shù)據(jù)的現(xiàn)狀來(lái)設(shè)計(jì),能夠容納現(xiàn)有家譜數(shù)據(jù)中的數(shù)據(jù)項(xiàng)。隨著標(biāo)引方法和技術(shù)的進(jìn)步,如基于圖像的標(biāo)引技術(shù),家譜數(shù)據(jù)中更多的數(shù)據(jù)項(xiàng)將在未來(lái)的標(biāo)引工作中提取出來(lái),比如家譜的世系圖錄包含家族中詳細(xì)的成員名單和他們之間的親屬關(guān)系。目前上海圖書館的家譜世系圖錄只是掃描后作為圖片存儲(chǔ),沒(méi)有對(duì)圖中的文字進(jìn)行OCR識(shí)別,這部分內(nèi)容是家譜資源中寶貴的財(cái)富,如果將來(lái)做更細(xì)粒度的標(biāo)引,那么目前的本體就不夠用,需要進(jìn)一步擴(kuò)展。一般來(lái)說(shuō),本體的擴(kuò)展有復(fù)用已有本體和自定義本體兩種做法,本文設(shè)計(jì)的家譜本體在模型和框架層面能夠支持這兩種做法。以世系圖錄為例,可以采用復(fù)用已有本體的辦法。比如要復(fù)用genOnt來(lái)描述人與人之間的關(guān)系,可以為shlgen:Person類增加屬于genOnt本體 的 屬 性, 例 如 用 genont: hasFather、genont:hasMather來(lái)表示父母子女的關(guān)系。如果還不夠用,還可以關(guān)系本體(Relationship)的屬性rel:friend Of表示朋友關(guān)系,域和范圍均為shlgen:Person。以人的墓志銘為例,目前已有的家譜數(shù)據(jù)中沒(méi)有墓志銘的數(shù)據(jù),但將來(lái)如果對(duì)《中國(guó)家譜資料選編》做標(biāo)引,就需要對(duì)墓志銘作出定義。可以采用自定義新的屬性來(lái)擴(kuò)展目前的家譜本體,為shlgen:Person增加一個(gè)屬性shlgen:epitaph,其域?yàn)閟hlgen:Person,范圍為文本串(Literal)。至于在本體擴(kuò)展時(shí)究竟采用哪種方法,原則是盡量復(fù)用已有的較為成熟和被業(yè)界公認(rèn)的本體,如果沒(méi)有可復(fù)用的本體才考慮自定義。家譜本體擴(kuò)展的目的是為數(shù)據(jù)實(shí)體增加相關(guān)的描述,使數(shù)據(jù)間的關(guān)系更豐富。由于數(shù)據(jù)的編碼采用RDF數(shù)據(jù)模型,因而只需要增加一個(gè)或多個(gè)三元組,不影響后臺(tái)數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)。
知識(shí)本體是領(lǐng)域共享的知識(shí),得到更多應(yīng)用系統(tǒng)的重用才能體現(xiàn)更大的價(jià)值。本體的重用需要做好兩方面的準(zhǔn)備:一方面要準(zhǔn)備供人讀的翔實(shí)的說(shuō)明文檔,對(duì)類和屬性的定義要明確,盡量避免在被重用的過(guò)程中產(chǎn)生歧義;另一方面要在Web上發(fā)布機(jī)器可讀的基于標(biāo)準(zhǔn)編碼語(yǔ)言的文檔,一般用RDFs或OWL語(yǔ)言,在文檔中聲明前綴和命名空間,用規(guī)范的元素描述類和屬性的定義。書目框架采用了RDFs的9個(gè)元素來(lái)對(duì)其本體詞表編碼,見(jiàn)表2。
表2 上海圖書館家譜本體的RDFs編碼規(guī)則
上海圖書館家譜本體也采用RDFs來(lái)定義。以下示例是對(duì)bf:Work類和自定義類shlgen:Family的定義,以RDF/XML格式編碼:
書目框架作為基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的本體模型,既能揭示家譜資源的文獻(xiàn)特征,又能揭示其內(nèi)容特征,并在家譜各種數(shù)據(jù)實(shí)體之間建立能被機(jī)器處理和理解的關(guān)聯(lián)關(guān)系。這些措施能有效提高家譜系統(tǒng)的查全率和查準(zhǔn)率,提升家譜資源服務(wù)的效果。
然而目前書目框架項(xiàng)目尚未結(jié)束,其模型仍在發(fā)展變化之中,一些細(xì)節(jié)尚未決定或仍在討論和征求意見(jiàn)的階段,這導(dǎo)致基于書目框架來(lái)設(shè)計(jì)家譜本體存在一定的風(fēng)險(xiǎn)性。因此,在家譜本體的設(shè)計(jì)過(guò)程中,主要以書目框架的核心模型和總體框架為基礎(chǔ)模型框架,盡量避免復(fù)用存在爭(zhēng)議或概念尚不明晰的類和屬性,同時(shí)考慮架構(gòu)的靈活性和可擴(kuò)展性(好在基于關(guān)聯(lián)數(shù)據(jù)的模型本身就具有這方面的優(yōu)勢(shì)),以便今后進(jìn)一步修訂。
家譜本體設(shè)計(jì)的難點(diǎn)在于對(duì)人、地、時(shí)、事之間復(fù)雜關(guān)系的處理,尤其是家譜數(shù)據(jù)中對(duì)時(shí)間和地點(diǎn)的描述:不同時(shí)間同一地點(diǎn)的名稱不一致、不同地點(diǎn)重名、同一地點(diǎn)在不同的時(shí)間范圍內(nèi)屬于不同的行政區(qū)域劃分、同一時(shí)間使用不同的紀(jì)年方式、時(shí)間范圍的起止定位等問(wèn)題為數(shù)據(jù)的清洗和實(shí)體對(duì)象的提取帶來(lái)了困難。處理這些問(wèn)題,需要引入已有的外部本體和規(guī)范詞表,比如事件本體(Event Ontology)、時(shí)間本體(Time Ontology)、關(guān)系本體(Relationship Ontology),以及即將以關(guān)聯(lián)數(shù)據(jù)發(fā)布的Getty的地理名詞敘詞表[30]等,來(lái)處理人、地、時(shí)、事之間的復(fù)雜關(guān)系,以補(bǔ)充現(xiàn)有家譜本體的不足。
下一步的工作是將以RDFs編碼的家譜本體發(fā)布成關(guān)聯(lián)數(shù)據(jù),使之在Web上可訪問(wèn)可獲取,可被其他本體復(fù)用,并提供數(shù)據(jù)消費(fèi)接口(如SPARQL端點(diǎn))等,以達(dá)到方便地共享和重用的目的。同時(shí),基于書目框架應(yīng)用綱要開發(fā)應(yīng)用系統(tǒng),生成包含豐富關(guān)聯(lián)的家譜對(duì)象數(shù)據(jù),在這個(gè)過(guò)程中進(jìn)一步檢測(cè)家譜本體的健壯性和可靠性。
在我國(guó),關(guān)聯(lián)數(shù)據(jù)的介紹和試驗(yàn)已經(jīng)有四五年,然而到目前為止,較大規(guī)模的實(shí)際應(yīng)用還付之闕如。國(guó)外圖書館界最常見(jiàn)的關(guān)聯(lián)數(shù)據(jù)應(yīng)用是將國(guó)家書目庫(kù)發(fā)布成關(guān)聯(lián)數(shù)據(jù),通常只有國(guó)家圖書館的數(shù)據(jù)才具有足夠的規(guī)范性和權(quán)威性。選擇家譜資源進(jìn)行嘗試,并采用書目框架作為本體模型,主要是基于上海圖書館家譜文獻(xiàn)在質(zhì)和量等方面于業(yè)界具有舉足輕重的地位;同時(shí),家譜資源無(wú)論多么特殊,都是上海圖書館館藏文獻(xiàn)的一部分,它需要遵從圖書館信息系統(tǒng)功能需求的一般性原則。
以關(guān)聯(lián)數(shù)據(jù)為代表的語(yǔ)義技術(shù)對(duì)圖書情報(bào)領(lǐng)域有著極為特殊的意義。上海圖書館正努力把該項(xiàng)目做成關(guān)聯(lián)數(shù)據(jù)應(yīng)用的一個(gè)示范性項(xiàng)目,希望能以此帶動(dòng)數(shù)字圖書館的資源揭示從基于文獻(xiàn)向基于內(nèi)容進(jìn)行升級(jí),為打造數(shù)字人文服務(wù)和研究平臺(tái)進(jìn)行具有突破意義的探索和嘗試。
[1] 劉煒,夏翠娟. 書目數(shù)據(jù)新格式BIBFRAME 及其應(yīng)用[J]. 大學(xué)圖書館學(xué)報(bào),2014 (5):5-13.
[2] Tim Berners-Lee. Linked Data [EB/OL]. [2011-05-15]. http://www.w3.org/DesignIssues /LinkedData.html.
[3] 劉煒. 關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J]. 大學(xué)圖書館學(xué)報(bào),2011 (2):5-12.
[4] 王昭. 家譜文獻(xiàn)資源整理現(xiàn)狀與思考[J]. 中國(guó)科技信息,2013 (5):62-66.
[5] 毛建軍. 中國(guó)家譜數(shù)字化資源的開發(fā)與建設(shè)[J]. 檔案與建設(shè),2007 (1):22-24.
[6] Campanya Artes Joan. The Family History Department of The Church of Jesus Christ of Latter-day Saints(LDS Church) . The GEDCOM Standard Release 5.5 Introduction[EB/OL]. [2014-05-11]. http://homepages.rootsweb.ancestry.com/~pmcbride/gedcom/55gcint.htm#S1.
[7] GENTECH Genealogical Data Model: A Comprehensive Data Modelfor Genealogical Research and Analysis (version 1.1) [EB/OL].(2000-05-29)[2014-07-03]. https://www.ngsgenealogy.org/ngsgentech/projects/Gdm/Gdm.htm.
[8] Jay Askren. The Semantic Web for Family History[EB/OL]. [2014-05-16]. http://jay.askren.net/Projects/SemWeb/
[9] Albert Mero?o-Pe?uela. Semantic Technologies for Historical Research: A Survey[EB/OL] .[2014-07-15].http://www.semantic-web-journal.net/system/files/swj588.pdf.
[10] Josh Hansen. The Coming Web of Genealogical Data[EB/OL]. [2014-05-12]. http: //fht.byu.edu/prev_workshops/workshop12/papers/3.1%20Josh%20Hansen% 20-% 20FHT% 202012% 20Workshop% 20Paper%20-%20The%20Coming%20Web%20of%20Genealogical%20Data.pdf.
[11] John Goodwin .John Goodwin’s Family Tree[EB/OL].[2014-07-08]. http://datahub.io/dataset/john-goodwinsfamily-tree.
[12] 周秋芳,顧燕,陳建華,等. 我國(guó)數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè):家譜描述元數(shù)據(jù)規(guī)范[EB/OL].[2014-05-08].http://www.docin.com/p-9321300.html.
[13] 趙亮,蘇品紅.國(guó)家數(shù)字圖書館工程標(biāo)準(zhǔn)規(guī)范成果:國(guó)家圖書館家譜元數(shù)據(jù)規(guī)范與著錄規(guī)則[M].北京:國(guó)家圖書館出版社,2014:10-40.
[14] 上海圖書館. 中國(guó)家譜總目[M]. 上海:上海古籍出版社,2008:10-12.
[15] Ivo Zandhuis. Towards a Genealogical Ontology for the Semantic Web [EB/OL]. [2014-06-09]. http://www.zandhuis.nl/sw/genealogy/.
[16] Charla Woodbury,David W. Embley. Family History Research on the Semantic Web:Building a Semantic Prototype for Danish Research[EB/OL].[2014-07-28].http://fht.byu.edu/prev_workshops/workshop05/FHTCD/session1/s1-CharlaWoodbury_SemanticWeb.pdf.
[17] 陳艷.中國(guó)家譜的知識(shí)本體構(gòu)建[D]. 上海:上海交通大學(xué),2007.
[18] Ying Jiang, Hui Dong. Ontology Based Knowledge Modeling of Chinese Genealogical Record[C]//Semantic Computing and Systems, 2008. WSCS '08. IEEE International Workshop:33-34.
[19] Dan Brickley,Libby MillerFOAF Vocabulary Specification 0.99 [EB/OL]. [2014-07-04]. http: //xmlns.com/foaf/spec/.
[20] Ian Davis, Eric Vitiello Jr. RELATIONSHIP: A vocabulary for describing relationships between people[EB/OL]. [2014-07-05]. http://vocab.org/relationship/.html.
[21] GeoNames Team. GeoNames Ontology [EB/OL].[2014-07-05]. http://www.geonames.org/ontology/documentation.html.
[22] Jerry R. Hobbs, Feng Pan. Time Ontology in OWL[EB/OL]. (2006-09-27)[2014-07-05]. http://www.w3.org/TR/owl-time/.
[23] Yves Raimond, Samer Abdallah The Event Ontology[EB/OL].[2014-07-09]. http://motools.sourceforge.net/event/event.html.
[24] PeroniSilvio,TomasiFrancesca,VitaliFabio. Reflecting on the Europeana Data Model[M]. Digital Libraries& Archives,2013:228-240.
[25] Ted Fons, Jeff Penka, Richard Wallis. OCLC’s Linked Data Initiative:Using Schema.org to Make Library Data Relevant On The Web[EB/OL].[2014-06-12]. http://www.niso.org/apps/group_public/download.php/9408/IP_Fons-etal_OCLC_isqv24no2-3.pdf.
[26] Library of Congress. Bibliographic Framework as a Web of Data:Linked Data Model and Supporting Services[EB/OL]. (2012-11-21)[2013-09-12]. http://www.loc.gov/bibframe/pdf/marcld-report-11-21-2012.pdf.
[27] 劉煒,李大玲,夏翠娟. 元數(shù)據(jù)與知識(shí)本體[J]. 圖書館雜志,2004 (6):50:54.
[28] 葉鷹,金更達(dá).基于元數(shù)據(jù)的信息組織與基于本體論的知識(shí)組織[J].中國(guó)圖書館學(xué)報(bào),2004(4):43-47.
[29] Library of Congress. BIBFRAME Profiles: Introduction and Specification [EB/OL]. [2014-06-18].http://www.loc.gov/bibframe/docs/bibframe-profiles.html.
[30] The J. Paul Getty Trust. Getty Thesaurus of Geographic Names Online[EB/OL]. [2014-07-18]. http:// www.getty.edu/research/tools/vocabularies/tgn/index.html.