董坤
[摘要]針對當前非物質文化遺產分類組織方法的不足,提出一個基于關聯數據的非物質文化遺產語義化組織框架。通過構建非物質文化遺產本體描述模型,實現非物質文化遺產知識元及其關聯關系的語義化描述,在其基礎上,基于關聯數據所采用的RDF模型與鏈接機制實現了非物質文化遺產知識元以及知識元之間關聯關系的語義化整合與組織。
[關鍵詞]關聯數據;本體;非物質文化遺產
[中圖分類號]G250
[文獻標識碼]A
[文章編號]1008-0821(2015)02-0012-06
聯合國教科文組織在《保護非物質文化遺產公約》中將“非物質文化遺產”的概念界定為“被各群體、團體、有時為個人視為其文化遺產的各種社會實踐”。我國作為世界上擁有非物質文化遺產數量最多的國家,對瀕臨消失的非物質文化遺產進行搶救性保護一直是我國非物質文化遺產保護工作的重要內容。然而從信息組織層面看,我國非物質文化遺產相關資源的數字化組織整理工作還存在著一定的不足,主要表現在文獻組織方法較為傳統(tǒng),主要依據傳統(tǒng)的分類組織方法,如主題分類、等級分類、地域分類等組織方法,這種基于非遺某一特征進行的單線索的線性組織,無法反映非遺之間的固有聯系,無法表達非遺表現形式之間以及其子元素之間存在的復雜的關系,造成查詢與利用的不便。為有效解決這一問題,本文針對我國非物質文化遺產的特點,在借鑒語義網知識組織方法的基礎之上,設計了一個基于關聯數據的非物質文化遺產知識組織模型,基于該組織模型實現對我國非物質文化組成因素、各因素之間關聯關系的統(tǒng)一的語義描述與揭示,為非物質文化遺產的語義化組織提供一種有效的方法。
1 非物質文化遺產組織現狀分析
近年來,為有效保護與宣傳非遺資源,實現保護工作的數字化與現代化,在地方文化管理部門的推動下,一大批非物質文化遺產數據庫紛紛建立。以湖北與陜西兩省為例,隸屬于全國文化信息資源共享工程的湖北省非物質文化遺產資源庫以各地的非遺申報材料為基礎,收集并整理具有湖北地方特色的非物質文化遺產項目,該庫構建了一個由民間文學、傳統(tǒng)戲劇、民間美術、民俗等10個類目所組成的非物質文化遺產分類組織體系,在每個類目下以列表形式對非遺項目名稱、所屬地區(qū)、所屬級別、傳承譜系、基本特征等非遺項目知識進行介紹;由陜西省文化廳主辦的陜西省非物質文化遺產數據庫以項目所屬級別與批次將非遺項目劃分為國家級與省級保護項目,在每個級別批次下冉按項目表現形式進行二級分類劃分,同時,該數據庫還提供非遺傳承人與研究文獻的索引。
從現有非物質文化遺產數字化保護成果來看,對非遺項目的組織模式普遍采用分類方法,對非物質文化遺產按其遺產地域、所屬分類、保護級別等特征進行單線索的組織劃分,這種組織方法雖然具有較好的局部條理性,但對非物質文化遺產外延下所蘊含的大量豐富的關聯知識,如非遺項目所包含知識內容本身以及非遺項目與項目之間、非遺項甘與所處時空之間、非遺項目與傳承人之間、非遺傳承人之間、非遺項目與使用器具之間豐富的語義關聯關系缺乏有效的揭示手段,一方面造成非遺項目所蘊含的知識內容的極大流失;另一方面由于缺乏統(tǒng)一科學的非遺組織體系使得已有非物質文化遺產數據庫平臺內容分散為一個個獨立的信息孤島,難以在現有組織架構基礎上實現對非物質文化遺產數字化保護成果的整合。
2 基于關聯數據的非遺資源語義組織框架構建
非遺作為文化形式和文化空間的有機結合體,非遺的管理不僅要關注其表現形式,更要關注其所生存發(fā)展的時間、空間、生態(tài)環(huán)境等因素,是一個多元素結合的有機整體。非遺項目的組織與保護需要利用富含語義特征的元數據來發(fā)現和揭示非物質文化遺產所包含的豐富的客觀知識元并基于其語義關聯對其進行有效的整合。而關聯數據作為語義網環(huán)境下實現結構化與非架構化數據聚合與開放共享的有效途徑為實現以上目標提供了解決之道。
基于關聯數據的非遺資源的語義化組織工作可分解為非遺資源的數據建模、實體RDF化與實體關聯化等3個核心環(huán)節(jié)。數據建模就是根據非遺資源內容定義非遺資源所包含的客觀實體與抽象概念之間的關聯關系,實體RDF化就是采用RDF協(xié)議米描述每一個實體與概念,實體關聯化指采用RDF Link來描述實體與概念之間的語義關系。本體作為共享概念模型的明確的形式化規(guī)范說明,構建非遺資源的語義本體描述模型既是非遺資源數據建模的目標與最終成果,也是實體RDF化與實體關聯化的基礎。根據關聯數據的發(fā)布流程,本研究提出一個關聯數據驅動的非遺資源語義組織框架,通過構建非遺資源語義本體實現資源實體與概念的語義化標注,基于關聯數據所利用的RDF數據模型與鏈接機制從靜態(tài)、動態(tài)、時空等視角將非遺資源表現形式與非遺資源所處的文化空間知識內容進行整合,實現對非物質文化遺產豐富知識元基于其關聯關系的語義化組織與統(tǒng)一展示。該框架由4層結構組成,如圖1所示,從下至上分別為源數據層、語義層、數據關聯層與應用層。
2.1源數據層
源數據層是非物質文化遺產所涉及知識內涵的最初始狀態(tài)的信息表達形式,如文檔、互聯網頁所記載的推遺的表現形式、所處地域、相關人物、發(fā)展時間、相關文獻等信息。源數據層為上層的非遺知識提取、知識標引,知識組織功能的實現提供基礎數據支持。
2.2語義層
語義層基于語義本體元數據模型,實現非遺資源的RDF化。非遺資源RDF化是非遺資源關聯數據發(fā)布的重要一環(huán),實體RDF化需要相應本體的支持,本體提供了領域內的基本概念及其關聯關系的宏觀理解,語義層設計構建了一個描述非遺項目知識無與知識元之間關聯關系的非遺資源語義本體描述模型,基于該本體模型對非遺項目所包含的知識內容以及內容之間豐富的語義關系進行梳理與定義?;诒倔w描述模型對底層源數據層進行知以抽取并轉換為RDF格式的語義元數據。
2.3數據關聯層
數據關聯層基于關聯數據發(fā)布技術,將基于語義本體所構建的RDF元數據在語義層上相互關聯起來,將非遺相關資源發(fā)布為一個有機聯系的統(tǒng)一的整體,每個資源都可通過HTTP協(xié)議進行直接訪問,并可沿著RDF鏈接訪問其他資源,向上層提供一個統(tǒng)一的富含語義的知識視圖。endprint
2.4應用層
基于數據關聯層的知識組織架構,開發(fā)實現上層的各項語義應用服務功能,如語義檢索、可視化語義知識地圖、知識推理與發(fā)現等應用服務。
3 非遺語義本體構建
為實現對非遺資源的語義化描述,首先需要構建一個元數據本體實現對非遺領域內的核心實體與概念以及實體與概念之間的語義關系進行精確的語義化描述。目前,在非遺的領域內還沒有出現特定本體,但在其上層的文化遺產領域,已經出現了一些具有一定影響的本體方案,如CIDOC CRM、ABB、AAT等,其中CIDOC本體基于面向對象的模型,描述關于文化遺產的概念以及概念之間的關聯關系,其總共包含62個實體類,148個屬性定義,對文化遺產具有最大的描述能力和靈活性。本研究在CIDOC CRM本體的基礎,結合veard、Geoname等本體詞匯庫并進行適當擴展,譬如構建ICH-Project類定義非遺項目,擴展定義ich:inheritor屬性定義非遺項目與傳承人之間關聯關系,ich:inherit from屬性定義非遺繼承人之間繼承關系,ich:accepteddate屬性定義非遺項目申報時間,本研究所構建的非遺元數據本體如圖2所示。
非遺元數據本體由非遺項目(ICH-project)、人物(Person)、位置(Place)、事件(Event)、時間段(Time-span)、類型(Type)、事物(Thing)等6個核心類組成,實例之間關聯關系通過類屬性來揭示。
非遺項目(ICH-project)類實體為我國非物質文化遺產的知識表征,其描述屬性項主要包含我國非物質文化遺產的相關特征,如名稱、別名、內容描述、類型、入選名錄等信息。
人(Person)是非物質文化遺產所處人文環(huán)境的重要組成部分,通過人的作用,非物質文化遺產才能夠得以產生、傳承并得到研究、推廣。在某種程度上,人是我國非物質文化遺產的惟一的依附載體。在本模型中,人物類是與非物質文化遺產相關聯的一切人物的抽象,可以是非物質文化遺產的創(chuàng)造者、傳承者,也可以是其推廣者、研究者,其基本屬性包括人物的姓名、出生年月、個人簡歷、相關圖片等信息。
類型(Type)實體主要應用于非遺知識元素分類體系的構建,其類別實例可以依據不同的分類準則進行定義,可以來源于各類受控詞表,也可以依據不同的分類體系來定義,如依據我國《非物質文化遺產名錄》將非遺分為民間文學、民間音樂、傳統(tǒng)醫(yī)藥、民俗等十大類,依據非遺的民族特性又可劃分漢族、土家族、苗族等類別。類別實例之間還可以利用類屬性crm:has border term進行層級關系的搭建,建立一個多視角、多層次、靈活的分類體系,其他類實體可分別構建與類型實體的映射關系。
時間段(Time-span)主要表征特定的時間范圍,類屬性包括時間段的起始時間、結束時間等。時間段類主要用來描述非遺項目在時間維度演化發(fā)展的特定窗口,如非遺的起源時期、發(fā)展時期、非遺項目申報時間等。
事件(Event)類指代一切與非遺項目有關的活動,如祭祀活動、集體儀式、文藝活動、競技游戲等。非遺項目的生存、發(fā)展與其所處特定環(huán)境的特定民俗活動有著極為緊密的聯系,如被譽為中國戲劇活化石的“恩施儺戲”、民間舞蹈“土家族撒葉兒嗬”與民間祭祀活動之間關聯的關系,民俗“端午節(jié)”與“賽龍舟”活動的關聯關系等。
非物質文化遺產存在著較為鮮明的地域特征,同一地域相同的語言文字、風俗習慣、文化、歷史源流往往孕育著反映該地域不同社會側面的非遺內容,同一地域或相鄰地域的非遺項目之間往往存在有著不同程度的關聯關系。在ICH模型中位置(Place)實體一方面對非物質文化遺產的所流傳的區(qū)域進行描述,同時也為非物質文化資源的發(fā)現提供多樣性的捕獲和發(fā)現手段。在本文中基于Geoname本體庫對非物質文化資源所處地域基于其地理關系進行語義化組織。
非物質文化遺產也有其物質化的一面,大量的非遺項目需要依靠物質層面的事物來表達和呈現。如儺戲面具作為非遺項目儺戲造型藝術的重要手段,是儺戲其別與其他戲劇的重要特征,此外還有大量展示非遺項目內容的影、音、文字等文獻資源等。事物(Thing)類實體主要揭示與非遺相關的物質元素。
類之間的關聯關系通過類屬性來定義。部分核心類屬性如表1所示。
4 基于關聯數據的非遺語義化組織功能實現
本節(jié)將以湖北、湖南兩省非遺項目為例,基于上文所提出的非遺資源語義化組織框架及非遺原數據本體,將湖北、湖南兩省非遺項目所蘊含的知識內容以關聯數據的形式進行發(fā)布,在此基礎上實現非遺知識基于語義的瀏覽、檢索功能。
4.1源數據獲取
本研究中非遺相關知識內容的獲取主要基于互聯網來實現,以互聯網現有的非遺數據庫平臺為起點,并以此為依據在互聯網上進行相關知識的擴展檢索,實現對非遺相關知識內容的全方位獲取。本研究共整理出湖北、湖南兩省國家級、省級、市級非遺項目內容321項,包含非遺內容介紹、地域信息、傳承人信息、相關事物信息等。
4.2基于D2RQ的非遺數據RDF化及關聯數據發(fā)布
因為非遺信息數據量較大,內容需要不斷更新,因此本研究采用在線映射方式實現非遺數據的RDF化及關聯數據的發(fā)布。所采用方法是將非遺信息借助于關系數據庫進行存儲,基于D2RQ平臺實現關系數據庫與RDF關聯數據的語義映射,將關系數據庫發(fā)布為關聯數據并提供語義查詢檢索接口。D2RQ服務器體系框架如圖4所示。
D2RQ基于一個可個性化定制的D2RQ mapping file將關系數據庫中數據直接映射為語義網RDF格式并建立對應的RDF鏈接關系。D2RQ提供RDF數據的瀏覽和檢索接口,以供上層的RDF瀏覽器、SPARQL查詢客戶端或傳統(tǒng)的HTML瀏覽器調用。
本研究使用mysql數據庫實現數據的存儲,在底層mysql數據庫中與實體類對應分別建立數據表ich-proiect、person、place、time-span、type、thing,數據表列對應本體類屬性;另外建立數據表rel_porject_place、rel_project person、tel_project_thing、rel_place_place分別存儲非遺項目與地區(qū),非遺項目與人物,非遺項目與事物,地區(qū)與地區(qū)之間的多對多關系。將收集整理的321項非遺項目內容進行特征內容的抽取與劃分,存入對應關系數據庫表結構中。利用D2RQMapping Language構建映射文件,基于D2RQ平臺的映射工具實現非遺數據的關聯數據發(fā)布。系統(tǒng)配置及位置實體類映射代碼如下:
用戶可分別點擊頁面上部Event、ICH-Project等類名稱標簽瀏覽類實例數據目錄,點擊目錄鏈接即可查看實例數據內容。同時,用戶也可以以任一實例數據為起點沿著關聯數據所構建的RDF語義數據鏈,從任意一個非遺知識節(jié)點開始不斷發(fā)散式訪問瀏覽其他相關非遺知識內容,如從非遺項目目錄→非遺項目→非遺傳承人→傳承人相關文獻資源,非遺項目→流傳地域→臨近地域→非遺項目→相關事物等。
基于D2RQ平臺所提供的SPARQL關聯數據語義查詢接口,用戶可直接編輯SPARQL查詢語言精確根據系統(tǒng)所構建的語義關聯檢索所需信息。非遺項目“龍鳳書”的類實例SPARQL查詢檢索頁面如圖6所示。
5 結語
本文提出了一種基于關聯數據的非遺知識語義化組織方法,基于所構建的非遺語義本體,實現了對非遺資源及其關聯關系的語義化揭示與組織,最后完成了一個原型系統(tǒng)的構建。該方法相對于傳統(tǒng)分類、主題等組織方法的優(yōu)點是:
(1)改變了傳統(tǒng)分類組織、主題組織等單線索式的組織模式,實現對非遺知識基于其表現形式、人物、地域、相關事件、相關事物的多線索的有序管理,彌補了傳統(tǒng)的單線索的分類組織方法功能上的缺陷。
(2)基于關聯數據的非物質文化遺產語義化組織系統(tǒng)改變了傳統(tǒng)信息組織系統(tǒng)的封閉性,成為了一個開放的系統(tǒng)。基于RDF Dump協(xié)議或SPARQL協(xié)議能夠便捷的向外界開放系統(tǒng)內的知識內容,同時也能將外部基于關聯數據組織的知識數據靈活的與系統(tǒng)內數據進行關聯整合,可形成一個可無限擴展的非遺知識網絡,向用戶提供一個統(tǒng)一的蘊含豐富非遺知識元及其語義關聯關系的知識視圖。
(3)基于RDF和非遺語義本體強大的語義描述能力,對非遺領域豐富的知識元以及知識元之間的語義關系進行了充分的揭示,為上層非遺領域的專家系統(tǒng)、知識推理等語義服務奠定了堅實的基礎。
在后續(xù)研究中,將在非遺資源的語義化組織基礎之上進一步研究基于關聯數據知識組織系統(tǒng)的非遺資源的知識挖掘,例如基于規(guī)則庫等方法的非遺知識推理與挖掘方法,同時構建基于自然語言的語義知識檢索系統(tǒng),讓系統(tǒng)更加實用化。
(本文責任編輯:孫國雷)endprint