国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非遺圖像語義信息本體構建及其關聯(lián)數(shù)據(jù)存儲和發(fā)布研究

2021-06-07 08:08朱學芳王若宸
現(xiàn)代情報 2021年6期
關鍵詞:非物質文化遺產(chǎn)多媒體

朱學芳 王若宸

關鍵詞:非物質文化遺產(chǎn);圖像語義;多媒體;領域本體;關聯(lián)數(shù)據(jù);存儲和發(fā)布

圖像元數(shù)據(jù)是對于數(shù)字圖像中的描述對象內容如色彩、幾何形狀、紋理、空間位置、背景以及所產(chǎn)生的深層情感等,用于圖像資源的分割、語義信息抽取與理解,幫助非遺數(shù)據(jù)資源準確而高效地存儲在數(shù)據(jù)庫中,進而用于網(wǎng)絡共享、交互和計算機管理,便于查詢使用。各個非遺項目所使用的元數(shù)據(jù)標準不盡相同,雖然它們的某些核心條目可以相互復用,但是并不完全兼容,在互操作時有很大困難,帶來了不同資源的異構性問題,而本體(On.tology)是在知識層面上對信息進行語義組織,是形成關聯(lián)數(shù)據(jù)的核心機制.可以解決數(shù)據(jù)異構問題。中外對領域本體的構建根據(jù)對已有成熟元數(shù)據(jù)集的復用程度可以劃分為兩個層次,即對成熟本體的借鑒和構建全新的領域本體。

在對已有的成熟本體借鑒方面,CIDOC CRM是專門面向非物質文化遺產(chǎn)(Intangible Cultural Hefit.age,ICH,簡稱非遺)的元數(shù)據(jù)標準,在非遺語義描述領域具有廣泛的適用性。Binding C等在CI.DOC模型的基礎上.使用自然語言處理技術通過藝術建筑敘詞表AAT(Art&Architecture Thesaures)形成實例填充,完成面向多語種的考古領域實體構建:Felicetti A等使用CIDOC CRM對古籍中的相關概念進行編碼建模.并以此為基礎創(chuàng)建新類拓展為新的CRMtex本體用于對古文本語義信息進行組織聚合。國內的非遺語義信息組織研究中同樣有很多對該模型的復用,董坤在2014年提出了基于關聯(lián)數(shù)據(jù)的非遺語義化組織框架.在CIDOC基礎上新構建符合國情特色的非遺相關類,并利用D2RQ平臺進行發(fā)布以供SPARQL或HTML瀏覽器調用。談國新等參考并簡化CIDOC模型,并與W3C指定的視頻、語音、數(shù)據(jù)等多媒體資源語義模型相結合,以我國非遺“度戒”為例構建了多層的資源描述體系。

在全新的領域本體構建方面,早在2003年Baca M就以視覺資源核心類目(VRA Core Catego.ries)為基礎提出了關于藝術文化建筑遺產(chǎn)的元數(shù)據(jù)標準,同時還提供了針對物質文化遺產(chǎn)的描述詞表。許鑫等以都柏林核心(DC)元數(shù)據(jù)為核心,根據(jù)我國非遺資源的特色進行擴展,并通過RDF/XML實現(xiàn)該本體的實例化,最后以美術工藝品“甌塑”為例,構建本體模型,進行實證研究。除此之外,還有其他國內關于非物質文化遺產(chǎn)語義組織的論文同樣采用自行構建的領域本體。

本文遵循本體開發(fā)流程,設計并實現(xiàn)面向非遺圖像的領域本體,從關聯(lián)信息中挖掘得到的關鍵字段以形式化的規(guī)范方式進行表達,構建圖像語義信息本體關聯(lián)數(shù)據(jù)集,再利用關系數(shù)據(jù)庫對這些數(shù)據(jù)進行存儲,并利用語義映射軟件進行關聯(lián)數(shù)據(jù)發(fā)布.為非遺圖像語義信息提供更加智能便利的展示及瀏覽服務方式。

1非遺數(shù)字圖像本體構建

非遺本體的應用場景,有別于其他研究中構建好的關于非遺的本體,本文提出的本體,是以“非遺一圖像”的二元概念為核心.該二元組展現(xiàn)出非遺項目與圖像資源的一對多關系.除此之外通過對象屬性(Obiect Property)連接附屬的核心元素,構建一個非遺數(shù)字圖像資源的本體.實現(xiàn)“圖文互聯(lián)”,改變現(xiàn)有網(wǎng)站中單一排序的非遺圖文介紹方式,以更加豐富生動的方式將非遺項目展現(xiàn)給瀏覽者。除此之外,對于我國非物質文化的建設者來說,可以利用該本體展現(xiàn)出的知識圖譜迅速了解某一項非遺的基本情況,明確改動的要點,增強可擴展性。

1.1概念體系構建

在本文中設計的本體名為“非遺圖像資源本體”,是對非物質文化遺產(chǎn)和關聯(lián)圖像及其相關要素進行高度概括抽象而形成的形式化知識共享模型。根據(jù)我國現(xiàn)有的非遺網(wǎng)站的布局情況,與非遺相關的條目有編號、時間、類別、地區(qū)、傳承人、相關項目等,以及上下文信息,另外根據(jù)侯西龍等、談國新等對非遺本體的相關研究,與非遺項目相關的類目共同包含了類型、地區(qū)位置、時間、傳承人等類,因此本文借鑒現(xiàn)有權威網(wǎng)站的編排格式以及學者們的研究,設立了非遺項目(ICH.Proiect)、傳承對象(Inheritor)、相關地點(Loca.tion)、相關事件(Event)、相關時間(Time)以及圖像(Image)等幾個類別的關聯(lián)模型,以此來描述非遺圖像相關資源。

關于對可復用本體的考察:CIDOC CRM概念參考模型是專門用于文化遺產(chǎn)中的信息集成整合工具.它對世界范圍內廣大文化遺產(chǎn)相關文檔中的顯式和隱式概念關系給出了清晰的定義,提供了一套聚合來自多個異構源數(shù)據(jù)的方法,其中包含了E.vent(E5)、Activity(E7)、Image(E38)、Time-Span(E52)等多個與本文相關的類定義;FOAF(Ffiend-of-a-Friend)是一個專門用于描述Web上個體、組織相互之間協(xié)作關系的本體標準,其中包含了Agent、Person和Organization等與非遺相關的個體及組織類;另外,本文選用都柏林核心關于數(shù)字圖像資源的元數(shù)據(jù)標準對于圖像類的描述,而對于類之間剩余的關聯(lián)屬性及數(shù)據(jù)屬性,本文采用自定義的ich來作為命名空間。核心概念示意如表1所示。

依據(jù)模型中的核心概念,構建概念框架體系的結構如圖1所示,圖中共有非遺項目、主體、地理位置、事件、時間和圖片6個大類,它們構成了非遺項目與圖像資源知識組織的整體概念框架。其中非遺項目及圖片類是其核心類;主體類代表與非遺項目傳承相關的個人及組織.因此其下屬包含了傳承人類和責任機構類兩個子類:地理位置類為非遺項目發(fā)源或是所在的地點,下屬劃分出國家(地區(qū))、省、市、縣、鄉(xiāng)鎮(zhèn)5種行政區(qū)劃,用以標注不同行政等級的地區(qū):事件類指代與非遺項目相關的人類社會參與的事件.具體又可劃分出活動類和物理實體類,前者為非遺的具體化活動(如表演、書法等),后者為具有豐厚文化意義的物理承載實體(如竹席、剪紙畫等);時間類指代與非遺項目相關的時間節(jié)點或時間段.根據(jù)語義又可以劃分出具體時間(如1945年、1917-1965年等)和抽象時間(明末清初、解放后等)兩個子類。

1.2本體模型買現(xiàn)

在非遺圖像資源概念框架分析的基礎上,本文設計了相應的本體模型如圖1所示,共有非遺項目、圖像資源、主體等12個類,其中6個為子類。虛線表示類之間的對象屬性(為了使插圖整潔,這里并未畫出所有對象屬性),實線表示子類關系.復用了FOAF和CIDOC CRM兩個本體標準,ich表示本文自定義的非遺圖像本體命名空間。

在下面定義的6個大類之間建立對象屬性關聯(lián),梳理出非遺項目與傳承人及責任機構的關系、非遺項目與地理位置的關系、非遺項目與傳統(tǒng)文化事件的關系、非遺項目與非遺起源及傳承時間段的關系、非遺項目與圖像的關系、圖像與事件的關系以及個體與地理位置之間的關系等,如表2所示。根據(jù)本體中的量詞、數(shù)量和含值3種對類設定的約束,可以對本體中的知識元進行關聯(lián)和推理。

1.2.1非遺項目類

非遺項目類(ICHProiect)指代我國的4級非遺保護體系中的每一種非遺項目,根據(jù)非遺項目的申報書格式,其包含了地區(qū)、傳承人、物理實體等要素,而在本文中,根據(jù)研究的目的及需要,將上述元素歸并至其他類當中。中心節(jié)點(非遺項目類)關聯(lián)著其他5個類;除此之外,非遺項目類還包含了名稱、級別、批次、類別、編號以及簡介等數(shù)據(jù)屬性。其中級別指非遺項目所述的四級分類體系,批次指2005年以來4批非遺申報批次,簡介指非遺圖像的上下文信息以及其他在互聯(lián)網(wǎng)上爬取到的文字信息,內容包含基本內容、歷史沿革、存續(xù)情況、保護現(xiàn)狀等。

1.2.2主體類

傳承人(Person)和責任機構(Organization)兩個子類構成主體類(Agent)。任何非遺項目的存續(xù)都不可缺少傳承人的代代相傳和相關責任機構的記錄申報,傳承人類特指與某項非遺的學習表演、傳承發(fā)揚的藝人或工匠,其數(shù)據(jù)屬性包含傳承人的姓名、出生年月、性別、技能、簡歷等;責任機構為負責登記申報非遺項目的社會文化機構(例如省級圖書館和各市、縣非遺保護中心等),其數(shù)據(jù)屬性包含名稱、性質、地址等,其中性質指該組織團體為圖書館、博物館、檔案館、文化中心或其他類型的文化機構。另外傳承人與責任機構還有“記錄”以及“隸屬”的關系。

1.2.3地理位置類

地理位置類(Location)是指非遺起源興盛的地域以及非遺傳承人的居住地址,考慮到非遺在自身發(fā)展的過程中可能會跨越多個地區(qū),因此將地理位置單獨設為一類。不同的行政區(qū)劃之間又存在隸屬關系(國家(地區(qū))、省、市、縣、鄉(xiāng)鎮(zhèn)),因此為該類分別設置5類對象屬性用以標注隸屬關系。

1.2.4事件類

事件類(Event)包含用于描述非遺項目中的文化活動類(Activity)和物理實體類(Form),這兩類是用以描述非遺核心內容的重要類,也是非遺數(shù)字圖像資源中最直接的內容概括描述,因此事件類與圖像類由對象屬性相關聯(lián)。

1.2.5時間類

時間類(TimeSpan)指描述非遺項目起源、發(fā)展的時間詞,其包含具體時間(TimeSpecific)與抽象時間(TimeAbstract)兩個子類。

1.2.6圖像類

圖像類(Image)是非遺項目中對民俗活動、民間藝術的最為直接的描繪媒介.本文復用都柏林核心中關于圖像的元數(shù)據(jù)標準對圖像的基本信息進行記錄,作為圖像類的數(shù)據(jù)屬性。后續(xù)對本體進行優(yōu)化時可以對圖像類增加更多復雜的元數(shù)據(jù)類型。如前文所述,除了類之間的對象屬性之外,一些核心類自身也擁有數(shù)據(jù)屬性,并成為實例化之后的詳細數(shù)據(jù)說明,表3列出了本體模型中所有的數(shù)據(jù)屬性以及其定義域及值域。

最終,在非遺項目及其數(shù)字圖像構建的本體模型構建的基礎上,利用本體專業(yè)開發(fā)工具Pmtege5.5.013進行本體模型的構造和實現(xiàn).完成的本體模型中包含6個核心類、6個子類、19個對象屬性以及21個數(shù)據(jù)屬性。使用Pmtege中的模型可視化組件OntoGraf對模型進行繪制,結果如圖2所示,其中,實線表示子類,虛線表示對象屬性,數(shù)據(jù)屬性省略未列出。

2非遺數(shù)字圖像本體的實例化

在建立好非遺圖像資源的本體模型之后,為驗證本體內部邏輯的一致性和可行性,詳細展現(xiàn)知識內在的豐富關聯(lián),本節(jié)將進一步在已有的模型之上獲取數(shù)據(jù)并添加實例。

本節(jié)以山西省傳統(tǒng)音樂非遺項目為例,獲取相關的非遺項目、數(shù)字資源等信息,構建實例集。數(shù)據(jù)來源選取中國非物質文化遺產(chǎn)網(wǎng)以及山西省人民政府網(wǎng)中的非遺專題欄目,先進行關鍵詞的提取,然后依據(jù)第1節(jié)中的模型的字段類別對信息進行整理和清洗。共提取“從河曲民歌”到“左權開花調”15項山西省傳統(tǒng)非遺音樂項目及其相關信息。參考中國藝術研究院的相關敘詞表,確保在模型中使用一致的專業(yè)名詞,如“鑼鼓”“嗩吶”“佛樂演奏”和“道樂演奏”等。

將獲取并整理好的示例數(shù)據(jù)暫以Excel格式進行存儲,將數(shù)據(jù)導入至Protege工具中進行實例化,最終形成123個實例、圍繞非遺項目和數(shù)字圖像資源的三元組共759個.以.owl格式進行存儲,構成關系復雜的語義網(wǎng)絡,在Protege OntoGraf中繪制實例化模型如圖3所示(為了整潔圖中僅顯示部分實例之間的關聯(lián))。圖3中,圓形和菱形分別表示類和與類相關聯(lián)的實例,實線表示類與實例間和父類與子類間的兩種關聯(lián),虛線表示類間的對象屬性以及實例間的對象屬性。點擊某個實例時,會自動顯示關聯(lián)的數(shù)據(jù)與對象屬性。

3關聯(lián)數(shù)據(jù)的存儲

在本節(jié)中,將從實踐層面上,對本體模型中的實例數(shù)據(jù)實現(xiàn)存儲與語義組織.以便后續(xù)進行關聯(lián)數(shù)據(jù)的發(fā)布。

在第2節(jié)獲取的數(shù)據(jù)是以實例的形式保存在本地的.owl文件中,但這種存儲格式在以后難以修改,資源實體間的關系難以進行規(guī)范,故本文采用關系型數(shù)據(jù)庫MySQL對所有語義信息進行有序存儲和管理。

RDF數(shù)據(jù)存儲作為在關系型數(shù)據(jù)庫中可能的存儲模式探討以來,出現(xiàn)了3種RDF存儲結構,即水平結構、垂直結構和多元結構,前兩種結構的一個共同點是將所有的示例數(shù)據(jù)和屬性存儲在一張表上,會導致數(shù)據(jù)的冗余,且難以進行管理,在查詢時間上也落后于第3種方法。而多元結構模式則是以一個類為一張表.把表之間的連接操作當做類之間的關聯(lián)屬性,經(jīng)過驗證,第3種方式占用的空間最少且具有最短的查詢時間。

3.1數(shù)據(jù)庫概念模型設計

E-R圖被用來描述現(xiàn)實世界中實體、屬性及其聯(lián)系,與本體模型圖具有一定的相似性,且經(jīng)常被用在數(shù)據(jù)庫模型的設計中,是概念模型的一種表現(xiàn)方式。在實際的數(shù)據(jù)庫建設過程中,合并具有相似屬性結構的子類:形式(Form)和活動(Activity)、抽象時間(TimeAbstract)和具體時間(TimeSpe.cific),以其父類統(tǒng)一指代,而由于傳承人(Per.son)和責任機構(Organization)類結構不同且相互之間有關聯(lián),故仍將其歸為子類,省略父類個體(Agent)。將本體模型經(jīng)過略微調整轉化而成的E—R圖如圖4所示(已省略屬性)。

在E-R圖中,共有7個類別,核心類“非遺項目”通過不同的聯(lián)系與其他6個大類相連,其他類之間也存在著關聯(lián)關系:同一項非遺項目可以擁有多個傳承人,包含多張數(shù)字圖像,但反之不亦然,故呈“一對多”關系(1:N);每個非遺項目可以被多個責任機構申報,可以存在于多個地區(qū),可以在歷史上有多個關鍵時間段.也可以承載多種類型的事件,并且反之亦然.故呈多對多的關系(M:N);此外,傳承人與責任機構和地理位置、責任機構與地理位置、事件與圖像也存在多種關系。本文根據(jù)從E-R圖向關系模型轉化映射的原則在數(shù)據(jù)庫中建立了12個表,通過引入外鍵將其兩兩鏈接。

3.2數(shù)據(jù)庫物理表建設

本文進行數(shù)據(jù)存儲的DBMS服務器為MySQL5.7.19 Community Server,搭配數(shù)據(jù)庫可視化軟件Navicat對物理表進行直接操作。以核心類非遺項目為例,轉化為表ich,包括非遺項目編號、項目名稱、等級、官方編號、申請批次、項目類別以及項目簡介等屬性字段,詳細信息如表4所示,另外還有其他表分別表示一對多和多對多關系,結構與文中列出的表格類似,不再贅述。

4關聯(lián)數(shù)據(jù)的發(fā)布

4.1從關系表到關聯(lián)數(shù)據(jù)的映射

D2RQ是目前應用較為廣泛的RDF文件映射平臺,它可以通過創(chuàng)建虛擬RDF圖的方式來訪問關系型數(shù)據(jù)庫.借助核心mapping機制文件將關系數(shù)據(jù)庫的機構轉化為RDF格式的文件。再通過其中的D2R Server對關聯(lián)數(shù)據(jù)進行發(fā)布,讓用戶可以使用http瀏覽器查看存儲在關系數(shù)據(jù)庫中的RDF數(shù)據(jù)。另外D2R Server還附帶了使用SPARQL語句對RDF文檔進行手動查詢的endpoint斷點,借助這一功能可以將SPARQL語句進行封裝,以供可視化分析界面使用。本文使用的是D2RQ-0.8.1版本,首先建立數(shù)據(jù)庫物理二維表至RDF三元組的映射,借助D2RQ的mapping功能.可以自動生成由表到圖的映射文件。

D2RQ映射功能的核心是其自身的映射語言,將關系數(shù)據(jù)庫轉化為Turtle格式的RDF文檔,根據(jù)其官方文檔,d2rq:ClassMaps和d2rq:Pmperty.Bridges是映射語言中的兩個核心屬性:前者將數(shù)據(jù)庫中的物理表轉化為本體模型中的類.而后者則將表中每一列字段轉化為本體中的對象和數(shù)據(jù)屬性。以數(shù)據(jù)庫的ich和person表為例,映射框架如圖5所示。

4.2非遺關聯(lián)數(shù)據(jù)的發(fā)布

使用D2RQ自帶的server發(fā)布功能,在命令行中輸入相關語句即可發(fā)布關聯(lián)數(shù)據(jù),使用瀏覽器在本地的“l(fā)ocalhost:2020”端口即可訪問,非遺數(shù)-字圖像語義信息發(fā)布平臺如圖6所示,即為關聯(lián)數(shù)據(jù)發(fā)布平臺首頁。頂端為導航欄,分別代表E-R圖中7個實體對應的物理表,而實體多對多的關聯(lián)表隱藏于實體表當中:下方信息表明該端口可以用http瀏覽器或語義網(wǎng)瀏覽器進行瀏覽,以及可以用SPARQL進行查詢。在非遺數(shù)字圖像語義信息發(fā)布平臺上,如圖6所示,逐個選擇導航欄中的實體,可以依次瀏覽事件、非遺項目、圖像、地理位置、機構和傳承人等實體內的所有內容的目錄,如圖7所示。

在用戶在非遺項目(ich)頁面上,任意選擇_一項非遺,即可進入詳細信息的頁面,查看該非遺項目的所有信息和關聯(lián)項。以列表形式顯示出的項目的相關信息,包含了項目批次(ich_batch)、類別(ich_category)、簡介(ich_description)、編號(ichjd)、等級(ich_rank)和名稱(ich_title)等自相關的字段。除此之外,與其他實體關聯(lián)的字段,包含項目事件(event-ich)、項目圖像(image-ich)、項目地理位置(loc-ich)、項目傳承人(personjch)和項目關聯(lián)時間段(time-ich),則是以URI地址鏈接的形式呈現(xiàn),體現(xiàn)出關聯(lián)數(shù)據(jù)相互連接的特性,如果點擊這些鏈接,就會跳轉至對應的實體頁面中.如圖8所示,在跳轉后的頁面中仍可以繼續(xù)點擊其他實體的URI地址鏈接,實現(xiàn)數(shù)據(jù)的互聯(lián),同時,若某地區(qū)或某機構存在兩個以上的非遺項目,也可以從這種視圖上挖掘得到。通過非線性的跳轉方式,將實例數(shù)據(jù)進行可視化關聯(lián).能得到比直接在數(shù)據(jù)庫中瀏覽更好的視覺效果.還可以幫助瀏覽者挖掘深層次的語義關聯(lián)信息(如同一地點存在的所有非遺文化項目、多個非遺項目蘊含了共有的承體情況等),比現(xiàn)有項目的單一線性化組織更加便利和智能。

5結語

本文首先在所要建立的本體的概念分析基礎之上,考察可以復用的本體標準,給出構成本體的概念結構體系,遵循本體的開發(fā)流程.為非物質文化遺產(chǎn)及其圖像語義信息設計了一個本體模型,并在模型編輯軟件Protege中完成了模型的開發(fā).以及后續(xù)的數(shù)據(jù)收集和實例化。其次在本體及其實例化的基礎上,設計了E-R概念模型圖并使用關系數(shù)據(jù)庫管理系統(tǒng)MySQL創(chuàng)建表格存儲收集到數(shù)據(jù)。最后,借助RDF虛擬映射平臺D2RQ將數(shù)據(jù)庫物理表轉化為RDF格式的文檔,并實現(xiàn)關聯(lián)數(shù)據(jù)的發(fā)布和查詢。為非遺圖像資源建立了復雜語義網(wǎng)絡的雛形,為將來進一步的多媒體領域本體研究拋磚引玉。在以圖像為基礎的本體上,未來還可以增加多模態(tài)的項目展示方式(如音頻、視頻、虛擬現(xiàn)實等)。

猜你喜歡
非物質文化遺產(chǎn)多媒體
借助多媒體探尋有效設問的“四度”
多媒體在《機械制圖》課中的應用
初中化學因多媒體而綻放光彩
巧用多媒體 讓課堂練筆更加有效
多媒體達人煉成記
適切 適時 適度——說說語文課堂的多媒體使用
阿拉尔市| 和林格尔县| 伊宁市| 襄垣县| 河东区| 绵阳市| 综艺| 章丘市| 和硕县| 莲花县| 仁怀市| 桓仁| 隆林| 特克斯县| 临邑县| 南澳县| 万盛区| 江油市| 武冈市| 潼南县| 岳阳市| 获嘉县| 安化县| 远安县| 海盐县| 博湖县| 惠来县| 城固县| 辰溪县| 和平区| 江北区| 永济市| 宁强县| 定襄县| 锦州市| 高州市| 长顺县| 郧西县| 宜都市| 年辖:市辖区| 普安县|