藝術(shù)圖像知識圖譜構(gòu)建初探*

2022-02-07 10:30鐘遠(yuǎn)薪夏翠娟

圖書館論壇 2022年2期

鐘遠(yuǎn)薪，夏翠娟

0 引言

美學(xué)家阿萊斯·艾爾雅維茨(Ales Erjavec)在經(jīng)典著作《圖像時代》開篇即說：“我從不閱讀，只是看看圖畫而已?！盵1]人類文化一直是伴隨著圖像的演化而發(fā)展的，在思維發(fā)展史上，圖像式思維早于抽象性思維[2]。海德格爾說，現(xiàn)代社會不僅是一個“技術(shù)的時代”，更是一個“圖像的時代”[3]。我們正經(jīng)歷著深刻的文化轉(zhuǎn)型，即由傳統(tǒng)的以語言為中心的印刷文化向當(dāng)代的以形象為中心的視覺文化轉(zhuǎn)型[4]，也就是所謂的“圖像轉(zhuǎn)向”。信息技術(shù)革命使圖像成為大眾傳播、藝術(shù)文化和社會發(fā)展的核心要素之一。

毋庸置疑，和語言、文本一樣，藝術(shù)圖像同樣是重要的文化遺產(chǎn)和文化符號，它以一種更為直接的方式記錄和塑造著人類文明。對藝術(shù)圖像的研究和解讀，構(gòu)成了藝術(shù)學(xué)、宗教學(xué)、人類學(xué)、歷史學(xué)甚至文學(xué)的重要組成部分。今天的藝術(shù)研究與傳播已經(jīng)由“讀圖”轉(zhuǎn)向“讀屏”、由“單件”變?yōu)椤凹稀?、由“感觀”融合“數(shù)據(jù)”，深刻地改變藝術(shù)闡釋，也“勾勒出當(dāng)代藝術(shù)的形狀，并最終為公眾體認(rèn)當(dāng)代藝術(shù)提供有效途徑”[5]。那么，對美術(shù)館、圖書館、檔案館、博物館(Galleries，Libraries，Archives and Museums，GLAM)而言，將館藏藝術(shù)圖像進(jìn)行數(shù)字化并充分地標(biāo)引，建成開放的圖像數(shù)據(jù)庫，就是時代賦予的使命。因此，開展藝術(shù)圖像建庫研究，探討其數(shù)據(jù)規(guī)范、技術(shù)方法和服務(wù)方式，從而為相關(guān)實踐提供參考，顯得尤為重要，并且隨著數(shù)字人文的勃興與人文學(xué)科的融合發(fā)展，“知識大融通”不僅是一種夢想，而是一種亟待解決的需求[6]。

1 相關(guān)回顧

1.1 藝術(shù)圖像

圖像是通過攝影或繪畫形成的二維形象[7]，是人類最常用的信息載體之一。藝術(shù)圖像是一種美的創(chuàng)作，視覺化地記錄了人類文明進(jìn)程，它的生產(chǎn)與消費始終是人類社會生活中最基本的傳播活動，是凝聚社會的一股無形力量[8]。作為一種文化傳播與交流的工具，藝術(shù)圖像可以直觀、真實地記錄特定歷史時期和社會空間的人類實踐活動和精神追求，起到了文化傳承和文明象征的作用。

藝術(shù)圖像具有重要價值。一是審美價值。藝術(shù)是對美的追求，藝術(shù)圖像的創(chuàng)作體現(xiàn)了人們對美的認(rèn)識，其美學(xué)價值多元，不僅在藝術(shù)門類交叉與互融的學(xué)術(shù)研究中發(fā)揮積極作用，更在藝術(shù)學(xué)理論建設(shè)中具有重要地位[9]。二是文化價值。潘諾夫斯基(Erwin Panofsky)認(rèn)為一件藝術(shù)作品展示的是一個國家、一個時期、一個階級、一種宗教信仰或哲學(xué)信念的基本態(tài)度[10]。藝術(shù)圖像反映了不同文化的宇宙觀、生命觀和價值觀，卻又突破了不同語言的藩籬，使文化得以交流。三是史料價值?！爸脠D于右，置書于左，索象于圖，索理于書?！盵11]中國一直以來有著圖文互文的傳統(tǒng)；而在文藝復(fù)興中，美術(shù)的復(fù)興貫穿始終。通過對藝術(shù)圖像的斷代、內(nèi)容分析、風(fēng)格判斷和技法鑒賞，可以發(fā)現(xiàn)歷史的留存。

1.2 藝術(shù)圖像建庫

數(shù)字時代為藝術(shù)圖像的保存和利用提供了新的工具和環(huán)境。早在1986年，加州大學(xué)伯克利分校就開始建設(shè)一套圖像數(shù)據(jù)庫，實現(xiàn)藝術(shù)品館藏的處理、檢索和瀏覽[12]。之后，藝術(shù)圖像數(shù)據(jù)庫不斷涌現(xiàn)，極大地豐富了人們獲取藝術(shù)圖像資料的來源，使研究者可以從文獻(xiàn)記載和親身所見的局限中脫離出來，通過數(shù)據(jù)庫得到更為豐富、系統(tǒng)的視覺把握，促進(jìn)了藝術(shù)學(xué)等學(xué)科的發(fā)展與突破，也使普通民眾得以感受優(yōu)秀藝術(shù)作品的魅力，促進(jìn)了文化遺產(chǎn)的大眾傳播。

在研究領(lǐng)域，藝術(shù)圖像建庫主要涉及圖像數(shù)字化、元數(shù)據(jù)規(guī)范、圖像標(biāo)注、語義組織與案例研究等方面。1987年，阿斯姆斯(Asmus，J.F.)等介紹《蒙娜麗莎》的數(shù)字化處理工作[13]，成為藝術(shù)圖像數(shù)字化研究的開端。元數(shù)據(jù)規(guī)范作為核心內(nèi)容，產(chǎn)生了CIDOC概念參考模型(CIDOC CRM)、視覺資源協(xié)會核心類目(VRA Core)、藝術(shù)作品描述類目(CDWA)、藝術(shù)品與文化遺產(chǎn)數(shù)據(jù)傳輸項目(REACH)、歐盟博物館藏品元數(shù)據(jù)集(AMS)、美術(shù)圖像數(shù)字化元數(shù)據(jù)標(biāo)準(zhǔn)等主要成果[14-19]。圖像標(biāo)注方面，約翰·P·艾金斯(John P Eakins)首次提出三層模型[20]，形成圖像語義標(biāo)注的基本標(biāo)準(zhǔn)；徐雷等以九色鹿本生故事畫為例提出敘事型圖像的語義標(biāo)注模型[21]；陳濤等基于IIIF框架探索圖像、對象和語義的三層標(biāo)注方法[22]。語義組織方面，涵蓋本體設(shè)計、關(guān)聯(lián)數(shù)據(jù)應(yīng)用等內(nèi)容，如梁艷琪構(gòu)建繪畫類文物的分類本體并進(jìn)行了語義融合研究[23]、李劍等探討美術(shù)品關(guān)聯(lián)數(shù)據(jù)的聚合[24]。在理論研究基礎(chǔ)上，默多克(Murdoch，J.W.)等介紹阿伯丁藝術(shù)畫廊影像數(shù)據(jù)庫的建設(shè)和維護(hù)過程[25]，吳健等分享敦煌藝術(shù)圖像數(shù)據(jù)庫建設(shè)的技術(shù)架構(gòu)、規(guī)范標(biāo)準(zhǔn)等信息[26]，童茵等剖析上海博物館董其昌數(shù)字人文項目[27]。

在實踐領(lǐng)域，影響最大的是谷歌藝術(shù)與文化(Google Arts&Culture，原Google Art Project)，2011年由Google聯(lián)合歐美17家博物館共建，旨在保護(hù)和傳播世界藝術(shù)與文化[28]。該項目已為紐約現(xiàn)代藝術(shù)博物館、大英博物館、故宮博物院等全球超過2，000家文化機(jī)構(gòu)托管1.3萬多位藝術(shù)家的600萬張高清藝術(shù)圖像并免費開放。最有代表意義的是蓋蒂研究門戶(Getty Research Protal)[29]，共有來自蓋蒂研究所和保羅·蓋蒂博物館的圖像、手稿等記錄24萬余條，其中可自由下載和使用的圖片超過10萬張，還提供敘詞表、書目索引、藝術(shù)史文本等一系列研究內(nèi)容和IIIF、Arches等開源軟件，項目伴生的藝術(shù)作品描述類目(CDWA)是利用最廣泛的藝術(shù)元數(shù)據(jù)框架。在國內(nèi)，具有世界影響力的首屬“數(shù)字敦煌”，該項目1990年代開始實施，向全球免費共享30個洞窟的高精度數(shù)字圖像和全景漫游節(jié)目[30]。此外，許多高校開展藝術(shù)圖像建庫工作[31-33]。值得一提的是，不少企業(yè)利用購買和免費獲取的藝術(shù)圖片開發(fā)一系列商業(yè)數(shù)據(jù)庫，成為藝術(shù)圖像建庫中的一股重要力量。

縱觀研究與實踐，藝術(shù)圖像建庫緊隨時代發(fā)展潮流，在理論探討、技術(shù)研究、數(shù)據(jù)處理和實踐應(yīng)用等方面均取得了進(jìn)步，滿足了學(xué)術(shù)發(fā)展和文化消費的基本需求。從國內(nèi)外對比看，國內(nèi)處于追隨階段，尤其在資源開放利用方面裹足不前、差距明顯。開放理念的缺失和新技術(shù)應(yīng)用能力的不足，導(dǎo)致國內(nèi)藝術(shù)圖像建庫低水平建設(shè)、重復(fù)建設(shè)和利用率低等問題。

2 藝術(shù)圖像知識圖譜

2.1 知識圖譜技術(shù)及其應(yīng)用

2.1.1 知識圖譜及其關(guān)鍵技術(shù)為提高搜索質(zhì)量和用戶體驗，2012年Google提出知識圖譜概念，基于知識庫對關(guān)鍵詞進(jìn)行概念和屬性關(guān)系的分析，試圖更好地理解用戶搜索意圖，以幫助用戶找到正確的東西(Thing)，并提供與結(jié)果有知識聯(lián)系的內(nèi)容。與信息計量學(xué)領(lǐng)域“科學(xué)知識圖譜”(Mapping Knowledge Domains)不同，知識圖譜是一種大規(guī)模語義網(wǎng)絡(luò)，包含實體、概念及其之間的各種語義關(guān)系[34]，它既是一套人工智能技術(shù)體系，也是一種知識組織和表達(dá)的模式，同時還是一類大規(guī)模的開放知識庫。

知識圖譜的關(guān)鍵技術(shù)基礎(chǔ)之一是語義網(wǎng)技術(shù)的發(fā)展。2001年蒂姆·伯納斯-李(Tim Berners-Lee)等介紹RDF知識表示方法、本體論、智能代理等關(guān)鍵內(nèi)容[35]，奠定了語義網(wǎng)的基礎(chǔ)。隨后W3C發(fā)布RDF、OWL、SPARQL等一系列標(biāo)準(zhǔn)來推動語義網(wǎng)落地。2006年關(guān)聯(lián)數(shù)據(jù)(Linked Data)被提出以簡化語義網(wǎng)的實現(xiàn)路徑[36]，得到廣泛應(yīng)用并深刻地改變了互聯(lián)網(wǎng)。知識圖譜的另一關(guān)鍵技術(shù)基礎(chǔ)是大規(guī)模知識庫的建立。DBpedia、YAGO、Freebase等大型通用知識圖譜主要源自維基百科；中文通用百科知識圖譜(CN-DBpedia)和中文通用概念知識圖譜(CNProbase)主要從中文百科網(wǎng)站提取信息；ConceptNet、GeoNames、BabelNet、百度知心、搜狗知立方等均以不同知識庫為基礎(chǔ)。

知識圖譜技術(shù)可分為知識獲取與處理、知識建模與存儲、知識計算與應(yīng)用等3個體系(見圖1)。知識圖譜一般從各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取出實體、屬性、關(guān)系等知識要素，然后進(jìn)行實體對齊、知識聚類、知識補全等處理。知識建模與存儲主要包括知識本體構(gòu)建、RDF圖模型和屬性圖模型、圖數(shù)據(jù)存儲等內(nèi)容。知識計算與應(yīng)用則包括知識查詢與推薦、知識推理與問答、知識挖掘與可視化等相關(guān)技術(shù)與應(yīng)用。

圖1 知識圖譜體系框架圖

知識圖譜有自頂向下(top-down)和自底向上(bottom-up)兩種構(gòu)建方式。自頂向下是先為知識圖譜定義好本體與數(shù)據(jù)模式，再將實體加入到知識庫。自底向上是從一些開放關(guān)聯(lián)數(shù)據(jù)中提取出實體，選擇其中置信度較高的加入到知識庫，再構(gòu)建頂層的本體模式[37]。知識圖譜的體系框架圖很好地展示了其構(gòu)建的基本過程。

2.1.2 GLAM領(lǐng)域應(yīng)用

知識圖譜的價值在于大規(guī)模、富有語義且可復(fù)用，天然契合GLAM的價值取向，因此很快被應(yīng)用于實踐，形成了許多成果。在國外，薩德菲(SadeghiAfshin)等整合DPLP、Microsoft Academic Graph等多源數(shù)據(jù)以構(gòu)建學(xué)術(shù)交流領(lǐng)域知識圖譜進(jìn)行學(xué)者分析與評價[38]；奧德曼(Oldman Dominic)等通過建立知識圖譜為大英博物館研究社區(qū)的研究者提供更好的知識庫支持[39]；卡里略(Carriero Valentina Anita)利用包含82萬個文化實體共1.69億個三元組的知識圖譜ArCo論證其在文化遺產(chǎn)保護(hù)工作中的重要性和影響力[40]。在國內(nèi)，楊海慈等借助知識圖譜對宋代學(xué)術(shù)傳承和宋代政治網(wǎng)絡(luò)進(jìn)行可視化展示[41]；劉芳等從知識抽取、知識融合、知識存儲和知識應(yīng)用4個方面設(shè)計國家博物館藏品知識圖譜，研究關(guān)鍵技術(shù)問題[42]；胡吉穎等基于中國科學(xué)院文獻(xiàn)情報中心海量數(shù)據(jù)構(gòu)建科技大數(shù)據(jù)學(xué)術(shù)圖譜，實現(xiàn)了10類科研實體的智能語義搜索和多維知識的集成發(fā)現(xiàn)[43]。

GLAM大規(guī)模、規(guī)范和結(jié)構(gòu)化的館藏記錄是知識圖譜高質(zhì)量知識數(shù)據(jù)的主要來源。知識圖譜在GLAM的應(yīng)用以構(gòu)建和發(fā)布知識庫為主，更關(guān)注本體設(shè)計、知識存儲和知識消費等基礎(chǔ)環(huán)節(jié)和利用場景，較少涉及知識抽取、知識融合及知識推理等技術(shù)內(nèi)容，呈現(xiàn)出明顯的領(lǐng)域特色，也昭示了GLAM在知識圖譜生態(tài)體系中不可或缺的重要地位。推動知識圖譜技術(shù)在GLAM的應(yīng)用，不僅能促進(jìn)館藏資源的充分揭示、提升資源服務(wù)水平，也能推動知識圖譜與人工智能的發(fā)展。

2.2 藝術(shù)圖像知識圖譜構(gòu)建可行性分析

從技術(shù)條件看，知識圖譜發(fā)展?jié)u趨成熟，雖然在知識融合、知識加工和知識表達(dá)等環(huán)節(jié)還有一些關(guān)鍵問題有待突破，但其構(gòu)建的整個生命周期都有豐富的開源工具，足以滿足實踐應(yīng)用的需求。同時，本體建模、RDF、關(guān)聯(lián)數(shù)據(jù)等基礎(chǔ)技術(shù)早已在GLAM領(lǐng)域得到廣泛應(yīng)用，知識圖譜的技術(shù)思想與GLAM領(lǐng)域的資源組織理念高度一致，因此采用知識圖譜來解決藝術(shù)圖像建庫的知識化和開放性問題是最為清晰的路徑之一。近年GLAM領(lǐng)域知識圖譜的實踐充分證明了藝術(shù)圖像知識圖譜構(gòu)建的技術(shù)可行性。

從數(shù)據(jù)基礎(chǔ)看，經(jīng)過長期積累，收藏機(jī)構(gòu)已基本完成所藏藝術(shù)圖像的編目，部分機(jī)構(gòu)還開展了數(shù)字化掃描和深度標(biāo)引工作，奠定了內(nèi)部數(shù)據(jù)基礎(chǔ)。互聯(lián)網(wǎng)則提供了良好的外部數(shù)據(jù)環(huán)境，世界上各大機(jī)構(gòu)已經(jīng)發(fā)布許多相關(guān)數(shù)據(jù)集，如蓋蒂的藝術(shù)與建筑敘詞表(Art&Architecture Thesaurus)和藝術(shù)家聯(lián)合目錄(The Union List of Artist Names)，Google的谷歌藝術(shù)數(shù)據(jù)接口(Google Art Wrapper)，還有大量的概念圖譜、人物圖譜以及通用知識圖譜。這些數(shù)據(jù)集可以有力地支撐本地數(shù)據(jù)的連接、補全與融合。

從應(yīng)用需求看，新環(huán)境下GLAM面臨著對藝術(shù)圖像進(jìn)行高質(zhì)量管理和服務(wù)的挑戰(zhàn)。進(jìn)一步推動藝術(shù)圖像資源的建庫和開放，才能響應(yīng)數(shù)字人文與新文科發(fā)展的號召，更好地滿足科研教育、文化娛樂、商業(yè)服務(wù)等行業(yè)獲取藝術(shù)圖像數(shù)據(jù)的需求。時代的發(fā)展也在呼吁增加高質(zhì)量文化資源供給，以豐富民眾的文化生活，促進(jìn)文化遺產(chǎn)的保護(hù)與傳承。

3 案例研究

3.1 S藝術(shù)數(shù)據(jù)庫簡介

S藝術(shù)數(shù)據(jù)庫是一個采集、購買經(jīng)典美術(shù)作品并進(jìn)行深度加工和系統(tǒng)整理而形成的商業(yè)藝術(shù)圖像數(shù)據(jù)庫，旨在為藝術(shù)教育與文化傳播提供藝術(shù)圖像資源、促進(jìn)藝術(shù)教育的普及、推動社會美育和新型公共文化服務(wù)體系的發(fā)展。2016年S藝術(shù)數(shù)據(jù)庫建成并向100多家圖書館提供藝術(shù)圖像檢索、瀏覽和下載服務(wù)。目前該庫收錄了古今中外包括油畫、素描、雕塑、國畫、書法、傳統(tǒng)壁畫等27個大類15萬余件高清藝術(shù)作品，整理了全球1.3萬多位藝術(shù)名家和4，000余家藝術(shù)機(jī)構(gòu)的信息，同時提供藝術(shù)專題、作品解讀、線下展覽等增值服務(wù)。

3.1.1 系統(tǒng)功能

S藝術(shù)數(shù)據(jù)庫由管理平臺和用戶服務(wù)平臺兩部分構(gòu)成。管理平臺提供資源處理和系統(tǒng)管理功能，用戶服務(wù)平臺包括藝術(shù)圖片、藝術(shù)家、藝術(shù)機(jī)構(gòu)三大核心功能，故事、主題、展覽等聚合功能，藝術(shù)時期、藝術(shù)類型、風(fēng)格流派、國別等分面功能，其系統(tǒng)架構(gòu)見圖2。

圖2 S藝術(shù)數(shù)據(jù)庫系統(tǒng)架構(gòu)圖

3.1.2 元數(shù)據(jù)設(shè)計

S藝術(shù)數(shù)據(jù)庫的數(shù)據(jù)描述基于都柏林核心元數(shù)據(jù)集(DCMES)制定，共分藝術(shù)品、藝術(shù)家、藝術(shù)機(jī)構(gòu)3個主表，國家、時期、藝術(shù)詞典、藝術(shù)資訊、藝術(shù)主題、風(fēng)格流派等近10個附表，以及10多個輔助橋表。以藝術(shù)品為例，設(shè)置唯一編號、作品名稱、作者、作品類型、材質(zhì)技術(shù)、作品尺寸、釋文、款識、鈐印、鑒藏印、簡介、注解、創(chuàng)作起止時間、創(chuàng)作地點、拍賣經(jīng)歷等15個核心字段以及更新時間等近10個輔助字段。作者字段的取值受藝術(shù)家表的約束，作品類型、材質(zhì)技術(shù)等字段的取值受相關(guān)規(guī)范性附表的約束，實現(xiàn)了一定程度的數(shù)據(jù)規(guī)范化。藝術(shù)家表涵蓋中文名、西文名、別名、出生時間、出生地、藝術(shù)特點、藝術(shù)成就、受啟發(fā)于、施影響于、傳人、年表、簡介、歷史評價等核心字段，藝術(shù)機(jī)構(gòu)包括名稱、別名、主要館藏作品、主要館藏藝術(shù)家、成立時間、地點、官方網(wǎng)址、簡介等核心字段，不再贅述。

3.1.3 內(nèi)容組織與利用

S藝術(shù)數(shù)據(jù)庫采用關(guān)系型數(shù)據(jù)庫來儲存描述數(shù)據(jù)，采用XML來存儲圖像文件的多層分割信息，切割后的圖像文件則分布于云存儲中，在檢索方面采用開源全文搜索引擎Lucene實現(xiàn)全庫索引和數(shù)據(jù)的高效查詢。該庫以藝術(shù)品、藝術(shù)家、藝術(shù)機(jī)構(gòu)三大核心功能來組織內(nèi)容，三者之間的聯(lián)系通過冗余字段和一系列橋表實現(xiàn)，數(shù)據(jù)的著錄通過人工輔以少量機(jī)器處理完成。三大核心功能均實現(xiàn)首字母、時期、類型、流派、國別等分面組織。此外，通過人工編輯，以藝術(shù)專題和故事的形式，實現(xiàn)相關(guān)內(nèi)容的聚合、解讀和導(dǎo)覽服務(wù)。該庫提供了基于名稱、簡介等字段的基本檢索和組合檢索功能，并支持二次檢索。在詳情頁面，除提供當(dāng)前記錄的字段信息外，還提供相關(guān)內(nèi)容的展示或鏈接，如藝術(shù)家詳情頁面展示該藝術(shù)家的代表作品以及相關(guān)人物。在圖像呈現(xiàn)方面，提供近十層的縮放瀏覽功能，支持組圖模式，可以拖動、全屏化和保存當(dāng)前顯示的圖片內(nèi)容；提供高清原圖的下載功能，滿足用戶本地利用的需求。

3.2 S藝術(shù)圖像知識圖譜的設(shè)計與實現(xiàn)

數(shù)字人文的興起和新文科的發(fā)展對藝術(shù)圖像建庫提出了數(shù)據(jù)標(biāo)準(zhǔn)化、知識化和開放化要求。鑒于此，S藝術(shù)數(shù)據(jù)庫進(jìn)行知識抽取、內(nèi)容重構(gòu)和知識存儲等方面的探索開發(fā)，從而構(gòu)建一個藝術(shù)圖像知識圖譜，踏上從資源服務(wù)到知識服務(wù)的轉(zhuǎn)型發(fā)展之路。

3.2.1 系統(tǒng)架構(gòu)

S藝術(shù)圖像知識圖譜的構(gòu)建有三方面需求。一是完整繼承S藝術(shù)數(shù)據(jù)庫的數(shù)據(jù)與功能，以保證服務(wù)的平滑遷移；二是構(gòu)建本體，從數(shù)據(jù)中抽取實體、屬性與關(guān)系，實現(xiàn)內(nèi)容的知識化表示和存儲，以提供知識關(guān)聯(lián)服務(wù)；三是融合第三方開放知識圖譜，豐富本地數(shù)據(jù)，以提供更全面的內(nèi)容。其構(gòu)建實質(zhì)上是一個GLAM領(lǐng)域典型的數(shù)據(jù)轉(zhuǎn)換項目，系統(tǒng)架構(gòu)見圖3。

圖3 S藝術(shù)圖像知識圖譜系統(tǒng)架構(gòu)圖

3.2.2 本體構(gòu)建

S藝術(shù)數(shù)據(jù)庫采用人工知識建模的方式構(gòu)建本體。第一步分析數(shù)據(jù)結(jié)構(gòu)，列出所有要繼承的字段元素，并正確區(qū)分屬性和關(guān)系，將諸如“類型”“創(chuàng)作地點”“受啟發(fā)于”等用于揭示實體之間聯(lián)系的字段梳理出關(guān)系元素集合。第二步參考和借鑒現(xiàn)有領(lǐng)域本體模型，依據(jù)“最大復(fù)用”原則設(shè)計概念模型，復(fù)用成熟的術(shù)語并自定義特有的實體屬性。最后梳理出完整的分類體系、實體屬性和關(guān)系，定義必要的約束條件，從而得出本體模型如圖4所示。

圖4 S藝術(shù)圖像知識圖譜本體模型

以藝術(shù)品為例，其本體設(shè)計充分復(fù)用DCMI的abstract、contributor、created、creator、description、format、hasFormat、identifier、language、modified、subject、title、type等屬性和Location類，復(fù)用FOAF、Schema.org、W3C Time Ontology的Event、Image、Organization、Person等類及相關(guān)屬性，并自定義Artist、Institute、Signet、Work等類及必要屬性，構(gòu)成藝術(shù)品本體如圖5所示。

圖5 藝術(shù)品本體模型

3.2.3 知識組織與利用

經(jīng)過初步的知識抽取與處理，S 藝術(shù)數(shù)據(jù)庫共形成了近18萬個實體共290余萬個三元組。由于數(shù)據(jù)規(guī)模較小，且利用模式相對簡單，因此采用Neo4j圖數(shù)據(jù)庫進(jìn)行存儲。圖像的切割信息與文件仍以原方式進(jìn)行存儲。為更好地兼容傳統(tǒng)檢索需求，采用Elasticsearch作為全文搜索引擎。

S藝術(shù)圖像知識圖譜仍圍繞藝術(shù)品、藝術(shù)家和藝術(shù)機(jī)構(gòu)三大核心要素組織內(nèi)容，原有的類型、國別、時期、流派等分面屬性，則形成具有取值約束的分類，從而更好地提供多條件篩選功能。構(gòu)建知識圖譜后，不僅實現(xiàn)了藝術(shù)圖像資源的概念化描述，支持內(nèi)容的準(zhǔn)確導(dǎo)航和精準(zhǔn)搜索，而且實現(xiàn)了數(shù)據(jù)之間的知識關(guān)聯(lián)，數(shù)據(jù)圖中的任意一個節(jié)點和邊都可以成為檢索入口，為用戶提供某一實體的屬性以及相關(guān)實體的列表等信息。

除檢索外，知識圖譜為用戶提供強(qiáng)大的知識發(fā)現(xiàn)與融合功能。例如，用戶在瀏覽趙孟頫的詳情頁面時，不僅顯示基本描述信息，也提供他的所有作品列表和相關(guān)藝術(shù)家列表等；同時，通過關(guān)聯(lián)數(shù)據(jù)消費技術(shù)，實時呈現(xiàn)第三方知識圖譜如DBPedia的相關(guān)內(nèi)容，從而提供互聯(lián)網(wǎng)鏈接服務(wù)。而且，通過網(wǎng)絡(luò)爬蟲不斷獲取第三方開放知識圖譜及其他網(wǎng)站上的相關(guān)數(shù)據(jù)，進(jìn)行數(shù)據(jù)清洗并實現(xiàn)實體的共指消解和鏈接，進(jìn)而融合到本地知識圖譜之中，可以形成一個可生長的數(shù)據(jù)系統(tǒng)。

此外，知識圖譜還提供了知識分析服務(wù)和數(shù)據(jù)開放服務(wù)的可能性。通過可視化技術(shù)，可以將用戶的檢索結(jié)果進(jìn)行可視化呈現(xiàn)，更好地展現(xiàn)資源及其內(nèi)在聯(lián)系；通過數(shù)據(jù)開放接口，可以為用戶提供形式化數(shù)據(jù)，有利于數(shù)據(jù)的深度利用。

3.3 對比分析

S藝術(shù)數(shù)據(jù)庫作為一個商業(yè)數(shù)據(jù)庫，核心需求是更好地組織和提供資源。與其他強(qiáng)調(diào)計算的知識圖譜不同，S藝術(shù)圖像知識圖譜側(cè)重于資源的揭示與服務(wù)。從系統(tǒng)功能、內(nèi)容揭示、數(shù)據(jù)關(guān)聯(lián)和開放等方面進(jìn)行對比分析，發(fā)現(xiàn)知識圖譜相較于傳統(tǒng)數(shù)據(jù)庫具有先進(jìn)性。

在系統(tǒng)功能上，知識圖譜具有明顯的優(yōu)勢，尤其是在數(shù)據(jù)復(fù)用、屬性拓展和數(shù)據(jù)自動更新等方面有突破性進(jìn)步。例如，S藝術(shù)數(shù)據(jù)庫需要為藝術(shù)品增加一個色彩屬性，不僅要修改作品表的數(shù)據(jù)結(jié)構(gòu)，還要重構(gòu)相關(guān)代碼，實現(xiàn)難度很大。建成知識圖譜之后，這樣的修改需求比較容易實現(xiàn)。

在內(nèi)容揭示上，知識圖譜實現(xiàn)了資源潛藏知識的顯化和檢索，并對傳統(tǒng)數(shù)據(jù)庫難以勝任的關(guān)系查詢、探究式搜索提供了良好的支持。例如，要在內(nèi)容詳情頁面實現(xiàn)資源推薦功能，傳統(tǒng)數(shù)據(jù)庫只能根據(jù)當(dāng)前內(nèi)容有限的數(shù)據(jù)冗余和橋表，以同作者、同類型、同國籍等簡單關(guān)聯(lián)信息進(jìn)行推薦，知識圖譜則可以整合不同層級、多種關(guān)系的內(nèi)容，為用戶推送更全面、更精準(zhǔn)的資源。

在數(shù)據(jù)關(guān)聯(lián)上，傳統(tǒng)數(shù)據(jù)庫只能通過字段冗余或橋表來實現(xiàn)，而知識圖譜采用圖數(shù)據(jù)進(jìn)行數(shù)據(jù)存儲，數(shù)據(jù)之間的聯(lián)系天然存在且易于計算與呈現(xiàn)。對于外部數(shù)據(jù)，傳統(tǒng)數(shù)據(jù)庫由于不具備語義，只能針對不同的外部數(shù)據(jù)集開發(fā)不同的接口去實現(xiàn)關(guān)聯(lián)，而知識圖譜通過本體的解析，只需少量代碼就能準(zhǔn)確連接多源異構(gòu)的外部數(shù)據(jù)。

在數(shù)據(jù)開放上，傳統(tǒng)數(shù)據(jù)庫要么提供裸數(shù)據(jù)下載，要么通過特定接口開放查詢，第三方需要學(xué)習(xí)接口文檔后進(jìn)行定制開發(fā)才能接入，且數(shù)據(jù)缺乏規(guī)范性和語義性。知識圖譜只需開放本體描述和查詢端點，第三方就能按照語義數(shù)據(jù)消費的一般規(guī)則，獲取和利用所需知識數(shù)據(jù)。

表1 S藝術(shù)數(shù)據(jù)庫與S藝術(shù)圖像知識圖譜對比分析表

4 討論

4.1 價值

藝術(shù)圖像知識圖譜的構(gòu)建能促進(jìn)GLAM館藏資源的開放和利用。對藝術(shù)圖像進(jìn)行規(guī)范性、一致性的形式化描述，揭示藝術(shù)圖像資源中隱含的知識，如人物、時間、事件等實體及其相互之間的關(guān)系，實現(xiàn)圖像內(nèi)容的知識化組織，可以更好地支持資源的檢索和利用，并使知識共享成為可能。藝術(shù)圖像知識圖譜的廣泛構(gòu)建將釋放GLAM館藏的巨大能量，為文化產(chǎn)業(yè)發(fā)展提供高質(zhì)量的知識資源，從而促進(jìn)文化遺產(chǎn)的保護(hù)、傳播與傳承，推動文化事業(yè)進(jìn)步。

藝術(shù)圖像知識圖譜能推動人文學(xué)科研究深入發(fā)展。藝術(shù)圖像對人文學(xué)科的重要性毋須重提，但如果僅僅是把圖片上網(wǎng)，沒有進(jìn)行規(guī)范性標(biāo)注、沒有揭示其中蘊藏的知識、沒有融合文本與知識數(shù)據(jù)，那么對學(xué)者而言，它是難以發(fā)現(xiàn)和難以解讀的。在數(shù)字人文時代，研究者們渴求更全面、更準(zhǔn)確、更便捷的數(shù)據(jù)服務(wù)。藝術(shù)圖像知識圖譜的構(gòu)建是GLAM主動推進(jìn)知識服務(wù)升級，實現(xiàn)藝術(shù)圖像豐富內(nèi)涵的顯性化和知識化表達(dá)的舉措，將充分發(fā)揮藝術(shù)圖像的研究價值，為人文學(xué)科的交叉研究和融合發(fā)展奠定知識資源基礎(chǔ)。

藝術(shù)圖像知識圖譜能助力機(jī)器認(rèn)知智能的關(guān)鍵性突破。知識是機(jī)器實現(xiàn)認(rèn)知智能不可或缺的基本條件。以圖像領(lǐng)域而言，當(dāng)前研究所用的樣本空間數(shù)據(jù)往往缺乏知識關(guān)聯(lián)性，因此計算機(jī)視覺雖然在算力大幅提升和算法快速進(jìn)化的基礎(chǔ)上取得了重大突破，但其解決的僅是圖像中有什么東西的問題，對圖像表達(dá)了什么內(nèi)容、傳遞了什么價值、象征了什么意義，尚不能給出答案。潘諾夫斯基將藝術(shù)圖像意義的闡釋分為基于視覺因素的事實主題、基于文化背景的圖像寓意和基于哲學(xué)探究的象征形式三個層面[44]。缺乏人類對線條、色彩、形狀的認(rèn)知知識，缺乏文獻(xiàn)資料所反映的概念和主題知識，缺乏時代性的文化觀念知識，機(jī)器永遠(yuǎn)無法真正地理解圖像。藝術(shù)圖像知識圖譜的廣泛構(gòu)建，將為機(jī)器學(xué)習(xí)提供大規(guī)模形式化的人類解讀數(shù)據(jù)集，有助于人工智能的發(fā)展。

4.2 問題

在當(dāng)前環(huán)境與技術(shù)條件下，藝術(shù)圖像知識圖譜構(gòu)建主要面臨兩方面問題。一是技術(shù)應(yīng)用。雖然知識圖譜技術(shù)發(fā)展迅速，在構(gòu)建的各個環(huán)節(jié)已有相應(yīng)的解決方案和開源工具，但仍存在不少技術(shù)挑戰(zhàn)。例如，高質(zhì)量標(biāo)注數(shù)據(jù)的獲取和知識化處理、結(jié)合計算機(jī)視覺最新成果的圖像自動標(biāo)引、時空語義的增強(qiáng)、圖像知識的分析模式構(gòu)建等都需要在實踐中尋找解決方案并推動技術(shù)的突破。二是資料融合。藝術(shù)圖像不是孤立存在的，它與同時期的文本、實物息息相關(guān)，共同反映歷史和文化的真實。因此，對藝術(shù)圖像的解構(gòu)，需要引入與之相關(guān)的其他文獻(xiàn)資料來提供背景知識、研究素材和分析依據(jù)。這就要求藝術(shù)圖像知識圖譜構(gòu)建要有“大文獻(xiàn)觀”，不應(yīng)拘泥于一庫、一館、一學(xué)科，而是充分發(fā)揮知識圖譜開放共享的特性，實現(xiàn)跨媒體、跨領(lǐng)域、跨語言的知識融合。

就本文而言，僅以S藝術(shù)數(shù)據(jù)庫為案例，初步探討藝術(shù)圖像知識圖譜構(gòu)建的本體設(shè)計、內(nèi)容存儲、系統(tǒng)設(shè)計與比較分析等應(yīng)用問題，并未對知識抽取、知識融合等深度應(yīng)用進(jìn)行介紹，也未展開不同類型藝術(shù)圖像語義標(biāo)注模型的深入討論，有待方家深入研究。

5 結(jié)語

人工智能領(lǐng)域有句名言：“有多少人工就有多少智能。”相較于文字，藝術(shù)圖像作為人類文化一種更直接、更豐富也更模糊的表達(dá)方式，其解讀更為困難，對于機(jī)器而言更難以理解。藝術(shù)圖像知識圖譜的構(gòu)建，可以將無數(shù)先人積累下來的、關(guān)于藝術(shù)圖像的知識成果轉(zhuǎn)化為有語義、可關(guān)聯(lián)、可計算的數(shù)據(jù)庫，從而增強(qiáng)機(jī)器認(rèn)知能力，最終幫助人們從大量繁瑣、反復(fù)且低效的資料處理工作中脫離出來，專注于真正問題的思考。相對于傳統(tǒng)數(shù)據(jù)庫，知識圖譜可以為藝術(shù)圖像的組織和內(nèi)容揭示提供更好的工具，有助于GLAM館藏藝術(shù)圖像資源開放與廣泛利用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡