鐘遠(yuǎn)薪,夏翠娟
美學(xué)家阿萊斯·艾爾雅維茨(Ales Erjavec)在經(jīng)典著作《圖像時代》開篇即說:“我從不閱讀,只是看看圖畫而已?!盵1]人類文化一直是伴隨著圖像的演化而發(fā)展的,在思維發(fā)展史上,圖像式思維早于抽象性思維[2]。海德格爾說,現(xiàn)代社會不僅是一個“技術(shù)的時代”,更是一個“圖像的時代”[3]。我們正經(jīng)歷著深刻的文化轉(zhuǎn)型,即由傳統(tǒng)的以語言為中心的印刷文化向當(dāng)代的以形象為中心的視覺文化轉(zhuǎn)型[4],也就是所謂的“圖像轉(zhuǎn)向”。信息技術(shù)革命使圖像成為大眾傳播、藝術(shù)文化和社會發(fā)展的核心要素之一。
毋庸置疑,和語言、文本一樣,藝術(shù)圖像同樣是重要的文化遺產(chǎn)和文化符號,它以一種更為直接的方式記錄和塑造著人類文明。對藝術(shù)圖像的研究和解讀,構(gòu)成了藝術(shù)學(xué)、宗教學(xué)、人類學(xué)、歷史學(xué)甚至文學(xué)的重要組成部分。今天的藝術(shù)研究與傳播已經(jīng)由“讀圖”轉(zhuǎn)向“讀屏”、由“單件”變?yōu)椤凹稀?、由“感觀”融合“數(shù)據(jù)”,深刻地改變藝術(shù)闡釋,也“勾勒出當(dāng)代藝術(shù)的形狀,并最終為公眾體認(rèn)當(dāng)代藝術(shù)提供有效途徑”[5]。那么,對美術(shù)館、圖書館、檔案館、博物館(Galleries,Libraries,Archives and Museums,GLAM)而言,將館藏藝術(shù)圖像進(jìn)行數(shù)字化并充分地標(biāo)引,建成開放的圖像數(shù)據(jù)庫,就是時代賦予的使命。因此,開展藝術(shù)圖像建庫研究,探討其數(shù)據(jù)規(guī)范、技術(shù)方法和服務(wù)方式,從而為相關(guān)實踐提供參考,顯得尤為重要,并且隨著數(shù)字人文的勃興與人文學(xué)科的融合發(fā)展,“知識大融通”不僅是一種夢想,而是一種亟待解決的需求[6]。
圖像是通過攝影或繪畫形成的二維形象[7],是人類最常用的信息載體之一。藝術(shù)圖像是一種美的創(chuàng)作,視覺化地記錄了人類文明進(jìn)程,它的生產(chǎn)與消費始終是人類社會生活中最基本的傳播活動,是凝聚社會的一股無形力量[8]。作為一種文化傳播與交流的工具,藝術(shù)圖像可以直觀、真實地記錄特定歷史時期和社會空間的人類實踐活動和精神追求,起到了文化傳承和文明象征的作用。
藝術(shù)圖像具有重要價值。一是審美價值。藝術(shù)是對美的追求,藝術(shù)圖像的創(chuàng)作體現(xiàn)了人們對美的認(rèn)識,其美學(xué)價值多元,不僅在藝術(shù)門類交叉與互融的學(xué)術(shù)研究中發(fā)揮積極作用,更在藝術(shù)學(xué)理論建設(shè)中具有重要地位[9]。二是文化價值。潘諾夫斯基(Erwin Panofsky)認(rèn)為一件藝術(shù)作品展示的是一個國家、一個時期、一個階級、一種宗教信仰或哲學(xué)信念的基本態(tài)度[10]。藝術(shù)圖像反映了不同文化的宇宙觀、生命觀和價值觀,卻又突破了不同語言的藩籬,使文化得以交流。三是史料價值?!爸脠D于右,置書于左,索象于圖,索理于書?!盵11]中國一直以來有著圖文互文的傳統(tǒng);而在文藝復(fù)興中,美術(shù)的復(fù)興貫穿始終。通過對藝術(shù)圖像的斷代、內(nèi)容分析、風(fēng)格判斷和技法鑒賞,可以發(fā)現(xiàn)歷史的留存。
數(shù)字時代為藝術(shù)圖像的保存和利用提供了新的工具和環(huán)境。早在1986年,加州大學(xué)伯克利分校就開始建設(shè)一套圖像數(shù)據(jù)庫,實現(xiàn)藝術(shù)品館藏的處理、檢索和瀏覽[12]。之后,藝術(shù)圖像數(shù)據(jù)庫不斷涌現(xiàn),極大地豐富了人們獲取藝術(shù)圖像資料的來源,使研究者可以從文獻(xiàn)記載和親身所見的局限中脫離出來,通過數(shù)據(jù)庫得到更為豐富、系統(tǒng)的視覺把握,促進(jìn)了藝術(shù)學(xué)等學(xué)科的發(fā)展與突破,也使普通民眾得以感受優(yōu)秀藝術(shù)作品的魅力,促進(jìn)了文化遺產(chǎn)的大眾傳播。
在研究領(lǐng)域,藝術(shù)圖像建庫主要涉及圖像數(shù)字化、元數(shù)據(jù)規(guī)范、圖像標(biāo)注、語義組織與案例研究等方面。1987年,阿斯姆斯(Asmus,J.F.)等介紹《蒙娜麗莎》的數(shù)字化處理工作[13],成為藝術(shù)圖像數(shù)字化研究的開端。元數(shù)據(jù)規(guī)范作為核心內(nèi)容,產(chǎn)生了CIDOC概念參考模型(CIDOC CRM)、視覺資源協(xié)會核心類目(VRA Core)、藝術(shù)作品描述類目(CDWA)、藝術(shù)品與文化遺產(chǎn)數(shù)據(jù)傳輸項目(REACH)、歐盟博物館藏品元數(shù)據(jù)集(AMS)、美術(shù)圖像數(shù)字化元數(shù)據(jù)標(biāo)準(zhǔn)等主要成果[14-19]。圖像標(biāo)注方面,約翰·P·艾金斯(John P Eakins)首次提出三層模型[20],形成圖像語義標(biāo)注的基本標(biāo)準(zhǔn);徐雷等以九色鹿本生故事畫為例提出敘事型圖像的語義標(biāo)注模型[21];陳濤等基于IIIF框架探索圖像、對象和語義的三層標(biāo)注方法[22]。語義組織方面,涵蓋本體設(shè)計、關(guān)聯(lián)數(shù)據(jù)應(yīng)用等內(nèi)容,如梁艷琪構(gòu)建繪畫類文物的分類本體并進(jìn)行了語義融合研究[23]、李劍等探討美術(shù)品關(guān)聯(lián)數(shù)據(jù)的聚合[24]。在理論研究基礎(chǔ)上,默多克(Murdoch,J.W.)等介紹阿伯丁藝術(shù)畫廊影像數(shù)據(jù)庫的建設(shè)和維護(hù)過程[25],吳健等分享敦煌藝術(shù)圖像數(shù)據(jù)庫建設(shè)的技術(shù)架構(gòu)、規(guī)范標(biāo)準(zhǔn)等信息[26],童茵等剖析上海博物館董其昌數(shù)字人文項目[27]。
在實踐領(lǐng)域,影響最大的是谷歌藝術(shù)與文化(Google Arts&Culture,原Google Art Project),2011年由Google聯(lián)合歐美17家博物館共建,旨在保護(hù)和傳播世界藝術(shù)與文化[28]。該項目已為紐約現(xiàn)代藝術(shù)博物館、大英博物館、故宮博物院等全球超過2,000家文化機(jī)構(gòu)托管1.3萬多位藝術(shù)家的600萬張高清藝術(shù)圖像并免費開放。最有代表意義的是蓋蒂研究門戶(Getty Research Protal)[29],共有來自蓋蒂研究所和保羅·蓋蒂博物館的圖像、手稿等記錄24萬余條,其中可自由下載和使用的圖片超過10萬張,還提供敘詞表、書目索引、藝術(shù)史文本等一系列研究內(nèi)容和IIIF、Arches等開源軟件,項目伴生的藝術(shù)作品描述類目(CDWA)是利用最廣泛的藝術(shù)元數(shù)據(jù)框架。在國內(nèi),具有世界影響力的首屬“數(shù)字敦煌”,該項目1990年代開始實施,向全球免費共享30個洞窟的高精度數(shù)字圖像和全景漫游節(jié)目[30]。此外,許多高校開展藝術(shù)圖像建庫工作[31-33]。值得一提的是,不少企業(yè)利用購買和免費獲取的藝術(shù)圖片開發(fā)一系列商業(yè)數(shù)據(jù)庫,成為藝術(shù)圖像建庫中的一股重要力量。
縱觀研究與實踐,藝術(shù)圖像建庫緊隨時代發(fā)展潮流,在理論探討、技術(shù)研究、數(shù)據(jù)處理和實踐應(yīng)用等方面均取得了進(jìn)步,滿足了學(xué)術(shù)發(fā)展和文化消費的基本需求。從國內(nèi)外對比看,國內(nèi)處于追隨階段,尤其在資源開放利用方面裹足不前、差距明顯。開放理念的缺失和新技術(shù)應(yīng)用能力的不足,導(dǎo)致國內(nèi)藝術(shù)圖像建庫低水平建設(shè)、重復(fù)建設(shè)和利用率低等問題。
2.1.1 知識圖譜及其關(guān)鍵技術(shù)為提高搜索質(zhì)量和用戶體驗,2012年Google提出知識圖譜概念,基于知識庫對關(guān)鍵詞進(jìn)行概念和屬性關(guān)系的分析,試圖更好地理解用戶搜索意圖,以幫助用戶找到正確的東西(Thing),并提供與結(jié)果有知識聯(lián)系的內(nèi)容。與信息計量學(xué)領(lǐng)域“科學(xué)知識圖譜”(Mapping Knowledge Domains)不同,知識圖譜是一種大規(guī)模語義網(wǎng)絡(luò),包含實體、概念及其之間的各種語義關(guān)系[34],它既是一套人工智能技術(shù)體系,也是一種知識組織和表達(dá)的模式,同時還是一類大規(guī)模的開放知識庫。
知識圖譜的關(guān)鍵技術(shù)基礎(chǔ)之一是語義網(wǎng)技術(shù)的發(fā)展。2001年蒂姆·伯納斯-李(Tim Berners-Lee)等介紹RDF知識表示方法、本體論、智能代理等關(guān)鍵內(nèi)容[35],奠定了語義網(wǎng)的基礎(chǔ)。隨后W3C發(fā)布RDF、OWL、SPARQL等一系列標(biāo)準(zhǔn)來推動語義網(wǎng)落地。2006年關(guān)聯(lián)數(shù)據(jù)(Linked Data)被提出以簡化語義網(wǎng)的實現(xiàn)路徑[36],得到廣泛應(yīng)用并深刻地改變了互聯(lián)網(wǎng)。知識圖譜的另一關(guān)鍵技術(shù)基礎(chǔ)是大規(guī)模知識庫的建立。DBpedia、YAGO、Freebase等大型通用知識圖譜主要源自維基百科;中文通用百科知識圖譜(CN-DBpedia)和中文通用概念知識圖譜(CNProbase)主要從中文百科網(wǎng)站提取信息;ConceptNet、GeoNames、BabelNet、百度知心、搜狗知立方等均以不同知識庫為基礎(chǔ)。
知識圖譜技術(shù)可分為知識獲取與處理、知識建模與存儲、知識計算與應(yīng)用等3個體系(見圖1)。知識圖譜一般從各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取出實體、屬性、關(guān)系等知識要素,然后進(jìn)行實體對齊、知識聚類、知識補全等處理。知識建模與存儲主要包括知識本體構(gòu)建、RDF圖模型和屬性圖模型、圖數(shù)據(jù)存儲等內(nèi)容。知識計算與應(yīng)用則包括知識查詢與推薦、知識推理與問答、知識挖掘與可視化等相關(guān)技術(shù)與應(yīng)用。
圖1 知識圖譜體系框架圖
知識圖譜有自頂向下(top-down)和自底向上(bottom-up)兩種構(gòu)建方式。自頂向下是先為知識圖譜定義好本體與數(shù)據(jù)模式,再將實體加入到知識庫。自底向上是從一些開放關(guān)聯(lián)數(shù)據(jù)中提取出實體,選擇其中置信度較高的加入到知識庫,再構(gòu)建頂層的本體模式[37]。知識圖譜的體系框架圖很好地展示了其構(gòu)建的基本過程。
2.1.2 GLAM領(lǐng)域應(yīng)用
知識圖譜的價值在于大規(guī)模、富有語義且可復(fù)用,天然契合GLAM的價值取向,因此很快被應(yīng)用于實踐,形成了許多成果。在國外,薩德菲(SadeghiAfshin)等整合DPLP、Microsoft Academic Graph等多源數(shù)據(jù)以構(gòu)建學(xué)術(shù)交流領(lǐng)域知識圖譜進(jìn)行學(xué)者分析與評價[38];奧德曼(Oldman Dominic)等通過建立知識圖譜為大英博物館研究社區(qū)的研究者提供更好的知識庫支持[39];卡里略(Carriero Valentina Anita)利用包含82萬個文化實體共1.69億個三元組的知識圖譜ArCo論證其在文化遺產(chǎn)保護(hù)工作中的重要性和影響力[40]。在國內(nèi),楊海慈等借助知識圖譜對宋代學(xué)術(shù)傳承和宋代政治網(wǎng)絡(luò)進(jìn)行可視化展示[41];劉芳等從知識抽取、知識融合、知識存儲和知識應(yīng)用4個方面設(shè)計國家博物館藏品知識圖譜,研究關(guān)鍵技術(shù)問題[42];胡吉穎等基于中國科學(xué)院文獻(xiàn)情報中心海量數(shù)據(jù)構(gòu)建科技大數(shù)據(jù)學(xué)術(shù)圖譜,實現(xiàn)了10類科研實體的智能語義搜索和多維知識的集成發(fā)現(xiàn)[43]。
GLAM大規(guī)模、規(guī)范和結(jié)構(gòu)化的館藏記錄是知識圖譜高質(zhì)量知識數(shù)據(jù)的主要來源。知識圖譜在GLAM的應(yīng)用以構(gòu)建和發(fā)布知識庫為主,更關(guān)注本體設(shè)計、知識存儲和知識消費等基礎(chǔ)環(huán)節(jié)和利用場景,較少涉及知識抽取、知識融合及知識推理等技術(shù)內(nèi)容,呈現(xiàn)出明顯的領(lǐng)域特色,也昭示了GLAM在知識圖譜生態(tài)體系中不可或缺的重要地位。推動知識圖譜技術(shù)在GLAM的應(yīng)用,不僅能促進(jìn)館藏資源的充分揭示、提升資源服務(wù)水平,也能推動知識圖譜與人工智能的發(fā)展。
從技術(shù)條件看,知識圖譜發(fā)展?jié)u趨成熟,雖然在知識融合、知識加工和知識表達(dá)等環(huán)節(jié)還有一些關(guān)鍵問題有待突破,但其構(gòu)建的整個生命周期都有豐富的開源工具,足以滿足實踐應(yīng)用的需求。同時,本體建模、RDF、關(guān)聯(lián)數(shù)據(jù)等基礎(chǔ)技術(shù)早已在GLAM領(lǐng)域得到廣泛應(yīng)用,知識圖譜的技術(shù)思想與GLAM領(lǐng)域的資源組織理念高度一致,因此采用知識圖譜來解決藝術(shù)圖像建庫的知識化和開放性問題是最為清晰的路徑之一。近年GLAM領(lǐng)域知識圖譜的實踐充分證明了藝術(shù)圖像知識圖譜構(gòu)建的技術(shù)可行性。
從數(shù)據(jù)基礎(chǔ)看,經(jīng)過長期積累,收藏機(jī)構(gòu)已基本完成所藏藝術(shù)圖像的編目,部分機(jī)構(gòu)還開展了數(shù)字化掃描和深度標(biāo)引工作,奠定了內(nèi)部數(shù)據(jù)基礎(chǔ)。互聯(lián)網(wǎng)則提供了良好的外部數(shù)據(jù)環(huán)境,世界上各大機(jī)構(gòu)已經(jīng)發(fā)布許多相關(guān)數(shù)據(jù)集,如蓋蒂的藝術(shù)與建筑敘詞表(Art&Architecture Thesaurus)和藝術(shù)家聯(lián)合目錄(The Union List of Artist Names),Google的谷歌藝術(shù)數(shù)據(jù)接口(Google Art Wrapper),還有大量的概念圖譜、人物圖譜以及通用知識圖譜。這些數(shù)據(jù)集可以有力地支撐本地數(shù)據(jù)的連接、補全與融合。
從應(yīng)用需求看,新環(huán)境下GLAM面臨著對藝術(shù)圖像進(jìn)行高質(zhì)量管理和服務(wù)的挑戰(zhàn)。進(jìn)一步推動藝術(shù)圖像資源的建庫和開放,才能響應(yīng)數(shù)字人文與新文科發(fā)展的號召,更好地滿足科研教育、文化娛樂、商業(yè)服務(wù)等行業(yè)獲取藝術(shù)圖像數(shù)據(jù)的需求。時代的發(fā)展也在呼吁增加高質(zhì)量文化資源供給,以豐富民眾的文化生活,促進(jìn)文化遺產(chǎn)的保護(hù)與傳承。
S藝術(shù)數(shù)據(jù)庫是一個采集、購買經(jīng)典美術(shù)作品并進(jìn)行深度加工和系統(tǒng)整理而形成的商業(yè)藝術(shù)圖像數(shù)據(jù)庫,旨在為藝術(shù)教育與文化傳播提供藝術(shù)圖像資源、促進(jìn)藝術(shù)教育的普及、推動社會美育和新型公共文化服務(wù)體系的發(fā)展。2016年S藝術(shù)數(shù)據(jù)庫建成并向100多家圖書館提供藝術(shù)圖像檢索、瀏覽和下載服務(wù)。目前該庫收錄了古今中外包括油畫、素描、雕塑、國畫、書法、傳統(tǒng)壁畫等27個大類15萬余件高清藝術(shù)作品,整理了全球1.3萬多位藝術(shù)名家和4,000余家藝術(shù)機(jī)構(gòu)的信息,同時提供藝術(shù)專題、作品解讀、線下展覽等增值服務(wù)。
3.1.1 系統(tǒng)功能
S藝術(shù)數(shù)據(jù)庫由管理平臺和用戶服務(wù)平臺兩部分構(gòu)成。管理平臺提供資源處理和系統(tǒng)管理功能,用戶服務(wù)平臺包括藝術(shù)圖片、藝術(shù)家、藝術(shù)機(jī)構(gòu)三大核心功能,故事、主題、展覽等聚合功能,藝術(shù)時期、藝術(shù)類型、風(fēng)格流派、國別等分面功能,其系統(tǒng)架構(gòu)見圖2。
圖2 S藝術(shù)數(shù)據(jù)庫系統(tǒng)架構(gòu)圖
3.1.2 元數(shù)據(jù)設(shè)計
S藝術(shù)數(shù)據(jù)庫的數(shù)據(jù)描述基于都柏林核心元數(shù)據(jù)集(DCMES)制定,共分藝術(shù)品、藝術(shù)家、藝術(shù)機(jī)構(gòu)3個主表,國家、時期、藝術(shù)詞典、藝術(shù)資訊、藝術(shù)主題、風(fēng)格流派等近10個附表,以及10多個輔助橋表。以藝術(shù)品為例,設(shè)置唯一編號、作品名稱、作者、作品類型、材質(zhì)技術(shù)、作品尺寸、釋文、款識、鈐印、鑒藏印、簡介、注解、創(chuàng)作起止時間、創(chuàng)作地點、拍賣經(jīng)歷等15個核心字段以及更新時間等近10個輔助字段。作者字段的取值受藝術(shù)家表的約束,作品類型、材質(zhì)技術(shù)等字段的取值受相關(guān)規(guī)范性附表的約束,實現(xiàn)了一定程度的數(shù)據(jù)規(guī)范化。藝術(shù)家表涵蓋中文名、西文名、別名、出生時間、出生地、藝術(shù)特點、藝術(shù)成就、受啟發(fā)于、施影響于、傳人、年表、簡介、歷史評價等核心字段,藝術(shù)機(jī)構(gòu)包括名稱、別名、主要館藏作品、主要館藏藝術(shù)家、成立時間、地點、官方網(wǎng)址、簡介等核心字段,不再贅述。
3.1.3 內(nèi)容組織與利用
S藝術(shù)數(shù)據(jù)庫采用關(guān)系型數(shù)據(jù)庫來儲存描述數(shù)據(jù),采用XML來存儲圖像文件的多層分割信息,切割后的圖像文件則分布于云存儲中,在檢索方面采用開源全文搜索引擎Lucene實現(xiàn)全庫索引和數(shù)據(jù)的高效查詢。該庫以藝術(shù)品、藝術(shù)家、藝術(shù)機(jī)構(gòu)三大核心功能來組織內(nèi)容,三者之間的聯(lián)系通過冗余字段和一系列橋表實現(xiàn),數(shù)據(jù)的著錄通過人工輔以少量機(jī)器處理完成。三大核心功能均實現(xiàn)首字母、時期、類型、流派、國別等分面組織。此外,通過人工編輯,以藝術(shù)專題和故事的形式,實現(xiàn)相關(guān)內(nèi)容的聚合、解讀和導(dǎo)覽服務(wù)。該庫提供了基于名稱、簡介等字段的基本檢索和組合檢索功能,并支持二次檢索。在詳情頁面,除提供當(dāng)前記錄的字段信息外,還提供相關(guān)內(nèi)容的展示或鏈接,如藝術(shù)家詳情頁面展示該藝術(shù)家的代表作品以及相關(guān)人物。在圖像呈現(xiàn)方面,提供近十層的縮放瀏覽功能,支持組圖模式,可以拖動、全屏化和保存當(dāng)前顯示的圖片內(nèi)容;提供高清原圖的下載功能,滿足用戶本地利用的需求。
數(shù)字人文的興起和新文科的發(fā)展對藝術(shù)圖像建庫提出了數(shù)據(jù)標(biāo)準(zhǔn)化、知識化和開放化要求。鑒于此,S藝術(shù)數(shù)據(jù)庫進(jìn)行知識抽取、內(nèi)容重構(gòu)和知識存儲等方面的探索開發(fā),從而構(gòu)建一個藝術(shù)圖像知識圖譜,踏上從資源服務(wù)到知識服務(wù)的轉(zhuǎn)型發(fā)展之路。
3.2.1 系統(tǒng)架構(gòu)
S藝術(shù)圖像知識圖譜的構(gòu)建有三方面需求。一是完整繼承S藝術(shù)數(shù)據(jù)庫的數(shù)據(jù)與功能,以保證服務(wù)的平滑遷移;二是構(gòu)建本體,從數(shù)據(jù)中抽取實體、屬性與關(guān)系,實現(xiàn)內(nèi)容的知識化表示和存儲,以提供知識關(guān)聯(lián)服務(wù);三是融合第三方開放知識圖譜,豐富本地數(shù)據(jù),以提供更全面的內(nèi)容。其構(gòu)建實質(zhì)上是一個GLAM領(lǐng)域典型的數(shù)據(jù)轉(zhuǎn)換項目,系統(tǒng)架構(gòu)見圖3。
圖3 S藝術(shù)圖像知識圖譜系統(tǒng)架構(gòu)圖
3.2.2 本體構(gòu)建
S藝術(shù)數(shù)據(jù)庫采用人工知識建模的方式構(gòu)建本體。第一步分析數(shù)據(jù)結(jié)構(gòu),列出所有要繼承的字段元素,并正確區(qū)分屬性和關(guān)系,將諸如“類型”“創(chuàng)作地點”“受啟發(fā)于”等用于揭示實體之間聯(lián)系的字段梳理出關(guān)系元素集合。第二步參考和借鑒現(xiàn)有領(lǐng)域本體模型,依據(jù)“最大復(fù)用”原則設(shè)計概念模型,復(fù)用成熟的術(shù)語并自定義特有的實體屬性。最后梳理出完整的分類體系、實體屬性和關(guān)系,定義必要的約束條件,從而得出本體模型如圖4所示。
圖4 S藝術(shù)圖像知識圖譜本體模型
以藝術(shù)品為例,其本體設(shè)計充分復(fù)用DCMI的abstract、contributor、created、creator、description、format、hasFormat、identifier、language、modified、subject、title、type等屬性和Location類,復(fù)用FOAF、Schema.org、W3C Time Ontology的Event、Image、Organization、Person等類及相關(guān)屬性,并自定義Artist、Institute、Signet、Work等類及必要屬性,構(gòu)成藝術(shù)品本體如圖5所示。
圖5 藝術(shù)品本體模型
3.2.3 知識組織與利用
經(jīng)過初步的知識抽取與處理,S 藝術(shù)數(shù)據(jù)庫共形成了近18萬個實體共290余萬個三元組。由于數(shù)據(jù)規(guī)模較小,且利用模式相對簡單,因此采用Neo4j圖數(shù)據(jù)庫進(jìn)行存儲。圖像的切割信息與文件仍以原方式進(jìn)行存儲。為更好地兼容傳統(tǒng)檢索需求,采用Elasticsearch作為全文搜索引擎。
S藝術(shù)圖像知識圖譜仍圍繞藝術(shù)品、藝術(shù)家和藝術(shù)機(jī)構(gòu)三大核心要素組織內(nèi)容,原有的類型、國別、時期、流派等分面屬性,則形成具有取值約束的分類,從而更好地提供多條件篩選功能。構(gòu)建知識圖譜后,不僅實現(xiàn)了藝術(shù)圖像資源的概念化描述,支持內(nèi)容的準(zhǔn)確導(dǎo)航和精準(zhǔn)搜索,而且實現(xiàn)了數(shù)據(jù)之間的知識關(guān)聯(lián),數(shù)據(jù)圖中的任意一個節(jié)點和邊都可以成為檢索入口,為用戶提供某一實體的屬性以及相關(guān)實體的列表等信息。
除檢索外,知識圖譜為用戶提供強(qiáng)大的知識發(fā)現(xiàn)與融合功能。例如,用戶在瀏覽趙孟頫的詳情頁面時,不僅顯示基本描述信息,也提供他的所有作品列表和相關(guān)藝術(shù)家列表等;同時,通過關(guān)聯(lián)數(shù)據(jù)消費技術(shù),實時呈現(xiàn)第三方知識圖譜如DBPedia的相關(guān)內(nèi)容,從而提供互聯(lián)網(wǎng)鏈接服務(wù)。而且,通過網(wǎng)絡(luò)爬蟲不斷獲取第三方開放知識圖譜及其他網(wǎng)站上的相關(guān)數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗并實現(xiàn)實體的共指消解和鏈接,進(jìn)而融合到本地知識圖譜之中,可以形成一個可生長的數(shù)據(jù)系統(tǒng)。
此外,知識圖譜還提供了知識分析服務(wù)和數(shù)據(jù)開放服務(wù)的可能性。通過可視化技術(shù),可以將用戶的檢索結(jié)果進(jìn)行可視化呈現(xiàn),更好地展現(xiàn)資源及其內(nèi)在聯(lián)系;通過數(shù)據(jù)開放接口,可以為用戶提供形式化數(shù)據(jù),有利于數(shù)據(jù)的深度利用。
S藝術(shù)數(shù)據(jù)庫作為一個商業(yè)數(shù)據(jù)庫,核心需求是更好地組織和提供資源。與其他強(qiáng)調(diào)計算的知識圖譜不同,S藝術(shù)圖像知識圖譜側(cè)重于資源的揭示與服務(wù)。從系統(tǒng)功能、內(nèi)容揭示、數(shù)據(jù)關(guān)聯(lián)和開放等方面進(jìn)行對比分析,發(fā)現(xiàn)知識圖譜相較于傳統(tǒng)數(shù)據(jù)庫具有先進(jìn)性。
在系統(tǒng)功能上,知識圖譜具有明顯的優(yōu)勢,尤其是在數(shù)據(jù)復(fù)用、屬性拓展和數(shù)據(jù)自動更新等方面有突破性進(jìn)步。例如,S藝術(shù)數(shù)據(jù)庫需要為藝術(shù)品增加一個色彩屬性,不僅要修改作品表的數(shù)據(jù)結(jié)構(gòu),還要重構(gòu)相關(guān)代碼,實現(xiàn)難度很大。建成知識圖譜之后,這樣的修改需求比較容易實現(xiàn)。
在內(nèi)容揭示上,知識圖譜實現(xiàn)了資源潛藏知識的顯化和檢索,并對傳統(tǒng)數(shù)據(jù)庫難以勝任的關(guān)系查詢、探究式搜索提供了良好的支持。例如,要在內(nèi)容詳情頁面實現(xiàn)資源推薦功能,傳統(tǒng)數(shù)據(jù)庫只能根據(jù)當(dāng)前內(nèi)容有限的數(shù)據(jù)冗余和橋表,以同作者、同類型、同國籍等簡單關(guān)聯(lián)信息進(jìn)行推薦,知識圖譜則可以整合不同層級、多種關(guān)系的內(nèi)容,為用戶推送更全面、更精準(zhǔn)的資源。
在數(shù)據(jù)關(guān)聯(lián)上,傳統(tǒng)數(shù)據(jù)庫只能通過字段冗余或橋表來實現(xiàn),而知識圖譜采用圖數(shù)據(jù)進(jìn)行數(shù)據(jù)存儲,數(shù)據(jù)之間的聯(lián)系天然存在且易于計算與呈現(xiàn)。對于外部數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫由于不具備語義,只能針對不同的外部數(shù)據(jù)集開發(fā)不同的接口去實現(xiàn)關(guān)聯(lián),而知識圖譜通過本體的解析,只需少量代碼就能準(zhǔn)確連接多源異構(gòu)的外部數(shù)據(jù)。
在數(shù)據(jù)開放上,傳統(tǒng)數(shù)據(jù)庫要么提供裸數(shù)據(jù)下載,要么通過特定接口開放查詢,第三方需要學(xué)習(xí)接口文檔后進(jìn)行定制開發(fā)才能接入,且數(shù)據(jù)缺乏規(guī)范性和語義性。知識圖譜只需開放本體描述和查詢端點,第三方就能按照語義數(shù)據(jù)消費的一般規(guī)則,獲取和利用所需知識數(shù)據(jù)。
表1 S藝術(shù)數(shù)據(jù)庫與S藝術(shù)圖像知識圖譜對比分析表
藝術(shù)圖像知識圖譜的構(gòu)建能促進(jìn)GLAM館藏資源的開放和利用。對藝術(shù)圖像進(jìn)行規(guī)范性、一致性的形式化描述,揭示藝術(shù)圖像資源中隱含的知識,如人物、時間、事件等實體及其相互之間的關(guān)系,實現(xiàn)圖像內(nèi)容的知識化組織,可以更好地支持資源的檢索和利用,并使知識共享成為可能。藝術(shù)圖像知識圖譜的廣泛構(gòu)建將釋放GLAM館藏的巨大能量,為文化產(chǎn)業(yè)發(fā)展提供高質(zhì)量的知識資源,從而促進(jìn)文化遺產(chǎn)的保護(hù)、傳播與傳承,推動文化事業(yè)進(jìn)步。
藝術(shù)圖像知識圖譜能推動人文學(xué)科研究深入發(fā)展。藝術(shù)圖像對人文學(xué)科的重要性毋須重提,但如果僅僅是把圖片上網(wǎng),沒有進(jìn)行規(guī)范性標(biāo)注、沒有揭示其中蘊藏的知識、沒有融合文本與知識數(shù)據(jù),那么對學(xué)者而言,它是難以發(fā)現(xiàn)和難以解讀的。在數(shù)字人文時代,研究者們渴求更全面、更準(zhǔn)確、更便捷的數(shù)據(jù)服務(wù)。藝術(shù)圖像知識圖譜的構(gòu)建是GLAM主動推進(jìn)知識服務(wù)升級,實現(xiàn)藝術(shù)圖像豐富內(nèi)涵的顯性化和知識化表達(dá)的舉措,將充分發(fā)揮藝術(shù)圖像的研究價值,為人文學(xué)科的交叉研究和融合發(fā)展奠定知識資源基礎(chǔ)。
藝術(shù)圖像知識圖譜能助力機(jī)器認(rèn)知智能的關(guān)鍵性突破。知識是機(jī)器實現(xiàn)認(rèn)知智能不可或缺的基本條件。以圖像領(lǐng)域而言,當(dāng)前研究所用的樣本空間數(shù)據(jù)往往缺乏知識關(guān)聯(lián)性,因此計算機(jī)視覺雖然在算力大幅提升和算法快速進(jìn)化的基礎(chǔ)上取得了重大突破,但其解決的僅是圖像中有什么東西的問題,對圖像表達(dá)了什么內(nèi)容、傳遞了什么價值、象征了什么意義,尚不能給出答案。潘諾夫斯基將藝術(shù)圖像意義的闡釋分為基于視覺因素的事實主題、基于文化背景的圖像寓意和基于哲學(xué)探究的象征形式三個層面[44]。缺乏人類對線條、色彩、形狀的認(rèn)知知識,缺乏文獻(xiàn)資料所反映的概念和主題知識,缺乏時代性的文化觀念知識,機(jī)器永遠(yuǎn)無法真正地理解圖像。藝術(shù)圖像知識圖譜的廣泛構(gòu)建,將為機(jī)器學(xué)習(xí)提供大規(guī)模形式化的人類解讀數(shù)據(jù)集,有助于人工智能的發(fā)展。
在當(dāng)前環(huán)境與技術(shù)條件下,藝術(shù)圖像知識圖譜構(gòu)建主要面臨兩方面問題。一是技術(shù)應(yīng)用。雖然知識圖譜技術(shù)發(fā)展迅速,在構(gòu)建的各個環(huán)節(jié)已有相應(yīng)的解決方案和開源工具,但仍存在不少技術(shù)挑戰(zhàn)。例如,高質(zhì)量標(biāo)注數(shù)據(jù)的獲取和知識化處理、結(jié)合計算機(jī)視覺最新成果的圖像自動標(biāo)引、時空語義的增強(qiáng)、圖像知識的分析模式構(gòu)建等都需要在實踐中尋找解決方案并推動技術(shù)的突破。二是資料融合。藝術(shù)圖像不是孤立存在的,它與同時期的文本、實物息息相關(guān),共同反映歷史和文化的真實。因此,對藝術(shù)圖像的解構(gòu),需要引入與之相關(guān)的其他文獻(xiàn)資料來提供背景知識、研究素材和分析依據(jù)。這就要求藝術(shù)圖像知識圖譜構(gòu)建要有“大文獻(xiàn)觀”,不應(yīng)拘泥于一庫、一館、一學(xué)科,而是充分發(fā)揮知識圖譜開放共享的特性,實現(xiàn)跨媒體、跨領(lǐng)域、跨語言的知識融合。
就本文而言,僅以S藝術(shù)數(shù)據(jù)庫為案例,初步探討藝術(shù)圖像知識圖譜構(gòu)建的本體設(shè)計、內(nèi)容存儲、系統(tǒng)設(shè)計與比較分析等應(yīng)用問題,并未對知識抽取、知識融合等深度應(yīng)用進(jìn)行介紹,也未展開不同類型藝術(shù)圖像語義標(biāo)注模型的深入討論,有待方家深入研究。
人工智能領(lǐng)域有句名言:“有多少人工就有多少智能。”相較于文字,藝術(shù)圖像作為人類文化一種更直接、更豐富也更模糊的表達(dá)方式,其解讀更為困難,對于機(jī)器而言更難以理解。藝術(shù)圖像知識圖譜的構(gòu)建,可以將無數(shù)先人積累下來的、關(guān)于藝術(shù)圖像的知識成果轉(zhuǎn)化為有語義、可關(guān)聯(lián)、可計算的數(shù)據(jù)庫,從而增強(qiáng)機(jī)器認(rèn)知能力,最終幫助人們從大量繁瑣、反復(fù)且低效的資料處理工作中脫離出來,專注于真正問題的思考。相對于傳統(tǒng)數(shù)據(jù)庫,知識圖譜可以為藝術(shù)圖像的組織和內(nèi)容揭示提供更好的工具,有助于GLAM館藏藝術(shù)圖像資源開放與廣泛利用。