曲佳彬 歐石燕
摘 要:關(guān)聯(lián)數(shù)據(jù)集的規(guī)模不斷擴(kuò)大,如何使用和消費(fèi)關(guān)聯(lián)數(shù)據(jù)逐漸成為研究的主要問題。關(guān)聯(lián)數(shù)據(jù)可視化可以直觀、清晰地展示關(guān)聯(lián)數(shù)據(jù)集,有較高的用戶接受度。目前對(duì)關(guān)聯(lián)數(shù)據(jù)可視化研究主要分布在本體可視化、關(guān)聯(lián)數(shù)據(jù)可視化瀏覽和關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用三個(gè)方面。從技術(shù)原理和實(shí)現(xiàn)方法入手,對(duì)這三方面所涉及的工具和應(yīng)用進(jìn)行通用的關(guān)聯(lián)數(shù)據(jù)可視化分析框架構(gòu)建,可以發(fā)現(xiàn):關(guān)聯(lián)數(shù)據(jù)可視化研究呈階梯狀發(fā)展,從輔助性的本體可視化到關(guān)聯(lián)數(shù)據(jù)的列表式和圖形化瀏覽,進(jìn)一步深入到關(guān)聯(lián)數(shù)據(jù)的可視化應(yīng)用;圖形化瀏覽是關(guān)聯(lián)數(shù)據(jù)可視化的發(fā)展趨勢(shì),通過簡單配置就可以使用的工具將會(huì)逐漸受到青睞;在關(guān)聯(lián)數(shù)據(jù)集上構(gòu)建可視化Web應(yīng)用以豐富的圖形展示關(guān)聯(lián)數(shù)據(jù)的知識(shí),將會(huì)是未來關(guān)聯(lián)數(shù)據(jù)可視化研究的重點(diǎn)。
關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù); 可視化; 關(guān)聯(lián)數(shù)據(jù)消費(fèi);分析框架
中圖分類號(hào):G202 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2018065
Abstract The scale of linked data sets has been expanding, and how to consume and use linked data has gradually become the main issue of linked data research. Linked data visualization can display linked data intuitively and clearly and have high user acceptance. After reviewing the relevant literature and tool of linked data visualization, we summarized three aspects of linked data visualization research: ontology visualization, visualization browse of linked data and visualization application of linked data. And then, starting with the technical principle and method, a detailed review of the tools and application involved in these three aspects was made and a visual analysis framework for linked data was designed. The results show that: (1)the research of linked data visualization is slowly in-depth, from ontology visualization to the list and graphical browse of linked data, and further into the visualization application of linked data;(2)the graphical browsing of linked data is the development trend of linked data visualization, and tools that can be used through simple configuration will gradually become popular;(3)Constructing Visual Web Applications on linked data sets to present rich knowledge of linked data will be the focus of research on the visualization of linked data in the future.
Key words linked data; visualization; linked data consumption; analysis frame
1 引言
隨著關(guān)聯(lián)數(shù)據(jù)概念的提出和技術(shù)發(fā)展,關(guān)聯(lián)數(shù)據(jù)逐漸成為網(wǎng)絡(luò)上發(fā)布結(jié)構(gòu)化數(shù)據(jù)的一種普遍形式,大量結(jié)構(gòu)化數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)形式被發(fā)布到網(wǎng)絡(luò)上,使得關(guān)聯(lián)數(shù)據(jù)成為全球數(shù)據(jù)空間中不可或缺的一部分。近十年來,關(guān)聯(lián)開放數(shù)據(jù)云(Linked Open Data Cloud)由最初的12個(gè)RDF數(shù)據(jù)集發(fā)展到現(xiàn)今的1163個(gè),數(shù)據(jù)規(guī)模不斷擴(kuò)大,數(shù)據(jù)類型不斷豐富,涵蓋生命科學(xué)、政府、媒體、出版、社會(huì)網(wǎng)絡(luò)、地理等領(lǐng)域[1]。關(guān)聯(lián)數(shù)據(jù)的發(fā)展使得Web上分布著富含語義并相互關(guān)聯(lián)的海量數(shù)據(jù),目前面臨的主要問題是如何消費(fèi)這些數(shù)據(jù)、充分發(fā)掘關(guān)聯(lián)數(shù)據(jù)的價(jià)值。為了便于用戶查詢數(shù)據(jù),關(guān)聯(lián)數(shù)據(jù)集通常都提供SPARQL查詢端點(diǎn),但是構(gòu)建SPARQL查詢不僅需要具備語義網(wǎng)方面的專門知識(shí)還要對(duì)數(shù)據(jù)集的結(jié)構(gòu)有深入了解,這對(duì)于普通用戶顯然是非常困難的。自2010年起,國際語義網(wǎng)會(huì)議(International Semantic Web Conference,ISWC)每年都開設(shè)“關(guān)聯(lián)數(shù)據(jù)消費(fèi)”(Consuming Linked Data,COLD)討論會(huì),對(duì)關(guān)聯(lián)數(shù)據(jù)的消費(fèi)工具、平臺(tái)及案例進(jìn)行介紹,也會(huì)涉及到關(guān)聯(lián)數(shù)據(jù)可視化的相關(guān)技術(shù)[2]。此外,從2015年開始ISWC增設(shè)了“本體和關(guān)聯(lián)數(shù)據(jù)的可視化與交互(Visualization and Interaction for Ontologies and Linked Data,VOILA)”議題,從本體和關(guān)聯(lián)數(shù)據(jù)兩個(gè)層次研究可視化用戶界面和交互技術(shù)以及可視化分析,主要目的是幫助用戶更好的從關(guān)聯(lián)數(shù)據(jù)中獲取領(lǐng)域知識(shí)[3-4]。
關(guān)聯(lián)數(shù)據(jù)采用的數(shù)據(jù)模型是RDF 圖,它可以被看作是有向標(biāo)記圖( Directed Labeled Graph),每條有向邊及其所連接的兩個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)RDF 三元組,再通過RDF鏈接把資源整合成為相互關(guān)聯(lián)的RDF圖[5]。因此,關(guān)聯(lián)數(shù)據(jù)可視化可分為數(shù)據(jù)模式(即本體)可視化和數(shù)據(jù)可視化兩個(gè)層面:(1)本體主要用來描述實(shí)例數(shù)據(jù)的體系結(jié)構(gòu),本體可視化采用有向標(biāo)記圖的形式,通過點(diǎn)、線和圓形展示其體系結(jié)構(gòu)包含的類和類以及類和屬性值之間的關(guān)系;(2)數(shù)據(jù)可視化主要是基于列表或圖形的形式瀏覽關(guān)聯(lián)數(shù)據(jù)集。前者提供圖形化界面幫助領(lǐng)域?qū)<揖庉嫳倔w,屏蔽了直接采用OWL和RDF本體標(biāo)記語言的復(fù)雜性,還能夠以可視化的方式展示體系結(jié)構(gòu),對(duì)普通用戶使用和理解本體有極大的幫助[6]。后者是采用列表和圖形化的方式展示關(guān)聯(lián)數(shù)據(jù)集,便于用戶瀏覽和發(fā)現(xiàn)知識(shí)。一方面,基于列表的瀏覽以“屬性-屬性值”形式展示關(guān)聯(lián)數(shù)據(jù)集,這種瀏覽方式充分展現(xiàn)了關(guān)聯(lián)數(shù)據(jù)RDF鏈接的特性,使用戶可以沿著有向邊瀏覽整個(gè)數(shù)據(jù)集;另一方面,圖形化的瀏覽以在線方式或者可視化插件提供關(guān)聯(lián)數(shù)據(jù)集的可視化展示,用戶可以簡單地配置并構(gòu)建SPARQL查詢語句,將查詢結(jié)果借助可視化工具圖形化展示。隨著語義網(wǎng)技術(shù)和可視化技術(shù)的普及,關(guān)聯(lián)數(shù)據(jù)集的可視化應(yīng)用成為關(guān)聯(lián)數(shù)據(jù)可視化研究的另一重要方向,基于Web的關(guān)聯(lián)數(shù)據(jù)集可視化應(yīng)用,通過對(duì)關(guān)聯(lián)數(shù)據(jù)集的挖掘和分析,可從多個(gè)維度展示關(guān)聯(lián)數(shù)據(jù)集隱含的知識(shí)。
從以上分析可以看出,關(guān)聯(lián)數(shù)據(jù)可以在多方面可視化展示:Schema層面數(shù)據(jù)的結(jié)構(gòu)、“屬性-屬性值”列表形式的瀏覽、圖形化展示查詢結(jié)果以及語義層面的知識(shí)可視化。通過對(duì)關(guān)聯(lián)數(shù)據(jù)可視化相關(guān)文獻(xiàn)和工具進(jìn)行歸納和梳理,發(fā)現(xiàn)成果主要集中在本體可視化、關(guān)聯(lián)數(shù)據(jù)可視化瀏覽和關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用。
2 本體可視化
本體可視化主要有桌面本體可視化工具和在線本體可視化工具,前者通過本地下載的方式將本體可視化應(yīng)用安裝在本地使用,后者通過在線訪問的形式提供本體的可視化編輯和可視化展示。
2.1 桌面本體可視化工具
桌面本體可視化的研究開始得比較早,主要代表性工具有Protégé、RDF Gravity以及IsaViz,至今在本體可視化編輯和瀏覽方面發(fā)揮著重要作用。這些工具都是免費(fèi)開源的,目前僅有Protégé提供更新維護(hù)服務(wù)。
(1)Protégé[7]由斯坦福大學(xué)生物醫(yī)學(xué)信息學(xué)研究中心開發(fā)設(shè)計(jì),采用圖形化的用戶界面,屏蔽了本體描述語言的復(fù)雜性,提供本體中類、關(guān)系、屬性和實(shí)例的構(gòu)建。Protégé是縮進(jìn)列表展示本體的最佳代表,采用縮進(jìn)的方式展示父類和子類的關(guān)系,并且每一個(gè)節(jié)點(diǎn)只有一個(gè)單一的路徑。
(2)RDF Gravity[8]由奧地利薩爾茨堡研究所開發(fā)設(shè)計(jì)的,基于“node-link”圖模式,面向RDF/OWL數(shù)據(jù)集的圖形可視化工具,采用Jung Graph(Java Universal Network /Graph Framework,Java通用網(wǎng)絡(luò)/圖形架構(gòu))接口和Jena語義網(wǎng)絡(luò)工具包來實(shí)現(xiàn)。用戶使用RDF Gravity可以對(duì)RDF文件進(jìn)行全局、局部和自定義方式瀏覽,同時(shí)RDF Gravity提供了基于類、屬性和實(shí)例的全文搜索功能,并支持多文件的同時(shí)可視化。
(3)IsaViz[9]由W3C推出的,基于Java語言的本體可視化工具,提供RDF數(shù)據(jù)的可視化瀏覽和編輯功能。此外,IsaViz需要在本地部署Java環(huán)境,并且下載AT&T;公司(美國電話電報(bào)公司)的Graphviz(采用Dot語言腳本描述的圖形)輔助插件來構(gòu)造可視化圖形。IsaViz采用GSS(Graph Stylesheet,基于CSS和SVG樣式表語言)樣式表以有向圖的方式可視化本體的RDF圖。
2.2 在線本體可視化工具
在線本體可視化工具可以直接通過Web瀏覽器使用,無需本地安裝,減輕了用戶安裝配置可視化工具的負(fù)擔(dān)。代表性工具有WebProtégé和WebVOWL,其中WebVOWL基于VOWL(Visual Notation for OWL Ontologies,OWL本體的視覺符號(hào))開發(fā)。
(1)WebProtégé[10]是在Protégé本體編輯器的基礎(chǔ)上開發(fā)的輕量級(jí)的在線服務(wù),它將基于桌面的本體編輯和可視化移植到Web環(huán)境中,同時(shí)支持部署到本地服務(wù)器。WebProtégé能夠支持多用戶的協(xié)同工作,用戶注冊(cè)登陸后會(huì)看到自己所擁有的本體,以及其它用戶分享的本體。用戶使用WebProtégé編輯的本體也可以分享給其它用戶,通過在列表中添加協(xié)作者的登錄姓名,實(shí)現(xiàn)面向特定用戶的本體可視化顯示、編輯和評(píng)論。
(2)VOWL由德國斯圖加特大學(xué)視覺和交互系統(tǒng)研究所開發(fā),主要是為了解決普通用戶的本體可視化需求而設(shè)計(jì)的一套OWL語言的圖形化描述符號(hào)。該本體描述模型提供了OWL中元素的圖形化描述,采用不同形狀和顏色的圖形,描述本體包含的類、類之間的關(guān)系以及屬性,能更直觀可視化展示本體的體系結(jié)構(gòu)[11]。目前采用該本體描述模型實(shí)現(xiàn)本體可視化的工具有兩種——ProtégéVOWL和WebVOWL:①ProtégéVOWL是Java編寫的VOWL插件,需要拷貝插件Jar包到Protégé桌面應(yīng)用中,并在用戶界面中配置后才能使用;②WebVOWL是基于Web的在線本體可視化工具,采用開放的Web標(biāo)準(zhǔn)(HTML、JavaScript、CSS和SVG)設(shè)計(jì)可視化頁面,并以VOWL定義的圖形描述本體。
鑒于ProtégéVOWL實(shí)現(xiàn)的可視化功能與WebVOWL一致,這里以WebVOWL[12]為例,介紹其具體實(shí)現(xiàn)方式和整體框架(見圖1)。
WebVOWL可視化本體的處理過程分四步:(1)WebVOWL通過上傳本體文件的方式獲取數(shù)據(jù),OWL API①負(fù)責(zé)解析加載的本體文件;(2)OWL2VOWL轉(zhuǎn)換器②將本體文件的解析結(jié)果轉(zhuǎn)換成為WebVOWL自定義的OWL2-JSON數(shù)據(jù)格式,該數(shù)據(jù)格式包括本體的類、屬性以及數(shù)據(jù)類型等(如owl:Class,owl:ObjectProperty,xsd:dateTime);(3)VOWL2配置文件定義了本體文件解析后每個(gè)元素的圖形和顯示樣式,如圖形的SVG③代碼和CSS樣式;(4)通過力導(dǎo)向圖(Force-Directed Graph)展示本體的體系結(jié)構(gòu),并支持簡單的過濾,如子類顯示與否、類的屬性顯示與否。
2.3 本體可視化分析
本文所調(diào)研的本體可視化工具主要從其類型、開發(fā)時(shí)間、當(dāng)前狀態(tài)、數(shù)據(jù)加載方式以及可視化方式五個(gè)方面進(jìn)行對(duì)比(見表1)。
本體是用來描述類和類之間、類和屬性之間的關(guān)系,早期的本體可視化工具都是基于桌面,主要目的是幫助領(lǐng)域?qū)<覙?gòu)建本體,同時(shí)也提供圖形化展示本體的體系結(jié)構(gòu),如以樹狀圖的形式展示本體中類與類之間的關(guān)系。桌面本體可視化工具只有Protégé提供更新服務(wù),其持續(xù)更新和維護(hù)以及良好的操作性使其成為目前本體編輯和可視化的主要工具。此外,Protégé還提供兩種方式的功能擴(kuò)展:插件和Java的API,如ProtégéVOWL使Protégé實(shí)現(xiàn)了本體圖形化的展示。
在線本體可視化工具無需用戶在本地安裝,WebProtégé和WebVOWL是典型代表。WebVOWL僅提供本體的可視化服務(wù),并不支持本體可視化編輯,但是WebVOWL能從整體上概覽本體,采用力導(dǎo)向圖展示本體的類和類、類和屬性的關(guān)系,并可統(tǒng)計(jì)本體中類和屬性的數(shù)量。
3 關(guān)聯(lián)數(shù)據(jù)的可視化瀏覽
3.1 基于列表的瀏覽
基于列表的瀏覽是采用“屬性-屬性值”列表方式展示關(guān)聯(lián)數(shù)據(jù)集,并允許用戶沿著RDF鏈接探索并瀏覽整個(gè)關(guān)聯(lián)數(shù)據(jù)集?;诹斜淼臑g覽有在線遠(yuǎn)程服務(wù)和Web瀏覽器插件兩種實(shí)現(xiàn)方式。
(1)在線遠(yuǎn)程服務(wù)方式。通過在線遠(yuǎn)程訪問關(guān)聯(lián)數(shù)據(jù)瀏覽器,然后在關(guān)聯(lián)數(shù)據(jù)瀏覽器中輸入關(guān)聯(lián)數(shù)據(jù)集的URL或關(guān)聯(lián)數(shù)據(jù)集中某個(gè)資源的URI地址,以遠(yuǎn)程方式瀏覽關(guān)聯(lián)數(shù)據(jù)。早期提供關(guān)聯(lián)數(shù)據(jù)遠(yuǎn)程瀏覽的工具有Disco、Dipper和Marbles等,但這些工具目前基本處于停止服務(wù)狀態(tài),無法進(jìn)行訪問。遠(yuǎn)程服務(wù)方式消失的可能原因是:當(dāng)前許多關(guān)聯(lián)數(shù)據(jù)集都提供HTML和RDF兩種表示格式,通過HTTP協(xié)議的內(nèi)容協(xié)商機(jī)制,采用傳統(tǒng)的HTML瀏覽器用戶在本地就可以列表的方式瀏覽RDF數(shù)據(jù),無需再通過這種遠(yuǎn)程服務(wù)來進(jìn)行訪問。內(nèi)容協(xié)商機(jī)制(Content Negotiation)是HTTP協(xié)議提供的對(duì)服務(wù)器端響應(yīng)的資源內(nèi)容進(jìn)行協(xié)商的一種機(jī)制,服務(wù)器根據(jù)客戶端信息請(qǐng)求的類型(text/html或rdf+xml格式),以最適合的表示形式向其返回請(qǐng)求的資源,通常是Web資源的HTML或RDF表示格式。
(2)Web瀏覽器插件方式。通過安裝在本地瀏覽器中的插件來訪問關(guān)聯(lián)數(shù)據(jù)集。用戶通過瀏覽器訪問關(guān)聯(lián)數(shù)據(jù)集時(shí),利用插件間的切換實(shí)現(xiàn)資源的RDF表示格式和HTML表示格式的瀏覽。比較有名的插件有Tabulator和Openlink Data Explorer(ODE)。
Tabulator是較早的關(guān)聯(lián)數(shù)據(jù)瀏覽器插件,但是2008年以后已經(jīng)停止更新服務(wù),且僅支持Firefox3.0。Tabulator以RDF表示格式展示用戶要訪問的關(guān)聯(lián)數(shù)據(jù)時(shí),支持RDF/XML、Turtle和N-Triple三種序列化顯示格式。
ODE是OpenLink 項(xiàng)目開發(fā)的關(guān)聯(lián)數(shù)據(jù)瀏覽器插件,支持的瀏覽器有Internet Explorer、Firefox和Google Chrome等[13]。ODE在瀏覽器中提供數(shù)據(jù)表示格式切換的選項(xiàng),在瀏覽發(fā)布為關(guān)聯(lián)數(shù)據(jù)的網(wǎng)站時(shí)點(diǎn)擊鼠標(biāo)右鍵會(huì)出現(xiàn)“Openlink Data Explorer”選項(xiàng),點(diǎn)擊其中的“View data resource”選項(xiàng)會(huì)打開新的頁面,以RDF表示格式展示資源(見圖2)。
ODE的主要工作原理是:關(guān)聯(lián)數(shù)據(jù)的解析工作是由ODE的服務(wù)器端URIBurner完成,用戶在切換瀏覽方式的時(shí)候,資源的URI地址通過HTTP協(xié)議傳遞到URIBurner,待服務(wù)器完成解析后以“屬性-屬性值”對(duì)形式返回OED插件。URIBurner是OpenLink項(xiàng)目開發(fā)的數(shù)據(jù)解析服務(wù)器,通過“http://linkeddata.uriburner.com/sparql?query=resource_URI”的形式獲取資源的URI地址,對(duì)關(guān)聯(lián)數(shù)據(jù)集的語義標(biāo)簽(如采用RDFa格式或者Pubby發(fā)布的關(guān)聯(lián)數(shù)據(jù))進(jìn)行解析,同時(shí)提供RDF/XML、N-Triple和JSON多種序列化格式的顯示[13]。
3.2 圖形化瀏覽
關(guān)聯(lián)數(shù)據(jù)的圖形化瀏覽主要有可視化插件和遠(yuǎn)程服務(wù)兩種方式??梢暬寮捎媚_本嵌入的方式集成到HTML頁面中實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)的圖形化瀏覽。在線遠(yuǎn)程服務(wù)主要采用“客戶端瀏覽器和遠(yuǎn)程服務(wù)器”架構(gòu)方式實(shí)現(xiàn),根據(jù)用戶配置的關(guān)聯(lián)數(shù)據(jù)集SPARQL端點(diǎn)或者上傳的本地關(guān)聯(lián)數(shù)據(jù)集,采用內(nèi)置的可視化圖形實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)集可視化。
(1)可視化插件。該可視化插件主要有兩類,一類是針對(duì)專門的多維統(tǒng)計(jì)數(shù)據(jù),其描述詞表必須是RDF Data Cube Vocabulary(DCV)①;另一類是通用的可視化插件,不受關(guān)聯(lián)數(shù)據(jù)中所使用的詞表或本體的限制。
在發(fā)布的關(guān)聯(lián)數(shù)據(jù)中,語義化數(shù)據(jù)表是其中重要的一部分,如歐盟委員會(huì)“歐洲數(shù)字議程(Digital Agenda for Europe )”行動(dòng)進(jìn)展和績效統(tǒng)計(jì)數(shù)據(jù)就是以語義化數(shù)據(jù)表的形式存儲(chǔ)[14]。語義化數(shù)據(jù)表可視化的典型代表是CubeViz[15]。該可視化插件是德國萊比錫大學(xué)計(jì)算機(jī)學(xué)院開發(fā),主要用于可視化展示采用DCV描述的統(tǒng)計(jì)關(guān)聯(lián)數(shù)據(jù)集。CubeViz以嵌入HTML網(wǎng)頁的方式完成插件的配置,采用餅圖、曲線圖和直方圖對(duì)配置的關(guān)聯(lián)數(shù)據(jù)集可視化展示。
通用的關(guān)聯(lián)數(shù)據(jù)可視化插件比較有代表性的是Sgvizler[16]。該可視化插件集成了開源的Googel Charts圖形類庫,對(duì)SPARQL查詢結(jié)果可視化展示。Sgvizler提供三種方式構(gòu)建SPARQL查詢[17]:①在HTML5頁面中直接使用Sgvizler標(biāo)簽
(2)在線遠(yuǎn)程服務(wù)方式。在線遠(yuǎn)程服務(wù)無需用戶進(jìn)行復(fù)雜的配置,僅需用戶在瀏覽器端進(jìn)行數(shù)據(jù)源的配置,然后在瀏覽器上執(zhí)行查詢、選擇和過濾等多種操作,遠(yuǎn)程服務(wù)器負(fù)責(zé)處理客戶端的操作,最后將關(guān)聯(lián)數(shù)據(jù)集解析結(jié)果返回客戶端進(jìn)行可視化展示。其代表性的工具有RelFinder和RDF:SynopsViz。
RelFinder是P.Heim等人于2009年開發(fā)的一款可視化工具,旨在幫助用戶發(fā)現(xiàn)關(guān)聯(lián)數(shù)據(jù)集中感興趣資源實(shí)體之間的關(guān)系,其前身是面向DBpedia數(shù)據(jù)集的對(duì)象關(guān)系發(fā)現(xiàn)工具DBpedia Relationship Finder[18-20]。RelFinder發(fā)現(xiàn)關(guān)聯(lián)數(shù)據(jù)集中對(duì)象間關(guān)系的原理為:①用戶在RelFinder瀏覽器的查詢框中輸入要查詢的兩個(gè)對(duì)象,輸入的對(duì)象在數(shù)據(jù)集中被映射為唯一的實(shí)體或者按相關(guān)性排序的一組實(shí)體列表供用戶選擇;②確定要查找的實(shí)體后,RelFinder根據(jù)實(shí)體間的RDF鏈迭代查找,發(fā)現(xiàn)兩個(gè)實(shí)體間的所有關(guān)系;③以可視化導(dǎo)向圖的方式展示實(shí)體間的語義關(guān)系,可根據(jù)用戶預(yù)先設(shè)定的相關(guān)性策略自動(dòng)過濾相關(guān)性較小的關(guān)系,僅顯示最優(yōu)關(guān)系。Relfinder用動(dòng)態(tài)視圖展示資源實(shí)體間關(guān)系,展示方式直觀、生動(dòng),并提供關(guān)鍵詞過濾,能實(shí)現(xiàn)資源實(shí)體間關(guān)系的局部可視化。除了在線服務(wù),Relfinder還支持本地下載,作為一個(gè)Web應(yīng)用在應(yīng)用服務(wù)器(如Tomcat服務(wù)器)中運(yùn)行,這種方式也是目前國內(nèi)關(guān)聯(lián)數(shù)據(jù)可視化采用的主要方式[3,21-22]。
SynopsViz[23]是一個(gè)分層展示和瀏覽關(guān)聯(lián)數(shù)據(jù)的在線瀏覽器,主要工作原理是采取層次模型展示關(guān)聯(lián)數(shù)據(jù),避免了數(shù)據(jù)集較大時(shí)的加載負(fù)擔(dān)。SynopsViz將關(guān)聯(lián)數(shù)據(jù)集按類(Class)和屬性(Property)進(jìn)行統(tǒng)計(jì),并提供對(duì)數(shù)據(jù)集的過濾功能,過濾結(jié)果采用時(shí)間軸、圖表和TreeMap進(jìn)行可視化展示。SynopsViz的工作原理分為:關(guān)聯(lián)數(shù)據(jù)集上傳、數(shù)據(jù)集預(yù)處理、可視化分析模塊和瀏覽器端可視化四個(gè)部分,各部分主要功能為:①關(guān)聯(lián)數(shù)據(jù)集上傳:可以上傳本地關(guān)聯(lián)數(shù)據(jù)集的RDF文件或遠(yuǎn)程關(guān)聯(lián)數(shù)據(jù)集的URI地址;②數(shù)據(jù)集預(yù)處理:首先對(duì)數(shù)據(jù)集進(jìn)行解析,生成類和屬性的分面信息,然后交由分層處理模塊對(duì)分層信息進(jìn)行存儲(chǔ);③可視化分析模塊:根據(jù)瀏覽器端的分類過濾請(qǐng)求,可視化分析模塊調(diào)用相匹配的分層信息,如某個(gè)類的實(shí)例數(shù)據(jù);④瀏覽器端可視化:根據(jù)用戶的請(qǐng)求,從可視化分析模塊獲取相關(guān)數(shù)據(jù),采用開源的Google Charts圖形庫對(duì)過濾結(jié)果進(jìn)行簡單的統(tǒng)計(jì)和分析[23]。
3.3 關(guān)聯(lián)數(shù)據(jù)可視化瀏覽分析
所調(diào)研的關(guān)聯(lián)數(shù)據(jù)可視化瀏覽工具主要從數(shù)據(jù)集參引方式、可視化展示方式、使用方式以及操作方式四個(gè)方面進(jìn)行對(duì)比(見表2)。
(1)數(shù)據(jù)集參引方式:主要有配置SPARQL查詢端點(diǎn)、上傳本地關(guān)聯(lián)數(shù)據(jù)集RDF文件、加載遠(yuǎn)程關(guān)聯(lián)數(shù)據(jù)集RDF文件以及關(guān)聯(lián)數(shù)據(jù)集的瀏覽頁面。
(2)可視化展示方式:主要有兩類方式,一類是基于列表的瀏覽;另一類是圖形化瀏覽。前者以“屬性-屬性值”對(duì)形式展示關(guān)聯(lián)數(shù)據(jù)集,后者以餅圖、折線圖或直方圖展示關(guān)聯(lián)數(shù)據(jù)集或SPARQL查詢結(jié)果。其中Sgvizler的可視化圖形來源于Google Charts可視化類庫,CubViz、RelFinder和SynopsViz均內(nèi)置可視化圖形。
(3)可視化工具使用方式:①以插件的形式安裝到瀏覽器中,直接瀏覽關(guān)聯(lián)數(shù)據(jù);②以可視化類庫的形式嵌入到HTML頁面,其中CubeViz針對(duì)專門的語義化數(shù)據(jù)表,Sgvizler面向通用數(shù)據(jù)類型兩種,但需要用戶構(gòu)建SPARQL查詢表達(dá)式;③通過瀏覽器訪問的在線遠(yuǎn)程服務(wù)或者本地應(yīng)用服務(wù)器內(nèi)運(yùn)行,Relfinder通過關(guān)鍵詞查詢發(fā)現(xiàn)實(shí)體間關(guān)系,SynopsViz可以直接圖形化瀏覽關(guān)聯(lián)數(shù)據(jù)。
由于越來越多的關(guān)聯(lián)數(shù)據(jù)集提供HTML和RDF兩種表示格式,早期基于列表的可視化瀏覽器和插件工具逐漸停止了服務(wù)。目前,只有ODE是以Web瀏覽器插件形式實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)列表瀏覽,對(duì)采用RDFa、D2R或Pubby發(fā)布的關(guān)聯(lián)數(shù)據(jù)集有較好的可視化支持。
從關(guān)聯(lián)數(shù)據(jù)圖形化瀏覽工具的易用性來說,按照其是否需要構(gòu)造SPARQL查詢分為兩大類:第一類可視化工具操作簡單無需用戶自行構(gòu)造SPARQL查詢式;第二類需要用戶將可視化工具集成到HTML頁面,且自行構(gòu)造SPARQL查詢式。這兩類關(guān)聯(lián)數(shù)據(jù)圖形化瀏覽工具分析如下:①第一類可視化工具主要有Cubeviz、RelFinder和SynopsViz。Cubeviz是封裝的JavaScript類庫,需要嵌入HTML頁面才能使用,且用戶需要具有一定的HTML網(wǎng)頁設(shè)計(jì)技術(shù),其可視化圖形相對(duì)簡單,僅有餅狀圖和直方圖。此外,Cubeviz僅支持采用DCV詞表描述的統(tǒng)計(jì)數(shù)據(jù),相對(duì)于其它工具來說其通用性較差。SynopsViz提供在線遠(yuǎn)程服務(wù),將本地或遠(yuǎn)程關(guān)聯(lián)數(shù)據(jù)集RDF文件上傳服務(wù)器即可直接可視化瀏覽,該工具根據(jù)用戶的選擇將過濾結(jié)果采用時(shí)間軸、圖和表可視化展示。RelFinder主要目的是幫助用戶發(fā)現(xiàn)關(guān)聯(lián)數(shù)據(jù)集中兩個(gè)實(shí)例對(duì)象的所有關(guān)系。因此,有很多領(lǐng)域需要這種發(fā)現(xiàn)實(shí)體關(guān)系的可視化工具,如在基因和疾病相關(guān)的生物醫(yī)學(xué)領(lǐng)域關(guān)聯(lián)數(shù)據(jù)中Relfinder可發(fā)現(xiàn)基因或者藥物之間的關(guān)系;②第二類可視化工具需要用戶自行構(gòu)造SPARQL查詢表達(dá)式,可視化效果完全依賴于SPARQL查詢式,主要有Sgvizler。Sgvizler是封裝好的JavaScript庫,需要嵌入HTML頁面才能使用,但其集成了Google Charts圖形庫,提供更豐富的圖形展示查詢結(jié)果。
從所調(diào)研的關(guān)聯(lián)數(shù)據(jù)可視化工具總體來看,基于列表的瀏覽工具逐漸會(huì)被淘汰,其更新服務(wù)會(huì)慢慢停止,但是對(duì)于領(lǐng)域?qū)<襾碚f,這種簡潔的瀏覽方式能更好地了解關(guān)聯(lián)數(shù)據(jù)集的結(jié)構(gòu)。圖形化瀏覽工具和插件中不需要用戶構(gòu)建SPARQL查詢式,通過簡單配置就可以使用工具將會(huì)逐漸受到青睞,如RelFinder;需要用戶構(gòu)建SPARQL查詢式的可視化瀏覽工具靈活性更好,能更有針對(duì)性的可視化瀏覽關(guān)聯(lián)數(shù)據(jù)集,對(duì)專家用戶來說是一種較好的關(guān)聯(lián)數(shù)據(jù)可視化瀏覽方式,如Sgvizler。
4 關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用
4.1 基于Web的關(guān)聯(lián)數(shù)據(jù)集可視化應(yīng)用實(shí)例
除了前文所述的關(guān)聯(lián)數(shù)據(jù)可視化工具,還有一些語義網(wǎng)應(yīng)用針對(duì)特定的關(guān)聯(lián)數(shù)據(jù)集提供可視化分析,具有代表性的有:(1)開放存取期刊《語義網(wǎng)雜志(Semantic Web Journal,SWJ)》論文投稿和審稿數(shù)據(jù)的語義化及可視化分析;(2)美國的VIZ-VIVO項(xiàng)目;(3)歐洲的關(guān)聯(lián)高校項(xiàng)目。這些關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用,面向用戶提供可視化分析和瀏覽,一方面屏蔽了底層關(guān)聯(lián)數(shù)據(jù)的復(fù)雜性,為用戶提供了友好的數(shù)據(jù)訪問界面;另一方面,實(shí)現(xiàn)了對(duì)關(guān)聯(lián)數(shù)據(jù)的深度分析,也為發(fā)掘關(guān)聯(lián)數(shù)據(jù)集中有價(jià)值的知識(shí)提供了新方法。
(1)SWJ Portal。SWJ是語義網(wǎng)領(lǐng)域的一個(gè)開放存儲(chǔ)期刊,該期刊的內(nèi)容管理系統(tǒng)中采集了大量科學(xué)論文元數(shù)據(jù)、科學(xué)論文全文、學(xué)者信息和評(píng)審人信息,同時(shí)也收集了評(píng)審人的審稿意見和論文的修改版本等信息[24]。SWJ Portal是加州大學(xué)圣塔芭芭拉分校STKO實(shí)驗(yàn)室(Space and Time Knowledge Organization, STKO)的研究人員在SWJ數(shù)據(jù)集上構(gòu)建了可視化Web應(yīng)用。SWJ Portal通過對(duì)原始的關(guān)系型數(shù)據(jù)庫進(jìn)行挖掘和語義轉(zhuǎn)換,構(gòu)建了蘊(yùn)含深度隱性關(guān)系的關(guān)聯(lián)數(shù)據(jù),采用Highcharts可視化類庫分模塊、分層次的展示論文作者的地域分布、合作者網(wǎng)絡(luò)以及論文主題的演化趨勢(shì)等[25]。
SWJ Portal采用Jena的TDB存儲(chǔ)器存儲(chǔ)RDF關(guān)聯(lián)數(shù)據(jù)集,以Fuseki作為SPARQL查詢終端,構(gòu)建客戶端和服務(wù)器端架構(gòu)的可視化應(yīng)用(見圖4)。SWJ Portal的工作原理為:①可視化界面采用JavaScript的ExtJS①類庫設(shè)計(jì)可視化界面,結(jié)合Highcharts可視化類庫展示關(guān)聯(lián)數(shù)據(jù)分析結(jié)果;②服務(wù)器端可視化模塊由一系列封裝好的SPARQL查詢式組成,負(fù)責(zé)與關(guān)聯(lián)數(shù)據(jù)集查詢終端進(jìn)行交互;③客戶端與服務(wù)器端的交互采用Ajax來實(shí)現(xiàn),根據(jù)不同的分析功能調(diào)用不同的可視化模塊,并將SPARQL查詢結(jié)果以JSON數(shù)據(jù)格式返回客戶端的圖形。
(2)VIZ-VIVO。VIVO(社交網(wǎng)絡(luò)型的科研臉譜網(wǎng))是康奈爾大學(xué)在2004年啟動(dòng)的項(xiàng)目,旨在方便科研人員通過科研社區(qū)進(jìn)行交流,從而尋找同行并促成合作。VIVO項(xiàng)目采用關(guān)聯(lián)數(shù)據(jù)技術(shù)將科研人員、機(jī)構(gòu)和學(xué)術(shù)信息等彼此關(guān)聯(lián)起來,并提供與外部相關(guān)信息的關(guān)聯(lián),目前有25個(gè)國家的140多個(gè)機(jī)構(gòu)實(shí)施了VIVO項(xiàng)目[26]。
VIZ-VIVO是在VIVO項(xiàng)目上的擴(kuò)展,目的是以可視化圖形展示VIVO數(shù)據(jù)中潛在知識(shí),幫助科研人員發(fā)現(xiàn)潛在學(xué)術(shù)合作者、學(xué)者研究主題或?qū)W者間合作網(wǎng)絡(luò)等[27]。如VIZ-VIVO中“學(xué)者-主題”網(wǎng)絡(luò)圖可以清晰展示學(xué)者與主題的關(guān)系,選中學(xué)者會(huì)展示其研究主題,選中主題會(huì)展示研究該主題的所有學(xué)者(見圖5)。
VIZ-VIVO的工作原理為:①采用D3可視化類庫展示VIVO中隱含的知識(shí),通過Ajax向服務(wù)器端發(fā)送數(shù)據(jù)請(qǐng)求;②服務(wù)器端的配置文件根據(jù)瀏覽器端不同可視化請(qǐng)求分配不同SPARQL查詢模塊,然后將查詢結(jié)果以Json數(shù)據(jù)格式返回瀏覽器端可視化展示。
(3)歐洲的關(guān)聯(lián)高校項(xiàng)目。Linked Universities[28](關(guān)聯(lián)的大學(xué))是歐洲多所高校間的聯(lián)盟,致力于將高校的各類開放數(shù)據(jù)(如學(xué)術(shù)成果信息、教職工人事信息、課程信息和學(xué)生信息等)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。目前,Linked Universities聯(lián)盟中有10所大學(xué)對(duì)其關(guān)聯(lián)數(shù)據(jù)集開放了SPARQL查詢終端,提供了訪問和使用高校開放數(shù)據(jù)集的新方式。在這10所大學(xué)中僅有Aalto大學(xué)設(shè)計(jì)了關(guān)聯(lián)數(shù)據(jù)集可視化分析平臺(tái),采用Google Charts圖形庫的餅圖或柱狀圖來展示學(xué)生選課信息、教學(xué)單位教師數(shù)量等[29]。此外,高級(jí)用戶可以在可視化分析平臺(tái)的SPARQL查詢窗口中構(gòu)建SPARQL查詢式,查詢結(jié)果以“屬性-屬性值”的形式返回,然后采用Google Charts提供的圖形編輯器以合適圖形展示查詢結(jié)果。
4.2 關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用分析
根據(jù)三個(gè)關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用實(shí)現(xiàn)方式的不同,本文分別從客戶端的實(shí)現(xiàn)技術(shù)、客戶端和服務(wù)器端交互方式、可視化工具的類型、數(shù)據(jù)存儲(chǔ)與查詢接口的設(shè)計(jì)方式對(duì)所調(diào)研的關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用進(jìn)行對(duì)比(見表3)。
(1)客戶端的實(shí)現(xiàn)技術(shù):以富客戶端技術(shù)和普通HTML來實(shí)現(xiàn)。富客戶端技術(shù)主要基于JavaScript開源類庫有較好的用戶體驗(yàn),且可視化模塊間相互獨(dú)立易于維護(hù)及可視化功能擴(kuò)展。
(2)客戶端和服務(wù)器端交互方式:主要有Ajax技術(shù)、傳統(tǒng)的Web交互技術(shù)。數(shù)據(jù)請(qǐng)求主要通過調(diào)用應(yīng)用系統(tǒng)封裝的SPARQL語句和用戶自行構(gòu)造SPARQL查詢式來實(shí)現(xiàn)。與傳統(tǒng)的Web交互技術(shù)相比,Ajax以數(shù)據(jù)交互為主導(dǎo),無需重新刷新頁面即可實(shí)現(xiàn)客戶端和服務(wù)器端的數(shù)據(jù)交互。
(3)可視化展示方式:以Highcharts、D3、Google Charts為代表的開源可視化類庫。
(4)數(shù)據(jù)存儲(chǔ)與查詢接口:采用JenaTDB存儲(chǔ)器存儲(chǔ)關(guān)聯(lián)數(shù)據(jù),Jean Fuseki負(fù)責(zé)提供數(shù)據(jù)訪問的接口;系統(tǒng)自己的存儲(chǔ)器存儲(chǔ)關(guān)聯(lián)數(shù)據(jù),并提供數(shù)據(jù)訪問接口。
從所調(diào)研的關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用詳情來看,SWJ Portal、VIZ-VIVO和Aalto大學(xué)的可視化應(yīng)用都是在各自關(guān)聯(lián)數(shù)據(jù)集上通過SPARQL查詢端口構(gòu)建Web應(yīng)用。Aalto大學(xué)的關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用,不僅提供簡單的可視化統(tǒng)計(jì),同時(shí)為高級(jí)用戶提供了SPARQL查詢窗口,并可視化展示查詢結(jié)果。而其它兩個(gè)可視化Web應(yīng)用都不需用戶自行構(gòu)造SPARQL查詢式,均提供用戶直接訪問的頁面。
SWJ Portal和VIZ-VIVO均采用數(shù)據(jù)挖掘技術(shù)對(duì)其數(shù)據(jù)進(jìn)行了深入挖掘并以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布,譬如學(xué)者研究主題挖掘、作者機(jī)構(gòu)地理位置提取等。與VIZ-VIVO不同的是,SWJ Portal集成了許多外部開放的數(shù)據(jù),如微軟學(xué)術(shù)研究(Microsoft Academic Search,MAS)包括大量開放的學(xué)術(shù)作品和學(xué)者數(shù)據(jù)。SWJ Portal利用外部開放數(shù)據(jù)對(duì)作者進(jìn)行重名消歧,獲取每個(gè)作者的唯一所屬機(jī)構(gòu),通過作者機(jī)構(gòu)信息獲取機(jī)構(gòu)所在地理位置,進(jìn)而可視化展示每篇論文引文的地理空間分布。
4.3 關(guān)聯(lián)數(shù)據(jù)可視化分析框架
通過上述調(diào)研工作,本文提出了關(guān)聯(lián)數(shù)據(jù)可視化分析技術(shù)框架,該框架主要包括四個(gè)部分:關(guān)聯(lián)數(shù)據(jù)發(fā)布存儲(chǔ)、數(shù)據(jù)查詢與格式轉(zhuǎn)換、數(shù)據(jù)請(qǐng)求控制層和數(shù)據(jù)可視化(見圖6)。
(1)關(guān)聯(lián)數(shù)據(jù)集存儲(chǔ):將數(shù)據(jù)源進(jìn)行語義描述,形成資源間相互關(guān)聯(lián)的語義化RDF數(shù)據(jù),采用三元組存儲(chǔ)器Jena TDB存儲(chǔ)RDF數(shù)據(jù)集。此外,針對(duì)不同的數(shù)據(jù)源可以適當(dāng)采用數(shù)據(jù)挖掘或文本挖掘方法,提取數(shù)據(jù)源中有價(jià)值的知識(shí),在此基礎(chǔ)上進(jìn)行RDF數(shù)據(jù)可視化將會(huì)提高知識(shí)發(fā)現(xiàn)能力。
(2)數(shù)據(jù)查詢與格式轉(zhuǎn)換:由Jena的Fuseki提供SPARQL查詢的訪問接口,以響應(yīng)可視化應(yīng)用的數(shù)據(jù)請(qǐng)求。從Jena TDB存儲(chǔ)器獲取請(qǐng)求數(shù)據(jù)后,為了滿足可視化圖形的數(shù)據(jù)格式,需對(duì)獲取的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,如xml數(shù)據(jù)格式。
(3)數(shù)據(jù)請(qǐng)求控制層:數(shù)據(jù)請(qǐng)求控制器負(fù)責(zé)分發(fā)數(shù)據(jù)可視化層的數(shù)據(jù)請(qǐng)求,并指定給某一個(gè)可視化分析模型,可視化分析模型由多個(gè)封裝的SPARQL查詢表達(dá)式組成。同時(shí),可視化分析模塊可以通過查詢其他開放關(guān)聯(lián)數(shù)據(jù)集來豐富或者集成已有的關(guān)聯(lián)數(shù)據(jù),使可視化結(jié)果能發(fā)現(xiàn)更多有價(jià)值的信息。
(4)數(shù)據(jù)可視化:圖形化展示采用開源的D3或Highcharts等可視化圖形庫,這些圖形庫對(duì)JSON/XML格式數(shù)據(jù)有良好支持,且內(nèi)部封裝了Ajax請(qǐng)求無需過多修改即可完成數(shù)據(jù)請(qǐng)求的發(fā)送與接收。此外,可視化類庫創(chuàng)新的拖拽重計(jì)算、豐富的圖形視圖大大增強(qiáng)了用戶體驗(yàn)和數(shù)據(jù)圖形化展示能力。
5 結(jié)語
隨著關(guān)聯(lián)數(shù)據(jù)的發(fā)展,大量結(jié)構(gòu)化數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)形式被發(fā)布到網(wǎng)絡(luò)上,如何消費(fèi)和使用關(guān)聯(lián)數(shù)據(jù)集成為當(dāng)前研究的主要問題。關(guān)聯(lián)數(shù)據(jù)可視化可以直觀、清晰地展示關(guān)聯(lián)數(shù)據(jù),有較高的用戶接受度,一定程度上幫助人們從關(guān)聯(lián)數(shù)據(jù)中獲取有價(jià)值的知識(shí)。
通過對(duì)關(guān)聯(lián)數(shù)據(jù)可視化相關(guān)文獻(xiàn)和工具進(jìn)行調(diào)研分析,本文得出以下結(jié)論:
(1)本體是一種特殊的關(guān)聯(lián)數(shù)據(jù),本體可視化更加注重圖形化表示,目的是讓用戶快速理解本體的整體結(jié)構(gòu)和內(nèi)部關(guān)系。本體可視化逐漸從只有專家用戶使用轉(zhuǎn)變到普通用戶使用,展現(xiàn)形式也趨向于生動(dòng)的圖形化以便于用戶理解。同時(shí),本體可視化工具也提供在線服務(wù),用戶直接通過瀏覽器進(jìn)行訪問和使用,不僅增加交互性,也使用戶免于工具配置的負(fù)擔(dān),主要在線可視化工具有WebProtégé和WebVOWL。
(2)關(guān)聯(lián)數(shù)據(jù)集列表形式瀏覽是關(guān)聯(lián)數(shù)據(jù)最基本的可視化方式,以“屬性-屬性值”對(duì)形式展示三元組數(shù)據(jù),屬性通常來自于本體或元數(shù)據(jù)標(biāo)準(zhǔn),然而對(duì)于不熟悉詞表或本體含義的普通用戶來說很難發(fā)現(xiàn)有價(jià)值的信息;其次,當(dāng)前關(guān)聯(lián)數(shù)據(jù)集均提供HTML和RDF兩種表示格式,通過HTTP協(xié)議的內(nèi)容協(xié)商機(jī)制,用戶采用傳統(tǒng)的HTML瀏覽器就可以實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)集的“屬性-屬性值”列表式瀏覽。因此,提供列表式瀏覽的RDF數(shù)據(jù)瀏覽器(或插件)目前已逐漸被淘汰。
(3)關(guān)聯(lián)數(shù)據(jù)圖形化瀏覽是關(guān)聯(lián)數(shù)據(jù)可視化瀏覽的發(fā)展趨勢(shì),主要采用可視化插件和遠(yuǎn)程服務(wù)的方式實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)可視化,通過采用各類圖形(如Google Charts的餅圖、折線圖和散點(diǎn)圖等)呈現(xiàn)數(shù)據(jù)集,能夠直觀地展示數(shù)據(jù)集中各類實(shí)體間的關(guān)系或統(tǒng)計(jì)相關(guān)的實(shí)例,并相對(duì)于列表式瀏覽有更好的用戶體驗(yàn)。圖形化瀏覽的關(guān)鍵是SPARQL查詢式的構(gòu)建,有些圖形化瀏覽工具需要用戶自行構(gòu)造SPARQL查詢語句(如Sgvizler),這對(duì)普通用戶具有很大挑戰(zhàn),但是其可以根據(jù)用戶需求來有針對(duì)性的可視化展示數(shù)據(jù)。那些不需要用戶構(gòu)建SPARQL查詢或通過簡單配置就可以使用的工具將會(huì)逐漸受到青睞,如針對(duì)語義化數(shù)據(jù)表的Cubeviz、發(fā)現(xiàn)數(shù)據(jù)集中實(shí)體關(guān)系的RelFinder以及分層展示關(guān)聯(lián)數(shù)據(jù)集的SynopsViz。
(4)關(guān)聯(lián)數(shù)據(jù)可視化Web應(yīng)用直接提供在線的可視化服務(wù),屏蔽了關(guān)聯(lián)數(shù)據(jù)集查詢、可視化插件或工具配置的復(fù)雜性,將會(huì)是未來關(guān)聯(lián)數(shù)據(jù)消費(fèi)的新方式。關(guān)聯(lián)數(shù)據(jù)可視化Web應(yīng)用可以結(jié)合關(guān)聯(lián)數(shù)據(jù)集的特點(diǎn),針對(duì)特定任務(wù)和需求挖掘關(guān)聯(lián)數(shù)據(jù)集的知識(shí),如對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充或者挖掘數(shù)據(jù)隱含的知識(shí),進(jìn)而發(fā)布為關(guān)聯(lián)數(shù)據(jù)增加其知識(shí)可視化能力。國外關(guān)聯(lián)數(shù)據(jù)可視化Web應(yīng)用取得了一定的進(jìn)展,但國內(nèi)尚未有關(guān)聯(lián)數(shù)據(jù)可視化Web應(yīng)用的研究,大都是基于可視化工具的簡單應(yīng)用研究。通過對(duì)關(guān)聯(lián)數(shù)據(jù)可視化應(yīng)用相關(guān)技術(shù)和功能的分析,我們提出了通用的關(guān)聯(lián)數(shù)據(jù)可視化分析框架,該框架包括四個(gè)部分:關(guān)聯(lián)數(shù)據(jù)發(fā)布存儲(chǔ)、數(shù)據(jù)查詢與格式轉(zhuǎn)換、數(shù)據(jù)請(qǐng)求控制層和數(shù)據(jù)可視化,每部分都有獨(dú)立的功能來處理且相互關(guān)聯(lián),借助Web服務(wù)器(如Tomcat)來實(shí)現(xiàn)可視化應(yīng)用。在后續(xù)研究中,我們將探索科學(xué)論文書目數(shù)據(jù)深度語義化問題,深入挖掘科學(xué)論文書目數(shù)據(jù)中隱含的知識(shí)并構(gòu)建關(guān)聯(lián)數(shù)據(jù),在此基礎(chǔ)上實(shí)現(xiàn)科學(xué)論文關(guān)聯(lián)數(shù)據(jù)集的交互式可視化。
參考文獻(xiàn):
[1] The Linking Open Data cloud diagram[EB/OL].[2018-02-26].http://lod-cloud.net/.
[2] Seventh International Workshop on Consuming Linked Data[EB/OL].[2018-03-22].https://www.dcc.uchile.cl/cold2016/.
[3] Visualization and Interaction for Ontologies and Linked Data[EB/OL].[2018-03-27].http://voila2016.visualdataweb.org/.
[4] Call for Papers:Special Issue on"Visual Exploration and Analysis of Linked Data"[EB/OL].[2018-03-27].http://www.semantic-web-journal.net/blog/call-papers-special-issue-visual-exploration-and-analysis-linked-data.
[5] 洪娜,錢慶,范煒,等.關(guān)聯(lián)數(shù)據(jù)中關(guān)系發(fā)現(xiàn)的可視化實(shí)踐[J].現(xiàn)代圖書情報(bào)技術(shù),2013(2):11-17.
[23] Bikakis N,Skourla M,Papastefanatos G.rdf:SynopsViz-a framework for hierarchical linked data visual exploration and analysis[A].European Semantic Web Conference:ESWC 2014[C].Springer International Publishing,2014:292-297.
[24] McKenzie G,Janowicz K,Hu Y,et al.Linked scientometrics:designing interactive scientometrics with linked data and semantic web reasoning[A].Proceedings of the 2013th International Conference on Posters & Demonstrations Track-Volume 1035[C].CEUR-WS.org,2013:53-56.
[25] Hu Y,Janowicz K,Mckenzie G,et al.A Linked-Data-Driven and Semantically-Enabled Journal Portal for Scientometrics[A].International Semantic Web Conference[C].Springer-Verlag New York,Inc,2013:114-129.
[26] About VIVO[EB/OL].[2017-10-16].http://vivoweb.org/info/about-vivo.
[27] Javed M,Payette S,Blake J,et al.VIZ-VIVO:Towards Visualizations-driven Linked Data Navigation[A].Visualization and Interaction for Ontologies and Linked Data(VOILA!2016)[C].2016:80-92.
[28] Linked Universities[EB/OL].[2017-10-22].http://linkeduniversities.org/lu/index.php/datasets-and-endpoints/.
[29] Alonen M,Kauppinen T,Suominen O,et al.Exploring the Linked University Data with Visualization Tools[A].European Semantic Web Conference:ESWC 2013[C].Springer Berlin Heidelberg,2013:204-208.
作者簡介:曲佳彬,男,南京大學(xué)信息管理學(xué)院博士研究生、煙臺(tái)大學(xué)圖書館館員;歐石燕,女,南京大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師。