国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

博物館館藏文物數(shù)據(jù)可視化分析?

2019-11-29 06:15李明灝
關(guān)鍵詞:代表性矩形類別

李明灝 潘 剛

(1.天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300350)(2.天津大學(xué)軟件學(xué)院 天津 300350)

1 引言

隨著數(shù)字化技術(shù)的發(fā)展,通過數(shù)字化技術(shù)產(chǎn)生的文物數(shù)字化數(shù)據(jù)變得越來越龐大。這些文物數(shù)據(jù)包含時(shí)間、空間以及其他多維的信息結(jié)構(gòu)十分復(fù)雜。這些數(shù)據(jù)從全國收集而來包含大量的歷史信息。然而對于文物研究人員來說在沒有工具幫助的情況下分析如此龐大的數(shù)據(jù)是一件十分困難的事情。不同文物領(lǐng)域的專家在進(jìn)行研究的過程中往往只能關(guān)注其自身研究領(lǐng)域中的信息,而且現(xiàn)在文物的研究工作通常只能依賴研究人員自身的專業(yè)知識的積累。因此,需要一個(gè)可以幫助文物專家和研究人員收集、分析以及可視化文物數(shù)據(jù)的工具。然而對于文物數(shù)據(jù)進(jìn)行可視化和數(shù)據(jù)挖掘面臨著大量的挑戰(zhàn)。首先,文物數(shù)據(jù)中包含了文物的朝代信息,文物的出土信息,這就意味著文物數(shù)據(jù)即有時(shí)間屬性,也有空間屬性,屬于時(shí)空數(shù)據(jù)。而對時(shí)空數(shù)據(jù)進(jìn)行可視化往往是一個(gè)巨大的挑戰(zhàn)。其次,文物數(shù)據(jù)是一種多維的數(shù)據(jù)。最后,對于一個(gè)國家來說它的歷史往往是十分復(fù)雜的,這就意味著在對文物數(shù)據(jù)進(jìn)行可視化的過程中將會(huì)面臨著如何保證時(shí)間清晰的問題。

本文研究的主要內(nèi)容為對博物館的館藏?cái)?shù)據(jù)進(jìn)行可視化分析。本文的重點(diǎn)是構(gòu)建可以清晰地展示多維的文物時(shí)空數(shù)據(jù)的可視化工具,并使用這些工具獲取文物數(shù)據(jù)中可能隱藏的信息或關(guān)聯(lián)。本文從全國可移動(dòng)文物登錄網(wǎng)獲得文物數(shù)據(jù),這些數(shù)據(jù)為全國第一次可移動(dòng)文物普查后公開的部分?jǐn)?shù)據(jù)。本文為文物專家提供了一種高效分析結(jié)構(gòu)復(fù)雜的文物數(shù)據(jù)的方法。首先,本文研究了顏色分配方案,使得在面對大量的文物特征是可以為每一個(gè)特征分配合理的代表顏色。然后,本文使用矩形地圖對文物數(shù)據(jù)的時(shí)空屬性進(jìn)行可視化,同時(shí)輔以其他工具來詳細(xì)地展示文物數(shù)據(jù)。每一種工具都容易理解且便于使用。

本文的貢獻(xiàn)主要有:

1)針對面向大量特征的顏色分配方式進(jìn)行研究。

2)使用復(fù)合的可視化工具對結(jié)構(gòu)復(fù)雜的多維時(shí)空文物數(shù)據(jù)進(jìn)行可視化。這些工具為矩形地圖、流動(dòng)圖、U-Matrix圖。同時(shí)提出一種基于坐標(biāo)的矩形地圖的繪制方式。

3)通過對中國山西省博物館在不同時(shí)代的代表性文物類別進(jìn)行分析以驗(yàn)證本文提出的方法。

2 相關(guān)工作

針對存儲(chǔ)文物復(fù)雜的時(shí)空數(shù)據(jù),可視化的表示方法有助于數(shù)據(jù)的使用以及人員對數(shù)據(jù)進(jìn)行分析?,F(xiàn)有的關(guān)于時(shí)空數(shù)據(jù)的可視化的研究有很多傳統(tǒng)的信息圖表可以用于多維數(shù)據(jù)的可視化,例如:表、直方圖、散點(diǎn)圖和餅圖等。這些信息圖表可以通過一些技術(shù)而更好地進(jìn)行探索性的數(shù)據(jù)分析和信息可視化,例如:散點(diǎn)圖矩陣[1],矩陣排列[2],通過像素方向的方法[3],以及并行坐標(biāo)圖的方法[4]。同時(shí)還有通過將傳統(tǒng)的條形統(tǒng)計(jì)圖同基于像素的技術(shù)相結(jié)合來對大量數(shù)據(jù)的絕對類型和數(shù)值類型進(jìn)行可視化[5]。由于展示空間是有限的,為了能更好地展示多維的數(shù)據(jù),通常會(huì)通過降維技術(shù)將多維數(shù)據(jù)投影到低維的平面,例如:多維排列[6~7],主成分分析法或其他的投影追蹤法。提供一個(gè)可以同時(shí)全方位的審查大量信息的方法是不現(xiàn)實(shí)的。

為了可以為用戶提供更好的信息的展示方式,Edward Segel 和Jeffrey Heer 對可視化講述數(shù)據(jù)方式進(jìn)行了研究[8]。如今同樣還有大量的針對不同數(shù)據(jù)的可視化分析工具,這些數(shù)據(jù)分析工具可以幫助用戶自由的對數(shù)據(jù)進(jìn)行探索[9]。用于可視化分析的技術(shù)多種多樣,例如:基于密度圖的可視化,信息可視化技術(shù),基于樹圖的可視化[10]等。同時(shí)很多的可視化分析系統(tǒng)還提供了大量的交互操作。Nivan Ferreira 等對通過可視化對城市的時(shí)空大數(shù)據(jù)進(jìn)行了研究[11]構(gòu)建了一個(gè)系統(tǒng),結(jié)合了多種交互功能,使用戶能夠?qū)?shù)據(jù)的所有維度進(jìn)行查詢。Abish Malik等提出了一個(gè)視覺分析系統(tǒng),探索在給定的數(shù)據(jù)集在不同層次的空間聚集的時(shí)間相關(guān)性[12]。為了可以更好地分析數(shù)據(jù)中的時(shí)間屬性的影響Yifan Wu 等通過四個(gè)模塊來分析學(xué)生在校園的活動(dòng)和消費(fèi)數(shù)據(jù),從而分析了解學(xué)生的表現(xiàn)[13]。除此之外,還有很多形態(tài)各異的可視化分析工具。如A. Malizia 等提出了一個(gè)新的Web 混搭系統(tǒng),幫助人們和專業(yè)人員檢索有關(guān)緊急情況和災(zāi)難的信息[14]。Diansheng Guo 等提出了一個(gè)為時(shí)空和多維模式數(shù)據(jù)開發(fā)的系統(tǒng)[15]。這些工具從各方面對時(shí)空數(shù)據(jù)進(jìn)行了可視化。

3 文物多維時(shí)空數(shù)據(jù)可視化

3.1 面向大量特征的顏色分配方案

對于文物數(shù)據(jù),其通常擁有大量的特征。比如文物的所述朝代就有大量的可能性,在中國就出現(xiàn)過40 多個(gè)朝代。文物的類別特征的數(shù)據(jù)也很多,在第一次全國可移動(dòng)文物普查中就確定的35 個(gè)不同的文物分類。面對這種特征數(shù)量很多的情況,需要一個(gè)合適的顏色分配方案,同時(shí)需要可以高效展示特征之間聯(lián)系的模型。

本文使用CIELAB 顏色空間來進(jìn)行顏色分配,選擇CIELAB 顏色空間是因?yàn)檫@是一個(gè)均勻的顏色空間,所謂的均勻的顏色空間是指當(dāng)顏色空間內(nèi)的數(shù)值均勻變化時(shí),人對于顏色變化的感官也是均勻的。

為了充分的使用顏色空間,本文使用一個(gè)復(fù)合函數(shù)在顏色空間中進(jìn)行顏色分配。

其中L*,a*,b*表示在CIELAB 顏色空間中的亮度,紅色、品紅和綠色之間的位置,黃色和藍(lán)色之間的位置。函數(shù)f(a*)和f(b*)是偶函數(shù)并且構(gòu)造相同,只有自變量不同。在進(jìn)行顏色分配的時(shí)候?qū)τ诤瘮?shù)的參數(shù)進(jìn)行調(diào)整可以獲得不同的效果。圖1 為在接近0 時(shí)有更大的梯度變化的單調(diào)遞減的凸函數(shù)對文物類別進(jìn)行顏色分配的結(jié)果。

圖2 使用U-Matrix表示文物類別之間的關(guān)系和該類文物的數(shù)量

本文使用U-Matrix 圖來展示文物特征之間的相關(guān)性。U-Matrix中的一個(gè)圓形表示一類特征,圓形的大小表示有該特征的文物的數(shù)量。圓越大有該特征的文物的數(shù)量越多。兩個(gè)圓之間的六邊形的顏色的深淺表示特征之間的相似程度,顏色越淺表示兩個(gè)特征越相似。圖2 為U-Matrix 的一個(gè)實(shí)例,圖中的每一個(gè)圓形表示一種文物的類別。每兩個(gè)圓形之間的六邊形的灰度表示兩個(gè)類別之間的相似程度,兩個(gè)類別越相似則顏色越淺。

3.2 基于矩形地圖的文物數(shù)據(jù)可視化

本文使用矩形地圖[16]對文物數(shù)據(jù)進(jìn)行可視化。我們認(rèn)為使用這樣的方式會(huì)使用戶將精力分散在其他的額外的信息上,使用戶的集中力下降。因此本文使用矩形地圖展示文物數(shù)據(jù)的空間信息,矩形地圖可以將不必要的信息進(jìn)行過濾同時(shí)保留用戶更加有關(guān)系的位置的信息。

如圖3 是一個(gè)矩形地圖的實(shí)例。其中展示了文物數(shù)據(jù)的相對位置關(guān)系,并且通過矩形的大小以及填充顏色為用戶提供文物的其他特征信息。

圖3 展示的信息數(shù)據(jù)為山西省的博物館中具有代表性的文物的類別。圖中的每一個(gè)矩形表示一個(gè)博物館,矩形的顏色表示博物館代表性文物的類別,矩形的大小則與博物館館藏文物數(shù)量相關(guān)。在繪制矩形地圖時(shí),本文引入了tanh函數(shù)來計(jì)算矩形地圖中的矩形的大小,以此來解決由于各個(gè)博物館的藏品數(shù)量可能存在巨大的差異導(dǎo)致的矩形地圖中缺乏層次的問題,比如山西博物院所藏的文物數(shù)量遠(yuǎn)遠(yuǎn)大于其他位于山西省的博物館,若使矩形的大小與館藏文物數(shù)量成正比會(huì)導(dǎo)致矩形地圖中山西博物院過于龐大同時(shí)由于比例的關(guān)系表示其他的博物館的矩形的大小將會(huì)缺乏層次。

圖3 矩形地圖實(shí)例,表示山西省主要的博物館從整體來看具有的代表性文物的類別。

為了使矩形地圖可以展示文物數(shù)據(jù)中的時(shí)間屬性,本文將多個(gè)矩形地圖組合到一起構(gòu)成一個(gè)矩形地圖集,在這個(gè)矩形地圖的集合中,每一個(gè)地圖用于展示一個(gè)朝代分類,這樣就可以使用矩形地圖來簡單地展示時(shí)間屬性。

3.3 基于坐標(biāo)的矩形地圖繪制方法

為了創(chuàng)建矩陣地圖,我們通過百度地圖提供的API 獲得了每一個(gè)博物館的經(jīng)緯度坐標(biāo)。與使用矩形地圖模擬真實(shí)地圖不同,使用坐標(biāo)進(jìn)行矩形地圖的繪制會(huì)出現(xiàn)缺少每個(gè)矩形之間的鄰接關(guān)系的情況,為此本文提出了一個(gè)基于坐標(biāo)的矩陣圖繪制方法。

算法1:于坐標(biāo)的矩陣圖繪制方法

1)令集合M={m1,m2,m3…mn}表示需要?jiǎng)?chuàng)建的矩形的集合,并初始化集合A和B令A(yù)=M,B為空集。

2)從M 中選擇核心矩形mc并繪制,核心矩形可從多方面選擇如矩形的位置或大小。令A(yù)=Mmc,B={mc}。

3)從A中選擇距離B最近的矩形m',即:

4)計(jì)算m'與mc之間的距離d,從A 中找出所有與mc的距離小于d的矩形構(gòu)成集合C,即:

5)從C 中選擇距離B 最近的矩形m 進(jìn)行繪制,若C 為空集則令m=m'并繪制。令A(yù)=A-m,B=B+m。

6)回到3),若A為空集則結(jié)束。

這種方式進(jìn)行繪制的思路是從核心的矩形開始向外面一層一層的輻射的進(jìn)行繪制,這種方式可以避免只選擇距離已經(jīng)繪制過的矩形最近的為繪制的矩形的方式造成的由于選擇的方式是呈螺旋行的導(dǎo)致后面要繪制的矩形缺少足夠的空間進(jìn)行繪制,造成結(jié)果中出現(xiàn)大量的矩形相重疊的情況。

4 實(shí)例應(yīng)用:博物館代表性文物類別分析

接下來本文將基于矩形地圖對博物館代表性文物類別進(jìn)行分析,本節(jié)首先將介紹如何評估博物館的代表性文物類別,之后將基于矩形地圖對數(shù)據(jù)中位于山西省的博物館進(jìn)行分析。

4.1 館藏代表性文物類別評估

本文使用一個(gè)加權(quán)公式計(jì)算每個(gè)博物館的代表性文物類別:

該加權(quán)公式由三部分組成。ni為某博物館屬于年代分類i 的文物的數(shù)量,Nc為某類文物在數(shù)據(jù)中的總量,Np為某類文物所在博物館的省份的所有的博物館一共藏有的該類文物的數(shù)量,Nm表示博物館藏有的文物的總數(shù)。

該公式使用三項(xiàng)分別從全國的層面,博物館所在省的層面以及博物館自身的層面來評估一個(gè)博物館的代表性文物類別。通過得公式中的權(quán)重進(jìn)行調(diào)整,研究人員可以自由的決定三項(xiàng)在評估博物館代表性文物類別時(shí)的重要程度。

若使用人員認(rèn)為三項(xiàng)中館藏?cái)?shù)量占比對于決定代表性文物類別更為重要,可以將權(quán)重設(shè)定為0.25,0.25,0.5 這樣就可以保證第三項(xiàng)在最終決定文物占有較大的比重。若使用人員認(rèn)為館藏文物數(shù)量的占比對于決定代表性文物類別完全沒有意義,則可以將權(quán)重設(shè)定為0.5,0.5,0 這樣就可以排除最后一項(xiàng),將館藏文物的代表性只交由前兩項(xiàng)來決定。

接下來將以矩形地圖為主,通過多種工具對數(shù)據(jù)中所有山西省的博物館在各個(gè)年代分類中的代表性文物類別。選擇山西省首先是因?yàn)閿?shù)據(jù)中一共有300 多個(gè)博物館,全部進(jìn)行分析數(shù)量太多了,而山西省是一個(gè)文物大省,分析山西省既可以減少博物館的數(shù)量,同時(shí)也可以保證數(shù)據(jù)的數(shù)量。

4.2 館藏代表性文物可視化分析

在全國第一次可移動(dòng)文物普查文物被分為了35 類,本文的數(shù)據(jù)來源于全國第一次可移動(dòng)文物普查,因此本文數(shù)據(jù)中的文物也分為35 類。但是文物分類在文物領(lǐng)域中也是一件十分復(fù)雜的工作,文物可以從材質(zhì)、用途、朝代等各個(gè)角度進(jìn)行分類,但是這些分類方式總是難以滿足全部的需求。全國第一次可移動(dòng)文物普查中文物雖然被分為了35類,但是這種分類方式中既包含了從材質(zhì)方面的分類,如銅器、金銀器等,又包含了基于用途的分類方式,如交通運(yùn)輸工具、文具等。為了可以更加明確這些類別之間的關(guān)系,使類別相近的文物獲得相近的代表顏色,本文基于數(shù)據(jù)中的質(zhì)地字段對文物類別進(jìn)行了聚類。

首先統(tǒng)計(jì)各類別中各種質(zhì)地的文物的數(shù)量,計(jì)算出各種類別的各種質(zhì)地文物所占的比例,構(gòu)成一個(gè)25維的向量。將數(shù)據(jù)中的35類文物類別都統(tǒng)計(jì)之后將會(huì)獲得一個(gè)35×25 的矩陣,矩陣中的一行表示一類文物種類中各種質(zhì)地的文物所占的比例。之后使用層次聚類對這35 類文物類別進(jìn)行聚類,依次獲得各類文物之間的相似性。

通過聚類的結(jié)果對顏色分配方式進(jìn)行了調(diào)整,使關(guān)聯(lián)較強(qiáng)的文物類別的顏色更為相似,最終的結(jié)果如圖4(b)所示。同時(shí)使用U-Matrix 來表示各類別的文物的數(shù)量以及各類別之間的關(guān)聯(lián)度,結(jié)果如圖4(a)所示。

圖4 顏色分配結(jié)果和各類文物的相似性,兩類文物之間的顏色越淺表示兩類文物從質(zhì)地層面更加相似,圓圈越大表明該類文物數(shù)量越多。

之后使用圖4 中的顏色分配方式我們使用矩形地圖將數(shù)據(jù)中所有山西省的博物館的代表性文物類別進(jìn)行展示,如圖5 所示。同時(shí)由于文物數(shù)據(jù)中時(shí)間維度包含了中國從古至今的說有朝代,使得文物數(shù)據(jù)中的時(shí)間文物十分復(fù)雜。為了使數(shù)據(jù)中的時(shí)間維度可以清晰地展示出來,本文將中國的所有朝代歸為13 個(gè)朝代分類。從圖中可以一眼就看出擁有各個(gè)年代分類的文物的博物館的數(shù)量??梢钥吹街挥猩俨糠植┪镳^有夏朝的文物,這可能是因?yàn)橄某瘎?chuàng)建的時(shí)間過于久遠(yuǎn)。但是擁有考古學(xué)年代文物的博物館的數(shù)量卻多于擁有夏朝文物的博物館,這可能是因?yàn)殡m然考古學(xué)年代出現(xiàn)的時(shí)間更為久遠(yuǎn),但是考古學(xué)年代持續(xù)的時(shí)間確遠(yuǎn)遠(yuǎn)長于夏朝持續(xù)的時(shí)間??梢钥吹皆诳脊艑W(xué)年代大多數(shù)的博物館的代表性文物類別為陶器和玉石器、寶石類,有部分博物館的代表性文物類別的牙骨角器,只有山西博物院的代表性文物類別為樂器、法器類。還可以看到,瓷器最開始成為代表性文物類別的朝代分類是三國-晉-十六國-南北朝時(shí)期,之后出現(xiàn)的大量的以瓷器為代表性文物類別的博物館,同時(shí)我們也知道唐朝的瓷器是十分著名的。我們還可以看出山西省博物院的代表性文物類別往往與其他的博物館有很大的區(qū)別,這可能是由館藏文物的數(shù)量的差距造成的。從圖中還可以看到孝義市皮影木偶藝術(shù)博物館由于其博物館自身的性質(zhì),在明、清以及中華民國時(shí)期其代表性文物類別都是皮革類文物。

圖5 山西省主要博物館在不同的朝代分類時(shí)期的代表性文物類別以及各博物館之間的相對位置關(guān)系

由于山西博物院藏有文物的數(shù)量占數(shù)據(jù)中山西省的博物館的一半左右,為了可以更加清晰地展示山西博物院館藏文物的信息,本文使用流動(dòng)圖進(jìn)行了可視化展示。圖6 為山西博物院在各個(gè)朝代分類時(shí)期持有的文物數(shù)量的流動(dòng)圖,圖中對文物類別進(jìn)行了分類,分類方式是基于質(zhì)地的層次聚類,通過聚類將35類文物聚成15類。將聚類結(jié)果中每一類中的所有項(xiàng)的代表顏色,進(jìn)行平均獲得用于表示每一個(gè)聚類結(jié)果的顏色??梢钥吹缴轿鞑┪镌褐饕赜写罅康闹堋⒚?、清以及中華民國時(shí)期的文物,而在周這一時(shí)期藏品主要為銅器、錢幣。而到了明、清和中華民國時(shí)期則藏有大量的古籍圖書等類別的文物,這類文物的主要質(zhì)地為紙,同時(shí)也可以看到這類文物從秦-漢到三國時(shí)期才開始出現(xiàn)。我們還可以看到山西博物院藏有的甲骨和牙骨角器類別的文物之存在于周之前。流動(dòng)圖同時(shí)也印證了山西省所在地在中國歷史上的發(fā)展,在春秋時(shí)期晉作為春秋五霸之一使得當(dāng)?shù)厥址睒s,之后由于三家分晉使得山西地區(qū)沒落,而到了明清由于晉商的出現(xiàn)使得山西省所在地區(qū)再次繁榮起來。

圖6 山西博物院各個(gè)時(shí)期的各類文物數(shù)量,文物類別的歸類通過基于材質(zhì)的層次聚類獲得,x軸表示朝代分類,y軸可以計(jì)算出各類文物在某一朝代的數(shù)量。

5 結(jié)語

本文以矩形地圖為基礎(chǔ)設(shè)計(jì)了一系列的可視化的工具來幫助分析人員對文物的特性,時(shí)間屬性和空間屬性的關(guān)聯(lián)進(jìn)行分析。本文使用矩形地圖展示文物數(shù)據(jù)中的時(shí)間屬性和空間屬性,提出了一種基于坐標(biāo)的矩形地圖繪制方式。使用U-Matrix展示文物數(shù)據(jù)中各個(gè)特征的信息和關(guān)聯(lián)。并且針對文物數(shù)據(jù)中復(fù)雜的時(shí)間結(jié)構(gòu)的可視化問題提出了基于主要朝代的朝代分類以簡化時(shí)間結(jié)構(gòu)。通過這些工具研究人員可以方便對文物時(shí)空數(shù)據(jù)進(jìn)行分析。最后使用本文的可視化工具進(jìn)行了山西省的博物館代表性文物的分析證明了本文的可視化工具是可用的。接下來我們將進(jìn)一步完善本文的可視化工具,為其添加更豐富的功能以幫助文物專家更加效率的對文物數(shù)據(jù)進(jìn)行分析研究。

猜你喜歡
代表性矩形類別
非物質(zhì)文化遺產(chǎn)代表性傳承人
——呼光華
矩形面積的特殊求法
一起去圖書館吧
漳州市非物質(zhì)文化遺產(chǎn)代表性項(xiàng)目代表性傳承人名錄
致敬經(jīng)典
簡析基于概率預(yù)測的網(wǎng)絡(luò)數(shù)學(xué)模型建構(gòu)
從矩形內(nèi)一點(diǎn)說起
巧用矩形一性質(zhì),妙解一類題
七年級數(shù)學(xué)下冊期末檢測題(B)
選相紙 打照片