国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于OAI-PMH的元數(shù)據(jù)動(dòng)態(tài)更新模型的設(shè)計(jì)

2011-09-19 02:12王秀慧劉立云張鳳英
關(guān)鍵詞:系統(tǒng)資源訪問(wèn)量區(qū)間

王秀慧,劉立云,張鳳英

(山西大同大學(xué)教育科學(xué)與技術(shù)學(xué)院,山西大同 037009)

基于OAI-PMH的元數(shù)據(jù)動(dòng)態(tài)更新模型的設(shè)計(jì)

王秀慧,劉立云,張鳳英

(山西大同大學(xué)教育科學(xué)與技術(shù)學(xué)院,山西大同 037009)

針對(duì)OAI-PMH中服務(wù)提供方在收割數(shù)據(jù)提供方元數(shù)據(jù)時(shí)的時(shí)間滯后問(wèn)題和資源分配不合理的問(wèn)題,提出了一種可動(dòng)態(tài)更新的元數(shù)據(jù)同步模型。根據(jù)數(shù)據(jù)提供方元數(shù)據(jù)的更新周期,結(jié)合用戶對(duì)元數(shù)據(jù)的訪問(wèn)量,來(lái)動(dòng)態(tài)地調(diào)整服務(wù)提供方收割時(shí)間,以保證在合理利用系統(tǒng)資源的前期下,有效地實(shí)現(xiàn)數(shù)據(jù)提供方和服務(wù)提供方元數(shù)據(jù)的同時(shí)更新。

OAI;元數(shù)據(jù);服務(wù)提供方;數(shù)據(jù)提供方;動(dòng)態(tài)更新

OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting,簡(jiǎn)稱OAI)發(fā)展至今已有10多年的歷史,旨在以相對(duì)簡(jiǎn)單的、獨(dú)立于應(yīng)用程序外的元數(shù)據(jù)收割協(xié)議,來(lái)實(shí)現(xiàn)異構(gòu)分布元數(shù)據(jù)資源之間便捷的互操作[1]。OAI的工作原理比較簡(jiǎn)單。協(xié)議中定義了兩個(gè)角色:數(shù)據(jù)提供方(Data Provider,簡(jiǎn)稱DP)和服務(wù)提供方(Service Provider,簡(jiǎn)稱SP)。DP響應(yīng)來(lái)自SP的請(qǐng)求,以O(shè)AI所要求的XML格式向SP提供元數(shù)據(jù)。SP利用收割器向一個(gè)或多個(gè)DP構(gòu)建的系統(tǒng)收割元數(shù)據(jù),經(jīng)過(guò)整合映射之后存儲(chǔ)在當(dāng)?shù)財(cái)?shù)據(jù)庫(kù)中,并基于元數(shù)據(jù)為用戶提供搜索、信息定制等增值服務(wù)[2]。

通常情況下,SP通過(guò)定期向DP發(fā)送收割請(qǐng)求以實(shí)現(xiàn)系統(tǒng)元數(shù)據(jù)的更新,然而由于各個(gè)DP的更新周期各異,因此定期收割的方法會(huì)導(dǎo)致SP提供給用戶的信息可能已經(jīng)失效,不夠新穎、及時(shí),而且服務(wù)提供方?jīng)]有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來(lái)確定到底給各個(gè)DP投入多少系統(tǒng)資源,使得系統(tǒng)資源的分配極不合理。

為了解決該問(wèn)題,Xiaoming Liu[3]等在2003年提出擴(kuò)展OAI協(xié)議的命令動(dòng)詞,為其增加一個(gè)“push-Metadata”動(dòng)詞,以便將更新的元數(shù)據(jù)直接推送給SP。然而這種方法要求DP決定信息推送的內(nèi)容和時(shí)間,SP需要實(shí)時(shí)監(jiān)聽(tīng)DP變化命令,因此增加了DP和SP實(shí)現(xiàn)的復(fù)雜度,與OAI協(xié)議所提倡的簡(jiǎn)單、易于實(shí)現(xiàn)的元數(shù)據(jù)互操作特點(diǎn)相背離。牛振東、丘俗標(biāo)等在2004年提出在OAI協(xié)議中采用推/拉模型[4]。該模型采用注冊(cè)服務(wù)器作為信息反饋的中介,無(wú)形增加了實(shí)現(xiàn)的難度和代價(jià),且不能保證注冊(cè)服務(wù)器及時(shí)反饋?zhàn)兓畔?,因此該方法?shí)現(xiàn)的可行性不大。

針對(duì)上述方法存在的弊端,本文提出了一個(gè)元數(shù)據(jù)動(dòng)態(tài)更新模型,以DP更新周期為主,以用戶訪問(wèn)變化量為輔,動(dòng)態(tài)地調(diào)整收割時(shí)間,以實(shí)現(xiàn)數(shù)據(jù)提供方和服務(wù)提供方元數(shù)據(jù)的同時(shí)更新并確保系統(tǒng)資源的合理分配。

1 動(dòng)態(tài)更新模型

SP向各個(gè)DP發(fā)送命令動(dòng)詞“Identify”以獲取其基本信息,返回結(jié)果中包含元數(shù)據(jù)的更新周期,SP以此為基礎(chǔ)確定收割時(shí)間,使得更新頻繁的DP有較密的收割次數(shù),較少更新的倉(cāng)儲(chǔ)有較稀疏的收割次數(shù),有效實(shí)現(xiàn)了DP和SP的同時(shí)更新[5]。然而,如果只按更新周期收割元數(shù)據(jù),假如某DP更新頻率很快,但是幾乎沒(méi)有用戶訪問(wèn)量(表示數(shù)據(jù)重要度很低),則投入再多的資源也是浪費(fèi),反之亦然。因此除了按更新周期來(lái)收割元數(shù)據(jù)之外,也應(yīng)結(jié)合用戶對(duì)倉(cāng)儲(chǔ)的訪問(wèn)變化量,動(dòng)態(tài)地調(diào)整收割時(shí)間,給用戶需求較高的DP分配較多的系統(tǒng)資源和較密集的收割頻率。反之,給用戶需求較低的DP分配比較少的系統(tǒng)資源,并增加其收割區(qū)間,這樣不僅實(shí)現(xiàn)了DP和SP的同時(shí)更新,而且合理地分配了系統(tǒng)資源,極大地滿足了用戶需求。

為了動(dòng)態(tài)地調(diào)整收割時(shí)間,需做如下定義。假設(shè)△t表示固定的觀測(cè)周期,{t1,t2,…,tn}表示所觀察的時(shí)間區(qū)間,且有tj+1=tj+△t,DQT(di;tj)表示DPdi在時(shí)間tj內(nèi)被訪問(wèn)的次數(shù),U(di)表示di的更新周期。

首先定義元數(shù)據(jù)訪問(wèn)率E,表示DPdi在時(shí)間tj內(nèi)被請(qǐng)求的次數(shù)與M個(gè)DP{d1,d2,…,dm}被訪問(wèn)次數(shù)的比值。

其次定義元數(shù)據(jù)訪問(wèn)變化量W,表示用戶對(duì)DPdi在tj-1的訪問(wèn)量到tj的訪問(wèn)量的變化情況。若W(di;tj)>1,表示訪問(wèn)量增加;W(di;tj)=1表示訪問(wèn)量不變;W(di;tj)<1表示訪問(wèn)量減少。

且j≥2

經(jīng)上述定義,本文以DP更新周期U為基礎(chǔ),以用戶訪問(wèn)變化W為輔,得到調(diào)整后收割時(shí)間區(qū)間H的計(jì)算公式:

以新的收割區(qū)間H不斷更新內(nèi)容,對(duì)于用戶訪問(wèn)量增加的DP減小其收割區(qū)間,對(duì)于用戶訪問(wèn)量減少的DP適當(dāng)增加其收割區(qū)間。然而如果用戶對(duì)某一DP的訪問(wèn)量不斷增加,會(huì)使得H取值越來(lái)越小,造成過(guò)于密集的收割,這對(duì)于更新比較平緩的DP來(lái)說(shuō),無(wú)疑造成了系統(tǒng)資源的浪費(fèi)。反之,因?yàn)樵L問(wèn)量的不斷減少,造成過(guò)于稀疏的元數(shù)據(jù)收割,這對(duì)于更新比較頻繁的DP,又導(dǎo)致收割不足。

為避免出現(xiàn)這兩種情況,須依據(jù)DP的更新特性再次調(diào)整收割時(shí)間。為此,假定Umax和Umin分別表示所觀察的M個(gè)DP中最大更新周期和最小更新周期,定義D(di)表示di更新周期密集程度。如果DP更新比較頻繁,則D(di)較大,反之則較小。

L(di)表示di更新周期密集程度。如果DP更新比較緩慢,則L(di)較大,反之則較小。

令D(di)對(duì)應(yīng)調(diào)整收割時(shí)間H,L(di)對(duì)應(yīng)DP更新周期U,得到一個(gè)更加合理的收割區(qū)間計(jì)算公式C(di;tj)。

C(di;tj)=D(di)×H(di;tj)+L(di)×U(di)

最后定義調(diào)幅AR,以便于觀察收割區(qū)間的變化幅度。至此,完整的動(dòng)態(tài)更新模型建立完畢。

2 實(shí)例分析

設(shè)有5個(gè)數(shù)據(jù)提供方di,i的取值從1到5,更新周期U(di)依次為5,20,35,50,65個(gè)單位時(shí)間,{t1,t2,t3}為觀察的三個(gè)區(qū)間,記錄了用戶在每個(gè)觀察區(qū)間對(duì)SP的請(qǐng)求次數(shù)DQT(di;tj),其中ti表示初始觀察區(qū)間,收割區(qū)間依照DP方元數(shù)據(jù)的更新周期制定,如表1所示。

表1 初始狀態(tài)

(1)用戶對(duì)DP的訪問(wèn)量增加且DP屬于更新密集型

這種情況對(duì)應(yīng)到表1,即d2從t1到t2的變化情況,DP訪問(wèn)變化量W為:

訪問(wèn)量大大增加,是原來(lái)的1.546倍,因此得到初次調(diào)整后收割區(qū)間為:

H(d2;t2)=U(d2)+U(d2)×(1-W(d2;t2)=9.073,

Umax和Umin的取值分別為65和5,由此得到

根據(jù)上述計(jì)算,得到更加合理的收割周期。

(2)用戶對(duì)DP的訪問(wèn)量增加且DP屬于更新稀疏型。這種情況對(duì)應(yīng)到表1,即d4從t1到t2的變化情況,依次得到

W(d4;t2)≈1.399,

H(d4;t2)=30.04,

C(d4;t2)=45.01,

AR(d4;t2)≈-9.98%。

(3)用戶對(duì)DP的訪問(wèn)量減少且DP屬于更新密集型。對(duì)應(yīng)到表1,即d2從t2到t3的變化情況,依次得到:

W(d2;t3)≈0.647,

H(d2;t3)=18.873,

C(d2;t3)=19.16,

AR(d2;t3)≈47.85%。

(4)用戶對(duì)DP的訪問(wèn)量減少且DP屬于更新稀疏型。即d4從t2到t3的變化情況,得到

W(d4;t3)≈0.715,

H(d4;t3)=59.27,

C(d4;t3)=52.32,

AR(d4;t3)≈16.24%。

針對(duì)四種情況,將收割區(qū)間調(diào)整后得到如表2所示的結(jié)果。

表2 收割區(qū)間調(diào)整表

對(duì)比表1和表2可以看到:

(1)當(dāng)用戶對(duì)DP的訪問(wèn)量增加時(shí),SP通過(guò)縮短收割區(qū)間來(lái)增加對(duì)DP元數(shù)據(jù)的收割次數(shù),以此來(lái)提高信息搜索的全面、準(zhǔn)確、有效、及時(shí)。

對(duì)于更新周期比較密集的DP來(lái)說(shuō),當(dāng)訪問(wèn)量增加時(shí),收割周期呈大幅度下降,收割變得更加密集,從而更能有效的滿足用戶需求;而對(duì)于更新比較緩慢的DP來(lái)說(shuō),即使用戶訪問(wèn)量大大增加,收割周期也只呈小幅度減少,即防止了流量暴增造成的過(guò)重的系統(tǒng)負(fù)擔(dān),又較好的實(shí)現(xiàn)了元數(shù)據(jù)同時(shí)更新。

(2)當(dāng)用戶對(duì)DP的訪問(wèn)量減少時(shí),SP把收割區(qū)間適度調(diào)大,將系統(tǒng)資源重新分配,在滿足用戶需求的前提下,有效地降低系統(tǒng)多余的負(fù)擔(dān)。

對(duì)于更新周期相對(duì)比較密集的DP來(lái)說(shuō),當(dāng)訪問(wèn)量減少時(shí)候,收割區(qū)間呈大幅度增加,這表示用戶對(duì)該DP信息需求降低,因此只需控制收割區(qū)間在用戶可接受的范圍內(nèi),以便于把系統(tǒng)資源分配給用戶需求較高的DP;而對(duì)于更新周期比較緩慢的DP來(lái)說(shuō),當(dāng)用戶訪問(wèn)量減少時(shí),收割區(qū)間只呈小幅度增加,以避免收割不足影響到信息的時(shí)效性。

(3)此外,從表2可以看到,當(dāng)用戶訪問(wèn)量增加后又減為原來(lái)訪問(wèn)量時(shí),收割區(qū)間也基本調(diào)整到原先的狀態(tài)。

由此可見(jiàn),依據(jù)2中的動(dòng)態(tài)更新模型調(diào)整SP元數(shù)據(jù)收割時(shí)間,能夠在系統(tǒng)資源合理分配的前提下,有效實(shí)現(xiàn)DP和SP元數(shù)據(jù)的同時(shí)更新。

3 總結(jié)

在對(duì)OAI工作原理認(rèn)真剖析的基礎(chǔ)上,通過(guò)分析用戶與SP之間的數(shù)據(jù)交互變化規(guī)律,提出了一個(gè)元數(shù)據(jù)動(dòng)態(tài)更新模型。以DP更新周期為主,以用戶對(duì)元數(shù)據(jù)訪問(wèn)量的變化為輔,動(dòng)態(tài)地調(diào)整SP元數(shù)據(jù)收割時(shí)間。實(shí)驗(yàn)分析表明,該模型性能優(yōu)良,在合理利用系統(tǒng)資源的前提下把DP方信息的更新快速反映到相關(guān)的SP,有效確保了DP和SP元數(shù)據(jù)的同步更新,使得用戶在任何時(shí)候都能夠搜索到最新信息,從而大大提高了信息的時(shí)效性和使用價(jià)值。

[1]張佩毅,豐艷,陳一民.基于OAI協(xié)議的數(shù)字資源互操作平臺(tái)[J].計(jì)算機(jī)應(yīng)用與軟件,2007,24(10):46-47.

[2]齊華偉,王軍.元數(shù)據(jù)收割協(xié)議OAI-PMH[J].情報(bào)科學(xué),2005,23(3):414-425.

[3]Xiaoming Liu,Kurt Maly,Mohammad Zubair,et al.Repository synchronization in the OAI framework[R].Houston:Proceedings of the ACM/IEEE Joint Conference on Digital Libraries,2003.

[4]牛振東,丘俗標(biāo),朱先忠,等.基于OAI-PMH的服務(wù)提供者的設(shè)計(jì)與實(shí)現(xiàn)[J].北京理工大學(xué)學(xué)報(bào),2004,24(5):411-415.

[5]王宇芳,黃鏑,李曉玲,等.OAI-PMH協(xié)議及應(yīng)用新趨勢(shì)[J].現(xiàn)代情報(bào),2006(5):81-83.

〔編輯 高?!?/p>

The Design of Metadata Dynamic Update Model based on OAI-PMH

WANG Xiu-hui,LIU Li-yun,ZHANG Feny-ying
(School of Education Science and Technology,Shanxi Datong University,Datong Shanxi,037009)

According to the problems of time delay and irrational resources allocation while metadata of Data Provider is being harvested by Service Provider in OAI-PMH,a metadata synchronization model which can be updated dynamically is designed.The harvest time of Service Provider is dynamically adjusted by metadata update period combined with the quantity of users'access.By this way,the system resources can be properly used and most importantly,the metadata consistency can be kept between Data Provider and Service Provider.

OAI;metadata;service provider;data provider;dynamic update

TP399

A

1674-0874(2011)02-0008-03

2010-10-26

山西大同大學(xué)青年科研基金資助項(xiàng)目[2010Q13]

王秀慧(1981-),女,河北行唐人,碩士,講師,研究方向:人工智能和數(shù)據(jù)庫(kù)技術(shù)。

猜你喜歡
系統(tǒng)資源訪問(wèn)量區(qū)間
你學(xué)會(huì)“區(qū)間測(cè)速”了嗎
民用飛機(jī)綜合模塊化航電系統(tǒng)資源狀態(tài)監(jiān)控技術(shù)研究
基于訪問(wèn)控制列表機(jī)制的Android權(quán)限管控方案
全球經(jīng)濟(jì)將繼續(xù)處于低速增長(zhǎng)區(qū)間
WCDMA網(wǎng)絡(luò)資源故障及解決方案研究
高職院校圖書(shū)館電子資源中數(shù)據(jù)庫(kù)的使用情況分析
如何做好搜索引擎優(yōu)化(SEO)提高新聞網(wǎng)站訪問(wèn)量
如何做好搜索引擎優(yōu)化(SEO)提高新聞網(wǎng)站訪問(wèn)量
一所大學(xué)有40人被確診為抑郁癥
區(qū)間對(duì)象族的可鎮(zhèn)定性分析