国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)與思考*

2016-09-22 08:10:02張建勇于倩倩黃永文董智鵬中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心北京100190
數(shù)字圖書(shū)館論壇 2016年2期
關(guān)鍵詞:統(tǒng)一文獻(xiàn)分析

張建勇,于倩倩,黃永文,董智鵬(中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)

NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)與思考*

張建勇,于倩倩,黃永文,董智鵬
(中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)

分析了NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)的必要性,介紹了統(tǒng)一文獻(xiàn)元數(shù)據(jù)的設(shè)計(jì)目的是為保證NSTL發(fā)展戰(zhàn)略目標(biāo)的實(shí)現(xiàn)。元數(shù)據(jù)的適用對(duì)象涵蓋NSTL所有科技資源。元數(shù)據(jù)的設(shè)計(jì)原則包括前瞻性原則、協(xié)同化原則、最小粒度原則、模塊化原則和兼容國(guó)際標(biāo)準(zhǔn)原則。提出元數(shù)據(jù)設(shè)計(jì)思路,并詳細(xì)介紹了其中的功能需求分析,構(gòu)建了領(lǐng)域模型。本研究在元素和屬性的選取方面主要參考JATS標(biāo)準(zhǔn)。

NSTL;元數(shù)據(jù);JATS;設(shè)計(jì)

1 引言

當(dāng)前,數(shù)字出版已經(jīng)成為科技文獻(xiàn)資源的主要出版形態(tài),描述科技文獻(xiàn)的元數(shù)據(jù)規(guī)范日漸增多,有些是國(guó)家標(biāo)準(zhǔn),有些是公司內(nèi)部標(biāo)準(zhǔn)。例如NISO JATS Version 1.1[1]作為美國(guó)國(guó)家標(biāo)準(zhǔn),得到了廣泛應(yīng)用和認(rèn)可[2];科技平臺(tái)資源核心元數(shù)據(jù)[3]于2014年成為中國(guó)國(guó)家標(biāo)準(zhǔn),為國(guó)家科技基礎(chǔ)條件平臺(tái)門(mén)戶提供統(tǒng)一的元數(shù)據(jù);Web of Science[4]、Scopus[5]作為具有較大影響力的數(shù)據(jù)庫(kù),其元數(shù)據(jù)規(guī)范已成功應(yīng)用于數(shù)字化生產(chǎn)過(guò)程;Dryad元數(shù)據(jù)規(guī)范[6]被稱(chēng)為科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)的最佳實(shí)踐;DC元數(shù)據(jù)[7]具有較強(qiáng)通用性,但相對(duì)來(lái)說(shuō)數(shù)據(jù)元素簡(jiǎn)單??v觀現(xiàn)有元數(shù)據(jù)規(guī)范,雖各有特色,卻也有很多相同之處。如通過(guò)一套Schema描述多種類(lèi)型文獻(xiàn),數(shù)據(jù)項(xiàng)豐富、多用屬性進(jìn)行描述,具有多種唯一標(biāo)識(shí)符等。這也較好地印證了大數(shù)據(jù)時(shí)代,資源組織顆粒度細(xì)化、資源靈活挖掘與整合日益重要的特點(diǎn)。

國(guó)家科技圖書(shū)文獻(xiàn)中心(以下簡(jiǎn)稱(chēng)NSTL)經(jīng)過(guò)多年的發(fā)展,已經(jīng)形成從采購(gòu)、加工、發(fā)布到服務(wù)的數(shù)字化業(yè)務(wù)流程,各個(gè)子系統(tǒng)相互協(xié)同、相互依賴(lài),共同為用戶提供服務(wù)。但在發(fā)展過(guò)程中,各個(gè)層面和系統(tǒng)都制訂了自己的元數(shù)據(jù)方案[8-10],導(dǎo)致NSTL各層面系統(tǒng)使用的元數(shù)據(jù)規(guī)范不盡相同,難以實(shí)現(xiàn)資源的深度挖掘,并限制了系統(tǒng)的可持續(xù)發(fā)展。NSTL近兩年通過(guò)贈(zèng)與、呈繳、購(gòu)買(mǎi)等方式獲取了國(guó)內(nèi)外出版商和相關(guān)信息機(jī)構(gòu)的元數(shù)據(jù)并進(jìn)行應(yīng)用[11],但這些來(lái)自出版商、數(shù)據(jù)庫(kù)商和服務(wù)商的元數(shù)據(jù)遵循的標(biāo)準(zhǔn)各有差異,對(duì)資源的共享和利用造成障礙。只有將NSTL各層面系統(tǒng)產(chǎn)生和轉(zhuǎn)換自第三方來(lái)源的數(shù)據(jù)進(jìn)行整合后,才能形成可進(jìn)行大數(shù)據(jù)存儲(chǔ)管理、分析挖掘的數(shù)據(jù),建立NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)將有利于大數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)。

2 設(shè)計(jì)目的與對(duì)象

NSTL“十三五”發(fā)展規(guī)劃提出,要全面構(gòu)建國(guó)家科技文獻(xiàn)信息大數(shù)據(jù)管理與服務(wù)體系。在大數(shù)據(jù)時(shí)代,元數(shù)據(jù)的重要性毋庸置疑,數(shù)據(jù)能被拆分、重組、分析和挖掘,都需要元數(shù)據(jù)的參與。建設(shè)NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn),能夠支持多種數(shù)據(jù)的統(tǒng)一描述,形成一致的數(shù)據(jù)描述體系,推進(jìn)科技文獻(xiàn)信息深度組織和揭示,將為NSTL數(shù)據(jù)集成融合、數(shù)據(jù)分析和數(shù)據(jù)挖掘,以及不同應(yīng)用服務(wù)系統(tǒng)間的互操作打下數(shù)據(jù)基礎(chǔ),從而為科學(xué)決策和知識(shí)服務(wù)提供支撐。

NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)的總體設(shè)計(jì)目標(biāo)是為NSTL建成國(guó)際一流的科技文獻(xiàn)信息發(fā)現(xiàn)和保障體系,實(shí)現(xiàn)從信息服務(wù)向知識(shí)服務(wù)的轉(zhuǎn)型,提供數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)保障,保證NSTL發(fā)展戰(zhàn)略目標(biāo)的實(shí)現(xiàn)。具體目標(biāo)為支持NSTL文獻(xiàn)發(fā)現(xiàn)系統(tǒng)的建設(shè),支持?jǐn)?shù)據(jù)挖據(jù)、分析評(píng)價(jià)功能的實(shí)現(xiàn),支持系統(tǒng)間數(shù)據(jù)交互的可靠性,保證各個(gè)層面系統(tǒng)數(shù)據(jù)重用和利用的標(biāo)準(zhǔn)化,降低系統(tǒng)間數(shù)據(jù)傳遞損失,增強(qiáng)系統(tǒng)間的協(xié)同能力。

NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)對(duì)象涵蓋所有的NSTL購(gòu)買(mǎi)、交換、贈(zèng)與等方式獲取的科技類(lèi)資源,包括圖書(shū)、期刊、會(huì)議錄、期刊論文、會(huì)議論文、學(xué)位論文、科技叢書(shū)、工具書(shū)、文集匯編、科技報(bào)告、開(kāi)放課程、開(kāi)放課件等。可統(tǒng)一描述文獻(xiàn)的印刷版本、數(shù)字版本,統(tǒng)一描述文獻(xiàn)對(duì)象各個(gè)層次的信息,滿足NSTL數(shù)字業(yè)務(wù)流程中文獻(xiàn)數(shù)據(jù)采集、管理和服務(wù)的需求。

3 設(shè)計(jì)原則

隨著數(shù)字信息資源的普及和相關(guān)技術(shù)工具的成熟,數(shù)字信息本身的解析顆?;约瓣P(guān)聯(lián)和重組的特性開(kāi)始全面影響信息資源的組織和利用,元數(shù)據(jù)描述也呈現(xiàn)出細(xì)?;⒔Y(jié)構(gòu)化、語(yǔ)義化和關(guān)聯(lián)化等發(fā)展趨勢(shì)。NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)必須與時(shí)俱進(jìn),既要考慮新的形勢(shì),又要考慮可能的潛在需求,設(shè)計(jì)原則如下。

3.1 前瞻性原則

NSTL“十三五”發(fā)展戰(zhàn)略明確了從文獻(xiàn)傳遞服務(wù)為主向資源發(fā)現(xiàn)服務(wù)、分析評(píng)價(jià)服務(wù)轉(zhuǎn)型,從文獻(xiàn)保障為主向知識(shí)服務(wù)基礎(chǔ)支撐保障轉(zhuǎn)型的發(fā)展方向。統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的設(shè)計(jì)應(yīng)充分考慮NSTL未來(lái)5年或更長(zhǎng)時(shí)間的發(fā)展需求,數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范不僅支持資源的發(fā)現(xiàn),也支持基于數(shù)據(jù)的分析評(píng)價(jià)和知識(shí)服務(wù)的要求。在元數(shù)據(jù)的設(shè)計(jì)上不僅考慮揭示文獻(xiàn)的基本信息,也考慮揭示全文層面的圖表和公式等信息,同時(shí)也預(yù)留了全文描述字段內(nèi)容。在設(shè)計(jì)上充分考慮服務(wù)的擴(kuò)展和深入發(fā)展的需要。

3.2 協(xié)同化原則

統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的設(shè)計(jì)目的是滿足NSTL數(shù)字業(yè)務(wù)系統(tǒng)中各個(gè)子系統(tǒng)應(yīng)用的需要,各個(gè)系統(tǒng)可采用同一個(gè)標(biāo)準(zhǔn)描述文獻(xiàn)對(duì)象,各個(gè)系統(tǒng)可以基于自己的管理需要描述文獻(xiàn)對(duì)象的不同深度的內(nèi)容,但遵循同樣的數(shù)據(jù)標(biāo)準(zhǔn),為后續(xù)數(shù)據(jù)的復(fù)用和深入加工建立良好的基礎(chǔ)。例如對(duì)一篇期刊論文的描述,數(shù)據(jù)格式應(yīng)是統(tǒng)一的,編目系統(tǒng)的描述和數(shù)據(jù)加工系統(tǒng)的描述最后應(yīng)統(tǒng)一成一個(gè)數(shù)據(jù)標(biāo)準(zhǔn)描述,最后形成的數(shù)據(jù)滿足資源發(fā)現(xiàn)和分析評(píng)價(jià)的需要。統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的設(shè)計(jì)充分考慮各個(gè)子系統(tǒng)的特點(diǎn),在數(shù)據(jù)模型和數(shù)據(jù)描述上支持各個(gè)子系統(tǒng)協(xié)同管理的需要,各個(gè)子系統(tǒng)通過(guò)協(xié)同達(dá)到最大的數(shù)據(jù)管理效益。

3.3 最小粒度原則

數(shù)據(jù)描述的粒度越小,數(shù)據(jù)描述越精確,可供分析評(píng)價(jià)的點(diǎn)就越豐富。統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范確定的數(shù)據(jù)描述粒度盡可能細(xì)致到原子層面,按最小粒度設(shè)計(jì)元素或?qū)傩?,以支持下一步分析評(píng)價(jià)和知識(shí)服務(wù)的需要。例如機(jī)構(gòu)字段,可細(xì)分為一級(jí)機(jī)構(gòu)名稱(chēng)、二級(jí)機(jī)構(gòu)名稱(chēng)、所在國(guó)家、城市、地址等,這樣描述為下一步精確定位機(jī)構(gòu)和統(tǒng)計(jì)分析機(jī)構(gòu)的產(chǎn)出建立基礎(chǔ)。在統(tǒng)一文獻(xiàn)元數(shù)據(jù)的設(shè)計(jì)中,最小粒度原則貫穿在各個(gè)層面,盡可能細(xì)致地描述文獻(xiàn)對(duì)象的各個(gè)層面信息,為下一步數(shù)據(jù)的分析評(píng)價(jià)打下基礎(chǔ)。

3.4 模塊化原則

模塊化是現(xiàn)代元數(shù)據(jù)設(shè)計(jì)最重要的特征,根據(jù)實(shí)體關(guān)系方法分析抽象出資源對(duì)象的實(shí)體關(guān)系模型,對(duì)資源的描述就是對(duì)模型中不同實(shí)體進(jìn)行描述再組合而成。領(lǐng)域模型中具有共同特點(diǎn)的實(shí)體對(duì)象可復(fù)用描述不同層面的數(shù)據(jù)對(duì)象,例如機(jī)構(gòu)實(shí)體,實(shí)際上可以是研究者所在機(jī)構(gòu),也可以是出版機(jī)構(gòu)、資助機(jī)構(gòu)和學(xué)位授予機(jī)構(gòu),機(jī)構(gòu)的元素構(gòu)成是一致的,成為一個(gè)公用的實(shí)體模塊在描述中使用,也為下一步數(shù)據(jù)管理規(guī)范打下基礎(chǔ)。

3.5 兼容國(guó)際標(biāo)準(zhǔn)原則

國(guó)外部分大型出版機(jī)構(gòu)已經(jīng)建立相關(guān)的文檔結(jié)構(gòu)規(guī)范,并且具有完整的描述體系結(jié)構(gòu)。例如NLM制訂的JATS標(biāo)簽集經(jīng)過(guò)多次修改,已經(jīng)成為美國(guó)國(guó)家標(biāo)準(zhǔn)并發(fā)布了最新版本ANSI/NISO Z39.96-2015[1]。統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)與國(guó)際上主流的相關(guān)國(guó)際標(biāo)準(zhǔn)兼容,以便融入國(guó)際數(shù)據(jù)大環(huán)境。

4 NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計(jì)思路

根據(jù)NSTL文獻(xiàn)元數(shù)據(jù)制訂指南[12]確定的設(shè)計(jì)元數(shù)據(jù)的通用技術(shù)框架和其定義的流程方法,并面向應(yīng)用、面向服務(wù)對(duì)NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)進(jìn)行設(shè)計(jì)與建設(shè)?;玖鞒贪üδ苄枨蠓治?、領(lǐng)域模型分析、設(shè)計(jì)元數(shù)據(jù)記錄、編制使用指南、元數(shù)據(jù)形式化描述。在這個(gè)流程中更多強(qiáng)調(diào)需求分析和領(lǐng)域模型分析,元數(shù)據(jù)記錄的設(shè)計(jì)基于元素和屬性的方式構(gòu)建,強(qiáng)調(diào)元素定義的一致性和包容性,可描述多樣化、多層次的資源。

4.1 功能需求分析

功能需求分析主要是描述設(shè)計(jì)元數(shù)據(jù)需要滿足的具體應(yīng)用需求。統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)支持NSTL文獻(xiàn)發(fā)現(xiàn)系統(tǒng)的建設(shè),支持?jǐn)?shù)據(jù)挖據(jù)、分析評(píng)價(jià)功能的實(shí)現(xiàn)。NSTL文獻(xiàn)數(shù)據(jù)庫(kù)包括期刊論文、會(huì)議論文、學(xué)位論文、文集匯編、科技報(bào)告等。期刊論文、會(huì)議論文、文集匯編都是集結(jié)出版的文獻(xiàn),學(xué)位論文和科技報(bào)告則通常是單篇或者成冊(cè)出版。NSTL文獻(xiàn)數(shù)據(jù)庫(kù)元數(shù)據(jù)從功能上應(yīng)支持以下功能。

4.1.1 文獻(xiàn)檢索和選擇

即滿足用戶根據(jù)特定條件檢索、選擇文獻(xiàn)并對(duì)文獻(xiàn)進(jìn)行排序的需求。包括:①按類(lèi)型如圖書(shū)、期刊、科技報(bào)告等檢索選擇文獻(xiàn);②根據(jù)文獻(xiàn)主題和內(nèi)容如題名、關(guān)鍵詞、主題詞、摘要等檢索選擇文獻(xiàn);③根據(jù)文獻(xiàn)特征和特定條件如作者、作者機(jī)構(gòu)、ISBN、ISSN等檢索和選擇文獻(xiàn);④根據(jù)文獻(xiàn)引用頻次選擇文獻(xiàn)。

4.1.2 文獻(xiàn)識(shí)別

即對(duì)各類(lèi)文獻(xiàn)內(nèi)容特征和外部特征進(jìn)行描述。包括:①根據(jù)文獻(xiàn)特征如文獻(xiàn)的唯一標(biāo)識(shí)符識(shí)別;②識(shí)別文獻(xiàn)作者及其所在機(jī)構(gòu),如通過(guò)orcid、researcherID識(shí)別文獻(xiàn)作者,通過(guò)機(jī)構(gòu)唯一標(biāo)識(shí)符識(shí)別機(jī)構(gòu)等;③通過(guò)全球通用的DOI識(shí)別文獻(xiàn);④通過(guò)NSTL本地通用的Local ID識(shí)別文獻(xiàn);⑤識(shí)別全文的版本和載體形式如印本、電子版本等。

4.1.3 全文獲取

即滿足用戶對(duì)印本和電子版本全文的獲取需求。包括:①支持在NSTL九家成員館范圍內(nèi)的全文獲??;②支持對(duì)各種載體和版本全文的獲取,提供能夠鏈接到全文的多種選擇;③支持對(duì)開(kāi)放獲取全文文獻(xiàn)的獲取。

4.1.4 文獻(xiàn)分析評(píng)價(jià)

即從不同方面對(duì)文獻(xiàn)進(jìn)行分析評(píng)價(jià),滿足用戶對(duì)科研產(chǎn)出分析挖掘的需要。包括:①支持引文關(guān)系的描述和計(jì)量名稱(chēng)識(shí)別;②支持對(duì)人名、機(jī)構(gòu)、資助者和項(xiàng)目的產(chǎn)出分析評(píng)價(jià)的需求;③支持面向?qū)W科的文獻(xiàn)分析評(píng)價(jià)。

4.1.5 使用授權(quán)

即針對(duì)來(lái)自不同機(jī)構(gòu)的不同用戶,文獻(xiàn)可獲取方式和獲取范圍的授權(quán)有所不同。包括:①文獻(xiàn)的印本館藏信息和網(wǎng)絡(luò)版本獲取授權(quán)方式;②來(lái)自作者、出版社和其他各個(gè)方面的開(kāi)放獲取資源的授權(quán)信息。

4.1.6 內(nèi)部數(shù)據(jù)管理

即對(duì)內(nèi)部數(shù)據(jù)采集、描述、保存方面的管理,能夠及時(shí)掌握數(shù)據(jù)的動(dòng)態(tài),如遇特殊情況,能夠及時(shí)修復(fù)數(shù)據(jù)。包括:①數(shù)據(jù)產(chǎn)生、更新、刪除等時(shí)間責(zé)任人記錄;②描述數(shù)據(jù)狀態(tài)和數(shù)據(jù)層次;③支持?jǐn)?shù)據(jù)審計(jì)。

4.2 領(lǐng)域模型分析

通過(guò)分析元素集合及其相互之間的關(guān)系,構(gòu)建領(lǐng)域模型。根據(jù)實(shí)體分析方法,對(duì)期刊、圖書(shū)、會(huì)議錄、科技叢書(shū)、期刊論文、會(huì)議論文、學(xué)位論文、文集匯編、科技報(bào)告等各類(lèi)資源進(jìn)行研究和分析??梢园l(fā)現(xiàn),NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)可以分為12個(gè)元素集,包括來(lái)源元素集、論文元素集、全文元素集、引文元素集、圖表元素集、附加資料元素集、Agent元素集、主題元素集、基金元素集、會(huì)議元素集、獲取管理元素集和操作信息元素集。

其中,來(lái)源元素集主要是描述期刊、圖書(shū)、會(huì)議錄等來(lái)源信息;Agent元素集包括貢獻(xiàn)者和機(jī)構(gòu)信息,貢獻(xiàn)者可以是作者、編輯者和指導(dǎo)人員等,機(jī)構(gòu)可以是作者所屬機(jī)構(gòu)、著作的出版機(jī)構(gòu)、會(huì)議的舉辦機(jī)構(gòu)和基金項(xiàng)目的資助機(jī)構(gòu);獲取管理元素集主要描述獲取方式和使用授權(quán)信息;操作信息元素集描述數(shù)據(jù)的更新、處理狀態(tài)等。NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)的領(lǐng)域模型如圖1所示。

圖1 NSTL文獻(xiàn)元數(shù)據(jù)領(lǐng)域模型

NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)的領(lǐng)域模型中元素集之間的關(guān)系可以概括為5種關(guān)系:

(1)文獻(xiàn)內(nèi)部元素集之間的關(guān)系。一個(gè)來(lái)源可以包含一篇或多篇論文,一篇論文可以有一個(gè)或多個(gè)全文,一篇論文可以有一個(gè)或多個(gè)引文,一個(gè)全文可以有一個(gè)或多個(gè)圖表、有一個(gè)或多個(gè)附加資料。

(2)文獻(xiàn)與其他元素集之間的關(guān)系。一篇文獻(xiàn)可以有一個(gè)或多個(gè)貢獻(xiàn)者,一個(gè)貢獻(xiàn)者可以屬于一個(gè)或多個(gè)機(jī)構(gòu),一篇文獻(xiàn)可以由一個(gè)或多個(gè)機(jī)構(gòu)出版,一篇文獻(xiàn)可以由一個(gè)或多個(gè)基金資助,一篇文獻(xiàn)可以發(fā)表在一個(gè)或多個(gè)會(huì)議上,一篇文獻(xiàn)可以有一個(gè)或多個(gè)主題,一個(gè)會(huì)議可以由一個(gè)或多個(gè)機(jī)構(gòu)負(fù)責(zé)舉辦,一個(gè)基金項(xiàng)目可以由一個(gè)或多個(gè)機(jī)構(gòu)資助,一篇文獻(xiàn)可以有一個(gè)或多個(gè)獲取管理和操作信息。

(3)元素集與規(guī)范記錄之間的關(guān)系。來(lái)源、主題、Agent、基金、會(huì)議可分別對(duì)應(yīng)一個(gè)規(guī)范記錄。

(4)來(lái)源與來(lái)源之間的沿革關(guān)系,主要包括繼承、部分繼承、替代、部分替代、吸收、部分吸收、分自等關(guān)系。

(5)文獻(xiàn)與文獻(xiàn)之間的關(guān)系,主要包括引用關(guān)系、相似關(guān)系等。

4.3 設(shè)計(jì)元數(shù)據(jù)記錄

設(shè)計(jì)元數(shù)據(jù)記錄首先需要確定元素和屬性,NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)元素和屬性的選取、定義主要參考NISO JATS 1.1[1]。一方面因?yàn)镴ATS作為美國(guó)國(guó)家標(biāo)準(zhǔn),應(yīng)用廣泛。例如出版商、知識(shí)庫(kù)、圖書(shū)館、軟件開(kāi)發(fā)商、學(xué)術(shù)機(jī)構(gòu)、期刊等身份不同的機(jī)構(gòu)支持JATS的使用和推廣[2]。NSTL接收的第三方來(lái)源元數(shù)據(jù)包括CUP[13]、OUP[14]、De Gruyter[15]等也采用了JATS標(biāo)準(zhǔn),參考JATS便于NSTL與第三方來(lái)源元數(shù)據(jù)的交互。另一方面因?yàn)镴ATS可以描述到全文,為下一步擴(kuò)展留下了足夠的空間。

在JATS中,元素通常為名詞,代表了文獻(xiàn)的一部分,例如題名、摘要、作者等。屬性更進(jìn)一步地對(duì)元素進(jìn)行描述,例如使用 xml:lang屬性表達(dá)語(yǔ)種信息,使用article-type屬性表達(dá)文獻(xiàn)類(lèi)型信息等。每個(gè)屬性都會(huì)有屬性名和屬性值,屬性可以對(duì)表達(dá)相同內(nèi)容的元素進(jìn)行歸并。對(duì)于JATS中與NSTL需求相同的元素和屬性,進(jìn)行復(fù)用,并保持語(yǔ)義的一致性,對(duì)于NSTL有實(shí)際應(yīng)用需求而JATS未定義的元素或?qū)傩?,進(jìn)行擴(kuò)展,擴(kuò)展的元素或?qū)傩圆慌cJATS發(fā)生沖突,在元數(shù)據(jù)的描述結(jié)構(gòu)上盡量與JATS保持一致。

在確定元素和屬性后,對(duì)元數(shù)據(jù)記錄進(jìn)行設(shè)計(jì)和描述。設(shè)計(jì)元數(shù)據(jù)記錄需要考慮的問(wèn)題包括元素的出現(xiàn)頻次、元素取值、編碼體系、元素出現(xiàn)的順序、元素間的交叉引用關(guān)系等相關(guān)的技術(shù)細(xì)節(jié)約束。根據(jù)NSTL文獻(xiàn)元數(shù)據(jù)制訂指南要求,分別從12個(gè)方面對(duì)元素進(jìn)行定義(見(jiàn)表1),從5個(gè)方面對(duì)屬性進(jìn)行定義(見(jiàn)表2)。

表1 元素定義表

表2 屬性定義表

4.4 編制使用指南

使用指南提供元數(shù)據(jù)的著錄規(guī)則,解釋原因并指導(dǎo)人們創(chuàng)建元數(shù)據(jù)。理想狀態(tài)下,使用指南解釋每個(gè)元素,預(yù)測(cè)在元數(shù)據(jù)創(chuàng)建過(guò)程中產(chǎn)生的問(wèn)題并作出指導(dǎo)。使用指南中包含與元數(shù)據(jù)記錄結(jié)構(gòu)中相同的一些信息,但相對(duì)來(lái)說(shuō)更便于人理解。使用指南中可能包含的規(guī)則如對(duì)作者進(jìn)行著錄時(shí),若成果中包含有多個(gè)作者,則選擇前三個(gè)進(jìn)行著錄;關(guān)鍵詞的著錄參照某種規(guī)范等。

4.5 元數(shù)據(jù)形式化描述

形式化描述是以計(jì)算機(jī)可讀方式描述規(guī)范,通常使用計(jì)算機(jī)語(yǔ)言如XML語(yǔ)言、RDF語(yǔ)言等對(duì)元數(shù)據(jù)進(jìn)行形式化描述。在NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)的設(shè)計(jì)中,考慮到現(xiàn)有元數(shù)據(jù)規(guī)范通常采用XML語(yǔ)言作為編碼和數(shù)據(jù)交換語(yǔ)言,本標(biāo)準(zhǔn)也采用XML語(yǔ)言實(shí)現(xiàn)元數(shù)據(jù)的形式化描述。XML語(yǔ)言包含了一組定義語(yǔ)義標(biāo)記的規(guī)則,可以定義特定領(lǐng)域內(nèi)標(biāo)記語(yǔ)言的語(yǔ)法結(jié)構(gòu)。

5 結(jié)語(yǔ)

在大數(shù)據(jù)和新型數(shù)字信息環(huán)境下,如何應(yīng)對(duì)海量數(shù)據(jù)的產(chǎn)生和分析挖掘成為挑戰(zhàn)。NSTL已有的數(shù)據(jù)和下一步要建設(shè)的數(shù)據(jù)來(lái)源于多個(gè)系統(tǒng)和渠道,數(shù)據(jù)描述標(biāo)準(zhǔn)和格式多樣,由此帶來(lái)的復(fù)雜問(wèn)題對(duì)后期的數(shù)據(jù)分析管理極為不利。本文對(duì)NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)目的、對(duì)象和原則進(jìn)行了介紹,并提出設(shè)計(jì)思路,主要包括功能需求分析、領(lǐng)域模型分析、設(shè)計(jì)元數(shù)據(jù)記錄、編制使用指南和元數(shù)據(jù)形式化描述,希望能夠?yàn)橄嚓P(guān)信息系統(tǒng)的元數(shù)據(jù)建設(shè)提供參考和借鑒。

[1] NISO JATS Version 1.1 (ANSI/NISO Z39.96-2015) [EB/OL]. [2015-12-22]. http://jats.nlm.nih.gov/archiving/tag-library/1.1/index. html.

[2] 康宏宇,侯震,李姣.基于JATS數(shù)據(jù)標(biāo)準(zhǔn)的全文文獻(xiàn)管理[J].中國(guó)科技期刊研究,2015,26(11):1171-1175.

[3] 科技平臺(tái)資源核心元數(shù)據(jù)[EB/OL]. [2015-12-22]. http://www.most. gov.cn/ztzl/kjzykfgx/kjzykjptbz/kjzybz/201407/t20140718_114487. htm.

[4] ISI Web of Science-Science Citation Index Expanded [EB/OL].[2015-12-22]. http://www.webofknowledge.com/WOS.

[5] Scopus [EB/OL]. [2015-11-20]. http://www.scopus.com/.

[6] Greenberg J, et al. A Metadata Best Practice for a Scientific Data Repository [J]. Journal of Library Metadata, 2009, 9(3-4): 194-212.

[7] DC metadata [EB/OL]. [2015-12-22]. http://dublincore.org/.

[8] 張建勇,曾燕.文獻(xiàn)數(shù)據(jù)庫(kù)數(shù)據(jù)加工規(guī)范[M].北京:知識(shí)產(chǎn)權(quán)出版社,2009.

[9] 吳思竹,胡鐵軍,梁芳,等.NSTL聯(lián)合目錄系統(tǒng)元數(shù)據(jù)的數(shù)據(jù)邏輯結(jié)構(gòu)設(shè)計(jì)[J].圖書(shū)館雜志,2014(1):31-35.

[10] 翟爽,趙艷,王昉.NSTL開(kāi)放課件元數(shù)據(jù)規(guī)范及一體化建設(shè)研究[J].數(shù)字圖書(shū)館論壇,2015(8):22-27.

[11] 于倩倩,張建勇.NSTL集成利用第三方來(lái)源元數(shù)據(jù)的實(shí)踐與探索[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016(1).

[12] 張建勇,于倩倩,黃永文,等.NSTL文獻(xiàn)元數(shù)據(jù)制訂指南(內(nèi)部資料)[R].2015.

[13] Cambridge Journals [EB/OL]. [2015-12-22]. http://www.journals. cambridge.org.

[14] Oxford University Press [EB/OL]. [2015-12-22]. http://www. oxfordjournals.org/en/.

[15] De Gruyter [EB/OL]. [2015-12-22]. http://www.degruyter.com/.

張建勇,男,1965年生,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心研究館員,研究方向:數(shù)據(jù)庫(kù)建設(shè)和數(shù)據(jù)管理。

于倩倩,女,1986年生,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心助理館員,研究方向:數(shù)據(jù)管理和組織,E-mail:yuqianqian@mail.las.ac.cn。

黃永文,女,1975年生,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心副研究館員,研究方向:數(shù)據(jù)管理和組織。

董智鵬,男,1985年生,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心館員,研究方向:文獻(xiàn)數(shù)據(jù)管理。

Metadata Standard Design of NSTL Unified Literature

ZHANG JianYong, YU QianQian, HUANG YongWen, DONG ZhiPeng
(Library of Chinese Academy of Sciences, Beijing 100190, China)

This paper analyzes the design necessity of metadata standard for NSTL unified literature. The objective of the metadata standard design is to ensure the implementation of NSTL development strategy. The designed metadata standard can be applied to all NSTL S&T resources. The proposed design principles include prospective principle, collaborative principle, minimal granularity principle, modular principle, and compatible principle. This paper comprehensively demonstrates the design solution of metadata standard, introduces the functional requirement of the standard, and constructs the domain model. Additionally, selection of metadata element and attribute is based on the JATS.

NSTL; Metadata; JATS; Design

G250.7

10.3772/j.issn.1673-2286.2016.2.005

* 本研究得到NSTL項(xiàng)目“建立和發(fā)展NSTL元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系”(編號(hào):2015XM04)資助。

2016-01-22)

猜你喜歡
統(tǒng)一文獻(xiàn)分析
Hostile takeovers in China and Japan
速讀·下旬(2021年11期)2021-10-12 01:10:43
堅(jiān)持嚴(yán)管和厚愛(ài)相統(tǒng)一的著力點(diǎn)
活力(2021年6期)2021-08-05 07:23:54
隱蔽失效適航要求符合性驗(yàn)證分析
碑和帖的統(tǒng)一,心和形的統(tǒng)一,人和藝的統(tǒng)一
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大東方(2019年12期)2019-10-20 13:12:49
統(tǒng)一數(shù)量再比較
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
商情(2017年1期)2017-03-22 16:56:36
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
南宁市| 富顺县| 铜山县| 伊金霍洛旗| 石城县| 军事| 开封市| 彭水| 宜昌市| 扎兰屯市| 易门县| 东乡| 本溪市| 壤塘县| 黔西县| 平凉市| 鄂伦春自治旗| 远安县| 开封市| 九江县| 普陀区| 乌拉特后旗| 文成县| 阿合奇县| 体育| 长寿区| 南城县| 花莲县| 新宁县| 乳源| 岱山县| 志丹县| 西林县| 墨江| 喀喇沁旗| 胶州市| 太白县| 博野县| 苗栗县| 清镇市| 湟源县|