羅婷婷 趙瑞雪,2 李嬌 傅智杰 武麗麗 黃永文 鮮國建,2
(1. 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081;3. 中國工程院戰(zhàn)略咨詢中心,北京 100088)
隨著大數(shù)據(jù)智能時(shí)代的到來,大數(shù)據(jù)已成為新型戰(zhàn)略資源、生產(chǎn)要素和驅(qū)動(dòng)創(chuàng)新發(fā)展的新引擎。大數(shù)據(jù)環(huán)境下,科技信息的類型多樣,數(shù)量以前所未有的速度增長,且數(shù)據(jù)結(jié)構(gòu)、存儲(chǔ)方式存在很大差異,造成數(shù)據(jù)集成困難、交互復(fù)雜,很大程度上影響了數(shù)據(jù)服務(wù)、知識(shí)發(fā)現(xiàn)服務(wù)的效果,因此數(shù)據(jù)治理應(yīng)運(yùn)而生。數(shù)據(jù)治理是提升數(shù)據(jù)價(jià)值的基礎(chǔ)[1],旨在通過相應(yīng)的標(biāo)準(zhǔn)、規(guī)范、流程和方法等,確保數(shù)據(jù)統(tǒng)一管理、高效運(yùn)行,并在數(shù)據(jù)使用過程中充分發(fā)揮數(shù)據(jù)價(jià)值的過程[2]。想要實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的匯聚融合、互聯(lián)互通,數(shù)據(jù)治理是必不可少的課題,而資源的標(biāo)準(zhǔn)化,即構(gòu)建多源異構(gòu)科技信息元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系是提升數(shù)據(jù)治理效果的首要環(huán)節(jié),同時(shí)也是數(shù)據(jù)治理面臨的難點(diǎn)之一。
本文面向多源異構(gòu)科技信息的數(shù)據(jù)治理需求,在廣泛參考借鑒國內(nèi)外現(xiàn)有標(biāo)準(zhǔn)規(guī)范基礎(chǔ)上,兼顧人和計(jì)算機(jī)多種場(chǎng)景應(yīng)用需求,研究制定了一套適用于多種類型、多源異構(gòu)科技信息的元數(shù)據(jù)描述標(biāo)準(zhǔn)規(guī)范體系,從數(shù)據(jù)資源中抽象出相應(yīng)的特征屬性,組成特征元素集合(元數(shù)據(jù)元素),來描述特定類型的資源[3],初步實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)資源間關(guān)聯(lián)、深層次、細(xì)粒度的規(guī)范描述,為各領(lǐng)域、多類型資源的規(guī)范描述、交換復(fù)用、開放共享和關(guān)聯(lián)互通提供指導(dǎo)和支撐。
當(dāng)前,描述數(shù)據(jù)資源的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范日漸增多。國外具有代表性的有:都柏林核心元數(shù)據(jù)元素集(DC)[4]具有較強(qiáng)通用性;美國國家生物技術(shù)信息中心(NCBI)的JATS作為美國國家標(biāo)準(zhǔn)得到了廣泛應(yīng)用和認(rèn)可[5];Dryad元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范[6]為Dryad科學(xué)數(shù)據(jù)倉儲(chǔ)資源描述服務(wù),實(shí)現(xiàn)數(shù)據(jù)與出版物的關(guān)聯(lián),被稱為科學(xué)數(shù)據(jù)倉儲(chǔ)元數(shù)據(jù)的最佳實(shí)踐[7];Dataverse[8]元數(shù)據(jù)標(biāo)準(zhǔn)是為科學(xué)數(shù)據(jù)倉儲(chǔ)Dataverse資源描述服務(wù),以降低查找、獲取和復(fù)用科學(xué)數(shù)據(jù)的難度;Web of Science[9]、Scopus[10]作為具有較大影響力的數(shù)據(jù)庫,其元數(shù)據(jù)規(guī)范已成功應(yīng)用于數(shù)字化生產(chǎn)過程。國內(nèi)具有代表性的有:國家科技圖書文獻(xiàn)中心(NSTL)編制的統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)[11]支持NSTL多類型文獻(xiàn)數(shù)據(jù)資源的統(tǒng)一描述;國家標(biāo)準(zhǔn)《科技平臺(tái) 資源核心元數(shù)據(jù)》[12]共設(shè)計(jì)了7個(gè)元數(shù)據(jù)元素(標(biāo)識(shí)符、資源名稱、最新提交日期、描述、關(guān)鍵詞、訪問限制、資源信息鏈接地址)和2個(gè)元數(shù)據(jù)實(shí)體(提交單位、資源類別);期刊論文[13]、電子圖書[14]、學(xué)位論文[15]、網(wǎng)絡(luò)資源[16]、電子連續(xù)性資源[17]等元數(shù)據(jù)行業(yè)標(biāo)準(zhǔn)規(guī)范也分別設(shè)計(jì)了元素、屬性等用來描述、利用和規(guī)范相應(yīng)的數(shù)字資源。
但上述標(biāo)準(zhǔn)規(guī)范均存在一些不足。如DC、Dryad元數(shù)據(jù)標(biāo)準(zhǔn)描述的內(nèi)容相對(duì)較少,雖然增加了標(biāo)準(zhǔn)的易用性[18],但同時(shí)也導(dǎo)致它們存在數(shù)據(jù)細(xì)粒度、數(shù)據(jù)關(guān)系等方面揭示不足等問題[19]。Dataverse元數(shù)據(jù)標(biāo)準(zhǔn)雖然描述的內(nèi)容較多,使數(shù)據(jù)描述的準(zhǔn)確性與全面性得到保證,但由于元素的順序和層次劃分欠清晰,對(duì)其應(yīng)用范圍的擴(kuò)大造成限制[20]。Web of Science、Scopus及NSTL采用的元數(shù)據(jù)標(biāo)準(zhǔn)局限于對(duì)文獻(xiàn)資源的規(guī)范、描述與應(yīng)用?!犊萍计脚_(tái) 資源核心元數(shù)據(jù)》雖然描述對(duì)象為多源異構(gòu)數(shù)據(jù)資源,但其重點(diǎn)是從資源名稱、標(biāo)識(shí)符以及資源管理角度對(duì)其進(jìn)行的規(guī)范與描述,其數(shù)據(jù)元素比較簡單,沒有對(duì)各類資源深層次、細(xì)粒度的描述規(guī)范。期刊論文、電子圖書、學(xué)位論文等元數(shù)據(jù)行業(yè)標(biāo)準(zhǔn)規(guī)范局限于某一類型資源的規(guī)范與描述。因此,在國內(nèi)外元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范基礎(chǔ)上構(gòu)建一套適用于多源異構(gòu)科技信息的通用元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系,實(shí)現(xiàn)多源異構(gòu)科技信息數(shù)據(jù)資源的規(guī)范化描述與互聯(lián)互通,提升數(shù)據(jù)治理效果,提高數(shù)據(jù)資源的可發(fā)現(xiàn)、可利用和開放共享能力。
元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系的構(gòu)建基于元數(shù)據(jù)理論和科技信息數(shù)據(jù)資源對(duì)象化關(guān)聯(lián)建模思想,該元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系面向人和計(jì)算機(jī)兩類應(yīng)用場(chǎng)景,適用于多類、多源、異構(gòu)數(shù)據(jù)資源,可以支持海量科技信息的統(tǒng)一描述、交換、復(fù)用、轉(zhuǎn)換、整合,從根本上實(shí)現(xiàn)科技信息數(shù)據(jù)資源的匯聚融合。
隨著科技信息的大量涌現(xiàn)和相關(guān)技術(shù)工具的成熟,科技信息的組織和利用呈現(xiàn)精細(xì)化、顆?;驼Z義關(guān)聯(lián)化等特征,元數(shù)據(jù)描述也呈現(xiàn)出細(xì)?;⒛K化、關(guān)聯(lián)化等發(fā)展趨勢(shì)。因此,構(gòu)建多源異構(gòu)科技信息元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系要遵循以下原則。
(1)模塊關(guān)聯(lián)化。模塊化是元數(shù)據(jù)最重要的特征,是數(shù)據(jù)管理規(guī)范的基礎(chǔ),其實(shí)質(zhì)是根據(jù)實(shí)際使用需要,將資源對(duì)象區(qū)分為若干個(gè)實(shí)體,從而將對(duì)信息資源的描述轉(zhuǎn)化為對(duì)多個(gè)不同實(shí)體的組合和關(guān)聯(lián)的描述。通過對(duì)所包含的各類資源進(jìn)行調(diào)研分析和綜合對(duì)比,本標(biāo)準(zhǔn)規(guī)范將其內(nèi)容設(shè)計(jì)為通用容器、資源元數(shù)據(jù)元素集和規(guī)范編碼體系3個(gè)模塊。
(2)知識(shí)單元最小粒度化。描述對(duì)象粒度越小越精確,元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系的構(gòu)建將知識(shí)單元最小粒度原則貫穿各個(gè)層面,按最小粒度設(shè)計(jì)元素或?qū)傩?,盡可能細(xì)致地描述資源對(duì)象各個(gè)層面的信息,為下一步的數(shù)據(jù)分析和評(píng)價(jià)打下良好的基礎(chǔ)。如機(jī)構(gòu)字段,可細(xì)分為上級(jí)單位、主辦單位、所在國家、省份、城市等,方便精確定位機(jī)構(gòu)和統(tǒng)計(jì)分析機(jī)構(gòu)的成果產(chǎn)出。
(3)可復(fù)用、可擴(kuò)展??蓮?fù)用、可擴(kuò)展是指既兼容國內(nèi)外現(xiàn)有標(biāo)準(zhǔn)規(guī)范,又支持根據(jù)實(shí)際情況做出相應(yīng)擴(kuò)展。本標(biāo)準(zhǔn)支持對(duì)通用容器的組裝復(fù)用,也可在本規(guī)范制定的元數(shù)據(jù)基礎(chǔ)上,進(jìn)行相關(guān)通用容器和元素集的復(fù)用、繼承和擴(kuò)展,支持根據(jù)專業(yè)特色資源和個(gè)性化應(yīng)用需求進(jìn)行其他類型資源元數(shù)據(jù)規(guī)范的擴(kuò)展。
(4)計(jì)算機(jī)可識(shí)別、可理解。元數(shù)據(jù)不僅面向人,在數(shù)據(jù)交換、互操作過程中,更多地是由計(jì)算機(jī)來實(shí)現(xiàn)的,因此需要面向計(jì)算機(jī)和網(wǎng)絡(luò)化應(yīng)用,將元數(shù)據(jù)規(guī)范文本轉(zhuǎn)化為XML Schema形式化描述文件,并基于XML Schema將各類資源元數(shù)據(jù)轉(zhuǎn)化、封裝為XML文件,可以支持計(jì)算機(jī)對(duì)XML文件的自動(dòng)識(shí)別、理解和驗(yàn)證。
多源異構(gòu)科技信息元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系構(gòu)建的總體思路是以實(shí)現(xiàn)多源異構(gòu)科技信息的統(tǒng)一描述、規(guī)范、匯交、互聯(lián)為目標(biāo),構(gòu)建集通用容器、資源關(guān)聯(lián)模型、元素集元素、規(guī)范編碼體系、XML形式化描述規(guī)范“五位一體”的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系,保證數(shù)據(jù)描述的準(zhǔn)確性與全面性,揭示數(shù)據(jù)的細(xì)粒度與關(guān)聯(lián)性,盡可能擴(kuò)大該規(guī)范體系的應(yīng)用范圍。
構(gòu)建多源異構(gòu)科技信息元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系的核心流程包括5個(gè)步驟,即資源類型分析與確定、資源關(guān)聯(lián)模型構(gòu)建、元數(shù)據(jù)描述框架設(shè)計(jì)、元數(shù)據(jù)元素集元素設(shè)計(jì)、元數(shù)據(jù)形式化描述及數(shù)據(jù)轉(zhuǎn)換(見圖1)。
圖1 構(gòu)建多源異構(gòu)科技信息元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系的核心流程
2.2.1 資源類型分析與確定
(1)內(nèi)容特征分析。開展各類多源異構(gòu)科技信息內(nèi)容特征分析,是元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范制定的基礎(chǔ)與前提,即明確需要制定元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的資源類型。分析的要素主要包括資源名稱、類型、簡介、體量、更新頻率、是否有共性需求等。對(duì)于更新頻率較高、數(shù)據(jù)質(zhì)量較好、用戶群體較廣的科技信息數(shù)據(jù)資源,建議制定元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范;反之,建議不予制定。通過調(diào)研分析,最終選取24類數(shù)據(jù)資源制定其元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,分別為期刊、期刊論文、圖書、學(xué)位論文、會(huì)議論文、科技(咨詢、行業(yè))報(bào)告、科技機(jī)構(gòu)、專家學(xué)者、科研項(xiàng)目、知識(shí)應(yīng)用、新聞資訊、產(chǎn)業(yè)政策、專利、標(biāo)準(zhǔn)、圖片、音頻、視頻、科技成果、技術(shù)工具、課件、統(tǒng)計(jì)數(shù)據(jù)、地理信息數(shù)據(jù)、百科、學(xué)術(shù)活動(dòng)。上述資源來自多個(gè)領(lǐng)域,且包含文獻(xiàn)、報(bào)告、項(xiàng)目、成果、政策、音視頻、圖片、數(shù)值等多種類型。
(2)與國內(nèi)外現(xiàn)有標(biāo)準(zhǔn)對(duì)比分析。資源類型確定后,需要調(diào)研分析國內(nèi)外是否已有同類標(biāo)準(zhǔn),若有同類標(biāo)準(zhǔn),需要將其與計(jì)劃制定的資源數(shù)據(jù)進(jìn)行對(duì)比分析,最大范圍內(nèi)吸收、復(fù)用現(xiàn)有標(biāo)準(zhǔn),在此范圍外的,則根據(jù)資源具體情況進(jìn)行擴(kuò)展。
2.2.2 資源關(guān)聯(lián)模型構(gòu)建
資源關(guān)聯(lián)模型由通用容器的構(gòu)建、通用容器與各類資源關(guān)系構(gòu)建以及各類資源間關(guān)系構(gòu)建三部分組成,具體如圖2所示。
圖2 資源關(guān)聯(lián)模型
(1)通用容器的構(gòu)建。通用容器是指各類資源元數(shù)據(jù)元素集中涉及的共性元素,將這些共性元素提取并形成通用集合,以供資源元素集組合使用。通用容器可被各類資源元素所引用。如各類資源均有系統(tǒng)唯一標(biāo)識(shí)符以及增、刪、改等管理層面的元素信息,可將這些共性元素提取形成通用集合,命名為“管理通用容器”,各類資源均可調(diào)用該容器,避免共性元素重復(fù)制定,提高制定效率以及避免冗余,且可實(shí)現(xiàn)模塊化管理。本規(guī)范提取24類資源中涉及的共性元素,構(gòu)建了13個(gè)通用容器,分別為管理通用容器、主題通用容器、責(zé)任者通用容器、責(zé)任機(jī)構(gòu)通用容器、國家(地區(qū))通用容器、會(huì)議通用容器、收錄類別通用容器、基金項(xiàng)目通用容器、成果產(chǎn)出通用容器、參考文獻(xiàn)通用容器、附件通用容器、擴(kuò)展通用容器、空間信息通用容器。
(2)通用容器與各類資源關(guān)系構(gòu)建。通用容器與各類資源元素之間的關(guān)系主要是引用關(guān)系,如主題通用容器、責(zé)任者通用容器、國家(地區(qū))通用容器、管理通用容器和參考文獻(xiàn)通用容器均可被期刊論文元素、會(huì)議論文元素等資源引用。
(3)各類資源間關(guān)系構(gòu)建。各類資源元素之間的關(guān)系有來源關(guān)系、從屬關(guān)系、沿革關(guān)系等。例如,一篇期刊論文來源于一本期刊;一篇期刊論文、一篇學(xué)位論文、一篇會(huì)議論文、一本圖書可以有一個(gè)或多個(gè)責(zé)任者(作者、作者機(jī)構(gòu));一位專家學(xué)者可來自一個(gè)科技機(jī)構(gòu),可獲得(參與)一項(xiàng)或多項(xiàng)科技成果、科研項(xiàng)目、專利;一個(gè)科技機(jī)構(gòu)可主辦一種或多種期刊,可獲得一項(xiàng)或多項(xiàng)科技成果、科研項(xiàng)目、專利,可發(fā)布一項(xiàng)或多項(xiàng)新聞資訊、產(chǎn)業(yè)政策、行業(yè)標(biāo)準(zhǔn)、視頻、音頻,可研制一項(xiàng)或多項(xiàng)知識(shí)應(yīng)用。
2.2.3 元數(shù)據(jù)描述框架設(shè)計(jì)
(1)術(shù)語定義。術(shù)語定義用于描述本規(guī)范的元素屬性涉及的術(shù)語及其定義,是制定資源類型元數(shù)據(jù)規(guī)范的前提和基礎(chǔ)。本規(guī)范對(duì)44個(gè)術(shù)語進(jìn)行了定義,如“元素”是元數(shù)據(jù)的基本單元,代表資源的一部分?jǐn)?shù)據(jù)內(nèi)容;“屬性”是對(duì)元素進(jìn)行的描述、限定、說明;“容器類元素”是包含其他元素的元素,與其他元素的關(guān)系為父子或祖先/后代的關(guān)系;“通用容器”是指數(shù)據(jù)集和其他類型資源元素集中涉及的共性元素,將這些共性元素提取并形成通用集合;“編碼體系”是元數(shù)據(jù)修飾的一種方式,用來規(guī)范元素或?qū)傩匀≈捣秶氖芸卦~表或規(guī)范名稱列表。
(2)元數(shù)據(jù)描述框架約定。元數(shù)據(jù)描述框架約定是整個(gè)元數(shù)據(jù)描述框架體系的核心。通用容器及資源元數(shù)據(jù)元素集中所有元素術(shù)語的定義借鑒DCMI術(shù)語的定義方法以及ISO/IEC 11179-3:2013標(biāo)準(zhǔn)“Registry meta model and basic attributes”[21],需遵循表1所示的元數(shù)據(jù)描述框架約定。該框架從標(biāo)識(shí)符、名稱、出處、定義、數(shù)據(jù)類型、最大長度、頻次范圍、描述規(guī)則、數(shù)據(jù)樣例9個(gè)方面來描述,并詳細(xì)說明了每個(gè)描述項(xiàng)的定義和約束。其中,定義是指對(duì)每個(gè)描述項(xiàng)含義的解釋說明,約束是指該描述項(xiàng)的取值是否必備。必備是指該描述項(xiàng)必須有值,可選是指該描述項(xiàng)取值可為空。
表1 元數(shù)據(jù)描述框架約定
(3)通用容器及資源元數(shù)據(jù)元素集描述規(guī)范。這是基于元數(shù)據(jù)描述框架,對(duì)通用容器及資源元數(shù)據(jù)元素集的描述規(guī)范進(jìn)行分層和細(xì)化,主要包含元素集元素簡表的編制及元素描述細(xì)則的編制兩方面。
第一,元素集元素簡表的編制。它是從資源內(nèi)容、字段約束等多方面對(duì)資源進(jìn)行的全方位描述,具體描述項(xiàng)如表2所示,包括中文名稱、名稱、數(shù)據(jù)類型、頻次范圍、最大長度、復(fù)用標(biāo)準(zhǔn)。
表2 通用容器及資源元數(shù)據(jù)元素集元素簡表的字段結(jié)構(gòu)說明
第二,元素描述細(xì)則的編制。為了讓數(shù)據(jù)操作人員或使用人員更清晰、準(zhǔn)確、直觀地理解每個(gè)元素的規(guī)范與約束,針對(duì)元數(shù)據(jù)集內(nèi)每個(gè)元素從出處、定義、描述規(guī)則、樣例數(shù)據(jù)等方面進(jìn)行的詳細(xì)闡述,具體描述項(xiàng)如表3所示,包括標(biāo)識(shí)符、名稱、出處、定義、頻次范圍、最大長度、描述規(guī)則、數(shù)據(jù)樣例。
表3 元素描述細(xì)則的字段結(jié)構(gòu)說明
(4)規(guī)范編碼體系。“編碼體系”是元數(shù)據(jù)修飾的一種方式,用來規(guī)范元素、屬性取值范圍的受控詞表或規(guī)范名稱列表,通過代碼規(guī)范元素或?qū)傩匀≈捣秶?,如?所示,包括代碼、中文名稱、英文名稱。
表4 元數(shù)據(jù)規(guī)范編碼表的字段結(jié)構(gòu)說明
根據(jù)實(shí)際需求,本規(guī)范制定了資源類型、來源機(jī)構(gòu)、分類主題詞等28個(gè)規(guī)范編碼表(見表5),用以規(guī)范元素或?qū)傩匀≈捣秶?。以“唯一?biāo)識(shí)符編碼表”為例(見表6),枚舉了24類資源的唯一標(biāo)識(shí)類型,其取值可根據(jù)實(shí)際情況進(jìn)行增刪改等操作。
表5 規(guī)范編碼表清單
表6 唯一標(biāo)識(shí)符編碼
2.2.4 元數(shù)據(jù)元素集元素設(shè)計(jì)
根據(jù)多源異構(gòu)科技信息的特征、約束條件等多方面內(nèi)容,開展元數(shù)據(jù)元素集元素設(shè)計(jì),其內(nèi)容主要包括通用容器及各類資源元數(shù)據(jù)元素集的元素、屬性的確定及元素描述細(xì)則的編寫。在元數(shù)據(jù)表達(dá)過程中,元素與屬性是配合使用的,如xml:lang屬性是指語種,該屬性與題名、摘要等元素配合使用,表達(dá)其不同語種的元素內(nèi)容。
資源元素集元素的確定即表2資源元數(shù)據(jù)元素集元素簡表內(nèi)容的設(shè)計(jì),分為3個(gè)部分:①設(shè)計(jì)一個(gè)容器類元素用來對(duì)該資源數(shù)據(jù)所有元素進(jìn)行封裝,如achievement_meta用來封裝科技成果元素集中所有元素,一般為元素簡表的第一個(gè)元素;②資源元素集主體元素的設(shè)計(jì),即能夠全面描述或體現(xiàn)該類資源特征的元素,主要包括基本信息和關(guān)聯(lián)信息;③管理操作類元數(shù)據(jù)的設(shè)計(jì),即描述與該類資源元素集相關(guān)的管理信息,主要包括系統(tǒng)唯一標(biāo)識(shí)符、數(shù)據(jù)創(chuàng)建時(shí)間、修改時(shí)間、刪除標(biāo)識(shí)、使用權(quán)限等,在本規(guī)范中通過引用管理信息通用容器來實(shí)現(xiàn),一般位于元素簡表末尾。
通用容器元數(shù)據(jù)元素集的設(shè)計(jì)只包含前兩部分,即設(shè)計(jì)一個(gè)容器類元素用來對(duì)該通用容器所有元素進(jìn)行封裝、元素集主體元素的設(shè)計(jì)。
基于確定的資源元數(shù)據(jù)元素集元素,按照表3的字段結(jié)構(gòu)說明,編寫每個(gè)元素的描述細(xì)則。
(1)通用容器元數(shù)據(jù)元素集元素設(shè)計(jì)。通用容器元數(shù)據(jù)元素集元素設(shè)計(jì)需要保證其元素具備通用性和可復(fù)用性,以供資源元素集組合使用,以“管理通用容器”為例,按上述通用容器元素的設(shè)計(jì)步驟,依次確定了管理通用容器的封裝容器類元素及其主體元素(見表7)。
表7 管理通用容器元數(shù)據(jù)元素集元素簡表
在此基礎(chǔ)上,按照表3編寫每個(gè)元素的描述細(xì)則,以“管理通用容器”中的元素“是否刪除標(biāo)識(shí)”為例(見表8)。
表8 元素“是否刪除標(biāo)識(shí)”的描述細(xì)則
(2)資源元數(shù)據(jù)元素集元素設(shè)計(jì)。資源元數(shù)據(jù)元素集元素設(shè)計(jì)需要在詳細(xì)深入了解資源特征的基礎(chǔ)上,對(duì)資源內(nèi)容進(jìn)行分類、提取、組合,從而使得設(shè)計(jì)的元素能夠準(zhǔn)確、全面地描述該類資源。如表9所示,以科研項(xiàng)目為例,依次確定科研項(xiàng)目封裝容器類元素、科研項(xiàng)目元素集主體元素以及管理操作信息,在主體元素部分,主題、項(xiàng)目人員、項(xiàng)目機(jī)構(gòu)、科研產(chǎn)出、附件等元素均復(fù)用通用容器,項(xiàng)目人員及項(xiàng)目機(jī)構(gòu)為關(guān)聯(lián)信息,分別通過責(zé)任者唯一標(biāo)識(shí)符、責(zé)任機(jī)構(gòu)唯一標(biāo)識(shí)符關(guān)聯(lián)專家學(xué)者及科研機(jī)構(gòu)兩類資源。
表9 科研項(xiàng)目元數(shù)據(jù)元素集元素簡表
在此基礎(chǔ)上,按照表3編寫每個(gè)元素的描述細(xì)則。以“科研項(xiàng)目”中的元素“唯一標(biāo)識(shí)”為例,如表10所示,該元素需要搭配屬性type使用,即唯一標(biāo)識(shí)符所屬的類型,其詳情在“描述規(guī)則”中進(jìn)行了闡述。
表10 元素“唯一標(biāo)識(shí)”的描述細(xì)則
續(xù)表
2.2.5 元數(shù)據(jù)形式化描述及數(shù)據(jù)轉(zhuǎn)換
元數(shù)據(jù)形式化描述是將數(shù)據(jù)以計(jì)算機(jī)可讀方式進(jìn)行描述與規(guī)范,強(qiáng)調(diào)數(shù)據(jù)的輸出或存儲(chǔ)方式。本規(guī)范采用XML語言實(shí)現(xiàn)元數(shù)據(jù)的形式化描述。XML語言包含一組定義語義標(biāo)記的規(guī)則,將元數(shù)據(jù)規(guī)范文本轉(zhuǎn)化為XML Schema形式化描述文件,并基于XML Schema將各類資源元數(shù)據(jù)轉(zhuǎn)化、封裝為XML文件,支持計(jì)算機(jī)對(duì)XML文件的自動(dòng)識(shí)別、理解和驗(yàn)證。
(1)基于XML Schema的元數(shù)據(jù)形式化描述。采用XMLSpy軟件實(shí)現(xiàn)13類通用容器及24類數(shù)據(jù)資源描述元數(shù)據(jù)的XML schema的編制并生成其XSD文件。圖3描述了科研項(xiàng)目信息資源描述元數(shù)據(jù)的XML Schema,顯示了科研項(xiàng)目信息資源描述元數(shù)據(jù)的樹形結(jié)構(gòu),呈現(xiàn)了科研項(xiàng)目信息資源元素集所有元素,以及搭配使用的所有屬性,同時(shí)也顯示了每個(gè)元素的必備性。
圖3 科研項(xiàng)目信息資源描述元數(shù)據(jù)的XML Schema
(2)元數(shù)據(jù)描述實(shí)例。在編制的XML Schema基礎(chǔ)上,生成包含具體信息資源元數(shù)據(jù)內(nèi)容的XML數(shù)據(jù)文件。
目前,制定的科技報(bào)告、科技機(jī)構(gòu)、專家學(xué)者、科研項(xiàng)目等24類通用資源元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,已在中國工程院組織建設(shè)的中國工程科技知識(shí)中心開展了廣泛應(yīng)用。中國工程科技知識(shí)中心自2012年建設(shè)以來,已建立化工、農(nóng)業(yè)、醫(yī)藥、地質(zhì)、能源和衛(wèi)生等近30余個(gè)專業(yè)知識(shí)服務(wù)分中心系統(tǒng),通過自建、聯(lián)盟、采購、網(wǎng)絡(luò)開放獲取等方式,匯聚了20多個(gè)主題領(lǐng)域的資源,包括文獻(xiàn)、數(shù)值數(shù)據(jù)、工具(事實(shí))、行業(yè)報(bào)告和政策法規(guī)等,數(shù)據(jù)資源建設(shè)總量為68億條,體量達(dá)到100TB,本規(guī)范指導(dǎo)了來自30余個(gè)專業(yè)領(lǐng)域的24類億級(jí)別數(shù)據(jù)資源元數(shù)據(jù)的規(guī)范、描述與匯交,為實(shí)現(xiàn)元搜索服務(wù)、系統(tǒng)互操作,從根本上實(shí)現(xiàn)工程科技領(lǐng)域資源的匯聚融合和互聯(lián)互通,實(shí)現(xiàn)海量資源一站式、全方位搜索和發(fā)現(xiàn)服務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ)。
隨著各類科技信息數(shù)據(jù)資源,尤其是專業(yè)性較強(qiáng)的特色資源不斷增加,已制定的24類通用資源元數(shù)據(jù)規(guī)范不能適用于各類特色資源。為進(jìn)一步提高這些特色資源的可發(fā)現(xiàn)能力和利用率,有必要制定各專業(yè)領(lǐng)域的優(yōu)勢(shì)特色資源元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,從而實(shí)現(xiàn)各類特色資源的匯聚融合、互聯(lián)互通和網(wǎng)絡(luò)共享服務(wù)。因此,基于24類通用資源元數(shù)據(jù)規(guī)范的制定經(jīng)驗(yàn)和總體設(shè)計(jì)思路,結(jié)合專業(yè)資源特色和數(shù)據(jù)描述規(guī)范,又指導(dǎo)中國工程科技知識(shí)中心21個(gè)分中心制定了國家地質(zhì)公園、地下水資源圖件、衛(wèi)星發(fā)射記錄、電子元器件產(chǎn)品等100類特色資源元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,并實(shí)現(xiàn)XML Schema形式化描述、轉(zhuǎn)換、驗(yàn)證與匯交。
本文構(gòu)建的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系初步實(shí)現(xiàn)了多類型、多來源、異構(gòu)資源的統(tǒng)一描述、規(guī)范及互聯(lián)互通,且已在工程科技領(lǐng)域開展了廣泛應(yīng)用,并以此有效指導(dǎo)了各領(lǐng)域特色資源元數(shù)據(jù)規(guī)范的制定與應(yīng)用,但隨著資源數(shù)據(jù)量激增,類型多樣,面臨的問題也會(huì)層出不窮,仍需要在應(yīng)用實(shí)踐中進(jìn)一步檢驗(yàn)其可行性、適用性和擴(kuò)展性,不斷優(yōu)化完善多源異構(gòu)科技信息數(shù)據(jù)資源元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系。為實(shí)現(xiàn)更深層次的關(guān)聯(lián)互通并支撐智能化服務(wù)應(yīng)用,還需要將現(xiàn)有元數(shù)據(jù)規(guī)范體系向富含更多語義關(guān)系的RDF Schema、OWL本體模型轉(zhuǎn)換,從而支持大規(guī)?;诳萍贾R(shí)圖譜的表示、轉(zhuǎn)換與關(guān)聯(lián)。