□ 劉靜波 / 河北省圖書館采編部 石家莊 050011
李穎 / 中國科學(xué)技術(shù)信息研究所 北京 100038
科學(xué)數(shù)據(jù)整合與管理開放平臺P-CUBE
□ 劉靜波 / 河北省圖書館采編部 石家莊 050011
李穎 / 中國科學(xué)技術(shù)信息研究所 北京 100038
科學(xué)數(shù)據(jù)的整合與管理是國家信息資源戰(zhàn)略方針之一,目前還沒有長期有效的方法與手段。韓國科學(xué)技術(shù)信息研究院在此領(lǐng)域走在了亞洲前列。其最新研制開發(fā)的“Big”科學(xué)數(shù)據(jù)整合與管理開放平臺P-CUBE就是很好的解決方案。文章介紹P-CUBE的定位、架構(gòu)、技術(shù)體系和應(yīng)用。最后,給出結(jié)論。
KISTI,P-CUBE,科學(xué)數(shù)據(jù),管理平臺
科學(xué)數(shù)據(jù)是科研活動的重要產(chǎn)出之一。在科研活動的支撐技術(shù)手段高度發(fā)達(dá)的當(dāng)今社會,研究人員在其研究過程中產(chǎn)出的科學(xué)數(shù)據(jù)的量堪稱“big”。然而,大部分科學(xué)數(shù)據(jù)分散在研究者手中,這些有價值的數(shù)據(jù),要么得不到重用,要么隨著時間的流逝而丟失。為此,收集、整合、管理科學(xué)數(shù)據(jù),重用和共享這些數(shù)據(jù)的平臺被認(rèn)為是有效的解決方案。
◆ 設(shè)計目標(biāo):P-CUBE是一個便于存儲和重用研究人員在科研過程中產(chǎn)出的科學(xué)數(shù)據(jù)的安全平臺,是云環(huán)境下的科學(xué)數(shù)據(jù)的高效管理和應(yīng)用系統(tǒng)。
◆ 由于IT硬件的發(fā)展、超高速網(wǎng)絡(luò)的擴展及高端信息技術(shù)的出現(xiàn),科研活動產(chǎn)生了大量的科學(xué)數(shù)據(jù)。遴選和管理有價值的科學(xué)數(shù)據(jù)非常重要。由于數(shù)據(jù)大部分存儲在科學(xué)家的PC、CD或USB中,沒有得到有效的利用,為此,需要管理科學(xué)數(shù)據(jù)、并重用這些數(shù)據(jù)的平臺。P-CUBE由此誕生。
本文重點介紹這一剛剛問世的開源軟件的架構(gòu)體系,從P-CUBE的數(shù)據(jù)生命周期與主要角色、不同角色的作用、P-CUBE主要模塊與OSS、數(shù)據(jù)模型架構(gòu)、系統(tǒng)架構(gòu)、接口,以及P-CUBE的模型Ⅰ和Ⅱ等多個方面,對P-CUBE進(jìn)行描繪。
通過對P-CUBE的描述,讓研究者理解P-CUBE,輕松地使用P-CUBE,從而實現(xiàn)全球、特別是中日韓亞洲大國之間的科學(xué)數(shù)據(jù)共享。
負(fù)責(zé)P-CUBE研究開發(fā)的KISTI資深研究員SunTae Kim博士在描述“What is P-CUBE ?”時,給出了其定義:“大電子資源”整合研究與統(tǒng)一的平臺。P-CUBE取自于“Platform for Convergence research and Unification of Big E-resources”中的幾個英文詞匯的首字母。其關(guān)鍵詞是:
圖1 P-CUBE與數(shù)據(jù)生命周期
◆ 平臺
◆ 安全存儲、方便的獲取
◆ 科學(xué)數(shù)據(jù)的重用
圖1從數(shù)據(jù)的視角,給出了P-CUBE在數(shù)據(jù)生命周期的定位、數(shù)據(jù)生命周期中涉及的角色及其作用。可以說,P-CUBE融合和統(tǒng)一了數(shù)據(jù)的全流程管理,必不可少。
從圖2 P-CUBE主要模塊與開源軟件可以看出,P-CUBE平臺完全基于國際標(biāo)準(zhǔn)化體系和通用的開源系統(tǒng)。其數(shù)據(jù)攝取模塊采用元數(shù)據(jù)收割標(biāo)準(zhǔn)OAI-PMH,數(shù)據(jù)存儲管理采用開源軟件FEDORA,數(shù)據(jù)發(fā)布基于DOI,而數(shù)據(jù)服務(wù)利用SOAP協(xié)議。所以說,P-CUBE是全球化的開放平臺,任何科研人員、機構(gòu)、本地或數(shù)據(jù)中心都可應(yīng)用P-CUBE進(jìn)行數(shù)據(jù)管理、數(shù)據(jù)共享和重用。
參見圖3,P-CUBE數(shù)據(jù)架構(gòu)。P-CUBE提供數(shù)據(jù)的存儲、鏈接、管理和服務(wù)功能。具體如下:
P-CUBE 主要功能:
(1)收集科學(xué)數(shù)據(jù)
◆ 通過研究者數(shù)據(jù)上載來收集數(shù)據(jù)
◆ 通過標(biāo)準(zhǔn)協(xié)議自動收集數(shù)據(jù)
(2)管理和存儲科學(xué)數(shù)據(jù)
◆ 利用OAIS標(biāo)準(zhǔn)系統(tǒng)地管理數(shù)據(jù)
◆ 基于數(shù)據(jù)生命周期存儲管理
(3)科學(xué)數(shù)據(jù)發(fā)布功能
◆ 對研究人員的數(shù)據(jù)分配全球標(biāo)識符
圖2 P-CUBE主要模塊與開源軟件
圖3 P-CUBE數(shù)據(jù)架構(gòu)
采用DOI Handle機制
(4)科學(xué)數(shù)據(jù)服務(wù)功能
◆ 依據(jù)組織、集合和研究者創(chuàng)建的標(biāo)簽檢索數(shù)據(jù)
◆ 科學(xué)數(shù)據(jù)與學(xué)術(shù)期刊的鏈接服務(wù)
P-CUBE功能特點:
◆ 科學(xué)數(shù)據(jù)的系統(tǒng)管理(組織、收集)
◆ 研究人員可公開構(gòu)建自身的科學(xué)數(shù)據(jù)(默認(rèn)為非共享)
◆ 可構(gòu)建科學(xué)數(shù)據(jù)的各種管理項目
◆ 科學(xué)數(shù)據(jù)全球發(fā)布和永久獲取
◆ 基于OAI- PMH標(biāo)準(zhǔn)自動收集和發(fā)布科學(xué)數(shù)據(jù)
P-CUBE的基礎(chǔ):
◆ 基于世界公認(rèn)的開源系統(tǒng)開發(fā),采用Fedora及MySQL數(shù)據(jù)庫。
P-CUBE 技術(shù)標(biāo)準(zhǔn):
◆ P-CUBE 遵循ISO 14721:2003中規(guī)定的 OAIS參考模式
◆ P-CUBE的系統(tǒng)架構(gòu)包含數(shù)據(jù)收集、數(shù)據(jù)管理、歸檔和檢索
如圖4所示,P-CUBE在技術(shù)體系上,采用了本體描述,基于Fedora Commons Ontology、DataCite Ontology、以及DC Onlogogy等主要的對象類型屬性[4-6]。
P-CUBE數(shù)據(jù)模型(參見圖5):
◆ 組織organization
◆ 集合collection
◆ 項目item
◆ 文檔file
P-CUBE的模式設(shè)計為圖6和7兩種:論文+DOI模式和論文+數(shù)據(jù)。
P-CUBE的應(yīng)用模式設(shè)想如圖8所示。
目前,KISTI的P-CUBE研發(fā)隊伍正基于如上的架構(gòu)體系、標(biāo)準(zhǔn)規(guī)范及應(yīng)用設(shè)想,對P-CUBE進(jìn)行開放前的全面測試,并完善技術(shù)文檔,以利于其全球化應(yīng)用。預(yù)計秋季完成。
圖4 P-CUBE應(yīng)用的本體
圖5 P-CUBE對象關(guān)系
P-CUBE全部模塊采用國際標(biāo)準(zhǔn)技術(shù)規(guī)范,是通用的科學(xué)數(shù)據(jù)管理平臺,可在任何國家和任何領(lǐng)域應(yīng)用。通過在不同領(lǐng)域、不同國家的安裝試用,可以實現(xiàn)全球化的科學(xué)數(shù)據(jù)管理與共享服務(wù),作為人類福祉,被寄予厚望。
圖6 論文+DOI模式
圖7 論文+數(shù)據(jù)模式
圖8 P-CUBE的應(yīng)用模式
[1] KIM S. What is P-CUBE? [OL]. [2013-06-16]. http://or2013.net/sites/or2013.net/files/What%20is%20P-CUBE.pdf.
[2] KIM S. Research Data Platform and Development of DOI System [OL]. [2013-05-30].
[3] KIM S. P-CUBE: Research Data Platform [C]//中日韓合作會議(2013.5.30)資料.
[4] Fedora Commons官網(wǎng)[OL]. [2013-06-16]. http://www.fedora-commons.org/.
[5] DataCite官網(wǎng)[OL]. [2013-06-16]. http://www.datacite.org/.
[6] Dublin Core官網(wǎng)[OL]. [2013-06-16]. http://dublincore.org/.
P-CUBE:Open Platform for Convergence and Management Scientific Data
Liu Jingbo / Hebei Library, Shijiazhuang, 050011
Li Ying / Institute of Scientific and Technical Information of China, Beijing, 100038
Integration and management of scientific data is national strategy of information resources. Now, there are no long-term and effective means to handle it.Korea Institute of Science and Technology Information (KISTI) is in the top in Asia. P-CUBE, a platform for convergence research and unification of Big E-resources developed newly by KISTI, is a good solution. This article describes its concept definition, architecture, and technical systems and applications. At last, the conclusion is given.
KISTI, P-CUBE, Scientific data, Management platform
2013-06-22)
10.3772/j.issn.1673—2286.2013.08.008
劉靜波,碩士,體育方法學(xué)專業(yè)。研究方向:教育學(xué),圖書信息管理,數(shù)字資源的構(gòu)建等。E-mail: ryuseiha@sina.com李穎,信息系統(tǒng)專業(yè)博士。研究方向:語義知識組織,基于主題的知識組織技術(shù)的應(yīng)用等。E-mail: liying@istic.ac.cn