呂曹芳 王光興 吳燕
摘? 要:文章主要針對已有數(shù)據(jù)資源的特點(diǎn),融合了大數(shù)據(jù)等相關(guān)技術(shù),依托云平臺(tái)構(gòu)建了數(shù)據(jù)資源共享應(yīng)用服務(wù)支撐平臺(tái)體系。分析了現(xiàn)有平臺(tái)數(shù)據(jù)共享和應(yīng)用方面的不足,探討了數(shù)據(jù)共享服務(wù)工作流程,共享服務(wù)平臺(tái)的體系架構(gòu)等,為數(shù)據(jù)資源共享的應(yīng)用提供了技術(shù)和方法。數(shù)據(jù)資源共享應(yīng)用服務(wù)支撐平臺(tái)中給出了數(shù)據(jù)共享服務(wù)平臺(tái)、數(shù)據(jù)應(yīng)用支撐工具,以生成數(shù)據(jù)產(chǎn)品或數(shù)據(jù)資源,推動(dòng)數(shù)據(jù)共享應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)共享;云平臺(tái);數(shù)據(jù)中心;大數(shù)據(jù)
中圖分類號(hào):TP393.0;TP308? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)20-0112-04
Research on the Application of Data Resource Sharing Service Platform
LYU Caofang,WANG Guangxing,WU Yan
(PLA Army Academy of Artillery and Air Defense,Hefei? 230031,China)
Abstract:Based on the characteristics of existing data resources,this paper integrates big data and other related technologies,and builds the data resource sharing application service support platform system relying on the cloud platform. Analyzed the shortcomings of the existing platform data sharing and application,discussed the data sharing service workflow,the architecture of the sharing service platform,etc.,and provided technology and methods for the application of data resource sharing. The data resource sharing application service support platform presents data sharing service platform and data application support tools to generate data products or data resources and promote data sharing application.
Keywords:data sharing;cloud platform;data center;big data
0? 引? 言
當(dāng)前,云平臺(tái)、大數(shù)據(jù)技術(shù)的迅猛發(fā)展深刻改變著人們的思維,也對傳統(tǒng)的數(shù)據(jù)存儲(chǔ)管理和共享服務(wù)方式產(chǎn)生了革命性的影響[1]。但是,受當(dāng)時(shí)技術(shù)條件的制約,這些平臺(tái)都不是以大數(shù)據(jù)技術(shù)體制為背景開發(fā)的,面對來源廣泛、容量巨大、更新頻繁的數(shù)據(jù)資源,現(xiàn)有的平臺(tái)已經(jīng)無法滿足對的數(shù)據(jù)存儲(chǔ)、計(jì)算、分析能力不斷增長的需求[2]。因此,亟須廣泛融合大數(shù)據(jù)等相關(guān)技術(shù),合理借鑒現(xiàn)有的、成熟的、專業(yè)的數(shù)據(jù)工具,構(gòu)建新型的大數(shù)據(jù)管理和共享服務(wù)平臺(tái),以真正實(shí)現(xiàn)數(shù)據(jù)的安全、可靠、高效管理和共享應(yīng)用。數(shù)據(jù)是數(shù)據(jù)資源建設(shè)的“源頭”,為實(shí)現(xiàn)數(shù)據(jù)的“聚、通、用”,本文探索構(gòu)建了數(shù)據(jù)資源共享應(yīng)用服務(wù)支撐平臺(tái)體系,并為基于云平臺(tái)的數(shù)據(jù)資源共享的應(yīng)用提供了方法。作者單位因“十二五”以來的數(shù)據(jù)資源建設(shè)專項(xiàng),積累了大量數(shù)據(jù),但缺少相應(yīng)的管理和共享服務(wù)平臺(tái),所建數(shù)據(jù)無法進(jìn)行有效加工整理和入庫管理,更談不上全面共享應(yīng)用。因此作者探索構(gòu)建新型的大數(shù)據(jù)管理和共享服務(wù)平臺(tái),為真正實(shí)現(xiàn)大數(shù)據(jù)的安全、可靠、高效管理和共享應(yīng)用提供思路。
1? 數(shù)據(jù)共享工作流程
國內(nèi)在大數(shù)據(jù)建設(shè)初始,數(shù)據(jù)共享機(jī)制缺乏,制約了服務(wù)質(zhì)量和效率,前期研制的相關(guān)數(shù)據(jù)平臺(tái)大多側(cè)重于數(shù)據(jù)管理功能,在數(shù)據(jù)共享服務(wù)和應(yīng)用支撐方面重視不夠[3],為了提高共享使用數(shù)據(jù)的積極性、主動(dòng)性、按需共享、安全管控等服務(wù),研究給出了數(shù)據(jù)共享工作流程,為實(shí)現(xiàn)數(shù)據(jù)的高效管理和共享服務(wù)提供了思路。
數(shù)據(jù)共享服務(wù)工作由四部分組成:一是數(shù)據(jù)用戶注冊審批;二是數(shù)據(jù)目錄管理發(fā)布;三是數(shù)據(jù)發(fā)現(xiàn)和應(yīng)用;四是數(shù)據(jù)共享評價(jià),工作流程如圖1所示。
數(shù)據(jù)共享用戶必須通過數(shù)據(jù)共享門戶網(wǎng)站提交用戶注冊信息,共享審批組根據(jù)實(shí)際情況審批用戶,并確定用戶分級(jí)和數(shù)據(jù)共享權(quán)限,審批通過的用戶在正式登陸之前設(shè)置身份驗(yàn)證方法和信息。
數(shù)據(jù)中心共享服務(wù)組對數(shù)據(jù)目錄進(jìn)行管理,形成數(shù)據(jù)目錄,待數(shù)據(jù)中心共享審批組審批后,在數(shù)據(jù)共享門戶網(wǎng)站上發(fā)布數(shù)據(jù)目錄。
用戶登錄后,通過瀏覽和查詢數(shù)據(jù)目錄了解現(xiàn)有數(shù)據(jù)情況,根據(jù)實(shí)際應(yīng)用需要和自身權(quán)限,查詢和下載相關(guān)數(shù)據(jù),或向數(shù)據(jù)中心提出數(shù)據(jù)共享申請,共享審批組對用戶數(shù)據(jù)共享申請進(jìn)行審批,數(shù)據(jù)共享服務(wù)組根據(jù)數(shù)據(jù)共享申請制作數(shù)據(jù)產(chǎn)品(含分析計(jì)算和數(shù)據(jù)處理),然后通過在線或離線的方式分發(fā)共享數(shù)據(jù)。
用戶使用數(shù)據(jù)后,結(jié)合實(shí)際情況向數(shù)據(jù)提供方反饋數(shù)據(jù)使用情況、同時(shí)按要求銷毀共享數(shù)據(jù),數(shù)據(jù)提供方根據(jù)反饋情況進(jìn)行數(shù)據(jù)共享評估和數(shù)據(jù)質(zhì)量溯源。
2? 平臺(tái)總體架構(gòu)
2.1? 平臺(tái)體系架構(gòu)設(shè)計(jì)
平臺(tái)體系架構(gòu)是平臺(tái)建設(shè)的一個(gè)綜合模型,其由許多結(jié)構(gòu)要素及各種視圖所組成,而各種視圖主要是基于各組成要素之間的聯(lián)系與互操作而形成的,用來完整描述平臺(tái)建設(shè)的整個(gè)體系。數(shù)據(jù)資源共享應(yīng)用服務(wù)支撐平臺(tái)體系如圖2所示。
運(yùn)行環(huán)境支撐主要包括基礎(chǔ)軟件、基礎(chǔ)硬件,操作系統(tǒng)等[4]。其中基礎(chǔ)軟件主要包括云操作系統(tǒng)軟件、大數(shù)據(jù)基礎(chǔ)軟件和支撐服務(wù)軟件組成,為上層各應(yīng)用系統(tǒng)提供數(shù)據(jù)訪問、數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)處理、虛擬和物理資源的分配與調(diào)度以及服務(wù)運(yùn)行支撐等服務(wù),為下層硬件設(shè)備提供資源虛擬化與調(diào)度管理服務(wù),為跨云平臺(tái)的各類數(shù)據(jù)信息資源和應(yīng)用系統(tǒng)提供全生命周期的管理和維護(hù),是資源服務(wù)和管理維護(hù)的核心系統(tǒng)軟件,是云平臺(tái)的神經(jīng)中樞,對云平臺(tái)的整體運(yùn)行質(zhì)量具有重要影響。
理論技術(shù)支撐主要包括云平臺(tái),大數(shù)據(jù)技術(shù)等。云平臺(tái)為大數(shù)據(jù)資源提供承載環(huán)境,為大數(shù)據(jù)分析挖掘提供軟硬件支撐,為應(yīng)用系統(tǒng)的遷移、開發(fā)、部署、運(yùn)行、維護(hù)提供數(shù)據(jù)服務(wù)和支撐。大數(shù)據(jù)技術(shù)主要是數(shù)據(jù)接入與存儲(chǔ)、大數(shù)據(jù)并行計(jì)算等。
數(shù)據(jù)共享服務(wù)管理平臺(tái)和數(shù)據(jù)共享門戶網(wǎng)站是整個(gè)平臺(tái)體系建設(shè)的重點(diǎn)。數(shù)據(jù)目錄管理發(fā)布平臺(tái)、數(shù)據(jù)產(chǎn)品制作工具、數(shù)據(jù)可視化建模工具等則是為數(shù)據(jù)共享服務(wù)工作提供工具支撐。平臺(tái)及相關(guān)工具研制需要相關(guān)共享服務(wù)標(biāo)準(zhǔn)規(guī)范和機(jī)制作保障,平臺(tái)的運(yùn)行需要相關(guān)數(shù)據(jù)支撐。
數(shù)據(jù)共享應(yīng)用用戶通過數(shù)據(jù)共享門戶網(wǎng)站或離線方式獲取共享數(shù)據(jù),開展數(shù)據(jù)應(yīng)用工作,并反饋數(shù)據(jù)共享服務(wù)質(zhì)量問題;數(shù)據(jù)應(yīng)用系統(tǒng)開發(fā)用戶通過數(shù)據(jù)共享門戶網(wǎng)站共享應(yīng)用系統(tǒng)開發(fā)相關(guān)資源(開發(fā)組件),進(jìn)行數(shù)據(jù)應(yīng)用系統(tǒng)或相關(guān)業(yè)務(wù)系統(tǒng)開發(fā)。
2.2? 平臺(tái)功能架構(gòu)設(shè)計(jì)
數(shù)據(jù)資源共享應(yīng)用服務(wù)支撐平臺(tái)主要包括兩大部分:數(shù)據(jù)共享服務(wù)平臺(tái)和數(shù)據(jù)應(yīng)用支撐工具(數(shù)據(jù)應(yīng)用系統(tǒng)分為:共享應(yīng)用支撐工具和應(yīng)用開發(fā)支撐組件兩部分)。各部分的主要功能組成如圖3所示。
數(shù)據(jù)資源共享應(yīng)用服務(wù)支撐平臺(tái)功能架構(gòu)集服務(wù)、管理、應(yīng)用、開發(fā)為一體。
(1)數(shù)據(jù)共享服務(wù)平臺(tái)。主要包括數(shù)據(jù)共享服務(wù)管理系統(tǒng)和數(shù)據(jù)共享服務(wù)門戶網(wǎng)站。
數(shù)據(jù)共享服務(wù)管理系統(tǒng)能為數(shù)據(jù)管理用戶提供用戶管理、數(shù)據(jù)目錄管理與發(fā)布、數(shù)據(jù)產(chǎn)品分發(fā)、共享效益評估等功能,確保數(shù)據(jù)目錄能按級(jí)動(dòng)態(tài)發(fā)布,數(shù)據(jù)資源能按需按權(quán)共享。
數(shù)據(jù)共享服務(wù)門戶網(wǎng)站能為數(shù)據(jù)應(yīng)用用戶提供數(shù)據(jù)查詢、數(shù)據(jù)產(chǎn)品(數(shù)據(jù)資源和數(shù)據(jù)模型等)、數(shù)據(jù)計(jì)算等服務(wù)功能,確保用戶能高效共享數(shù)據(jù)資源和計(jì)算資源。
(2)數(shù)據(jù)應(yīng)用支撐工具。主要包括數(shù)據(jù)可視化建模工具,數(shù)據(jù)產(chǎn)品制作工具等。旨在為數(shù)據(jù)共享服務(wù)工作提供數(shù)據(jù)產(chǎn)品制作、數(shù)據(jù)計(jì)算分析、數(shù)據(jù)應(yīng)用建模、數(shù)據(jù)預(yù)處理等功能。其中,數(shù)據(jù)可視化建模工具,通過ROLAP服務(wù)、Spark計(jì)算服務(wù)、SQL接口等,最終實(shí)現(xiàn)用戶要求的可見操作界面的數(shù)據(jù)分析挖掘建模和應(yīng)用可視化建模及設(shè)計(jì);數(shù)據(jù)產(chǎn)品制作工具,是數(shù)據(jù)共享服務(wù)平臺(tái)與數(shù)據(jù)云存儲(chǔ)平臺(tái)之間的連接器,其根據(jù)數(shù)據(jù)共享服務(wù)平臺(tái)中用戶的數(shù)據(jù)產(chǎn)品需求,通過整合、分析、計(jì)算等方式,將數(shù)據(jù)云存儲(chǔ)平臺(tái)中的數(shù)據(jù)進(jìn)行加工,生成數(shù)據(jù)產(chǎn)品或數(shù)據(jù)資源[5]。
(3)應(yīng)用開發(fā)支撐組件。主要提供的數(shù)據(jù)應(yīng)用系統(tǒng)開發(fā)組件包括:MGIS組件、數(shù)據(jù)應(yīng)用模型組件、分析挖掘組件、數(shù)據(jù)可視化組件等。旨在對內(nèi)向用戶提供數(shù)據(jù)應(yīng)用所需的數(shù)據(jù)和應(yīng)用系統(tǒng)開發(fā)支撐,以避免重復(fù)開發(fā),提高應(yīng)用系統(tǒng)開發(fā)效率,更好更快推動(dòng)數(shù)據(jù)應(yīng)用工作;向外開放數(shù)據(jù)應(yīng)用接口,以提高數(shù)據(jù)開放共享能力,全面推動(dòng)數(shù)據(jù)共享應(yīng)用工作。
3? 數(shù)據(jù)發(fā)現(xiàn)與共享服務(wù)
數(shù)據(jù)發(fā)現(xiàn)與共享服務(wù)主要為數(shù)據(jù)用戶提供數(shù)據(jù)目錄檢索、數(shù)據(jù)檢索、數(shù)據(jù)共享申請、數(shù)據(jù)產(chǎn)品瀏覽下載等功能。數(shù)據(jù)發(fā)現(xiàn)與共享服務(wù)工作流程如圖4所示。
數(shù)據(jù)發(fā)現(xiàn)與共享服務(wù)工作流程通過目錄檢索檢測所需數(shù)據(jù),有使用需求,提出共享申請最終獲取數(shù)據(jù)的過程。
(1)目錄檢索:數(shù)據(jù)用戶登錄數(shù)據(jù)共享門戶網(wǎng)站,瀏覽和檢索數(shù)據(jù)目錄,幫助用戶了解數(shù)據(jù)資源池中數(shù)據(jù)情況,作為數(shù)據(jù)共享申請的依據(jù)。
(2)數(shù)據(jù)檢索:通過復(fù)合條件檢索工具檢索數(shù)據(jù)產(chǎn)品,如果檢索到符合條件的數(shù)據(jù)產(chǎn)品,在用戶權(quán)限允許的情況下,可以直接瀏覽或下載數(shù)據(jù)。
(3)數(shù)據(jù)共享申請:對于沒有現(xiàn)成的符合用戶需求的數(shù)據(jù)產(chǎn)品,或者有現(xiàn)成數(shù)據(jù)產(chǎn)品但受權(quán)限限制無法在線獲取的數(shù)據(jù)產(chǎn)品,用戶通過門戶網(wǎng)站提出數(shù)據(jù)共享申請。
(4)數(shù)據(jù)共享申請審批與數(shù)據(jù)產(chǎn)品分發(fā):根據(jù)情況審批用戶共享數(shù)據(jù)產(chǎn)品的權(quán)限,或者重新制作符合用戶需要的數(shù)據(jù)產(chǎn)品,然后向用戶分發(fā)數(shù)據(jù)產(chǎn)品(或制作數(shù)據(jù)產(chǎn)品光盤)。
(5)用戶數(shù)據(jù)獲?。河脩敉ㄟ^數(shù)據(jù)共享門戶網(wǎng)站在線下載分發(fā)的數(shù)據(jù)產(chǎn)品,對于密級(jí)較高的數(shù)據(jù)產(chǎn)品,需要通過機(jī)要郵寄或現(xiàn)場領(lǐng)取的方式獲取數(shù)據(jù)。
4? 結(jié)? 論
本文主要在現(xiàn)有成熟的云平臺(tái)、大數(shù)據(jù)技術(shù)基礎(chǔ)上,吸收了最新架構(gòu)技術(shù),通過建立合理的數(shù)據(jù)共享機(jī)制,構(gòu)建了安全可靠的數(shù)據(jù)共享應(yīng)用平臺(tái)。一方面徹底消除數(shù)據(jù)建設(shè)者的安全顧慮,切實(shí)讓數(shù)據(jù)共享應(yīng)用起來;另一方面讓所有的數(shù)據(jù)共享行為能得到認(rèn)可和激勵(lì),確保數(shù)據(jù)常建長用。但在建構(gòu)過程中個(gè)別軟件與整個(gè)平臺(tái)系統(tǒng)的協(xié)調(diào)性、兼容性還有待進(jìn)一步完善,數(shù)據(jù)建設(shè)標(biāo)準(zhǔn)還需要進(jìn)一步研究。
參考文獻(xiàn):
[1] 沈怡.科研數(shù)據(jù)實(shí)踐的實(shí)證研究對數(shù)據(jù)管理和共享的重要意義:個(gè)案回顧、反思與前瞻 [J].圖書情報(bào)知識(shí),2018(4):102-108.
[2] 呂欣,韓曉露,畢鈺,等.大數(shù)據(jù)安全保障框架與評價(jià)體系研究 [J].信息安全研究,2016,2(10):913-919.
[3] 李正超.國內(nèi)科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè)現(xiàn)狀及發(fā)展策略研究 [J].圖書館理論與實(shí)踐,2018(8):108-112.
[4] 傅天珍,鄭江平.國外面向科研人員的科學(xué)數(shù)據(jù)共享探析 [J].圖書館論壇,2015,35(2):76-81.
[5] 劉晶晶,馬建華.論科研數(shù)據(jù)開放共享的三種途徑 [J].情報(bào)雜志,2015,34(10):146-150+96.
作者簡介:呂曹芳(1979.09—),女,漢族,安徽壽縣人,副教授,碩士,研究方向:數(shù)據(jù)挖掘等。