国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)集成技術(shù)在檔案管理系統(tǒng)中的應(yīng)用研究

2022-11-25 12:01:25丁海斌趙錦濤
檔案管理 2022年6期
關(guān)鍵詞:檔案管理系統(tǒng)數(shù)據(jù)集成

丁海斌 趙錦濤

摘 ?要:隨著文件與檔案數(shù)據(jù)與日俱增,檔案數(shù)據(jù)集成已經(jīng)成為檔案信息資源新的增長引擎,并應(yīng)用到企業(yè)、政務(wù)機(jī)構(gòu)、醫(yī)療行業(yè)等多種場景。通過對數(shù)據(jù)集成原理、技術(shù)與方法的總結(jié)發(fā)現(xiàn),數(shù)據(jù)集成的方法與技術(shù)在檔案管理系統(tǒng)中的應(yīng)用可以建立起自己的實(shí)踐屬性突出的語義本體體系并產(chǎn)生自己的獨(dú)特作用。數(shù)據(jù)集成可應(yīng)用到檔案管理的前端、中端和后端,實(shí)現(xiàn)全過程的檔案數(shù)據(jù)集成化管理,并可以使系統(tǒng)呈現(xiàn)出層次性、精細(xì)性、規(guī)范性、一致性等特征,提高系統(tǒng)的性能并為實(shí)現(xiàn)其他應(yīng)用場景提供前期基礎(chǔ)。數(shù)據(jù)集成與檔案管理系統(tǒng)融合擬解決的關(guān)鍵問題主要涉及:技術(shù)問題、數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)安全問題等。其中,技術(shù)層主要針對不同場景的業(yè)務(wù)數(shù)據(jù)處理,解決各業(yè)務(wù)系統(tǒng)中大量的、多源的、異構(gòu)的數(shù)據(jù)融合問題;數(shù)據(jù)層對多源異構(gòu)數(shù)據(jù)進(jìn)行規(guī)范化、一致性構(gòu)建,保障數(shù)據(jù)質(zhì)量;應(yīng)用層保障數(shù)據(jù)存儲與交換安全,并保證檔案數(shù)據(jù)處理的響應(yīng)速度與系統(tǒng)友好性使用。

關(guān)鍵詞:數(shù)據(jù)集成;檔案數(shù)據(jù)集成;檔案管理系統(tǒng);語義本體

Abstract: With the increase of documents and archival data, archival data integration has become a new growth engine of archival information resources, and has been applied to enterprises, government agencies, medical industry and other scenarios. By summarizing the principles, techniques and methods of data integration, it is found that the application of the methods and techniques of the data integration in archive management system can establish its own semantic ontology system with outstanding practical attributes and produce its own unique function. Data integration can be applied to the front end, middle end and back end of archival management to realize the whole process of archival data integration, and can show the characteristics of hierarchy, fineness, standardization and consistency of the system, improve the performance of the system and provide a preliminary foundation for other application scenarios. The key problems to be solved by the integration of the data integration and the archival management system mainly involve: technical problems, data quality problems, data security problems, etc. Among them, the technical layer is mainly aimed at the large number of business data processing of different scenarios, and the multi-source, heterogeneous data fusion. The data layer builds the multi-source heterogeneous data in a standardized and consistent manner to ensure the data quality. The application layer guarantees the security of data storage and exchange, and ensures the response speed of archival data processing and the friendly use of the system.

Keywords: ?Data integration; Archival data integration; Records management system; Semantic ontology

檔案數(shù)據(jù)是社會和經(jīng)濟(jì)發(fā)展的基礎(chǔ)性戰(zhàn)略資源,檔案數(shù)據(jù)集成也是檔案信息化建設(shè)中的一個(gè)重要環(huán)節(jié)。檔案數(shù)據(jù)從靜態(tài)數(shù)據(jù)到動(dòng)態(tài)信息流和智能化開發(fā)利用,其影響力和潛力是巨大的。檔案數(shù)據(jù)集成問題成為當(dāng)前解決大規(guī)模電子文件歸檔和驅(qū)動(dòng)實(shí)現(xiàn)數(shù)字化、數(shù)據(jù)化檔案管理單軌制的重要手段。隨著“云物移智區(qū)”等新信息技術(shù)與應(yīng)用的迅速發(fā)展,檔案管理已經(jīng)過渡到數(shù)據(jù)化階段,各種格式的檔案數(shù)據(jù)已經(jīng)成為檔案信息傳遞和保存的基本形式。數(shù)據(jù)集成的發(fā)展從結(jié)構(gòu)集成、語法集成和系統(tǒng)集成向語義集成發(fā)展,檔案數(shù)據(jù)集成的方法與技術(shù)已經(jīng)涉及各個(gè)行業(yè),并成為檔案數(shù)據(jù)深度利用與開發(fā)的重要前提。

盡管數(shù)據(jù)集成技術(shù)已經(jīng)應(yīng)用在檔案管理系統(tǒng)的眾多場景中,但研究者對其認(rèn)識還很不充分,尤其是在檔案管理系統(tǒng)中的應(yīng)用還有較大的研究與實(shí)踐發(fā)展空間。因此,本文從檔案管理系統(tǒng)建設(shè)的視角出發(fā),梳理數(shù)據(jù)集成的方法與技術(shù),探究檔案管理全過程中數(shù)據(jù)集成與系統(tǒng)融合存在的關(guān)鍵問題,從而為檔案管理系統(tǒng)集成工作提供較全面較系統(tǒng)的理論參考。

1 數(shù)據(jù)集成研究現(xiàn)狀

1.1 數(shù)據(jù)集成概念。信息資源建設(shè)存在階段性和分布性的特點(diǎn),造成“信息孤島”的存在,影響數(shù)據(jù)的整體性與一致性,從而導(dǎo)致數(shù)據(jù)的協(xié)同性和利用率降低,影響數(shù)據(jù)作用的發(fā)揮,由此,數(shù)據(jù)集成的研究受到廣泛重視。

圖1 數(shù)據(jù)集成過程

數(shù)據(jù)集成是對數(shù)據(jù)源進(jìn)行融合,把不同來源、格式、特點(diǎn)、性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,通過集成將自治異構(gòu)數(shù)據(jù)源結(jié)合起來,為用戶提供統(tǒng)一的集成數(shù)據(jù)視圖,揭示數(shù)據(jù)之間的聯(lián)系,挖掘其潛在價(jià)值,從而為用戶提供集中管理與全面數(shù)據(jù)共享的條件。

1.2 數(shù)據(jù)集成的方法與技術(shù)

1.2.1 數(shù)據(jù)集成的方法

1.2.1.1 基于元數(shù)據(jù)方法。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是描述本體的內(nèi)容、結(jié)構(gòu)、背景及其整個(gè)管理過程的數(shù)據(jù)?;谠獢?shù)據(jù)方法的數(shù)據(jù)集成,是運(yùn)用元數(shù)據(jù)對數(shù)據(jù)資源進(jìn)行描述,完成多個(gè)異構(gòu)數(shù)據(jù)源之間的信息交換、集成、同步等操作,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)資源整合利用。元數(shù)據(jù)方法通過編寫受控詞表,確定元數(shù)據(jù)語義描述標(biāo)準(zhǔn),設(shè)置元數(shù)據(jù)語義化映射模式,對不同系統(tǒng)的數(shù)據(jù)進(jìn)行集成。[1]然后按照一定的映射規(guī)則將自己的元數(shù)據(jù)記錄轉(zhuǎn)換成中心元數(shù)據(jù)存儲在數(shù)據(jù)庫中。

元數(shù)據(jù)方法能夠很好地體現(xiàn)檔案數(shù)據(jù)元素之間的語義關(guān)系,按照元數(shù)據(jù)組織信息資源的功能分為:知識描述元數(shù)據(jù)、結(jié)構(gòu)元數(shù)據(jù)、訪問控制元數(shù)據(jù)和評估元數(shù)據(jù)。根據(jù)不同的功能需求建立相應(yīng)的詞表對特定領(lǐng)域的檔案數(shù)據(jù)共享具有參考價(jià)值和指導(dǎo)意義。但是也存在一些局限性:元數(shù)據(jù)所提供的數(shù)據(jù)描述信息不夠完備,數(shù)據(jù)處理過程、數(shù)據(jù)使用說明、數(shù)據(jù)來源及引用信息等需要借助完整的數(shù)據(jù)文檔提供。為了涵蓋盡可能多的知識,元數(shù)據(jù)的條目越來越多,而且不同行業(yè)領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)各異,導(dǎo)致數(shù)據(jù)源之間的互訪困難。不同格式類型和專業(yè)領(lǐng)域的檔案數(shù)據(jù)采用不同的元數(shù)據(jù)標(biāo)準(zhǔn),由于缺乏跨領(lǐng)域共享概念模型的支持,元數(shù)據(jù)方法無法實(shí)現(xiàn)不同領(lǐng)域之間異構(gòu)檔案數(shù)據(jù)的語義集成。

1.2.1.2 基于語義本體的方法。在信息科學(xué)領(lǐng)域,本體是對某一領(lǐng)域中的概念及其之間關(guān)系,運(yùn)用機(jī)器可讀的語義表達(dá)方式進(jìn)行顯性描述,通過構(gòu)建領(lǐng)域本體建立各數(shù)據(jù)源之間的映射關(guān)系網(wǎng)絡(luò)。基于語義本體的數(shù)據(jù)集成系統(tǒng),用戶能夠通過對本體描述有效訪問多個(gè)數(shù)據(jù)源中的數(shù)據(jù)。目前基于本體技術(shù)的數(shù)據(jù)集成的方式主要分為:單本體、多本體、混合本體方法三種模式。值得注意的是,檔案語義本體具有顯著的實(shí)踐性和客觀性,能夠建立實(shí)踐屬性突出的語義本體體系。

1.2.1.3 基于關(guān)聯(lián)數(shù)據(jù)方法。關(guān)聯(lián)數(shù)據(jù)對代表同一過程來自不同局部節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行關(guān)聯(lián),它采用RDF數(shù)據(jù)模型,使用統(tǒng)一資源標(biāo)識符(URI)命名數(shù)據(jù)對象,描述數(shù)據(jù)對象及其關(guān)聯(lián)關(guān)系和語境信息,通過HTTP協(xié)議發(fā)布和共享數(shù)據(jù)、知識,構(gòu)成人和機(jī)器都能夠獲取的數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)。[2]

關(guān)聯(lián)數(shù)據(jù)集的構(gòu)建是一個(gè)繁雜、系統(tǒng)工程,將多源異構(gòu)的數(shù)據(jù)通過關(guān)聯(lián)數(shù)據(jù)的方式對數(shù)據(jù)和知識進(jìn)行再組織,使之形成關(guān)聯(lián)化、結(jié)構(gòu)化、有序化語義信息,運(yùn)用字典或語義庫的屬性列(“屬性列是以關(guān)系數(shù)據(jù)庫中的特征/列為單位進(jìn)行數(shù)據(jù)存儲,將具有相同特征值的實(shí)體存儲在一起,而某一實(shí)體中的不同屬性值則存儲于不同的存儲單元中。”[3])語義匹配、利用屬性列內(nèi)容相似性判斷和使用樸素貝葉斯學(xué)習(xí)算法計(jì)算屬性列相似概率等方法發(fā)現(xiàn)實(shí)體之間的關(guān)聯(lián)。[4]

1.2.2 數(shù)據(jù)集成的技術(shù)

1.2.2.1 開放網(wǎng)格服務(wù)架構(gòu)下的數(shù)據(jù)訪問與集成技術(shù)。OGSA-DAI是一種廣泛使用在網(wǎng)格中集成數(shù)據(jù)資源的中間件。其中網(wǎng)格是集成基礎(chǔ)設(shè)施,能夠在動(dòng)態(tài)、分布式虛擬組織中共享和協(xié)同各種數(shù)據(jù)資源,數(shù)據(jù)網(wǎng)格作為一種數(shù)據(jù)處理架構(gòu),實(shí)現(xiàn)了網(wǎng)格環(huán)境中的數(shù)據(jù)訪問、交換和共享。其通過將關(guān)系數(shù)據(jù)庫、XML數(shù)據(jù)庫以及文件系統(tǒng)等不同數(shù)據(jù)源中的異構(gòu)科學(xué)數(shù)據(jù)封裝為網(wǎng)格服務(wù)并構(gòu)建數(shù)據(jù)網(wǎng)格。分布式數(shù)據(jù)資源的格式、模式、質(zhì)量、訪問機(jī)制、功能是多種多樣的,通過數(shù)據(jù)網(wǎng)格能夠在數(shù)據(jù)受控和安全的前提下,實(shí)現(xiàn)大量異構(gòu)數(shù)據(jù)集的協(xié)調(diào)與共享。[5]

OGSA-DAI技術(shù)可以在尊重本地策略的情況下跨特定域使用計(jì)算資源,通過備份數(shù)據(jù)的方法提高可靠性、可用性。其次,提供了一站式訪問異構(gòu)數(shù)據(jù)資源的方式,提高數(shù)據(jù)集成工作的效率。同時(shí),允許數(shù)據(jù)提供者保留對原始數(shù)據(jù)的控制,保證了數(shù)據(jù)的安全性。

1.2.2.2 人工智能技術(shù)。人工智能是計(jì)算機(jī)系統(tǒng)正確地解譯外部數(shù)據(jù),從這些數(shù)據(jù)中進(jìn)行學(xué)習(xí),并通過靈活運(yùn)用所學(xué)知識實(shí)現(xiàn)特定目標(biāo)或完成特定任務(wù)的能力。涉及的技術(shù)較多,如利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、知識圖譜等呈現(xiàn)數(shù)據(jù)資源的全景視圖。利用統(tǒng)一的資源描述框架描述多模態(tài)的數(shù)據(jù)資源,然后利用基于知識庫與本體庫的雙向嵌入式學(xué)習(xí)、遷移學(xué)習(xí)方法挖掘和抽取數(shù)據(jù)資源中的知識,將多源異構(gòu)數(shù)據(jù)和知識從概念層和實(shí)例層進(jìn)行對齊,融合到一個(gè)全局視圖的全景化知識圖譜中。[6,7]

人工智能技術(shù)具備高維非結(jié)構(gòu)化數(shù)據(jù)分析處理能力,基于人工智能技術(shù)的科學(xué)數(shù)據(jù)集成方法具有高效構(gòu)建科學(xué)數(shù)據(jù)關(guān)系網(wǎng)絡(luò)和挖掘科學(xué)數(shù)據(jù)關(guān)聯(lián)資源的優(yōu)勢,可以實(shí)現(xiàn)大規(guī)模多源異構(gòu)科學(xué)數(shù)據(jù)的融合管理。人工智能雖然在技術(shù)成熟度和應(yīng)用生態(tài)方面存在不足,但隨著技術(shù)的發(fā)展和應(yīng)用的深入,人工智能將成為今后數(shù)據(jù)集成的主流技術(shù)。

1.2.2.3 開源軟件技術(shù)。開源軟件是允許用戶根據(jù)開源許可證及其協(xié)議要求,自由使用、修改和分發(fā)軟件的源代碼。開源軟件為數(shù)據(jù)集成提供了低成本、高效率的技術(shù)工具,但是很多開源軟件沒有可視化操作界面,而且需要二次開發(fā)適用的插件,技術(shù)要求和開發(fā)成本較高,并且經(jīng)過二次開發(fā)的開源軟件其通用性和重用性較差。

1.3 檔案管理系統(tǒng)數(shù)據(jù)集成。檔案管理系統(tǒng)數(shù)據(jù)集成研究存在兩種研究視角。其一是將數(shù)據(jù)集成視為一種檔案數(shù)據(jù)的管理方式,重點(diǎn)研究運(yùn)用數(shù)據(jù)集成方式設(shè)計(jì)出檔案數(shù)據(jù)集成方案。該類研究強(qiáng)調(diào)在管理方面突破檔案常規(guī)管理模式,用集成管理的方式提高檔案管理效率[8];其次,重視在單軌制管理模式下,從業(yè)務(wù)流程和歸檔流程等過程入手,運(yùn)用集成的方式提出具體的實(shí)施策略[9];同時(shí),運(yùn)用數(shù)據(jù)集成方式實(shí)現(xiàn)檔案數(shù)據(jù)的共享利用,通過對數(shù)字化檔案數(shù)據(jù)的管理推動(dòng)相關(guān)工作的全面發(fā)展[10]。整體而言,該類研究提出的檔案管理系統(tǒng)集成的方案與措施,難以有效地指導(dǎo)一般檔案管理系統(tǒng)集成實(shí)踐的開展。

其二是將數(shù)據(jù)集成技術(shù)融入檔案管理系統(tǒng)的構(gòu)建中,著重分析檔案管理系統(tǒng)集成的實(shí)現(xiàn)方案?,F(xiàn)有的研究主要是面向前端業(yè)務(wù)系統(tǒng)的集成研究,面向的是OA系統(tǒng)、ERP系統(tǒng)、網(wǎng)上行政審批平臺等;其次,重點(diǎn)運(yùn)用集成技術(shù)構(gòu)建檔案管理一體化平臺設(shè)計(jì)方案,面對的主體是:高校平臺[11]、醫(yī)療平臺[12]、企業(yè)平臺[13]、政務(wù)平臺[14]。整體而言,該類研究能夠?qū)τ跈n案數(shù)據(jù)集成平臺構(gòu)建提供較為可行的理論指導(dǎo)。

綜上所述,當(dāng)前數(shù)據(jù)集成技術(shù)在檔案管理和檔案管理系統(tǒng)研究中已經(jīng)取得一定的成果,一方面能夠?yàn)闄n案數(shù)據(jù)集成管理和共享利用提供宏觀的管理性指導(dǎo)方案。另一方面,對于在實(shí)踐中具體構(gòu)建集成化檔案管理系統(tǒng)提供可行性方案。但是,相關(guān)研究在全過程、多方位的檔案管理系統(tǒng)數(shù)據(jù)集成中存在不足,缺少系統(tǒng)的、全面的對數(shù)據(jù)集成在檔案管理系統(tǒng)應(yīng)用中的理論指導(dǎo)。

2 數(shù)據(jù)集成技術(shù)在檔案管理系統(tǒng)中應(yīng)用的特點(diǎn)與必要性

2.1 數(shù)據(jù)集成技術(shù)在檔案管理系統(tǒng)中應(yīng)用的特點(diǎn)。數(shù)據(jù)集成技術(shù)應(yīng)用到檔案管理系統(tǒng)中,涉及檔案從采集到歸檔利用的全部流程,涉及人員組織集成、業(yè)務(wù)集成、數(shù)據(jù)集成、制度集成、安全集成等多維度內(nèi)容。整個(gè)系統(tǒng)從宏觀到微觀層面來看,具有系統(tǒng)結(jié)構(gòu)層次性、管理方式精細(xì)性、數(shù)據(jù)結(jié)構(gòu)規(guī)范性和元數(shù)據(jù)一致性四個(gè)特征。

2.1.1 系統(tǒng)結(jié)構(gòu)與集成過程層次性。數(shù)據(jù)集成在檔案管理系統(tǒng)中應(yīng)用的目的,在于為各種目標(biāo)的集成提供標(biāo)準(zhǔn)規(guī)則和實(shí)踐指導(dǎo),其應(yīng)用必須同時(shí)滿足電子文件歸檔的基本要求和信息系統(tǒng)集成的必要條件。

為了達(dá)到電子文件歸檔的基本要求,檔案管理系統(tǒng)以實(shí)踐本體論、系統(tǒng)工程理論和全程管理理論為指導(dǎo)。首先,要以檔案實(shí)踐本體論和檔案工作根本原則(保持與人類實(shí)踐活動(dòng)的一致性)[15]為指導(dǎo),保持與對應(yīng)的業(yè)務(wù)活動(dòng)的一致性;其次,系統(tǒng)工程理論和全程管理理論對檔案數(shù)據(jù)集成過程提出了系統(tǒng)化、整體化、全程化的要求,涉及檔案數(shù)據(jù)從低層次向高層次流轉(zhuǎn)的全過程,包括數(shù)據(jù)的采集、整理、歸檔、利用全過程,必須保證電子文件在不同系統(tǒng)內(nèi)管理與保存的內(nèi)在協(xié)同性。最后,全程管理要求數(shù)據(jù)集成在檔案管理系統(tǒng)中,既要考慮框架構(gòu)建思路、要素內(nèi)容和設(shè)計(jì)理念彼此之間的協(xié)調(diào)一致,又要體現(xiàn)出系統(tǒng)的事前規(guī)劃、事中管控、事后監(jiān)督的管理能力。

針對信息系統(tǒng)集成的必要條件,檔案管理系統(tǒng)設(shè)計(jì)需參照信息系統(tǒng)集成理論,運(yùn)用層次劃分技術(shù)對框架涉及的必備要素進(jìn)行科學(xué)的劃分。信息系統(tǒng)集成理論能夠?yàn)椴煌男畔⑾到y(tǒng)間的集成提供方法論指導(dǎo),涉及集成原則、集成技術(shù)、集成方法與集成框架等內(nèi)容。檔案數(shù)據(jù)集成過程是涉及眾多要素的系統(tǒng)性工作,檔案數(shù)據(jù)體量大并且具有多源異構(gòu)的特征,但是它們各要素之間具有一定的關(guān)聯(lián)屬性。因此,檔案管理系統(tǒng)的建設(shè)要對涉及的各主體、各要素進(jìn)行科學(xué)的劃分,在信息系統(tǒng)集成理論的基礎(chǔ)上構(gòu)建結(jié)構(gòu)完整、層次分明、體系完備的集成框架。

2.1.2 系統(tǒng)要求與管理方式精細(xì)性。數(shù)據(jù)集成在檔案管理系統(tǒng)中應(yīng)用,需要保障系統(tǒng)在信息傳輸、交換、存儲和處理過程中保持電子檔案數(shù)據(jù)的完整性、可靠性以及機(jī)密性,可實(shí)現(xiàn)電子檔案單軌制管理、智能化開發(fā)、大范圍共享等檔案信息化發(fā)展的需要。其次,系統(tǒng)處理的對象,不僅有數(shù)據(jù),還有知識;系統(tǒng)能夠?qū)τ脩羰褂们闆r進(jìn)行自動(dòng)跟蹤,實(shí)現(xiàn)使用過程自動(dòng)留痕。并且對收集的檔案文件進(jìn)行自主識別、自動(dòng)分類歸檔,實(shí)現(xiàn)檔案智能化整理。

數(shù)據(jù)管理與集成是全流程的活動(dòng),數(shù)據(jù)集成是全流程管理的關(guān)鍵因素。它研究的重點(diǎn)包括數(shù)據(jù)采集、異構(gòu)數(shù)據(jù)整合、數(shù)據(jù)共享、數(shù)據(jù)標(biāo)準(zhǔn)的一致性等內(nèi)容。其中,數(shù)據(jù)采集和數(shù)據(jù)標(biāo)準(zhǔn)一致性是數(shù)據(jù)集成的主要推動(dòng)因素。從單純的多種類型數(shù)據(jù)集成到檔案數(shù)據(jù)管理全過程的集成,涉及和考慮的內(nèi)容增加,對檔案數(shù)據(jù)的管理也從事中管理擴(kuò)展到前端控制和后端控制。因此,它對于系統(tǒng)要求和管理方式要更加精細(xì)化,并且要有一定的擴(kuò)展性和適應(yīng)性。

2.1.3 數(shù)據(jù)結(jié)構(gòu)與存儲方式規(guī)范性。檔案管理系統(tǒng)建設(shè)要符合國家、行業(yè)標(biāo)準(zhǔn)規(guī)定的多種門類、多種格式的電子檔案:支持對多個(gè)全宗、多個(gè)檔案門類的集成管理;并且對各個(gè)全宗及每個(gè)全宗內(nèi)不同門類檔案實(shí)施不同的分類方案;同時(shí)要求在多個(gè)檔案分類方案間建立映射或關(guān)聯(lián)關(guān)系,保障對所有類型電子檔案的集成管理以及對不規(guī)范的電子檔案進(jìn)行自動(dòng)的過濾、提醒和處理。

數(shù)據(jù)集成的應(yīng)用要求檔案數(shù)據(jù)的歸檔和元數(shù)據(jù)的標(biāo)準(zhǔn)要具有一致性和標(biāo)準(zhǔn)性,首先需詳細(xì)了解檔案數(shù)據(jù)的特性,提出具有針對性的數(shù)據(jù)結(jié)構(gòu)的描述方式、元數(shù)據(jù)的內(nèi)容、XML(可擴(kuò)展標(biāo)記語言)的表述方式等,確定元數(shù)據(jù)中必要或可選的元數(shù)據(jù)信息,最終確定元數(shù)據(jù)項(xiàng)目的數(shù)據(jù)類型。在此基礎(chǔ)上構(gòu)建的數(shù)據(jù)結(jié)構(gòu),不僅可以對檔案數(shù)據(jù)的本體進(jìn)行描述與定義,也能夠體現(xiàn)復(fù)雜數(shù)據(jù)之間的層次性,使其形成的數(shù)據(jù)、結(jié)構(gòu)呈現(xiàn)連續(xù)性和完整性,從而保障存儲方式的規(guī)范性。檔案數(shù)據(jù)具有數(shù)據(jù)量大、多源異構(gòu)的特征,用戶對于操作處理速度、數(shù)據(jù)安全也有較高的要求。因此,數(shù)據(jù)集成技術(shù)應(yīng)用能夠提升數(shù)據(jù)處理效率,其關(guān)鍵性因素需要保障數(shù)據(jù)的存儲效率和數(shù)據(jù)一致性。

2.1.4 元數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)交換一致性。數(shù)據(jù)集成技術(shù)要求檔案管理系統(tǒng)結(jié)構(gòu)具備開放性,可實(shí)現(xiàn)與其他系統(tǒng)的功能集成、數(shù)據(jù)交換與共享。第一,提供開放的應(yīng)用接口功能,支持與電子檔案檢測工具、電子檔案格式轉(zhuǎn)換工具、報(bào)表生成工具、工作流程定義工具、數(shù)據(jù)備份與恢復(fù)工具等第三方工具的功能集成;第二,提供開放的數(shù)據(jù)接口功能,支持與其他電子文件管理系統(tǒng)、辦公自動(dòng)化系統(tǒng)等系統(tǒng)的數(shù)據(jù)集成;第三,支持與異構(gòu)系統(tǒng)進(jìn)行規(guī)范格式的電子檔案信息交換,保障其他檔案管理系統(tǒng)或電子文件管理系統(tǒng)實(shí)現(xiàn)業(yè)務(wù)過程的銜接和數(shù)據(jù)的交互;第四,尤其是對新技術(shù)、新平臺的應(yīng)用兼容和數(shù)據(jù)遷移,保證系統(tǒng)功能后續(xù)的修改和升級。

元數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建是元數(shù)據(jù)一致性的保障,一致性要求宏觀上要與國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)保持一致,微觀上保持?jǐn)?shù)據(jù)結(jié)構(gòu)、描述方式、構(gòu)建方式一致,為檔案數(shù)據(jù)存儲、共享與交換、利用提供便利。數(shù)據(jù)集成技術(shù)與功能協(xié)同需要元數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)交換一致性,模塊化、專業(yè)化、一體化的元數(shù)據(jù)建設(shè)是數(shù)據(jù)集成的基礎(chǔ)工作。

2.2 數(shù)據(jù)集成技術(shù)應(yīng)用的必要性

2.2.1 技術(shù)層面。首先,數(shù)據(jù)集成技術(shù)更加完善,通過集成能夠提供更有價(jià)值的數(shù)據(jù)。從數(shù)據(jù)集成到集成式的檔案管理系統(tǒng),不僅能夠使最終的數(shù)據(jù)更加準(zhǔn)確,而且能夠提高數(shù)據(jù)的質(zhì)量。其次,能夠改善人員、系統(tǒng)、數(shù)據(jù)的協(xié)作與統(tǒng)一,提升了響應(yīng)速度。數(shù)據(jù)集成能夠通過網(wǎng)絡(luò)直接訪問數(shù)據(jù)庫中數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)共享,數(shù)據(jù)集成的協(xié)作與統(tǒng)一,改善組織結(jié)構(gòu)協(xié)作問題與效率問題。檔案數(shù)據(jù)體量大,有效數(shù)據(jù)集成能夠促進(jìn)數(shù)據(jù)的智能化分析,統(tǒng)一的存儲環(huán)境能夠?qū)崿F(xiàn)數(shù)據(jù)的同時(shí)訪問,運(yùn)用人工智能技術(shù)實(shí)現(xiàn)數(shù)據(jù)間邏輯的關(guān)聯(lián)。

2.2.2 經(jīng)濟(jì)層面。首先,數(shù)據(jù)集成能夠縮短數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)分析時(shí)間,統(tǒng)一視圖的自動(dòng)化流程破除用戶手動(dòng)收集資料方式。傳統(tǒng)的數(shù)據(jù)存儲在不同的位置和過程中,數(shù)據(jù)集成的應(yīng)用使其統(tǒng)一存儲在數(shù)據(jù)庫中,能夠保障數(shù)據(jù)完整性、及時(shí)性和準(zhǔn)確性,數(shù)據(jù)的實(shí)時(shí)更新與實(shí)時(shí)收集、集成能夠保障數(shù)據(jù)集成質(zhì)量、數(shù)據(jù)的新鮮度,減少因?yàn)閿?shù)據(jù)集成質(zhì)量較低而增加的經(jīng)濟(jì)成本。其次,通過AI,數(shù)據(jù)集成能夠?qū)崿F(xiàn)即時(shí)的正反饋循環(huán),通過數(shù)據(jù)集成整合生成的數(shù)據(jù)集支持決策的完善。傳統(tǒng)檔案管理系統(tǒng)需要安裝在中心大型服務(wù)器上,初期的建設(shè)成本和維護(hù)成本較高,但是通過數(shù)據(jù)集成把其存儲和運(yùn)行都放置在云環(huán)境中,可以根據(jù)數(shù)據(jù)存儲量的大小按需支付費(fèi)用,相比于傳統(tǒng)的系統(tǒng)運(yùn)作的方式更加的經(jīng)濟(jì)實(shí)惠,能有效地降低維護(hù)成本和運(yùn)營時(shí)間。

2.2.3 社會層面?!皺n案是社會運(yùn)行與治理的重要經(jīng)驗(yàn)基礎(chǔ)。人類的任何一種實(shí)踐活動(dòng),都以人類思維作為出發(fā)點(diǎn),都要從思維到行動(dòng),而人類思維需要相應(yīng)的經(jīng)驗(yàn)基礎(chǔ)。檔案在人類實(shí)踐活動(dòng)中具有特別重要的經(jīng)驗(yàn)基礎(chǔ)作用?!盵16]檔案數(shù)據(jù)量在不斷地增加,用戶更迫切地需要應(yīng)用技術(shù)手段去解決繁雜無序的數(shù)據(jù),數(shù)據(jù)集成技術(shù)應(yīng)用也必不可少。信息化時(shí)代,用戶主體辦公主要通過在線完成,不同應(yīng)用生成的數(shù)據(jù)量在不斷地增加,降低服務(wù)器運(yùn)行的效率。通過運(yùn)用數(shù)據(jù)集成技術(shù)把數(shù)據(jù)存儲、數(shù)據(jù)交換、數(shù)據(jù)運(yùn)算處理在云端進(jìn)行,能夠解決用戶數(shù)據(jù)管理和利用的難點(diǎn)。對各主體的業(yè)務(wù)流程和管理過程存在信息不對稱、視覺盲點(diǎn)等問題,通過對數(shù)據(jù)的全過程進(jìn)行集成,系統(tǒng)能夠及時(shí)地發(fā)現(xiàn)問題并提醒,數(shù)據(jù)集成能夠改善人主觀能動(dòng)性所關(guān)注不到的內(nèi)容。把數(shù)據(jù)、信息、流程集成起來,通過計(jì)算機(jī)的處理邏輯能夠使管理過程更加高效,特別是為智能化開發(fā)提供必要的數(shù)據(jù)完整性條件。

3 數(shù)據(jù)集成應(yīng)用檔案管理系統(tǒng)擬解決的關(guān)鍵問題

3.1 檔案收集與技術(shù)協(xié)同。大數(shù)據(jù)時(shí)代,檔案管理數(shù)字化轉(zhuǎn)型以及檔案數(shù)據(jù)處理技術(shù)不斷應(yīng)用推廣,使各主體形成的檔案數(shù)據(jù)體量巨大。由于檔案數(shù)據(jù)政策法規(guī)制度缺失和檔案數(shù)據(jù)結(jié)構(gòu)復(fù)雜,可能導(dǎo)致檔案數(shù)據(jù)惡意篡改;數(shù)據(jù)資源難以整合利用,形成“數(shù)據(jù)孤島”、冗余數(shù)據(jù)的存儲消耗大量存儲資源等。這些問題均對檔案管理系統(tǒng)中檔案收集節(jié)點(diǎn)提出了更高的技術(shù)要求。

檔案收集工作涉及歸檔部門發(fā)布?xì)w檔通知、業(yè)務(wù)部門整理各自需歸檔的材料、移交/接入歸檔部門、歸檔部門驗(yàn)收并保存入庫。它的歸檔流程涉及人員和部門較多,由于檔案收集工作較瑣碎,勢必會造成部分檔案的錯(cuò)漏,影響檔案數(shù)據(jù)整體價(jià)值的發(fā)揮。同時(shí),由于使用業(yè)務(wù)系統(tǒng)的多樣性,造成不同系統(tǒng)之間的數(shù)據(jù)種類、格式、結(jié)構(gòu)各異。還有,目前許多業(yè)務(wù)系統(tǒng)不具備歸檔功能,導(dǎo)致電子文件無法通過系統(tǒng)自動(dòng)歸檔和系統(tǒng)協(xié)同。因此,數(shù)據(jù)集成技術(shù)應(yīng)用需要保障檔案管理系統(tǒng)的開放性與協(xié)同性,保障對檔案收集中各流程的節(jié)點(diǎn)合理集成的基礎(chǔ)上,也要考慮不同系統(tǒng)之間的數(shù)據(jù)接入的一致性。

3.2 檔案管理與數(shù)據(jù)安全。檔案管理已經(jīng)進(jìn)入信息化管理與智能化管理階段,大數(shù)據(jù)技術(shù)在檔案采集、檢驗(yàn)、存儲等各個(gè)方面被廣泛應(yīng)用,檔案管理融合了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、智聯(lián)網(wǎng),并向智能化管理方向發(fā)展。盡管,數(shù)據(jù)集成的方式能夠使大數(shù)據(jù)在云計(jì)算平臺上進(jìn)行處理和查詢、云計(jì)算可以按需付費(fèi)提供各種彈性和可擴(kuò)展的IT服務(wù),但也帶來了隱私和安全問題。檔案數(shù)據(jù)集成能夠打破數(shù)據(jù)孤島、實(shí)現(xiàn)數(shù)據(jù)資源共享,但是集成化數(shù)據(jù)資源暴露在網(wǎng)絡(luò)環(huán)境中,信息竊取者利用先驗(yàn)知識背景和海量數(shù)據(jù)的相關(guān)性來竊取敏感信息。另外,不同系統(tǒng)的數(shù)據(jù)源分布在不同的設(shè)備和存儲系統(tǒng)中,依靠網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的傳輸,這對于數(shù)據(jù)的安全性保障提出了更高的要求。

3.3 檔案利用與數(shù)據(jù)質(zhì)量。構(gòu)建智能化、便捷化的檔案信息化管理系統(tǒng)的目的是保證檔案的存在形式、存在方式、管理模式、運(yùn)行模式實(shí)現(xiàn)數(shù)據(jù)化、集合化、單軌化、實(shí)時(shí)化。[17]保障檔案智能化利用的前提是擁有高質(zhì)量的集成化檔案數(shù)據(jù)。檔案數(shù)據(jù)的集成化、完整度、一致度越高,智能化利用和開發(fā)的效果就會越好。盡管數(shù)據(jù)集成技術(shù)能夠?qū)Χ嘣串悩?gòu)數(shù)據(jù)進(jìn)行整合,但是由于被集成的數(shù)據(jù)源來自不同的渠道,其數(shù)據(jù)模型呈現(xiàn)異構(gòu)性,主要體現(xiàn)在語法異構(gòu)、數(shù)據(jù)語義異構(gòu)、數(shù)據(jù)源使用的環(huán)境異構(gòu)等。由于不同數(shù)據(jù)源的實(shí)體關(guān)系建模時(shí)采用不同的命名規(guī)則、不同顆粒度劃分,造成數(shù)據(jù)源間的語義異構(gòu)。復(fù)雜的關(guān)系模型也是數(shù)據(jù)集成的重、難點(diǎn)。另外,不同系統(tǒng)中的數(shù)據(jù)源具有較強(qiáng)的自治性,統(tǒng)一數(shù)據(jù)集成會改變數(shù)據(jù)自身結(jié)構(gòu),造成數(shù)據(jù)失真,影響數(shù)據(jù)質(zhì)量和數(shù)據(jù)集成效率與真實(shí)性。因此,數(shù)據(jù)集成在檔案管理系統(tǒng)中,提高數(shù)據(jù)質(zhì)量、保障檔案智能化利用方面是需要重點(diǎn)關(guān)注。

4 解決方案

隨著大數(shù)據(jù)技術(shù)的迅猛發(fā)展,各行業(yè)愈發(fā)重視檔案數(shù)據(jù)潛在的巨大價(jià)值,把人工智能技術(shù)應(yīng)用到多維度、多源異構(gòu)的數(shù)據(jù)挖掘中。檔案管理系統(tǒng)在數(shù)據(jù)集成的基礎(chǔ)上形成的數(shù)據(jù)是有序化、結(jié)構(gòu)化、體系化的數(shù)據(jù),能夠?qū)崿F(xiàn)數(shù)據(jù)的深度分析和挖掘,保證數(shù)據(jù)的多維度高效檢索,為用戶提供數(shù)據(jù)分析依據(jù)。

4.1 智能化歸檔保障技術(shù)協(xié)同。傳統(tǒng)電子檔案收集出現(xiàn)的問題包括:重要數(shù)據(jù)缺失、數(shù)據(jù)異常、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)或者錯(cuò)誤。因此,在智能化歸檔中應(yīng)用數(shù)據(jù)集成技術(shù),能夠提高歸檔效率。檔案數(shù)據(jù)集成包括多方面集成,不僅涉及人員組織集成、制度集成、基礎(chǔ)數(shù)據(jù)集成,而且包括安全集成、業(yè)務(wù)過程集成等內(nèi)容。

在人員組織集成和業(yè)務(wù)過程集成中,要更加重視檔案人員素質(zhì)的培養(yǎng),制定合適的數(shù)據(jù)質(zhì)量管理角色,劃分單獨(dú)的組織架構(gòu),在業(yè)務(wù)過程中落實(shí)追責(zé)制度,保障數(shù)據(jù)在采集和形成中提高數(shù)據(jù)質(zhì)量,保障從數(shù)據(jù)形成的源頭提高檔案數(shù)據(jù)質(zhì)量。

在制度集成和基礎(chǔ)數(shù)據(jù)集成過程中,嚴(yán)格制定數(shù)據(jù)質(zhì)量的規(guī)范,提升數(shù)據(jù)一致性,依據(jù)已有的國家或者行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)、監(jiān)管要求、行業(yè)規(guī)范等內(nèi)容,以及現(xiàn)階段影響數(shù)據(jù)質(zhì)量的因素,結(jié)合業(yè)務(wù)集成過程中檔案本體提出標(biāo)準(zhǔn)的元數(shù)據(jù)項(xiàng),元數(shù)據(jù)項(xiàng)之間的繼承、聯(lián)動(dòng)等關(guān)聯(lián)關(guān)系,形成標(biāo)準(zhǔn)電子檔案元數(shù)據(jù)和目錄數(shù)據(jù)池。尤其要注意的是檔案語義本體體系的構(gòu)建,從檔案本體的概念、概念關(guān)系、屬性、屬性關(guān)系、層次結(jié)構(gòu)等多個(gè)方面的內(nèi)容進(jìn)行解析,各元數(shù)據(jù)的分類體系的定義需與機(jī)構(gòu)預(yù)先明確的電子檔案的密級、保管期限、分類規(guī)則和其他特殊要求等進(jìn)行關(guān)聯(lián),以便實(shí)現(xiàn)電子檔案的自動(dòng)、批量的捕獲與接收,集成數(shù)據(jù)系統(tǒng)中構(gòu)建的分類體系按照層級進(jìn)行組織。

在基礎(chǔ)數(shù)據(jù)集成中,整合數(shù)據(jù)資源,支持接入多個(gè)來源、不同結(jié)構(gòu)的數(shù)據(jù),統(tǒng)一數(shù)據(jù)口徑。解決基礎(chǔ)數(shù)據(jù)在整合過程中不同數(shù)據(jù)源的劃分標(biāo)準(zhǔn)和元數(shù)據(jù)不一致問題,保障基礎(chǔ)數(shù)據(jù)集成后數(shù)據(jù)集的質(zhì)量。

4.2 一體化管理保障數(shù)據(jù)安全。數(shù)據(jù)集成在檔案管理系統(tǒng)中應(yīng)用,能夠更好地實(shí)現(xiàn)檔案管理人員、檔案系統(tǒng)、業(yè)務(wù)流程三者之間的協(xié)同。但是在檔案數(shù)據(jù)集成過程中仍然存在影響檔案數(shù)據(jù)安全的因素:原始數(shù)據(jù)被惡意篡改的問題、數(shù)據(jù)存儲中被盜取和丟失的問題等。因此,在檔案管理的一體化過程中更加注重保障數(shù)據(jù)安全。

檔案管理系統(tǒng)在人員組織集成中會對不同的相關(guān)人員進(jìn)行分級、分層地設(shè)置相應(yīng)的操作權(quán)限,能夠防止非授權(quán)訪問,保存電子檔案管理關(guān)鍵業(yè)務(wù)過程記錄,保障電子檔案安全:第一,支持系統(tǒng)管理員、網(wǎng)絡(luò)管理員、安全管理員、檔案館(室)檔案管理員、歸檔單位檔案員、檔案利用者、檔案館(室)領(lǐng)導(dǎo)、各歸檔單位領(lǐng)導(dǎo)等多種用戶角色的定義;第二,支持分級授權(quán)、一人多崗、一崗多人、易崗易權(quán)的管理要求;第三,記錄電子檔案管理的關(guān)鍵業(yè)務(wù)過程信息,形成完備的系統(tǒng)運(yùn)行日志,并且在安全集成中記錄每份數(shù)據(jù)的操作痕跡,加入二維碼技術(shù),通過掃描即可顯示按照時(shí)間順序生成的操作記錄。

此外,在安全系統(tǒng)設(shè)計(jì)中集成了“可信訪問認(rèn)證+生物識別(指紋或人臉等)”技術(shù)和水印技術(shù)。可信訪問認(rèn)證技術(shù)是安全可信的檔案管理系統(tǒng)建設(shè)的技術(shù)基礎(chǔ)和重要保障,通過密碼技術(shù)、區(qū)塊鏈技術(shù)等對系統(tǒng)訪問人員進(jìn)行限制認(rèn)證,在一定程度上保證訪問人員身份的安全合法。生物識別技術(shù)包括人臉識別和指紋識別、乃至視網(wǎng)膜掃描與肢體動(dòng)作識別認(rèn)證技術(shù),主要基于生物體特征,對實(shí)體身份進(jìn)行驗(yàn)證。目前,這兩項(xiàng)技術(shù)已經(jīng)在考勤、門禁、刑偵等多個(gè)行業(yè)場景中使用,能夠保證檔案管理系統(tǒng)登錄的可信認(rèn)證。在人員集成中對于每個(gè)工作人員以及用戶均設(shè)置“用戶名”的水印技術(shù),具有強(qiáng)制性,每份脫離檔案數(shù)據(jù)庫的文件都會生成專門的文件水印,從而可以進(jìn)行文件追蹤溯源,減少檔案數(shù)據(jù)被盜取和丟失的情況以及可以實(shí)現(xiàn)較精準(zhǔn)的問責(zé)。

4.3 精細(xì)化管理保障數(shù)據(jù)質(zhì)量。檔案管理系統(tǒng)要求檔案數(shù)據(jù)有較高程度的顆粒度精細(xì)性、數(shù)據(jù)關(guān)聯(lián)精準(zhǔn)性以及數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化,這對檔案數(shù)據(jù)質(zhì)量提出更高的要求。因此,從數(shù)據(jù)集成的四個(gè)層次來對數(shù)據(jù)進(jìn)行分類,抽取、轉(zhuǎn)換、加載,從而形成標(biāo)準(zhǔn)化、精細(xì)化的數(shù)據(jù)集,在集成的過程中嚴(yán)格遵從檔案語義本體的特殊屬性。

數(shù)據(jù)集成可分為基本數(shù)據(jù)集成、多級視圖集成、模式集成、多粒度數(shù)據(jù)集成?;緮?shù)據(jù)集成中最重要的是URI(通用資源標(biāo)識符)問題,對于不同系統(tǒng)源中的描述存在一定的差異;多級視圖集成按照低層次向高層次的方式對數(shù)據(jù)源之間的關(guān)系進(jìn)行集成,其中不同層次間的格式不同,底層數(shù)據(jù)表示方法為局部模型格式、中間數(shù)據(jù)表示方法為公共模塊格式、高級數(shù)據(jù)表示方法為綜合模型格式;模式集成是按照設(shè)計(jì)好的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的集成;多粒度數(shù)據(jù)集成作為異構(gòu)數(shù)據(jù)集成中的難點(diǎn)問題,可分為數(shù)據(jù)綜合和數(shù)據(jù)細(xì)化兩個(gè)方面:數(shù)據(jù)綜合即實(shí)體特征提取和歸并的過程,將高精度數(shù)據(jù)經(jīng)過抽象轉(zhuǎn)化為低精度數(shù)據(jù)。數(shù)據(jù)細(xì)化則是獲取更高精度的數(shù)據(jù)。

檔案數(shù)據(jù)集成的數(shù)據(jù)一般源自多個(gè)系統(tǒng)和數(shù)據(jù)庫,形成的數(shù)據(jù)格式和元數(shù)據(jù)存在不一致情況,檔案數(shù)據(jù)具有多源異構(gòu)的特征。在基礎(chǔ)數(shù)據(jù)集成中,根據(jù)行業(yè)法規(guī)涉及通用標(biāo)識符,通過形成的元數(shù)據(jù)庫對數(shù)據(jù)進(jìn)行描述,形成實(shí)體與數(shù)據(jù)之間的映射關(guān)系,通過數(shù)據(jù)關(guān)聯(lián)構(gòu)建數(shù)據(jù)間的網(wǎng)絡(luò)體系,使之形成關(guān)聯(lián)化、結(jié)構(gòu)化、有序化語義本體信息,為集成檔案數(shù)據(jù)集的智能化開發(fā)提供數(shù)據(jù)基礎(chǔ)。還有,在基礎(chǔ)數(shù)據(jù)集成的過程中會形成不同類型的數(shù)據(jù)庫,各數(shù)據(jù)庫之間會有層級之分,把低層次的局部視圖,運(yùn)用視圖集成的方式與高層次視圖有機(jī)地融合起來,綜合成一個(gè)系統(tǒng)的總視圖。在視圖集成中,對不規(guī)范的電子檔案進(jìn)行自動(dòng)的過濾、提醒和處理,生成初步E-R圖(“實(shí)體—聯(lián)系圖,Entity Relationship Diagram,提供了表示實(shí)體類型、屬性和聯(lián)系的方法,用來描述現(xiàn)實(shí)世界的概念模型” [18]),然后進(jìn)行修改和重構(gòu),消除不必要的冗余數(shù)據(jù),最終生成基本E-R圖。

檔案數(shù)據(jù)質(zhì)量的提高除了基礎(chǔ)數(shù)據(jù)的集成外,對于檔案歸檔的前端和后端也提出相應(yīng)的要求。因此,在檔案管理過程中人員組織集成、制度集成、業(yè)務(wù)過程集成需要相互協(xié)同,將其落實(shí)在常態(tài)化管理過程中,充分發(fā)揮檔案數(shù)據(jù)價(jià)值。同時(shí),協(xié)調(diào)系統(tǒng)內(nèi)部各要素的相互作用,實(shí)現(xiàn)檔案數(shù)據(jù)的全過程管理,從而保障在檔案管理系統(tǒng)中實(shí)現(xiàn)檔案數(shù)據(jù)的智能化利用水平。

5 總結(jié)

數(shù)據(jù)集成技術(shù)與理論在檔案管理系統(tǒng)中應(yīng)用,能夠?yàn)闃I(yè)務(wù)系統(tǒng)集成和檔案數(shù)據(jù)管理全過程集成提供理論與技術(shù)支持,明確檔案管理系統(tǒng)應(yīng)用數(shù)據(jù)集成技術(shù)應(yīng)該要解決的數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、異構(gòu)數(shù)據(jù)集成等關(guān)鍵問題。在對應(yīng)的解決方案中使人員組織集成、制度集成、業(yè)務(wù)過程集成、基礎(chǔ)數(shù)據(jù)集成、安全集成等全過程融入系統(tǒng)管理集成中,從技術(shù)層、數(shù)據(jù)層、應(yīng)用層共同構(gòu)建規(guī)范化、一致性、全過程的集成式檔案管理系統(tǒng)。但是,由于不同業(yè)務(wù)系統(tǒng)的應(yīng)用場景中,具有特征鮮明的數(shù)據(jù)結(jié)構(gòu),并且檔案與檔案管理的實(shí)踐性、復(fù)雜性決定了要具體問題具體分析。未來研究與實(shí)踐工作要以數(shù)據(jù)集成方法與技術(shù)為指導(dǎo),以檔案工作實(shí)踐為導(dǎo)向,不斷完善集成化檔案管理系統(tǒng)的內(nèi)容,使之更具友好性、集約性和全面性。

*國家檔案局科技課題“面向全程溯源的公路建設(shè)項(xiàng)目檔案數(shù)據(jù)集成技術(shù)及其應(yīng)用研究”(2021-X-04)階段性成果。

參考文獻(xiàn):

[1]Guerrero J I,García A,Personal E,et al.Heterogeneous data source integration for smart grid ecosystems based on metadata mining[J].Expert Systems with Applications,2017,79:254-268.

[2]馬費(fèi)成,趙紅斌,萬燕玲,楊東晨,賴潔.基于關(guān)聯(lián)數(shù)據(jù)的網(wǎng)絡(luò)信息資源集成[J].情報(bào)雜志,2011,30(02):167-170+175.

[3]Mountantonakis M,Tzitzikas Y.Large-scale semantic integration of linked data:A survey[J].ACM Computing Surveys(CSUR),2019,52(05):1-40.

[4]陶冶,郭帥童,丁香乾,侯瑞春,初佃輝.基于動(dòng)態(tài)探針的企業(yè)數(shù)據(jù)空間實(shí)體關(guān)聯(lián)構(gòu)建方法[J/OL].計(jì)算機(jī)集成制造系統(tǒng):1-13[2022-09-13].

[5]Muppavarapu V,Chung S M.Semantic-Based Access Control for Data Resources in Open Grid Services Architecture-Data Access and Integration(OGSA-DAI)[M]//Information Retrieval and Management:Concepts,Methodologies,Tools,and Applications.IGI Global,2018:1701-1725.

[6]Ma Z,Kim S,Martínez-Gómez P,et al.IEEE Access Special Section Editorial:AI-Driven Big Data Processing:Theory,Methodology,and Applications[J].IEEE Access,2020,8:199882-199898.

[7]Carlos R C,Kahn C E,Halabi S.Data science:big data,machine learning,and artificial intelligence[J].Journal of the American College of Radiology,2018,15(03):497-498.

[8]高玲俐.OA背景下高校檔案集成管理研究[J].檔案與建設(shè),2020(11):65-66.

[9]王強(qiáng),吳志杰.業(yè)務(wù)系統(tǒng)與檔案管理系統(tǒng)歸檔集成框架:構(gòu)建與內(nèi)涵解析[J].中國檔案,2021(03):77.

[10]王宇蓉.試論以檔案管理為核心的數(shù)字化醫(yī)院構(gòu)建[J].檔案管理,2018(04):88-89.

[11]林慕嬋,梁鳴.“互聯(lián)網(wǎng)+”環(huán)境下高校數(shù)字檔案資源共享平臺建設(shè)——以華南農(nóng)業(yè)大學(xué)為例[J].中國檔案,2020(02):60-63.

[12]楊淑紅,楊春茂.醫(yī)院檔案管理信息系統(tǒng)集成研究[J].電子技術(shù)與軟件工程,2021(19):178-179.

[13]王強(qiáng),吳志杰.業(yè)務(wù)系統(tǒng)與檔案管理系統(tǒng)歸檔集成框架:構(gòu)建與內(nèi)涵解析[J].檔案學(xué)通訊,2020(06):45-53.

[14]王佑祥.政府電子文件單軌制管理模式研究[D].吉林大學(xué),2021:1.

[15]丁海斌.檔案學(xué)本體論——兼談檔案學(xué)的根本原則[J].檔案學(xué)通訊,2015(06):14-19.

[16]丁海斌.關(guān)于檔案工作與社會治理的三個(gè)問題[J].檔案學(xué)通訊,2022(04):102-104.

[17]丁海斌.談檔案信息化革命質(zhì)變的原因與內(nèi)涵[J].檔案管理,2022(03):5-13.

[18]薩師煊,王珊編著.數(shù)據(jù)庫系統(tǒng)概論[M].北京:高等教育出版社,1983:19.

(作者單位:丁海斌,廣西民族大學(xué)管理學(xué)院、廣西數(shù)字檔案管理研究所;趙錦濤,廣西民族大學(xué)管理學(xué)院 來稿日期:2022-08-20)

猜你喜歡
檔案管理系統(tǒng)數(shù)據(jù)集成
試析檔案管理系統(tǒng)的需求與功能開發(fā)利用
成本與制造數(shù)據(jù)集成分析
基于ASP.NET MVC的后勤檔案管理系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
智慧檔案管理系統(tǒng)的層次與功能設(shè)計(jì)分析
檔案管理(2016年4期)2016-07-06 16:16:23
基于Biztalk的異構(gòu)醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
電子檔案管理系統(tǒng)解決方案及其關(guān)鍵技術(shù)實(shí)現(xiàn)
高校檔案的數(shù)字化及其利用服務(wù)
XML數(shù)據(jù)交換技術(shù)在中醫(yī)智能化診斷數(shù)據(jù)集成中的應(yīng)用
淺析人力資源與社會保障電子檔案管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
阿克苏市| 塔河县| 疏勒县| 安平县| 永丰县| 温泉县| 鱼台县| 达拉特旗| 新竹市| 铜鼓县| 舟曲县| 五河县| 武义县| 修武县| 开封市| 社旗县| 泾阳县| 乌什县| 麻江县| 西吉县| 本溪市| 科技| 米脂县| 娄底市| 明光市| 徐水县| 长沙县| 综艺| 清丰县| 乡宁县| 西宁市| 吉林省| 都江堰市| 汾西县| 上犹县| 晴隆县| 兰州市| 金堂县| 商南县| 西畴县| 罗江县|