国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)魔方的異構(gòu)檔案信息資源采集方法分析

2018-01-24 22:52江蘇省昆山市檔案局
浙江檔案 2018年8期
關(guān)鍵詞:魔方異構(gòu)智能

程 知/江蘇省昆山市檔案局

2013年1月29日,國(guó)家智慧城市試點(diǎn)創(chuàng)建工作會(huì)議在北京召開(kāi),國(guó)家智慧城市試點(diǎn)工作正式啟動(dòng)。據(jù)國(guó)家信息中心收集的數(shù)據(jù)顯示,2014年全國(guó)試點(diǎn)城市共有409個(gè)[1]。隨著智慧城市建設(shè)快速推進(jìn),政府主導(dǎo)的各個(gè)業(yè)務(wù)條線在信息化建設(shè)過(guò)程中產(chǎn)生了大量具有保存價(jià)值的政務(wù)信息資源,如何將這些信息資源完整收集、有效管理、妥善保存、安全利用,是檔案部門需要深入思考的問(wèn)題。在這其中,異構(gòu)檔案信息資源的采集要特別重視。

1 異構(gòu)檔案信息資源概述

異構(gòu)檔案信息資源就是不同結(jié)構(gòu)的檔案信息資源,其異構(gòu)性主要體現(xiàn)在五方面[2]。一是計(jì)算機(jī)體系結(jié)構(gòu)的異構(gòu):數(shù)據(jù)的物理存儲(chǔ)來(lái)源于不同體系結(jié)構(gòu)的計(jì)算機(jī),如大型機(jī)、小型機(jī)、工作站、PC或嵌入式系統(tǒng)。二是操作系統(tǒng)的異構(gòu):數(shù)據(jù)的存儲(chǔ)來(lái)源于不同的操作系統(tǒng),如Unix、Windows、Linux等。三是數(shù)據(jù)格式的異構(gòu):數(shù)據(jù)的存儲(chǔ)管理機(jī)制不同,可以是關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),如Oracle、SQL Server、DB2、DM、My SQL等;也可以是文件形二維數(shù)據(jù),如txt、CSV、XLS等。四是數(shù)據(jù)存儲(chǔ)地點(diǎn)異構(gòu):數(shù)據(jù)存儲(chǔ)在分散的物理位置上,如社保檔案分別存儲(chǔ)在各地社保局本地系統(tǒng)中。五是數(shù)據(jù)存儲(chǔ)的邏輯模型異構(gòu):數(shù)據(jù)分別在不同的業(yè)務(wù)邏輯中存儲(chǔ)和維護(hù),相同意義的數(shù)據(jù)存在表現(xiàn)的異構(gòu),如某一單位的OA系統(tǒng)和其他業(yè)務(wù)系統(tǒng)中存在部門編碼不一致的現(xiàn)象等。

2 異構(gòu)檔案信息資源采集

2.1 異構(gòu)檔案信息資源構(gòu)成

異構(gòu)檔案信息資源構(gòu)成如下:一是隨著電子政務(wù)建設(shè)不斷深入而產(chǎn)生的有關(guān)食品安全、公共交通、社會(huì)保障、教育衛(wèi)生、氣象環(huán)境等民生檔案信息資源及各類政務(wù)信息資源;二是隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展和普及而產(chǎn)生的各類網(wǎng)站數(shù)據(jù)、社交媒體數(shù)據(jù)、電子郵件數(shù)據(jù)等;三是隨著電子商務(wù)的不斷完善和普及而產(chǎn)生的各類訂單數(shù)據(jù)、賬單數(shù)據(jù)、物流數(shù)據(jù)等;四是隨著大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用而產(chǎn)生的各類報(bào)表數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、決策數(shù)據(jù)等。

如果按文件格式分類,異構(gòu)檔案信息資源主要包括文本文件、圖像文件、圖形文件、音頻文件、視頻文件、多媒體文件等;如果按在系統(tǒng)中的表現(xiàn)形式分類,可以分為Web服務(wù)數(shù)據(jù)、關(guān)系型數(shù)據(jù)、數(shù)據(jù)包數(shù)據(jù)、接口數(shù)據(jù)等。

2.2 異構(gòu)檔案信息資源采集技術(shù)

一是數(shù)據(jù)導(dǎo)入技術(shù)。數(shù)據(jù)導(dǎo)入技術(shù)適合源系統(tǒng)能夠生成符合相關(guān)標(biāo)準(zhǔn)規(guī)范要求的文件包格式的情況。針對(duì)這種情況,可以通過(guò)文件包向?qū)綄?dǎo)入工具,將源系統(tǒng)產(chǎn)生的文件包導(dǎo)入目標(biāo)系統(tǒng)中。

二是數(shù)據(jù)管道技術(shù)。數(shù)據(jù)管道技術(shù)適用于源系統(tǒng)不能生成移交文件包但可以開(kāi)放數(shù)據(jù)結(jié)構(gòu)的情況。在這樣的情況下,由源系統(tǒng)提供訪問(wèn)其數(shù)據(jù)庫(kù)所必需的用戶名、密碼、數(shù)據(jù)字典等信息,通過(guò)數(shù)據(jù)管道工具建立源系統(tǒng)和目標(biāo)系統(tǒng)數(shù)據(jù)結(jié)構(gòu)的匹配關(guān)系,實(shí)現(xiàn)數(shù)據(jù)采集。

三是接口調(diào)用技術(shù)。接口調(diào)用技術(shù)是普遍適用的一種技術(shù)。包括兩種情況:其一是目標(biāo)系統(tǒng)提供應(yīng)用程序接口(API)供源系統(tǒng)調(diào)用,由源系統(tǒng)將需要提交的數(shù)據(jù)傳送至目標(biāo)系統(tǒng),被稱為“推”式,實(shí)現(xiàn)方式包括DLL、OCX、Java Bean、Web Service等;其二是源系統(tǒng)提供應(yīng)用程序接口供目標(biāo)系統(tǒng)調(diào)用,主動(dòng)獲取有效電子文件/檔案數(shù)據(jù),被稱為“拉”式。

四是數(shù)據(jù)交換技術(shù)。數(shù)據(jù)交換技術(shù)適用于源系統(tǒng)能夠提供應(yīng)用程序接口、數(shù)據(jù)要求有很強(qiáng)實(shí)時(shí)性、架構(gòu)要求有很強(qiáng)擴(kuò)展性的情況。數(shù)據(jù)交換技術(shù)通過(guò)部署數(shù)據(jù)交換引擎實(shí)現(xiàn),數(shù)據(jù)交換引擎提供透明的網(wǎng)絡(luò)通信和透明的數(shù)據(jù)查找,采用統(tǒng)一的數(shù)據(jù)安全機(jī)制,并規(guī)定標(biāo)準(zhǔn)的數(shù)據(jù)交互方式,使構(gòu)筑在數(shù)據(jù)交換引擎上的信息系統(tǒng)可以遵循統(tǒng)一的數(shù)據(jù)交互標(biāo)準(zhǔn)、使用其提供的通信機(jī)制、利用其提供的數(shù)據(jù)資源管理快速找到所要訪問(wèn)的信息,進(jìn)行數(shù)據(jù)交互。

五是數(shù)據(jù)抓取技術(shù)。數(shù)據(jù)抓取技術(shù)根據(jù)各源系統(tǒng)的電子文件最終頁(yè)面展現(xiàn)(HTML)實(shí)現(xiàn)數(shù)據(jù)采集。采用這種技術(shù)不需要對(duì)源系統(tǒng)的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)進(jìn)行全面分析,也不需要對(duì)源系統(tǒng)的邏輯設(shè)計(jì)進(jìn)行深入了解,更不需要源系統(tǒng)生成文件包或者提供應(yīng)用程序接口,只需要通過(guò)對(duì)特定數(shù)據(jù)顯示頁(yè)面結(jié)構(gòu)(HTML源碼)進(jìn)行解析,實(shí)現(xiàn)源系統(tǒng)頁(yè)面顯示內(nèi)容和目標(biāo)系統(tǒng)數(shù)據(jù)結(jié)構(gòu)之間的對(duì)應(yīng)關(guān)系,完成數(shù)據(jù)采集[3]。

2.3 異構(gòu)檔案信息資源采集存在問(wèn)題

從異構(gòu)檔案信息資源的構(gòu)成可以看出,異構(gòu)檔案信息資源來(lái)源非常廣泛,表現(xiàn)形式也多種多樣,這給異構(gòu)檔案信息資源的采集帶來(lái)了巨大挑戰(zhàn)?,F(xiàn)階段,異構(gòu)檔案信息資源采集主要存在以下問(wèn)題。

第一,“信息孤島”現(xiàn)象嚴(yán)重。電子政務(wù)建設(shè)已經(jīng)持續(xù)了相當(dāng)長(zhǎng)一段時(shí)間,由于電子政務(wù)建設(shè)早期缺乏頂層設(shè)計(jì)、統(tǒng)籌規(guī)劃和協(xié)調(diào),也缺少標(biāo)準(zhǔn)依據(jù),很多單位只能各行其是、各自為政,造成業(yè)務(wù)應(yīng)用軟件、系統(tǒng)平臺(tái)、數(shù)據(jù)結(jié)構(gòu)千差萬(wàn)別、五花八門,系統(tǒng)之間、部門之間、單位之間形成“信息孤島”,難以實(shí)現(xiàn)異構(gòu)檔案信息資源的采集和共享。

第二,各種采集技術(shù)存在局限性。針對(duì)異構(gòu)信息資源的采集盡管存在多種采集技術(shù),但是從上文對(duì)比分析可以看出,各種采集技術(shù)都存在一定的適用場(chǎng)景,不能滿足異構(gòu)檔案信息資源的多樣化采集需求。

3 數(shù)據(jù)智能采集工廠模型

為解決當(dāng)前異構(gòu)檔案信息資源采集存在的問(wèn)題,筆者提出了“數(shù)據(jù)魔方”的概念,即將數(shù)據(jù)源的多樣性和異構(gòu)性比喻為魔方的一個(gè)個(gè)“面”,基于各種數(shù)據(jù)采集技術(shù)提供多種數(shù)據(jù)采集方法的組合供用戶選擇,以靈活應(yīng)對(duì)不同來(lái)源、不同類型數(shù)據(jù)的采集需求;并基于數(shù)據(jù)魔方構(gòu)建數(shù)據(jù)智能采集工廠模型,以實(shí)現(xiàn)對(duì)異構(gòu)檔案信息資源的靈活與智能采集。

3.1 數(shù)據(jù)智能采集工廠模型體系結(jié)構(gòu)

數(shù)據(jù)智能采集工廠模型以數(shù)據(jù)魔方為核心,通過(guò)對(duì)各種數(shù)據(jù)采集技術(shù)進(jìn)行整合,以及對(duì)各種工具(格式轉(zhuǎn)換工具、數(shù)據(jù)檢測(cè)工具、OCR識(shí)別工具、EEP封裝工具等)進(jìn)行集成,實(shí)現(xiàn)對(duì)智慧城市建設(shè)過(guò)程中各業(yè)務(wù)條線產(chǎn)生數(shù)據(jù)的智能采集,并將數(shù)據(jù)清洗、分類、處理后納入檔案信息資源總庫(kù)進(jìn)行統(tǒng)一管理,達(dá)到異構(gòu)檔案信息資源整合的目的。從體系結(jié)構(gòu)上來(lái)看,數(shù)據(jù)智能采集工廠模型由控制中心、魔方適配器、主動(dòng)捕獲觸發(fā)引擎、嵌入式工具集和資源池等部分組成,分別說(shuō)明如下。

3.1.1 控制中心:是整個(gè)異構(gòu)檔案信息資源采集工作的“大腦”,完成各類收集規(guī)則的設(shè)計(jì)與預(yù)定義,并針對(duì)各行各業(yè)、各類專業(yè)檔案設(shè)置相應(yīng)的元數(shù)據(jù)方案,這樣可采集不同類型的數(shù)據(jù),也可從不同單位的應(yīng)用系統(tǒng)中抓取數(shù)據(jù)。

3.1.2 魔方適配器:由多種適配器組成魔方適配器,以加強(qiáng)異構(gòu)檔案信息資源的收集,通過(guò)集成各種數(shù)據(jù)采集技術(shù)提供多種數(shù)據(jù)收集方式,如脫機(jī)文件包導(dǎo)入、數(shù)據(jù)交換引擎自動(dòng)導(dǎo)入等。具有多面性特點(diǎn),能靈活應(yīng)對(duì)多種途徑、多種類型數(shù)據(jù)的采集需求。

3.1.3 主動(dòng)捕獲觸發(fā)引擎:探測(cè)各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)動(dòng)靜,實(shí)現(xiàn)快速自動(dòng)采集,可完成在線檔案收集操作和離線收集及時(shí)提醒工作。

3.1.4 嵌入式工具集:是采集流程中的“加工作業(yè)車間”,能對(duì)所采集的數(shù)據(jù)進(jìn)行處理,并提供多種數(shù)據(jù)處理解決方案,如格式轉(zhuǎn)換方案、EEP封裝方案、四性檢測(cè)方案等,每一類方案對(duì)應(yīng)一種處理工具,這些工具都將與數(shù)據(jù)采集功能進(jìn)行集成、整合并協(xié)同開(kāi)展工作。

3.1.5 資源池:只有經(jīng)過(guò)過(guò)濾、清洗、轉(zhuǎn)換并檢測(cè)合格的數(shù)據(jù)才能最終進(jìn)入資源池,進(jìn)行統(tǒng)一存儲(chǔ)和管理。

3.2 數(shù)據(jù)智能采集工廠模型特點(diǎn)

第一,開(kāi)放獨(dú)立的模型架構(gòu)。數(shù)據(jù)智能采集工廠模型可以識(shí)別各種類型的信息系統(tǒng)數(shù)據(jù),如業(yè)務(wù)系統(tǒng)、辦公系統(tǒng)、財(cái)務(wù)系統(tǒng)、互聯(lián)網(wǎng)數(shù)據(jù)等,具有開(kāi)放、獨(dú)立、與業(yè)務(wù)系統(tǒng)無(wú)關(guān)的特點(diǎn),可實(shí)現(xiàn)與各種異構(gòu)系統(tǒng)的集成。

第二,高效多樣的數(shù)據(jù)采集。數(shù)據(jù)智能采集工廠模型通過(guò)整合各種數(shù)據(jù)采集技術(shù),提供了基于數(shù)據(jù)層的采集方法、基于邏輯層的采集方法和基于表示層的采集方法,通過(guò)魔方適配器的靈活配置,可以完成不同情況下的數(shù)據(jù)采集任務(wù),盡可能地滿足各種異構(gòu)檔案信息資源的采集需求。

第三,靈活多變的魔方特性。可快速、靈活設(shè)置源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的匹配關(guān)系,具有魔方多面性、多元性特點(diǎn),根據(jù)實(shí)際業(yè)務(wù)(數(shù)據(jù)源)變化“轉(zhuǎn)動(dòng)”魔方,便可快速實(shí)現(xiàn)匹配,從而收集多種途徑、多種類型檔案數(shù)據(jù)。

第四,全面一體的采集處理。數(shù)據(jù)智能采集工廠模型通過(guò)對(duì)各種數(shù)據(jù)采集技術(shù)以及各類嵌入式工具(如格式轉(zhuǎn)換工具、數(shù)據(jù)檢測(cè)工具、OCR識(shí)別工具、EEP封裝工具等)進(jìn)行整合,可實(shí)現(xiàn)異構(gòu)檔案信息資源的采集和處理一體化管理,便于異構(gòu)檔案信息資源的統(tǒng)一管理。

第五,靈活方便的任務(wù)管理。各種數(shù)據(jù)采集方式都可以設(shè)置成“工作任務(wù)”,既可以即時(shí)啟動(dòng)、立即執(zhí)行,也可以設(shè)置為定時(shí)任務(wù)、到一定時(shí)間點(diǎn)執(zhí)行,靈活方便。

3.3 數(shù)據(jù)智能采集工廠模型應(yīng)用

智慧檔案館建設(shè)總體來(lái)說(shuō)包括智慧收集、智慧管理、智慧利用、智慧保存四方面,其中智慧收集功能可基于數(shù)據(jù)智能采集工廠模型實(shí)現(xiàn)。昆山市檔案局在市智慧檔案館建設(shè)過(guò)程中,通過(guò)數(shù)據(jù)智能采集工廠模型、采用在線與離線方式,實(shí)現(xiàn)對(duì)立檔單位各種業(yè)務(wù)信息數(shù)據(jù)庫(kù)內(nèi)容的采集,采集過(guò)程完全符合《數(shù)字檔案關(guān)系型數(shù)據(jù)庫(kù)轉(zhuǎn)換為XML格式文檔的技術(shù)規(guī)范》的要求;同時(shí)在采集過(guò)程中完成格式轉(zhuǎn)換、數(shù)據(jù)檢測(cè)等操作,能夠滿足對(duì)各種異構(gòu)業(yè)務(wù)信息資源的智慧管理要求。

猜你喜歡
魔方異構(gòu)智能
ETC拓展應(yīng)用場(chǎng)景下的多源異構(gòu)交易系統(tǒng)
試論同課異構(gòu)之“同”與“異”
魔方廖
吳健:多元異構(gòu)的數(shù)字敦煌
智能前沿
智能前沿
智能前沿
智能前沿
成語(yǔ)魔方
樓房魔方