国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

雙層PDF技術(shù)在檔案管理中的具體應(yīng)用

2014-04-29 13:48王勵(lì)著
現(xiàn)代商貿(mào)工業(yè) 2014年22期
關(guān)鍵詞:全文檢索雙層文檔

王勵(lì)著

摘要:

為了適應(yīng)我國(guó)經(jīng)濟(jì)的高速發(fā)展,檔案管理數(shù)字化是一個(gè)必然的趨勢(shì)。近些年,信息化技術(shù)不斷發(fā)展,推動(dòng)了檔案數(shù)字化管理研究進(jìn)程。雙層PDF文檔技術(shù)就是信息化技術(shù)的一種,它解決了非文本型的文檔無(wú)法直接實(shí)現(xiàn)全文檢索的問(wèn)題,為實(shí)現(xiàn)全文檢索提供了基礎(chǔ)與可能。

關(guān)鍵詞:

雙層PDF技術(shù);檔案管理;應(yīng)用

中圖分類號(hào):

F49

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):16723198(2014)22016802

數(shù)字檔案管理技術(shù)是隨著信息化技術(shù)的變革而逐步發(fā)展起來(lái)的。檔案數(shù)字化對(duì)于檔案管理具有時(shí)效性和現(xiàn)實(shí)性。隨著網(wǎng)絡(luò)技術(shù)、中間件技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、海量存儲(chǔ)技術(shù)的發(fā)展,數(shù)字檔案管理技術(shù)也獲得了極大的突破,形成了數(shù)字檔案管理平臺(tái)的概念,極大地提高了系統(tǒng)的可靠性和開(kāi)發(fā)進(jìn)度。目前,我國(guó)的數(shù)字檔案系統(tǒng)的使用主體主要是公共的檔案館、石化、石油、電信、電力等大型企事業(yè)企業(yè)。因此,建立數(shù)字檔案系統(tǒng)具有時(shí)效性和現(xiàn)實(shí)性。在過(guò)去,檔案大多是紙質(zhì)檔案。要建立數(shù)字檔案系統(tǒng),將紙質(zhì)檔案數(shù)字化是一個(gè)必經(jīng)程序。然而,將紙質(zhì)檔案掃描錄入后所獲得的文件只是一個(gè)圖像文件,不是真正意義上的文本文件。非文本文件無(wú)法實(shí)現(xiàn)選擇、檢索和復(fù)制等功能,不利于電子檔案未來(lái)的管理和使用。雙層PDF文檔技術(shù)的出現(xiàn)解決了這一問(wèn)題。將非文本文件轉(zhuǎn)換成雙層PDF文檔后就可以對(duì)內(nèi)容進(jìn)行選擇、檢索和復(fù)制,為實(shí)現(xiàn)全文檢索提供了基礎(chǔ)與可能。

1檔案信息化管理研究現(xiàn)狀及趨勢(shì)

我國(guó)的檔案信息化建設(shè)始于20世紀(jì)80年代末。從使用小型計(jì)算機(jī)通過(guò)機(jī)讀檔案的目錄對(duì)檔案進(jìn)行管理,逐漸發(fā)展到建立數(shù)據(jù)庫(kù)并使用微機(jī)開(kāi)展信息檢索,再到利用多媒體、網(wǎng)絡(luò)技術(shù)等現(xiàn)代信息技術(shù)開(kāi)展信息服務(wù)利用,我國(guó)的檔案信息化建設(shè)經(jīng)歷了一個(gè)復(fù)雜的發(fā)展過(guò)程。1996年,國(guó)家檔案局開(kāi)始對(duì)電子檔案管理進(jìn)行了一系列的研究。1999年,國(guó)家檔案局和深圳市檔案館提出了建立數(shù)字檔案管理系統(tǒng)的構(gòu)想。2000年,“數(shù)字檔案管理系統(tǒng)工程研究與開(kāi)發(fā)”作為全國(guó)重點(diǎn)檔案科技攻關(guān)計(jì)劃,被納入了列入國(guó)家檔案局的“十五”規(guī)劃。目前,國(guó)內(nèi)對(duì)電子檔案管理的理論研究主要依靠大中院所。院所的理論研究實(shí)力比較強(qiáng)但是由于僅僅停留在理論層面的分析缺乏必要的實(shí)踐和技術(shù)。相比之下,軟件廠商對(duì)于數(shù)字檔案管理系統(tǒng)的理論研究與開(kāi)發(fā)的實(shí)力的投入少,理論整體實(shí)力偏弱,但由于實(shí)踐機(jī)會(huì)較多,技術(shù)實(shí)力相對(duì)比較強(qiáng)。目前,檔案業(yè)務(wù)管理產(chǎn)品的需求非常旺盛,但是對(duì)產(chǎn)品的要求比較高。然而,由于實(shí)踐和理論投入力度不相當(dāng),導(dǎo)致廠商難以推出適應(yīng)客戶的需求的高端產(chǎn)品,卻在低端產(chǎn)品市場(chǎng)產(chǎn)生了過(guò)度競(jìng)爭(zhēng)。廠商要重視技術(shù)開(kāi)發(fā)和應(yīng)用研究,才能適應(yīng)市場(chǎng)需求,推出適合客戶的需要的產(chǎn)品。

檔案信息化管理系統(tǒng)建設(shè)是一個(gè)復(fù)雜、曲折的過(guò)程,研究過(guò)程中必然會(huì)面臨許多的問(wèn)題與困境。而隨著信息技術(shù)的發(fā)展,新出現(xiàn)的技術(shù)為這些問(wèn)題的解決提供了可能。目前,檔案管理數(shù)字化建設(shè)所采用的新技術(shù)主要有在線OCR技術(shù)、全文檢索技術(shù)、雙層PDF技術(shù)、數(shù)據(jù)交換技術(shù)、圖形圖像處理技術(shù)、流文件瀏覽技術(shù)和與OA、MIS、PDM、PORTAL、CA等其他系統(tǒng)的接口技術(shù)。這些不斷發(fā)展的新技術(shù)為檔案信息化管理系統(tǒng)建設(shè)提供了技術(shù)支持。其中,PDF技術(shù)改變了過(guò)去紙質(zhì)檔案錄入后只能閱讀不能復(fù)制、搜索的狀況,對(duì)檔案信息化管理系統(tǒng)建設(shè)具有重大的意義。

2雙層PDF技術(shù)概述

雙層PDF技術(shù)是指將Word文件或者圖像進(jìn)行格式轉(zhuǎn)換或者將紙質(zhì)文件掃描錄入后,經(jīng)過(guò)去污、糾偏,OCR識(shí)別程序后形成文本,將文本和圖像結(jié)合在一起直接生成一個(gè)可以檢索的雙層PDF文件。雙層PDF文件包含Text層和Image層,其中,Image層是原始圖像,Text層是Image層的OCR識(shí)別結(jié)果。Text層和Image層內(nèi)容位置上一一對(duì)應(yīng),100%保留了原始檔案的字體、圖像、圖形和版面布局,并支持選擇、檢索和復(fù)制等功能。通過(guò)程序控制,可以對(duì)兩個(gè)圖層進(jìn)行任意顯示和切換,實(shí)現(xiàn)對(duì)文檔中的文字、數(shù)字域進(jìn)行精確定位。

雙層PDF是一種比較理想的文件格式。在錄入時(shí),由于是在自動(dòng)快速識(shí)別的基礎(chǔ)上完成的,減少了文件處理的工作量。在使用時(shí),雙層PDF文件在完全保留原有的版面內(nèi)容的基礎(chǔ)上為使用者提供了搜索、復(fù)制等功能。雙層PDF綜合了純數(shù)字化檔案的優(yōu)點(diǎn),在實(shí)現(xiàn)信息的最大限度保全的基礎(chǔ)上又滿足了使用的需求,同時(shí)又克服了工作量大的缺點(diǎn)。由于雙層PDF文檔的管理與保存都非常便利,有利于節(jié)省管理的成本。

雙層PDF技術(shù)的出現(xiàn)解決了以往非文本資料只能閱讀,不能檢索、復(fù)制的問(wèn)題。通過(guò)雙層PDF技術(shù),將經(jīng)過(guò)OCR識(shí)別的文本依附于PDF圖像之上,配合OCR的自動(dòng)識(shí)別,既滿足了檔案管理真實(shí)的存儲(chǔ)需求,又方便了客戶對(duì)檔案的數(shù)字化利用。雙層PDF技術(shù)改變了過(guò)去紙質(zhì)檔案數(shù)字化的困境,推動(dòng)了紙質(zhì)檔案錄入的工作進(jìn)程。同時(shí),雙層PDF技術(shù)的推廣對(duì)于紙質(zhì)檔案的保存與管理具有非常重大的意義。一方面,雙層PDF的使用有利于減少對(duì)紙質(zhì)檔案的使用,從而保護(hù)了紙質(zhì)檔案。另一方面,通過(guò)對(duì)檔案的雙層PDF數(shù)字化加工,將經(jīng)過(guò)加工后的雙層PDF文件歸檔,有利于檔案系統(tǒng)的管理。

3檔案數(shù)字化過(guò)程中雙層PDF技術(shù)的應(yīng)用

3.1紙質(zhì)檔案的數(shù)字化處理應(yīng)用

為了方便檔案的數(shù)字化管理,紙介質(zhì)文件要通過(guò)圖像掃描儀進(jìn)行掃描錄入再通過(guò)數(shù)字化加工轉(zhuǎn)化成相應(yīng)格式。一般來(lái)說(shuō),對(duì)紙質(zhì)檔案的數(shù)字化加工流程有圖像檔案形成流程、雙層PDF檔案形成流程或純數(shù)字化檔案形成流程。雙層PDF格式的文件的形成流程主要有兩個(gè)方面:首先,將掃描獲得的圖像轉(zhuǎn)入圖像處理系統(tǒng),對(duì)掃描圖像進(jìn)行處理和優(yōu)化。其次,將處理好的圖像利用雙層PDF軟件轉(zhuǎn)化成雙層PDF文檔,形成標(biāo)準(zhǔn)的文本。

3.2在全文檢索中的應(yīng)用

目前檔案檢索的常見(jiàn)檢索方式有主題、分類、文號(hào)、自序等。傳統(tǒng)的檔案檢索通過(guò)不斷完備搜索工具可以提高查全率,但是仍然存在本質(zhì)缺陷。要從本質(zhì)上提高查全率,提高搜索效率,就必須研究如何在檔案文檔中實(shí)現(xiàn)內(nèi)容檢索。雙層PDF技術(shù)可以實(shí)現(xiàn)全文的復(fù)制、搜索等功能,因此,雙層PDF文檔技術(shù)在全文搜索中的應(yīng)用對(duì)研究如何實(shí)現(xiàn)全文一站式搜索具有非常重要的現(xiàn)實(shí)意義。

首先,將處理好的雙層PDF文檔掛接到檔案管理系統(tǒng)中的相應(yīng)案卷和卷內(nèi)文件目錄。其次,再將原文的存放地址信息自動(dòng)存入數(shù)據(jù)庫(kù),通過(guò)與案卷和卷內(nèi)文件目錄相對(duì)應(yīng),在檔案文檔的Text層文本內(nèi)容及其元數(shù)據(jù)等相關(guān)信息之間建立永久聯(lián)系,形成數(shù)據(jù)包。最后,在形成數(shù)據(jù)包之后,通過(guò)調(diào)用全文檢索子系統(tǒng)內(nèi)核函數(shù),為數(shù)字化加工后的雙層PDF文件和數(shù)據(jù)包建立對(duì)應(yīng)的索引文件。創(chuàng)建索引時(shí),要先提取雙層PDF文檔中的Text層、文檔對(duì)應(yīng)的卷內(nèi)目錄和案卷目錄及有關(guān)元數(shù)據(jù)(也可以說(shuō)是結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))的信息,再根據(jù)提取的信息創(chuàng)建索引文件。

通過(guò)與傳統(tǒng)搜索方式進(jìn)行對(duì)比,可以看出基于雙層PDF技術(shù)的一站式全文檢索的優(yōu)勢(shì)比較明顯。首先,明顯提高了搜索的效率。其次,在客戶查詢時(shí),由于是通過(guò)訪問(wèn)索引而不需訪問(wèn)數(shù)據(jù)庫(kù)進(jìn)行搜索,減輕了數(shù)據(jù)庫(kù)和系統(tǒng)的壓力。再者,基于雙層PDF技術(shù)的搜索的兼容性較強(qiáng),可以適應(yīng)不同的操作系統(tǒng)平臺(tái),支持多種數(shù)據(jù)庫(kù)接口。最后,這種搜索的使用更加方便,用戶可通過(guò)任意輸入檢索信息進(jìn)行搜索。

4結(jié)語(yǔ)

綜上,雙層PDF技術(shù)綜合了數(shù)字文件的所有優(yōu)點(diǎn),在檔案管理中有著其獨(dú)特的應(yīng)用。要如何提高雙層PDF技術(shù)水平,更好地發(fā)揮雙層PDF技術(shù)的作用,將該技術(shù)用于更加需要的地方,是值得我們深思的問(wèn)題。只有將技術(shù)用于合適的地方,才能使技術(shù)的利用價(jià)值達(dá)到最大化,減少人力物力的浪費(fèi),為構(gòu)建檔案信息化管理系統(tǒng)提供可能,不斷提高檔案數(shù)字化的效率。

參考文獻(xiàn)

[1]許呈辰.檔案數(shù)字化過(guò)程中OCR技術(shù)的應(yīng)用[J].檔案管理,2011,(1).

[2]向禹,吳世明.基于雙層PDF和Lucene技術(shù)的全文檢索研究與實(shí)現(xiàn)[J].現(xiàn)代情報(bào),2014,(6).

[3]趙德美,和英.淺議數(shù)字化檔案管理[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2006,(21).

猜你喜歡
全文檢索雙層文檔
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
墨爾本Fitzroy雙層住宅
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Oracle數(shù)據(jù)庫(kù)全文檢索性能研究
次級(jí)通道在線辨識(shí)的雙層隔振系統(tǒng)振動(dòng)主動(dòng)控制
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
全文檢索引擎技術(shù)在電子病歷中的應(yīng)用
傳統(tǒng)Halbach列和雙層Halbach列的比較
基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化