姚樹靜
(山東廣播電視大學(xué),山東 濟(jì)南 250014)
淺議電子文檔管理系統(tǒng)的關(guān)鍵技術(shù)
姚樹靜
(山東廣播電視大學(xué),山東 濟(jì)南 250014)
伴隨著計算機(jī)技術(shù)和互聯(lián)網(wǎng)應(yīng)用的普及,檔案已不再僅僅以單一的紙質(zhì)形式存在,以磁、電、光等介質(zhì)為主要信息載體的文件應(yīng)運(yùn)而生,產(chǎn)生了大量的電子檔案。本文結(jié)合電子文檔管理系統(tǒng)的設(shè)計和開發(fā),對文檔影像自動處理和識別技術(shù)、系統(tǒng)開發(fā)的工具中的c++開發(fā)語言、SQL Server 2005、Visual C++開發(fā)工具等主要關(guān)鍵技術(shù)進(jìn)行了詳細(xì)介紹。
電子文檔;管理系統(tǒng);關(guān)鍵技術(shù);開發(fā)工具
隨著政府、銀行、稅務(wù)、證券、保險等部門的業(yè)務(wù)不斷發(fā)展,每天都要處理大量的文件、檔案、單據(jù)、報表等資料,以紙張為載體的資料越來越多,傳統(tǒng)的手工管理方式暴露出越來越多的問題,日益跟不上信息時代的要求。電子文檔管理系統(tǒng)是利用先進(jìn)的計算機(jī)技術(shù)開發(fā)的計算機(jī)系統(tǒng),它將企業(yè)的電子文件和/或紙質(zhì)文件的圖像整合起來,滿足用戶在文檔獲取方式、文檔操作處理、文檔存儲和查詢等環(huán)節(jié)的不同需求,以實現(xiàn)資源的共享和對文檔的監(jiān)控。電子文檔管理是企業(yè)或組織保存和利用文檔信息這類重要資產(chǎn)的手段,投資于該系統(tǒng)會在組織的有序運(yùn)作中得到成倍的回報。隨著計算機(jī)技術(shù)及網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,國際和國內(nèi)越來越多的企業(yè)和組織開始建立專業(yè)的電子文檔管理系統(tǒng)對單位內(nèi)部各種電子文檔進(jìn)行統(tǒng)一管理,提高工作效率,簡化工作流程,所以該系統(tǒng)有廣泛的應(yīng)用范圍和前景。
本文結(jié)合電子文檔管理系統(tǒng)的設(shè)計和開發(fā),深入研討文檔影像自動處理和識別技術(shù)、系統(tǒng)開發(fā)的工具中的c+ +開發(fā)語言、SQL Server 2005、Visual C++開發(fā)工具等主要關(guān)鍵技術(shù)。
電子文檔管理系統(tǒng)將信息時代的各種先進(jìn)技術(shù)應(yīng)用于文檔管理中,使文檔的管理實現(xiàn)電子化、數(shù)字化、自動化,從而最大限度地提高了文檔處理和訪問的工作效率。電子文檔管理系統(tǒng)的核心技術(shù)是電子存儲技術(shù)、數(shù)據(jù)庫應(yīng)用開發(fā)和管理技術(shù)、網(wǎng)絡(luò)編程與服務(wù)器管理技術(shù)、電子影像采集技術(shù),圖像自動處理與識別技術(shù),以及文檔的檢索和訪問控制技術(shù)等。
在這些關(guān)鍵技術(shù)之中,數(shù)據(jù)庫技術(shù)、網(wǎng)絡(luò)技術(shù)、影像采集技術(shù)、海量存儲技術(shù)以及文檔檢索和訪問控制等技術(shù)屬于比較成熟的技術(shù),市場上有多家企業(yè)可以提供相關(guān)產(chǎn)品并且有比較清晰的行業(yè)標(biāo)準(zhǔn)。圖像自動處理與識別技術(shù)則還處于發(fā)展和探索階段,得到一致認(rèn)可的行業(yè)標(biāo)準(zhǔn)還沒有建立起來,相關(guān)產(chǎn)品在不同的應(yīng)用環(huán)境之下表現(xiàn)出來的性能差別很大,能夠在各種環(huán)境中都表現(xiàn)穩(wěn)定良好的技術(shù)還沒有出現(xiàn)。因此圖像自動處理與識別技術(shù)對整個系統(tǒng)性能的影響更大,很可能成為整個系統(tǒng)實際性能的瓶頸,對這一技術(shù)的研究改進(jìn)也就有著更重要的意義。
電子文檔管理系統(tǒng)使用的硬件設(shè)備一般包括:文檔管理服務(wù)器,文檔采集工作站、文檔處理工作站、訪問終端、網(wǎng)絡(luò)與通訊線路以及其他各類專用設(shè)備。在電子文檔管理系統(tǒng)中,服務(wù)器,終端及各種辦公設(shè)備通過通訊網(wǎng)絡(luò)連接起來,網(wǎng)絡(luò)根據(jù)覆蓋的范圍不同,分成局域網(wǎng)和廣域網(wǎng)兩種類型。各類專用設(shè)備一般包括:打印設(shè)備、交換設(shè)備、圖像采集設(shè)備等。
開發(fā)電子文檔管理系統(tǒng)使用的第三方服務(wù)支持軟件可以分為服務(wù)器軟件、數(shù)據(jù)庫軟件、開發(fā)平臺軟件等。文檔管理系統(tǒng)的架構(gòu)基于網(wǎng)絡(luò)服務(wù)形式,服務(wù)器管理軟件用于在系統(tǒng)中設(shè)置服務(wù)器并進(jìn)行管理。在文檔管理系統(tǒng)中,數(shù)據(jù)庫用于存放文檔的存放位置、索引信息以及訪問權(quán)限等信息,數(shù)據(jù)庫軟件用于提供數(shù)據(jù)庫的訪問服務(wù)并對數(shù)據(jù)庫進(jìn)行管理。而開發(fā)平臺軟件則用于建立系統(tǒng)可視化開發(fā)環(huán)境,提供各種開發(fā)和測試工具,用于應(yīng)用軟件的集成開發(fā)。
文檔自動處理與識別所涉及的對象范圍很廣,其中最核心的技術(shù)是光學(xué)字符識別(OCR)技術(shù),對OCR系統(tǒng)一般按其識別的對象字符集以及字體和書寫的規(guī)范程度進(jìn)行分類。
字符集識別種類一般包含阿拉伯?dāng)?shù)字識別、英文識別、中文識別、其它文種識別等等。[1]按字符集的字體及規(guī)范程度可分為:(1)固定單一字體的打印體或印刷體識別,如OCR-A,OCR-B,其它標(biāo)準(zhǔn)印制字體等等。(2)多字體的打印體或印刷體識別,可識別多種打印或印刷字體的某個字符集。(3)全字體的打印體或印刷體識別,識別任意字體的指定字符集。(4)規(guī)范書寫的手寫體字符識別,識別字符間基本不粘連的規(guī)范手寫體字符。(5)無限制手寫體識別,識別任意書寫的手寫體字符。字符集的規(guī)范程度越低,字體或字集類別越多,識別的過程就越復(fù)雜,難度就越大。[2]
OCR系統(tǒng)的歷史可以追溯到1929年,Tausheck在德國獲得了OCR專利,這些可能是最早出現(xiàn)的OCR概念。而真正的OCR是在20世紀(jì)50年代隨著計算機(jī)的出現(xiàn)而到來的。
第一代商用OCR系統(tǒng)是在20世紀(jì)60年代初期出現(xiàn)的,這一代系統(tǒng)的主要特點(diǎn)是能識別有限字型的字符。其中具有代表性的有NCR 420,F(xiàn)arrington 3010,IBM 1418,1428,1285以及NEC的N240D-1,這些系統(tǒng)都是識別一些非常特定字體的系統(tǒng),它們構(gòu)成了第一代的OCR系統(tǒng)。
第二代的OCR系統(tǒng)在20世紀(jì)60年代中期至70年代早期出現(xiàn),這一代的OCR系統(tǒng)可以識別比較工整的手寫字體。經(jīng)典的系統(tǒng)是IBM 1287,它利用了數(shù)字和模擬技術(shù)實現(xiàn)了這一功能。第一代郵政編碼自動分檢機(jī)由Toshiba公司和NEC公司分別研制出來。手寫體數(shù)字識別系統(tǒng)在這一代系統(tǒng)中有很大的比例,同時第二代的OCR系統(tǒng)在識別印刷體字符上也有了許多的改進(jìn)。
第三代OCR系統(tǒng)的目標(biāo)是讓計算機(jī)能處理一般的更復(fù)雜的情況,比如印刷質(zhì)量比較差的字符或更為一般的手寫體字符,以及具有更多種類的字符集,如漢字,日文等。目前可以認(rèn)為第三代系統(tǒng)只是部分實現(xiàn)。近年來出現(xiàn)的手寫體數(shù)字識別系統(tǒng)多屬于第三代系統(tǒng)。其中銀行票據(jù)自動處理系統(tǒng)是復(fù)雜背景打印印刷體識別以及手寫體數(shù)字識別系統(tǒng)應(yīng)用的熱點(diǎn),其中無限制手寫體阿拉伯?dāng)?shù)字小寫金額的識別也是數(shù)字識別中最難的。[3]
在手寫體阿拉伯?dāng)?shù)字串,如郵政編碼、銀行支票的小寫金額中,經(jīng)常出現(xiàn)數(shù)字字符粘連的情況。對美國郵政編碼(USPS zip code)的研究表明,有15%的郵政編碼含有粘連的數(shù)字字符。歐美國家的銀行支票的小寫金額是任意書寫的,字符粘連情況更加普遍,而多數(shù)字符識別器要求以單個的數(shù)字字符圖像作為輸入,難以直接識別多個字符連成的字符串。因此,字符分割對于連續(xù)字符識別十分重要,很多種分割與識別方法被研制出來以圖解決這一問題。在手寫數(shù)字分割時,由于字符串中不僅包含數(shù)字交迭與粘連的情況,同時也有一個數(shù)字分成幾個部分的情況。為解決這些問題,研究者們提出了許多方法。這些方法大致可分為兩類,即離散的方法和連續(xù)的方法。
在文檔識別系統(tǒng)中完成了字符的定位和分割后,接下來就是進(jìn)行字符的識別,人們提出了許多方法試圖找到手寫體字符之間有區(qū)別性的特征。這些方法大致可分為兩類:全局分析和結(jié)構(gòu)分析。全局分析得到的特征一般都使用統(tǒng)計分類方法分類,因此在字符識別中這類方法一般也稱為統(tǒng)計方法?;诮Y(jié)構(gòu)分析得到的特征經(jīng)常使用句法的方法分類,這類方法一般稱為結(jié)構(gòu)方法。神經(jīng)網(wǎng)絡(luò)識別字符的方法也受到了人們的重視,神經(jīng)網(wǎng)絡(luò)的輸入可以采用圖像的某類或某幾類統(tǒng)計特征,也可以直接使用歸一化后的字符圖像,省去了人工的特征抽取工作,從廣義上講,神經(jīng)網(wǎng)絡(luò)識別方法也是統(tǒng)計分類方法的一種。
由于各類方法都有自身的優(yōu)點(diǎn)和局限,為達(dá)到高識別率、高可靠性的目標(biāo),人們提出了多專家(multiple experts)系統(tǒng)的概念。多專家系統(tǒng)將每個識別器視為一個提出識別意見的專家,將它們的意見按投票方式或更復(fù)雜的方式組合起來,以獲得最可能的正確結(jié)果。多專家系統(tǒng)的組合方式也成為字符識別領(lǐng)域的一個新的研究方向。
由于文檔的存儲管理系統(tǒng)一般不屬于實時業(yè)務(wù),對業(yè)務(wù)操作的實時性和可靠性要求低于柜臺業(yè)務(wù)等實時性要求較高的業(yè)務(wù),因此操作系統(tǒng)可以選擇可靠性略低但方便易用而且具有較高市場占有率的微軟公司的Windows系統(tǒng)。與操作系統(tǒng)的選擇類似,數(shù)據(jù)庫系統(tǒng)也選擇同樣出自微軟公司的SQL Server數(shù)據(jù)庫管理系統(tǒng)。由于系統(tǒng)中有計算量很大并且非常耗時的自動識別處理模塊,因此相應(yīng)的編程語言選擇靈活并且非常高效的C++高級語言,而開發(fā)平臺則選擇使用良好地集成了C++開發(fā)語言并且能很好地支持SQL Server的Visual Studio集成開發(fā)平臺。以下再分別簡要介紹一下這幾項開發(fā)中使用的基本工具。
C++語言是一種優(yōu)秀的面向?qū)ο蟪绦蛟O(shè)計語言,它在C語言的基礎(chǔ)上發(fā)展而來,但它比C語言更容易為人們學(xué)習(xí)和掌握。C++以其獨(dú)特的語言機(jī)制在計算機(jī)科學(xué)的各個領(lǐng)域中得到了廣泛的應(yīng)用。面向?qū)ο蟮脑O(shè)計思想是在原來結(jié)構(gòu)化程序設(shè)計方法基礎(chǔ)上的一個質(zhì)的飛躍,C+ +完美地體現(xiàn)了面向?qū)ο蟮母鞣N特性。C++是一種靜態(tài)數(shù)據(jù)類型檢查的,支持多范型的通用程序設(shè)計語言。C+ +支持過程化程序設(shè)計、數(shù)據(jù)抽象化、面向?qū)ο蟪绦蛟O(shè)計、泛型程序設(shè)計、基于原則設(shè)計等多種程序設(shè)計風(fēng)格。C+ +還具有以下特性:
(1)C++設(shè)計成使用靜態(tài)類型機(jī)制、和C同樣高效且可移植的多用途程序設(shè)計語言。
(2)C++設(shè)計成直接的和廣泛的支持多種程序設(shè)計風(fēng)格(過程化程序設(shè)計、數(shù)據(jù)抽象化、面向?qū)ο蟪绦蛟O(shè)計、泛型程序設(shè)計)。
(3)C++設(shè)計成給程序設(shè)計者更多的選擇。
(4)C++設(shè)計成盡可能與C兼容,借此提供一個從C到C++的平滑過渡。
(5)C++避免平臺限定或沒有普遍用途的特性。
(6)C++不使用會帶來額外開銷的特性。
(7)C++設(shè)計成無需復(fù)雜的程序設(shè)計環(huán)境。
SQL Server 2005是Microsoft公司2005年推出的杰出的數(shù)據(jù)庫管理系統(tǒng),它可用于大型聯(lián)機(jī)事務(wù)處理、數(shù)據(jù)倉庫、以及電子商務(wù)等,具有如下幾個特點(diǎn):
(1)真正的客戶機(jī)/服務(wù)器體系結(jié)構(gòu)。
(2)圖形化用戶界面。
(3)豐富的編程接口工具。
(4)SQL Server與Windows NT完全集成。
(5)具有很好的伸縮性。
(6)對Web技術(shù)的支持。
(7)SQL Server提供數(shù)據(jù)倉庫功能。
電子文檔管理系統(tǒng)的設(shè)計考慮到文檔管理工作多為非計算機(jī)專業(yè)人員的實際情況,在設(shè)計過程中應(yīng)該注重系統(tǒng)的可操作性設(shè)計。本文主要對文檔影像自動處理與識別技術(shù)中的文檔影像自動處理與識別技術(shù)以及系統(tǒng)開發(fā)工具進(jìn)行了分析,這些技術(shù)在文檔管理系統(tǒng)開發(fā)中具有普遍適用性,對其起著至關(guān)重要的作用。
[1]石甲玉.模式識別在銀行票據(jù)自動化處理中的集成應(yīng)用[D].濟(jì)南:山東大學(xué),2005.
[2]張麗.基于多分類器動態(tài)組合的手寫體數(shù)字識別[D].南京:南京理工大學(xué),2003.
[3]陳強(qiáng).非限定手寫體漢字分割與多類別票據(jù)處理研究[D].南京:南京理工大學(xué),2006.
G275.7
A
1008—3340(2012)02—0071—03
2012-04-09
姚樹靜,女,碩士學(xué)位,工作單位:山東廣播電視大學(xué)。