數(shù)字圖書館數(shù)字化文獻(xiàn)再處理工具的開發(fā)與實(shí)踐**本文受國家自然科學(xué)基金項(xiàng)目“支持面向特定情報(bào)分析應(yīng)用的知識組織系統(tǒng)快速構(gòu)建關(guān)鍵問題研究”（編號：71203208）、“十二五”國家科技支撐計(jì)劃課題“基于多源信息的電動汽車數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究”（編號：2013BAG06B01）的支持。

2013-03-02 07:41:16曾文徐碩張運(yùn)良中國科學(xué)技術(shù)信息研究所北京100038

數(shù)字圖書館論壇 2013年7期

關(guān)鍵詞：結(jié)構(gòu)化數(shù)據(jù)庫數(shù)字化

□ 曾文徐碩張運(yùn)良/中國科學(xué)技術(shù)信息研究所北京 100038

□ 曾文徐碩張運(yùn)良/中國科學(xué)技術(shù)信息研究所北京 100038

數(shù)字圖書館運(yùn)用計(jì)算機(jī)系統(tǒng)管理各種載體文獻(xiàn)的加工與服務(wù)，通過網(wǎng)絡(luò)和通信技術(shù)支持用戶訪問數(shù)字化文獻(xiàn)信息資源。數(shù)字圖書館對海量數(shù)據(jù)的處理能力是保證數(shù)據(jù)質(zhì)量、支持與深化數(shù)字圖書館服務(wù)功能的基礎(chǔ)。文章論述數(shù)字圖書館中數(shù)字文獻(xiàn)再處理工具研究的重要性，介紹和闡述已有工作的開展情況，以及結(jié)構(gòu)化的數(shù)字文獻(xiàn)再處理工具的開發(fā)與實(shí)踐工作。

數(shù)字圖書館，結(jié)構(gòu)化數(shù)據(jù)，數(shù)字化文獻(xiàn)，再處理工具

1 引言

21世紀(jì)以來，計(jì)算機(jī)通信與網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，使網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要途徑，而網(wǎng)絡(luò)信息資源正在以驚人的速度不斷增加，需要存儲和傳播的信息量也越來越大，信息的種類和形式也越來越豐富，數(shù)字圖書館應(yīng)運(yùn)而生。數(shù)字圖書館作為數(shù)字化信息倉儲，能夠存儲大量各種形式的信息，特別是文獻(xiàn)信息數(shù)據(jù)是數(shù)字圖書館處理的重點(diǎn)內(nèi)容之一。即數(shù)字化文獻(xiàn)數(shù)據(jù)的處理工作是支持?jǐn)?shù)字圖書館技術(shù)服務(wù)的數(shù)據(jù)基礎(chǔ)，良好的數(shù)字化存儲資源是構(gòu)建優(yōu)質(zhì)技術(shù)和服務(wù)的重要保障。目前，隨著各類數(shù)字化文獻(xiàn)數(shù)據(jù)資源的豐富，這些來自不同渠道的原始數(shù)據(jù)格式和質(zhì)量不盡相同，而且數(shù)據(jù)量的規(guī)模日益龐大。因此，這些數(shù)據(jù)通過數(shù)字圖書館這個(gè)窗口面向用戶服務(wù)之前，必須經(jīng)過對其進(jìn)行數(shù)字化的一系列基本處理過程。顯而易見，自動化處理這些海量的數(shù)字化文獻(xiàn)數(shù)據(jù)是必要的。本文的研究工作正是基于這樣的研究背景提出和開展的。

2 國內(nèi)圖書館數(shù)字化文獻(xiàn)處理的現(xiàn)狀

國內(nèi)數(shù)字圖書館經(jīng)過十幾年來的發(fā)展，文獻(xiàn)資源的數(shù)字化建設(shè)得到了極大的進(jìn)步[1,2]。目前多數(shù)的圖書館基本上是采用本地加工和外包加工的方式，使用的數(shù)字化加工系統(tǒng)有TPI、TBS、TRS、DIPS等數(shù)字資源加工系統(tǒng)，這些系統(tǒng)實(shí)現(xiàn)已有和現(xiàn)有的紙質(zhì)文獻(xiàn)的基本加工和處理過程，將文獻(xiàn)資源制作成為數(shù)字化文獻(xiàn)信息資源，進(jìn)行儲存和管理，豐富虛擬圖書館的文獻(xiàn)信息資源，來進(jìn)行網(wǎng)絡(luò)化檢索和閱讀等服務(wù)，從而促進(jìn)數(shù)字圖書館的發(fā)展。這類信息資源又可分為結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)字資源。這些加工和處理實(shí)現(xiàn)文檔掃描、條目著錄、文本化、標(biāo)引、掛接等一系列操作過程，但實(shí)際上這些操作只是文獻(xiàn)資源層處理的基本環(huán)節(jié)，并未實(shí)現(xiàn)對數(shù)字化資源的深層次數(shù)據(jù)處理、組織和整合。隨著文獻(xiàn)資源逐年海量式的遞增，這種資源處理方式已經(jīng)難以更好提高數(shù)字圖書館文獻(xiàn)的檢全率以及檢準(zhǔn)率，也難以滿足圖書館及情報(bào)研究機(jī)構(gòu)對文獻(xiàn)資源深層次信息挖掘和分析的需要，對這些文獻(xiàn)數(shù)據(jù)資源的再處理和整合技術(shù)研究是必要的。

目前，國內(nèi)外很多研究人員從事對文本信息挖掘和處理的研究工作，并取得相應(yīng)的研究成果，其中包括對文本數(shù)據(jù)的關(guān)鍵術(shù)語抽取，文本數(shù)據(jù)內(nèi)容自動分析、語義分析等涉及數(shù)據(jù)內(nèi)容挖掘方面的研究工作[3]。但這些研究成果基本是建立在數(shù)據(jù)規(guī)整、數(shù)量規(guī)模有限的文本數(shù)據(jù)實(shí)驗(yàn)基礎(chǔ)之上的，當(dāng)實(shí)際應(yīng)用于數(shù)字圖書館這種海量數(shù)據(jù)時(shí)，無法完全實(shí)施已有技術(shù)。因?yàn)榧夹g(shù)的實(shí)施是建立在良好的數(shù)據(jù)之上的，目前數(shù)字圖書館的海量數(shù)字化文本數(shù)據(jù)事實(shí)上還不具備這種良好的數(shù)據(jù)質(zhì)量，如何處理已有和未來的數(shù)字化文獻(xiàn)資源使之符合技術(shù)研究的應(yīng)用需求，是目前數(shù)字圖書館以及情報(bào)學(xué)研究人員在實(shí)際工作中面臨和需要解決的主要問題之一。

3 我們的研究工作

3.1 數(shù)據(jù)分析

近年來，數(shù)字圖書館的應(yīng)用已不僅僅是作為數(shù)字文獻(xiàn)數(shù)據(jù)資源的簡單原文傳遞的服務(wù)窗口，數(shù)字圖書館數(shù)據(jù)資源的豐富和增加，對于數(shù)字化文獻(xiàn)的處理、存儲、維護(hù)和面向用戶的檢索機(jī)制都提出了前所未有的挑戰(zhàn)。如何挖掘海量文獻(xiàn)數(shù)據(jù)背后的隱含知識和技術(shù)信息、文獻(xiàn)之間關(guān)聯(lián)信息[4]，以及學(xué)科技術(shù)研究趨勢分析和預(yù)測等，都是圖書館及情報(bào)學(xué)研究領(lǐng)域開展研究的技術(shù)熱點(diǎn)。但是開展這些研究面臨的首要問題都是數(shù)據(jù)的獲取和處理問題，已有的數(shù)字化文獻(xiàn)加工處理方式并不能滿足這些需求。此外，通過我們對數(shù)字圖書館現(xiàn)有的數(shù)字化資源進(jìn)行實(shí)際調(diào)研發(fā)現(xiàn)，這些已加工處理的數(shù)字化數(shù)據(jù)資源的質(zhì)量和規(guī)范程度，距離現(xiàn)有技術(shù)的實(shí)用化實(shí)現(xiàn)還有很大的差距。主要表現(xiàn)在如下幾個(gè)方面：

（1）數(shù)據(jù)的存儲內(nèi)容存在加工或錄入的錯(cuò)誤，這些錯(cuò)誤的存在對于海量數(shù)據(jù)集來說，人工識別和解決都是相當(dāng)困難的，智能化加工處理技術(shù)是必須的。

（2）國內(nèi)不同的加工單位或文獻(xiàn)供應(yīng)商由于采用數(shù)字化加工方式不同導(dǎo)致數(shù)據(jù)存儲的結(jié)構(gòu)、描述等不盡相同，數(shù)據(jù)需要進(jìn)行結(jié)構(gòu)映射和結(jié)構(gòu)描述歸一化加工。

（3）對于購買的國外數(shù)據(jù)庫的數(shù)據(jù)，我們分析時(shí)需要從數(shù)據(jù)庫中導(dǎo)出相應(yīng)的數(shù)據(jù)，這些數(shù)據(jù)導(dǎo)出后的格式同樣存在需要二次格式轉(zhuǎn)換和加工的問題。

（4）對于數(shù)據(jù)內(nèi)容的深層次信息挖掘和分析需要涉及更多數(shù)據(jù)內(nèi)容的細(xì)節(jié)，不單單是目前已加工的文章標(biāo)題、摘要信息等數(shù)據(jù)字段，還要涉及如中文作者姓名消歧、外文作者姓名要區(qū)分作者的姓與名的信息，作者單位消歧、引文、正文等數(shù)據(jù)信息。對于這些特殊數(shù)據(jù)字段的內(nèi)容，現(xiàn)有的數(shù)字資源數(shù)據(jù)庫基本并未提供直接可用的內(nèi)容及文本格式，所以需要對已有數(shù)字化數(shù)據(jù)進(jìn)行智能化的再處理，人工再處理是不現(xiàn)實(shí)的。

基于上述數(shù)據(jù)分析的情況，開展對已有數(shù)字化文獻(xiàn)再處理工具的開發(fā)與實(shí)踐探索是必要的。

3.2 研究工作的意義

對于數(shù)字圖書館的數(shù)字化文獻(xiàn)資源進(jìn)行再處理的重要意義在于，一是對海量數(shù)據(jù)信息的深層次挖掘技術(shù)的實(shí)施需要數(shù)字化文獻(xiàn)資源再處理過程來提高現(xiàn)有數(shù)據(jù)的質(zhì)量。二是數(shù)字圖書館目前提供給用戶的查詢檢索服務(wù)需要改變目前單純依賴加工的題錄數(shù)據(jù)中作者的標(biāo)題、關(guān)鍵詞和摘要信息進(jìn)行檢索、簡單的推送原文的展示數(shù)字圖書館的數(shù)字化文獻(xiàn)數(shù)據(jù)的方式，這種推送和展示方式使得數(shù)字圖書館的服務(wù)單一化，缺乏深度知識的推介功能，不符合用戶對數(shù)據(jù)信息的深層次技術(shù)信息需求的需要。盡管很多研究機(jī)構(gòu)已經(jīng)在從事這些方面的研究工作，但是研究常常是獨(dú)立的，并源自局部的、數(shù)量有限的數(shù)據(jù)來從事研究工作，即這些數(shù)據(jù)來源并非完全取自數(shù)字圖書館的真實(shí)數(shù)據(jù)而做的研究工作，所以其應(yīng)用性欠缺。而在圖書館研究領(lǐng)域，對于數(shù)據(jù)再處理研究工作，往往是基于需要去抽取已有數(shù)據(jù)庫的數(shù)據(jù)，進(jìn)行實(shí)驗(yàn)研究，并未形成實(shí)用化處理工具。因此，對于數(shù)字化資源的再處理進(jìn)行實(shí)際的開發(fā)與實(shí)踐工作是必要的。我們的研究工作首先是基于現(xiàn)有數(shù)字圖書館中的結(jié)構(gòu)化數(shù)據(jù)資源，開展相應(yīng)的研究和實(shí)踐工作。

4 國內(nèi)數(shù)字圖書館數(shù)字化文獻(xiàn)的再處理

國內(nèi)數(shù)字圖書館目前除了具有中文文獻(xiàn)數(shù)字化資源外，還包括外文文獻(xiàn)數(shù)字化資源，其中對部分外文文獻(xiàn)數(shù)據(jù)的結(jié)構(gòu)化處理方式與中文文獻(xiàn)一樣，也是通過掃描、條目著錄、文本化、標(biāo)引、掛接等一系列基本操作過程，其他外文文獻(xiàn)則是購買的全文數(shù)據(jù)庫，通過鏈接訪問國外文獻(xiàn)服務(wù)機(jī)構(gòu)提供的外文文獻(xiàn)資源。對于國內(nèi)數(shù)字圖書館的數(shù)字化文獻(xiàn)數(shù)據(jù)，包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，我們對其的再處理直接取自經(jīng)過一次加工處理后的結(jié)構(gòu)化數(shù)字文獻(xiàn)數(shù)據(jù)，進(jìn)行相應(yīng)的二次需求處理。目前我們的工作以期刊文獻(xiàn)數(shù)據(jù)為研究重點(diǎn)，對來自不同供應(yīng)商的結(jié)構(gòu)化數(shù)字資源，我們需要統(tǒng)一結(jié)構(gòu)和抽取字段內(nèi)容重新處理并存儲，以為深層次的研究服務(wù)，這種深層次研究包括文獻(xiàn)之間的內(nèi)容關(guān)聯(lián)、技術(shù)關(guān)聯(lián)、知識信息挖掘和分析等內(nèi)容。而對于非結(jié)構(gòu)化的數(shù)據(jù)處理研究是我們?nèi)蘸蟮墓ぷ髦攸c(diǎn)內(nèi)容之一。目前，我們已經(jīng)先后研究并處理了部分結(jié)構(gòu)化數(shù)據(jù)，如期刊文獻(xiàn)數(shù)據(jù)、專利文獻(xiàn)數(shù)據(jù)和外文數(shù)據(jù)庫數(shù)據(jù)等。

圖1 數(shù)字化文獻(xiàn)再處理的基本流程

4.1 結(jié)構(gòu)化數(shù)字文獻(xiàn)再處理的關(guān)鍵技術(shù)和基本處理流程

結(jié)構(gòu)化數(shù)字文獻(xiàn)再處理涉及的主要關(guān)鍵技術(shù)問題是數(shù)據(jù)的加工和存儲技術(shù)。首先我們將結(jié)構(gòu)化的數(shù)字文獻(xiàn)數(shù)據(jù)導(dǎo)出成可再處理的統(tǒng)一數(shù)據(jù)格式，例如XML格式。

具體的加工技術(shù)包括：1）數(shù)據(jù)元素的識別，即自動識別數(shù)據(jù)資源中說明和攜帶的數(shù)字化文獻(xiàn)數(shù)據(jù)資源的信息，重點(diǎn)是對原有結(jié)構(gòu)化數(shù)據(jù)中并未提供的數(shù)據(jù)元素信息進(jìn)行整合和抽取。2）數(shù)據(jù)內(nèi)容的清洗，針對結(jié)構(gòu)化數(shù)字文獻(xiàn)數(shù)據(jù)存在前期加工處理的錯(cuò)誤現(xiàn)象，在數(shù)據(jù)資源存儲之前，首先需要對數(shù)據(jù)資源進(jìn)行必要的自動“清洗”處理，去除不規(guī)范的字符和符號等，否則導(dǎo)入數(shù)據(jù)庫的過程中會出現(xiàn)不必要的數(shù)據(jù)導(dǎo)入錯(cuò)誤，而且影響日后數(shù)據(jù)整合和分析質(zhì)量。

存儲技術(shù)包括：1）建立數(shù)據(jù)庫，用于存儲處理后的數(shù)據(jù)，實(shí)現(xiàn)對數(shù)據(jù)的修正和消岐結(jié)果進(jìn)行實(shí)時(shí)存儲。2）將自動識別的數(shù)據(jù)資源內(nèi)容與存儲的數(shù)據(jù)庫中的字段實(shí)現(xiàn)自動匹配，并自動存儲在相應(yīng)的數(shù)據(jù)庫字段內(nèi)。

為此，我們設(shè)計(jì)了如圖1所示的數(shù)字化文獻(xiàn)再處理的基本處理流程。

流程圖中的關(guān)鍵技術(shù)環(huán)節(jié)即實(shí)現(xiàn)對數(shù)字化數(shù)據(jù)資源的數(shù)據(jù)加工和存儲，它主要包含：一是數(shù)據(jù)元素的識別，數(shù)據(jù)內(nèi)容的“清洗”處理環(huán)節(jié)；對于原有結(jié)構(gòu)化數(shù)據(jù)中已有的數(shù)據(jù)字段，通過辨識數(shù)據(jù)字段信息，抽取相應(yīng)數(shù)據(jù)字段中的數(shù)據(jù)內(nèi)容；對于結(jié)構(gòu)化數(shù)據(jù)中未加工的數(shù)據(jù)字段，則需根據(jù)整個(gè)的數(shù)據(jù)內(nèi)容，甚至通過全文數(shù)據(jù)和網(wǎng)上其他相關(guān)資源的內(nèi)容作參考，設(shè)計(jì)相應(yīng)的自動處理方案實(shí)現(xiàn)數(shù)據(jù)整合和抽?。欢菍?shí)現(xiàn)數(shù)據(jù)元素與用戶的數(shù)據(jù)庫字段名稱的自動映射與匹配，并完成對加工處理后的數(shù)據(jù)內(nèi)容自動導(dǎo)入用戶數(shù)據(jù)庫的處理過程，其中數(shù)據(jù)庫的結(jié)構(gòu)設(shè)計(jì)要先期設(shè)計(jì)并完成；三是實(shí)現(xiàn)數(shù)據(jù)的消岐技術(shù)，這部分是技術(shù)的難點(diǎn)問題，我們也正在探索和實(shí)踐階段；四是建立相應(yīng)的數(shù)據(jù)處理規(guī)范，我們根據(jù)當(dāng)前數(shù)據(jù)分析和研究的需求，制定相應(yīng)的數(shù)據(jù)規(guī)范和要求。數(shù)據(jù)規(guī)范是一項(xiàng)長期積累的工作，我們將隨著研究和實(shí)踐工作的推進(jìn)，逐步完善，形成適用于數(shù)字化文獻(xiàn)再處理的數(shù)據(jù)規(guī)范和標(biāo)準(zhǔn)。

基于以上基本處理流程，我們開發(fā)了針對數(shù)字圖書館的結(jié)構(gòu)化數(shù)字文獻(xiàn)再處理工具，該工具可以提高數(shù)據(jù)再處理的效率，滿足深層次數(shù)據(jù)挖掘和分析等研究工作的需要，該工具可以自動實(shí)現(xiàn)如下操作過程：

（1）用戶提交操作請求，輸入待處理的數(shù)字化文獻(xiàn)數(shù)據(jù)資源在用戶計(jì)算機(jī)中的存儲地址，之后進(jìn)入數(shù)據(jù)加工與存儲處理過程；

（2）再處理工具自動定位用戶輸入的存儲數(shù)據(jù)位置，提示用戶輸入需要加工的數(shù)據(jù)元素名稱，之后再處理工具對數(shù)據(jù)進(jìn)行主要數(shù)據(jù)元素和非主要數(shù)據(jù)元素的自動識別；

（3）再處理工具對識別出的數(shù)據(jù)元素對應(yīng)的數(shù)據(jù)內(nèi)容，進(jìn)行必要的數(shù)據(jù)內(nèi)容清洗，例如，自動“清洗”數(shù)據(jù)內(nèi)容中首尾出現(xiàn)的不規(guī)范字符，并在操作界面上顯示識別出所有數(shù)據(jù)名稱；

（4）用戶根據(jù)再處理工具界面提示內(nèi)容，輸入用戶需要存儲的數(shù)據(jù)名稱，以及用戶用于存儲這些數(shù)據(jù)的數(shù)據(jù)庫信息，例如數(shù)據(jù)庫名稱、用戶及密碼、數(shù)據(jù)庫字段名等；

（5）再處理工具根據(jù)用戶的輸入信息，自動實(shí)現(xiàn)數(shù)據(jù)名稱與數(shù)據(jù)庫字段名之間的自動映射和匹配；

（6）再處理工具自動實(shí)現(xiàn)對數(shù)據(jù)內(nèi)容的抽取，并根據(jù)用戶需求自動導(dǎo)入數(shù)據(jù)庫中對應(yīng)的數(shù)據(jù)表內(nèi)存儲。

4.2 數(shù)字化文獻(xiàn)處理工具的實(shí)現(xiàn)

根據(jù)前文的數(shù)據(jù)分析和再處理流程設(shè)計(jì)方案，我們開發(fā)了數(shù)字化文獻(xiàn)再處理工具，開發(fā)編程語言采用Java語言，JDK1.6.0及以上版本。對硬件設(shè)備和系統(tǒng)要求是計(jì)算機(jī)CPU2.5GHz及以上，內(nèi)存2GB及以上，至少10G硬盤空閑空間；操作系統(tǒng)支持Windows XP、Windows Server 2000及以上版本，Linux、Unix、MacOS等系統(tǒng)；再處理工具的使用界面圖示見圖2和圖3。目前該工具可以實(shí)現(xiàn)對數(shù)字化科技文獻(xiàn)再處理的基本處理過程，隨著研究工作的開展還有待于我們進(jìn)一步完善。

圖4和圖5顯示的是經(jīng)過再處理工具處理的數(shù)字化文獻(xiàn)數(shù)據(jù)資源最終完成之后的數(shù)據(jù)存儲狀態(tài)。圖示中，我們處理了557個(gè)xml格式的文件，數(shù)據(jù)大小為11.2GB，通過我們開發(fā)的再處理工具的自動處理，成功完成加工和存儲處理過程，并且按用戶需求存放在數(shù)據(jù)庫的不同類別數(shù)據(jù)表的字段內(nèi)，最終處理結(jié)果是每個(gè)表的記錄數(shù)均為2,781,881條。

圖2 再處理工具的使用界面圖示1

圖3 再處理工具的使用界面圖示2

圖4 處理后數(shù)據(jù)庫存儲狀態(tài)示例1

圖5 處理后數(shù)據(jù)庫存儲狀態(tài)示例2

5 結(jié)語

實(shí)現(xiàn)對海量的數(shù)字化文獻(xiàn)數(shù)據(jù)資源的再處理，滿足數(shù)字圖書館的工作人員，以及數(shù)字圖書館領(lǐng)域的科研人員對數(shù)字化文獻(xiàn)數(shù)據(jù)資源的信息挖掘研究進(jìn)行數(shù)據(jù)整合的需要，是我們研究工作的出發(fā)點(diǎn)。目前，我們的研究工作成果已應(yīng)用于“十二五”國家科技支撐計(jì)劃課題和國家自然科學(xué)基金項(xiàng)目中，并支持這些課題和項(xiàng)目的進(jìn)一步研究工作。這種再處理工具基本適用于對國家工程技術(shù)圖書館和國家科技圖書文獻(xiàn)中心存儲的結(jié)構(gòu)化數(shù)字文獻(xiàn)數(shù)據(jù)資源。而對于購買的國外文獻(xiàn)全文數(shù)據(jù)庫，數(shù)據(jù)處理則相對復(fù)雜，原因是，國外數(shù)字圖書館提供的是檢索服務(wù)接口，我們對于文獻(xiàn)數(shù)據(jù)的相關(guān)信息如關(guān)鍵詞、摘要和全文等數(shù)據(jù)獲取需要額外的付費(fèi)服務(wù)。對于這類數(shù)字文獻(xiàn)，以及非結(jié)構(gòu)化數(shù)字資源的處理和研究工作，我們將在未來的研究工作中逐步開展。

[1]趙繼海.數(shù)字圖書館發(fā)展若干領(lǐng)域的評析[J].圖書情報(bào)工作,200l(3):16-19.

[2]凌秀麗.略論數(shù)字化圖書館與現(xiàn)代化服務(wù)[J].圖書館學(xué)刊,2005(1):59-60.

[3]THOMAS L C.The State of Mobile in Libraries 2012 [EB/OL].[2012-07-03].http://www.thedigitalshift.corn/2012/02/mobile/the-state-of-mobile-in-libraries.2012/.

[4]林海青,樓向英,夏翠娟.圖書館關(guān)聯(lián)數(shù)據(jù):機(jī)會與挑戰(zhàn)[J].中國圖書館學(xué)報(bào),2012,38(197):58-68.

The Development and Practice of Digital Library about Structured Digital Document Reprocessing Tools

Zeng Wen, Xu Shuo, Zhang Yunliang/Institute of Scientific and Technical Information of China, Beijing, 100038

Digital library uses computer system to manage all kinds of documents processing and service, through the network and communication technology it supports user to access digital literature information.Processing ability of digital library on the mass data is the foundation of ensuring data quality, supporting and deepening the service function of digital library.The paper discusses the importance of data reprocessing tools research, and it introduces the previous work, elaborates the development and practice work of structured digital document reprocessing tools.

Digital library, Structured data, Digital document, Reprocessing tools

10.3772/j.issn.1673—2286.2013.07.010

曾文，博士，中國科學(xué)技術(shù)信息研究所，研究方向：智能信息處理、數(shù)字圖書館等。E-mail: zengw@istic.ac.cn; zengwen_@sohu.com

2013-01-25）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

1 引言

2 國內(nèi)圖書館數(shù)字化文獻(xiàn)處理的現(xiàn)狀

3 我們的研究工作

4 國內(nèi)數(shù)字圖書館數(shù)字化文獻(xiàn)的再處理

5 結(jié)語