周 艷
(遼寧省圖書館 沈陽 110015)
·一得之見·
地方文獻(xiàn)全文數(shù)據(jù)庫建設(shè)的一點(diǎn)嘗試
周 艷
(遼寧省圖書館 沈陽 110015)
在分析地方文獻(xiàn)全文數(shù)據(jù)庫類型的基礎(chǔ)上,指出地方文獻(xiàn)數(shù)據(jù)庫全文建設(shè)的一般做法,并針對(duì)其缺點(diǎn),設(shè)計(jì)程序予以改進(jìn),最后給出具體實(shí)現(xiàn)步驟。
地方文獻(xiàn) 數(shù)據(jù)庫 全文
地方文獻(xiàn)是指有關(guān)本地方的一切資料[1],包括“史料、地方出版物和地方人士著述”三部分,含括了地方政治、經(jīng)濟(jì)、歷史、地理、文化、科學(xué)、教育、軍事、邊防、民族、宗教、風(fēng)土人情、自然資源等各個(gè)方面。地方文獻(xiàn)既反映地方特色,又體現(xiàn)時(shí)代特色和社會(huì)發(fā)展歷程,具有很高的歷史、科學(xué)和情報(bào)價(jià)值,也是一個(gè)正在被日益廣泛利用的文化寶庫。
目前,我國各級(jí)公共圖書館都非常重視地方文獻(xiàn)的收集、整理、網(wǎng)上發(fā)布等工作,建立了地方文獻(xiàn)專藏,把文獻(xiàn)資料的保護(hù)與提供利用緊密地結(jié)合起來。同時(shí),為方便讀者網(wǎng)上閱讀,建立了地方文獻(xiàn)全文數(shù)據(jù)庫[2]。
按照全文字段的存儲(chǔ)形式和占用存儲(chǔ)空間大小劃分,地方文獻(xiàn)全文數(shù)據(jù)庫主要有純文本、圖像、多媒體三種類型。
1.1 純文本
是將文獻(xiàn)經(jīng)過掃描及光學(xué)字符識(shí)別(0CR)后,保存為文本文件。優(yōu)點(diǎn)是占用空間小,讀者可以進(jìn)行全文檢索,文獻(xiàn)的查全率較高;缺點(diǎn)是圖書館工作人員的勞動(dòng)強(qiáng)度大,差錯(cuò)率高。
1.2 圖像
是將文獻(xiàn)正文掃描為 .jpg、.tiff等圖像文件,將書名、作者、出版發(fā)行項(xiàng)、目錄、關(guān)鍵詞等字段進(jìn)行著錄。優(yōu)點(diǎn)是可對(duì)文本字段進(jìn)行檢索,速度快,工作人員的勞動(dòng)強(qiáng)度小,差錯(cuò)率低,也能閱讀及下載全文;缺點(diǎn)是占用空間大,不能進(jìn)行全文信息檢索。
1.3 多媒體
是將文獻(xiàn)資料數(shù)字化為MP3等格式,通過關(guān)鍵詞進(jìn)行檢索。數(shù)據(jù)占用空間非常大,圖書館一般不采用此種方式存儲(chǔ)數(shù)據(jù)。
盡管地方文獻(xiàn)全文數(shù)據(jù)庫有多種表現(xiàn)形式,但圖像形式比其它形式建庫速度快,圖書館工作人員的勞動(dòng)強(qiáng)度小,差錯(cuò)率低,而且隨著圖像壓縮技術(shù)的發(fā)展和計(jì)算機(jī)大容量存儲(chǔ)設(shè)備的出現(xiàn),占用空間大小已不是主要考慮的問題,因此,在圖書館地方文獻(xiàn)數(shù)字化建設(shè)中,全文數(shù)據(jù)庫采用的大都是這種存儲(chǔ)方式。
具體做法通常是購買成型的數(shù)字化產(chǎn)品(TRS等),然后將掃描后的每張圖片(對(duì)應(yīng)文獻(xiàn)中的頁碼)鏈接在文獻(xiàn)相關(guān)的字段上。這樣,按文獻(xiàn)的題名、責(zé)任者、出版項(xiàng)進(jìn)行檢索,就可以找到全文文獻(xiàn)存儲(chǔ)的界面,再一頁一頁的閱覽文獻(xiàn)全文。這樣做的優(yōu)點(diǎn)是可以降低圖書館工作人員的勞動(dòng)強(qiáng)度,只要將全文文獻(xiàn)掃描后,按照書中的頁碼存儲(chǔ)就可以了。但對(duì)于讀者來說,上網(wǎng)下載全文時(shí)會(huì)非常麻煩,必須一頁一頁的瀏覽、下載,如果需連續(xù)閱讀,則更為繁瑣。
如果圖書館自建的全文數(shù)據(jù)庫,也能像在網(wǎng)上閱讀電子書一樣,既可以一頁一頁的閱讀,也可以跳躍式的閱讀,不是就能滿足讀者方便快捷地閱讀及下載全文的需要了嗎?筆者在我館地方文獻(xiàn)全文數(shù)據(jù)庫建設(shè)實(shí)踐中,根據(jù)實(shí)際需要,設(shè)計(jì)了簡單實(shí)用的兩個(gè)小程序,巧妙的實(shí)現(xiàn)了數(shù)據(jù)庫中全文字段的存儲(chǔ),同時(shí)利用Adobe Acorbat 和Word軟件的轉(zhuǎn)化接口,實(shí)現(xiàn)了適合讀者網(wǎng)上瀏覽的全文存儲(chǔ)方式,使讀者可以像閱讀電子書那樣在網(wǎng)上閱覽文獻(xiàn)。同時(shí),采用.pdf 格式存儲(chǔ)的文件,還能實(shí)現(xiàn)與其他格式文件的轉(zhuǎn)換,實(shí)現(xiàn)文檔加密、數(shù)字簽名、文檔只讀瀏覽等功能。
3.1 建文件夾,逐頁掃描
將需要做全文的書籍,逐頁掃描為 .jpg或 .tif格式,并將掃描后的文件放入已建好的文件夾中。如:《遼東半島石棚》一書(d:-dbdsp),文件名可依次為順序號(hào):1.jpg、2.jpg、3.jpg、4.jpg……(也可以按書內(nèi)容的順序,依照書名的命名方法對(duì)文件進(jìn)行命名,然后用批量轉(zhuǎn)換軟件進(jìn)行轉(zhuǎn)換。)
3.2 打開Word編輯宏的界面,將下面代碼粘貼到模塊中
Dim i As Integer
For i = 1 To 1329 * 書的頁數(shù)…
ChangeFileOpenDirectory “d:-dbdsp”
Documents.Add DocumentType:=wdNewBlankDocument
Selection.InlineShapes.AddPictureFileName:=i&“.jpg”, LinkToFile:= False, SaveWithDocument:=True
ActiveDocument.SaveAsFileName:=i&“.doc”, FileFormat:=wdFormatDocument, _
LockComments:=False,Password:=“”,AddToRecentFiles:=True, WritePassword:=“”,ReadOnlyRecommended:=False, EmbedTrueTypeFonts:=False,
SaveNativePictureFormat:=False,SaveFormsData:=False, SaveAsAOCELetter:= False
ActiveWindow.Close
Next
運(yùn)行上面的程序后,原來掃描的.jpg圖片格式的文獻(xiàn),就轉(zhuǎn)換成了.doc格式的 word文檔文件。
3.3 將一個(gè)個(gè)獨(dú)立的word文檔轉(zhuǎn)換為一個(gè)能容納整個(gè)文獻(xiàn)的word長文檔
For i = 10 To 1329
ChangeFileOpenDirectory “d:-dbdsp”
Documents.Open FileName:=i & “.doc”, ConfirmConversions:=False, ReadOnly:= False, AddToRecentFiles:=False, PasswordDocument:=“”, PasswordTemplate:= “”, Revert:=False, WritePasswordDocument:=“”, WritePasswordTemplate:=“”, _
Format:=wdOpenFormatAuto, XMLTransform:=“”
Selection.WholeStory
Selection.Copy
ActiveWindow.Close
Selection.PasteAndFormat (wdPasteDefault)
Next
ActiveDocument.Save
這樣,就生成了一個(gè)含有全部文獻(xiàn)內(nèi)容的word長文檔。
3.4 將word文檔轉(zhuǎn)換為.pdf文檔
安裝Adobe Acorbat軟件,在word中按“轉(zhuǎn)換到Adobe PDF”按紐。運(yùn)行Acorbat,打開生成的 .pdf文檔,對(duì)文檔進(jìn)行加密、數(shù)字簽名等安全設(shè)置。
通過以上幾個(gè)步驟,就可以將一本本珍貴的紙制地方文獻(xiàn)書籍全文數(shù)字化,簡便易行,特別適合文獻(xiàn)數(shù)量不是很大的中小型圖書館采用,而且由于.pdf格式為電子圖書的格式,非常方便讀者網(wǎng)上瀏覽。
[1] 李 誠. 關(guān)于地方文獻(xiàn)數(shù)據(jù)庫建設(shè)的思考[J]. 圖書館工作與研究,2002(1):54-57.
[2] 林淑晶. 對(duì)圖書館地方文獻(xiàn)數(shù)據(jù)庫建設(shè)工作的討論[J]. 今日科苑,2008(16):241-242.
OnConstructionoftheFullTextDatabaseofLocalLiterature
Zhou Yan
Liaoning Province Library, ShenYang 110015, China
Based on an analysis of the types of the full text database of local literature, the present paper first summaries the usual methods of building the database, then in view of its demerits designs programs for its improvement, and finally offers the specific procedures for its construction.
local literature; database; full text
G250.7
周 艷,女,1964年生,副研究館員,碩士,研究方向?yàn)閿?shù)字圖書館,發(fā)表論文10余篇。