廈門(mén)市集美圖書(shū)館技術(shù)部〔福建省廈門(mén)市 361021〕
金石亻全*
在現(xiàn)今的信息化時(shí)代,作為站在信息前沿的圖書(shū)館行業(yè)來(lái)說(shuō),應(yīng)該充分利用好互聯(lián)網(wǎng)這個(gè)龐大的平臺(tái)來(lái)更好地提供文獻(xiàn)信息服務(wù)。目前,全國(guó)許多公共圖書(shū)館都如火如荼地推出了不少具有地方特色的自建文獻(xiàn)信息數(shù)據(jù)庫(kù),極大地豐富了各地公共圖書(shū)館的館藏和知識(shí)體系。從互聯(lián)網(wǎng)信息角度看,這種狀況則是增加了很多公益性和權(quán)威性知識(shí)與信息提供方,極大地方便了讀者獲取知識(shí)與信息,也使一些地區(qū)的特色文化得到了很好的保存和推廣,又提高了公共圖書(shū)館的社會(huì)效益,實(shí)現(xiàn)了讀者文獻(xiàn)信息和公共圖書(shū)館的多贏。作為一個(gè)積極參與數(shù)字化建設(shè)的地方公共圖書(shū)館——集美圖書(shū)館也開(kāi)展了對(duì)廈門(mén)地方特色展會(huì)文獻(xiàn)自建數(shù)據(jù)庫(kù)的研發(fā)工作。本文將對(duì)展會(huì)文獻(xiàn)建庫(kù)過(guò)程中的 IT問(wèn)題談?wù)勛约旱目捶ā?/p>
由于展會(huì)文獻(xiàn)一般用的是銅版紙,色彩豐富,幅面以 A4和 A3居多,因此在選擇掃描儀的時(shí)候必須考慮到這種文獻(xiàn)特性。選用彩色CCD元件,掃描 A3幅面的掃描儀,光學(xué)分辨率高達(dá) 600DPI,可以進(jìn)行多種灰度模式的掃描,接口為最新 SCSI版本。考慮到展會(huì)的會(huì)刊文獻(xiàn)一般都比較厚,選用零邊距掃描儀為佳。
服務(wù)器是數(shù)據(jù)處理和存儲(chǔ)的核心。服務(wù)器必須有很強(qiáng)的穩(wěn)定性以保證數(shù)據(jù)處理和存儲(chǔ)的安全,要有足夠的 CPU與內(nèi)存,總線性能優(yōu)秀可以保證數(shù)據(jù)處理的效率,必須有強(qiáng)大的系統(tǒng)兼容性來(lái)保證各種軟件的安全運(yùn)行。數(shù)據(jù)庫(kù)建成后一般都要長(zhǎng)期保存與使用,因此良好的可擴(kuò)展性也是服務(wù)器的必備要求之一。還應(yīng)該考慮到對(duì)應(yīng)的服務(wù)器生產(chǎn)商提供的技術(shù)支持和售后服務(wù)。
從根本上說(shuō),數(shù)據(jù)庫(kù)建設(shè)就是數(shù)據(jù)存儲(chǔ)工作。在展會(huì)文獻(xiàn)紙質(zhì)文獻(xiàn)數(shù)字化中產(chǎn)生的數(shù)字圖書(shū)本身一般都比較大,比一首 MP3歌曲要大得多。首先帶來(lái)的問(wèn)題便是存儲(chǔ)容量要足夠大,以保證今后數(shù)據(jù)添加時(shí)有足夠的存儲(chǔ)空間,至少也必須是可以擴(kuò)展的存儲(chǔ)。其次,數(shù)據(jù)的安全性與可靠性必須給予足夠的重視,存儲(chǔ)必須穩(wěn)定而易用。采用磁盤(pán)陣列、支持速度較高的 SATA硬盤(pán)接口以及 IP-SAN或者 NAS存儲(chǔ),以充分利用館內(nèi)的千兆網(wǎng)絡(luò)來(lái)分布服務(wù)器和存儲(chǔ),達(dá)到負(fù)載平衡和較高水平的合理化存儲(chǔ)。
網(wǎng)絡(luò)是數(shù)據(jù)庫(kù)發(fā)布的最方便快捷的途徑,必須以帶寬大、出口穩(wěn)定、內(nèi)部局域網(wǎng)交換穩(wěn)定、速率高為標(biāo)準(zhǔn)進(jìn)行建設(shè)。出口可以采用光纖接入主流網(wǎng)絡(luò)。為了滿足數(shù)據(jù)庫(kù)海量數(shù)據(jù)的傳輸要求,館內(nèi)局域網(wǎng)應(yīng)構(gòu)建千兆級(jí)的內(nèi)部網(wǎng)絡(luò),以便無(wú)縫連接服務(wù)器和進(jìn)行數(shù)據(jù)存儲(chǔ)。
目前,比較主流的數(shù)據(jù)庫(kù)建庫(kù)平臺(tái)有清華同方TPI專(zhuān)題數(shù)據(jù)庫(kù)制作與管理系統(tǒng)、北京拓爾思 TRS信息雷達(dá)系統(tǒng)、清華文通IT-CENTER系統(tǒng)等。這些建庫(kù)系統(tǒng),都具有覆蓋整個(gè)建庫(kù)流程的一整套功能強(qiáng)大的軟件平臺(tái),包括掃描軟件、OCR識(shí)別模塊、數(shù)據(jù)庫(kù)發(fā)布平臺(tái)、Web發(fā)布和檢索平臺(tái)。結(jié)合展會(huì)文獻(xiàn)數(shù)據(jù)庫(kù)和圖書(shū)館工作人員結(jié)構(gòu)的特點(diǎn),遵循標(biāo)準(zhǔn)化、開(kāi)放性、穩(wěn)定性、易用性和可擴(kuò)展性原則,展會(huì)文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)最好選用清華同方 TPI專(zhuān)題數(shù)據(jù)庫(kù)制作與管理系統(tǒng)。
清華同方TPI專(zhuān)題數(shù)據(jù)庫(kù)制作與管理系統(tǒng)是一套基于網(wǎng)絡(luò)平臺(tái)進(jìn)行知識(shí)倉(cāng)庫(kù)創(chuàng)建、生產(chǎn)、管理、維護(hù)和發(fā)布的工具軟件系統(tǒng)。 TPI是一套相對(duì)成熟的軟件體系,能與CNMARC數(shù)據(jù)兼容。這一建庫(kù)系統(tǒng)擁有OCR工具、bookshop電子書(shū)加工工具、CPS內(nèi)容發(fā)布工具、TPICD光盤(pán)發(fā)布工具、Data Processing元數(shù)據(jù)加工工具,以及服務(wù)器端的Kbase和服務(wù)器管理工具。此外,其多個(gè)數(shù)據(jù)并發(fā)的特點(diǎn),可以滿足建庫(kù)過(guò)程中工作人員之間的協(xié)作要求。Web發(fā)布頁(yè)面自定義功能豐富,可以自定義出簡(jiǎn)潔、高效與易用的頁(yè)面 ,提升數(shù)據(jù)庫(kù)系統(tǒng)的易用性。
1.紙質(zhì)文獻(xiàn)。首先由采編部工作人員對(duì)進(jìn)入圖書(shū)館的圖書(shū)進(jìn)行分編處理,做好 MARC數(shù)據(jù)錄入,使之入庫(kù)成為館藏;再交由數(shù)字化部門(mén)對(duì)紙質(zhì)文獻(xiàn)進(jìn)行圖片掃描與校正;再按一定的壓縮比率,在兼顧清晰度、OCR識(shí)別程度和文件大小的要求下,壓縮成 CAJ或者 PDF格式的目標(biāo)文件;然后在自建數(shù)據(jù)庫(kù)發(fā)布平臺(tái)上,建立相應(yīng)的數(shù)據(jù)庫(kù),對(duì)具體條目進(jìn)行標(biāo)引入庫(kù);最后,檢驗(yàn)數(shù)據(jù),建立導(dǎo)航,發(fā)布數(shù)據(jù)。
2.電子文獻(xiàn)。包括電子文檔、圖像、音頻、視頻等格式的文獻(xiàn)。由自建數(shù)據(jù)庫(kù)研發(fā)工作人員在互聯(lián)網(wǎng)上搜集獲取,或者向相關(guān)文獻(xiàn)收藏單位通過(guò)索取、獲贈(zèng)與購(gòu)買(mǎi)等方式搜集相關(guān)的電子文獻(xiàn)信息,包括網(wǎng)頁(yè)內(nèi)容、PDF文件、WORD文件、TXT文本文件、MP3/CD音頻與VCD/DVD/光盤(pán)等各種電子檔文件,轉(zhuǎn)換成展會(huì)文獻(xiàn)數(shù)據(jù)庫(kù)平臺(tái)所需的電子格式,再進(jìn)行細(xì)致的標(biāo)引入庫(kù)。
紙質(zhì)文獻(xiàn)在分編進(jìn)入 IlasII系統(tǒng)形成館藏的同時(shí),IlasII系統(tǒng)中也就相應(yīng)地?fù)碛辛朔蠘?biāo)準(zhǔn)的MARC數(shù)據(jù)。 TPI系統(tǒng)能夠兼容MARC數(shù)據(jù)格式,可以直接將元數(shù)據(jù)導(dǎo)入TPI數(shù)據(jù)庫(kù)中。但是,并非所有的 MARC數(shù)據(jù)字段都適合導(dǎo)入 TPI數(shù)據(jù)庫(kù)。例如,頁(yè)數(shù)、價(jià)格等字段就不導(dǎo)入 TPI數(shù)據(jù)庫(kù)中。從IlasII導(dǎo)入的這些元數(shù)據(jù)顯然還不能夠滿足 TPI數(shù)據(jù)庫(kù)的建庫(kù)要求。 TPI的元數(shù)據(jù)能夠更好地向讀者揭示文獻(xiàn)的各方面屬性,以及描述數(shù)據(jù)之間的關(guān)系。根據(jù)展會(huì)文獻(xiàn)的特點(diǎn),可以采取在 TPI數(shù)據(jù)庫(kù)中增加“展會(huì)分類(lèi)”、“全文”、“網(wǎng)址”、“展會(huì)屆期”等字段,細(xì)化標(biāo)引“主題詞”字段。其中:展會(huì)分類(lèi)、展會(huì)屆期字段主要用于整個(gè)數(shù)據(jù)庫(kù)導(dǎo)航樹(shù)的建立;主題詞細(xì)化標(biāo)引主要用于揭示數(shù)據(jù)之間的關(guān)系,是數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘的必要步驟。
展會(huì)文獻(xiàn)是具有宣傳性質(zhì)的檔案文獻(xiàn),包括各類(lèi)參展商資訊、政策宣導(dǎo)、法律法規(guī)、主辦者信息與展會(huì)風(fēng)采等內(nèi)容。全文字段的主要功能是給數(shù)據(jù)庫(kù)使用者提供更加全面的檢索途徑,但是綜合考慮展會(huì)文獻(xiàn)的性質(zhì)和檢索效率,并不是將展會(huì)文獻(xiàn)的所有文字都應(yīng)該進(jìn)行全文字段標(biāo)引到數(shù)據(jù)庫(kù)中。因此,如何標(biāo)引全文字段在整個(gè)展會(huì)文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)過(guò)程中是很關(guān)鍵的。展會(huì)文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)是個(gè)創(chuàng)新性的工作,在目前并沒(méi)有可以借鑒的項(xiàng)目。因此,集美圖書(shū)館在建庫(kù)過(guò)程中,堅(jiān)持以面向讀者需求為出發(fā)點(diǎn),從讀者的角度觀察發(fā)現(xiàn)讀者的需求,從版本形式上一步步完善全文標(biāo)引規(guī)范,形成了以下一些具有可操作性的規(guī)范。這些規(guī)范,對(duì)于工作人員之間的協(xié)作和效率的提高,都有顯而易見(jiàn)的效果。 (1)對(duì)于產(chǎn)品宣傳類(lèi)的彩頁(yè)資料,數(shù)字化工作組提出需要標(biāo)引入全文字段的有:公司的中英文名稱,主營(yíng)產(chǎn)品,產(chǎn)品類(lèi)別、型號(hào),公司地址等。 (2)對(duì)于招商引資類(lèi)的資料,需要標(biāo)引入全文字段的有:招商項(xiàng)目及介紹、招商地區(qū)、招商地區(qū)投資環(huán)境、招商優(yōu)惠政策,以及對(duì)應(yīng)的英文內(nèi)容。 (3)對(duì)于人居樓盤(pán)類(lèi)資料,需要標(biāo)引入全文字段的有:樓盤(pán)名稱、開(kāi)發(fā)商名稱、地理環(huán)境、周邊設(shè)施與地標(biāo)性建筑等內(nèi)容。(4)對(duì)于旅游推介類(lèi)資料,需要標(biāo)引入全文字段的有:旅游地名稱、地理、歷史、宗教、文化、氣候、經(jīng)濟(jì)、政治、語(yǔ)言、民族、主要城市、交通等相關(guān)有用信息的中英文名詞。 (5)對(duì)于展會(huì)雜志、會(huì)刊類(lèi)資料,需要標(biāo)引入全文字段的有:雜志名稱或會(huì)刊期數(shù)與目錄(文章標(biāo)題)等概略信息。 (6)對(duì)于刊登有很多廠商信息的類(lèi)似于黃頁(yè)性質(zhì)的會(huì)刊,比較常見(jiàn)的,如中國(guó)石材展會(huì)刊和海峽兩岸機(jī)電臺(tái)交會(huì)會(huì)刊,數(shù)字化工作組提出,可以建立相應(yīng)的企業(yè)數(shù)據(jù)庫(kù),目前集美圖書(shū)館已經(jīng)建立有石材企業(yè)數(shù)據(jù)庫(kù)和臺(tái)交會(huì)企業(yè)數(shù)據(jù)庫(kù),共收集近 2000條數(shù)據(jù),具有很大的社會(huì)效益。
經(jīng)過(guò)摸索實(shí)踐,結(jié)合廈門(mén)幾大展會(huì)的特點(diǎn),集美圖書(shū)館目前已經(jīng)形成了九八投洽會(huì)、國(guó)際石材展、機(jī)電臺(tái)交會(huì)、中國(guó)人居展、中國(guó)櫥柜展、海西汽博會(huì)、兩岸文博會(huì)與廈門(mén)世博會(huì)等幾個(gè)主要的廈門(mén)展會(huì)數(shù)據(jù)庫(kù)。每個(gè)展會(huì)數(shù)據(jù)庫(kù)按媒介介質(zhì)的思路又分成幾個(gè)數(shù)據(jù)庫(kù)。以九八投洽會(huì)為例,紙質(zhì)文獻(xiàn)數(shù)字化后完成標(biāo)引,形成了九八投洽會(huì)書(shū)籍文獻(xiàn)庫(kù);電子文檔從互聯(lián)網(wǎng)等各處收集起來(lái),經(jīng)過(guò)格式轉(zhuǎn)換到目標(biāo) PDF文件之后標(biāo)引入庫(kù),形成九八投洽會(huì)文獻(xiàn)資料庫(kù)。從橫向關(guān)系上,兩個(gè)文獻(xiàn)數(shù)據(jù)庫(kù)之間通過(guò)題名、責(zé)任者、主題詞與全文字段可以進(jìn)行跨庫(kù)檢索,形成一個(gè)統(tǒng)一的檢索結(jié)果呈現(xiàn)給讀者;從縱向關(guān)系上,兩個(gè)文獻(xiàn)數(shù)據(jù)庫(kù)都有展會(huì)分類(lèi)和展會(huì)屆期字段,這兩個(gè)字段用于形成數(shù)據(jù)庫(kù)導(dǎo)航樹(shù)。讀者可以先點(diǎn)擊整個(gè)展會(huì)數(shù)據(jù)庫(kù)根目錄,展開(kāi)來(lái)呈現(xiàn)出以上的八大展會(huì)導(dǎo)航樹(shù),接著點(diǎn)擊具體的展會(huì)數(shù)據(jù)庫(kù),展開(kāi)以展會(huì)屆期為分類(lèi)的二級(jí)樹(shù),清晰明了,易于使用。
通過(guò)展會(huì)文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè),集美圖書(shū)館深刻體會(huì)到:以中小型公共圖書(shū)館的技術(shù)和人員力量要做出一個(gè)能夠展現(xiàn)專(zhuān)業(yè)水平和社會(huì)效益的自建數(shù)據(jù)庫(kù)需要付出更多的努力和精力,需要持續(xù)摸索改進(jìn),需要多方學(xué)習(xí)吸收好的經(jīng)驗(yàn),亦需要大家同心協(xié)力、耐心細(xì)致,以負(fù)責(zé)認(rèn)真的態(tài)度持之以恒地長(zhǎng)久工作,才能完成任務(wù)。但是,這是公共圖書(shū)館人在信息時(shí)代的開(kāi)創(chuàng)性工作,是很有意義的一項(xiàng)重要工作。
[1]王天亮.文獻(xiàn)數(shù)字化技術(shù)在自建數(shù)據(jù)庫(kù)中的應(yīng)用策略研究 [J].現(xiàn)代情報(bào),2009,29(12):135~ 138.
[2]吳濤,李鋒.基于 TPI的特色數(shù)據(jù)庫(kù)建設(shè)實(shí)踐 [J].現(xiàn)代情報(bào),2005,25(7):165~ 168.
[3]趙捷,蘆曉,張金治.地方文獻(xiàn)數(shù)字化的實(shí)現(xiàn)方法與途徑[J].數(shù)字與縮微影像,2007,(2):1~ 4.
[4]姚宏偉.地方文獻(xiàn)數(shù)字化及在我館實(shí)踐的探討 [J].圖書(shū)館學(xué)研究,2004,(11):13~ 15.