徐航
(福建省標準化研究院,福州 350013)
標準數(shù)字化全文檢索系統(tǒng)構(gòu)建探討
徐航
(福建省標準化研究院,福州 350013)
標準數(shù)字化全文檢索系統(tǒng)是基于DIPS數(shù)字文獻系統(tǒng),面向標準的應(yīng)用、管理和發(fā)布的系統(tǒng)。前端采用B/S網(wǎng)絡(luò)發(fā)布結(jié)構(gòu),提供全文檢索服務(wù),檢索命中到頁,可滿足用戶在查找標準信息資源時野快、準、全冶的要求,極大地提高標準信息資源的獲取效率。
標準特色數(shù)據(jù)庫;全文檢索;系統(tǒng)構(gòu)建
隨著我國經(jīng)濟的飛速發(fā)展和社會的不斷進步,產(chǎn)品的質(zhì)量愈發(fā)受到社會各階層的關(guān)注。而提高產(chǎn)品質(zhì)量的關(guān)鍵在于按照標準進行規(guī)范生產(chǎn),標準對于提高產(chǎn)品質(zhì)量具有巨大的推動作用。特別是在經(jīng)濟全球化的今天,標準擔當著產(chǎn)業(yè)主流技術(shù)載體的重要角色,成為市場競爭的制高點,可以說標準化工作對于國家、行業(yè)、企業(yè)的可持續(xù)的健康發(fā)展都具有戰(zhàn)略意義。福建省標準化研究院作為專業(yè)研究標準化的單位,在不斷提高標準化研究水平的同時,更積極探索標準化與信息化相結(jié)合的服務(wù)模式,于2009年底建成并上線運營福建省標準信息服務(wù)平臺,打造“一站式”標準服務(wù),平臺運營至今已為眾多用戶提供了高效、優(yōu)質(zhì)、準確的服務(wù),取得了顯著成效。平臺具有以下特點:①操作簡便,功能強大,平臺為用戶提供多個檢索條件以提高檢索效率,并實現(xiàn)標準電子文本的在線閱覽,打印,下載等功能,為用戶提供了一個暢通的標準獲取渠道;②更新及時,數(shù)據(jù)準確。平臺設(shè)有專人持續(xù)跟蹤,加工,上傳各標準組織的公告,確保標準更新的及時性和狀態(tài)的準確性;③品種齊全,數(shù)據(jù)豐富。以平臺為依托目前共收錄國內(nèi)外標準題錄127萬余條和國內(nèi)外標準電子文本23.5萬余件。
2.1 系統(tǒng)網(wǎng)絡(luò)架構(gòu)
系統(tǒng)由兩臺服務(wù)器,一個磁盤陣列,一臺高速掃描儀和多臺式機構(gòu)成。其中一臺服務(wù)器用于部署系統(tǒng)前端的程序,另一臺服務(wù)器用于安裝DIPS數(shù)字文獻系統(tǒng);磁盤陣列主要用于存儲雙層PDF等資源;高速掃描儀主要用于將標準紙質(zhì)文本掃描成PDF格式的電子文本,臺式機用于數(shù)字化加工,將圖像PDF批量OCR識別后轉(zhuǎn)化成雙層PDF。整個系統(tǒng)的網(wǎng)絡(luò)架構(gòu)如圖1所示。
圖1 系統(tǒng)網(wǎng)絡(luò)架構(gòu)
2.2 系統(tǒng)數(shù)據(jù)庫設(shè)計與實現(xiàn)
該我院選擇DIPS數(shù)字文獻系統(tǒng)作為系統(tǒng)的數(shù)據(jù)庫,DIPS是一款面向圖書、文獻、檔案等領(lǐng)域數(shù)字化建設(shè)的信息管理軟件。DIPS以全文檢索技術(shù)為基礎(chǔ)、基于互聯(lián)網(wǎng)內(nèi)容管理為核心,具備創(chuàng)建并管理數(shù)據(jù)庫,采集挖掘、加工整理和發(fā)布信息資源等多項功能,能夠滿足大容量數(shù)據(jù)全文檢索及多用戶并發(fā)使用的要求,是新一代集數(shù)字化加工、數(shù)字內(nèi)容管理和全文檢索為一體的信息管理軟件。
2.2.1 系統(tǒng)數(shù)據(jù)庫設(shè)計
利用DIPS數(shù)據(jù)文獻系統(tǒng)中的管理模塊創(chuàng)建標準全文數(shù)據(jù)庫,確定數(shù)據(jù)庫結(jié)構(gòu),定義了20個字段,包括:“標準號”,“標準序號”,“標準年代號”,“標準中文名稱”,“標準英文名稱”,“標準狀態(tài)”,“組織類別”,“發(fā)布日期”,“實施日期”,“作廢日期”,“代替標準”,“被代替標準”,“文本頁數(shù)”,“中標分類號”,“ICS分類號”,“引用標準”,“采用標準”,“修改單”,“備注”,“全文”。
2.2.2 數(shù)字化加工
通過程序?qū)F(xiàn)行標準PDF文本按標準組織類別批量導(dǎo)出,然后利用軟件Adobe Acrobat進行批量OCR識別,將圖像PDF轉(zhuǎn)化成雙層PDF,OCR識別完成后Adobe Acrobat將彈出錯誤提示框以顯示OCR識別有誤的PDF文本,錯誤原因主要是由于PDF頁面尺寸太大超過了Adobe Acrobat可OCR識別的最大范圍,加工人員將這些OCR識別有誤的標準號提取出來,利用虛擬打印機Adobe PDF將這些PDF文本轉(zhuǎn)化成規(guī)范的PDF文本,再進行OCR識別轉(zhuǎn)化成雙層PDF。
2.2.3 標準數(shù)據(jù)入庫
通過程序?qū)⒁褦?shù)字化加工的標準文本對應(yīng)的題錄信息從福建省標準信息服務(wù)平臺的數(shù)據(jù)庫中導(dǎo)出到成Excel文件,形成入庫文件。通過軟件SQL2DIPS4將標準雙層PDF文本和文本對應(yīng)的題錄信息批量導(dǎo)入到DIPS數(shù)字文獻系統(tǒng)中,完成標準數(shù)據(jù)入庫。
目前DIPS數(shù)字文獻系統(tǒng)的數(shù)據(jù)庫中包括國家標準(GB),行業(yè)標準(包括機械行業(yè)JB、化工行業(yè)HG、農(nóng)業(yè)行業(yè)NY、商品檢驗行業(yè)SN、紡織行業(yè)FZ、建筑行業(yè)JG、建材行業(yè)JC等30多個常用行業(yè)組織的標準),福建省地方標準(DB35),累計4萬余項標準數(shù)據(jù)。
2.2.4 數(shù)據(jù)庫維護
在使用過程中如果發(fā)現(xiàn)數(shù)據(jù)庫中有重復(fù)的標準數(shù)據(jù),管理員可以通過DIPS提供的去重工具進行去重,在工具中選擇好根據(jù)“標準號”這個字段進行去重后,數(shù)據(jù)庫中將只保留ID值最大的標準數(shù)據(jù)(即新上傳的數(shù)據(jù)),其余重復(fù)數(shù)據(jù)將會被刪除。
2.3 系統(tǒng)前端實現(xiàn)
系統(tǒng)前端以Visual Studio 2013作為開發(fā)工具,以.NET Framework 4.5為框架,采用三層架構(gòu)模式,以IIS 7.0作為中間件,應(yīng)用Jquery,Ajax,Xml,Json多項技術(shù),實現(xiàn)以下功能。
2.3.1 注冊賬號
用戶注冊時需填寫自己的郵箱地址,注冊完成后,系統(tǒng)會自動向用戶的郵箱發(fā)送激活郵件,郵件內(nèi)容是一個激活鏈接,用戶需要登錄自己的郵箱并點擊該鏈接才能激活之前在系統(tǒng)注冊的帳號。
2.3.2 登錄賬號
為了系統(tǒng)的安全性,系統(tǒng)設(shè)置登錄失敗處理功能,限制非法登錄次數(shù)。在用戶輸錯密碼3次后,該賬號將被鎖定1個小時,防止黑客對賬戶密碼進行暴力猜測。
2.3.3 找回密碼
用戶可在找回密碼頁面輸入注冊時使用的郵箱地址,系統(tǒng)會自動發(fā)送密碼重置郵件到該郵箱中,用戶登錄郵箱點擊重置郵件中的鏈接即可重置密碼。
2.3.4 檢索定位
用戶可根據(jù)關(guān)鍵字,標準號,標準年代號,中標分類號,ICS分類號,標準狀態(tài),標準組織類別這七個條件進行組合檢索。如果在某個條件中需要檢索多個詞,檢索詞之間可以用邏輯與“*”、邏輯或“+”、邏輯非“!”運算符連接。邏輯與“*”表示標準文中必須含有所有檢索詞,邏輯或“+”表示標準文中只要含有某個檢索詞即可,邏輯非“!”表示標準文中不能含有該檢索詞。
2.3.5在線閱覽
用戶如需在線閱覽標準文本,要先從系統(tǒng)下載并安裝Adobe Reader軟件和DIPS專用閱覽插件,安裝成功后用戶在線閱覽時插件將會直接跳轉(zhuǎn)到關(guān)鍵詞所在的頁,并且關(guān)鍵詞標紅顯示,極大地提高了用戶的檢索效率。
2.3.6 跟蹤標準
用戶在檢索過程中可將自己關(guān)注的標準添加到用戶關(guān)注標準庫中,從而以后用戶可直接通過該庫使用這些標準,實現(xiàn)小范圍內(nèi)更加精確地全文檢索,用戶關(guān)注標準庫中標準作廢前系統(tǒng)會彈窗提醒以及向用戶注冊郵箱發(fā)送標準作廢前提醒郵件,從而避免用戶使用作廢標準造成損失。
2.3.7 后臺管理
管理員在后臺可以查看用戶的姓名,單位,聯(lián)系方式等資料以及最新登錄系統(tǒng)時間,總登錄次數(shù)等用戶使用系統(tǒng)的情況,并且可以設(shè)置用戶是否有權(quán)限在線閱覽標準電子文本
隨著標準數(shù)量不斷增長以及用戶獲取標準信息的需求迅速膨脹,當前僅針對標準題錄的檢索方式已經(jīng)不能滿足用戶需求,而標準數(shù)字化全文檢索系統(tǒng)提供了快捷的數(shù)據(jù)管理工具和強大的全文檢索手段,為標準化資源高效利用建立了一個有效的共享平臺,使用戶能快速方便地查到需要的標準信息,滿足用戶高查準率和高查全率的要求,在標準化和信息化相結(jié)合方面開創(chuàng)了新的領(lǐng)域,對于標準化工作的開展和推廣具有積極的意義。
主要參考文獻
[1]陳曉.基于DIPS的高校圖書館特色數(shù)據(jù)庫建設(shè)[J].情報探索,2008(7):50-51.
10.3969/j.issn.1673-0194.2016.15.106
G252.7
A
1673-0194(2016)15-0168-03
2016-05-04