吳春明
(星海音樂學(xué)院,廣州510006)
數(shù)據(jù)庫(kù)建設(shè)目標(biāo)與圖書館的功能和作用是一脈相承的,嶺南音樂資源數(shù)據(jù)庫(kù)建設(shè)目標(biāo)主要有兩個(gè):一是利用現(xiàn)代技術(shù),對(duì)嶺南音樂資源進(jìn)行深度開發(fā),提供學(xué)科知識(shí)服務(wù),為學(xué)院的教學(xué)科研活動(dòng)提供資源保障,滿足廣大師生讀者的文化需求;二是保存嶺南地區(qū)的非物質(zhì)文化遺產(chǎn),通過對(duì)嶺南音樂資源的挖掘、整理和研究,推動(dòng)優(yōu)秀的嶺南文化精神的發(fā)展。
發(fā)掘特色、定位特色、凝聚特色、完善特色是數(shù)據(jù)庫(kù)建設(shè)的成敗關(guān)鍵和首要前提。[1]據(jù)2009年習(xí)為妮統(tǒng)計(jì),104所211工程大學(xué)圖書館共建有600個(gè)特色數(shù)據(jù)庫(kù),這些高校圖書館主要是根據(jù)本校的學(xué)科發(fā)展特點(diǎn)和特色館藏資源,或者是圍繞學(xué)校所在地的政治、經(jīng)濟(jì)、文化等建立相應(yīng)的特色數(shù)據(jù)庫(kù)。從數(shù)字圖書館的發(fā)展情況分析,成功的數(shù)據(jù)庫(kù)有兩類,一類是資源好資金足,走大而全的路子,也就是所謂的商業(yè)型數(shù)據(jù)庫(kù)和政府主導(dǎo)型的數(shù)據(jù)庫(kù);另一種是走專精的路子,這類數(shù)據(jù)庫(kù)多屬高校圖書館。一是因?yàn)楦黟^的重點(diǎn)館藏不同,二是各高校學(xué)科重點(diǎn)不同。高校圖書館數(shù)字資源建設(shè)必須體現(xiàn)自己的學(xué)科和專業(yè)特色,如:嶺南音樂資源數(shù)據(jù)庫(kù)充分體現(xiàn)了自己的專業(yè)和地區(qū)兩大特色,它的權(quán)威性是其它綜合性數(shù)據(jù)庫(kù)無可比擬的。
人性化是指技術(shù)和人的關(guān)系協(xié)調(diào),讓技術(shù)的發(fā)展圍繞人的需求展開,真正實(shí)現(xiàn)科技以人為本的目的。人性化可以說是數(shù)據(jù)庫(kù)保持長(zhǎng)久生命力的關(guān)鍵,它的設(shè)計(jì)主要體現(xiàn)在以下三方面:(1)網(wǎng)頁界面友好,用戶參與度高,導(dǎo)航合理,檢索簡(jiǎn)單化;(2)資源內(nèi)容豐富多彩,能滿足讀者的個(gè)性化需求;(3)以全文檢索技術(shù)為核心,采用流行的B/S瀏覽器的檢索方式和先進(jìn)的C/S架構(gòu),能夠同時(shí)管理文字、圖片、多媒體等信息,支持網(wǎng)頁的動(dòng)態(tài)發(fā)布。如:嶺南音樂資源數(shù)據(jù)庫(kù)除擁有傳統(tǒng)的印刷型書刊外,還有圖片、音頻、視頻等多種載體,通過文獻(xiàn)轉(zhuǎn)換技術(shù)和當(dāng)今流行的流媒體技術(shù),把紙質(zhì)文獻(xiàn)和圖片資料轉(zhuǎn)換為數(shù)字化資源,將音像資源的不同載體,如:黑膠唱片、錄音帶、錄像帶、CD、VCD、DVD等進(jìn)行統(tǒng)一格式的音視頻轉(zhuǎn)換,并通過網(wǎng)絡(luò)平臺(tái)實(shí)現(xiàn)資源數(shù)字化服務(wù),既可回顧不同時(shí)期嶺南音樂的傳承形式和內(nèi)容,還可欣賞不同載體的音響效果和演奏風(fēng)格。
開放兼容,既是一種寬廣的胸襟、博大的情懷、開闊的視野,更是一種借力發(fā)展的理念,還是和諧協(xié)調(diào)發(fā)展的理想境界。開放兼容進(jìn)行數(shù)字資源建設(shè),能有效避免重復(fù)勞動(dòng)和資源浪費(fèi),它是數(shù)據(jù)庫(kù)持續(xù)發(fā)展的一個(gè)重要保障,數(shù)據(jù)庫(kù)的開放兼容主要包含三點(diǎn):(1)開放的資源展示手段,采用國(guó)際元數(shù)據(jù)標(biāo)準(zhǔn)、融合WEB2.0理念、支持文檔、圖片、多媒體等文件格式;(2)具備跨平臺(tái)檢索能力和OpenUrl、RSS接口,能對(duì)基于網(wǎng)絡(luò)環(huán)境的數(shù)字化資源服務(wù)系統(tǒng)進(jìn)行整合;(3)開放、共享的數(shù)字化服務(wù)和ftp接口,如:嶺南音樂資源數(shù)據(jù)庫(kù)可以接受編目軟件批量上傳的全文附件和元數(shù)據(jù),并實(shí)時(shí)對(duì)元數(shù)據(jù)經(jīng)行格式進(jìn)行轉(zhuǎn)換和入庫(kù)。
作為一個(gè)出色的數(shù)據(jù)庫(kù),安全性是基本的要求之一,在進(jìn)行系統(tǒng)設(shè)計(jì)時(shí),要對(duì)權(quán)限的設(shè)定以及數(shù)據(jù)的備份等加以充分考慮,當(dāng)出現(xiàn)網(wǎng)絡(luò)被攻擊、被破壞情況時(shí),能快速地恢復(fù)數(shù)據(jù)庫(kù)的服務(wù),減少損失。數(shù)據(jù)庫(kù)安全體系包括安全防護(hù)、安全檢測(cè)和安全恢復(fù)三方面,我們采用以下幾方面的措施確保有效監(jiān)督入侵、預(yù)防病毒、恢復(fù)數(shù)據(jù),把局部故障對(duì)系統(tǒng)的影響降到最低。首先使用國(guó)際上成熟的系統(tǒng)、中間件產(chǎn)品,并對(duì)用戶權(quán)限進(jìn)行嚴(yán)格控制;其次建立數(shù)據(jù)定期備份、敏感數(shù)據(jù)雙層加密、冗余備份、自動(dòng)檢測(cè)故障、無縫遷移的安全恢復(fù)體系;最后安裝先進(jìn)的防火墻軟件、防毒軟件和網(wǎng)管軟件。
數(shù)據(jù)庫(kù)建設(shè)有四方面的內(nèi)容是必不可少的:一是資料的收集整理;二是資源數(shù)字化加工;三是網(wǎng)絡(luò)平臺(tái)的選擇;四是硬件設(shè)施的配置。
數(shù)據(jù)庫(kù)的資料除了要求有特色,不能與其它數(shù)據(jù)庫(kù)重復(fù)或相似外,還要求資源必須完整和全面。為了方便加工,以保證資源收集全面、書目數(shù)據(jù)完整,可以把資源按載體形式分為:紙質(zhì)文獻(xiàn)資源、音視頻資源和圖片資源三部分,并對(duì)每種載體制定收集范圍和條件。
(1)紙質(zhì)文獻(xiàn):涵蓋廣府音樂、潮州音樂、客家音樂和少數(shù)民族音樂等學(xué)科內(nèi)容,包括現(xiàn)代的嶺南音樂樂譜、手稿以及從未出版過的資料,合法授權(quán)的嶺南音樂各樂種的音樂作品、名家、音樂家畫像、傳記、音樂注釋、樂譜資料、圖片、研究成果等。該資源由專業(yè)的嶺南音樂人才和嶺南音樂文獻(xiàn)人才共同收集整理,匯集自唐宋以來四大嶺南民樂體系的原生態(tài)、次生態(tài)和再生態(tài)文獻(xiàn),是嶺南音樂傳統(tǒng)文化的重要載體,也是嶺南文化元素傳承發(fā)展,開拓創(chuàng)新的重要工具。
(2)音視頻資源:由省內(nèi)、海外各時(shí)期有關(guān)嶺南音樂出版的音像資料組成,收錄來自嶺南音樂各個(gè)地區(qū)與民族的音樂、戲劇、曲藝、民歌、歌舞,包括嶺南音樂生活中的各階層,各族群體,各時(shí)期的音樂,形成一部嶺南音樂聽覺與視覺百科全書。
(3)圖片資源:由樂器圖片和名人圖片兩部分組成。其中嶺南樂器圖片包含:嶺南樂器實(shí)物圖片和樂器工藝制作、演奏特色等文字介紹;嶺南名人圖片包含:名人照片或肖像畫以及生平、藝術(shù)成就等文字介紹。
目前對(duì)數(shù)字化加工的技術(shù)要求有:轉(zhuǎn)化的速度快,準(zhǔn)確率高,數(shù)字資源貯存空間小并能夠快速通過網(wǎng)絡(luò)傳輸,既能全文檢索又能顯示原有版式,成本能夠承受。[2]下面以嶺南音樂資源數(shù)據(jù)庫(kù)為例,介紹數(shù)字化加工的有關(guān)技術(shù)指標(biāo)和加工流程。
(1)音像資料,運(yùn)用多媒體壓縮技術(shù),將不同格式的音視頻文件轉(zhuǎn)化為MPEG-4進(jìn)行海量存儲(chǔ),如本數(shù)據(jù)庫(kù)音頻占用帶寬最低8K比特每秒;視頻最低20K比特每秒;采用適合視音頻在網(wǎng)上的實(shí)時(shí)傳輸?shù)腞TSP協(xié)議,單臺(tái)流媒體服務(wù)器可支持?jǐn)?shù)百個(gè)并發(fā)流,對(duì)節(jié)目的播放、暫停、快進(jìn)、快退給予支持;系統(tǒng)具有防下載功能,有效地保護(hù)資源版權(quán),具有用戶認(rèn)證,保證高的安全性。
(2)紙質(zhì)資料,黑白文字按8位灰度掃描,光學(xué)分辨率300DPI以上;彩色頁面按24/36位全彩掃描,光學(xué)分辨率300DPI以上;掃描圖像必須與原頁面一一對(duì)應(yīng),不得出現(xiàn)缺頁、重頁或錯(cuò)頁情況;掃描的頁面內(nèi)容基本居中顯示,頁眉、頁腳信息完整;掃描留下的黑線、指印或陰影清除干凈;存檔文件按300DPI,TIFF 格式保存;應(yīng)用文件按 150DPI,JPEG格式保存。
(3)流程:包括掃描、糾偏、壓縮、識(shí)別、標(biāo)引、入庫(kù)、密級(jí)、發(fā)布等環(huán)節(jié)。(見下圖)
圖 嶺南音樂資源數(shù)據(jù)庫(kù)的管理流程
平臺(tái)的選擇首先必須適應(yīng)現(xiàn)代圖書館要求,技術(shù)理念先進(jìn)、擴(kuò)展功能完備、學(xué)科知識(shí)服務(wù)能力好;其次能對(duì)資源所蘊(yùn)涵的多重信息進(jìn)行充分的揭示和組織,并提供全文檢索服務(wù);第三能夠同時(shí)管理多種類型的信息資源,支持文本、圖片、圖像、動(dòng)畫、音頻、視頻等各種媒體的元數(shù)據(jù)標(biāo)引、內(nèi)容分類,使其成為一個(gè)全方位的學(xué)術(shù)資源庫(kù)。近年來國(guó)內(nèi)外有許多數(shù)據(jù)庫(kù)平臺(tái)設(shè)計(jì)商,如:國(guó)內(nèi)的清華同方、重慶維普、萬方、超星、方正、書生,國(guó)外的有 Blackwell、Springer、Swets、SAGE、Gale、Thomson Reuters 等公司。我們選擇了清華同方公司提供的TPI6.0數(shù)據(jù)庫(kù)平臺(tái),除了資金和技術(shù)的因素外,還考慮了方便管理和對(duì)滿足使用要求的情況,TPI具有以下幾方面的優(yōu)點(diǎn):
(1)采用XML語言作為系統(tǒng)數(shù)據(jù)格式,以保證數(shù)據(jù)的可再利用性和易二次加工性;字符編碼采用Unicode編碼規(guī)范,并支持 GB2312、GB18030,能通過CALIS特色庫(kù)子系統(tǒng)認(rèn)證;支持MARC、都柏林核心元素集DC及其他元數(shù)據(jù)之間的映射與轉(zhuǎn)換;流媒體采用MPEG4格式;支持中圖法分類、自定義分類以及對(duì)分類工作的管理。
(2)底層數(shù)據(jù)庫(kù)采用基于文檔管理的非結(jié)構(gòu)化數(shù)據(jù)庫(kù)、B/S模式和先進(jìn)的三層C/S架構(gòu);檢索協(xié)議采用Z39.50、OAI、OPENURL等數(shù)字圖書館的互操作標(biāo)準(zhǔn)。
(3)采用可視化界面,可直接從原文中提取數(shù)據(jù),操作直觀簡(jiǎn)單,支持 WORD、TXT、PDF、HTML、CAJ等格式文件的直接標(biāo)引。
軟硬件建設(shè)必須有一個(gè)整體規(guī)劃,技術(shù)和產(chǎn)品的選擇上有主線、交換機(jī)、服務(wù)器和存儲(chǔ)器在性能、接口、協(xié)議上相匹配,硬件的使用不能與實(shí)際運(yùn)用相脫節(jié),最后還必須考慮后續(xù)成本和管理成本的問題。因此在建設(shè)硬件時(shí)必須對(duì)應(yīng)用需求進(jìn)行客觀地分析,然后才能確定設(shè)備的性能指標(biāo)、體系結(jié)構(gòu)和型號(hào)數(shù)量。以嶺南音樂資源數(shù)據(jù)庫(kù)為例:
(1)從數(shù)據(jù)庫(kù)的應(yīng)用模式分析,用戶通過檢索元數(shù)據(jù)來定位對(duì)象數(shù)據(jù),檢索的過程需要服務(wù)器具備非常高的邏輯運(yùn)算能力和I/O吞吐能力,并且性能與交換機(jī)、存儲(chǔ)相適應(yīng)。考慮TPI平臺(tái)的運(yùn)算要求:P4以上服務(wù)器,內(nèi)存不少于4GB,一個(gè)空間足夠大的獨(dú)立硬盤,操作系統(tǒng)可使用對(duì)換空間100MB以上。我們選擇了IBM機(jī)架式服務(wù)器X3850 X5(處理器4*Intel Xeon6C Processor Model 1.86GHz/18MB,最大擴(kuò)展至4個(gè)處理器/內(nèi)存:32G DDR3 RDIMM/硬盤:4*300GB SAS/陣列:ServeRAID 0,1,5/網(wǎng)絡(luò):2*Giga Ethernet/Light Path),IBM 四路服務(wù)器目前CPU主頻最大2.0GHz,最大八核,考慮成本采用六核。
(2)存儲(chǔ)器用于存儲(chǔ)各類資源,當(dāng)用戶檢索到需要的對(duì)象數(shù)據(jù)時(shí),存儲(chǔ)能迅速地把資源反饋到讀者手中,存儲(chǔ)的選擇需要考慮數(shù)字資源類型、數(shù)量和所需存儲(chǔ)空間。[3]數(shù)據(jù)庫(kù)對(duì)存儲(chǔ)的基本要求:保證系統(tǒng)7天×24小時(shí)全天候服務(wù),需要3.5T以上的存儲(chǔ)空間。我們選用IBM磁盤存儲(chǔ)柜DS3500(DS3512 SAS Dual Controller(雙控制器)/4GB緩存/12*600G SAS硬盤/FC擴(kuò)展子卡/5m LC-LC光纖線纜),存儲(chǔ)分單控制器和雙控制器,從安全角度采用雙控產(chǎn)品,硬盤采用6個(gè)1TB,做RAID5及熱備后,總?cè)萘?TB,設(shè)備還有6個(gè)盤位的空間,目前支持單個(gè)最大硬盤2TB。RAID5能充分發(fā)揮多塊硬盤的優(yōu)勢(shì),還可以提供良好的容錯(cuò)能力,在任何一塊硬盤出現(xiàn)問題的情況下都可以繼續(xù)工作,不會(huì)受到任何損壞硬盤的影響。[4]
(3)操作系統(tǒng)選擇:Window server 2003以上版本,硬盤5G以上(不包括存儲(chǔ)空間)。
很多數(shù)據(jù)庫(kù)未能在各知識(shí)點(diǎn)之間建立鏈接,如:文本本身相關(guān)內(nèi)容之間、相關(guān)文本之間以及文本與有關(guān)網(wǎng)頁之間建立鏈接,這些鏈接對(duì)于推進(jìn)學(xué)科專業(yè)研究是非常重要的。如:在音像資源庫(kù)中采用知識(shí)點(diǎn)鏈接技術(shù),實(shí)現(xiàn)音樂欣賞與相關(guān)知識(shí)點(diǎn)之間的鏈接,讀者可以在輕松欣賞音樂的同時(shí)查看各種類型的樂譜,而音樂家也可以輕而易舉地比較不同時(shí)代、不同音樂流派的音樂作品。
未能在數(shù)據(jù)庫(kù)中嵌入音樂家辭典、音樂百科全書、歷史年代表、電子地圖等,嶺南音樂有自己輝煌的歷史,但展開歷史的研究不夠,研究中的歷史感不強(qiáng),如果在平臺(tái)中載入背景性知識(shí),建立相應(yīng)的知識(shí)支撐體系,提供立體的時(shí)間、空間坐標(biāo)體系和背景信息,就可以很好地解決這方面的缺陷,利用者不再需要繁瑣地另外查找資料去搞清那些細(xì)微的知識(shí)點(diǎn),而可以使用平臺(tái)提供的輔助性工具確認(rèn)。[5]
數(shù)據(jù)庫(kù)一般提供有分類檢索和學(xué)科導(dǎo)航功能,這樣的設(shè)計(jì)能夠省去利用者在查找文獻(xiàn)、文本鑒別方面所付出的勞動(dòng),啟迪新的研究思路和引導(dǎo)研究者思想的深入。如借助于現(xiàn)有的檢索技術(shù),可以實(shí)現(xiàn)文獻(xiàn)類型、指定分類、指定字段等多種字段的檢索,還可進(jìn)行基本檢索、高級(jí)檢索、聯(lián)合檢索、分類瀏覽、全文獲取等。但國(guó)內(nèi)很多數(shù)據(jù)庫(kù)的文檔資料掃描存貯格式為圖像,并不支持全文檢索功能,這一功能非常重要,對(duì)于平臺(tái)利用者具有特殊的價(jià)值,可滿足其個(gè)別的需要。
絕大多數(shù)數(shù)據(jù)庫(kù)提供有用戶的總訪問量、分類瀏覽量、數(shù)據(jù)的使用情況、用戶的IP等用戶基本信息的統(tǒng)計(jì)分析功能,通過該功能可查詢到不同IP地址、不同用戶對(duì)數(shù)據(jù)庫(kù)的使用訪問情況。但數(shù)據(jù)庫(kù)最重要的是引文分析功能,通過該功能可以分析文獻(xiàn)資源間的各種數(shù)量關(guān)系及其變化規(guī)律,研究引用與被引用之間、共被引文獻(xiàn)和同引文獻(xiàn)之間的數(shù)量關(guān)系及其規(guī)律。但國(guó)內(nèi)很多數(shù)據(jù)庫(kù)在這方面研究不足,未能通過引文分析技術(shù)給研究者提供學(xué)科的最新成果、研究熱點(diǎn)、未來的發(fā)展情況、定位重要的研究者、重要的刊物、主要的研究機(jī)構(gòu),并分析其貢獻(xiàn)和影響力。
[1]俞長(zhǎng)保.高校地域文化資源專題特色數(shù)據(jù)庫(kù)建設(shè)探討[J].圖書館學(xué)研究,2006,(12):25 -219.
[2]黎小妮.淺議高校圖書館的數(shù)字資源建設(shè)[J].圖書館論壇,2007,(3):82 -84.
[3]安 東.圖書館硬件支撐體系建設(shè)中存在的誤區(qū)與解決途徑[J].圖書館論壇,2006,(2):104 -106.
[4]易正強(qiáng),廖思周.電子圖書館及其資源建設(shè)[J].圖書館論壇,2006,(2):127 -129.
[5]徐 清,石向?qū)?,?唯.古籍?dāng)?shù)字化資源的深度開發(fā)[J].圖書情報(bào)工作,2007,(3):95 -97.