国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新疆少數(shù)民族語言資源數(shù)字化建設(shè)與檢索平臺(tái)建設(shè)研究

2014-02-12 11:08王曙光新疆維吾爾自治區(qū)圖書館技術(shù)部烏魯木齊830011
圖書館理論與實(shí)踐 2014年9期
關(guān)鍵詞:資源庫檢索少數(shù)民族

●王曙光(新疆維吾爾自治區(qū)圖書館技術(shù)部,烏魯木齊830011)

新疆少數(shù)民族語言資源數(shù)字化建設(shè)與檢索平臺(tái)建設(shè)研究

●王曙光(新疆維吾爾自治區(qū)圖書館技術(shù)部,烏魯木齊830011)

少數(shù)民族語言資源;檢索平臺(tái);數(shù)字化建設(shè);資源庫建設(shè)

新疆少數(shù)民族語言資源豐富,但數(shù)字化仍處于起步階段。文章探討了資源數(shù)字化建設(shè)過程中存在的一些問題,使用何種標(biāo)準(zhǔn)開展數(shù)字化建設(shè),同時(shí)剖析了資源檢索平臺(tái)在新疆維吾爾自治區(qū)圖書館實(shí)踐的基礎(chǔ)、主要建設(shè)內(nèi)容、功能構(gòu)成以及關(guān)鍵技術(shù),以切實(shí)保障檢索平臺(tái)成功實(shí)施。

1 新疆少數(shù)民族語言資源數(shù)字化建設(shè)現(xiàn)狀分析

在文獻(xiàn)資源數(shù)字化建設(shè)中,少數(shù)民族語言數(shù)字化資源數(shù)量相對(duì)匱乏,仍是一片藍(lán)海。雖然標(biāo)準(zhǔn)和技術(shù)方面已不存在問題,但在少數(shù)民族語言的錄入、顯示、檢索、非圖片索引、拷貝、版權(quán)以及平臺(tái)對(duì)接等方面存在一定的障礙,這種情況在新疆尤為普遍。

其一,為解決好文字編碼問題,教育部、國家語委早在2004年11月發(fā)布了《民族語言文字規(guī)范標(biāo)準(zhǔn)建設(shè)與信息化課題指南》,[1]對(duì)民族語言文字術(shù)語數(shù)據(jù)庫、語料庫、知識(shí)庫等資源庫建設(shè)給予了重點(diǎn)資助。如今,我國民族文字編碼標(biāo)準(zhǔn)已基本成型,為各民族語言的信息化處理提供了基礎(chǔ)。

其二,經(jīng)調(diào)研發(fā)現(xiàn),新疆少數(shù)民族文字軟件處理系統(tǒng)主要包括維文、哈文、柯文排版系統(tǒng),錫伯文、滿文文字處理和印刷系統(tǒng),阿拉伯文及多文種排版系統(tǒng)以及多語種版本的Windows操作系統(tǒng),這些軟件已廣泛應(yīng)用于出版業(yè),但在電子資源領(lǐng)域仍未涉及。

其三,國內(nèi)外已研發(fā)出圖書館數(shù)字檢索資源平臺(tái),但大多針對(duì)大語種的使用,少數(shù)民族語言類的資源庫則是鳳毛麟角,極為少見。這是因?yàn)橘Y源的數(shù)字化需要投入大量人力與物力,而少數(shù)民族語言文字電子資源應(yīng)用范圍較小,且缺乏統(tǒng)一的加工標(biāo)注規(guī)范,至今未形成一個(gè)統(tǒng)一的電子資源檢索加工與發(fā)布的平臺(tái)。[2,3]

因此,加強(qiáng)少數(shù)民族語言資源數(shù)字化建設(shè)與檢索平臺(tái)建設(shè),對(duì)于提高少數(shù)民族語言資源共享與處理技術(shù),保護(hù)優(yōu)秀而珍貴的少數(shù)民族語言資源,實(shí)現(xiàn)信息資源的文化傳承,具有現(xiàn)實(shí)意義。國家非常重視這方面的研究與建設(shè)工作,2011年,新疆維吾爾自治區(qū)圖書館成功申報(bào)了文化部文化科技提升計(jì)劃中的少數(shù)民族語言數(shù)字資源建設(shè)與檢索平臺(tái)[4]項(xiàng)目。希望通過該項(xiàng)目研究,填補(bǔ)圖書館界這一空白,使優(yōu)秀的少數(shù)民族語言資源得到弘揚(yáng),維護(hù)民族精神,推動(dòng)新疆各民族的進(jìn)步,構(gòu)建和諧社會(huì)。

2 新疆少數(shù)民族語言資源數(shù)字化建設(shè)與標(biāo)準(zhǔn)化建設(shè)

2.1 資源數(shù)字化建設(shè)

文獻(xiàn)資源的數(shù)字化建設(shè)是少數(shù)民族語言資源數(shù)據(jù)庫建設(shè)的重要內(nèi)容,具體包括資源的選題、調(diào)查與征集、加工與譯制、審核與發(fā)布等。在數(shù)字化過程中要始終貫徹“藏以致用”和標(biāo)準(zhǔn)化的原則,即以“用”為出發(fā)點(diǎn)、以標(biāo)準(zhǔn)為準(zhǔn)繩來建設(shè)少數(shù)民族語言資源庫。

在館藏資源數(shù)字化建設(shè)中,需要嚴(yán)格遵守我國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范之?dāng)?shù)字資源加工標(biāo)準(zhǔn),對(duì)圖書、報(bào)刊、圖片、膠片、錄像帶、錄音帶等進(jìn)行加工。對(duì)不同載體形式存貯的民族文獻(xiàn)信息進(jìn)行數(shù)字化,需要采用不同的數(shù)字轉(zhuǎn)化方式。可以通過掃描將紙質(zhì)文獻(xiàn)以圖像形式存放,并借助OCR識(shí)別系統(tǒng)對(duì)圖像進(jìn)行處理,諸如版面分析、縱橫校對(duì)、版面還原,再把圖像還原成文字,然后再進(jìn)行編輯、排版、標(biāo)引等深加工,以保持少數(shù)民族文獻(xiàn)的原貌風(fēng)格,真實(shí)反映出新疆地方文獻(xiàn)的民族特色。另外,在標(biāo)引數(shù)據(jù)制作過程中,需要嚴(yán)格按照國家有關(guān)文獻(xiàn)著錄和標(biāo)引原則,確立統(tǒng)一的著錄標(biāo)準(zhǔn)、標(biāo)引方式。

2.2 數(shù)字資源標(biāo)準(zhǔn)化建設(shè)

標(biāo)準(zhǔn)規(guī)范是數(shù)字資源庫建設(shè)的基石,少數(shù)民族語言數(shù)字資源庫建設(shè)首先要建立統(tǒng)一的標(biāo)準(zhǔn)規(guī)范。多年來,我國由于數(shù)字資源庫建設(shè)標(biāo)準(zhǔn)不統(tǒng)一,再加上傳統(tǒng)的條塊管理體制,數(shù)據(jù)資源很難形成有效的流通和共享,建成后的數(shù)字資源庫大多處在分散管理、封閉使用狀態(tài),有悖于新疆少數(shù)民族語言數(shù)字資源庫建設(shè)的初衷,也不利于新疆少數(shù)民族語言數(shù)字資源檢索平臺(tái)建設(shè)。

在數(shù)字資源建設(shè)的標(biāo)準(zhǔn)規(guī)范方面,新疆少數(shù)民族語言數(shù)字資源庫建設(shè)平臺(tái)選用了目前國內(nèi)外主流的建設(shè)標(biāo)準(zhǔn),主要體現(xiàn)在字符編碼、對(duì)象標(biāo)識(shí)、數(shù)據(jù)格式、元數(shù)據(jù)、檢索服務(wù)、長(zhǎng)期保存等方面。

目前,新疆少數(shù)民族文字出版物大多以維、哈、柯等語種為主,這些語種字符在Unicode 4.0版本中都分配有相應(yīng)的Unicode編碼,它們是計(jì)算機(jī)處理少數(shù)民族文字信息的前提,也為新疆少數(shù)民族語言數(shù)字資源庫建設(shè)奠定了基礎(chǔ)。

3 新疆少數(shù)民族語言數(shù)字資源檢索平臺(tái)建設(shè)實(shí)踐

3.1 實(shí)踐基礎(chǔ)

新疆少數(shù)民族語言數(shù)字資源檢索平臺(tái)是在新疆維吾爾自治區(qū)圖書館豐富的少數(shù)民族館藏資源的基礎(chǔ)上搭建起來的多語種電子資源加工和發(fā)布的管理平臺(tái)。自治區(qū)圖書館現(xiàn)有藏書184萬冊(cè)(件),形成了以少數(shù)民族文獻(xiàn)及新疆地方文獻(xiàn)為特色的藏書體系,特別是少數(shù)民族文獻(xiàn)中包含有維吾爾文(老文字、新文字)、哈薩克文、柯爾克孜文、蒙古文、斯拉夫文等,都是新疆維吾爾自治區(qū)圖書館珍貴館藏。自治區(qū)圖書館以此為基礎(chǔ),建設(shè)了《新疆農(nóng)牧區(qū)實(shí)用技術(shù)資源庫》(維語)、《新農(nóng)村社會(huì)主義文明建設(shè)資源庫》(維語)、《新疆影視資源庫》(維哈語)、《新疆舞臺(tái)藝術(shù)資源庫》、《新疆非物質(zhì)文化遺產(chǎn)資源庫》、《新疆少數(shù)民族少兒“雙語”及基礎(chǔ)教育資源庫》(維漢雙語)、《新疆風(fēng)光資源庫》、《新疆紅色資源庫》等多個(gè)資源庫。自治區(qū)圖書館擬通過少數(shù)民族語言數(shù)字資源檢索平臺(tái)建設(shè),實(shí)現(xiàn)新疆少數(shù)民族語言文獻(xiàn)的加工、錄入、存儲(chǔ)、檢索、管理、發(fā)布與查看等功能。

3.2 主要建設(shè)內(nèi)容

新疆少數(shù)民族語言數(shù)字資源檢索平臺(tái)主要建設(shè)內(nèi)容包括:(1)開放的跨平臺(tái)資源加工管理系統(tǒng);(2)資源的在線全文檢索和閱覽系統(tǒng);(3)至少三種或以上(包括中文、維文、哈文)的文字錄入系統(tǒng)。

通過該平臺(tái),可以在Ⅰnternet網(wǎng)絡(luò)或城域網(wǎng)絡(luò)上將少數(shù)民族語言文字電子化、數(shù)字化、網(wǎng)絡(luò)化,形成一個(gè)立體信息空間,提供民文文獻(xiàn)的錄入、存儲(chǔ)、檢索和查看等功能,提高圖書館資源、人才、財(cái)力、技術(shù)和服務(wù)優(yōu)勢(shì),增強(qiáng)圖書館資源管理的水平和效率以及信息傳遞能力,改善當(dāng)前少數(shù)民族文獻(xiàn)數(shù)據(jù)庫稀缺的現(xiàn)狀,為圖書館儲(chǔ)備和保存多語種文獻(xiàn),并滿足不同讀者的需求。

3.3 平臺(tái)功能構(gòu)成

新疆少數(shù)民族語言數(shù)字資源檢索平臺(tái)采用JAⅤA技術(shù)進(jìn)行開發(fā)設(shè)計(jì),符合J2EE標(biāo)準(zhǔn)體系要求,具有高可移植性和可跨平臺(tái)性。這是因?yàn)镴2EE平臺(tái)提供了多層的分布式的應(yīng)用模型、組件再用、一致化的安全模型以及靈活的事務(wù)控制,不會(huì)被束縛在任何一個(gè)廠商的產(chǎn)品和APⅠ上,利用成熟的中間件技術(shù)可方便靈活地配置Web應(yīng)用服務(wù)器。圖書館無需采購高性能服務(wù)器,無需安裝專用系統(tǒng)軟件,無需專業(yè)的計(jì)算機(jī)維護(hù)人員,大大降低投入成本,為平臺(tái)大面積推廣應(yīng)用提供了可行條件。

平臺(tái)采用B/S架構(gòu),可以運(yùn)行在業(yè)界任何主流操作系統(tǒng)平臺(tái)上。圖書館通過瀏覽器模式,利用該平臺(tái)就可以實(shí)現(xiàn)少數(shù)民族文獻(xiàn)資源在線檢索和閱覽、資源采集加工以及少數(shù)民族文字錄入等工作。平臺(tái)在搭建過程中注重各種格式、多文種文獻(xiàn)資源檢索與閱覽。全部采用圖片格式和國際化編碼標(biāo)準(zhǔn),從而保證數(shù)字資源多種操作系統(tǒng)下的正確顯示。

平臺(tái)采用多層體系結(jié)構(gòu)的模式設(shè)計(jì),實(shí)現(xiàn)了網(wǎng)絡(luò)層、數(shù)據(jù)層、應(yīng)用層面的互聯(lián)互通和資源共享,并在此基礎(chǔ)上可對(duì)海量且種類繁多的信息資源進(jìn)行科學(xué)地收集、篩選、分類、存儲(chǔ)、檢索、及時(shí)更新和有效利用,真正發(fā)揮電子化、網(wǎng)絡(luò)化優(yōu)勢(shì),最大程度地提高信息資源的利用率。

由于少數(shù)民族文字具有一定的特殊性,例如,維文與中英文的閱讀和書寫方向不一致。因此,少數(shù)民族語種文獻(xiàn)的錄入、檢索和顯示就成為平臺(tái)需要解決的重點(diǎn)與難點(diǎn)問題。平臺(tái)底層支持Unicode(國際統(tǒng)一字符編碼),可以全面解決多語種錄入問題,允許多語種混排、檢索。

3.4 所采用關(guān)鍵技術(shù)

為實(shí)現(xiàn)上述功能,新疆少數(shù)民族語言數(shù)字資源檢索平臺(tái)在建設(shè)過程中主要采用了下述關(guān)鍵技術(shù)。

(1)模型-視圖-控制(MⅤC:Model-Ⅴiew-Controller)。MⅤC是一種交互界面的結(jié)構(gòu)組織模型,可以分離數(shù)據(jù)訪問和數(shù)據(jù)表現(xiàn)。采用該技術(shù)可保持交互操作界面相對(duì)穩(wěn)定,并能根據(jù)需要改變和調(diào)整顯示內(nèi)容和形式。

(2)三層體系結(jié)構(gòu)。平臺(tái)設(shè)計(jì)了數(shù)據(jù)庫核心層、邏輯業(yè)務(wù)層、Web用戶界面層,三層體系結(jié)構(gòu)極大地提高了平臺(tái)的伸縮性和安全性。

(3)負(fù)載均衡。頻繁的檢索與閱覽將消耗較多的服務(wù)器資源,負(fù)載均衡將根據(jù)負(fù)載情況自動(dòng)調(diào)整Web服務(wù)器負(fù)擔(dān),當(dāng)構(gòu)建多臺(tái)Web服務(wù)器作為應(yīng)用服務(wù)器時(shí),如其中一臺(tái)機(jī)器負(fù)載過重則會(huì)自動(dòng)把相應(yīng)的請(qǐng)求轉(zhuǎn)發(fā)到其他機(jī)器上去。

(4)B/S體系架構(gòu)。平臺(tái)采用XML、XSLT技術(shù),具有良好的可伸縮性,適合以網(wǎng)絡(luò)為中心的計(jì)算模式和Ⅰnternet應(yīng)用,用戶只需要瀏覽器連通網(wǎng)絡(luò)就可以登錄平臺(tái)開展工作。

(5)Java設(shè)計(jì)與開發(fā)。平臺(tái)采用Java設(shè)計(jì),可以運(yùn)行于PC機(jī)到小型機(jī)等多硬件平臺(tái),同時(shí)支持跨操作系統(tǒng)平臺(tái),包括Windows家族、Linux和各種主流的UNⅠX操作系統(tǒng)。

(6)標(biāo)準(zhǔn)的APⅠ接口。平臺(tái)采用開放的設(shè)計(jì)思想,提供標(biāo)準(zhǔn)的APⅠ接口,方便用戶二次開發(fā)。

(7)Unicode(國際統(tǒng)一字符編碼)。平臺(tái)最底層支持Unicode,全面解決多語種錄入問題,允許多語種混排、檢索。

[1]關(guān)于印發(fā)《民族語言文字規(guī)范標(biāo)準(zhǔn)建設(shè)與信息化課題指南》的通知[EB/OL].[2014-01-09].http: //www.moe.gov.cn/publicfiles/business/htmlfiles/moe/s235/ 200412/3902.html.

[2]紀(jì)照霞,繆建梅.論新疆民族地方文獻(xiàn)的開發(fā)和利用[J].邊疆經(jīng)濟(jì)與文化,2011(2):59-60.

[3]張次第.少數(shù)民族文獻(xiàn)資源建設(shè)研究[J].中國圖書館學(xué)報(bào),2011(5):115-119.

[4]自治區(qū)圖書館召開“國家文化科技提升計(jì)劃項(xiàng)目——少數(shù)民族語言數(shù)字資源建設(shè)與檢索平臺(tái)”開題報(bào)告會(huì)[EB/OL].[2014-01-11].http://www. xjlib.org/44ebc19e-760b-48f9-83b4-44eb6e134e851. htm l.

G250.74;G253

B

1005-8214(2014)09-0097-02

王曙光(1970-),女,副研究館員,新疆維吾爾自治區(qū)圖書館技術(shù)部主任,發(fā)文10余篇,合編出版著作2部。

2014-02-11[責(zé)任編輯]王崗

猜你喜歡
資源庫檢索少數(shù)民族
幼兒園課程資源庫建設(shè)之淺見
健身氣功開放課程資源庫建設(shè)研究
瑞典專利數(shù)據(jù)庫的檢索技巧
一種基于Python的音樂檢索方法的研究
我認(rèn)識(shí)的少數(shù)民族
數(shù)控加工專業(yè)資源庫建設(shè)中存在問題及對(duì)策
基于共享資源庫的混合式教學(xué)考核模式研究
專利檢索中“語義”的表現(xiàn)
少數(shù)民族治療感冒的蕨類植物(一)
少數(shù)民族治療感冒的蕨類植物(二)