于志敏
(新疆維吾爾自治區(qū)圖書館 新疆烏魯木齊 830011)
探討民文版圖書館自動(dòng)化軟件本地化的支持
于志敏
(新疆維吾爾自治區(qū)圖書館 新疆烏魯木齊 830011)
Interlib系統(tǒng)采用的是基于Unicode4.0字符編碼標(biāo)準(zhǔn),實(shí)現(xiàn)了Windows平臺(tái)下的網(wǎng)絡(luò)環(huán)境中少數(shù)民族文字的顯示技術(shù)、多編碼轉(zhuǎn)換技術(shù)和民文文字存儲(chǔ)技術(shù),并在此基礎(chǔ)上實(shí)現(xiàn)并促進(jìn)少數(shù)民族文字信息處理的標(biāo)準(zhǔn)化。本文主要闡述了新疆維吾爾自治區(qū)圖書館所選用的圖書館自動(dòng)化軟件Interlib系統(tǒng)在處理少數(shù)民族文字獲得本地化支持方面所做具體工作。
Unicode;ISO10646;國(guó)際編碼標(biāo)準(zhǔn);Interlib系統(tǒng);少數(shù)民族文字
隨著計(jì)算機(jī)軟硬件技術(shù)和Internet技術(shù)的迅速發(fā)展,計(jì)算機(jī)已深入到了人類社會(huì)的每一角落。新疆是個(gè)少數(shù)民族聚居的地區(qū),居住著維吾爾族、哈薩克族、柯爾克孜族等擁有傳統(tǒng)的語言和文字少數(shù)民族,伴隨經(jīng)濟(jì)全球化進(jìn)程不斷加快和國(guó)內(nèi)改革發(fā)展進(jìn)程的日益推進(jìn),少數(shù)民族語言文字工作面臨著新的形勢(shì):少數(shù)民族語言文字應(yīng)用領(lǐng)域有所擴(kuò)展,在社會(huì)各個(gè)領(lǐng)域都有使用少數(shù)民族語言文字的要求,同時(shí)信息技術(shù)、互聯(lián)網(wǎng)等現(xiàn)代通信技術(shù)的發(fā)展,為少數(shù)民族語言文字的使用帶來了機(jī)遇和挑戰(zhàn)。網(wǎng)絡(luò)環(huán)境下的多文種信息處理平臺(tái)的開發(fā)研究有助于少數(shù)民族語言信息計(jì)算機(jī)處理的推廣應(yīng)用。
圖書館是公共文化服務(wù)體系的重要組成部分,承擔(dān)著傳承人類文明、傳播知識(shí)信息的職責(zé)。作為文化服務(wù)機(jī)構(gòu)的社會(huì)存在,既是經(jīng)濟(jì)建設(shè)和科研服務(wù)的機(jī)構(gòu),又是廣泛進(jìn)行社會(huì)教育的機(jī)構(gòu),被人們稱為沒有圍墻的大學(xué),是社會(huì)教育的學(xué)校,終身性教育的場(chǎng)所,人類的知識(shí)寶庫。在新疆這個(gè)多民族地區(qū),圖書館作為文化服務(wù)機(jī)構(gòu)如何處理多語言文字,如何實(shí)現(xiàn)民文文獻(xiàn)資源的數(shù)字化管理、多民族語言的媒體傳播方式,實(shí)現(xiàn)少數(shù)民族文字信息在Internet環(huán)境中資源的最大共享,是目前圖書館界面臨的一大難題。本文以維文字符編碼為例,著重論述了圖書館自動(dòng)化系統(tǒng)軟件對(duì)少數(shù)民族文字(以下簡(jiǎn)稱民文)的本地化支持。
經(jīng)過80年的建設(shè)與累積,新疆維吾爾自治區(qū)圖書館的藏書建設(shè)有了較快的發(fā)展,截至2009年底,館藏文獻(xiàn)達(dá)到150萬冊(cè),其中包括漢、維吾爾、哈薩克、蒙古、克爾克孜、烏孜別克等多語種書籍。目前已形成了以新疆少數(shù)民族文獻(xiàn)和新疆地方文獻(xiàn)為特色,紙本文獻(xiàn)與數(shù)字資源并存的藏書體系,有力地保障了我區(qū)政治、經(jīng)濟(jì)發(fā)展信息文獻(xiàn)的需求。但在民文館藏的計(jì)算機(jī)信息化建設(shè)中少數(shù)民族文字圖書、報(bào)刊的采編、加工存在著技術(shù)上的難點(diǎn)。
在新疆維吾爾自治區(qū)居住著眾多歷史悠久的少數(shù)民族,圖書館自動(dòng)化軟件對(duì)少數(shù)民族文獻(xiàn)信息處理范圍廣、內(nèi)容多,少數(shù)民族語言文字主要有維吾爾、哈薩克、柯爾克孜(以下簡(jiǎn)稱維、哈、柯文)等,這些文字字符的標(biāo)準(zhǔn)編碼已進(jìn)入到Unicode中,國(guó)際Unicode協(xié)會(huì)于2003年8月27日發(fā)布的Unicode 4.0版本為所有維、哈、柯文字符都分配相應(yīng)的Unicode編碼,這也是計(jì)算機(jī)處理少數(shù)民族文字信息的基礎(chǔ)。由于少數(shù)民族文字具有一定的特殊性,因此這些語種的文獻(xiàn)在圖書館自動(dòng)化軟件中著錄、檢索和顯示仍需經(jīng)過處理才能正確清楚的呈現(xiàn)出來。
以維吾爾文為例,它與漢文、英文不同在呈現(xiàn)形式上,最主要的區(qū)別在于文字的書寫習(xí)慣,漢字和西文的文字書寫方向是從左到右,靠左對(duì)齊,而民文文字的書寫方向則是從右向左,靠右對(duì)齊;其次,民文文字大概有120多個(gè)字符形式,任何一個(gè)字母在單詞中的位置不同會(huì)有4種變形,為文字的處理帶來了較大的困難,所以在選擇圖書館自動(dòng)化軟件系統(tǒng)時(shí)要求系統(tǒng)能夠支持民文處理,支持不同編碼字符集的能力?;谝陨弦蛩匚茵^選擇了由廣州圖創(chuàng)計(jì)算機(jī)軟件公司開發(fā)的Interlib第三代圖書館集群化管理系統(tǒng)(以下簡(jiǎn)稱Interlib系統(tǒng)),該系統(tǒng)采用的是基于Unicode4.0字符編碼標(biāo)準(zhǔn),通過借助于Unicode編碼方案來實(shí)現(xiàn)Windows平臺(tái)下的網(wǎng)絡(luò)環(huán)境中少數(shù)民族文字的顯示技術(shù)、多編碼轉(zhuǎn)換技術(shù)和民文文字存儲(chǔ)技術(shù),并在此基礎(chǔ)上促進(jìn)少數(shù)民族文字信息處理的標(biāo)準(zhǔn)化。
新疆維吾爾自治區(qū)圖書館肩負(fù)著促進(jìn)全區(qū)圖書館信息技術(shù)的應(yīng)用與推廣的重任,要實(shí)現(xiàn)圖書館自動(dòng)化軟件對(duì)新疆地區(qū)的支持,我們的首要任務(wù)就是解決自動(dòng)化軟件中民文的顯示與輸入的問題。
3.1 安裝民文字體。Interlib系統(tǒng)首先要求PC機(jī)操作系統(tǒng)支持民文輸入法。我館的計(jì)算機(jī)預(yù)裝的是維文字體是ALKATIP字體,在軟件的運(yùn)行測(cè)試中發(fā)現(xiàn)該字體并不能完全解決民文字體顯示的問題,我們發(fā)現(xiàn)在UKIJ Tuz Tom這個(gè)支持最新的標(biāo)準(zhǔn)Unicode字庫下,需將UKIJ Tuz Tom字體復(fù)制到工作機(jī)操作系統(tǒng)中的C:WindowsFonts目錄下,系統(tǒng)方能自動(dòng)提示安裝該字體。該字體安裝完成后,需要測(cè)試常見的民文輸入法可以在word文檔中正確輸入民文。
3.2 Interlib軟件對(duì)民文字體的支持。目前很多圖書館管理軟件平臺(tái)中都不能完全支持民文編目,經(jīng)常會(huì)出現(xiàn)不兼容和亂碼的現(xiàn)象,Interlib系統(tǒng)是基于B/S架構(gòu)的第三代圖書館自動(dòng)化軟件,采用Unicode編碼,支持多語種的使用,但要適應(yīng)少數(shù)民族語言及其閱讀習(xí)慣方面需要對(duì)相應(yīng)的文字處理模塊進(jìn)行修改。我館在民文文字處理的實(shí)踐中曾經(jīng)遇到這樣問題,編輯書目時(shí)維文的錄入不正確。
如:XXXX 200 1 $a<維文1990-維文>維文。
這其中存在一個(gè)非常有沖突的問題,首先如果按常規(guī)的做漢文書目的方法去錄入維文書目,將會(huì)默認(rèn)為從左到右的書寫和閱讀順序,與維文的書寫和閱讀習(xí)慣恰好相反,加之民文顯示字形的種類較多,于是出現(xiàn)了凡是帶標(biāo)點(diǎn)的維文字符從左到右錄入時(shí)都會(huì)因?yàn)闀鴮懞烷喿x習(xí)慣順序的問題而顯示不正確,但是保存到Interlib系統(tǒng)時(shí)卻是完全無誤的,如果按正常的規(guī)范錄入,在系統(tǒng)中出現(xiàn)的效果就會(huì)如下:
XXXX2001$a文<維文<維文-1990維。
因此,如果要讓維文文字顯示正確,就一定要將文字錄入和閱讀一并修改為從右到左的順序,但如果只是單純的將維文字的書寫閱讀順序改成從右到左,又會(huì)出現(xiàn)另外一個(gè)問題就是不能夠左對(duì)齊,維文不會(huì)靠左邊開始錄入。經(jīng)過反復(fù)的測(cè)試,最終檢查發(fā)現(xiàn),用維文錄入書目之所以不能夠正確顯示,確實(shí)與維文的書寫方式有直接關(guān)系,由于維文的書寫閱讀是從右到左的特殊順序,并且字符和字符之間存在著不同的連接關(guān)系,每當(dāng)有符號(hào)出現(xiàn)時(shí),維文的字符就會(huì)出現(xiàn)倒序顯示等錯(cuò)誤。這里我們需要在interlib系統(tǒng)中著重解決這兩個(gè)問題:
1.編目界面中民文字符的正確輸入;
2.查詢界面的對(duì)齊和字符顯示問題。
3.2.1 修改編目。
編目工作主要是對(duì)文獻(xiàn)資源進(jìn)行分類,編制目錄,建立館藏目錄體系,是圖書館最重要的工作環(huán)節(jié)之一,解決維文編目中的文字錄入也是圖書館開展采編工作基礎(chǔ)。Interlib圖書館管理系統(tǒng)采用的是B/S架構(gòu),web方式,用戶的每個(gè)操作頁面都有對(duì)應(yīng)的樣式,例如常見的文本輸入框即編目中用到的文本框,如果要增加文本框?qū)γ裎淖煮w的支持,則需要修改程序中對(duì)應(yīng)的文本輸入框的樣式文件,這樣編目時(shí)才能正確的使用我們已安裝的民文字體,所以在interlib系統(tǒng)里我們將編目頁面對(duì)應(yīng)的樣式文件(CSS)修改如下:
TEXTAREA {
FONT-SIZE:12px;
font-family:UKIJ Tuz Tom;
}
.textarea_marc{
FONT-SIZE:12px;
font-family:UKIJ Tuz Tom;
}
INPUT {
font-family:UKIJ Tuz Tom;
FONT-SIZE: 12px
}
對(duì)比一下沒有修改編目頁面的css樣式,在200$a字段錄入民文bhz會(huì)出現(xiàn)的顯示狀況如下圖:
上圖中200$a字段是在民文輸入法下輸入的是bhz,可以看出這里所顯示的維文字符不連續(xù),這樣保存后查詢時(shí)顯示出來的為無法識(shí)別的單詞。
如果我們正確安裝了民文字體并修改了編目頁面的css樣式后,在200$a字段錄入民文bhz后出現(xiàn)的顯示狀況如下圖:(可以將上下兩圖的200$a進(jìn)行對(duì)比,下圖中所示為正確的維文字體)。
上圖中200$a字段是在程序修改后輸入的bhz,可以看出這里所顯示的是連貫的維文字符。解決維文文字錄入這個(gè)難題,是我館業(yè)務(wù)自動(dòng)化中的一大進(jìn)步,帶動(dòng)新疆全地區(qū)圖書館發(fā)展的同時(shí)可以充分的利用和發(fā)揮維文書籍的價(jià)值。
3.2.2 修改查詢界面。
查詢界面是圖書館采編人員的工作入口,無論是圖書的驗(yàn)收還是編目我們都要在查詢界面對(duì)書目數(shù)據(jù)進(jìn)行查重處理,因此民文數(shù)據(jù)在查詢界面的正確顯示十分重要。這里我們對(duì)代碼做如下處理:
首先處理查詢界面中民文的對(duì)齊方式,在上述代碼中,
這里增加代碼的作用是使查詢出來的每一行marc都適應(yīng)民文字體,也確保了對(duì)應(yīng)的民文字體的連續(xù)性。
利用維文文字處理的經(jīng)驗(yàn)做技術(shù)支撐,我館還解決了哈文、柯文的錄入和顯示問題,同時(shí)也實(shí)現(xiàn)了讀者檢索入口——opac圖書借閱查詢中的民文顯示,為少數(shù)民族讀者在圖書館的借閱查詢以及使用帶來了便利,深受讀者好評(píng),提高了民文書籍的利用率。
新疆地區(qū)具有特殊的地域文化和多民族語言文字特點(diǎn),少數(shù)民族語言文字的資源建設(shè)是新疆文化共享工程的重點(diǎn)。在我們解決民文的技術(shù)難題的同時(shí),將軟件平臺(tái)安裝到的區(qū)內(nèi)文化共享工程縣級(jí)支中心,為縣(市)館的技術(shù)骨干做業(yè)務(wù)管理平臺(tái)的培訓(xùn),使他們了解Interlib系統(tǒng)的各模塊功能,掌握民文文獻(xiàn)編目的技能,并具備了一定的系統(tǒng)維護(hù)能力,以推進(jìn)新疆文化共享工程建設(shè),更好地發(fā)揮和利用縣(市)級(jí)支中心作用,為廣大讀者特別是少數(shù)民族同胞提供多元化的信息服務(wù),使民文文獻(xiàn)充分發(fā)揮自身的價(jià)值。經(jīng)過這兩年的建設(shè)目前自治區(qū)分中心的數(shù)字化資源加工能力和服務(wù)工作已初具規(guī)模,分中心在軟件平臺(tái)建設(shè)、應(yīng)用推廣服務(wù)和運(yùn)營(yíng)維護(hù)等方面的工作已取得一定的成效。
上面主要闡述了圖書館自動(dòng)化軟件如何在新疆地區(qū)實(shí)現(xiàn)對(duì)民文的支持,Interlib系統(tǒng)完整解決了新疆少數(shù)民族文字的錄入、存儲(chǔ)、查詢顯示等工作,意味著圖書館作為文化服務(wù)機(jī)構(gòu)可以為全疆人民提供了更全面的、更優(yōu)質(zhì)的、更適合各民族文化習(xí)慣的社會(huì)文化服務(wù),同時(shí)也提高了少數(shù)民族地區(qū)的信息化水平。當(dāng)然Interlib圖書館管理軟件仍需升級(jí)完善,只有在不斷探討、實(shí)踐當(dāng)中積累經(jīng)驗(yàn),方能為以后更多更好的開展文化服務(wù)工作做鋪墊。
[1]馬莉,馬寧,王燕鳳.淺談民文版軟件的國(guó)際化與本地化[J].
[2]哈力旦.計(jì)算機(jī)民文信息系統(tǒng)處理技術(shù)[J].
Version of the public support of library automation software localization
Interlib system uses a character encoding standard based on Unicode4.0 achieve the Windows platform network environment ethnic minority languages of display technology, multi-encoding text text conversion technology, and public storage technology, and on this basis to achieve and promote standardization of information processing minority languages. This article focuses on the Xinjiang Uygur Autonomous Region Library library automation software used in dealing with minority languages Interlib system to obtain local support specific work done.
Unicode; ISO10646; international coding standard; system of minority languages Interlib
于志敏,新疆維吾爾自治區(qū)圖書館工作人員。
2010-11-08