江 嘎
我國的56個民族中,除漢文外,還有21個民族擁有自己的文字。
從80年代以來,在國家民委、國家技術(shù)監(jiān)督局、國家科委、電子工業(yè)部等有關(guān)部門的關(guān)心支持和幫助下,集結(jié)起各方面的力量協(xié)同攻關(guān),使民族文字的信息處理工作取得了很大的進(jìn)展。
70年代起,在周恩來總理的關(guān)懷下,由當(dāng)時的四機(jī)部、中國科學(xué)院、國家出版局等部門發(fā)起的“漢字信息處理技術(shù)工程”,被列入了國家科研規(guī)劃,從此開始了出版印刷事業(yè)告別鉛與火的攻堅階段。1984年5月,由北京大學(xué)、濰坊計算機(jī)廠等單位研制的我國第一代實用計算機(jī)——激光編輯排版系統(tǒng)華光2型,通過國家鑒定,并投入使用。后來,這個系統(tǒng)又不斷改進(jìn)升級。
與此同時,國家對少數(shù)民族文字處理系統(tǒng)的開發(fā)也給予了極大的關(guān)注。在第七個五年計劃期間,由中國計算機(jī)軟件與技術(shù)服務(wù)總公司會同新疆、內(nèi)蒙古等地的民族語文專家和計算機(jī)專家以及民族印刷廠、北京大學(xué)計算機(jī)研究所等單位,聯(lián)合承擔(dān)了“少數(shù)民族文字處理技術(shù)開發(fā)”項目,并于90年代初,先后陸續(xù)推出了蒙古、藏、維吾爾、哈薩克、朝鮮、彝、壯以及柯爾克孜、錫伯等少數(shù)民族文字的字處理系統(tǒng),新疆、青海、甘肅、西藏、四川、吉林延邊等地的專家學(xué)者也在國家的扶持下,開發(fā)了多種民族文字的字處理技術(shù),在前面提到的各類系統(tǒng)的基礎(chǔ)上推出了一系列少數(shù)民族文字的應(yīng)用系統(tǒng)。迄今為止,已開發(fā)完成的主要項目有:
1.標(biāo)準(zhǔn)
開發(fā)系統(tǒng)離不開編碼字符集標(biāo)準(zhǔn)、鍵盤標(biāo)準(zhǔn)、字模標(biāo)準(zhǔn)。內(nèi)蒙古自治區(qū)計算中心完成了蒙古文字符集國家標(biāo)準(zhǔn)、蒙古文鍵盤國家標(biāo)準(zhǔn)、蒙古文字模國家標(biāo)準(zhǔn);新疆維吾爾自治區(qū)語委主持完成了維吾爾、哈薩克、柯爾克孜文的字符、鍵盤、字模的國家標(biāo)準(zhǔn);四川省民語委辦公室主持完成了彝文字符集、鍵盤、字模的國家標(biāo)準(zhǔn);西藏自治區(qū)藏語文工作委員會辦公室牽頭,西藏大學(xué)、西藏技術(shù)監(jiān)督局、西北民族學(xué)院、青海師范大學(xué)共同完成了藏文編碼字符集、藏文鍵盤、藏文字模國家標(biāo)準(zhǔn)。值得一提的是,1997年,我國提交的藏文編碼字符集國際標(biāo)準(zhǔn)正式進(jìn)入了國際標(biāo)準(zhǔn)化組織(ISO)制定的統(tǒng)一編碼的國際標(biāo)準(zhǔn),即ISO/IEC 10646這一先進(jìn)的標(biāo)準(zhǔn)編碼體系結(jié)構(gòu)中,成了第一個進(jìn)入該標(biāo)準(zhǔn)基本平面的少數(shù)民族文字,為藏文字符編碼的統(tǒng)一作出了貢獻(xiàn)。1999年我國內(nèi)蒙古自治區(qū)有關(guān)單位和蒙古共和國有關(guān)部門共同制定了蒙古文編碼字符集國際標(biāo)準(zhǔn),四川省民委制定了彝文編碼字符集國際標(biāo)準(zhǔn)。以上兩個標(biāo)準(zhǔn)經(jīng)國際標(biāo)準(zhǔn)化組織(ISO)審定,正式編入國際標(biāo)準(zhǔn)編碼體系結(jié)構(gòu)中。維吾爾、哈薩克等文的編碼標(biāo)準(zhǔn)經(jīng)多方面協(xié)商也得到圓滿解決。為我國幾個少數(shù)民族文字的計算機(jī)處理打下了良好的基礎(chǔ)。國家標(biāo)準(zhǔn)錫伯文信息處理信息交換用七位和八位編碼圖形字符集也正在編制中;蒙古文、彝文、傣文、錫伯文和維吾爾、哈薩克、柯爾克孜等文字符集的補(bǔ)充集正在制訂中。
2.操作系統(tǒng)和電子出版系統(tǒng)
蒙古文——內(nèi)蒙古計算中心(以下簡稱“內(nèi)計中”)開發(fā)了蒙古文、漢文、西文操作系統(tǒng),與濰坊計算機(jī)照排研究所(以下簡稱“濰坊”)合作研制了華光V型蒙古文書刊、圖表、報紙激光照排系統(tǒng);內(nèi)蒙古大學(xué)(以下簡稱“內(nèi)大”)相繼研發(fā)了IMU-I蒙古文排版系統(tǒng),MPS蒙漢混合字處理系統(tǒng),并實現(xiàn)了蒙古文、托忒蒙古文、滿文、八思巴文等與蒙古文有關(guān)的文字的操作系統(tǒng),能解決蒙古文多文種以及國際音標(biāo)的輸入和輸出工作,并與北京大學(xué)計算機(jī)研究所、北京大學(xué)新技術(shù)公司(以下簡稱“北大方正”)合作研制了《北大方正電子出版系統(tǒng)》蒙古文版;在內(nèi)蒙古自治區(qū)政府的大力支持下,有關(guān)單位正在研發(fā)基于國際標(biāo)準(zhǔn)的更為方便、實用、功能強(qiáng)大的字處理系統(tǒng);
藏文——1986年由青海師范大學(xué)(以下簡稱“青師大”)研究開發(fā)的TCDOS2.0版藏文系統(tǒng)通過了鑒定。這是第一個投入實用的藏文系統(tǒng),該系統(tǒng)經(jīng)不斷改進(jìn),現(xiàn)已升級為TCDOS2RM和基于WINDOS的藏文操作系統(tǒng)TCDOS FOR WIN,以上系統(tǒng)可掛接在CCDOS或UCDOS漢文系統(tǒng)上,可實現(xiàn)英漢藏混合處理。西北民族學(xué)院數(shù)學(xué)系(以下簡稱“西北民院”)研發(fā)了《蘭海藏文系統(tǒng)》;中國藏學(xué)研究中心(以下簡稱“藏研中心”)和航天部701所于1988年8月推出了藏文文字處理及激光編輯排版印刷系統(tǒng)(該系統(tǒng)后來與濰坊華光合作開發(fā)出了華光書林藏文排版和激光照排系統(tǒng),中國藏學(xué)出版社出版的藏文版《中華大藏經(jīng)》就是用這個系統(tǒng)排版及進(jìn)行激光照排的);中國計算機(jī)軟件與技術(shù)服務(wù)總公司(以下簡稱“中軟”)、民族印刷廠、北京大學(xué)計算機(jī)研究所、中國民族語文翻譯中心聯(lián)合研制并推出了北大方正藏文書版系統(tǒng),北大方正1997年推出了基于WIN31的藏文維思彩色印刷系統(tǒng)(北大方正的藏文書版系統(tǒng)在藏區(qū)占有相當(dāng)大的市場);西南民族學(xué)院計算機(jī)研究室開發(fā)了基于DOS平臺的SPDOS漢藏文版操作系統(tǒng)和WIN95藏文文字平臺;西藏大學(xué)在國家和自治區(qū)科技廳的支持下,正在研制基于藏文編碼字符集國際標(biāo)準(zhǔn)的字處理系統(tǒng)。
維吾爾、哈薩克、柯爾克孜文——1989年新疆維吾爾自治區(qū)民族語言文字工作委員會(以下簡稱“新疆語委”)主持研發(fā)了博格達(dá)維吾爾、哈薩克、柯爾克孜、漢、英、俄多文種排版系統(tǒng)(該系統(tǒng)可對以上多種文字進(jìn)行編輯,混合排版輸出);北大方正和濰坊華光都有這些文字的排版系統(tǒng);1997年6月新疆未來軟件制作室開發(fā)了新一代多文種操作系統(tǒng)——《未來多文種系統(tǒng)UTDOS6.1》實現(xiàn)了民族文字、漢、俄、英一體化的多文種混合處理,其功能比較強(qiáng)大;新疆大學(xué)推出了維文之星Windows'95操作系統(tǒng)平臺。
朝鮮文——北大方正推出了方正朝鮮文書版系統(tǒng)和維思系統(tǒng);濰坊華光推出了書版朝鮮文系統(tǒng)。
彝文——北大方正與西南民族學(xué)院合作開發(fā)了彝文系統(tǒng)的書版軟件;西南民族學(xué)院自行研發(fā)了UCDOS漢彝文雙語平臺和SPDOS漢彝文版漢字操作系統(tǒng),推出了WIN95彝文文字平臺。
壯文——北大方正推出的壯文書版是在英文的基礎(chǔ)上稍加改造實現(xiàn)的。
傣文——北大方正開發(fā)了傣文電子出版系統(tǒng)。
北大方正90年代中期推出了基于WINDOWS操作系統(tǒng)的少數(shù)民族語言文字電子出版系統(tǒng),后端是方正的RIP,字庫采用了曲線字技術(shù),采用國際標(biāo)準(zhǔn)的Postscript語言輸出,向開放性、標(biāo)準(zhǔn)化又邁進(jìn)了一步。
錫伯文、滿文——新疆民語委主持研發(fā)了計算機(jī)錫伯文、滿文文字處理和輕印刷系統(tǒng);內(nèi)大等單位亦有一些滿文的系統(tǒng);遼寧省檔案館和東北大學(xué)計算機(jī)語言工程研究室共同開發(fā)對滿文進(jìn)行二級編碼,用以通信和顯示與打印。
多文種操作系統(tǒng)——1991年4月由內(nèi)蒙古電子計算中心課題組完成了蒙古、藏、維吾爾、哈薩克、朝鮮、滿、漢文操作系統(tǒng)V4.0,這個系統(tǒng)屬于七五國家重點科技攻關(guān)項目“少數(shù)民族文字處理技術(shù)開發(fā)”的子課題,可以在同一個微機(jī)上同時處理民族文字和漢、英等文。這些文字的顯示和打印輸出符合原各文種書寫習(xí)慣,能夠全屏幕編輯和混合打印、顯示、存儲,并支持高級語言。
3.數(shù)據(jù)庫建設(shè)
中國社會科學(xué)院民族研究所完成了1994年立項的社科基金項目——中國少數(shù)民族語言文字多媒體數(shù)據(jù)庫;內(nèi)大蒙古語文研究所與內(nèi)蒙古計算中心1987年合作完成了中世紀(jì)蒙古語文數(shù)據(jù)庫;內(nèi)大蒙古語研究所在1993年完成的100萬次級《現(xiàn)代蒙古語文數(shù)據(jù)庫》的基礎(chǔ)上,又完成了《500萬詞級現(xiàn)代蒙古語文數(shù)據(jù)庫》。該所還完成了《元朝秘史》拉丁標(biāo)注、漢文標(biāo)注和漢文旁注本的檢索統(tǒng)計系統(tǒng),對蒙古文語料庫的詞類標(biāo)注系統(tǒng)——AYIMAG;內(nèi)蒙古計算中心完成了《現(xiàn)代蒙古語詞頻統(tǒng)計》,在此基礎(chǔ)上整理出《現(xiàn)代蒙古語頻率詞典》;內(nèi)蒙古計算中心研發(fā)了MHJ-1型蒙古語言分析軟件包;青海師大編成了有一萬單詞的藏文電子詞庫;廣西壯族自治區(qū)語委主持開發(fā)狀語詞庫;遼寧省檔案館和東北大學(xué)計算機(jī)語言工程研究室共同開發(fā)滿文檔案數(shù)據(jù)庫。
4.綜合性項目
西北民院承擔(dān)的《藏漢雙語信息處理系統(tǒng)》已完成《信息技術(shù)藏文編碼字符集構(gòu)件集》、《信息技術(shù)藏文構(gòu)件集24×48點陣字型白體》、《藏漢雙語格薩爾史詩信息研究系統(tǒng)》、《藏漢雙語歷算系統(tǒng)》、《藏文歷算日月食預(yù)報系統(tǒng)》、《藏漢雙語藏醫(yī)胃病診斷系統(tǒng)》、《藏漢雙語藏藥管理信息系統(tǒng)》、《藏漢雙語字詞詩句字頻統(tǒng)計工具軟件》、《藏漢雙語工農(nóng)業(yè)基本數(shù)據(jù)統(tǒng)計系統(tǒng)》、《藏漢雙語學(xué)校信息管理系統(tǒng)》等。
5.其他
內(nèi)大1996年正式推出了蒙古文自動校對軟件,1990年推出了蒙古文拉丁化輸入方法,開發(fā)了從新蒙古文到老蒙古文的轉(zhuǎn)寫軟件,完成了蒙古文詞根、詞干和附加成分的自動切分與復(fù)合詞的自動識別系統(tǒng),蒙古文字幕機(jī)系統(tǒng),蒙漢混排圖章計算機(jī)輔助設(shè)計系統(tǒng),制作蒙古語卡拉OK軟件系統(tǒng),新蒙古文的尋呼系統(tǒng),蒙漢身份證管理系統(tǒng),蒙古文刻繪系統(tǒng)等。內(nèi)蒙古計算中心完成了廣播電臺蒙古語文藝節(jié)目微機(jī)管理系統(tǒng)、微機(jī)蒙古文圖書目錄管理系統(tǒng)、微機(jī)激光蒙古文臺式印刷系統(tǒng)、蒙醫(yī)癲癇病專家系統(tǒng)、cscheme蒙漢英圖形用戶界面系統(tǒng)、蒙古文黑體白體文字識別技術(shù)。遼寧省檔案館和東北大學(xué)計算機(jī)語言工程研究室共同合作,初步完成滿漢文輔助翻譯系統(tǒng)以及滿語語料標(biāo)注的研究。
中國社會科學(xué)院民族研究所開發(fā)了藏語拉薩話語音系統(tǒng);青海師大制成計算機(jī)用高精度藏文黑體字模,可生成各種大小、各種形式的黑體藏文字庫;藏研中心開發(fā)了藏文分詞和詞登錄系統(tǒng),方正和華光藏文文本文件內(nèi)碼轉(zhuǎn)換軟件;西南民院開發(fā)了藏文和彝文的字幕機(jī)系統(tǒng);中科院的海洋圖形公司與北大方正合作開發(fā)了基于WIN NT的字幕機(jī)系統(tǒng);北京怡和信科技信息發(fā)展有限公司研制了《桑布扎》藏文校對系統(tǒng)。
近幾年還在進(jìn)行的項目有——內(nèi)大蒙古語研究所承擔(dān)的對蒙古語文語料庫的詞形標(biāo)注與統(tǒng)計;內(nèi)大計算機(jī)學(xué)院承擔(dān)有蒙古語語音合成系統(tǒng),英——蒙機(jī)器翻譯系統(tǒng),曙光Internet 信息服務(wù)系統(tǒng)的子課題蒙古文E-mail及英——蒙——漢電子詞典項目;蒙古文等五種文字的統(tǒng)一編碼與轉(zhuǎn)寫研究;內(nèi)蒙社科院蒙古語文研究所蒙古文整詞輸入法編碼研究。
中國社科院民研所承擔(dān)的藏文電子詞頻統(tǒng)計研究;青海師大承擔(dān)的藏文詞頻統(tǒng)計;藏文識別技術(shù)研究。
新疆大學(xué)進(jìn)行的維吾爾文字仿真發(fā)聲的研究。
中央民族大學(xué)與延邊大學(xué)、延邊師范大學(xué)共同開發(fā)朝鮮文印刷體和手寫體的識別技術(shù),朝鮮文的《組合式》字處理研究。
遼寧省檔案館和東北大學(xué)計算機(jī)語言工程研究室進(jìn)行滿語語料標(biāo)注研究。另外,中國社科院等單位的專家在國家自然科學(xué)基金及社科基金等的資助下也在諸如計算語言學(xué)、實驗語言學(xué)等更深層次的領(lǐng)域進(jìn)行多方面的研究。
為使民族文字信息處理技術(shù)有一個比較大的發(fā)展,盡快趕上先進(jìn)民族的發(fā)展水平,把我國各少數(shù)民族的優(yōu)秀文化送上互聯(lián)網(wǎng),讓我國各民族的優(yōu)秀文化都能同步走向世界,并讓世界了解一個完整的中國,使我國各少數(shù)民族在跨入信息社會和知識經(jīng)濟(jì)時代的關(guān)鍵一環(huán)上,不至于拉得太遠(yuǎn),不至于再一次落后,國家要加大技術(shù)開發(fā)的資金投入,把民文信息技術(shù)開發(fā)和運(yùn)用提高到一個新的水平。