国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

彝文信息處理技術(shù)三十年發(fā)展歷程與展望

2011-02-17 04:20沙馬拉毅
中文信息學報 2011年6期
關(guān)鍵詞:彝文輸入法信息處理

沙馬拉毅

(西南民族大學,四川 成都 610041)

彝族是我國民族大家庭中人口較多的一員,據(jù)2010年統(tǒng)計,共有800多萬人口,分布在云南、四川、貴州、廣西四省區(qū)。彝族是一個跨國界民族,越南有近萬人,泰國、緬甸、老撾、柬埔寨等國家都分布有彝族。

彝族有自己的語言文字,彝文古籍卷帙浩繁,彝文有三千年以上歷史。彝語屬漢藏語系藏緬語族彝語支,分為六大方言區(qū) , 1980年在征求各方意見的基礎(chǔ)上,國務(wù)院以[1980]70號文件批準推行《彝文規(guī)范方案》: 規(guī)定了以彝語北部方言的圣乍語為基礎(chǔ)方言,以喜德語音為標準音,規(guī)定一字一音,819個字加次高音符號的字以及一個替音符號,共1 165個字符;書寫一律從左到右橫排;還確定使用國際通用的阿拉伯數(shù)字和彝文原有的數(shù)字。

2011年3月,根據(jù)四省區(qū)彝學會和滇、川、黔、桂彝文古籍整理出版協(xié)作會的要求,在原有國務(wù)院批準實行的規(guī)范彝文基礎(chǔ)上,增加了六個音節(jié)、83個字,統(tǒng)一制訂了注音符號。共有1 251個音節(jié),5 589個通用規(guī)范彝文字。涵蓋了彝語六大方言區(qū)的全部音節(jié)和常用字。使彝文信息處理工作從原來的規(guī)范彝文進入了全國通用規(guī)范彝文階段。

從30年的實踐證明來看,彝文規(guī)范方案推行后,培養(yǎng)了一大批彝語文專業(yè)人才,彝語文也得到了廣泛使用,有力促進了彝族地區(qū)經(jīng)濟、文化等社會各項事業(yè)的發(fā)展。

從20世紀70年代起,在周恩來總理的關(guān)懷下,由當時的四機部、中國科學院、國家出版局等部門發(fā)起了“漢字信息處理技術(shù)工程”,語言文字信息管理工作開始提上國家語言文字工作日程。我國是一個多民族多語種的國家,有53個少數(shù)民族都有自己的語言,將近30個少數(shù)民族使用30余種民族文字。因此,在研究漢字信息處理時,我國一直都很重視各少數(shù)民族語言文字的計算機信息處理工程,國家對少數(shù)民族語言文字處理系統(tǒng)的開發(fā)也給予了極大的關(guān)注。

彝文信息處理工程也正是這股語言信息處理浪潮中啟動和發(fā)展壯大起來的。

彝文信息處理是指用計算機對彝文進行轉(zhuǎn)換、傳輸、存儲、分析等加工的科學,是一門與語言學、計算機科學、心理學、數(shù)學、控制論、信息論、聲學、自動化技術(shù)等多種學科相關(guān)聯(lián)的邊緣交叉性科學。

彝文信息處理的研究工作其實早在1982 年就拉開了序幕,近30 年過去了,彝文信息處理工作走過了曲折的道路,經(jīng)歷了漫長的發(fā)展歷程。

1 計算機彝文系統(tǒng)研制概況

中文所包括的文字不僅僅是漢字,它包括蒙、維、彝、朝等中國所有文字,還包括我國古代的甲骨文、金文、小篆等文字。因此,在研究中文信息處理時,我國一直都很重視各少數(shù)民族語言文字的計算機信息處理工程。彝文信息處理早在1982年就開始了。

(1) 《PGYW彝文計算機》

1982年,我們在蘋果計算機上開發(fā)了彝文軟件,雖然不能打印出彝文,但能在屏幕上顯示出彝文,字形較美觀。

(2) 《微型計算機彝文處理系統(tǒng) YWCL》

1984年6月,我們在PIED PIPER微機上進行了彝文處理的研制。建立了彝文字庫,可用BASIC或FORTRAN語言調(diào)用,可編寫彝文文件進行編輯和修改工作,經(jīng)過移植也可以在其他類型的微機上應(yīng)用。此項成果開發(fā)成功后,于1984年10月27日通過了四川省級專家技術(shù)鑒定,1985年獲四川省科技進步獎。

(3) 《計算機激光彝文/漢文編輯排版系統(tǒng)》

這是列入國家經(jīng)濟發(fā)展規(guī)劃1985~1987年的重點技術(shù)開發(fā)項目。1986年4月通過了電子工業(yè)部和國家民族事務(wù)委員會在北京科學會堂共同主持的兩部委專家技術(shù)鑒定。該系統(tǒng)采用了和漢字系統(tǒng)兼容的策略,基本上沒有改變原主系統(tǒng)的硬件配置,其主要指標和漢字系統(tǒng)基本相同。該系統(tǒng)的排版功能是保留了漢字系統(tǒng)的書宋、仿宋、黑體、楷體和小標宋五種字體以及多種數(shù)字、字母和符號。并增加了含次高調(diào)在內(nèi)的1 165個彝文字,彝文字的字寬和字高之比為11∶6,共有14種字號,可排長、扁兩種彝文字體。照排速度為5號字每秒60個字,分辨率為每毫米292線。可以編排16開和32開的普通彝文書刊以及彝文漢字混合編排,標點符號行末行自動禁排,還能夠自動編排頁碼、安放書眉等。該系統(tǒng)的編輯功能是: 增刪、進行修改、分段、段落合并等。可以復(fù)制,將文章合并,或?qū)⒁黄恼路殖扇舾烧鹿?jié),可以利用長城0520及兼容機上的WORDSTAR等文字編輯及處理功能。該系統(tǒng)是我國首次運用激光照排技術(shù)進行少數(shù)民族文字處理的編輯排版系統(tǒng)。在鑒定會上,彝文編碼輸入方案被兩院院士王選稱為“沙馬拉毅輸入法”。1986年5月在北京“全國‘六五’期間科學技術(shù)攻關(guān)項目展覽會”上榮獲國務(wù)院電子振興辦公室頒發(fā)的優(yōu)秀科技成果獎。

(4) 《計算機彝文/漢文/西文系統(tǒng)》

1985~1986年,我們在長城0520A型計算機上進行了彝文/漢文/西文系統(tǒng)的研制,采用軟件插件兼容的策略,堅持不增加硬件成本,在保留原漢字系統(tǒng)的基礎(chǔ)上,根據(jù)彝語音及彝語音符號的特點,設(shè)計了具有唯一性的彝文編碼方案,增加了彝文音素輸入法和區(qū)位輸入法。建立了系統(tǒng)公用字庫,從而使該系統(tǒng)擁有豐富的中西軟件資源。該系統(tǒng)在保留了原系統(tǒng)功能的同時,增加了彝文處理功能。系統(tǒng)包括彝文編碼方案、彝文字庫、輸入輸出的彝文顯示、打印等一套程序。最突出的特點是: 彝、漢、西文可以隨機混合編排打印??蓹M排也可豎排,也可以打印長體和扁體彝文,有從A~P的幾十種字號的彝文。該系統(tǒng)還可以與計算機激光照排系統(tǒng)聯(lián)機使用。

(5) 《北大方正彝文激光照排系統(tǒng)》

1992年,為迎接黨的十四大召開,上級有關(guān)領(lǐng)導(dǎo)要求黨的十四大會議文件各種翻譯文件和漢文文件一樣都要用激光照排統(tǒng)一規(guī)格統(tǒng)一印刷。為向黨的十四大獻禮,我們?nèi)找箠^戰(zhàn)、修改、編制了彝文編碼方案和彝文字模稿,與北京大學方正集團新技術(shù)開發(fā)公司聯(lián)合在方正系統(tǒng)上開發(fā)了“北大方正彝文激光照排系統(tǒng)”。該系統(tǒng)建立了白體、宋體、黑體等彝文矢量精密字庫。字體美觀,符合書籍、報刊印刷要求。鍵盤未作任何改動。該系統(tǒng)有區(qū)位碼、彝拼碼兩種輸入法,有書版和報版,是當前報社、出版社、印刷廠、國家機關(guān)、學校教學科研用的主要彝文計算機系統(tǒng)。該系統(tǒng)只作激光精密字庫的發(fā)排使用。因24點陣的打印字庫未修改完,字型不美觀,不適合針打文件,只能做小樣校對。

(6) 《YWPS彝文桌面辦公系統(tǒng)》

1995年,西南民族學院計算機中心研制成功了YWPS彝文桌面辦公系統(tǒng)。該系統(tǒng)與WPS金山系統(tǒng)完全兼容,有彝文拼音輸入法、彝文筆畫輸入法,用48點陣的打印字模,字形美觀,適于辦公自動化使用。

(7) 《YWUC 彝文系統(tǒng)》

計算機《YWUS彝文系統(tǒng)》是在希望漢字系統(tǒng)UCDOS6.0下開發(fā)出來的,該系統(tǒng)具有希望漢字系統(tǒng)的所有功能,并提供了彝文拼音輸入法、彝文筆畫輸入法。

(8) 《YWWIN 彝文系統(tǒng)》

《YWWIN彝文系統(tǒng)》是在中文WINDOWS95下開發(fā)的。彝文WINDOWS95提供了彝文全拼(彝全拼)輸入法、彝文簡拼(彝拼)輸入法、彝文筆畫(彝筆)輸入法、彝語詞匯(彝詞)輸入法。

(9) 《計算機彝文字幕系統(tǒng) YWZM》

《計算機彝文字幕系統(tǒng) YWZM》是集彝文、漢文、英文為一體,具有圖像、文字編輯、創(chuàng)作、播放等廣播級字幕系統(tǒng)。彝漢字幕系統(tǒng)采用加拿大進口圖像卡作為硬件平臺,用32位保護模式進行編程,因而系統(tǒng)穩(wěn)定性好、速度快、編輯十分方便、視頻指標高。

彝漢字幕系統(tǒng)采用界面菜單人機對話方式,界面菜單有文本編輯、字幕創(chuàng)作、字幕播出、卡拉OK制作、藝術(shù)繪畫、新聞唱詞、視頻調(diào)整、系統(tǒng)退出等功能,彝漢字幕系統(tǒng)中有彝文白體、宋體兩種字體,漢字字體40多種,英文字體幾十種,有四十多種播出方式。

彝漢字幕系統(tǒng)適用于電視錄像字幕、新聞字幕,彝漢文卡拉OK制作等。

2 彝文信息處理有關(guān)國家標準

《信息交換用彝文編碼字符集》、《信息交換用彝文15×16 點陣字模集及數(shù)據(jù)庫》1988~1989 年,由四川省民委、國家電子工業(yè)部共同提出。 主要起草人: 沙馬拉毅;發(fā)布時間: 1992 年;發(fā)布機關(guān): 國家技術(shù)監(jiān)督局。

(1) 《信息交換用彝文編碼字符集》(GB 13134-91)

本標準于1989年制定完成,收彝文規(guī)范字819個,帶次高調(diào)符號彝文345個,一個替音符號C(wu),共計1 165個彝文字符,編碼于16區(qū)~28區(qū),其他圖形符688個,編碼于1區(qū)~9區(qū)。1 165個彝文字符采用彝文字母表以音序排列,便于輸入和查找。

1989年7月,云南、貴州、廣西、四川、北京的有關(guān)計算機專家和彝語文專家及有關(guān)省市區(qū)領(lǐng)導(dǎo)90余人,云集涼山彝族自治州首府西昌邛海賓館,歷時三天對二項彝文信息處理國家標準方案進行了熱烈討論,最后一致同意將1 165個規(guī)范彝文國家標準方案上報國家機關(guān)頒布。

1992年該項標準由國家標準出版社出版、國家技術(shù)監(jiān)督局頒布實施。

(2) 《信息交換用15×16 彝文點陣字模集及數(shù)據(jù)集》

(GB 13135-91)

這是與《信息交換用彝文編碼字符集》同時制定并審定通過,同時發(fā)布實施的。主要起草人為沙馬拉毅。該標準規(guī)定了信息交換彝文圖形字符的15x16點陣字模及其數(shù)據(jù)。它主要適用于彝文信息處理系統(tǒng)中的顯示設(shè)備,也可適用于點陣印刷設(shè)備和其他有關(guān)設(shè)備。本標準提供彝文字形 1 165個,其他圖形符號688個。這些字符橫向為15點,縱向為16點。字形實用、美觀,完全適用于屏幕顯示等。

(3) 信息交換用彝文24×24點陣字模及數(shù)據(jù)集》

該標準規(guī)定了信息交換彝文圖形字符的24×24點陣字模及其數(shù)據(jù)。它主要適用于彝文信息處理系統(tǒng)中的顯示設(shè)備,也可適用于點陣印刷設(shè)備和其他有關(guān)設(shè)備。本標準提供彝文字形 1 165個,其他圖形符號688個。這些字符橫向為24點,縱向為24點。字形實用、美觀,完全適用于屏幕顯示等。

3 彝文信息處理國際標準

《通用多八位彝文編碼字符集》該標準由國家技術(shù)監(jiān)督局、國家電子工業(yè)部、國家語委及國家民委下達任務(wù)。四川民族事務(wù)委員會、四川省民語委、西南民族學院負責研制。主要研制人員為沙馬拉毅。

《通用多八位彝文編碼字符集》 國際信息標準方案于1994年4月作為中國提案提交國際信息組織ISO/IEC JTCI/SC2/WG2第25次會議。1994年4月受電子部和國家技術(shù)監(jiān)督局及國家民委的派遣,由周永軍、沙馬拉毅等六人組成中國代表團赴土耳其出席第25次WG2會議。

會上,中國代表團宣讀了“關(guān)于彝文進入ISO10646BMP基本平面”的提案,參加會議的有中國、美國、日本、新加坡、韓國、土耳其、加拿大、芬蘭、德國、希臘、越南等32個國家的專家。在會上,中國代表團全面介紹了我國彝文使用的情況,包括彝族人口、文字使用的各級學校、機關(guān)、文教、新聞出版等。經(jīng)過討論,WG2會議同意接納中國的彝文提案,并提交下次WG2第26次會議討論。會后,英國專家休·諾斯和愛爾蘭專家麥克對中國彝文方案提出了不同看法。他們認為從資料和宣傳中得知規(guī)范彝文只有819個,而中國提案中則有1 165個字,這會增大BMP平面占用空間的,所以他們也各自提出了彝文國際標準方案。1994~1998年間,經(jīng)過中國代表的反駁和再三說服提出1 165個彝文字符的原因,終于說服了外國專家對彝文的不同意見。通過三輪的國家投票。終于 在1998年丹麥會議上審定通過,并錄入2000年版的國際信息標準集,作為彝文國際信息標準頒布實施。

4 彝文手機的研發(fā)

2003年,西南民族大學研究的彝文輸入法及其鍵盤布局獲得國家專利。在此基礎(chǔ)上,西南民族大學民族文字信息處理研究所組成了彝文手機輸入法和彝文字庫的研究課題組,課題組廣泛采集彝文手寫字樣共31 625個不同的手寫字樣,創(chuàng)建了24點陣的彝文點陣字庫,翻譯了13 000多條彝文手機術(shù)語;設(shè)計出了彝文顯示字模,彝文拼音和筆畫輸入模式,彝文手寫樣式,彝文電子圖書等,為彝文手機軟件的進一步開發(fā)打下了堅實的基礎(chǔ)。

2009年5月,西南民族大學和北京網(wǎng)道公司聯(lián)合開發(fā)成功了彝文手機。該手機是我國首款民族文字的手機。 共推出6款彝文手機,包括5款GSM手機和1款CDMA手機。具有全彝文界面,編輯、收發(fā)彝文短信、彩信,彝文拼音輸入和手寫輸入,彝族風格圖片、鈴聲和彝文電子書等特色功能。該產(chǎn)品實現(xiàn)了對包括文字輸入在內(nèi)的全部手機功能進行的系統(tǒng)整合,使彝族地區(qū)手機用戶可以在手機上使用熟悉的文字和習慣進行手機操作和信息交流。

研制成功的彝文手機,被國內(nèi)外各大媒體譽為“彝語文發(fā)展進程中的里程碑”, 使歷史悠久的彝族傳統(tǒng)文化與移動通信技術(shù)相結(jié)合,為彝語言文字向科技化、信息化邁進開辟了一條新路,為彝區(qū)經(jīng)濟的發(fā)展注入新的活力。

5 國家專利

1999年,計算機彝文拼音輸入碼和彝文筆畫碼基本定型。我們就將1 165個彝文字符、43個聲母和10個韻母的拉丁字母輸入碼、筆畫輸入碼及其在計算機鍵盤的布局申報了國家專利。經(jīng)過四年的審查審定,于2003年獲得了國家專利證書。專利號: ZL00 1 12801.9,證書號: 第117415號。

6 彝文信息處理技術(shù)的展望

從現(xiàn)有的中文信息處理理論和方法以及彝語言資源數(shù)據(jù)庫的現(xiàn)狀,規(guī)范彝文信息處理以后要做的研究課題相當多,例如,文字識別、語音識別、機器翻譯及其他民族語言對照詞庫、跨平臺的操作以及計算機彝文網(wǎng)絡(luò)系統(tǒng)等,還要開發(fā)基于彝語言資源庫的多種應(yīng)用系統(tǒng),如果這些項目都實現(xiàn)了,規(guī)范彝文信息處理將會有更輝煌的發(fā)展與前景。

隨著彝族地區(qū)經(jīng)濟文化的發(fā)展,規(guī)范彝文信息處理技術(shù)的應(yīng)用上必將得到更大范圍的發(fā)展。我們有理由相信規(guī)范彝文信息處理會像其他學科一樣,需要經(jīng)過眾多學者長久的、堅持不懈的探索和實踐。我們期待著語言學(包括計算語言學)、語音學、信息科學、智能科學、計算機科學、哲學等各個領(lǐng)域的專家密切合作,在規(guī)范彝文信息處理中實現(xiàn)“規(guī)則與統(tǒng)計共舞,語言隨計算齊飛”。

1998 年,在滇、川、黔、桂四省(區(qū)) 彝族古籍整理協(xié)作會第六次會議上通過了“將國務(wù)院批準的四川規(guī)范彝文作為我國彝族統(tǒng)一文字的會議紀要”。至此,計算機彝文信息處理事業(yè)得到了迅猛發(fā)展。2000年后彝文信息處理技術(shù)的各項成果如春筍般涌現(xiàn),從開始只能對單字的處理到現(xiàn)在的詞匯處理,從文書編輯到電子彝文出版系統(tǒng),已經(jīng)形成了一套完整的彝文信息處理技術(shù)體系。2001年由四川民族出版社出版了專著《計算機彝文信息處理》; 2005年研制出四川省教育廳的“中小學漢彝對照電子詞典”完成了國家民委課題“彝文文獻全文數(shù)據(jù)庫研究與開發(fā)”均填補了國內(nèi)相關(guān)方面的空白;2006年西南民族大學與北大方正合作開發(fā)的UNICODE彝文系統(tǒng)問世,計算機彝文字體從開始的兩種發(fā)展到現(xiàn)在的白體、黑體、細黑體、宋體、仿宋體、綜藝體、圓頭體、手寫體等8種字體;2007年西南民族大學與北大方正合作研發(fā)的彝文書版研發(fā)成功;2008年完成了“彝語六大方言語料庫”的建設(shè);2008年研制建立了“彝漢雙語平行語料庫和術(shù)語庫” 2009年研制出的“彝語語料庫”;2009年西南民族大學與中國社會科學院民族學與人類學所合作完成了國家教育部重點項目“彝語聲學參數(shù)數(shù)據(jù)庫”,開創(chuàng)了彝語實驗語音學研究的先河,也為西南少數(shù)民族語言實驗語音學研究工作的開展進行了有意義的探索。2009年11月,全國彝語術(shù)語標準化工作委員會在西南民族大學成立,這是我國彝語文信息化處理研究工作的一件大事,對進一步推動滇、川、黔、桂四省區(qū)彝語文全面規(guī)范化、標準化、信息化進程,促進彝語文信息化建設(shè)的健康發(fā)展具有重要的現(xiàn)實意義和深遠的歷史意義。

7 結(jié)語

通過30年的社會實踐,彝文信息處理的研究成果已經(jīng)已廣泛應(yīng)用于新聞出版、教學科研、國家機關(guān)等各領(lǐng)域,以及全國黨代會、全國人民代表大會、全國政協(xié)會議等全國性的大會, 加快了彝語文工作的現(xiàn)代化和信息化建設(shè)的步伐,推進了彝族社會進入現(xiàn)代化信息時代的進程。

在今天,Internet把世界各地的計算機聯(lián)接了起來,共享信息和技術(shù)是必然的趨勢和需要,因此各地區(qū)、各民族之間的各種語言信息資源的互相交流變得越來越重要。規(guī)范彝文信息處理方面的開發(fā)應(yīng)用,不僅標志著規(guī)范彝語文的社會功能在這一領(lǐng)域的不斷擴展,而且為彝語言文字的繁榮和發(fā)展,為彝語言文字的現(xiàn)代化開辟了廣闊前景,強勁地推動了彝族地區(qū)政治、經(jīng)濟、文化的全面發(fā)展,具有劃時代意義。

[1] 沙馬拉毅.計算機彝文信息處理研究述論[J].西南民族大學學報,2002,(4):6-9.

[2] 錢玉趾,董正罡. 彝文信息處理與沙馬拉毅的原創(chuàng)性[J].西南民族大學學報,2007,(4):49-55.

[3] 沙馬拉毅.計算機彝文信息處理[M].四川民族出版社,2000.

[4] Keogh J.JZME開發(fā)大全[M].潘穎,王磊譯,清華大學出版社,2004.

[5] 李金發(fā).試論計算機彝文字符編碼的轉(zhuǎn)化[J].云南民族大學學報,2008,(1):82-86.

[6] 錢玉趾.規(guī)范彝文編碼方案[J].中文信息,1990,(3).

猜你喜歡
彝文輸入法信息處理
東營市智能信息處理實驗室
彝文經(jīng)籍《祭龍經(jīng)·祭彩虹經(jīng)》中的敬畏自然觀研究
要命的輸入法
基于Revit和Dynamo的施工BIM信息處理
地震烈度信息處理平臺研究
CTCS-3級列控系統(tǒng)RBC與ATP結(jié)合部異常信息處理
找回微軟拼音輸入法設(shè)置
輸入法順序聽我使喚
貴州彝文信息技術(shù)研究概述
百度被訴侵犯商標權(quán)和不正當競爭
得荣县| 桐庐县| 仁寿县| 平果县| 老河口市| 沁水县| 梁平县| 通化县| 延津县| 克拉玛依市| 绥阳县| 柯坪县| 无锡市| 根河市| 杭锦旗| 奉贤区| 来安县| 抚州市| 海安县| 准格尔旗| 元江| 榕江县| 鲁山县| 富锦市| 景泰县| 新兴县| 安平县| 德格县| 云南省| 赤城县| 常德市| 宁武县| 德保县| 应用必备| 儋州市| 新竹县| 白山市| 东明县| 从化市| 诏安县| 鄂托克前旗|