国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蒙古文文獻數字化建設與OpenType字庫的優(yōu)化

2014-05-18 00:46:52寶美榮
語文學刊 2014年5期
關鍵詞:蒙古文字庫輔音

○寶美榮

(內蒙古師范大學圖書館,內蒙古 呼和浩特 010022)

利用現代信息技術進行民族文獻的數字化對極其寶貴的民族文獻資料保存并有效利用、廣泛傳播等具有深遠的意義。中國蒙古文現代圖書近3萬種,期刊150多種,古籍1.5萬種,收藏蒙古文文獻的各級圖書館400多家,所以蒙古文圖書文獻資源豐富且地域分布廣。所以建立統(tǒng)一的蒙古文文獻數字化共建、共享平臺是非常有必要。隨著軟件硬件技術的不斷發(fā)展對文獻數字化建設提供了良好的環(huán)境和平臺。因此蒙古文文獻的數字化工作越來越受到人們的重視。

一、蒙古文文獻數字化中的共享、檢索問題

從技術層面分析,目前各高校圖書館使用的蒙古文文獻管理系統(tǒng)不盡相同,如匯文、金盤等。而且各個系統(tǒng)之間不兼容,導致對資源的共享帶來很大的困難。而文獻數字化的最終目的是資源的廣泛共享。實現共享要需要統(tǒng)一的文獻管理平臺。其根本的統(tǒng)一在于蒙古文編碼。由于蒙古文編碼國際標準制定較晚(2002年)導致多種編碼(形碼、音碼等)并存,編碼不統(tǒng)一,對資源共享帶來一定的障礙。

從語言本身分析,蒙古文是一種復雜的拼音文字。也是唯一從左到右、從上到下豎排的文字。這個特點對文字處理技術帶來了一定的難度。除此之外,蒙古文中存在一音多形、一形多音等現象,因普通用戶很難100%正確掌握,文字錄入過程中難免會出錯,所以會影響檢索效率。

從編碼角度分析,自從蒙古文編碼國際標準制定之后大部分蒙古文信息處理系統(tǒng)都遵循國際標準編碼。微軟從vista系統(tǒng)開始支持基于OpenType蒙古文字庫的傳統(tǒng)蒙古文輸入法。這對蒙古文文獻數字化提供了統(tǒng)一編碼的良好平臺。

但是,這套OpenType字庫中一些規(guī)則沒有遵循蒙古文語法規(guī)則,導致控制符使用繁雜,加大了用戶輸入蒙古文時的不必要的復雜性。所以文本重點分析了蒙古文OpenType字庫中存在的問題并提出了優(yōu)化方案。

二、基于Unicode編碼的蒙古文OpenType字庫

蒙古文編碼國際標準由有碼位的“名義字符”和無碼位的“變形顯現字符”兩部分構成。所以顯示正確的蒙古文文字時必須考慮到名義字符和變形顯現字符之間的映射。而這種映射關系應該用語言知識和語法規(guī)則體現出來,從而達到正確選形的目的。對于語言知識和語法規(guī)則無法區(qū)分的情況,通過輸入附加控制符來標識。OpenType字庫技術恰好可以解決此問題,字庫設計者主要利用OpenType布局(Layout)表設置布局規(guī)則,體現名義字符和顯現字符之間的映射關系。蒙古文OpenType字庫主要涉及布局表中的字形替換(GSUB)表。

為了支持蒙古族、藏族、維吾爾族等復雜的少數民族語言文字,微軟在Vista及Win7系統(tǒng)中設計實現了一套完全符合Unicode編碼標準的蒙古文OpenType字庫(蒙古文白體)并附帶了蒙古文讀音輸入法,基本能滿足蒙古文輸入的需要。輸入蒙古文時如果頻繁使用控制符會給普通用戶帶來不必要的困難。如蒙古文控制符種類多、用法繁雜難于記憶;發(fā)音不標準的用戶會輸入顯現字符正確而編碼錯誤的信息;在編輯操作及網絡傳輸過程中控制符會發(fā)生失去控制能力、控制符丟失等現象而導致顯現字符不正確。因此,從名義字符到變形顯現字符的轉換規(guī)則應當盡可能利用蒙古文的拼寫規(guī)則與語法規(guī)則,只有在拼寫規(guī)則、語法規(guī)則無法區(qū)分的情況才使用控制符來標識。即應該按照“不用控制符”或“盡量少用控制符”的原則來建立字庫布局規(guī)則。從而減少控制字符帶來的副作用,使蒙古文讀音輸入更加便捷。

三、微軟蒙古文OpenType字庫布局規(guī)則中存在的問題及優(yōu)化

在蒙古文編碼國際標準中定義了蒙古文所需的特殊控制字符如表1示:

表1 蒙古文控制字符及其功能

這些控制字符主要用在蒙古文字符前后來一起確定字符的正確變體。微軟蒙古文Opentype字庫中主要存在的問題是輔音GA與HA的變體選形規(guī)則不完備。

該布局規(guī)則沒有完全遵循元音諧律及輔音諧律語法,導致一些詞必須附加控制符才能正確輸入(選形),主要體現在表2中的陰性變體的選擇上。如圖1至圖3所示:

表2 輔音GA與HA的變體字符列表

圖1 規(guī)則不符合輔音和諧律

圖2 規(guī)則不符合元音諧律

圖3 規(guī)則沒有考慮強制性合體字

以上圖中的正確詞形只有在附加輸入控制符時才能得到。實際上,在蒙古文語法輔音諧律中規(guī)定輔音字符“GA”的陰性詞中形式只出現在陰性詞中。圖1中詞的第一個字符(陰性元音U)就完全可以決定選擇輔音“GA”的陰性詞中形式,無需再用控制字符來確定。同樣,圖2沒有遵循元音和諧律,一個詞中出現了兩個中性元音,那么這個詞就屬于陰性詞,就應該選擇表1中輔音GA的陰性詞末形式,也無需用控制字符來確定。圖3規(guī)則除了包含 等陰性元音外,還應該包含 等輔音與陰性元音組合的強制性合體字符,就能完全覆蓋所有可能上文,就可不需要附加變體選擇符了。

從方便用戶和盡量少用控制符的原則出發(fā),對微軟蒙古文OpenType字庫中的顯現規(guī)則進行優(yōu)化,具體實現方案如下:

利用 Microsoft公司提供的字庫制作工具 Volt,通過Lookup關系表中的上下文替換,可以指定在哪個(些)字符的前面或后面出現該字符時,映射成該字符的哪個變形顯現形式。為方便起見,將在該字符前面出現的字符總體稱為前綴,后面出現的字符總體稱為后綴。

圖4 優(yōu)化后的字符“GA”的陽性詞中形式到陰性詞中形式轉換規(guī)則

圖4是優(yōu)化后的從輔音字符“GA”的陽性詞中形式到陰性詞中形式的上下文轉換規(guī)則。主要優(yōu)化了前綴和后綴,其中前綴calt6擴充了的陰性元音與陰性強制性合體字符詞首、詞中形式,前綴g-81-1包括了中性元音詞中形式,后綴g-81-2包括了陰性和中性元音詞中、詞末形式,后綴calt39包括了輔音字符詞中、詞末形式。標準ISO/IEC 10646于2000年2月通過,“從理論上,結束了由于沒有統(tǒng)一的編碼,無法共享資源的困境”。目前,蒙古文編碼國際標準的實現和應用還存在推廣緩慢和應用不廣等問題。通過面向普通用戶優(yōu)化字庫中控制字符的規(guī)則,盡可能減少輸入中控制字符的類型和數量,簡化輸入操作方法對推廣和普及蒙古文國際編碼標準具有現實意義。有了較完善的標準字庫對蒙古文文獻的數字化共建、共享會提供良好的基礎平臺。

圖5 微軟字庫中字符“GA”的陽性詞中形式到陰性詞中形式轉換規(guī)則

圖5中顯示的是微軟蒙古文OpenType字庫中關于字符“GA”的陽性詞中形式到陰性詞中形式轉換規(guī)則,與圖4中的規(guī)則相比過于復雜,沒有合理的利用語法規(guī)則,而且忽略了強制性合體字是一個“整體”的概念,前綴和后綴中沒有包含強制性合體字而導致了圖1~3中的錯誤詞形。

在國內外專家學者機構的共同努力下,蒙古文編碼國際

[1]蘇日娜.蒙古文古籍文獻數字化建設探析[J].圖書情報工作,2012(2):112-114.

[2]鮑玉來,劉學洪,劉川.蒙古文文獻數字化理論與技術研究思路[J].科技成果管理與研究,2009(1):83-85.

[3]確精扎布.蒙古文編碼[M].內蒙古大學出版社,2000.

[4]清格爾泰.蒙古語語法[M].內蒙古人民出版社,1991.

[5]烏達巴拉,鞏政.蒙古文OpenType字庫制作技術[J].內蒙古大學學報(自然科學版),2006,37(5):570 -573.

[6]薩日娜,嘎日迪,趙小兵,林民.蒙古文OpenType字庫技術研究[C]//第十一屆全國民族語言文字信息學術研討會論文集.2007:217-223.

[7]姚延棟,吳健,孫玉芳,呼斯勒.傳統(tǒng)蒙古文變形顯示截至研究與實現[J].中文信息學報,2004(2):66-72.

猜你喜歡
蒙古文字庫輔音
失去爆破和不完全爆破
No.2 喜茶聯(lián)合漢儀字庫推出微型書和書簽
BR Sounds
英語的輔音連綴
輔音連綴全接觸
關于新發(fā)現的《字母匯編》(蒙古文)
某型號產品的字庫遷移優(yōu)化設計
電子世界(2018年7期)2018-04-26 08:51:35
關于蒙古文在各種瀏覽器上顯示方法的探討
略論Khandjamts夫人(基里爾蒙古文)
相同字庫條件下激光打印文件特征的變化規(guī)律和特點
警察技術(2015年4期)2015-02-27 15:37:36
荆门市| 新密市| 新闻| 辽阳县| 鄂托克旗| 石景山区| 汉沽区| 保山市| 德兴市| 阿勒泰市| 许昌县| 若羌县| 灵宝市| 聂拉木县| 郑州市| 蒙自县| 灵石县| 西峡县| 泸西县| 红河县| 镇巴县| 板桥市| 中西区| 安康市| 剑河县| 安阳市| 漠河县| 阿克| 萨迦县| 来凤县| 乾安县| 清水县| 革吉县| 叙永县| 通河县| 榆林市| 淮北市| 延长县| 称多县| 大连市| 滁州市|