国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新疆少數(shù)民族語言文字信息處理研究與應用

2011-02-17 04:20吐爾根依布拉音袁保社
中文信息學報 2011年6期
關鍵詞:新疆大學維吾爾語柯文

吐爾根·依布拉音,袁保社

(新疆大學 信息科學與工程學院, 新疆多語種信息技術實驗室,新疆 烏魯木齊 830046)

1 引言

維吾爾、哈薩克、柯爾克孜族是我國新疆以及周邊地區(qū)的主要少數(shù)民族。維吾爾語、哈薩克語、柯爾克孜語屬阿爾泰語系突厥語族,在形態(tài)結構上屬黏著語類型[1]。維吾爾、哈薩克、柯爾克孜族在不同的歷史時期曾先后使用過粟特文、突厥文、回鶻文和以阿拉伯字母為基礎的文字。用這些維吾爾、哈薩克、柯爾克孜文字記載的經典文獻、古籍著述和譯作浩如煙海。無論過去作為維吾爾、哈薩克、柯爾克孜等民族文化傳承的主要載體,還是現(xiàn)在作為傳播科技文化知識的主要工具,以及作為信息化社會中這些民族的主要標識符,其獨特的人類文化價值和在新疆及周邊地區(qū)所發(fā)揮的巨大作用是不可估量的。

自從人類進入以計算機和互聯(lián)網為主體的信息時代,維吾爾、哈薩克、柯爾克孜文(以下簡稱為維哈柯文)文字正面臨著一場“生死存亡”的考驗——即能否跨入信息時代。維哈柯文一旦不能跨入信息時代,它必將失去語言文化載體的基本功能和作用,就會被這個時代無情地拋棄。縱觀國內外語言文字信息處理技術的發(fā)展歷史和現(xiàn)狀,我們可以清楚地看到,維哈柯文能否跨入信息時代的關鍵就是能不能解決好維哈柯文信息處理技術問題。因此,維哈柯文信息處理是直接關系著維吾爾文、哈薩克文、柯爾克孜文命運的一件大事,其重要意義是不言而喻的。

雖然開展維哈柯文信息處理技術的研究已經進行了20多年了,但是沒有一篇反映維哈柯文信息處理技術進展的綜述性文獻,相關領域的研究進展只是散見于各專業(yè)文獻中。因此,對維哈柯文信息處理技術的發(fā)展現(xiàn)狀做一個比較全面的考察是非常必要的。鑒于對維哈柯文信息處理技術的研究和取得的成果也以國內居多,所以本文只限于對國內研究現(xiàn)狀的探討。

2 維哈柯文信息處理的歷史和現(xiàn)狀

實現(xiàn)信息處理必須依賴穩(wěn)定的文字信息處理平臺、統(tǒng)一的規(guī)范標準和可靠的語言知識資源,三者相輔相成、缺一不可。20多年來,維哈柯文信息處理在各個方面得到了長足的發(fā)展,取得了不少成績。在這里將主要圍繞維哈柯文操作系統(tǒng)、維哈柯文信息技術標準、維哈柯文語言信息處理及綜合應用等四個方面來討論。

2.1 維哈柯文操作系統(tǒng)

作為信息建設的基礎平臺,自主研發(fā)支持本民族語言的操作系統(tǒng)軟件是重中之重。 新疆在研發(fā)支持多文種的操作系統(tǒng)平臺上做了大量的工作,使新疆的少數(shù)民族語言文字信息處理技術基本緊跟了國內漢字信息處理的水平。

2.1.1 基于8位微機的維哈柯文文字處理技術探索

1984年3月新疆大學物理系吾守爾·斯拉木教授在上海交通大學計算機系進修時研究并用代碼方式實現(xiàn)維文字母的輸入輸出實驗;1984年5月原新疆工學院機電系沈家犖老師在蘋果機APPLE—Ⅱ上采用羅馬轉寫方案為維文輸入編碼方案,并通過BASIC語言提供的圖形疊加功能完成維文字符顯示,實現(xiàn)了一個集輸入、顯示和打印功能為一體的維文字處理系統(tǒng)。1984年7月新疆大學物理系吳宗堯、吾守爾·斯拉木等人在z-80系列PC8000(B)微機上通過在字符發(fā)生器中固化維文字形碼、采用擴展ASCII碼表示維吾爾文字母等技術,實現(xiàn)了維吾爾文輸入輸出與信息處理。

2.1.2 基于16位微機的維哈柯文DOS操作系統(tǒng)開發(fā)

20世紀80年代中期,以CCDOS為代表的漢字信息處理技術極大地推動了維哈柯文操作系統(tǒng)的研究。1984年12月新疆大學數(shù)學系劉誠信、袁保社、吐爾根·依布拉音等人首次在IBM PC微機上進行維吾爾文、哈薩克文操作系統(tǒng)研究。主要通過在GB2312的預留區(qū)定義維吾爾文字符編碼及編制字庫,修改DOS操作系統(tǒng)的輸出處理模塊實現(xiàn)維文顯示,通過編制維吾爾文自動選型程序實現(xiàn)維吾爾文的輸入,通過修改DOS的系統(tǒng)功能調用實現(xiàn)與應用系統(tǒng)的接口, 成功的開發(fā)出支持維、哈文的UHDOS1.0操作系統(tǒng)。該系統(tǒng)獲1985年新疆科技進步三等獎。1985年5月新疆大學物理系吳宗堯、吾守爾·斯拉木等人在IBMPC/XT系列微機及 DOS3.0 基礎上研發(fā)成功維吾爾文、哈薩克文、柯爾克孜文微機操作系統(tǒng)UHKDOS3.0及后來相繼開發(fā)出UHKDOS4.0、5.0、6.0及DOS7.0,實現(xiàn)了維、漢、英文兼容處理及混合編輯,實現(xiàn)了維哈柯文操作系統(tǒng)與漢、英文操作系統(tǒng)的同步升級與進步。

2.1.3 基于32位微機的維哈柯文Windows操作系統(tǒng)開發(fā)

從1987年開始,新疆大學的研究人員開始關注Windows操作系統(tǒng)的開發(fā),1992年Windows 3.1發(fā)布后,新疆大學吾守爾·斯拉木、吐爾根·依布拉音等人開始進行支持維哈柯文的Windows操作系統(tǒng)的開發(fā)。通過鉤子函數(shù)掛接維哈柯文輸入法,制作維哈柯文TrueType 字庫,編制了維哈柯文字符寬度計算函數(shù),實現(xiàn)了不等寬維哈柯文與漢英文的混合編輯處理。開發(fā)了屏幕取詞動態(tài)翻譯技術實現(xiàn)界面信息的動態(tài)翻譯,相繼開發(fā)出支持維哈柯文的Windows 3.1、Windows 95、Windows 98操作系統(tǒng)[2]。 2001年開始,微軟公司推出支持opentype字庫、具有左右向編輯引擎的Windows 2000操作系統(tǒng)。新疆大學研究人員在此基礎上通過編制符合國際標準的維哈柯文Unicode編碼,制作維哈柯文opentype字庫, 編制維哈柯文本地化數(shù)據(jù)庫,進行界面信息資源替換等方法,開發(fā)出外掛維哈柯文的Windows 2000及Windows XP操作系統(tǒng)。目前外掛維哈柯文的Windows 2000/XP技術已經成熟,并在新疆地區(qū)廣泛推廣應用。在2010年工信部電子發(fā)展基金項目支持下,新疆大學等單位正在進行Windows 7維哈柯文化研究與開發(fā),并積極開展產業(yè)化推廣應用。

2.1.4 維哈柯文linux操作系統(tǒng)開發(fā)

1998年以后,國產操作系統(tǒng)的重心轉移到以開源Linux為基礎的國產操作系統(tǒng)上來,先后成立中科紅旗、中標軟件、共創(chuàng)開源等國產操作系統(tǒng)企業(yè)。1999年8月,國產紅旗Linux誕生,新疆的研究人員開始關注Linux操作系統(tǒng)的開發(fā)。2003年新疆大學課題組在國家863計劃項目支持下首次開發(fā)出維哈柯多語種Linux操作系統(tǒng)[3]。其后,2004~2005年,國家通過自然科學基金、自治區(qū)攻關項目等渠道繼續(xù)支持維哈柯文Linux操作系統(tǒng)的完善與升級。2005年國家863重大專項《民族語言版本LINUX操作系統(tǒng)及辦公套件研發(fā)》項目獲得成功,使新疆的維哈柯文Linux操作系統(tǒng)達到了漢、英文同等的技術水平。2006年以來,國家先后設立了多個產業(yè)化項目推動維哈柯文Linux操作系統(tǒng)的產業(yè)化,目前已經有數(shù)萬套維哈柯文Linux操作系統(tǒng)軟件在新疆推廣應用。

同時,考慮到新疆地理位置與中西亞相接,語言文字相通,新疆的科技人員積極進行面向中西亞的軟件開發(fā),2008年起新疆大學先后開發(fā)了阿拉伯文、俄文Linux操作系統(tǒng)軟件及阿拉伯文、俄文嵌入式操作系統(tǒng)軟件,促進了面向中西亞軟件開發(fā)戰(zhàn)略的實施。

2.1.5 嵌入式系統(tǒng)中維哈柯文操作系統(tǒng)開發(fā)

2003年以后,各種掌上設備開始進入信息設備領域,嵌入式操作系統(tǒng)被提到重要的位置。新疆科技人員緊跟國內研究方向,在自治區(qū)高科技項目的支持下,開展了面向掌上設備的維哈柯多文種嵌入式操作系統(tǒng)的研究與開發(fā)。從2005年起先后開發(fā)出基于QT的維哈柯多文種嵌入式操作系統(tǒng),基于Linux的嵌入式設備用維哈柯文操作系統(tǒng)。2006年與微軟公司合作將Window CE嵌入式操作系統(tǒng)維哈柯文化。2010年開發(fā)出支持維哈柯文的android嵌入式操作系統(tǒng)。以上嵌入式操作系統(tǒng)的開發(fā),在維哈柯文手機等智能掌上設備中得到大量應用。

2.2 維哈柯文信息處理標準化研究

維哈柯文信息處理標準化研究工作開始于1987年[4-5],新疆大學吾守爾教授領導的課題組與新疆維吾爾自治區(qū)語委會合作,起草制定了首個信息處理交換用維文、哈文三項國家標準GB/T 12510—1990(代碼標準、點陣字型數(shù)據(jù)標準、鍵盤布局標準)[6]并發(fā)布實施。此標準與GB2312編碼規(guī)則對應,在當時的技術條件下,對新疆維哈柯文計算機信息處理技術的開發(fā)和應用起到了規(guī)范作用。隨著信息技術的進步,維哈柯文信息處理標準需要不斷補充、完善與國際化。

為了進一步與國家標準及ISO/IEC 10646國際標準接軌,從更高層面上系統(tǒng)、全面、有效的研究解決維哈柯文信息技術標準問題。在國家相關部門協(xié)調下,成立了維哈柯文信息技術國家標準工作組,由全國信息技術標準化技術委員會、自治區(qū)信息化辦公室、新疆大學、自治區(qū)民語委、自治區(qū)質量技術監(jiān)督局有關領導和專家組成的工作組先后開展了《信息技術用維、哈、柯文編碼字符集基本集》的修訂工作,成果經國家質量監(jiān)督局發(fā)布為國家標準(GB21669—2008)[7]。之后,新疆又制定了《古維文編碼字符集》國際標準、GB13000《信息交換維哈柯文編碼字符集》國家標準、《信息交換用維哈柯文(曲線)字型白體黑體》國家標準及《信息交換用維哈柯文點陣字型》國家標準。起草制定了信息技術用現(xiàn)代維哈柯文、新文字、古突厥文字三套ISO多八位10646國際標準,信息技術用維哈柯文TrueType 和OpenType字形標準(共8種字體)[8]。維哈柯文信息技術常用術語以及計算機界面菜單、提示信息、符號、術語等國家和地方標準。

以上標準是少數(shù)民族語言文字信息處理技術開發(fā)、推廣應用及實現(xiàn)產業(yè)化的重要基礎和組成部分,對加快推進少數(shù)民族地區(qū)國民經濟與社會信息化發(fā)展進程,促進各民族團結進步共同發(fā)展具有重要的意義。

2.3 維哈柯文自然語言處理技術研究

語言信息處理技術包括機器翻譯、信息檢索、信息提取、文本校對、文本生成、文本分類、自動摘要以及文字識別和語音識別等應用領域。維哈柯文信息處理研究工作在短短的十幾年里取得了不少成績,產生了積極的社會效益和經濟效益。

2.3.1 語言資源建設

2.3.1.1 單語平衡語料庫的建設

維吾爾文字詞頻統(tǒng)計分析和語料庫建設方面的最早報道見于新疆師范大學玉素甫等人2002年開展 “人機互助的通用現(xiàn)代維吾爾語自動標注語料庫加工處理系統(tǒng)的研究”項目。項目構建了800萬詞次的維吾爾文語料庫并對其進行深加工。該項目的研究解決了詞語(指詞根與詞尾切分)切分、機器詞典的設計與實現(xiàn)、標注標準的制訂、維語語料人機互助標注、歧義詞的規(guī)則處理等工作[9]。2004年又開展“現(xiàn)代維語信息技術方法和信息庫構造研究”。新疆大學吐爾根·依布拉音、古麗拉·阿東別克等人自2002年起開展了維哈柯文語料庫建設工作。在維吾爾語語料庫建設方面,構建了1 000萬詞次涉及16個領域的真實語料的語料庫;采用了選出小規(guī)模的相似度差異較大的語料庫,在此基礎上研究標注體系并進行驗證,通過研究的規(guī)范用于實際語料庫的建設中。利用現(xiàn)有的資源采用簡單實用的方法實現(xiàn)預處理工具軟件,達到一定的規(guī)模后研究與開發(fā)高性能的分析工具,并使用新的工具替換原來的工具。另外,語料庫達到一定的規(guī)模后,對標注規(guī)范再次進行了研究改進。經過三次修改,建設了123萬詞次的維吾爾語詞法標注的語料庫和3 000句的句法標注語料庫[10]。在哈薩克語語料庫建設方面,由古麗拉.阿東別克等人構建了現(xiàn)代哈薩克語詞級標注語料庫,構建了《新疆日報》哈文版2008年1-3月的真實語料的語料庫。設計了詞性標注集以及附加成分標注集,根據(jù)標注集對上述語料庫進行了詞一級的標注。構建了哈語詞典資源庫(哈語詳解詞典,詞干詞典,附加成分表,人名詞典等)[11]。

2.3.1.2 維哈柯—漢雙語平行語料庫的構建

新疆大學吐爾根·依布拉音等人在國家自然科學基金及工信部電子發(fā)展基金的資助下,自2005年開始著手構建維漢雙語對齊平行語料庫(包括篇章級,段落級,句子級,短語級,詞級對齊庫,30萬句對),哈漢雙語對齊平行語料庫(包括篇章級,段落級,句子級,短語級,詞級對齊庫,15萬句對),柯漢雙語對齊平行語料庫(包括篇章級,段落級,句子級,10萬句對)。這些雙語平行語料庫的構建為近期的漢—維哈柯機器翻譯的研發(fā)打下了堅實的物質基礎。

2.3.2 維吾爾語詞法及句法分析理論與應用技術研究

維吾爾文詞法、句法分析技術的研究從1997年左右開始。新疆師范大學的玉素甫等人先對維吾爾語詞干和詞性標注、句法分析等開展初步研究工作[12]。新疆大學多語種重點實驗室的米吉提研究與開發(fā)了維吾爾語、哈薩克語、柯爾克孜語等語種的編輯軟件和基于詞典的文字校對技術[13]。新疆大學人文學院的畢麗克孜、新疆師范大學的玉素甫等人根據(jù)維吾爾語語法教科書上的詞類分類體系,對面向自然語言處理的維吾爾語詞類進行了試探性研究。對維吾爾語非標準編碼轉換、語料庫建設工具開發(fā)、語料庫的詞性標注工具等進行了初步研究與開發(fā),并積累一定規(guī)模的維吾爾文詞性標注、詞干提取語料庫[14-16]。新疆大學古麗拉等人對維吾爾語詞干提取進行了初步研究[17],對維吾爾文字中常見的拼寫錯誤模式進行了分析和總結。中央民族大學的力提甫·托乎提對計算機詞干提取過程中遇到的元音和輔音的弱化、增音、脫落等進行系統(tǒng)地描述[18]。參考文獻 [19-20]對維吾爾文字母進行了基于大規(guī)模語料庫的統(tǒng)計,參考文獻 [21-25] 對維吾爾文字母的熵進行了計算,維吾爾語音節(jié)自動提取算法,維吾爾語詞根庫建設,維吾爾語名詞形態(tài)結構進行了研究與規(guī)則總結。參考文獻 [26]提出了基于詞典的詞性標注方法,標記集采用維吾爾語語法書上的12個基本詞性分類。文獻[27]提出了基于詞性標注的文字校對方法。文獻[28]中提出了基于N元語法的維吾爾語詞性標注模型,標記集采用新疆多語種信息技術重點實驗室自然語言處理組研制的三級標記集的一級標記集。文獻[29]對維吾爾語語料庫進行了詞頻統(tǒng)計。文獻[30]實現(xiàn)了基于最小編輯距離的維吾爾語候選詞產生算法。文獻[31]利用維吾爾語元音和輔音的和諧規(guī)則實現(xiàn)了基于規(guī)則的元音弱化處理算法。文獻[32]實現(xiàn)了基于規(guī)則的維吾爾語句子邊界識別算法。文獻[33]中介紹了新疆師范大學信息處理用維語詞匯標注標記集的確定。參考文獻[34-35]對維吾爾語特殊詞之一,對偶詞進行基于規(guī)則的的識別研究,對維吾爾語對偶詞、漢翻維吾爾語人名、維吾爾語縮寫詞識別提出了算法。文獻[36]研究了基于HMM模型的維吾爾語詞性標注模型,該模型實現(xiàn)了基于一級標記的自動標注模型。

新疆大學艾山·吾買爾在他的博士論文中對上述研究工作進行了認真分析和總結,對從生文本至嚴格按照規(guī)范標注的語料庫建設、詞法分析、淺層句法的各個環(huán)節(jié)展開深入的研究。根據(jù)維吾爾語語言的黏著性特點提出了融合使用規(guī)則、統(tǒng)計、詞典的方法,對維吾爾語進行詞法和淺層句法分析研究。其主要研究成果包括[37]: 對維吾爾語拼寫檢查方法和候選詞產生算法進行研究,提出詞典、形態(tài)分析、統(tǒng)計的拼寫檢查方法和基于噪聲信道的候選詞產生方法;根據(jù)維吾爾語句子邊界標點符號產生歧義的情況,提出了規(guī)則和統(tǒng)計相結合的維吾爾語句子邊界識別方法;對維吾爾語形態(tài)系統(tǒng)進行了深入研究,針對維吾爾語詞干提取問題,根據(jù)維吾爾語形態(tài)系統(tǒng)的分布特點提出最大熵與有限狀態(tài)自動機結合的研究方法;對維吾爾語詞性標注方法進行了研究,提出了基于混合策略的維吾爾語詞性標注的方法,先進行詞性一級標注,然后進行詞性二級標注;對維吾爾語樹庫標注體系進行研究,并在短語結構標記集的基礎上制定了維吾爾語組塊標記集。

2.3.3 哈薩克詞法分析理論與應用技術研究

哈薩克語詞法分析技術的研究從2006年左右開始。新疆大學古麗拉、達吾勒等人在上述構建哈薩克語語料庫的基礎上,對哈薩克語開展了詞頻統(tǒng)計[38],文本分類[39],基本名詞短語識別[40],詞性自動標注及標注規(guī)范的制定[41],哈薩克語人名識別詞法分類[42],哈薩克阿拉伯文與哈薩克斯拉夫文文本轉換[43]探討和研究,初步奠定了哈薩克詞法分析語言模型構建的基礎。

2.3.4 維吾爾語框架語義知識庫研究

新疆大學的阿里甫·庫爾班等人自2007年以來,對維吾爾語框架語義知識庫工程(Uyghur FrameNet,UFN)開展研究。以“引進、消化、吸收、再創(chuàng)新”為構建思路,依框架語義學理論為基礎,參考英語FrameNet工程和漢語CFN工程的體系設計思路,結合維吾爾語源語言的框架語義描述體系,探索了詞一級的維吾爾語框架語義知識庫(Uyghur FrameNet,UFN)建設和構建技術的方法,并確定了UFN工程的整體研制技術路線。UFN課題組已就維吾爾語名詞、形容詞、動詞、量詞和副詞等4 252個詞元構建了402個框架,其中2 700個詞元完成了例句標注,共標注了1.85萬例句的框架語義信息。從維吾爾語詞類的分布特征及句法屬性入手,制定了框架為單位對維吾爾詞語進行分類描述規(guī)則、詞語分類體系和相應標記集。目前,該課題組將進一步深入研究對維吾爾語框架語義角色自動標注技術領域進行研究,依次開展維吾爾語框架語義角色基礎上的句義理解計算模型研究,基于句義理解的信息檢索、問答系統(tǒng)、信息抽取研究,為實現(xiàn)語義Web中的語義知識共享以及智能化、個性化的Web服務提供基礎資源。

2.3.5 維哈柯文語言動態(tài)監(jiān)測與研究

2009年4月,為做好維吾爾語言文字的監(jiān)測和研究工作,中央民族大學與新疆師范大學聯(lián)合共建“國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心維吾爾語文研究基地”, 其后,2010年9月,中央民族大學與新疆大學聯(lián)合共建“國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心哈薩克和柯爾克孜語研究基地”。這些基地的相繼建立, 對維吾爾語、哈薩克語、柯爾克孜語的主要媒體進行動態(tài)監(jiān)測與研究,并將研究成果提交國家語言文字工作部門發(fā)布,為國家民族語言政策的制定和調整提供參考,為維吾爾語、哈薩克語、柯爾克孜語言文字的信息化建設提供服務。

2.4 維哈柯文信息處理技術綜合應用研究

2.4.1 文字處理軟件、出版系統(tǒng)、辦公套件

這是目前新疆少數(shù)民族文字軟件應用的主要領域。早期的產品是1988年新疆大學袁保社、吐爾根等研制的四通2400、2401系列維哈柯文電子打字機[44],在新疆各級政府打字室得到廣泛應用。1989年新疆大學、自治區(qū)語委會、中央民族學院等單位聯(lián)合開發(fā)了維吾爾文、哈薩克文、柯爾克孜文與漢英文全兼容的實用化“博格達書報排版系統(tǒng)”。使維吾爾文、哈薩克文、柯爾克孜文排版一刷事業(yè)告別了“鉛與火”的時代,跨入了“光與電”的時代。其后,中國計算機軟件與技術服務總公司、民族印刷廠、北京大學計算機研究所、中國民族語文翻譯中心在華光排版系統(tǒng)的基礎上,于1990年底聯(lián)合推出了能排版蒙藏維哈柯文的北大方正多文種文書報版系統(tǒng)(簡稱北大方正排版系統(tǒng))。其后的產品包括新疆大學協(xié)助開發(fā)的維哈柯文北大方正排版系統(tǒng)(1991)、濰坊華光排版系統(tǒng)(1992)、三立書版排版系統(tǒng)(1994)、錫伯文、滿文文字處理和輕印刷系統(tǒng)(1996)、“新疆2000”多文種圖文排版系統(tǒng)(2000)等。目前新疆的民族語文出版、印刷業(yè)市場主要由北大方正排版系統(tǒng)和濰坊華光排版系統(tǒng)兩套軟件“平分天下”。

目前新疆的多文種辦公套件主要有新疆理化所協(xié)助開發(fā)的維哈柯文永中office辦公套件、新疆大學協(xié)助開發(fā)的維哈柯文中標office辦公套件及新疆大學開發(fā)的維哈柯文open office辦公套件。

2.4.2 電子詞典

電子詞典是計算機處理自然語言的基礎資源,更是機器翻譯等典型的自然語言應用系統(tǒng)的知識信息源。電子詞典的規(guī)模、質量和信息容量已成為衡量某種語言、自然語言處理發(fā)展水平的關鍵指標之一。新疆大學吐爾根·依布拉音等人自2003年起在國家自然科學基金的資助下在視窗系統(tǒng)Windows系列平臺下研發(fā)“基于Unicode的多語種—多向—多媒體大型電子詞典資源開發(fā)系統(tǒng)(3MLDM DRPS)及基于Unicode的碧黎庫特英漢維電子詞典軟件(ECU Dictionary)”。該系統(tǒng)集成編碼轉換、文本詞庫整理、圖片資源整理、語音資源整理、詞匯、圖像、聲音加密庫生成,使用幫助6個子系統(tǒng),包含各類應用程序模塊28個。對66部權威詞典資源的詞匯進行優(yōu)選,從中抽取出英—維詞條24.8萬條,維—英詞條27.5萬條,漢—維詞條144.18萬條,維—漢詞條168.27萬條,維—維詞條12萬條,并繪制和收集6 000多張圖片,錄制65萬條詞匯的語音文件,構建了由詞典設置、檢索、多媒體信息處理、屏幕取詞、附加功能、軟件升級和系統(tǒng)幫助7個子系統(tǒng),30個應用程序模塊組成。這部電子詞典無論從規(guī)模、質量還是從包含的聲圖文信息來看,可堪稱是目前國內外最大的一部維漢英電子詞典。將會對漢維、維漢機器翻譯系統(tǒng)開發(fā)以及其他維吾爾文信息處理技術研究發(fā)揮重要的作用。該電子詞典自2007年起在新疆各地得到了廣泛應用,受到廣大用戶的歡迎。另外,烏魯木齊市安卡維文軟件開發(fā)有限公司于1998年以來,研發(fā)了“維軟大詞典”系列軟件,在全疆各地得到廣泛應用。烏魯木齊市一帆電子有限公司研發(fā)的“漢—維哈柯文一帆掌上電子詞典”填補了新疆掌上電子詞典的空白,并在全社會得到廣泛應用。

2.4.3 機器翻譯

機器翻譯研究工作最早的報道見于新疆大學王世杰、米爾夏提等人1996年在國家自然科學基金的資助下開展的漢維機器翻譯研究工作。主要從語法規(guī)則的角度開展研究,探索構建了語法規(guī)則庫,小規(guī)模機器詞典等。2005年起新疆大學哈力木拉提、吐爾根等人開展了基于詞典的計算機輔助翻譯系統(tǒng)的研究工作。2009年新疆大學吐爾根、艾山等人與新疆信息產業(yè)有限公司合作在工信部電子信息產業(yè)發(fā)展項目的資助下開展了漢維哈柯計算機輔助翻譯軟件的研發(fā)。該軟件采用基于實例與統(tǒng)計相結合的混合策略架構,其原型系統(tǒng)測試表明: 漢維譯文可讀性達80%以上,漢哈譯文可讀性達73%,漢柯譯文可讀性達65%,目前正在進一步優(yōu)化中。另外,中國科學院計算技術研究所劉群等人與新疆大學吐爾根等人合作于2010年推出了基于統(tǒng)計的維漢機器翻譯系統(tǒng)并在網上公開使用,其翻譯譯文可讀性達到了70%以上。中國科學院新疆理化技術研究所周俊林等人自2009年以來也在開展基于短語的漢維/維漢統(tǒng)計機器翻譯研究,2011年也推出了原型系統(tǒng)[45]。

2.4.4 文字識別

由新疆大學哈力木拉提和清華大學丁曉青聯(lián)合開發(fā)的首款支持維吾爾文、哈薩克文、柯爾克孜文(簡稱維哈克文)以及阿拉伯文(簡稱阿文)的印刷文檔識別系統(tǒng)2004.8.10在清華大學通過了教育部組織的技術鑒定。作為我國新疆地區(qū)使用的主要民族文字,維吾爾文、哈薩克文、柯爾克孜文與阿拉伯文非常相近。阿拉伯文字形相對于方塊漢字、有很大不同,由于連寫字符多,相似字多,再加之文本書寫方式從右向左,其文字識別工作更為困難。這款由清華大學與新疆大學聯(lián)合推出的維哈柯(漢英)阿(英)印刷文檔識別系統(tǒng)則較好地解決了這一難題,識別率均在97%左右。維哈柯文OCR軟件已由新疆賽卡信息科技有限公司在新疆地區(qū)推廣[46-47]。關于維哈柯文文字手寫識別以及聯(lián)機手寫的研究新疆師范大學的玉蘇甫等人,新疆大學的哈力木拉提、達吾勒等人也在進行探索性研究,目前也出了些初步成果[48]。

2.4.5 語音識別與合成

維吾爾語音識別研究方面的研究報道最早見于新疆大學吾守爾·斯拉木等人20世紀90年代初期研制的聯(lián)想式維吾爾語音識別系統(tǒng),基于四萬個詞的語句識別率達90%以上。提出的基于跟蹤性矢量量化VQ技術及算法,自適應自學習優(yōu)化技術以及具有狀態(tài)駐留段長分布的新HMM模型及估算,語音信號新的分割法及算法,大幅度提高了識別的準確率。新疆師范大學王昆侖等人20世紀90年代后期開展的基于音節(jié)的非特定人語音識別研究,構建維吾爾語語音數(shù)據(jù)庫,并進行了手工標注及軟件實現(xiàn)[49]。2000年以后這方面的研究開展的很活躍。新疆大學的吾守爾、艾斯卡爾、地力木拉提、那斯爾江等人相繼從不同的角度開展了維吾爾語識別與合成方面的研究。首先在教育部和國家民委的資助下與中國社會科學院民族與人類研究所語音研究室的鮑懷翹、鄭玉玲構建了“統(tǒng)一中國民族語言語音聲學參數(shù)數(shù)據(jù)庫”分庫“維吾爾語語音聲學參數(shù)庫”,并以此為基礎對于維吾爾語語音音素模型的提取、音節(jié)韻律特征的聲學分析等方面進行了較為深入的研究,研發(fā)出了韻律接近于自然人發(fā)讀音的基于多級語音基元及其音律參數(shù)的維吾爾語音合成軟件[50-51]。2010年新疆大學和安徽科大訊飛信息科技股份有限公司聯(lián)合建立了新疆大學訊飛語音及語言聯(lián)合實驗室,該實驗室的成立將進一步提高在語音及語言核心技術方面的研究和工程技術水平。新疆多民族語音及語言處理的基礎研究及技術在經濟建設、國家安全、“雙語”教學等領域的應用發(fā)揮積極的促進作用。

2.4.6 其他研究

目前新疆有許多高校、企業(yè)及公司從事維哈柯文應用系統(tǒng)的開發(fā)工作,已經開發(fā)并上市的部分軟件包括: 智能校對系統(tǒng)、 搜索引擎、維漢遠程教學系統(tǒng)、維漢雙語交互式實時教學系統(tǒng),維、漢雙語教學資源庫,維吾爾文手機軟件, 維漢公文傳輸系統(tǒng)等。

20多年來維哈柯文信息處理技術在其他領域的應用研究也取得了不少成果,產生了積極的社會效益和經濟效益,并有力地推動了民文信息技術發(fā)展。因篇幅所限,本文不做詳細介紹。

3 維哈柯文信息處理技術發(fā)展方向

3.1 進一步加強標準化研究工作

維哈柯文信息技術標準是事關維哈柯文軟件開發(fā)及產業(yè)化的基礎性、全局性、關鍵性研究工作。目前我們雖然在維哈柯文信息技術標準的研究制定方面取得了一定的成績,但是面對社會的不斷發(fā)展,面對少數(shù)民族地區(qū)信息化發(fā)展的需求,有愈來愈多的信息需要規(guī)范, 有愈來愈多的標準需要進行研究和制定,維哈柯文信息技術標準工作將肩負更加重要的歷史使命和責任。需要進一步加強維哈柯文標準化研究工作,進一步拓寬制定標準的領域與行業(yè),使之服務于新疆經濟建設。

3.2 進一步開展自然語言處理技術研究

進一步開展現(xiàn)代維吾爾語語言知識庫方面研究。構造維哈柯文信息庫,句子樹庫等,為文本段落、文章結構研究打下基礎。積極開展現(xiàn)代維吾爾語語義研究,構造語義知識庫也是當務之急。還需進一步開展維哈柯文機器翻譯技術研究,開展維哈柯文智能化識別技術研究,包括語音識別技術、語音合成技術,文字識別技術等。也需解決維哈柯語言、文字的計算機自動閱讀、翻譯問題。

3.3 進一步推動維哈柯文軟件產業(yè)化,推動科技成果的轉化與應用

推動和實施維哈柯文軟件產業(yè)化,不僅是新疆大力推進信息化建設的強烈要求,也是發(fā)展區(qū)域經濟與信息產業(yè)的需求,更是反對民族分裂,實現(xiàn)邊疆穩(wěn)定并縮小新疆民族間的“數(shù)字鴻溝”的需要。要進一步積極推動維哈柯文軟件產業(yè)化工作和維哈柯文科技成果的轉化與推廣應用工作,促進新疆地區(qū)信息化建設。

4 結束語

新疆維哈柯文字具有編輯處理方向與漢英文相反,字符寬度不等及連筆復雜變形規(guī)則復雜,與漢英文兼容處理時光標控制復雜,斷行續(xù)行勻齊復雜等特點,處理技術難度大。20多年來,新疆的科技人員經過艱辛的努力,克服了一系列困難,解決了維吾爾文信息處理的技術難題,開發(fā)了一系列維哈柯文信息處理系統(tǒng)軟件及產品,為新疆地區(qū)信息化奠定了基礎,對新疆地區(qū)經濟發(fā)展、技術進步、社會進步及民族團結,有著非常重要的意義和作用。但新疆的維哈柯文信息處理技術還需要進一步發(fā)展,還有許多事情要作。隨著西部大開發(fā)戰(zhàn)略的進一步實施,在援疆計劃的支持下,相信新疆的多文種信息處理事業(yè)會得到進一步的促進與加強,必定會帶動新疆經濟、技術與社會的發(fā)展與進步。

[1] http://baike.baidu.com/view/3117338.htm中國少數(shù)民族語言文字[DB/OL].

[2] 吾守爾·斯拉木.project and realization for Windows’95 processing platform in different editing directions of multi-languages[C]//第16屆世界計算機大會論文集,2000年.

[3] 繆成,袁保社 .維哈柯漢英多語種處理平臺的設計與實現(xiàn)[J]. 計算機工程, 2004, 10: 71-74.

[4] 吾守爾·斯拉木. 對維文信息處理用三項標準的探討[J].中文信息學報,1987,1(4):61-68.

[5] 袁保社,吐爾根·依布拉音 .維哈柯文信息處理標準化問題的討論[J]. 計算機世界,1988.42.

[6] GB13000.1—1993.信息技術,通用多八位編碼字符集(UCS)[S].北京: 中國標準出版社, 1993.

[7] GB216690—2008.信息技術,維吾爾文、哈薩克文、柯爾克孜文編碼字符集[S].北京: 中國標準出版社,2008.

[8] 買買提艾力, 佟加·慶夫, 亞森·伊明. 信息交換用維吾爾文、哈薩克文、柯爾克孜文字體字形標準研究[J].語言與翻譯(漢文),2005,(4): 51-53.

[9] 玉素甫·艾白都拉.維語句法分析器中的詞義排歧問題的研究[J].計算機應用與軟件,2002,19(4): 59-62.

[10] 艾山·吾買爾.維吾爾語詞法句法分析關鍵技術的研究[D][博士學位論文].新疆大學.2009.

[11] 古麗拉·阿東別克, 達吾勒·阿布都哈依爾, 木合亞提·尼亞孜別克.現(xiàn)代哈薩克語詞級標注語料庫的構建研究 [J]. 新疆大學學報, 2009, 26(4): 394-401.

[12] 玉素甫·艾白都拉,吾守爾·斯拉木. 維吾爾語詞法分析器成功[J].中文信息,1997.4.

[13] 米吉提·阿不力米提.在多文種環(huán)境下的維吾爾語文字校對系統(tǒng)的開發(fā)研究[J].系統(tǒng)工程理論與實踐,2003,23(5):117-124,144.

[14] 畢麗克孜.現(xiàn)代維吾爾語語料庫詞類標注實驗性研究[D].新疆大學碩士研究生畢業(yè)論文,2003.

[15] Yusup Aibaidulla, Kim-Teng Lua. The development of Tagged Uyghur Corpus[C]//Proceedings of PACLIC17, 1-3 October 2003, Sentosa, Singapore, 228-234.

[16] 玉素甫·艾白都拉,阿不都熱依木·艾沙.現(xiàn)代維吾爾語語料庫的詞類標注研究[J].民族語文,2004,4.

[17] 古麗拉·阿東別克,米吉提·阿布力米提. 維吾爾語詞切分方法初探[J]. 中文信息學報, 2004, 18 ( 6) : 61-65.

[18] 力提甫·托乎提.電腦處理維吾爾語語音和諧律的可能性[J].中央民族大學學報,2004,(5): 108-113.

[19] Yusup Abaydul Research on System of Contemporary Uyghur Word Frequency Statistics and High Frequency Words[C]//Procceedings of the International Conference on Chinese Computing 2005, 21-23 March 2005, Singapore.

[20] 艾尼瓦爾,吐爾根·依布拉音. Uighur Alphabetic Statistics and Application[C]//IEEE NLP-KE’05, 2005.10, Wuhan,China.

[21] 塞麥提·麥麥提敏.基于統(tǒng)計的維吾爾文信息熵的估計[J]. 電腦知識與技術,2009,5(4): 1014-1017.

[22] 吐爾根·依布拉音, 艾尼瓦爾. Uighur Syllable Automatic Segment Algorithm[C]//The Proceedings of The CHINA Association for Science and Technology(Science Press).

[23] 阿比達,吐爾根·依布拉音.維吾爾文音節(jié)切分方法的研究與實現(xiàn),民族語言文字信息處理技術研究[C]//第十一屆全國民族語言文字信息技術研討會論文集,西苑出版社,2007,2.

[24] 玉素甫·艾白都拉,阿不都熱依木·艾沙,熱孜萬,等.現(xiàn)代維吾爾語語料庫加工處理中的機器詞根詞典研究[C]//第十屆全國少數(shù)民族語言文字信息處理學術研討會論文集,2005,7.

[25] 阿依克孜·卡德爾,開沙爾·卡德爾,吐爾根·依布拉音. 面向自然語言信息處理的維吾爾語名詞形態(tài)分析研究[J].中文信息學報,2006,20(3): 43-48.

[26] 吐爾根·依不拉音,阿里甫·庫爾班.基于詞典的現(xiàn)代維吾爾語詞性自動標注系統(tǒng)的研究[C]//中文輸入技術發(fā)展歷程及輸入方案匯編(論文集),2006,11.

[27] 牛洪梅,加米拉·吾守爾,吐爾根·依布拉音.現(xiàn)代維吾爾語的詞性標注校對技術研究[J].伊犁師范學院學報(自然科學版),2007,(1): 43-46.

[28] 買合木提·買買提,吐爾根·依布拉音.基于n-gram 的維吾爾語詞性標注研究[C]//第二屆中國少數(shù)民族青年自然語言處理學術研討會.2008,10: 185-189.

[29] 艾斯卡爾·亞克甫, 肖克來提, 玉素甫·艾白都拉.維吾爾語詞頻統(tǒng)計子系統(tǒng)的體系結構[J]. 新疆師范大學學報(自然科學版), 2006,25(2), 16-20.

[30] 瑪依熱·依布拉音,米吉提·阿不里米提,艾斯卡爾·艾木都拉.基于最小編輯距離的維語詞語檢錯與糾錯研究[J].中文信息學報,2008,22(3): 110-114.

[30] 米熱古麗·艾力,米吉提·阿不力米提,艾斯卡爾·艾木都拉.基于詞法分析的維吾爾語元音弱化算法研究[J].中文信息學報,2008,22(4): 43-47.

[32] 阿比達·吾買爾,吐爾根·依布拉音.維吾爾語句子邊界識別的設計與實現(xiàn)[J].新疆大學學報, 2008, 25

(3): 360-364.

[33] 玉素甫·艾白都拉,阿不都熱依木·沙力,阿拉帕提古麗.信息處理用維語詞匯標注標記集的確定[J].計算機應用,2009,29(7): 2006-2008.

[34] 扎依達·木沙,吐爾根·依布拉音. 基于規(guī)則的維吾爾語對偶詞識別算法研究[J]. 新疆大學學報, 2009, 26(2): 221-226.

[35] 扎依達·木沙. 維吾爾對偶詞等特殊詞的自動識別技術研究[D].[碩士學位論文]新疆大學.

[36] 買合木提·買買提.基于統(tǒng)計的維吾爾語詞性標注研究與實現(xiàn)[D]. [碩士學位論文]新疆大學.

[37] 艾山·吾買爾,維吾爾語詞法句法分析關鍵技術的研究[D][博士學位論文]新疆大學,2009.

[38] 王花,古麗拉·阿東別克. 基于語料的哈薩克語詞頻統(tǒng)計研究 [J]. 計算機工程, 2010, 36(24): 59-61.

[39] 孫瑞娜,古麗拉·阿東別克. 哈薩克語基本名詞短語自動識別研究與實現(xiàn) [J]. 中文信息學報, 2010, 24(6): 114-119.

[40] 古麗拉·阿東別克. 改進的hmm應用于哈薩克語詞性標注 [J]. 計算機工程與應用, 2010, 46(36): 147-149.

[41] 古麗拉·阿東別克, 伊力亞爾. 哈薩克語詞性自動標注研究初探 [J]. 計算機工程與應用, 2008, 44(20): 242-244.

[42] 阿布都哈依爾, 古麗拉·阿東別克. 哈薩克語詞法分析器的研究與實現(xiàn) [J]. 計算機工程與應用, 2008, 44(19): 146-149.

[43] 加爾木哈買提, 古麗拉·阿東別克. 中國哈薩克阿拉伯文與哈薩克斯拉夫文文本轉換 [C]//第三屆學生計算語言學研討會論文集, 2006.

[44] 袁保社,等.24W系列維漢英文電子打字機的研制[J].電子技術應用,1989,8.

[45] 董興華, 周俊林, 郭樹盛. 基于短語的漢維/維漢統(tǒng)計機器翻譯 [J]. 計算機工程, 2011, 37(9): 16-8,21.

[46] 王華, 丁曉青, 哈力木拉提. 多字體多字號印刷維吾爾文字符識別 [J]. Journal of Tsinghua University(Science and Technology), 2004, 44(7): 946-949.

[47] 哈力木拉提, 阿孜古麗. 多字體印刷維吾爾文字符識別系統(tǒng)的研究與開發(fā) [J]. 計算機學報, 2004, 27(11): 1480-1484.

[48] 達吾勒·阿布都哈依爾, 古麗拉·阿東別克. 基于ann的哈薩克文手寫文字識別系統(tǒng)的研究 [J]. 計算機工程與應用, 2008, 44(1): 225-228.

[49] 王昆侖. 基于cdcpm的維吾爾語非特定人語音識別 [J]. 計算機研究與發(fā)展, 2001, 38(10): 1242-1246.

[50] 姑麗加瑪麗·麥麥提艾力, 艾斯卡爾·艾木都拉. 基于音素及其特征參數(shù)的維吾爾語音合成技術 [J]. 中文信息學報, 2008, 22(4): 100-104.

[51] 孜麗卡木·哈斯木, 那斯爾江·吐爾遜, 吾守爾·斯拉木. 維吾爾語詞首音節(jié)元音聲學分析 [J]. 中文信息學報, 2009, 23(5): 114-118.

猜你喜歡
新疆大學維吾爾語柯文
新疆大學紡織與服裝學院攝影作品選登
A Corpus-Based Study on Linguistic Variables of CET Writings
淺析維吾爾語表可能語氣詞
統(tǒng)計與規(guī)則相結合的維吾爾語人名識別方法
提高大學文科數(shù)學課堂教學效果的探索
寒冷的子宮
指稱在維吾爾語語篇中的銜接方式及其功能
維吾爾語詞重音的形式判斷
东阿县| 策勒县| 巢湖市| 卢湾区| 淳化县| 明溪县| 马尔康县| 淮安市| 灌阳县| 图片| 南宁市| 西青区| 浦东新区| 新化县| 嘉黎县| 镇巴县| 威宁| 都安| 手机| 秀山| 蓝田县| 博乐市| 深水埗区| 嘉义市| 伽师县| 贞丰县| 汉川市| 万安县| 巴彦淖尔市| 陈巴尔虎旗| 吉木萨尔县| 乌兰县| 崇文区| 洛阳市| 青海省| 崇阳县| 昌吉市| 富蕴县| 延长县| 惠水县| 福泉市|