官卻多杰
(青海師范大學民族師范學院,青海共和,813000)
機器翻譯用藏文自動分詞探究
官卻多杰
(青海師范大學民族師范學院,青海共和,813000)
針對藏漢機器翻譯過程中的藏文預(yù)處理,提出切分單元盡可能短語化,從而降低藏文分詞算法的復(fù)雜度。經(jīng)測試能有效提高藏漢機器翻譯的效果,符合藏漢機器翻譯源文預(yù)處理的需求。
機器翻譯;藏文;自動分詞
在藏漢機器翻譯過程中,首先要對源文藏文部分進行分詞預(yù)處理。源文切分粒度直接影響分詞算法的復(fù)雜度,單純意義的分詞算法將會以詞為單位進行自動切分,盡可能切分到最細小的詞語單元。但在藏漢機器翻譯時,切分粒度太小則翻譯單元隨之增加,并且需要進一步考慮這些細小的翻譯單元在目標語言中的位置。由此可知,采用純粹的分詞算法進行藏漢機器翻譯源文預(yù)處理,既增加了分詞算法的復(fù)雜度,又降低了藏漢機器翻譯的效率。本文提出在藏漢機器翻譯源文預(yù)處理時,藏文分詞粒度盡可能短語化,與翻譯詞典中最長的詞條匹配,減少翻譯單元和語序調(diào)整等額外的開銷,從而縮短預(yù)處理時間并有效提高藏漢機器翻譯的效率和質(zhì)量。
文章借鑒陳玉忠等人提出的基于格助詞和接續(xù)特征的書面藏文自動分詞方案[1],首先對藏文進行預(yù)處理,對文本中的非藏文部分進行切分;其次,對純藏文部分進行處理,根據(jù)藏文標點符號和格助詞將上一步得到內(nèi)容進行更加詳細的劃分;最后對切分中出現(xiàn)的歧義和未登錄詞進行識別并及時處理,從而確保切分的準確性,將所有的小段切分結(jié)果進行重新組成,形成最后的輸出結(jié)果。
文章進行分詞算法研究的主要目的是對藏漢機器翻譯中的源文部分進行預(yù)處理工作,機器翻譯用藏文分詞算法不僅要盡可能多的認詞,同時需要兼顧后續(xù)翻譯時能夠找到切分出的詞匯譯文,因此該分詞算法所用的詞典不能簡單的考慮到分詞,同時也應(yīng)該充分考慮其收錄的詞匯是否具有譯文。考慮到這些因素,詞典收錄了《新編藏文字典》和《藏漢大辭典》的詞條,其中多數(shù)藏文詞匯都有相應(yīng)的漢文譯文。在進行自動分詞研究的過程中主要使用哈希表進行詞典構(gòu)造。哈希表的元素查找速度不受表中元素個數(shù)的影響,元素查找速度較快。[2]
在保留與詞典匹配的最長塊的前提下,依據(jù)藏文文法中各類格助詞的特性和藏文標點符號將純藏文文本進行切分,對切分結(jié)果進一步進行消除切分歧義和識別未登錄詞的工作,得到更加精確的切分結(jié)果,從而避免機器翻譯中的錯誤。
3.1 格助詞切分
對藏文進行分詞的核心在于結(jié)合藏文字、詞、句各類形式特征來確定格助詞及其接續(xù)特征規(guī)則的識別。因此,在進行藏文分詞的過程中如何準確的實現(xiàn)對格助詞劃分關(guān)系到分詞的最終效果。
表1 作格助詞添接規(guī)則
表2 屬格助詞添接規(guī)則
表3 正向最大匹配分詞過程
3.2 正向最大匹配分詞算法設(shè)計
利用詞典對藏文分詞時采用正向最大匹配方法,將被切分段從第一個音節(jié)開始直到末尾都假設(shè)為詞在詞典中進行查找,直至發(fā)現(xiàn)以該音節(jié)為起點的最長詞然后切分,用同樣的思路將剩下部分進一步進行切分。在完成藏文分詞工作之后,還需要將所有切分的小段進行重新組合。切分過程如表3所示,假如在進行切分時,需要進行切分的文中的成詞詞條都沒有在詞典中收錄,就需要對表中所有的需要進行查詢的詞條進行查找,遍歷一次后確定沒有沒有匹配詞條,就將待切文本作為一塊。
在對藏文進行分詞時經(jīng)常會遇到切分歧義和未登錄現(xiàn)象,這兩個問題對藏文分詞的最終準確性會產(chǎn)生影響。因此,在進行藏文分詞時,解決好歧義消除并對未登錄詞進行自動識別,對提高藏文分詞的準確性有十分重要的作用。
4.1 歧義消除
切分歧義是漢語自動分詞研究中的一大難題[4],藏文分詞中也同樣存在這樣的問題,由于藏文詞也存在多義性,并且在詞與詞之間沒有自然切分的標記,因此通過程序?qū)Σ匚奈谋具M行自動分詞,難免會出現(xiàn)歧義現(xiàn)象。
在對藏文文本進行自動分詞時經(jīng)常出現(xiàn)的歧義主要有交集歧義和組合型歧義兩種,如“”,可切分為“”或“”,又如“”,可被切分為“”或“”。在檢測到歧義的基礎(chǔ)上才能采取有效的措施消除歧義現(xiàn)象,使切分工作更加準確。
文章在進行研究的過程中通過正向最大匹配得到分詞的初步結(jié)果,在進行分詞的過程中只通過正向最大匹配工作是無法確認是否產(chǎn)生切分歧義的。故此為了及時發(fā)現(xiàn)并解決切分歧義問題,在進行正向最大匹配的基礎(chǔ)上還需要進行一次逆向最大匹配,如果所得結(jié)果不一致則表明出現(xiàn)了切分歧義。這種方法主要應(yīng)用到交集型歧義現(xiàn)象檢測中,而對于組合型歧義則很難起到應(yīng)有的效果。為此,在進行漢文分詞研究時,使用正向最小匹配以及逆向最大匹配的方法,則不僅能對檢測交集型歧義字段起到有效作用,還能夠?qū)M合型歧義字段進行有效識別[5]。而這種方法在藏文分詞中是否也能起到較好的效果需要進一步驗證。雖然在進行實際切分時,雙向匹配存在檢測盲區(qū),但是仍舊有比較高的切分歧義檢測能力并且是十分容易實現(xiàn)的。文章在藏文自動分詞過程中,主要采用雙向匹配檢測切分時存在的歧義。
藏文切分歧義消除還目前沒有具有權(quán)威性的研究成果,采用何種方法檢測并解決在藏文分詞中出現(xiàn)的切分歧義,沒有系統(tǒng)的理論成果和方法進行借鑒。文章在進行研究的過程中,也只是對這一問題進行初步探討,通過對真實的藏文文本進行多次測試,表明文章中經(jīng)過預(yù)處理以及分詞處理后所得到的分詞結(jié)果準確率比較高,因此可以將其做為進行藏漢機器翻譯時對藏文的預(yù)處理工具。文章在研究過程中沒有對歧義檢測以及如何消除歧義進行進一步深入的研究,而主要是借鑒了漢語在進行自動分詞中消除歧義以及檢測歧義的方法,對藏文進行自動分詞時出現(xiàn)的歧義進行參照性設(shè)想。至于能否講漢語自動分詞中消解歧義所使用的方法直接引入藏文自動分詞歧義消解的過程中,還需要進行跟進一步的研究和論證工作。
4.2 未登錄詞處理
在進行自動分詞時,如果存在沒有收錄的詞匯,就必定會出現(xiàn)不能夠識別的詞匯,這些詞匯指的就是未登錄詞。在漢文自動分詞研究中對未登錄的術(shù)語詞,利用大規(guī)模語料提煉出N元漢字串的分布由機器自動生成候選表,在此基礎(chǔ)上通過人工選出新詞并添加到詞表中,再通過詞典對未登錄詞匯進行識別。在處理沒有登錄的專有名詞時,首先按專有名詞庫中的統(tǒng)計知識以及歸納知識中的特定結(jié)構(gòu)規(guī)則,猜測可能成為專有名詞的漢字串并給出其置信度,之后使用對該給專有名詞表示意義的緊鄰上下文信息,以及全局統(tǒng)計量和局部統(tǒng)計量,進行進一步的鑒定[6]。
藏文分詞未登錄詞的識別需要不斷拓展和深入研究藏文詞頻信息、術(shù)語信息等的統(tǒng)計工作,并結(jié)合藏文自身的語法特征進行識別。本文在進行研究的過程中主要以探討的形式對藏文自動分詞的過程中出現(xiàn)的歧義現(xiàn)象進行嘗試性消除,并且在這個過程中對未登錄詞進行了簡單的處理,實踐證明本文中未登錄詞的識別方法有一定實際作用。
在文章進行研究的過程中充分借鑒了前人的研究成果,根據(jù)藏文文法的獨特特點,設(shè)計并實現(xiàn)了切分精度較高的藏文自動分詞算法,實踐證明文章提出的藏文自動分詞方法具有一定的實用性,這為進行藏漢機器翻譯源文預(yù)處理提供了技術(shù)上的保障。
[1]陳玉忠,李保利,俞士汶,蘭措吉.基于格助詞和連續(xù)特征的藏文自動分詞方案.語言文字應(yīng)用,2003,1:75-82
[2]雍俊海. Java程序設(shè)計教程.北京:清華大學出版社.2007:148-149
[3]才智杰.藏文自動分詞系統(tǒng)中緊縮詞的識別.中文信息學報,2009,23(1):35-37
[4]孫茂松,鄒嘉彥.漢語自動分詞研究評述.當代語言學,2001,3(1):22-32
[5]苗奪謙,衛(wèi)志華.中文文本信息處理的原理與應(yīng)用.北京:清華大學出版社,2007:34-37
[6]孫茂松,鄒嘉彥.漢語自動分詞研究評述.當代語言學,2001,3(1):22-32.
Research on Tibetan Segmentation for Machine Translation
Guan Queduojie
(National Normal College of Qinghai Normal University,Qinghai Gonghe,810008)
According to the Tibetan and Chinese Machine Translation pretreatment process, put forward phrases as segmentation unit, so as to reduce the complexity of the Tibetan word segmentation algorithm. The test can improve the effect of Tibetan and Chinese Machine Translation effectively, meet Tibetan and Chinese Machine Translation source text pretreatment requirements.
Machine Translation;Tibetan;segmentation
TP391
A