楊利潤 斯琴巴圖
摘要:蒙古文電子文檔中普遍存在文本錯(cuò)誤,主要有非詞錯(cuò)誤、真詞錯(cuò)誤、形對碼錯(cuò)錯(cuò)誤、句法語義錯(cuò)誤等。其中,尤以形對碼錯(cuò)錯(cuò)誤最為普遍,且難以人為判斷對錯(cuò),只能由計(jì)算機(jī)程序自動校對。梳理文本錯(cuò)誤是做蒙古文自動校對工作的基礎(chǔ)和依據(jù),其重要性不言而喻。本文在梳理了蒙古文電子文檔中文本錯(cuò)誤類型的基礎(chǔ)上,列出了錯(cuò)誤產(chǎn)生的相應(yīng)原因及解決方案。
關(guān)鍵詞:蒙古文;文本錯(cuò)誤;自動校對
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)11-0211-03
Abstract: There are common text errors in Mongolian electronic documents, mainly including non-word errors, true word errors, pronunciation non-word errors, and syntactic and semantic errors. Among them, especially the pronunciation of non-word errors is the most common, and it is difficult to judge right or wrong manually, and can only be automatically proofread by a computer program. To sort out the text errors is the basis and basis for the automatic text proofing work in Mongolia, and its importance is self-evident. Based on the text error types in Mongolian electronic documents, this paper lists the corresponding causes and solutions of errors.
Key words: Mongolian; text error; automatic text proofing
1 文本錯(cuò)誤類型
由于蒙古文不同于英文的特點(diǎn),蒙古文電子文檔中除了有英文文檔中出現(xiàn)的非詞、真詞、句法語義等錯(cuò)誤以外,還有形對碼錯(cuò)錯(cuò)誤等普遍存在,且比較獨(dú)特的錯(cuò)誤。
1.1 非詞錯(cuò)誤
2.3 編碼轉(zhuǎn)換
由于歷史原因,以往有大量蒙古文電子文檔都是基于字形編碼或音形混合編碼(如方正6.0 文檔等)存儲。這些電子文檔轉(zhuǎn)換為基于語音的國際編碼時(shí),因?yàn)橹荒苓_(dá)到字形上的一致而導(dǎo)致文本錯(cuò)誤。例如,上述單詞“
3 文本錯(cuò)誤解決方案
3.1 自動校對軟件
使用自動校對軟件處理非詞錯(cuò)誤相對簡單,有比較成熟的一些校對算法可以很好的勝任校對任務(wù),但處理真詞錯(cuò)誤則比較困難。對于蒙古文電子文檔中真詞錯(cuò)誤的處理,最新研究有內(nèi)蒙古大學(xué)斯·勞格勞副教授的碩士生迎春在其碩士論文“蒙古文真詞錯(cuò)誤的偵測與糾錯(cuò)建議的生成研究”中給出的一個(gè)采用基于統(tǒng)計(jì)的方法和基于易混淆詞詞典的方法設(shè)計(jì)實(shí)現(xiàn)的蒙古文真詞錯(cuò)誤校對系統(tǒng)。該系統(tǒng)的召回率為82%,正確率為3.4%,糾錯(cuò)建議生成率為91%。對于形對碼錯(cuò)錯(cuò)誤的處理,郝莉在其文章“基于貝葉斯算法的蒙古文文本自動校對研究”中給出了一種使用貝葉斯算法校正由于讀音混淆而引起的錯(cuò)誤(讀音非詞)的方法,其拼寫糾錯(cuò)率可達(dá)89%以上。廉冰在其論文“基于有限狀態(tài)自動機(jī)的蒙古文同形詞校對方法的研究”(該文中的同形詞錯(cuò)誤的概念與本文中的讀音非詞錯(cuò)誤的概念相同)中也給出了一種讀音非詞的校對方法,平均準(zhǔn)確率達(dá)到了91.5%,平均召回率為84.9%。
3.2 輸入法校對功能
通過輸入法自帶的校對功能,可以解決文檔中的非詞錯(cuò)誤。例如,對正在編輯的文檔,通過輸入法自帶的校對功能,在輸入的同時(shí)提示用戶,使其進(jìn)行正確錄入。目前,主流的蒙古文輸入法有兩種,一個(gè)是蒙科立2016輸入法,另一個(gè)是德力海蒙古文輸入法2016-教育版。這兩種輸入法都具備一定的非詞提醒功能,前者是用紅色顯示提醒用戶錄入的是非詞,后者是用黑色顯示提醒用戶錄入的是非詞。輸入法自帶的校對功能不能處理真詞錯(cuò)誤。
使用德力海蒙古文輸入法2016-教育版輸入讀音非詞錯(cuò)誤編碼時(shí),會自動處理錯(cuò)誤,將錯(cuò)誤編碼轉(zhuǎn)換成正確編碼。
3.3 人工結(jié)合校對軟件
3.4 培養(yǎng)使用者正確錄入習(xí)慣
蒙古文文檔中,讀音非詞錯(cuò)誤主要是由于使用者沒有養(yǎng)成正確錄入習(xí)慣,只求字形正確而導(dǎo)致。所以通過培養(yǎng)使用者正確錄入習(xí)慣,從而避開導(dǎo)致讀音非詞類的形對碼錯(cuò)錯(cuò)誤的起因是一種較好的從源頭解決問題的方案。
4 總結(jié)
蒙古文電子文檔中普遍存在文本錯(cuò)誤,主要有非詞錯(cuò)誤、真詞錯(cuò)誤、形對碼錯(cuò)錯(cuò)誤、句法語義錯(cuò)誤等。分析梳理這些文本錯(cuò)誤及其產(chǎn)生的原因,對蒙古文文本自動校對工作有重要的意義,是文本自動校對工作的基礎(chǔ)和依據(jù)。目前,對非詞錯(cuò)誤的處理相對成熟,有較多的處理算法和模型;解決真詞錯(cuò)誤方面的研究相對薄弱,缺乏實(shí)用算法和方案;對形對碼錯(cuò)錯(cuò)誤處理的研究較廣泛,但主要集中在讀音非詞的校正上,而同形詞替代引起的錯(cuò)誤有待更進(jìn)一步研究。
參考文獻(xiàn):
[1] 張仰森,俞士汶.文本自動校對技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2006(6):8-12.
[2] 斯·勞格勞.基于不確定有限自動機(jī)的蒙古文校對算法[J].中文信息學(xué)報(bào),2009,23(6):110-115.
[3] 迎春.蒙古文真詞錯(cuò)誤的偵測與糾錯(cuò)建議的生成研究[D].呼和浩特:內(nèi)蒙古大學(xué),2017.
[4] 包敏娜.《蒙古文印刷體掃描識別系統(tǒng)》(recog1.0版)自動校正算法研究[D].呼和浩特:內(nèi)蒙古大學(xué),2007.
[5] 斯·勞格勞.蒙古文編碼轉(zhuǎn)換通用算法研究[J].內(nèi)蒙古大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2009,41(2):133-136.
[6] 郝莉,敖登巴拉,鞏政,等.基于貝葉斯算法的蒙古文文本自動校對研究[J].內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,41(4):440-442.
[7] 駱衛(wèi)華,羅振聲,宮小瑾.中文文本自動校對技術(shù)的研究[J].計(jì)算機(jī)研究與發(fā)展,2004,41(1):244-249.
[8] 包烏格德勒,李娟.蒙古文文本自動校對研究綜述[J].電腦知識與技術(shù),2016,12(35):227-229.
[9] 廉冰.基于有限狀態(tài)自動機(jī)的蒙古文同形詞校對方法的研究[D].內(nèi)蒙古大學(xué),2014.
【通聯(lián)編輯:梁書】