淺析蒙古文電子文檔中的文本錯(cuò)誤

2019-05-24 14:13楊利潤斯琴巴圖

電腦知識與技術(shù) 2019年11期

關(guān)鍵詞：蒙古文

楊利潤斯琴巴圖

摘要：蒙古文電子文檔中普遍存在文本錯(cuò)誤，主要有非詞錯(cuò)誤、真詞錯(cuò)誤、形對碼錯(cuò)錯(cuò)誤、句法語義錯(cuò)誤等。其中，尤以形對碼錯(cuò)錯(cuò)誤最為普遍，且難以人為判斷對錯(cuò)，只能由計(jì)算機(jī)程序自動校對。梳理文本錯(cuò)誤是做蒙古文自動校對工作的基礎(chǔ)和依據(jù)，其重要性不言而喻。本文在梳理了蒙古文電子文檔中文本錯(cuò)誤類型的基礎(chǔ)上，列出了錯(cuò)誤產(chǎn)生的相應(yīng)原因及解決方案。

關(guān)鍵詞：蒙古文；文本錯(cuò)誤；自動校對

中圖分類號：TP391 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2019）11-0211-03

Abstract： There are common text errors in Mongolian electronic documents， mainly including non-word errors， true word errors， pronunciation non-word errors， and syntactic and semantic errors. Among them， especially the pronunciation of non-word errors is the most common， and it is difficult to judge right or wrong manually， and can only be automatically proofread by a computer program. To sort out the text errors is the basis and basis for the automatic text proofing work in Mongolia， and its importance is self-evident. Based on the text error types in Mongolian electronic documents， this paper lists the corresponding causes and solutions of errors.

Key words： Mongolian； text error； automatic text proofing

1 文本錯(cuò)誤類型

由于蒙古文不同于英文的特點(diǎn)，蒙古文電子文檔中除了有英文文檔中出現(xiàn)的非詞、真詞、句法語義等錯(cuò)誤以外，還有形對碼錯(cuò)錯(cuò)誤等普遍存在，且比較獨(dú)特的錯(cuò)誤。

1.1 非詞錯(cuò)誤

2.3 編碼轉(zhuǎn)換

由于歷史原因，以往有大量蒙古文電子文檔都是基于字形編碼或音形混合編碼（如方正6.0 文檔等）存儲。這些電子文檔轉(zhuǎn)換為基于語音的國際編碼時(shí)，因?yàn)橹荒苓_(dá)到字形上的一致而導(dǎo)致文本錯(cuò)誤。例如，上述單詞“”的例子，在編碼轉(zhuǎn)換時(shí)也存在同樣的問題。在將這類同形音異單詞轉(zhuǎn)換為基于語音的國際編碼時(shí)，轉(zhuǎn)換軟件如果沒有相當(dāng)好的上下文分析功能，則很難完成轉(zhuǎn)換到正確編碼的任務(wù)。

3 文本錯(cuò)誤解決方案

3.1 自動校對軟件

使用自動校對軟件處理非詞錯(cuò)誤相對簡單，有比較成熟的一些校對算法可以很好的勝任校對任務(wù)，但處理真詞錯(cuò)誤則比較困難。對于蒙古文電子文檔中真詞錯(cuò)誤的處理，最新研究有內(nèi)蒙古大學(xué)斯·勞格勞副教授的碩士生迎春在其碩士論文“蒙古文真詞錯(cuò)誤的偵測與糾錯(cuò)建議的生成研究”中給出的一個(gè)采用基于統(tǒng)計(jì)的方法和基于易混淆詞詞典的方法設(shè)計(jì)實(shí)現(xiàn)的蒙古文真詞錯(cuò)誤校對系統(tǒng)。該系統(tǒng)的召回率為82%，正確率為3.4%，糾錯(cuò)建議生成率為91%。對于形對碼錯(cuò)錯(cuò)誤的處理，郝莉在其文章“基于貝葉斯算法的蒙古文文本自動校對研究”中給出了一種使用貝葉斯算法校正由于讀音混淆而引起的錯(cuò)誤（讀音非詞）的方法，其拼寫糾錯(cuò)率可達(dá)89%以上。廉冰在其論文“基于有限狀態(tài)自動機(jī)的蒙古文同形詞校對方法的研究”（該文中的同形詞錯(cuò)誤的概念與本文中的讀音非詞錯(cuò)誤的概念相同）中也給出了一種讀音非詞的校對方法，平均準(zhǔn)確率達(dá)到了91.5%，平均召回率為84.9%。

3.2 輸入法校對功能

通過輸入法自帶的校對功能，可以解決文檔中的非詞錯(cuò)誤。例如，對正在編輯的文檔，通過輸入法自帶的校對功能，在輸入的同時(shí)提示用戶，使其進(jìn)行正確錄入。目前，主流的蒙古文輸入法有兩種，一個(gè)是蒙科立2016輸入法，另一個(gè)是德力海蒙古文輸入法2016-教育版。這兩種輸入法都具備一定的非詞提醒功能，前者是用紅色顯示提醒用戶錄入的是非詞，后者是用黑色顯示提醒用戶錄入的是非詞。輸入法自帶的校對功能不能處理真詞錯(cuò)誤。

使用德力海蒙古文輸入法2016-教育版輸入讀音非詞錯(cuò)誤編碼時(shí)，會自動處理錯(cuò)誤，將錯(cuò)誤編碼轉(zhuǎn)換成正確編碼。

3.3 人工結(jié)合校對軟件

3.4 培養(yǎng)使用者正確錄入習(xí)慣

蒙古文文檔中，讀音非詞錯(cuò)誤主要是由于使用者沒有養(yǎng)成正確錄入習(xí)慣，只求字形正確而導(dǎo)致。所以通過培養(yǎng)使用者正確錄入習(xí)慣，從而避開導(dǎo)致讀音非詞類的形對碼錯(cuò)錯(cuò)誤的起因是一種較好的從源頭解決問題的方案。

4 總結(jié)

蒙古文電子文檔中普遍存在文本錯(cuò)誤，主要有非詞錯(cuò)誤、真詞錯(cuò)誤、形對碼錯(cuò)錯(cuò)誤、句法語義錯(cuò)誤等。分析梳理這些文本錯(cuò)誤及其產(chǎn)生的原因，對蒙古文文本自動校對工作有重要的意義，是文本自動校對工作的基礎(chǔ)和依據(jù)。目前，對非詞錯(cuò)誤的處理相對成熟，有較多的處理算法和模型；解決真詞錯(cuò)誤方面的研究相對薄弱，缺乏實(shí)用算法和方案；對形對碼錯(cuò)錯(cuò)誤處理的研究較廣泛，但主要集中在讀音非詞的校正上，而同形詞替代引起的錯(cuò)誤有待更進(jìn)一步研究。

參考文獻(xiàn)：

[1] 張仰森，俞士汶.文本自動校對技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究，2006（6）：8-12.

[2] 斯·勞格勞.基于不確定有限自動機(jī)的蒙古文校對算法[J].中文信息學(xué)報(bào)，2009，23（6）：110-115.

[3] 迎春.蒙古文真詞錯(cuò)誤的偵測與糾錯(cuò)建議的生成研究[D].呼和浩特：內(nèi)蒙古大學(xué)，2017.

[4] 包敏娜.《蒙古文印刷體掃描識別系統(tǒng)》（recog1.0版）自動校正算法研究[D].呼和浩特：內(nèi)蒙古大學(xué)，2007.

[5] 斯·勞格勞.蒙古文編碼轉(zhuǎn)換通用算法研究[J].內(nèi)蒙古大學(xué)學(xué)報(bào)（哲學(xué)社會科學(xué)版），2009，41（2）：133-136.

[6] 郝莉，敖登巴拉，鞏政，等.基于貝葉斯算法的蒙古文文本自動校對研究[J].內(nèi)蒙古大學(xué)學(xué)報(bào)（自然科學(xué)版），2010，41（4）：440-442.

[7] 駱衛(wèi)華，羅振聲，宮小瑾.中文文本自動校對技術(shù)的研究[J].計(jì)算機(jī)研究與發(fā)展，2004，41（1）：244-249.

[8] 包烏格德勒，李娟.蒙古文文本自動校對研究綜述[J].電腦知識與技術(shù)，2016，12（35）：227-229.

[9] 廉冰.基于有限狀態(tài)自動機(jī)的蒙古文同形詞校對方法的研究[D].內(nèi)蒙古大學(xué)，2014.

【通聯(lián)編輯：梁書】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

淺析蒙古文電子文檔中的文本錯(cuò)誤