国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析蒙古文電子文檔中的文本錯(cuò)誤

2019-05-24 14:13楊利潤斯琴巴圖
電腦知識與技術(shù) 2019年11期
關(guān)鍵詞:蒙古文

楊利潤 斯琴巴圖

摘要:蒙古文電子文檔中普遍存在文本錯(cuò)誤,主要有非詞錯(cuò)誤、真詞錯(cuò)誤、形對碼錯(cuò)錯(cuò)誤、句法語義錯(cuò)誤等。其中,尤以形對碼錯(cuò)錯(cuò)誤最為普遍,且難以人為判斷對錯(cuò),只能由計(jì)算機(jī)程序自動校對。梳理文本錯(cuò)誤是做蒙古文自動校對工作的基礎(chǔ)和依據(jù),其重要性不言而喻。本文在梳理了蒙古文電子文檔中文本錯(cuò)誤類型的基礎(chǔ)上,列出了錯(cuò)誤產(chǎn)生的相應(yīng)原因及解決方案。

關(guān)鍵詞:蒙古文;文本錯(cuò)誤;自動校對

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2019)11-0211-03

Abstract: There are common text errors in Mongolian electronic documents, mainly including non-word errors, true word errors, pronunciation non-word errors, and syntactic and semantic errors. Among them, especially the pronunciation of non-word errors is the most common, and it is difficult to judge right or wrong manually, and can only be automatically proofread by a computer program. To sort out the text errors is the basis and basis for the automatic text proofing work in Mongolia, and its importance is self-evident. Based on the text error types in Mongolian electronic documents, this paper lists the corresponding causes and solutions of errors.

Key words: Mongolian; text error; automatic text proofing

1 文本錯(cuò)誤類型

由于蒙古文不同于英文的特點(diǎn),蒙古文電子文檔中除了有英文文檔中出現(xiàn)的非詞、真詞、句法語義等錯(cuò)誤以外,還有形對碼錯(cuò)錯(cuò)誤等普遍存在,且比較獨(dú)特的錯(cuò)誤。

1.1 非詞錯(cuò)誤

2.3 編碼轉(zhuǎn)換

由于歷史原因,以往有大量蒙古文電子文檔都是基于字形編碼或音形混合編碼(如方正6.0 文檔等)存儲。這些電子文檔轉(zhuǎn)換為基于語音的國際編碼時(shí),因?yàn)橹荒苓_(dá)到字形上的一致而導(dǎo)致文本錯(cuò)誤。例如,上述單詞“”的例子,在編碼轉(zhuǎn)換時(shí)也存在同樣的問題。在將這類同形音異單詞轉(zhuǎn)換為基于語音的國際編碼時(shí),轉(zhuǎn)換軟件如果沒有相當(dāng)好的上下文分析功能,則很難完成轉(zhuǎn)換到正確編碼的任務(wù)。

3 文本錯(cuò)誤解決方案

3.1 自動校對軟件

使用自動校對軟件處理非詞錯(cuò)誤相對簡單,有比較成熟的一些校對算法可以很好的勝任校對任務(wù),但處理真詞錯(cuò)誤則比較困難。對于蒙古文電子文檔中真詞錯(cuò)誤的處理,最新研究有內(nèi)蒙古大學(xué)斯·勞格勞副教授的碩士生迎春在其碩士論文“蒙古文真詞錯(cuò)誤的偵測與糾錯(cuò)建議的生成研究”中給出的一個(gè)采用基于統(tǒng)計(jì)的方法和基于易混淆詞詞典的方法設(shè)計(jì)實(shí)現(xiàn)的蒙古文真詞錯(cuò)誤校對系統(tǒng)。該系統(tǒng)的召回率為82%,正確率為3.4%,糾錯(cuò)建議生成率為91%。對于形對碼錯(cuò)錯(cuò)誤的處理,郝莉在其文章“基于貝葉斯算法的蒙古文文本自動校對研究”中給出了一種使用貝葉斯算法校正由于讀音混淆而引起的錯(cuò)誤(讀音非詞)的方法,其拼寫糾錯(cuò)率可達(dá)89%以上。廉冰在其論文“基于有限狀態(tài)自動機(jī)的蒙古文同形詞校對方法的研究”(該文中的同形詞錯(cuò)誤的概念與本文中的讀音非詞錯(cuò)誤的概念相同)中也給出了一種讀音非詞的校對方法,平均準(zhǔn)確率達(dá)到了91.5%,平均召回率為84.9%。

3.2 輸入法校對功能

通過輸入法自帶的校對功能,可以解決文檔中的非詞錯(cuò)誤。例如,對正在編輯的文檔,通過輸入法自帶的校對功能,在輸入的同時(shí)提示用戶,使其進(jìn)行正確錄入。目前,主流的蒙古文輸入法有兩種,一個(gè)是蒙科立2016輸入法,另一個(gè)是德力海蒙古文輸入法2016-教育版。這兩種輸入法都具備一定的非詞提醒功能,前者是用紅色顯示提醒用戶錄入的是非詞,后者是用黑色顯示提醒用戶錄入的是非詞。輸入法自帶的校對功能不能處理真詞錯(cuò)誤。

使用德力海蒙古文輸入法2016-教育版輸入讀音非詞錯(cuò)誤編碼時(shí),會自動處理錯(cuò)誤,將錯(cuò)誤編碼轉(zhuǎn)換成正確編碼。

3.3 人工結(jié)合校對軟件

3.4 培養(yǎng)使用者正確錄入習(xí)慣

蒙古文文檔中,讀音非詞錯(cuò)誤主要是由于使用者沒有養(yǎng)成正確錄入習(xí)慣,只求字形正確而導(dǎo)致。所以通過培養(yǎng)使用者正確錄入習(xí)慣,從而避開導(dǎo)致讀音非詞類的形對碼錯(cuò)錯(cuò)誤的起因是一種較好的從源頭解決問題的方案。

4 總結(jié)

蒙古文電子文檔中普遍存在文本錯(cuò)誤,主要有非詞錯(cuò)誤、真詞錯(cuò)誤、形對碼錯(cuò)錯(cuò)誤、句法語義錯(cuò)誤等。分析梳理這些文本錯(cuò)誤及其產(chǎn)生的原因,對蒙古文文本自動校對工作有重要的意義,是文本自動校對工作的基礎(chǔ)和依據(jù)。目前,對非詞錯(cuò)誤的處理相對成熟,有較多的處理算法和模型;解決真詞錯(cuò)誤方面的研究相對薄弱,缺乏實(shí)用算法和方案;對形對碼錯(cuò)錯(cuò)誤處理的研究較廣泛,但主要集中在讀音非詞的校正上,而同形詞替代引起的錯(cuò)誤有待更進(jìn)一步研究。

參考文獻(xiàn):

[1] 張仰森,俞士汶.文本自動校對技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2006(6):8-12.

[2] 斯·勞格勞.基于不確定有限自動機(jī)的蒙古文校對算法[J].中文信息學(xué)報(bào),2009,23(6):110-115.

[3] 迎春.蒙古文真詞錯(cuò)誤的偵測與糾錯(cuò)建議的生成研究[D].呼和浩特:內(nèi)蒙古大學(xué),2017.

[4] 包敏娜.《蒙古文印刷體掃描識別系統(tǒng)》(recog1.0版)自動校正算法研究[D].呼和浩特:內(nèi)蒙古大學(xué),2007.

[5] 斯·勞格勞.蒙古文編碼轉(zhuǎn)換通用算法研究[J].內(nèi)蒙古大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2009,41(2):133-136.

[6] 郝莉,敖登巴拉,鞏政,等.基于貝葉斯算法的蒙古文文本自動校對研究[J].內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,41(4):440-442.

[7] 駱衛(wèi)華,羅振聲,宮小瑾.中文文本自動校對技術(shù)的研究[J].計(jì)算機(jī)研究與發(fā)展,2004,41(1):244-249.

[8] 包烏格德勒,李娟.蒙古文文本自動校對研究綜述[J].電腦知識與技術(shù),2016,12(35):227-229.

[9] 廉冰.基于有限狀態(tài)自動機(jī)的蒙古文同形詞校對方法的研究[D].內(nèi)蒙古大學(xué),2014.

【通聯(lián)編輯:梁書】

猜你喜歡
蒙古文
敖漢旗萬壽白塔蒙古文碑文新釋
部分海外藏蒙古文文獻(xiàn)及其目錄
關(guān)于新發(fā)現(xiàn)的《字母匯編》(蒙古文)
蒙古文《孝經(jīng)》及其詞語釋義研究
新時(shí)期以來蒙古文散文研究綜述
達(dá)什達(dá)瓦部遷徙熱河考(蒙古文)
關(guān)于蒙古文在各種瀏覽器上顯示方法的探討
俄語詞“Sherti”在蒙古語中的變義(蒙古文)
略論Khandjamts夫人(基里爾蒙古文)
三田渡漢文滿文蒙古文碑文對比研究
襄城县| 徐闻县| 昌图县| 铜山县| 三江| 留坝县| 都江堰市| 昌吉市| 三穗县| 九江市| 德阳市| 邮箱| 云和县| 安岳县| 鄂州市| 道真| 德安县| 建宁县| 崇义县| 根河市| 乌审旗| 河北省| 玛纳斯县| 青海省| 丹寨县| 郸城县| 庐江县| 克拉玛依市| 北宁市| 宣威市| 鹤岗市| 大渡口区| 星子县| 海原县| 伊春市| 邵阳县| 城口县| 同仁县| 福海县| 满城县| 石柱|