国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合MacBERT和Kenlm的中文糾錯(cuò)方法

2022-03-02 06:16:00王夢(mèng)賢何春輝
現(xiàn)代計(jì)算機(jī) 2022年23期
關(guān)鍵詞:詞表錯(cuò)誤自動(dòng)

王夢(mèng)賢,何春輝

(1.湖南城市學(xué)院管理學(xué)院,益陽 413000;2.國防科技大學(xué)信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙 410073)

0 引言

隨著信息技術(shù)的快速發(fā)展,文本自動(dòng)糾錯(cuò)技術(shù)無處不在,涉及聊天信息、社交動(dòng)態(tài)、學(xué)術(shù)出版物、政策文件、通知公告以及文檔編寫等日常應(yīng)用場(chǎng)景。經(jīng)過分析發(fā)現(xiàn),在這些場(chǎng)景中較常見的錯(cuò)誤有字詞拼寫錯(cuò)誤(例如諧音字)、少字多字、字詞異位、標(biāo)點(diǎn)符號(hào)使用不當(dāng)、數(shù)字錯(cuò)誤等幾大類。在海量的文本中,若完全依靠人力來完成上述錯(cuò)誤類型的自動(dòng)糾正顯然不太現(xiàn)實(shí)。因此,提出高效的文本自動(dòng)糾錯(cuò)方法來輔助人工完成海量文本的自動(dòng)糾錯(cuò)已經(jīng)成為了一個(gè)極具挑戰(zhàn)的難題。

國外雖然有學(xué)者針對(duì)文本糾錯(cuò)任務(wù)提出了一些先進(jìn)的理論和方法[1],但是大部分都只適用于印歐語系的語種,對(duì)中文的適應(yīng)性較差?,F(xiàn)階段大多數(shù)中文文本糾錯(cuò)方法仍然需要借助規(guī)則或者糾錯(cuò)策略,只有少數(shù)方法是借助語言模型來自動(dòng)探測(cè)錯(cuò)誤并糾正錯(cuò)誤,但整體的糾錯(cuò)率不高。近年來,隨著知識(shí)表示技術(shù)的發(fā)展,也有部分學(xué)者提出結(jié)合大規(guī)模預(yù)訓(xùn)練語言模型[2]來解決中文文本的自動(dòng)糾錯(cuò)難題。這類方法在文本糾錯(cuò)任務(wù)上取得了一些成效,在精確率方面有較大提升,但召回率偏低。此外,發(fā)現(xiàn)基于Kenlm和混淆詞表的中文糾錯(cuò)方法具有較高召回率,但精確率非常低。綜上所述,如何同時(shí)提升糾錯(cuò)算法的精確率和召回率就顯得非常重要。

根據(jù)上述分析可知,為了有效提升中文自動(dòng)糾錯(cuò)方法的綜合性能,本文首次嘗試通過融合預(yù)訓(xùn)練語言模型MacBERT和詞表+Kenlm統(tǒng)計(jì)語言模型后提出了一種具有層次化結(jié)構(gòu)的中文糾錯(cuò)方法。

1 相關(guān)研究

早期的中文糾錯(cuò)方法主要是圍繞文本自動(dòng)校對(duì)[3]應(yīng)用場(chǎng)景來展開,這類方法需要依賴人工制定的規(guī)則庫來完成查錯(cuò)和糾錯(cuò)。隨著統(tǒng)計(jì)學(xué)習(xí)的興起,陳翔等[4]提出了一種規(guī)則和統(tǒng)計(jì)方法相結(jié)合的自動(dòng)糾錯(cuò)技術(shù),用來解決數(shù)字化系統(tǒng)的自動(dòng)糾錯(cuò)難題并取得了一定的效果。石敏等[5]針對(duì)中文同音字錯(cuò)誤類型提出了一種基于決策列表的中文糾錯(cuò)方法,借助構(gòu)建的混淆集在同音字糾錯(cuò)任務(wù)上達(dá)到了較好的效果。此外,楊蘇穩(wěn)等[6]提出了一種結(jié)合模糊匹配和最小編輯距離來解決搜索引擎中查詢語句的智能糾錯(cuò)方法,有效提升了用戶的搜索體驗(yàn)。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,有學(xué)者提出結(jié)合知識(shí)庫或知識(shí)表示技術(shù)來解決中文糾錯(cuò)難題,也取得了一系列的研究成果。王瓊等[7]針對(duì)鐵路車務(wù)系統(tǒng)語音識(shí)別后的文本易出現(xiàn)散串和同音字錯(cuò)誤的情況,提出了一種基于領(lǐng)域知識(shí)庫的查錯(cuò)算法,有效地提升了文本錯(cuò)誤檢測(cè)率。張佳寧等[8]利用word2vec詞嵌入技術(shù)結(jié)合深度語言模型以及混淆集技術(shù)對(duì)語音識(shí)別后的文本進(jìn)行自動(dòng)糾錯(cuò),也取得良好的效果。葉俊民等[9]提出了一種層次化修正框架,用于解決中文糾錯(cuò)任務(wù),它在不同層次上分別結(jié)合預(yù)訓(xùn)練語言模型[10]和語義表示技術(shù)來探測(cè)并修正錯(cuò)誤。王辰成等[11]和孫邱杰等[12]分別基于Transformer增強(qiáng)框架和BRAT噪聲器對(duì)中文語法糾錯(cuò)進(jìn)行了探索,有效地提升了中文語法的糾錯(cuò)性能。

受上述啟發(fā),在糾錯(cuò)領(lǐng)域中文語料上實(shí)現(xiàn)遷移學(xué)習(xí)后得到MacBERT[13]語言模型,并結(jié)合人工構(gòu)造的詞表+Kenlm[14]語言模型提出了一種中文糾錯(cuò)方法。

2 融合MacBERT和Kenlm的中文糾錯(cuò)方法

為解決現(xiàn)有基于BERT語言模型的文本糾錯(cuò)方法糾錯(cuò)性能偏低的問題,本文提出了融合MacBERT和詞表+Kenlm的中文糾錯(cuò)方法。模型的整體流程及示例說明如圖1所示。由圖1可知,它是一個(gè)包含多級(jí)結(jié)構(gòu)的一體化模型。根據(jù)輸入的原始序列,首先會(huì)調(diào)用輕量級(jí)的MacBERT一級(jí)糾錯(cuò)模型完成錯(cuò)誤探測(cè)和修正建議。然后結(jié)合一個(gè)判別模塊,當(dāng)發(fā)現(xiàn)MacBERT模型的糾錯(cuò)結(jié)果為空時(shí),說明MacBERT模型沒有從原始輸入序列中探測(cè)到錯(cuò)誤信息。

圖1 融合MacBERT和Kenlm的中文糾錯(cuò)方法整體流程及示例說明圖

有兩種可能會(huì)導(dǎo)致這個(gè)結(jié)果:第一,原始輸入序列中確實(shí)沒有錯(cuò)誤信息;第二,原始輸入序列中存在錯(cuò)誤,但是由于MacBERT模型的糾錯(cuò)性能有限,無法探測(cè)真實(shí)存在的錯(cuò)誤。第一種屬于正常情況,不會(huì)影響模型糾錯(cuò)性能。但第二種情況會(huì)直接對(duì)模型的糾錯(cuò)性能產(chǎn)生影響。為了避免這種情況的發(fā)生,提出新增一個(gè)基于詞表+Kenlm統(tǒng)計(jì)語言模型相結(jié)合的二級(jí)糾錯(cuò)模型來完成二次糾錯(cuò),它可以在一定程度上彌補(bǔ)MacBERT模型自身的不足。MacBERT一級(jí)糾錯(cuò)模型和詞表+Kenlm二級(jí)糾錯(cuò)模型的相關(guān)概述請(qǐng)見2.1和2.2小節(jié)。

2.1 MacBERT糾錯(cuò)模型

MacBERT[13]模型是在Google開源的Chinese BERT-base模型的基礎(chǔ)上結(jié)合公開的大規(guī)模中文糾錯(cuò)語料進(jìn)行微調(diào)后得到的一個(gè)輕量級(jí)模型。根據(jù)中文糾錯(cuò)任務(wù)的要求,額外追加了一個(gè)全連接層作為錯(cuò)誤檢測(cè)層,整個(gè)糾錯(cuò)模型是通過利用錯(cuò)誤檢測(cè)層和錯(cuò)誤糾正層的Loss加權(quán)得到最終Loss值。相關(guān)計(jì)算公式如下:

其中,Lossdet是錯(cuò)誤檢測(cè)的損失函數(shù),Losscor是錯(cuò)誤糾正的損失函數(shù),Loss是綜合損失函數(shù),ω是一個(gè)權(quán)重系數(shù)。除此之外,MacBERT采用了全詞掩蔽和N-Gram掩蔽策略來選擇候選序列進(jìn)行掩蔽,從1-Gram到4-Gram字符序列的掩蔽比例分別調(diào)整為40%、30%、20%、10%??紤]到原始BERT模型使用[MASK]進(jìn)行掩蔽,但它在微調(diào)階段并不會(huì)出現(xiàn)這個(gè)標(biāo)識(shí),這會(huì)造成預(yù)訓(xùn)練任務(wù)與下游微調(diào)任務(wù)不一致。因此,MacBERT采用近義詞替換來完成全詞的掩蔽操作,當(dāng)遇到某個(gè)詞語不存在近義詞的時(shí)候,通過隨機(jī)詞語替換策略完成掩蔽操作。MacBERT使用句子順序預(yù)測(cè)(SOP)任務(wù)替換BERT原始的下一句預(yù)測(cè)(NSP)任務(wù),并通過切換兩個(gè)連續(xù)句子的原始順序來創(chuàng)建負(fù)樣本。MacBERT模型的示例流程如圖2所示。

圖2 微調(diào)后的MacBERT模型示例流程圖

2.2 詞表+Kenlm糾錯(cuò)模型

詞表+Kenlm糾錯(cuò)模型共分為兩步:第一步是錯(cuò)誤檢測(cè);第二步是錯(cuò)誤糾正。錯(cuò)誤檢測(cè)部分先通過中文分詞器進(jìn)行分詞,若句子中含有錯(cuò)別字,分詞后提取出不在常用詞典中的疑似錯(cuò)詞,并聯(lián)合人工整理的混淆詞典構(gòu)建一個(gè)候選錯(cuò)詞集合。在錯(cuò)誤糾正部分,首先會(huì)依次遍歷候選錯(cuò)詞集合,同時(shí)使用音似字典和形似字典依次替換候選錯(cuò)誤集合中的候選錯(cuò)詞,然后通過Kenlm統(tǒng)計(jì)語言模型依次計(jì)算替換后的句子似然概率,并把似然概率超過原句且達(dá)到最大時(shí)所對(duì)應(yīng)的替換詞語作為糾正詞返回,從而完成整個(gè)錯(cuò)誤檢測(cè)和錯(cuò)誤糾正的流程。該方法最大優(yōu)點(diǎn)是可以通過擴(kuò)展混淆詞典、音似字典、形似字典、常用詞典來快速提升模型的糾錯(cuò)性能。

3 實(shí)驗(yàn)驗(yàn)證

3.1 數(shù)據(jù)集和評(píng)測(cè)指標(biāo)

為了驗(yàn)證方法的有效性,選取中文糾錯(cuò)領(lǐng)域標(biāo)準(zhǔn)的公開數(shù)據(jù)集SIGHAN Bake-off 2015[15]作為實(shí)驗(yàn)評(píng)測(cè)數(shù)據(jù)集,它總共包含了1100個(gè)通過領(lǐng)域?qū)<覙?biāo)注過的錯(cuò)誤-正確中文句子對(duì)以及相應(yīng)的錯(cuò)誤位置和錯(cuò)誤字詞信息。實(shí)驗(yàn)部分采用中文糾錯(cuò)領(lǐng)域經(jīng)典的查準(zhǔn)率P、查全率R以及F1值三個(gè)評(píng)測(cè)指標(biāo)來完成模型的性能評(píng)測(cè)。需要注意的是,相關(guān)指標(biāo)皆采用強(qiáng)匹配準(zhǔn)則來計(jì)算,即模型糾正結(jié)果與專家給出的正確句子必須完全一致,判定為糾正成功,否則就判定為糾正失敗。三個(gè)指標(biāo)可根據(jù)表1所示的混淆矩陣來計(jì)算。

表1 混淆矩陣的結(jié)構(gòu)

3.2 實(shí)驗(yàn)結(jié)果

為了全方位驗(yàn)證方法的性能,實(shí)驗(yàn)在同一個(gè)評(píng)測(cè)數(shù)據(jù)集上選取了五個(gè)不同的先進(jìn)基線模型加入到對(duì)比實(shí)驗(yàn)組,相關(guān)實(shí)驗(yàn)結(jié)果如表2所示。

表2 不同模型在評(píng)測(cè)數(shù)據(jù)集上的糾錯(cuò)實(shí)驗(yàn)結(jié)果單位:%

根據(jù)表2的糾錯(cuò)實(shí)驗(yàn)結(jié)果可知,從單模型的角度來看,基于BERT模型完成遷移學(xué)習(xí)后得到的MacBERT模型相對(duì)其它基線模型來說不僅速度快,而且性能更高。查準(zhǔn)率、查全率以及F1值分別達(dá)到了77.9%、66.4%和71.7%,這充分揭示了遷移學(xué)習(xí)技術(shù)所帶來的優(yōu)勢(shì)。此外,本文所提方法在融合MacBERT+詞表+Kenlm語言模型后整體性能大大提升。尤其是查全率和F1值相對(duì)于單獨(dú)的MacBERT模型而言提升了3.6個(gè)百分點(diǎn),準(zhǔn)確率和召回率也有提升,這主要得益于同時(shí)發(fā)揮了MacBert和詞表+Kenlm語言模型的優(yōu)勢(shì)。從實(shí)驗(yàn)結(jié)果來看MacBERT模型大概只能糾正85%左右的錯(cuò)誤句子,而剩余15%的錯(cuò)誤句子是通過詞表+Kenlm語言模型來完成糾正。上述結(jié)果可以充分說明本方法具有更優(yōu)的綜合糾錯(cuò)性能。

4 結(jié)語

針對(duì)中文智能糾錯(cuò)領(lǐng)域現(xiàn)有方法存在整體糾錯(cuò)性能偏低的問題,提出了一種融合MacBERT和詞表+Kenlm的一體化中文糾錯(cuò)方法。實(shí)驗(yàn)結(jié)果表明,所提方法可以提升模型的整體糾錯(cuò)性能,尤其是結(jié)合可擴(kuò)展的詞表+Kenlm后能有效提升糾錯(cuò)模型的召回率和F1值,這為解決中文糾錯(cuò)難題提供了新的理論和方向。

猜你喜歡
詞表錯(cuò)誤自動(dòng)
在錯(cuò)誤中成長(zhǎng)
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
英語世界(2021年13期)2021-01-12 05:47:51
自動(dòng)捕盜機(jī)
基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
關(guān)于自動(dòng)駕駛
汽車博覽(2016年9期)2016-10-18 13:05:41
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
Stefan Greiner:我們?yōu)槭裁葱枰詣?dòng)駕駛?
不犯同樣錯(cuò)誤
《錯(cuò)誤》:怎一個(gè)“美”字了得
短篇小說(2014年11期)2014-02-27 08:32:41
國外敘詞表的應(yīng)用與發(fā)展趨勢(shì)探討*
财经| 高阳县| 乐平市| 阳朔县| 铅山县| 呼图壁县| 宜章县| 阿克陶县| 昌都县| 缙云县| 应用必备| 荣成市| 台东市| 长汀县| 景洪市| 普兰店市| 石狮市| 吉安县| 马山县| 博白县| 红原县| 呈贡县| 雅安市| 文昌市| 黑水县| 蓬安县| 汕尾市| 益阳市| 诏安县| 定州市| 会泽县| 民权县| 徐水县| 大新县| 扎鲁特旗| 贵南县| 安阳市| 千阳县| 稷山县| 新乡市| 翁源县|