蘇錦鈿 余珊珊 洪曉斌
(1.華南理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510006;2.廣東藥科大學(xué) 醫(yī)藥信息工程學(xué)院,廣東 廣州 510006;3.華南理工大學(xué) 機(jī)械與汽車工程學(xué)院,廣東 廣州 510640)
中文拼寫糾錯(cuò)(CSC)也稱中文拼寫檢測,是自然語言處理(NLP)及中文文本分析中的一個(gè)重要子任務(wù)和研究方向,其主要目的是利用計(jì)算機(jī)技術(shù)識別中文文本中包含的拼寫錯(cuò)誤并進(jìn)行糾正[1-3]。早期的研究主要以基于規(guī)則、N-元語法、統(tǒng)計(jì)機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)的方法為主,如NMT[4]和CPN[2]等。近幾年,隨著Transformer 結(jié)構(gòu)[5]及以BERT[6]為代表的預(yù)訓(xùn)練語言模型在多個(gè)NLP任務(wù)中取得了突出的效果,一些學(xué)者陸續(xù)將預(yù)訓(xùn)練語言模型引入到CSC任務(wù)中,并提出一系列新的拼寫糾錯(cuò)模型,如FASPell[1]、SM-BERT[3]、SpellGCN[7]、DCN[8]、DCSpell[9]、PLOME[10]、PHMOSpell[11]、ReaLiSe[12]等。
相對于早期其他的CSC 工作,BERT 和RoBERTa[13]等預(yù)訓(xùn)練語言模型可以通過海量文本預(yù)訓(xùn)練和下游任務(wù)微調(diào)的方式更好地學(xué)習(xí)字詞及句子的語義和上下文信息,從而進(jìn)一步提升模型在CSC任務(wù)中的效果。但BERT 等在預(yù)訓(xùn)練過程中主要利用掩碼語言模型(MLM)隨機(jī)屏蔽句子中的字,然后結(jié)合上下文預(yù)測其正確值。這一方面假定文本序列中各個(gè)字相互獨(dú)立,即忽略詞組中各個(gè)字之間的依賴關(guān)系;另一方面影響了模型對拼寫錯(cuò)誤的識別和糾正能力,且沒有考慮錯(cuò)誤字詞在發(fā)音和字形上的相似性,從而導(dǎo)致預(yù)訓(xùn)練和微調(diào)目標(biāo)不一致。針對BERT 的字獨(dú)立性假設(shè)及預(yù)訓(xùn)練與微調(diào)階段不一致問題,文獻(xiàn)[14]在英文BERT 的全詞掩碼(WWM)模型基礎(chǔ)上,結(jié)合中文的特點(diǎn)提出一個(gè)基于全詞和連續(xù)詞組掩蔽策略的MacBERT 模型。但MacBERT在CSC任務(wù)中同樣面臨預(yù)訓(xùn)練與微調(diào)目標(biāo)不一致問題,特別是CSC中的大部分錯(cuò)誤主要是因?yàn)榘l(fā)音或字形相近引起的,而不是同義詞誤用,并且很少出現(xiàn)連續(xù)多個(gè)詞拼寫錯(cuò)誤的情況。
本文針對BERT 的中文拼寫錯(cuò)誤識別及糾正能力不足問題,提出一種面向中文拼寫糾錯(cuò)的自監(jiān)督預(yù)訓(xùn)練方法MASC,將BERT中的MLM和MacBERT中的Mac任務(wù)轉(zhuǎn)換成基于混淆集的拼寫錯(cuò)誤識別及糾正任務(wù);在全詞掩碼的基礎(chǔ)上利用混淆集從音調(diào)相同、音調(diào)相近和字形相近等多個(gè)方面構(gòu)造拼寫錯(cuò)誤候選字,給出相應(yīng)的掩碼策略、替換策略和預(yù)訓(xùn)練任務(wù),從而進(jìn)一步增強(qiáng)BERT 的拼寫錯(cuò)誤識別及糾正能力;還通過sighan13、sighan14 和sighan15等公開CSC 語料集上的實(shí)驗(yàn)證明MASC 能夠在不改變BERT/RoBERTa/MacBERT 等模型現(xiàn)有結(jié)構(gòu)的前提下,進(jìn)一步提升它們在下游CSC任務(wù)中的效果。
與英文拼寫糾錯(cuò)相比,中文拼寫糾錯(cuò)面臨更多的困難和挑戰(zhàn),特別是中文字詞之間沒有定界符、缺乏形態(tài)上的變化和嚴(yán)重依賴于上下文語義等特點(diǎn),使得對中文拼寫錯(cuò)誤字符的識別及糾正高度依賴上下文語境。近幾年,隨著各種預(yù)訓(xùn)練語言模型在許多NLP任務(wù)上取得一系列突出的成果,部分學(xué)者開始將它們引入到CSC中。文獻(xiàn)[1]提出一種基于去噪自動編碼器(DAE)和解碼器的中文拼寫檢查器——FASPell,其中DAE 采用BERT 中的掩碼語言模型,而解碼器采用把握度-字符相似度解碼器;文獻(xiàn)[2]提出一個(gè)雙向GRU 和BERT 的SM-BERT 模型,其主要思路是通過一個(gè)基于雙向GRU 的錯(cuò)誤檢測網(wǎng)絡(luò)識別句子中可能出錯(cuò)的字的位置,并利用這些位置信息對糾錯(cuò)網(wǎng)絡(luò)中的輸入句子進(jìn)行軟掩碼,從而讓模型學(xué)習(xí)只針對可能出錯(cuò)的字進(jìn)行糾正,而非句子中所有的字;文獻(xiàn)[8]提出一種基于動態(tài)連接網(wǎng)絡(luò)的DCN 模型,其主要思路是在RoBERTa[13]的基礎(chǔ)上利用拼音增強(qiáng)候選生成器生成候選的中文字,并通過注意力網(wǎng)絡(luò)對相鄰中文字間的依賴關(guān)系進(jìn)行建模;文獻(xiàn)[7]提出一種拼寫檢查卷積圖網(wǎng)絡(luò)Spell-GCN,通過結(jié)合BERT 和卷積圖網(wǎng)絡(luò)刻畫字符的發(fā)音/形狀相似性知識以及字之間的先驗(yàn)依賴關(guān)系,并生成正確的拼寫校正;文獻(xiàn)[15]在Transformer注意力機(jī)制的基礎(chǔ)上添加高斯分布的偏置矩陣,用于提高模型對局部文本的關(guān)注程度,同時(shí)使用ON_STM 模型對錯(cuò)誤文本表現(xiàn)出的特殊語法結(jié)構(gòu)特征進(jìn)行語法信息提??;文獻(xiàn)[16]則提出一種融合漢字多特征嵌入的端到端中文拼寫檢查算法模型BFMBERT,主要利用結(jié)合混淆集的預(yù)訓(xùn)練任務(wù)讓BERT 學(xué)習(xí)中文拼寫錯(cuò)誤知識。總的來說,這些工作均證明了BERT和RoBERTa等預(yù)訓(xùn)練語言模型能夠進(jìn)一步改善字詞及句子的語義表征,從而提升模型在下游CSC 任務(wù)中的效果。但由于BERT 和RoBERTa等模型在預(yù)訓(xùn)練過程中是通過上下文信息學(xué)習(xí)字詞的語義,而CSC任務(wù)中拼寫錯(cuò)誤的字詞通常是離散出現(xiàn)的,因此導(dǎo)致預(yù)訓(xùn)練語言模型一方面在拼寫錯(cuò)誤識別方面存在一定的不足,另一方面在糾正時(shí)往往需通過額外的神經(jīng)網(wǎng)絡(luò)層引入錯(cuò)誤字詞和正確字詞在音調(diào)或字形等方面的相似性知識。
文獻(xiàn)[14]在英文BERT 的全詞掩碼WWM 基礎(chǔ)上,結(jié)合中文的特點(diǎn)提出一個(gè)基于全詞和詞組掩蔽策略的模型MacBERT。MacBERT 將BERT 中的MLM 任務(wù)轉(zhuǎn)換為面向同義詞替換的文本校正任務(wù),即讓模型學(xué)習(xí)如何將替換后的同義詞識別為原來的字詞,目的是縮小預(yù)訓(xùn)練和微調(diào)階段之間的差距。但MacBERT 在CSC 中同樣面臨預(yù)訓(xùn)練與微調(diào)不一致的問題。一方面,CSC中的大部分拼寫錯(cuò)誤并不是由同義詞誤用引起的,而是由音調(diào)相同、音調(diào)相近或字形相似等因素導(dǎo)致的;另一方面,CSC中一般以單個(gè)的字或單詞拼寫錯(cuò)誤為主,很少出現(xiàn)連續(xù)多個(gè)詞組的拼寫錯(cuò)誤。
文獻(xiàn)[17]指出約83%的中文拼寫錯(cuò)誤與音調(diào)相似性相關(guān),48%與字形相似性相關(guān)。表1 給出了CSC中一些常見的拼寫錯(cuò)誤及原因,其中粗斜體部分表示錯(cuò)誤的字詞,括號中的粗體為正確字詞,方括號中為錯(cuò)誤字詞與正確字詞的拼音。
表1 常見中文拼寫錯(cuò)誤例子Table 1 Examples of common CSC errors
CSC中大部分的拼寫錯(cuò)誤主要是因?yàn)橐粽{(diào)相同、音調(diào)相近或字形相近等引起的,但BERT/RoBERTa/MacBERT等預(yù)訓(xùn)練語言模型在預(yù)訓(xùn)練過程中均沒有考慮這些相似性知識。文獻(xiàn)[18]嘗試在預(yù)訓(xùn)練階段引入拼音相似性知識,并提出了混淆漢字和噪聲拼音的替換策略;文獻(xiàn)[19]也在BERT的基礎(chǔ)上提出一個(gè)預(yù)訓(xùn)練模型SpellBERT,并利用圖神經(jīng)網(wǎng)絡(luò)將字的偏旁部首和拼音信息引入到預(yù)訓(xùn)練任務(wù)中。但這些工作均沒有進(jìn)一步探討如何利用現(xiàn)有的混淆集更好地融合發(fā)音和字形等相似性知識。文獻(xiàn)[10]提出的PLOME在訓(xùn)練預(yù)訓(xùn)練語言模型時(shí)引入基于語義混淆集的MASK 策略,并將拼音和筆畫作為預(yù)訓(xùn)練語言模型以及模型微調(diào)的輸入,但需依賴于額外的筆畫知識;文獻(xiàn)[11]則結(jié)合光學(xué)字形識別(OCR)及自動語音識別(ASR),從多模態(tài)的角度對拼音特征、字形特征、語音特征進(jìn)行信息融合和錯(cuò)誤字預(yù)測;文獻(xiàn)[12]同樣也利用了中文字符上的語義、聲音和字形等多模態(tài)信息。但這些工作均需要在下游任務(wù)中對不同模態(tài)信息進(jìn)行融合。因此本文的主要目的是在上述工作的基礎(chǔ)上,通過預(yù)訓(xùn)練任務(wù)和混淆集將中文拼寫糾錯(cuò)中錯(cuò)誤字詞與正確字詞間的音調(diào)及字形相似性知識引入到預(yù)訓(xùn)練語言模型中,從而提升模型在下游CSC任務(wù)中的拼寫錯(cuò)誤識別及糾正能力。
下面提出一種中文拼寫糾錯(cuò)掩碼語言模型的自監(jiān)督預(yù)訓(xùn)練方法MASC。
BERT中的MLM在預(yù)訓(xùn)練過程中對每一個(gè)句子隨機(jī)選擇其中15%的字,然后用[MASK]標(biāo)記進(jìn)行掩碼后,通過預(yù)訓(xùn)練讓模型學(xué)習(xí)如何根據(jù)上下文信息預(yù)測被掩碼字的真實(shí)值。每一個(gè)字被選中并進(jìn)行掩碼的概率為15%,被選中的字當(dāng)中有80%的概率被[MASK]標(biāo)記替換、10%的概率保持不變、10%的概率隨機(jī)用詞匯表中的字進(jìn)行替換。
MASC采用類似于MLM的選擇策略,但是對每一個(gè)被選中進(jìn)行掩碼的字,利用混淆集得到相應(yīng)的候選字后進(jìn)行替換,最后通過訓(xùn)練讓模型學(xué)習(xí)根據(jù)上下文信息預(yù)測被替換字的真實(shí)值以及是否存在拼寫出錯(cuò)。具體來說,MASC的流程如圖1所示。
圖1 MASC的流程Fig.1 Process of MASC
具體來說,MASC主要采用以下策略。
(1)基于全詞掩碼和N-grams語法的掩碼策略
MASC 在BERT 的全詞掩碼WWM 基礎(chǔ)上,結(jié)合MacBERT的N-grams掩碼策略,采用一元和二元詞的字掩碼方式。由于一般文本中的大部分錯(cuò)誤為單字或某個(gè)單詞,很少連續(xù)多個(gè)單詞出現(xiàn)錯(cuò)誤,因此MASC 中只考慮一元詞(字)和二元詞(連續(xù)兩個(gè)字或完整的單詞)的掩碼策略。具體來說,選擇輸入句子中15%的字進(jìn)行替換,被選中的字有90%的概率為一元詞組、10%的概率為二元詞。若被選中的字為某個(gè)詞組的字,則有15%的概率同時(shí)選擇該詞組中的其他字。掩碼選擇算法selectMasked-Char的核心偽代碼表示如下:
(2)基于混淆集的替換策略
MASC在文獻(xiàn)[2]中的混淆集基礎(chǔ)上結(jié)合PinYin工具進(jìn)行擴(kuò)充,并劃分為同音同調(diào)、同音異調(diào)、近音同調(diào)、近音異調(diào)和字形相近5種不同類型。
對于每一個(gè)待掩碼的字或詞,采用以下替換策略:40%的概率采用同音同調(diào)字典,15%的概率采用同音異調(diào)字典,15%的概率采用近音同調(diào)字典,10%的概率采用近音異調(diào)字典,10%的概率采用字形相近字典,10%的概率保持不變。表2給出了不同掩碼方法的示例,其中每一個(gè)“+”表示在前一個(gè)“+”基礎(chǔ)上繼續(xù)增加新的掩碼方法,例如“++WWM”表示在上一行“+MLM”的基礎(chǔ)上增加WWM。
替換策略算法charMaskWithConfuseSet 的部分核心偽代碼表示如下:
為了最大程度地利用BERT/RoBERTa/MacBERT 等預(yù)訓(xùn)練模型中已學(xué)習(xí)到的大量知識,MASC 采用原有的預(yù)訓(xùn)練模型結(jié)構(gòu),如圖2 所示。其中,ai(1≤i≤n)和bj(1≤j≤m)分別表示輸入長度為n和m的句子A和B中的各個(gè)字符。
圖2 基于MASC的預(yù)訓(xùn)練模型結(jié)構(gòu)Fig.2 Pre-training model structure of MASC
為了區(qū)別一般的BERT/RoBERTa/MacBERT,將基于MASC 的BERT/RoBERTa/MacBERT 的模型分別記為MascBERT/MascRoBERTa/MascMacBERT。
以MascBERT 為例,預(yù)訓(xùn)練任務(wù)可形式化地定義為:給定任意一對中文文本序列A={a1,a2,…,an}和B={b1,b2,…,bm},根據(jù)BERT 的輸入要求將A和B進(jìn)行串聯(lián)并構(gòu)造成輸入序列X={x0,x1,…,xt},其中t=n+m+2:
MascBERT 通過詞向量嵌入層Embedding 和多層連續(xù)Transformer隱層將輸入X轉(zhuǎn)換為上下文表示H(L)∈RN×d,其中L為隱層數(shù)量,N為輸入的字符最大長度(通常最大為512),d為隱層的詞向量維度(通常為768或1 024):
在H(L)的基礎(chǔ)上,MascBERT 的主要目標(biāo)是預(yù)測替換后的文本序列中拼寫錯(cuò)誤字的正確值以及是否存在拼寫錯(cuò)誤。對于替換后的錯(cuò)誤字的隱層向量用子集Hm∈Rk×d表示,其中k為被替換字的總數(shù)。默認(rèn)情況下與BERT 一樣采用輸入序列長度的15%作為k的值,即k=int(t×15%)。
對于訓(xùn)練集中的第i個(gè)句子,利用待訓(xùn)練參數(shù)矩陣W1∈R|V|×d和偏置向量b1∈ RM將Hm投影到詞匯表V上并預(yù)測相應(yīng)的概率分布pi:
利用標(biāo)準(zhǔn)交叉熵函數(shù)Losscor計(jì)算相應(yīng)的糾正損失值:
式中,M為每一批數(shù)據(jù)的數(shù)量,yij為M中第i個(gè)句子的第j個(gè)字的正確值;pij為M中第i個(gè)句子的第j個(gè)被替換字在詞匯表V中的概率分布。
為了進(jìn)一步提高模型對拼寫錯(cuò)誤的識別能力,MascBERT 同時(shí)還對句子中各個(gè)位置上是否存在拼寫錯(cuò)誤進(jìn)行判斷。利用待訓(xùn)練參數(shù)矩陣W2∈R1×d和偏置向量b2∈RM對H(L)進(jìn)行轉(zhuǎn)換,并利用sigmoid 函數(shù)計(jì)算相應(yīng)的錯(cuò)誤概率值qi:
qi中每一個(gè)位置的值越接近1,則表示該位置出現(xiàn)拼寫錯(cuò)誤的概率越大。利用二元交叉熵函數(shù)Lossdet計(jì)算相應(yīng)的錯(cuò)誤識別損失值,其中l(wèi)ij(1≤j≤t)為第i個(gè)句子中第j個(gè)位置是否出現(xiàn)拼寫錯(cuò)誤的正確值,“1”表示存在拼寫錯(cuò)誤,“0”表示不存在拼寫錯(cuò)誤:
BERT的預(yù)訓(xùn)練任務(wù)除MLM外,還包括句子相鄰關(guān)系預(yù)測任務(wù)NSP。ALBERT[20]和MacBERT[14]針對NSP的效果不佳問題,進(jìn)一步提出句子順序關(guān)系預(yù)測SOP。對于MASC,可根據(jù)需要結(jié)合NSP 或SOP等其他預(yù)訓(xùn)練任務(wù),相應(yīng)的損失函數(shù)分別為
式中,LossNSP、LossSOP分別為針對NSP和SOP任務(wù)的損失函數(shù)。
為了利用MASC 進(jìn)行預(yù)訓(xùn)練,實(shí)驗(yàn)從文獻(xiàn)[21]的生成語料集ACG中隨機(jī)選擇3萬個(gè)目標(biāo)正確句子作為預(yù)訓(xùn)練語料集,記為ACG3W;同時(shí),還采用漢語水平考試(HSK)語料集中的部分句子作為預(yù)訓(xùn)練數(shù)據(jù)。HSK 語料集共包含156 820 個(gè)句子,最大長度為417 個(gè)字,平均長度為27.35 個(gè)字??紤]到訓(xùn)練效率和句子表達(dá)完整性等因素,只從HSK語料集中選擇3萬個(gè)句子作為預(yù)訓(xùn)練數(shù)據(jù),每條數(shù)據(jù)的長度在12到120個(gè)字之間,并以句號、問號和感嘆號等結(jié)尾,記為HSK3W。
因?qū)嶒?yàn)條件和篇幅限制,實(shí)驗(yàn)中只選擇3個(gè)最常用的BERT 中文預(yù)訓(xùn)練語言模型作為基礎(chǔ)模型進(jìn)行新的MASC 預(yù)訓(xùn)練,包括:bert-base-chinese、chinese-bert-wwm和chinese-macbert-base,分別簡單記為base、wwm 和macbert。3 個(gè)模型均包含12 個(gè)隱層、12個(gè)多頭自注意力,輸出張量為768維,參數(shù)量約為1.1 億,詞匯量約為2.1 萬。第1 個(gè)模型的原始預(yù)訓(xùn)練采用MLM和NSP,第2個(gè)模型采用全詞掩碼的MLM和NSP,第3個(gè)模型采用N-grams(包括一元、二元和三元詞組),并利用近義詞代替[MASK]進(jìn)行預(yù)測。
預(yù)訓(xùn)練過程采用批量訓(xùn)練的方式,每一批數(shù)據(jù)的數(shù)量為32,學(xué)習(xí)率為5×10-5,共訓(xùn)練5 輪,并采用Adam優(yōu)化器。由于原始HSK和ACG中的數(shù)據(jù)大部分為單個(gè)句子,因此預(yù)訓(xùn)練過程中只考慮MASC及相應(yīng)的Lossdet和Losscor,而忽略NSP或SOP任務(wù)。
為驗(yàn)證MASC 的有效性,實(shí)驗(yàn)用3 個(gè)經(jīng)典的公開CSC語料集sighan13[22]、sighan14[23]和sighan15[24],并參照文獻(xiàn)[2]的做法,利用OpenCC工具將各語料集中的繁體中文句子轉(zhuǎn)換成簡體中文,同時(shí)利用PinYin工具獲取混淆集中各個(gè)單詞的拼音信息。3個(gè)語料集的相關(guān)統(tǒng)計(jì)信息如表3所示。
表3 3個(gè)CSC語料集的統(tǒng)計(jì)信息1)Table 3 Statistical information about three corpora
由于各語料集中句子的最大長度均明顯小于512 個(gè)字,因此在微調(diào)和測試過程中均取其最大長度值作為閾值。
與文獻(xiàn)[1,3,7]等其他工作類似,實(shí)驗(yàn)中均采用CSC任務(wù)中常用的句子級別精確率P(Precision)、召回率R(Recall)和F1 值等作為評價(jià)指標(biāo),并區(qū)分錯(cuò)誤識別網(wǎng)絡(luò)D(Detection Network)和糾正網(wǎng)絡(luò)C(Correction Network)。例如,PD和PC分別表示識別網(wǎng)絡(luò)和糾正網(wǎng)絡(luò)的精確率,RD和RC分別表示識別網(wǎng)絡(luò)和糾正網(wǎng)絡(luò)的召回率,F(xiàn)1D和F1C分別表示識別網(wǎng)絡(luò)和糾正網(wǎng)絡(luò)的F1 值。同時(shí),為了減少參數(shù)初始化及訓(xùn)練過程中產(chǎn)生的偏差,在下游任務(wù)中取3次獨(dú)立微調(diào)和測試的結(jié)果平均值作為最終實(shí)驗(yàn)結(jié)果。
為了分別對比原始base、wwm 和macbert 與采用MASC進(jìn)行再次預(yù)訓(xùn)練后的效果,本實(shí)驗(yàn)采用文獻(xiàn)[7]中BERT 的類似結(jié)構(gòu),在最后Transformer 隱層輸出序列的基礎(chǔ)上,分別利用sigmoid 和softmax層用于錯(cuò)誤識別和糾正判斷。表4給出了采用不同預(yù)訓(xùn)練語言模型后MASC 在3 個(gè)語料集上的效果,后綴agc、hsk和all分別表示采用ACG3W、HSK3W和同時(shí)采用ACG3W及HSK3W進(jìn)行MASC預(yù)訓(xùn)練的結(jié)果?;赽ase 的MASC 即相當(dāng)于文獻(xiàn)[21]中的BERT 模型,實(shí)驗(yàn)結(jié)果來自于相應(yīng)文獻(xiàn);其他實(shí)驗(yàn)結(jié)果均為本文的實(shí)驗(yàn)結(jié)果。粗體部分表示在該語料集上不同模型的最好效果。
表4 不同預(yù)訓(xùn)練語言模型的MASC在3個(gè)語料集上的效果Table 4 Performance on three corpora of MASC with different pre-trained language models %
由表4可知:
(1)當(dāng)采用3 種不同的預(yù)訓(xùn)練語言模型時(shí),MASC 在3 個(gè)語料集上的表現(xiàn)不同??傮w上來說,MASC在macbert上的效果最好,而在bert和wwm上則表現(xiàn)各不同。本文認(rèn)為主要的原因是macbert 在base基礎(chǔ)上結(jié)合文本校正預(yù)訓(xùn)練任務(wù),進(jìn)一步增強(qiáng)了模型識別詞組和同義詞的能力,而且通過大規(guī)模的再次預(yù)訓(xùn)練能更好地學(xué)習(xí)句子的上下文語義并提升模型在CSC中的效果。而wwm在3個(gè)語料集上的效果并沒有明顯優(yōu)于base,甚至部分效果更差,主要是因?yàn)椋? 個(gè)語料集中的大部分錯(cuò)誤以單字為主(具體統(tǒng)計(jì)信息可見表5),而很少整個(gè)詞出錯(cuò),這與wwm 在預(yù)訓(xùn)練時(shí)的全詞掩碼策略存在較大的差異;還與3個(gè)語料集本身存在一定的差異有關(guān)。
表5 3個(gè)語料集中字和詞錯(cuò)誤的統(tǒng)計(jì)信息Table 5 Statistic information about character and word errors in three corpora
wwm與base均沒有考慮錯(cuò)誤字詞與正確字詞間的發(fā)音或字形相似性知識,且面臨預(yù)訓(xùn)練和與微調(diào)不一致的問題。
(2)對于hsk、acg 和all 3 種不同的預(yù)訓(xùn)練語料集,MASC 采用all 數(shù)據(jù)后在3 個(gè)CSC 語料集上總體表現(xiàn)最好,采用hsk 的次之,而采用acg 的最差。這說明預(yù)訓(xùn)練數(shù)據(jù)的內(nèi)容對于模型在下游任務(wù)中的效果有著較大的影響。3 個(gè)CSC 語料中的句子主要來自國外的中文初學(xué)者所寫的散文。HSK中的句子來自于漢語水平考試(HSK)語料集,而ACG的句子則主要來自于人民日報(bào)的報(bào)道。因此,總體上各個(gè)CSC 語料集與ACG 句子內(nèi)容和語法結(jié)構(gòu)上相差較大,而與HSK 非常接近。實(shí)驗(yàn)結(jié)果也證明了hsk在CSC 語料集上的表現(xiàn)確實(shí)優(yōu)于acg。采用all 訓(xùn)練數(shù)據(jù)后,模型效果大部分情況下表現(xiàn)較好,特別是在錯(cuò)誤識別效果方面均有一定的提升,但在糾正方面因與acg 訓(xùn)練數(shù)據(jù)的內(nèi)容存在一定差異及總體訓(xùn)練不充分等因素,導(dǎo)致糾正的效果有時(shí)候略下降。
(3)采用不同訓(xùn)練數(shù)據(jù)后,MASC在3個(gè)語料集上的錯(cuò)誤識別效果均得到了一定的提升,這說明MASC確實(shí)能有效地提升模型的中文拼寫錯(cuò)誤識別能力。但在文本糾正方面,采用wwm后模型的效果并沒有提升,反而下降了。本文認(rèn)為主要是因?yàn)閣wm中對詞組的掩碼與CSC中以單字拼寫錯(cuò)誤為主的情況存在很大差異,因此預(yù)訓(xùn)練后反而容易引入一些噪聲數(shù)據(jù),從而導(dǎo)致模型的糾正效果受到一定的影響。
本實(shí)驗(yàn)以sighan15 語料集為例對MASC 中的各組成部分進(jìn)行消融分析。結(jié)合表4所示的結(jié)果,以MascBERT+base+all 作為基線模型進(jìn)行分析,實(shí)驗(yàn)結(jié)果如表6所示。其中“-”表示在原來模型基礎(chǔ)上去除相應(yīng)的組成部分,例如,-N-grams表示不考慮詞掩碼,即只采用字掩碼,-tone表示不考慮拼音的音調(diào),-visual 表示不考慮字形相近信息,-lossdet表示不考慮錯(cuò)誤識別層和相應(yīng)的損失函數(shù)。
表6 MascBERT的消融實(shí)驗(yàn)結(jié)果Table 6 Ablation experiment result for MascBERT %
從表6中的實(shí)驗(yàn)結(jié)果可知:去除N-grams之后,MascBERT 在錯(cuò)誤識別效果方面稍有下降,而在糾正方面不僅沒有下降,反而有一定的提升。本文認(rèn)為這主要是因?yàn)閟ighan的訓(xùn)練集和測試集都是以單個(gè)字的錯(cuò)誤為主,因此去除N-grams雖然降低了錯(cuò)誤識別效果,但在糾正時(shí)減少了詞組所帶來的一些干擾信息,因此更符合下游任務(wù)的特點(diǎn),從而使糾正效果有一定的提升。這也與表5的結(jié)果相符,同時(shí)也說明雖然MascBERT 中采用全詞及多元詞組掩碼能夠提升模型在許多下游任務(wù)中的表現(xiàn),但對于CSC任務(wù)卻不一定有效。對于聲調(diào)和字形相近信息來說,總體上聲調(diào)對模型的效果影響更大,這主要是因?yàn)榇蟛糠制磳戝e(cuò)誤的正確字與錯(cuò)誤字之間存在發(fā)音相同的情況,而字形相近的錯(cuò)誤相對較少。去除錯(cuò)誤識別層及相應(yīng)的損失函數(shù)后,模型的效果明顯有一定的下降,這主要是因?yàn)樵璏LM中只考慮對被掩碼字正確值的判斷,而忽略了對該字是否存在拼寫錯(cuò)誤進(jìn)行識別。因此增加錯(cuò)誤識別和損失函數(shù)后,能夠引導(dǎo)模型進(jìn)一步根據(jù)上下文判斷相應(yīng)的字是否存在拼寫錯(cuò)誤,而不只是單獨(dú)考慮是否語義正確。當(dāng)同時(shí)去除聲調(diào)和錯(cuò)誤識別判斷后,模型的效果下降明顯,甚至比不采用MASC的效果更差。這主要是因?yàn)閟ighan15語料集中的拼寫錯(cuò)誤大多是因?yàn)橥艋蚪舳鸬?,因此單純只考慮N-grams和字形相近信息反而容易在預(yù)訓(xùn)練時(shí)引入噪聲數(shù)據(jù),特別是在預(yù)訓(xùn)練數(shù)據(jù)量比較有限以及訓(xùn)練不充分的情況下。
下面繼續(xù)以sighan15 語料集中的部分句子為例,分別對BERT 和MascBERT 的判斷結(jié)果進(jìn)行對比分析。測試集中的3個(gè)句子如下。
句子1:這兩問題真的嚴(yán)重,我么(們)受不了。
句子2:可是你現(xiàn)在不在宿舍,所以我留了一枝(紙)條。
句子3:我以前想要高(告)訴你,可是我忘了。我真戶禿(糊涂)。
分別采用預(yù)訓(xùn)練及微調(diào)后的BERT和MascBERT進(jìn)行判斷,結(jié)果如表7所示,其中粗體字表示對應(yīng)錯(cuò)誤的預(yù)測結(jié)果。
表7 常見中文拼寫錯(cuò)誤例子Table 7 Examples of common CSC errors
從表7 可以看出,BERT 的輸出結(jié)果句子在語義上是合理通順的,但不是正確的目標(biāo)句子,特別是預(yù)測的字詞與錯(cuò)誤字詞之間沒有發(fā)音或字形上的相似性信息;而MascBERT 的輸出結(jié)果不僅在句子語義上是合理的,而且能夠更好地學(xué)習(xí)到字之間在發(fā)音上的相似性知識。
針對現(xiàn)有BERT/RoBERTa/MacBERT 等預(yù)訓(xùn)練語言模型的MLM在CSC任務(wù)中面臨預(yù)訓(xùn)練與微調(diào)任務(wù)不一致的問題,提出一種面向中文拼寫糾錯(cuò)的自監(jiān)督預(yù)訓(xùn)練方法MASC,將MLM 中對被掩碼字的正確值預(yù)測轉(zhuǎn)換成對拼寫錯(cuò)誤字的識別和糾正,同時(shí)結(jié)合混淆集引入音調(diào)相同、音調(diào)相近和字形相近等相似性知識。實(shí)驗(yàn)結(jié)果表明,所提出的MASC可在不改變BERT/RoBERTa/MacBERT 等模型結(jié)構(gòu)的前提下,有效地提升預(yù)訓(xùn)練語言模型在下游CSC任務(wù)中的效果。下一步將繼續(xù)研究如何改進(jìn)預(yù)訓(xùn)練任務(wù)中的掩碼策略和候選字生成策略,以提升模型的錯(cuò)誤識別及糾正能力;還將探討如何在下游任務(wù)中進(jìn)一步引入其他相似性知識,以避免依賴于特定的混淆集。