安見才讓
(青海民族大學(xué)計(jì)算機(jī)學(xué)院,西寧810007)
信息社會(huì)的發(fā)展,使電子書、網(wǎng)上圖書館以及網(wǎng)頁(yè)等種類繁多的信息平臺(tái)不斷出現(xiàn),供人們使用。這些平臺(tái)上的信息主要是通過鍵盤錄入、圖像掃描等方式輸入到計(jì)算機(jī)的。在輸入過程中,任何一種方式都無(wú)法保證存入的信息準(zhǔn)確無(wú)誤,校對(duì)技術(shù),作為確保準(zhǔn)確輸入信息的一種專業(yè)性技術(shù),便顯示出其重要性來。
國(guó)外研究在英文文本校對(duì)方面取得了一定成果,部分成果實(shí)現(xiàn)了商品化。英文校對(duì)一般分為兩部分[1],一是針對(duì)英語(yǔ)單詞內(nèi)部出現(xiàn)的拼寫錯(cuò)誤,主要采用最小編輯距離技術(shù)、相似鍵技術(shù)等六種方法來實(shí)現(xiàn)[2];二是對(duì)句子中出現(xiàn)的單詞正確但用法錯(cuò)誤的情況進(jìn)行校正,主要采用自然語(yǔ)言處理和統(tǒng)計(jì)語(yǔ)言模型技術(shù)(SLM)解決。由于漢語(yǔ)與英語(yǔ)在語(yǔ)言本身及文本輸入方式上均存在較大差異, 因而漢語(yǔ)的文本校對(duì)系統(tǒng)所采用的策略及技術(shù),與英文校對(duì)系統(tǒng)有一定的差異。現(xiàn)今普遍采用的技術(shù)有:詞切分技術(shù)[3]、近似集模糊匹配技術(shù)[4-5]、語(yǔ)法分析及語(yǔ)義分析技術(shù)等[6]。國(guó)內(nèi)對(duì)文本校對(duì)方面的研究始于上世紀(jì)90 年代初期,但發(fā)展速度較快,其中藏文字的主要校對(duì)方法采用字典匹配法進(jìn)行。文獻(xiàn)[7]詳細(xì)描述了藏文的文法并根據(jù)藏文文法提出了基于分段的藏文校對(duì)方法。隨著深度學(xué)習(xí)方法的發(fā)展,一些神經(jīng)網(wǎng)絡(luò)模型也被成功應(yīng)用于藏文字的校對(duì)任務(wù)。
利用神經(jīng)網(wǎng)絡(luò)模型處理藏文字校對(duì)問題,首先需要將字母向量化表示??墒褂靡粋€(gè)特定維度的特征向量代表藏文字母。字母向量可以刻畫字母與字母在語(yǔ)義和語(yǔ)法上的相關(guān)性,并作為藏文字母特征成為神經(jīng)網(wǎng)絡(luò)的輸入。使用訓(xùn)練語(yǔ)料集中的所有字母建立一個(gè)大小為d×N 的藏文字字典矩陣,d 是字向量的維度,N 是字典的大小,以此構(gòu)造一個(gè)字母到字母嵌入的查找表,將輸入的藏文字母轉(zhuǎn)換為字母嵌入向量,作為模型的輸入。研究表明,使用大規(guī)模無(wú)監(jiān)督學(xué)習(xí)得到的字母向量作為輸入矩陣的初始值比隨機(jī)初始化有著更優(yōu)的效果。此處使用word2vec[8]在藏文語(yǔ)料庫(kù)預(yù)訓(xùn)練獲得字母向量,取值d=300,N=152。
在此創(chuàng)建名為BiGtCFCMTC(BiGRU three CNN FC Modle of Tibetan Checking,雙向GRU 三卷積全連接網(wǎng)絡(luò))的模型。
藏文字校對(duì)任務(wù)通??梢哉J(rèn)為是判斷基于藏文字母序列組合的合法性的任務(wù)。藏文字中一般最多有7 個(gè)藏文字母,7 個(gè)字母之間有嚴(yán)格文法規(guī)定,它們之間的組合關(guān)系非常緊密,前面的字母會(huì)影響到后面字母的選擇,同時(shí),后面字母的出現(xiàn)也影響著前面字母的選擇。所以,為抽取其相互關(guān)系的語(yǔ)義在此采用雙向GRU。
藏文字經(jīng)過循環(huán)網(wǎng)絡(luò)GRU 語(yǔ)義抽取后,對(duì)其輸出部分分別進(jìn)行拼接,形成新的語(yǔ)義矩陣M7×300。然后,用三個(gè)大小分別為 2×300、3×300、4×300 卷積核作卷積和池化運(yùn)算,所得結(jié)果作連接成向量,作全連接并用Softmax 函數(shù)進(jìn)行歸一化處理。藏文字校對(duì)模型框架如圖1 所示。
雙向GRU 的目的是解決單向GRU 無(wú)法處理后文信息的問題。單向的GRU 只能在一個(gè)方向上處理數(shù)據(jù),雙向GRU 的基本思想則是提出每一個(gè)訓(xùn)練序列向前和向后分別是兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),且這兩個(gè)網(wǎng)絡(luò)都連接著一個(gè)輸出層。圖2 展示的即是一個(gè)沿著時(shí)間展開的改進(jìn)雙向雙層GRU 神經(jīng)網(wǎng)絡(luò)模型(Bi-GRU),可用來獲得字母序列的標(biāo)注信息。Bi-GRU 轉(zhuǎn)化函數(shù)如下:
圖1 藏文字校對(duì)模型框架
圖2 雙向雙層GRU 神經(jīng)網(wǎng)絡(luò)模型
向后推算(backwardpass):
需要注意的是,一個(gè)現(xiàn)代藏文字最多7 個(gè)字母,向后推算部分是從最后一個(gè)字母開始,即t 從6遍歷至0。
向前推算(forwardpass):
向前推算與后向推算部分類似,向量上的箭頭方向相反,而且它是從句子的第一個(gè)詞掃描至最后一個(gè)字母,在7 字母的情況下,則t 從0 遍歷至6。公式如下:
在向前推算中輸入向量由兩個(gè)向量組合而成:向前推算第t 個(gè)字母的向量xt和后向推算第6 個(gè)字母到第t 個(gè)字母積累的歷史信息的串聯(lián)拼接。
在藏文字校對(duì)中,這個(gè)模塊的輸入為藏文字的第一個(gè)字母到最后一個(gè)字母,最多有7 個(gè)字母,達(dá)不到7 個(gè)字母用-1 補(bǔ)齊。經(jīng)雙向GRU 處理后,輸出為 hi(hi∈R1×d, d =300, 0≤i≤6),把 hi全部拼接后得到矩陣 M7×300:
對(duì)藏文字局部特征的提取可利用CNN 來完成。CNN 是一種前饋神經(jīng)網(wǎng)絡(luò),其模型結(jié)構(gòu)主要包括輸入層、卷積層、池化層、全連接層和輸出層幾部分。
在輸入層操作中,雙向雙層GRU 神經(jīng)網(wǎng)絡(luò)的輸出 hi拼接成矩陣 M7×300(hi∈R1×300,其中,1 表示一個(gè)字母,300 是字母向量維度)作為輸入,特征向量為hi包含了第i 字母前后的全部語(yǔ)義特征。
卷積操作主要完成特征提取的工作。藏文字中一般前2 個(gè)、3 個(gè)和4 個(gè)字母之間需要嚴(yán)格遵守文法的規(guī)定,元音和后兩個(gè)字母相對(duì)比較簡(jiǎn)單不易出錯(cuò)。所以,通過設(shè)置大小為 2×300、3×300 和 4×300的濾波器 ω0、ω1、ω2來完成對(duì)輸入藏文字特征的提取,如下式:
其中,ωi(0≤i≤2)是卷積核,Mj:j+i+1是 j 到 j+i+1 個(gè)字母組成的向量,b 是偏置項(xiàng),通過卷積層后,得到特征矩陣 Ji(0≤i≤2),具體為 Ji=[ci0,ci1,ci2,ci3,ci4,ci5,ci6]。
通過卷積層之后得到的字向量特征矩陣Ji比較小,所以沒有池化層。在此把卷積后特征進(jìn)行水平拼接:
此處,J 包含 3 次卷積×7 個(gè)元素/卷積=21 個(gè)元素。
再將3 次卷積后所得的特征J 作為輸入,作全連接運(yùn)算,并作Softmax 運(yùn)算:
其中,w為全連接權(quán)重,n 為偏移項(xiàng),p 只有兩個(gè)值。
采用反向傳播機(jī)制,使用自適應(yīng)學(xué)習(xí)率的隨機(jī)梯度下降算法來訓(xùn)練模型中的權(quán)重矩陣和偏置項(xiàng),通過最小化交叉熵來優(yōu)化模型。交叉熵代價(jià)函數(shù)為:
其中,r 為訓(xùn)練數(shù)據(jù)集大小;c 為類別數(shù),此處值為2;y 為預(yù)測(cè)類別為實(shí)際類別;λ2||θ||2為 L2正則項(xiàng)。
設(shè)置損失閾值T,當(dāng)損失函數(shù)Lloss小于T 時(shí),視為模型收斂。在此收斂狀態(tài)下的參數(shù)優(yōu)化情況得到BiGtCFCMTC 模型的最優(yōu)權(quán)值,使用測(cè)試文本集來對(duì)此時(shí)的最優(yōu)化模型進(jìn)行驗(yàn)證,再通過對(duì)比分類器精度和泛化能力來評(píng)估改進(jìn)算法的性能。
實(shí)驗(yàn)使用的藏語(yǔ)語(yǔ)料由青海民族大學(xué)藏文信息處理與軟件研究所提供。此語(yǔ)料是中國(guó)西北五省區(qū)藏區(qū)初中藏語(yǔ)文教材中的課文, 測(cè)試語(yǔ)料包含了73155 個(gè)藏文字,其中,正樣本占55.1%,負(fù)樣本占44.9%。
首先,用人工方式對(duì)訓(xùn)練語(yǔ)料采用前文所述方法進(jìn)行預(yù)處理。實(shí)驗(yàn)采用TensorFlow2.0 框架,構(gòu)建上述神經(jīng)網(wǎng)絡(luò)模型,并使用語(yǔ)料訓(xùn)練網(wǎng)絡(luò)的權(quán)值,不斷迭代,直到算法收斂。實(shí)驗(yàn)在內(nèi)存為16GB、GPU內(nèi)存為8 GB 的Windows 系統(tǒng)上進(jìn)行。程序采用Python 語(yǔ)言進(jìn)行編程模型中的超參數(shù):上下文窗口長(zhǎng)度 k =3,藏文字母向量長(zhǎng)度 d =300,隱藏層單元數(shù) h = 128,初始學(xué)習(xí)率 α = 0.1,Dropount 比率 p =0.5,Batchsize 值為 128。
使用上述方法在語(yǔ)料中進(jìn)行實(shí)驗(yàn),對(duì)藏文的字母標(biāo)注結(jié)果用標(biāo)準(zhǔn)bake-off 打分程序來計(jì)算準(zhǔn)確率P,召回率R。準(zhǔn)確率和召回率的調(diào)和平均值F。經(jīng)實(shí)驗(yàn),所提出的新模型BiGTCFCMTC 的藏文字校對(duì)準(zhǔn)確率為93.95%,召回率為94.17%,F(xiàn) 值為94.06%。
新提出的藏文字檢錯(cuò)雙向GRU 三卷積全連接網(wǎng)絡(luò)模型在73155 個(gè)藏文字語(yǔ)料上進(jìn)行實(shí)驗(yàn),獲得較為理想的結(jié)果。實(shí)際工作中,模型憑借GPU 的運(yùn)算能力可大大縮短深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間,該網(wǎng)絡(luò)模型的方法也更容易推廣應(yīng)用到其他NLP中序列標(biāo)注的任務(wù),具有一定的通用性和實(shí)用價(jià)值。