劉曉童, 趙夢玲, 王桂榮, 金小峰
(延邊大學(xué) 工學(xué)院,吉林 延吉 133002)
朝鮮語古籍具有多文種混排的特點,尤其以中朝兩種文字混排的情況居多.目前,朝鮮語標(biāo)注數(shù)據(jù)集的匱乏是影響研究朝鮮語古籍文字識別的關(guān)鍵因素之一.由于人工標(biāo)注數(shù)據(jù)存在效率低和成本高的問題,因此如何利用自動標(biāo)注方法來構(gòu)建朝鮮語古籍文字圖像數(shù)據(jù)集,并以此為進(jìn)一步研究朝鮮語古籍文字的識別方法和實現(xiàn)朝鮮語古籍?dāng)?shù)字化具有重要的意義.為此,一些學(xué)者對此進(jìn)行了研究.例如:蘇向東[1]針對蒙古文古籍標(biāo)注數(shù)據(jù)集匱乏的情形,提出了一種半自動樣本選取方法.研究顯示,該方法可有效提高無標(biāo)注數(shù)據(jù)的標(biāo)注效率,但對未標(biāo)注數(shù)據(jù)集只能進(jìn)行粗分類.姜麗[2]提出了一種基于BIRCH 和改進(jìn)K 中心點算法的古籍漢字圖像聚類方法.研究顯示,該方法可對古籍漢字圖像進(jìn)行有效分類,但作者未利用該方法構(gòu)建標(biāo)注數(shù)據(jù)集.Yang等[3]針對手寫數(shù)據(jù)集提出了DCN 方法,研究顯示該方法可有效提高圖像的聚類質(zhì)量.王暢等[4]提出了一種將聚類和跟蹤相融合的人臉圖像數(shù)據(jù)集的構(gòu)建方法,研究顯示該方法可提升人臉數(shù)據(jù)集的生成效率和準(zhǔn)確率.Yan等[5]針對因標(biāo)注數(shù)據(jù)集匱乏導(dǎo)致視覺任務(wù)研究受限的問題,提出了Clusterfit方法.研究顯示,該方法可顯著提高預(yù)訓(xùn)練模型提取視覺特征的魯棒性,且模型運用少量的與預(yù)訓(xùn)練任務(wù)相關(guān)的特定信息即可進(jìn)行聚類,從而使提取的特征更適合于下游任務(wù).
DeepCluster[6]是一種可擴(kuò)展的無監(jiān)督學(xué)習(xí)聚類方法.由于該方法將無監(jiān)督聚類與深度神經(jīng)網(wǎng)絡(luò)相融合,因此其具有不需要借助已標(biāo)注數(shù)據(jù)或特定領(lǐng)域先驗知識的優(yōu)點,并可將學(xué)習(xí)到的通用特征應(yīng)用于下游分類任務(wù)中.基于此,本文利用DeepCluster聚類方法提出了一種朝鮮語古籍文字圖像的聚類方法,并通過實驗驗證了該方法的有效性.
DeepCluster網(wǎng)絡(luò)模型的總體網(wǎng)絡(luò)架構(gòu)如圖1所示.模型的輸出由聚類和分類兩個分支構(gòu)成,且這兩個分支共享卷積網(wǎng)絡(luò)的參數(shù).聚類分支的任務(wù)是將卷積網(wǎng)絡(luò)提取的特征輸入到聚類模型K-means[7]中進(jìn)行聚類.其過程為:首先,利用主成分分析法對卷積網(wǎng)絡(luò)輸出的特征向量進(jìn)行降維;然后,對降維的特征向量進(jìn)行線性轉(zhuǎn)換和L2歸一化;最后,利用K-means對特征向量進(jìn)行聚類(每個聚類分配一個偽標(biāo)簽),以此獲得圖像的聚類結(jié)果.在對輸入樣本進(jìn)行分類的過程中,模型通過誤差的反向傳播來調(diào)整卷積網(wǎng)絡(luò)的參數(shù).
圖1 DeepCluster網(wǎng)絡(luò)模型的結(jié)構(gòu)
DeepCluster網(wǎng)絡(luò)模型雖然能夠在訓(xùn)練過程中實現(xiàn)收斂,但由于其參數(shù)采用的是交替迭代聚類和分類的更新方式,因此在學(xué)習(xí)過程中會得到一些沒有意義的平凡解,進(jìn)而會導(dǎo)致模型在聚類過程中出現(xiàn)空簇和參數(shù)平凡化的問題[8].為了避免得到平凡解,本文首先對由卷積網(wǎng)絡(luò)提取的n×d維特征進(jìn)行Kmeans聚類,以此得到k個簇,并將其作為初始的偽標(biāo)簽(形式為k維的one-hot編碼);然后,通過交替使用式(1)和式(2)對特征進(jìn)行聚類,以此生成偽標(biāo)簽;最后,通過預(yù)測生成的偽標(biāo)簽來更新網(wǎng)絡(luò)參數(shù).
式(1)中,fθ(·)為卷積網(wǎng)絡(luò)映射函數(shù),θ為映射函數(shù)的參數(shù),xn為訓(xùn)練樣本,yn∈{0,1}k為xn對應(yīng)的標(biāo)簽;式(2)中,l(·)為多項邏輯損失函數(shù),gw(·,·)為預(yù)測偽標(biāo)簽的參數(shù)化分類器函數(shù).
基于DeepCluster的朝鮮語古籍文字圖像聚類模型的結(jié)構(gòu)如圖2所示.由于朝鮮語古籍文字圖像具有樣本稀少的特點(屬于小型數(shù)據(jù)集),所以本文在模型中選用了AlexNet卷積網(wǎng)絡(luò).
圖2 基于DeepCluster的朝鮮語古籍文字圖像聚類模型的結(jié)構(gòu)
圖3為典型的AlexNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)圖.該網(wǎng)絡(luò)由5個卷積層和3個全連接層組成,各卷積層(從左至右)分別有96、256、384、384和256個濾波器.由于將批處理規(guī)范化作為歸一化網(wǎng)絡(luò)層能夠減少對初始化的高度依賴和提高網(wǎng)絡(luò)的泛化能力,以及能夠使參數(shù)之間的聯(lián)系保持不變(參數(shù)范圍為0~1),因此本文在DeepCluster中用批處理規(guī)范化代替了AlexNet卷積網(wǎng)絡(luò)中的局部響應(yīng)歸一化層.另外,由于常用的無監(jiān)督方法通常不能直接將圖像域中的不同顏色作為標(biāo)簽,所以本文模型采用基于Sobel濾波器的固定線性變換來去除圖像域中的不同顏色和增加其局部的對比度[9].
圖3 AlexNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)
本文模型對朝鮮語古籍文字圖像進(jìn)行聚類的流程為:
1)生成初始標(biāo)簽.首先,對AlexNet卷積網(wǎng)絡(luò)架構(gòu)進(jìn)行隨機(jī)權(quán)重初始化,并移除最后一個全連接層;然后,利用網(wǎng)絡(luò)對圖像進(jìn)行特征提取,并前向傳遞參數(shù),以此獲取圖像模型的第2個全連接層的特征向量.由AlexNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)可知,此時網(wǎng)絡(luò)輸出的特征向量的維度為4096,如圖4所示.對N張圖像重復(fù)上述操作過程即可得到一個[N,4096]的圖像特征矩陣.
圖4 簡化后的AlexNet卷積網(wǎng)絡(luò)對文字圖像進(jìn)行特征提取的示意圖
2)生成偽標(biāo)簽.首先,采用主成分分析法對圖像特征進(jìn)行降維,使特征矩陣由4096維減少至256維;然后,對降維之后的特征進(jìn)行L2 歸一化處理,以此得到N幅圖像的矩陣[N,256];最后,利用K-means對預(yù)處理后的特征進(jìn)行聚類,以此獲得圖像及其對應(yīng)的聚類類別.由此獲得的集群類別結(jié)果即為訓(xùn)練模型的偽標(biāo)簽.生成偽標(biāo)簽的過程如圖5所示.
圖5 模型通過特征聚類生成偽標(biāo)簽的示意圖
3)判別預(yù)測標(biāo)簽和真實集群標(biāo)簽.首先,創(chuàng)建新批次的圖像,以此使每個待聚類的圖像有均等被包含于簇內(nèi)的機(jī)會;然后,對待聚類的圖像進(jìn)行隨機(jī)增強(qiáng),以此得到圖像和其相應(yīng)的集群;最后,對模型進(jìn)行訓(xùn)練(批量大小為256),并運用交叉熵?fù)p失對比模型的預(yù)測標(biāo)簽和真實集群的標(biāo)簽,以此使得模型能夠?qū)W習(xí)到有用的特征.模型判別標(biāo)簽的過程如圖6所示.
圖6 模型判別標(biāo)簽的示意圖
為了提高網(wǎng)絡(luò)的整體學(xué)習(xí)性能和獲得更多的有效圖像特征,在將圖片輸入模型之前,本文利用對輸入圖像進(jìn)行隨機(jī)水平翻轉(zhuǎn)、隨機(jī)大小變換以及縱橫比的裁剪等方式對數(shù)據(jù)進(jìn)行了增強(qiáng).
對圖像執(zhí)行聚類時,首先確定被訓(xùn)練的類別數(shù)量.確定的集群類別數(shù)量雖然越多越可對未標(biāo)注的圖像進(jìn)行更細(xì)粒度的分組,但為了便于對聚類結(jié)果進(jìn)行人工判別和標(biāo)注,本文依據(jù)現(xiàn)存的朝鮮語字符類別數(shù)量(11172個)以及通過設(shè)置不同類別數(shù)量進(jìn)行聚類試驗,最終將朝鮮語古籍文字圖像的聚類簇數(shù)設(shè)置為20000個.
本文所用數(shù)據(jù)集來源于《同文類解》《闡義昭鑒諺解》和《諺解胎產(chǎn)集》3本朝鮮語古籍.對這3本古籍進(jìn)行掃描后共獲得文本圖像875張,其中《同文類解》160張,《闡義昭鑒諺解》555張,《諺解胎產(chǎn)集》160張.在上述古籍中,《同文類解》收錄了對應(yīng)漢語的朝鮮語對譯詞和對應(yīng)滿語的朝鮮語對譯詞,《諺解胎產(chǎn)集》由朝鮮語和漢語兩種語言書寫,《闡義昭鑒諺解》為手寫朝鮮語版本.對上述古籍文本圖像進(jìn)行文字圖像切割后共得到303167張文字圖像.圖7是切分的部分文字圖像的樣例.
圖7 部分朝鮮語古籍文字圖像的示例
實驗硬件環(huán)境為Intel(R) Core(TM) i7-7820X CPU+NVIDIA GeForce RTX 2080(8GB顯存),軟件環(huán)境為Python 3.7.13+Pytorch 1.12.1.
聚類結(jié)果評價指標(biāo)采用準(zhǔn)確率和標(biāo)準(zhǔn)化互信息(NMI)[8].NMI的計算公式為:
其中:A和B為隨機(jī)變量;I(A;B)為A和B的互信息,I(A;B)=H(A)-H(A|B);H(·)為隨機(jī)變量的信息熵.由式(3)可知:若A和B相互獨立,則NMI(A;B)= 0;若由A可確定B,或由B可確定A,則NMI(A;B)= 1.
實驗數(shù)據(jù)集采用由上述切割得到的無標(biāo)注的303167張文字圖像.實驗中,設(shè)置批量大小為256,初始聚類簇數(shù)為20000.圖8為NMI值隨迭代輪次的變化趨勢.由圖8可以看出:NMI值隨迭代輪次的增加而呈增大趨勢.模型在訓(xùn)練初期時,由于卷積網(wǎng)絡(luò)未能提取文字圖像的有效特征,因此導(dǎo)致聚類效果較差,表現(xiàn)為NMI值較小.當(dāng)?shù)喆沃饾u增加時,模型通過不斷更新卷積網(wǎng)絡(luò)的參數(shù),進(jìn)而不斷提高了模型對不同類別特征的提取能力和聚類效果,表現(xiàn)為NMI值逐漸增大.當(dāng)?shù)喆芜_(dá)到500時(NMI=0.89),曲線上升趨勢趨于穩(wěn)定,表明此時模型已收斂.
圖8 NMI值隨迭代輪次的變化趨勢
圖9是模型訓(xùn)練穩(wěn)定時部分聚類結(jié)果中的簇.由圖9可以看出,圖像盡管受到了多種干擾(如尺寸不同、切分不準(zhǔn)確以及噪聲等),但模型的聚類結(jié)果仍是準(zhǔn)確的.
圖9 聚類結(jié)果的部分示例
為了驗證本文方法的優(yōu)越性,將本文方法與DCN方法進(jìn)行了對比實驗.實驗中,均使用上述切分的數(shù)據(jù)集(303167張無標(biāo)注的朝鮮語古籍文字圖像).實驗結(jié)果見表1.由表1可以看出,本文方法的準(zhǔn)確率和NMI值比DCN 方法分別提高了15.32個百分點和0.180.該結(jié)果表明,本文方法對文字圖像的聚類性能顯著優(yōu)于DCN 方法對文字圖像的聚類性能.
表1 本文方法和DCN 方法的聚類結(jié)果
研究表明,本文提出的基于DeepCluster的朝鮮語古籍文字圖像聚類方法的準(zhǔn)確率和NMI值比DCN 方法分別提高了15.32個百分點和0.180,因此該方法可為構(gòu)建朝鮮語古籍?dāng)?shù)據(jù)集提供參考.在今后的工作中,我們將探討適用于小樣本朝鮮語古籍?dāng)?shù)據(jù)集的聚類方法,以進(jìn)一步提高構(gòu)建小樣本標(biāo)注數(shù)據(jù)集的有效性.