耿國華,薛米妍,周蓬勃,拓東成,馬星銳,劉曉寧
(1.西北大學(xué) 文化遺產(chǎn)數(shù)字化國家地方聯(lián)合工程研究中心,陜西 西安 710127;2.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127;3.北京師范大學(xué) 藝術(shù)與傳媒學(xué)院,北京 100875)
陶瓷文物是古代遺留下來的具有歷史、藝術(shù)與科學(xué)價(jià)值的遺物,它是人類寶貴的歷史文化遺產(chǎn),從不同的側(cè)面反映了當(dāng)時(shí)人類社會發(fā)展?fàn)顩r。因此,對陶瓷文物進(jìn)行保護(hù)與管理是一項(xiàng)重要工作[1]。由于陶瓷文物易碎,發(fā)掘出土過程會有破損,在實(shí)現(xiàn)復(fù)原前對碎片進(jìn)行分類可減少人為二次損壞,現(xiàn)有的古陶瓷的分類方法包括:成分鑒定法[2]、熱釋光鑒定法[3]、結(jié)合機(jī)器學(xué)習(xí)的光譜分析法[4-7]。成分鑒定法通過提取陶瓷中的化學(xué)元素組成進(jìn)行分類,但對于同一地域的陶瓷窯系,胎土化學(xué)成分也會有所不同,因此,該類方法容易受技術(shù)和樣本采集標(biāo)定的影響;熱釋光鑒定法雖然不需要依靠標(biāo)準(zhǔn)器進(jìn)行比較,但它是有損檢測技術(shù),對古陶瓷文物的修復(fù)將造成損害;光譜分析法因其簡單無損得到廣泛應(yīng)用,但環(huán)境及樣本狀態(tài)都可能產(chǎn)生異常光譜,從而影響分類準(zhǔn)確率。
隨著顯微儀器的出現(xiàn),顯微圖像的研究也如火如荼:文獻(xiàn)[8]提出了一種利用小波分析對陶瓷顯微圖像去噪處理后進(jìn)行分水嶺分割的方法,結(jié)果表明去噪后的圖像分割效果較好;文獻(xiàn)[9]提出了一種新型的陶瓷顯微圖像自動(dòng)拼接算法,解決了匹配質(zhì)量不高、效率差的問題;文獻(xiàn)[10]對陶瓷顯微圖像數(shù)據(jù)曲線分析,分析不同年代耀州瓷顯微圖像的氣泡區(qū)別,對耀州瓷顯微鑒定提供了依據(jù)。
近年來,深度學(xué)習(xí)在圖像分類領(lǐng)域[11-13]取得了重大突破。深度學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),有監(jiān)督學(xué)習(xí)雖然準(zhǔn)確率高,但需要大量的標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。為避免該問題,本文采用無監(jiān)督學(xué)習(xí)方式對陶瓷顯微圖像進(jìn)行分類。在無監(jiān)督圖像分類的研究中,Hadsel等人首次提出了對比損失的概念,將高維數(shù)據(jù)點(diǎn)映射到低維空間中,通過對比正對和負(fù)對使輸入中相似的點(diǎn)在流形上相距較近[14],沿著這個(gè)思路,Dosovitskiy等人建議將每個(gè)實(shí)例經(jīng)過旋轉(zhuǎn)、平移等增強(qiáng)操作后的結(jié)果視為一個(gè)由特征向量表示的類,利用CNN將不同的數(shù)據(jù)集合區(qū)分出來,但學(xué)習(xí)到的特征較簡單,對不同數(shù)據(jù)集和網(wǎng)絡(luò)魯棒性差[15]。Pan等人提出一種構(gòu)建affinity矩陣的方法,提升了聚類效果,但計(jì)算affinity矩陣要用到整個(gè)數(shù)據(jù)集,導(dǎo)致效率慢[16]。Chang等人將聚類問題映射成為一個(gè)二元成對分類框架來判斷圖像對是否屬于同一個(gè)類,解決了構(gòu)建affinity矩陣效率慢的問題[17]。Wu等人建議使用內(nèi)存庫向量來存儲實(shí)例類特征,提高樣本數(shù)和效率,但不能保證特征一致性[18]。Ye等人采用了孿生的網(wǎng)絡(luò)去訓(xùn)練,就可以對兩個(gè)網(wǎng)絡(luò)的實(shí)例特征實(shí)時(shí)地進(jìn)行比較和學(xué)習(xí),但隨著迭代次數(shù)越深也不能保證一致性[19]。Zhuang、Tian、Maesra等人對內(nèi)存庫向量存儲進(jìn)行了擴(kuò)展[20-22]。Wu等人提出了最大化同一樣本深層特征和淺層特征之間的互信息[23]。He等人采用了動(dòng)量模型來替換了內(nèi)存庫,保證了大規(guī)模數(shù)據(jù)下也可以取得很好的效果,但對實(shí)例類特征沒有進(jìn)行處理[24]。Chen等人提出SimCLR在特征提取網(wǎng)絡(luò)后加入多層感知機(jī),解決了特征向量維度高、計(jì)算慢的問題,取得了較好的結(jié)果[25]。
本文提出一種基于SimCLR與多尺度結(jié)合的陶瓷顯微圖像分類算法,該算法針對SimCLR不能精準(zhǔn)提取陶瓷顯微圖像細(xì)節(jié)問題,對特征提取網(wǎng)絡(luò)重新設(shè)計(jì),引入了Res2Net[26]多尺度卷積,替代標(biāo)準(zhǔn)卷積,提升網(wǎng)絡(luò)在更細(xì)粒度級別的表達(dá)能力。將多尺度特征提取模塊與SimCLR結(jié)合,實(shí)現(xiàn)對陶瓷顯微特征的精細(xì)提取。最后,本文通過大量實(shí)驗(yàn),對改進(jìn)后的網(wǎng)絡(luò)在顯微圖像上的分類效果進(jìn)行分析。
本文用放大600倍的文物碎片顯微圖像作為實(shí)驗(yàn)數(shù)據(jù)。如圖1所示,分別對5種不同的陶瓷碎片進(jìn)行數(shù)據(jù)采集,從175個(gè)文物碎片中采集到3 500張圖片,按5∶1的比例隨機(jī)劃分為訓(xùn)練集和測試集。圖2為每類數(shù)據(jù)采集到的顯微圖像。
圖1 實(shí)驗(yàn)設(shè)備與陶瓷碎片圖Fig.1 Diagram of experimental equipment and ceramic fragments
圖2 陶瓷碎片顯微圖像Fig.2 Microscopic image of ceramic fragments
本文采用了限制對比度自適應(yīng)直方圖均衡化(contrast limited adaptive histgram equalization,CLAHE)[27]的方法對采集到的顯微圖像進(jìn)行預(yù)處理,消除采集光線對圖像分類的影響。首先,將圖像劃分為不重疊的小區(qū)域,然后,對每一個(gè)小區(qū)域進(jìn)行直方圖均衡化(histogram equalization,HE)[28]。直方圖均衡化時(shí),劃分的區(qū)域越小,噪聲對結(jié)果影響越大,為避免這種情況,采用限制對比度的方法,將直方圖中超出預(yù)設(shè)值的部分進(jìn)行裁剪,并將裁減部分均勻分到其他像素中。圖3為預(yù)處理結(jié)果及對應(yīng)的直方圖,可以看出,CLAHE處理后的直方圖分布與原圖整體分布大體較像,且更加均勻,而HE分布比較離散,圖像會發(fā)生失真現(xiàn)象。
本文在當(dāng)前先進(jìn)的對比學(xué)習(xí)算法框架SimCLR基礎(chǔ)上改進(jìn)特征提取網(wǎng)絡(luò)模塊,使得網(wǎng)絡(luò)具有更大的感受野,提取顯微特征更準(zhǔn)確。本文算法的結(jié)構(gòu)如圖4所示,該算法框架主要包括4個(gè)部分:①隨機(jī)數(shù)據(jù)增強(qiáng)模塊,它將任意一個(gè)圖像采用不同的增強(qiáng)方式轉(zhuǎn)換成兩個(gè)相關(guān)的視圖;②特征提取模塊,采用ResNet50與多尺度特征提取的卷積塊結(jié)合的方式提取特征;③多層感知機(jī)模塊,將特征提取模塊提取到的特征向量通過非線性激活函數(shù)隨機(jī)丟棄一些點(diǎn),并加強(qiáng)剩余的點(diǎn),提高模型泛化性;④對比損失函數(shù)模塊,采用余弦相似度計(jì)算每對特征之間的距離,通過歸一化溫度標(biāo)度的交叉熵?fù)p耗進(jìn)行優(yōu)化。
一張輸入的圖片增強(qiáng)方式可以分為兩種:一種增強(qiáng)涉及到空間幾何變換,如裁剪(Crop)、水平翻轉(zhuǎn)(HorizontalFlip)、旋轉(zhuǎn)(Rotation),另一種增強(qiáng)涉及到外觀變換,如顏色抖動(dòng)(Colorjitter),灰度化(Crayscale)。
設(shè){x1,x2,…,xn}∈X為輸入的圖像集合,對圖像集合X進(jìn)行t1,t2變換
t1=rand(Crop,Colorjitter,Rotation),
t2=rand(Crop,HorizontalFlip,Grayscale)。
(1)
SimCLR在特征提取網(wǎng)絡(luò)中采用的是ResNet50結(jié)構(gòu),為有效提取陶瓷顯微圖像的局部與全局特征,本文將ResNet50中的殘差塊改為一種多尺度處理的方式Res2Net,可以使網(wǎng)絡(luò)在更細(xì)粒度級別表達(dá)能力更強(qiáng)。
如圖4特征提取模塊所示,首先,經(jīng)過1×1卷積操作得到的結(jié)果,以保持其尺度不變?yōu)闂l件,以通道為基準(zhǔn)均分得到特征圖I1,I2,I3,I4。其次,將特征圖I1不經(jīng)過變換得到y(tǒng)1,I2經(jīng)過3×3卷積操作后得到y(tǒng)2(k2),將k2與I3拼接后的特征圖經(jīng)過3×3的卷積的到結(jié)果y3(k3),同樣將k3與I4拼接后的特征圖經(jīng)過3×3的卷積得到結(jié)果y4,得到不同尺度的特征后,將y1,y2,y3,y4拼接后經(jīng)過1×1的卷積進(jìn)行不同維度的特征融合。圖6A為加入了多尺度提取方式經(jīng)過一個(gè)Layer得到的熱力圖,圖6B為原始網(wǎng)絡(luò)經(jīng)過一層Layer得到的熱力圖,從圖6可以直觀地看出,加入多尺度的方式對陶瓷顯微氣泡特征更敏感,提取到的特征輪廓更清晰。
A 原圖及直方圖 B HE圖及直方圖 C CLAHE圖及直方圖圖3 預(yù)處理結(jié)果及直方圖Fig.3 Pretreatment results and histograms
圖4 本文算法框架Fig.4 The algorithm framework of this paper
如圖4所示,本文用于投影的多層感知器Multi-Layer Perceptron(MLP),采用兩個(gè)線性層,在每個(gè)線性層之后使用批處理歸一化。在第一個(gè)線性層歸一化處理后使用ReLU激活函數(shù),能夠更好地挖掘相關(guān)特征,加快擬合訓(xùn)練數(shù)據(jù)。通過多層感知機(jī)將2.2節(jié)中提取到的1×1×2 048維特征向量減少至1×1×128維度,在損失計(jì)算中可以減少計(jì)算量,提高計(jì)算效率。
本文使用的損失函數(shù)是歸一化溫度標(biāo)度的交叉熵?fù)p耗,我們規(guī)定一個(gè)Batch size的大小N,對這一批次的N張圖像經(jīng)過圖像擴(kuò)增得到的圖像記為N1和N2,分別經(jīng)過特征提取和多層感知機(jī)得到特征為Z1和Z2,令
Z=[Z1;Z2]∈R2N×128。
(2)
其中,[Z1;Z2]表示將Z1,Z2拼接。則矩陣
M=[Z·ZT]∈R2N×2N。
(3)
對于矩陣M中每兩個(gè)元素計(jì)算余弦相似度
(4)
其中,zi,zj表示M中任意兩個(gè)元素,‖.‖表示該矢量的模,τ是可調(diào)參數(shù),本文取值為0.5。將余弦相似度帶入到交叉熵?fù)p失函數(shù)中,得到
(5)
最后,計(jì)算N個(gè)批次中所有的損耗并取平均值,得到最終的損失L
(6)
其中,N為Batch size大小,l為式(5)中的交叉熵?fù)p失函數(shù)。
圖5 圖像增強(qiáng)示意圖Fig.5 Image augment diagram
圖6 特征提取結(jié)果對比Fig.6 Feature extraction results comparison
在網(wǎng)絡(luò)模型訓(xùn)練中,本文使用的數(shù)據(jù)集有CIFAR10、Flowers以及陶瓷碎片顯微圖像。CIFAR10數(shù)據(jù)集由10類32×32像素的彩色圖像組成,每類有6 000張圖像,Flowers由5類不同像素的彩色圖像組成,每類800張圖像,本文使用的陶瓷顯微圖像經(jīng)數(shù)據(jù)增強(qiáng)后共5 000張圖像,由5類組成。
對比不同預(yù)處理方式下的分類準(zhǔn)確率,設(shè)置Batch size為64,采用2.1節(jié)的隨機(jī)增強(qiáng)方式。如圖7所示,HE表示采用彩色直方圖處理,Origin表示原圖,CLAHE表示采用自適應(yīng)限制對比度直方圖處理。由于HE會帶來顏色失真,最終得到的分類準(zhǔn)確率會低于原圖,CLAHE會彌補(bǔ)這一缺點(diǎn),達(dá)到最高的分類準(zhǔn)確率,在之后的實(shí)驗(yàn)中都采用CLAHE的處理結(jié)果。
圖7 預(yù)處理對分類準(zhǔn)確率的影響Fig.7 The influence of pretreatment on classification accuracy
在對比學(xué)習(xí)中,Batch size的大小與包含的負(fù)樣本數(shù)量有關(guān),進(jìn)而影響到學(xué)習(xí)結(jié)果。在本文的實(shí)驗(yàn)中,數(shù)據(jù)集含有5個(gè)類別,分別將Batch size設(shè)置為18,32,46,64,如表1所示,可以觀察到在epoch較少的情況下,Batch size大的效果好,隨著迭代次數(shù)的增加,學(xué)習(xí)到的特征越多,不同批次之間差距會減小甚至消失。
本節(jié)對比了2.1節(jié)中不同的增強(qiáng)函數(shù)對分類準(zhǔn)確率的影響。實(shí)驗(yàn)結(jié)果表明,空間與外觀增強(qiáng)組合起來效果要好于只采用一種變換,灰度化和隨機(jī)裁剪效果的加入使分類效果更好,因此,在增強(qiáng)函數(shù)設(shè)計(jì)時(shí),將空間與外觀結(jié)合,且將灰度化和隨機(jī)裁剪觸發(fā)概率調(diào)高,從而得到更好的效果。表2為采用隨機(jī)圖片增強(qiáng)得到的實(shí)驗(yàn)結(jié)果,其中,“√”表示采取此增強(qiáng)方式,t1,t2為圖5中兩種增強(qiáng)變換,取Train epoch為1 000,Batch size為64。
表1 Batch size大小對分類準(zhǔn)確率影響Tab.1 The effect of Batch size on classification accuracy %
表2 不同增強(qiáng)方式對分類準(zhǔn)確率影響Tab.2 The effect of augmentation functions on classification accuracy
本節(jié)分別對比了5種對比學(xué)習(xí)網(wǎng)絡(luò)對陶瓷顯微圖像分類的結(jié)果,網(wǎng)絡(luò)分別為:NPID[19]、UEL[20]、MoCo[25]、SimCLR[26],結(jié)果如圖8所示,可以看出,MoCo網(wǎng)絡(luò)雖然準(zhǔn)確率一直在提高,但收斂速度較慢,本文加入多尺度模塊的網(wǎng)絡(luò),在訓(xùn)練輪數(shù)達(dá)到300次的時(shí)已取得了最高的準(zhǔn)確率。
圖8 網(wǎng)絡(luò)框架對比圖Fig.8 Network framework comparison chart
分別將SimCLR和改進(jìn)后的網(wǎng)絡(luò)在顯微圖像數(shù)據(jù)集以及公共數(shù)據(jù)集CIFAR10與Flowers中進(jìn)行對比,設(shè)置Batch size為64,Train epoch為1 000,結(jié)果如表3所示,表明改進(jìn)后的網(wǎng)絡(luò)在公共數(shù)據(jù)集上也有較好的提升。
表3 數(shù)據(jù)集分類準(zhǔn)確率對比Tab.3 Comparison of data set accuracy %
本文針對陶瓷文物顯微圖像分類問題,提出了一種基于對比學(xué)習(xí)與多尺度結(jié)合的圖像分類網(wǎng)絡(luò)。該網(wǎng)絡(luò)在SimCLR學(xué)習(xí)框架上加入Res2Net模塊,使提取的陶瓷顯微特征更精細(xì)。最后,使用歸一化溫度標(biāo)度交叉熵函數(shù)對模型進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)的對比學(xué)習(xí)分類模型較SimCLR有提升,在CIFAR10上與Flowers數(shù)據(jù)集上準(zhǔn)確率分別提高了3.1和4.4個(gè)百分比,在顯微圖像數(shù)據(jù)集上分類準(zhǔn)確率最大可達(dá)到 98.6%,能夠有效地對陶瓷碎片進(jìn)行分類。