孫選銘 蘇淼
摘要: 為對數(shù)字化文物進(jìn)行快速自動(dòng)分類,提高藏品數(shù)字化進(jìn)程,加快數(shù)字博物館的構(gòu)建,文章利用深度學(xué)習(xí)對絲綢文物的紋樣進(jìn)行自動(dòng)識別。依據(jù)實(shí)物紋樣的分類方法,建立了包含花卉紋、飛鳥紋、“卐”字紋、云紋四類紋樣的樣本庫。利用VGGNet、ResNet、MobileNet實(shí)現(xiàn)對紋樣的分類,結(jié)合Faster R-CNN、YOLOv5、SSD目標(biāo)檢測算法實(shí)現(xiàn)對紋樣的識別與定位。實(shí)驗(yàn)結(jié)果表明,MobileNet對絲綢紋樣分類的mAP達(dá)到83.51%;在目標(biāo)檢測算法中YOLOv5的識別與定位效果最好,其mAP為88.42%。與通過人工分類相比,采用深度學(xué)習(xí)算法進(jìn)行分類與識別,可以在降低難度的同時(shí)提高分類的速度和準(zhǔn)確率,為紡織品文物的鑒定與保護(hù)提供了新的思路。
關(guān)鍵詞: 絲綢文物;深度學(xué)習(xí);數(shù)字博物館;目標(biāo)檢測;神經(jīng)網(wǎng)絡(luò);自動(dòng)分類
中圖分類號: TS101.1 文獻(xiàn)標(biāo)志碼: ?A
文章編號: 10017003(2023)080001-10
引用頁碼: 081101 DOI: 10.3969/j.issn.1001-7003.2023.08.001
在信息化的時(shí)代背景下,數(shù)字化媒體與計(jì)算機(jī)技術(shù)相結(jié)合給博物館的發(fā)展帶來新機(jī)遇,文物也從傳統(tǒng)形態(tài)向數(shù)字形態(tài)轉(zhuǎn)變。因此將藏品數(shù)字化,構(gòu)建數(shù)字博物館就成了一個(gè)亟待解決的問題[1-3],而在數(shù)字博物館的搭建過程中文物的分類是一個(gè)重要的步驟。與普通的產(chǎn)品相比,文物分類難度高,其中紡織品文物由于材料難以保存、完整性差,使分類難度更高。因此,如何快速準(zhǔn)確地完成紡織品文物的識別與分類成為一個(gè)需要解決的問題。紡織品文物的分類可以從色彩、紋樣、材料、織造工藝等多個(gè)角度進(jìn)行,其中根據(jù)紋樣進(jìn)行分類最為直觀,也最容易被大眾接受。并且,紋樣也是紡織品文物在出土?xí)r判斷年代的一項(xiàng)重要依據(jù)。目前,紡織品文物的紋樣識別主要靠人工進(jìn)行。在長期的演變過程中,同一種紋樣的形態(tài)往往會發(fā)生巨大的變化。大多數(shù)的紋樣在歷史的進(jìn)程中都經(jīng)歷了這樣的演變過程,這也加大了紋樣人工識別的難度,而近年來深度學(xué)習(xí)的快速發(fā)展為解決這一問題提供了新的思路。
隨著人工智能技術(shù)的不斷發(fā)展,其在人們?nèi)粘Ia(chǎn)生活中扮演的角色也越來越多,圖像識別就是其中的一個(gè)重要分支。圖像識別的逐步興起也為各行各業(yè)的發(fā)展提供了新的思路,紡織服裝領(lǐng)域也不例外。吳志鑫等[4]分別利用HSV顏色直方圖法和灰度共生矩陣(Gray-level Co-occurrence Matrix,GLCM)算法提取圖像的顏色和紋理特征,建立兩種特征融合的方法實(shí)現(xiàn)了對服裝面料圖像的檢索。高妍等[5]將R-FCN引入對服裝圖像的識別中,在降低訓(xùn)練時(shí)間的同時(shí)提高了識別的準(zhǔn)確率。狄宏靜等[6]利用BP神經(jīng)網(wǎng)絡(luò)的任意函數(shù)模擬功能,實(shí)現(xiàn)了對流行色科學(xué)、全面的預(yù)測。Bedeli等[7]以流行標(biāo)志和名牌Logo為切入點(diǎn),成功利用監(jiān)控?cái)z像頭實(shí)現(xiàn)對行人服裝的分類。韓曙光等[8]利用深度學(xué)習(xí)的方法對服裝進(jìn)行“三要素”識別,為顧客服裝偏好信息的快速獲取提出了新的思路。雖然國內(nèi)外都在積極嘗試將圖像識別相關(guān)技術(shù)運(yùn)用到紡織服裝行業(yè)并取得了一定的結(jié)果,但紡織品文物作為其中較為獨(dú)特的領(lǐng)域,相關(guān)研究的成果寥寥無幾。本文以紡織品文物上的紋樣作為研究對象,構(gòu)建基于深度卷積神經(jīng)網(wǎng)絡(luò)的分類與目標(biāo)檢測模型,對紡織品文物,尤其是絲綢織物上的紋樣進(jìn)行自動(dòng)識別。圖像識別的主要任務(wù)有四大類:分類(classification)、定位(location)、檢測(detection)、分隔(segmentation)。本文致力于解決分類與檢測的問題,即實(shí)現(xiàn)“給定一張紋樣圖片,判斷其中包含何種紋樣的所屬類別”和“給定一張文物圖片,定位出其中紋樣的位置并且知道定位出的是什么紋樣”兩項(xiàng)目標(biāo)。
1 數(shù)據(jù)準(zhǔn)備
1.1 數(shù)據(jù)的采集與描述
本文的研究對象為絲綢文物紋樣,數(shù)據(jù)的采集難度大。首先,受材質(zhì)影響,出土的紡織品文物在數(shù)量及完好程度上遠(yuǎn)不及陶瓷器青銅器等文物;其次,出土的紡織品文物的紋樣通常質(zhì)量較差,常常伴有嚴(yán)重褪色和大面積破損等問題,難以直接利用。針對以上各種問題,在數(shù)據(jù)集的采集上,本文選用文物中保存較為完好的傳世品(圖1),以提高數(shù)據(jù)集的質(zhì)量;傳世品的年代主要集中在清末民初,為解決這一問題,本文在數(shù)據(jù)集中也采用了較多紋樣的復(fù)原圖(圖2、圖3),用以增大數(shù)據(jù)集的年代跨度,提高識別的準(zhǔn)確率和可靠性。
最終,通過中國絲綢博物館的《中國古代絲綢設(shè)計(jì)素材圖系》系列叢書提取到高質(zhì)量的復(fù)原圖片1 185張;借助中國絲綢博物館的“錦秀·世界絲綢互動(dòng)地圖”平臺,采集到清晰度較高的傳世品文物及破損程度較輕的文物圖片1 079張。
古代絲綢紋樣的題材眾多,但依據(jù)實(shí)物紋樣的分類方法可以分為植物紋樣、動(dòng)物紋樣、幾何紋樣、自然與器物紋樣四種[9]。結(jié)合所采集到數(shù)據(jù)的實(shí)際情況,本文最終選取花卉紋、飛鳥紋、“卐”字紋、云紋四類(圖4)。
1.2 數(shù)據(jù)的處理
對于分類模型,需要對數(shù)據(jù)進(jìn)行裁剪處理,目的是除去較大的噪聲,提高數(shù)據(jù)集的代表性,增強(qiáng)識別效果;此外也需要將分類的主體從圖像中分離出來,為每個(gè)類別設(shè)置單獨(dú)的數(shù)據(jù)集。對于檢測模型,除了基本的類別之外數(shù)據(jù)集還需提供紋樣的位置及尺寸等信息。本文利用Labelimg軟件在圖片上繪制錨框的方法制作所需數(shù)據(jù)集。由于絲綢文物上的紋樣大多為循環(huán)結(jié)構(gòu),為了降低數(shù)據(jù)標(biāo)注的工作量并提高檢測效果,對于循環(huán)次數(shù)較多的樣本圖片,只取其中1~2個(gè)完整的循環(huán)。
經(jīng)過處理后分類樣本數(shù)據(jù)集共有圖片2 922張,其中花卉紋1 467張,飛鳥紋437張,“卐”字紋361張,云紋657張。由于不同類別之間差距較大,因此對數(shù)據(jù)集采取幾何變換、色彩調(diào)整、尺度變換等數(shù)據(jù)增強(qiáng)方法,最終得到的樣本數(shù)據(jù)集如表1、表2所示。
2 模型的構(gòu)建
為了更好地實(shí)現(xiàn)對絲綢文物紋樣的識別,需要分別構(gòu)建分類及目標(biāo)檢測的兩個(gè)網(wǎng)絡(luò)模型。而且,為了提高結(jié)果的科學(xué)性和準(zhǔn)確性,每個(gè)目標(biāo)均選用多種模型以便于對比識別性能的優(yōu)劣。在分類模型的選擇上,本文選用經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)VGG16、ResNet50[10]和MobileNet[11]。在目標(biāo)檢測模型上則選用Faster R CNN[12]、YOLOv5[13]及SSD[14]。
2.1 分類模型的構(gòu)建
2.1.1 VGG16模型的構(gòu)建
VGGNet是卷積神經(jīng)網(wǎng)絡(luò)模型,其名稱來源于作者所在的牛津大學(xué)視覺幾何組(visual geometry group)的縮寫。VGG16的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,可以劃分為6個(gè)模塊層次加1個(gè)輸入模塊,共計(jì)13個(gè)卷積層、5個(gè)最大池化層和3個(gè)全連接層。在卷積層上,VGG16采用多個(gè)3×3的卷積核疊加取代了之前的大卷積核,卷積核的大小與感受野直接相關(guān),卷積核過大會忽略被檢測的物體,導(dǎo)致物體成為背景,提取不到物體特征。如“卐”字紋在織物上常作為次要裝飾存在,尺度較小,故更小的理論感受野更利于類似于“卐”字紋這種較小特征的提取。
2.1.2 ResNet模型的構(gòu)建
綜合前文所述,絲綢文物的紋樣數(shù)據(jù)較難獲取且質(zhì)量較差,這就要求網(wǎng)絡(luò)的性能要夠好,能夠利用有限的數(shù)據(jù)集達(dá)到較好的識別效果。在其他條件不變的情況下,卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)越多,網(wǎng)絡(luò)越深,學(xué)習(xí)的效果也就更好,但網(wǎng)絡(luò)在加深時(shí)容易收到梯度消失問題[15]的影響。換用ReLU可以一定程度上解決這個(gè)問題,但ReLU也有一個(gè)特殊的消失梯度問題,稱為消亡ReLU問題[16]。針對這一問題,He等[10]提出了殘差網(wǎng)絡(luò)框架(residual learning framework),其基本原理是利用一種特殊的殘差結(jié)構(gòu)(圖6)將靠前若干層的某一層數(shù)據(jù)輸出直接跳過多層引入到后面數(shù)據(jù)層的輸入部分。使得后面的特征層的內(nèi)容會有一部分由其前面的某一層線性貢獻(xiàn),從而克服由于網(wǎng)絡(luò)深度加深而產(chǎn)生的學(xué)習(xí)效率變低與準(zhǔn)確率無法有效提升的問題。利用這種結(jié)構(gòu)可以加深網(wǎng)絡(luò)的層數(shù),獲得更好的性能。
2.1.3 MobileNet模型的構(gòu)建
紋樣作為判斷文物所處歷史時(shí)期的重要依據(jù)之一,在考古發(fā)掘現(xiàn)場對紋樣識別有著較大的需求。而隨著神經(jīng)網(wǎng)絡(luò)性能的不斷提高,網(wǎng)絡(luò)的結(jié)構(gòu)也越發(fā)復(fù)雜,運(yùn)行所需消耗的硬件資源也不斷增加,這使得移動(dòng)設(shè)備的硬件資源和算力難以滿足。面對此類問題,深度學(xué)習(xí)領(lǐng)域也在努力使神經(jīng)網(wǎng)絡(luò)向小型化、輕量化發(fā)展,MobileNet就是輕量級神經(jīng)網(wǎng)絡(luò)[11]中具有代表性的一種。與其他神經(jīng)網(wǎng)絡(luò)相比,MobileNet有著體積更小、計(jì)算量更少,而精度卻更高(表3)。
本文主要研究的是引入了殘差結(jié)構(gòu)的MobileNetV2,其提出了反相殘差(inverted residuals)的概念,增強(qiáng)了特征表達(dá)能力的同時(shí)顯著減少了所需的內(nèi)存。此外,MobileNetV2網(wǎng)絡(luò)為全卷積結(jié)構(gòu),使模型對不同尺度的圖像都具有適應(yīng)力。
2.1.4 分類模型評價(jià)指標(biāo)
參考深度學(xué)習(xí)分類模型相關(guān)性能評價(jià)指標(biāo)[17-18]并結(jié)合實(shí)際研究內(nèi)容,本文采取兩種評價(jià)指標(biāo):準(zhǔn)確率(accuracy)與損失函數(shù)(loss function)。根據(jù)與實(shí)際情況的關(guān)系,預(yù)測結(jié)果可被分為四類:真陽(True Positive,TP)、假陽(False Positive,F(xiàn)P)、真陰(True Negative,TN)、假陰(False Negative,F(xiàn)N)。
準(zhǔn)確率是被分對類別的樣本數(shù)在所有樣本數(shù)中的占比。通常來說,準(zhǔn)確率越高,分類器越好。
損失函數(shù)用于評價(jià)模型的預(yù)測值與真實(shí)值的差異程度。深度學(xué)習(xí)訓(xùn)練模型的過程就是通過計(jì)算損失函數(shù),不斷更新模型參數(shù),從而減小優(yōu)化誤差。本文所使用的損失函數(shù)為交叉熵(cross entropy)損失函數(shù)。由于本文為多標(biāo)簽分類,損失函數(shù)公式如下:
式中:yi為真實(shí)標(biāo)簽,當(dāng)?shù)趇個(gè)樣本屬于某一目標(biāo)類時(shí)值為1,否則為0;i為預(yù)測結(jié)果,其值為第i個(gè)樣本屬于某一目標(biāo)類的預(yù)測概率;i為第幾個(gè)樣本。Loss是一個(gè)非負(fù)實(shí)值函數(shù),損失函數(shù)越小,模型的魯棒性就越好。
2.2 目標(biāo)檢測模型構(gòu)建
與如今流行的簡約風(fēng)格不同,中國古代追求富麗華貴之美,絲綢織物章彩奇麗,因此在絲綢文物上往往包含著大量的
元素(圖7),這使針對單一紋樣的分類失去意義。而從復(fù)雜場景中提取出多個(gè)若干特定目標(biāo)的方法屬于目標(biāo)檢測(object detection)的范疇。
目標(biāo)檢測和圖像分類最大的區(qū)別在于目標(biāo)檢測需要做更細(xì)粒度的判定,不僅要判定是否包含目標(biāo)物體,還要給出各個(gè)目標(biāo)物體的具體位置。目前較為成熟的目標(biāo)檢測算法有R-CNN系列、YOLO系列及SSD模型。對于前兩者,本文分別選用系列中最完善的Faster-RCNN及YOLOv5。這三種算法的異同點(diǎn)如表4所示。
2.2.1 Faster R-CNN模型的構(gòu)建
Faster-RCNN是二階段(two-stage)目標(biāo)檢測模型中的典型代表。識別的過程分為兩步:首先通過區(qū)域建議網(wǎng)絡(luò)生成候選區(qū)域[12],然后再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類與定位。以此為基礎(chǔ)構(gòu)建絲綢紋樣識別模型,流程如圖8所示。輸入的絲綢紋樣圖片經(jīng)過不失真的Resize后,輸入主干提取網(wǎng)絡(luò)提取特征,得到的紋樣特征圖會被RPN層和ROI Pooling層共享。特征圖通過RPN層獲得建議框,ROI Pooling層會根據(jù)建議框?qū)斎脒M(jìn)來的紋樣特征圖進(jìn)行重新截取,截取后的紋樣特征圖在被Resize后送到后續(xù)網(wǎng)絡(luò)接受進(jìn)一步的卷積并最終得到預(yù)測結(jié)果。
2.2.2 YOLOv5模型的構(gòu)建
YOLOv5是一種單階段目標(biāo)檢測算法。與Faster-RCNN不同,沒有RPN結(jié)構(gòu)而是直接利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并進(jìn)行分類與定位,因此速度更快。YOLOv5可分為三個(gè)部分,分別是Backbone、FPN及Yolo Head。YOLOv5的主干網(wǎng)絡(luò)為CSPDarknet,其中有著特殊的CSP層,作用類似殘差網(wǎng)絡(luò)中的殘差結(jié)構(gòu),可以緩解在深度神經(jīng)網(wǎng)絡(luò)中增加深度帶來的梯度消失問題,增強(qiáng)模型的學(xué)習(xí)能力,從而更好地識別復(fù)雜的絲綢紋樣?;谝陨显?,本文構(gòu)建基于YOLOv5的絲綢紋樣識別模型(圖9)。絲綢紋樣圖像輸入到模型后會對主干網(wǎng)絡(luò)的Focus結(jié)構(gòu)進(jìn)行壓縮獲得一個(gè)特征層,并在多次卷積、標(biāo)準(zhǔn)化、激活函數(shù)和CSP層之后獲得三個(gè)不同尺度的有效特征層[13]。有效特征層在進(jìn)入FPN結(jié)構(gòu)后會經(jīng)歷一次上采樣特征融合和一次下采樣特征融合,之后輸出三個(gè)加強(qiáng)有效特征層。最終Yolo Head會利用這三個(gè)加強(qiáng)有效特征層進(jìn)行分類和回歸預(yù)測,得到絲綢紋樣的預(yù)測結(jié)果。
2.2.3 SSD模型的構(gòu)建
SSD[14]是一種結(jié)合了Faster-RCNN和YOLO各自的優(yōu)點(diǎn)的單階多層的目標(biāo)檢測模型。SSD的主干網(wǎng)絡(luò)是改進(jìn)后的VGG:將VGG16的FC6、FC7兩個(gè)全連接層轉(zhuǎn)化為卷積層;去掉最后一個(gè)全連接層和所有的Dropout層;并在原FC7層之后新增了四個(gè)卷積層。根據(jù)SSD算法構(gòu)建的絲綢紋樣識別模型如圖10所示。通過此識別流程,SSD可以獲得6個(gè)不同尺度的有效特征層,根據(jù)不同尺度的特征層映射生成不同尺度的預(yù)測結(jié)果,并通過縱橫比明確分開預(yù)測。其中越早提取的特征層,抽象程度越小,細(xì)節(jié)信息保留得也更多,適合預(yù)測的目標(biāo)也更小。反之越后面的特征層適合預(yù)測的目標(biāo)也越大。這種設(shè)計(jì)使其在低分辨率輸入圖像上也能實(shí)現(xiàn)簡單的端到端訓(xùn)練和高精度,可以更好地識別圖片質(zhì)量普遍較差的絲綢文物紋樣圖片。
2.2.4 目標(biāo)檢測評價(jià)指標(biāo)
參考目標(biāo)檢測算法的常用評價(jià)指標(biāo)并結(jié)合本文研究實(shí)際,目標(biāo)檢測任務(wù)采用的評價(jià)指標(biāo)為精確率(precision)、召回率(recall)、F1分?jǐn)?shù)(F1-score)、平均精度均值(mAP)。
精確率是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例,代表查準(zhǔn)率。
召回率是覆蓋面的度量,度量有多個(gè)正例被分為正例,代表查全率。
F1-score是分類問題的一個(gè)衡量指標(biāo)。F1-score認(rèn)為召回率和精度同等重要,它是精確率和召回率的調(diào)和平均數(shù),最大為1,最小為0。
對于目標(biāo)檢測中的每一類檢測目標(biāo)分別以精確率和召回率作為橫縱坐標(biāo)繪制出的PR曲線圖也是衡量一個(gè)模型性能的重要依據(jù)。如果模型的精度越高,召回率越高,PR曲線下面的面積越大,模型的性能越好。平均準(zhǔn)確率(Average Precision,AP)是對不同召回率點(diǎn)上的準(zhǔn)確率進(jìn)行平均,在PR曲線圖上表現(xiàn)為PR曲線下面的面積。而mAP是對所有類別的AP值求平均,是目標(biāo)檢測中一個(gè)最為重要的指標(biāo)。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境
本文的分類任務(wù)的實(shí)驗(yàn)環(huán)境為CPU:Intel(R) Core(TM) i5-10200H CPU@2.40 GHz,GPU:NVIDIA GeForce GTX 1650 Ti,軟件環(huán)境為Windows 10版本。目標(biāo)檢測任務(wù)的實(shí)驗(yàn)環(huán)境為CPU:Intel(R) Xeon(R) Platinum 8255C,GPU:GeForce RTX 3090。本文所采用的深度學(xué)習(xí)框架均為PyTorch,編譯語言為Python。
3.2 分類模型實(shí)驗(yàn)與結(jié)果
本次實(shí)驗(yàn)所使用的數(shù)據(jù)集為前文自制絲綢文物紋樣圖片數(shù)據(jù)集,包含花、鳥、云、“卐”四種紋樣共11 081張。在實(shí)驗(yàn)數(shù)據(jù)集中將隨機(jī)選取80%作為訓(xùn)練集,20%作為測試集用于模型的性能評估。為提高實(shí)驗(yàn)的科學(xué)性和可靠性,在各個(gè)模型的參數(shù)方面進(jìn)行統(tǒng)一。Epoch設(shè)為200,最大學(xué)習(xí)率設(shè)為001,batch size設(shè)為32。
因神經(jīng)網(wǎng)絡(luò)主干特征提取部分所提取到的特征通用性較高,且本文所選用的三種網(wǎng)絡(luò)性能均十分良好,所以本文采取了凍結(jié)訓(xùn)練的方法以提高訓(xùn)練效率。凍結(jié)階段的Epoch設(shè)置
為50,在凍結(jié)階段主干特征提取網(wǎng)絡(luò)的權(quán)重被凍結(jié),只對網(wǎng)絡(luò)進(jìn)行微調(diào)。而在50個(gè)Epoch后網(wǎng)絡(luò)解凍,開始對主干網(wǎng)絡(luò)的權(quán)重進(jìn)行調(diào)整,因此導(dǎo)致?lián)p失率的突變。在損失率方面,三個(gè)網(wǎng)絡(luò)均表現(xiàn)良好,由圖11可知,在解凍后,損失率快速下降并最終趨于平穩(wěn),表明結(jié)果已經(jīng)趨于穩(wěn)定。最終值均小于0.16但不為零,表明模型并未過擬合。表5為絲綢紋樣分類結(jié)果。
由表5可見,在本文的數(shù)據(jù)集中MobileNet表現(xiàn)出較優(yōu)的性能,其平均準(zhǔn)確率達(dá)到了83.51%。在所選擇的四種紋樣中,對花卉紋和云紋的分類效果較好,準(zhǔn)確率均在90%以上。與云紋及花卉紋不同,飛鳥紋樣大多作為主要紋樣,在更為精細(xì)的同時(shí)尺度也更大,在進(jìn)行截取時(shí)容易造成背景的復(fù)雜(圖12)。而神經(jīng)網(wǎng)絡(luò)層數(shù)越多提取的特征就越豐富,對于VGG16和ResNet這種較深的網(wǎng)絡(luò)來說,在場景細(xì)節(jié)特征上挖掘得較深反而造成了準(zhǔn)確率的下降。與飛鳥紋相反,“卐”字紋在紋樣中更多充當(dāng)次要裝飾,尺度一般很小。在分辨率較
低的圖片上采樣時(shí),樣本的像素?cái)?shù)較少,極易受到噪聲干擾,嚴(yán)重影響了分類效果。
3.3 目標(biāo)檢測模型實(shí)驗(yàn)與結(jié)果
用于目標(biāo)檢測實(shí)驗(yàn)的數(shù)據(jù)集為上述四種紋樣的4 284張圖片,其中多數(shù)圖片包含相應(yīng)類別的一個(gè)或多個(gè)圖案或不同類別的一個(gè)或多個(gè)圖案,實(shí)際標(biāo)注數(shù)量共10 081個(gè)。實(shí)驗(yàn)為上述三種模型的對比實(shí)驗(yàn),參數(shù)設(shè)置為相同的參數(shù)。Epoch設(shè)置為200,包含50個(gè)Epoch的凍結(jié)階段。凍結(jié)階段batch size為16,解凍階段batch size為8。最大學(xué)習(xí)率0.01,Score threshold設(shè)置為0.5。在實(shí)驗(yàn)數(shù)據(jù)集中隨機(jī)抽取90%作為訓(xùn)練集,10%作為測試集用于模型的性能評估。實(shí)驗(yàn)結(jié)果如表6所示。
對比三個(gè)模型的實(shí)驗(yàn)結(jié)果,在識別與定位紋樣上YOLOv5的性能更加優(yōu)越,其平均精度均值達(dá)到了88.42%。分別比Faster R-CNN和SSD高出4.83%和8.64%。其中飛鳥紋的識別效果最好,平均準(zhǔn)確率達(dá)到95.97%。如前文所述,飛鳥紋的尺度一般較大。在多尺度的物體中,大尺度的物體由于面積大、特征豐富,通常來講較為容易檢測。其次是花卉紋和云紋,平均準(zhǔn)確率均高于85%。這兩種紋樣在尺寸和風(fēng)格上變化較大:植物紋樣在染織藝術(shù)史上出現(xiàn)較晚,大約南北朝時(shí)期才進(jìn)入中國染織藝術(shù)領(lǐng)域,最初大部分為裝飾性的花卉,如以寶花為主的大團(tuán)花,隨后寫生花卉才逐漸興起。但直到寫生花卉成為主流時(shí),同時(shí)期的團(tuán)花紋樣依然占據(jù)相當(dāng)?shù)谋壤?]。而團(tuán)花和寫生花卉的區(qū)別很大,這就使得計(jì)算機(jī)在學(xué)習(xí)這類圖案特征時(shí)較為困難,從而影響檢測的效果;而云紋的形式更加多樣,識別的難度更大,檢測效果受到的影響也更大?!皡e”字紋的平均準(zhǔn)確率最低,僅有82.23%。在本文選擇的紋樣中,“卐”字紋的尺寸最小,小物體由于其尺寸較小,可利用的特征有限,這使得其檢測較為困難。并且目前的檢測算法普遍對于小物體的檢測效果較差。小物體因尺寸小,若小于檢測算法的下采樣率,甚至?xí)?dǎo)致在特征圖上占據(jù)的面積達(dá)不到一個(gè)像素點(diǎn)。感受野的大小也是影響小物體檢測的一個(gè)因素,過大的感受野會導(dǎo)致在特征圖上的一個(gè)點(diǎn)中,小物體占據(jù)的特征更少,并且包含大量周圍區(qū)域的特征,從而影響其檢測結(jié)果。此外,SSD算法雖使用了多層特征圖,但淺層的特征圖語義信息不足,沒有進(jìn)行特征的融合,使得其在“卐”字紋的檢測上效果較差,AP僅有58.44%
3.4 實(shí)驗(yàn)例證與分析
為了更加直觀地體現(xiàn)不同檢測模型對四種紋樣的識別效果,選取了包含四種紋樣的紡織品文物實(shí)物圖進(jìn)行測試,結(jié)果如圖13所示。圖13中,從左到右分別為文物原圖、Faster R-CNN、SSD、YOLOv5的檢測結(jié)果,可以得出不同算法對四種紋樣進(jìn)行識別時(shí)出現(xiàn)的錯(cuò)檢、漏檢情況,由此得出YOLOv5模型的檢測效果明顯優(yōu)于其他兩種。
4 結(jié) 論
絲綢在中國的歷史十分悠久,文物的數(shù)量也眾多,如何更快更好地發(fā)掘、保護(hù)、管理絲綢文物就成了一個(gè)重要的問題。針對絲綢紋樣數(shù)字化分類工作量大、識別困難的問題,本文利用深度學(xué)習(xí)進(jìn)行了識別絲綢文物紋樣的有益嘗試。按照實(shí)物紋樣的分類方法,本文從中各自選取較有代表性的一種紋樣為例,通過收集專業(yè)的紋樣復(fù)原圖和網(wǎng)絡(luò)上各大博物館的數(shù)字化藏品圖片,建立了包含上述四種紋樣14 365圖片的數(shù)據(jù)集,然后利用深度學(xué)習(xí)的方法對其進(jìn)行分類與識別。結(jié)果表明,MobileNet在對紋樣進(jìn)行分類時(shí)表現(xiàn)出較優(yōu)的性能,其在占用計(jì)算機(jī)硬件資源最少的情況下,在測試集上的平均準(zhǔn)確率最高,達(dá)到了83.51%,略優(yōu)于VGG16和ResNet。Faster-RCNN、SSD及YOLOv5三種目標(biāo)檢測模型在對四種紋樣的識別中,YOLOv5表現(xiàn)出了明顯的優(yōu)勢。在Score threshold設(shè)置為0.5的情況下,其對紋樣識別的平均精度均值達(dá)到了8842%。在四種紋樣中,飛鳥紋的識別效果最好,AP為9597%?;ɑ芗y、“卐”字紋、云紋的AP分別為89.52%、8223%、85.95%?;诒疚膶?shí)驗(yàn)中YOLOv5表現(xiàn)出的優(yōu)越性能及YOLO在視頻檢測上的優(yōu)勢與攝像設(shè)備相結(jié)合,在文物數(shù)字化的過程中直接為數(shù)據(jù)打上置信度較高的分類標(biāo)識,可以大大提高分類的精度與速度,加快數(shù)字博物館的建立,拉近文物與每個(gè)人的距離,更利于保護(hù)和弘揚(yáng)中國優(yōu)秀的傳統(tǒng)文化。
參考文獻(xiàn):
[1]趙豐. 絲綢之路數(shù)字博物館: 開放共享的博物館數(shù)字融合[J]. 中國博物館, 2022(3): 109-115.
ZHAO Feng. Silk Road digital museum: Open and shared museum digital fusion[J]. Chinese Museum, 2022(3): 109-115.
[2]秦一. 關(guān)于博物館文物數(shù)字化的技術(shù)探索[J]. 文化月刊, 2022(2): 104-105.
QIN Yi. Technical exploration on the digitization of museum cultural relics[J]. Cultural Monthly, 2022(2): 104-105.
[3]陳剛. 數(shù)字博物館概念、特征及其發(fā)展模式探析[J]. 中國博物館, 2007(3): 88-93.
CHEN Gang. The concept, characteristics and development model of digital museum[J]. Chinese Museum, 2007(3): 88-93.
[4]吳志鑫, 李立輕, 汪軍, 等. 一種基于特征值融合的服裝面料圖像檢索方法[J]. 服裝學(xué)報(bào), 2021, 6(1): 42-47.
WU Zhixin, LI Liqing, WANG Jun, et al. An image retrieval method of clothing fabric based on feature fusion[J]. Journal of Clothing Research, 2021, 6(1): 42-47.
[5]高妍, 王寶珠, 郭志濤, 等. 改進(jìn)HSR-FCN的服裝圖像識別分類算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(16): 144-149.
GAO Yan, WANG Baozhu, GUO Zhitao, et al. Clothing image recognition and classification based on HSR-FCN[J]. Computer Engineering and Applications, 2019, 55 (16): 144-149.
[6]狄宏靜, 劉冬云, 吳志明. 基于BP神經(jīng)網(wǎng)絡(luò)的春夏女裝流行色預(yù)測[J]. 紡織學(xué)報(bào), 2011, 32(7): 111-116.
DI Hongjing, LIU Dongyun, WU Zhiming. Forecast of women’s spring/summer fashion color basedon BP neural networks[J]. Journal of Textile Research, 2011, 32(7): 111-116.
[7]BEDELI M, GERADTS Z, VAN E E. Clothing identification via deep learning: Forensic applications[J]. Forensic Sciences Research, 2018, 3(3): 219-229.
[8]韓曙光, 姜?jiǎng)P文, 趙麗妍. 基于深度學(xué)習(xí)的服裝三要素識別[J]. 服裝學(xué)報(bào), 2022, 7(5): 399-407.
HAN Shuguang, JIANG Kaiwen, ZHAO Liyan. Recognition of clothing “three elements” based on deep learning[J]. Journal of Clothing Research, 2022, 7(5): 399-407.
[9]趙豐, 袁宣萍. 中國古代絲綢設(shè)計(jì)素材圖系: 圖像卷[M]. 杭州: 浙江大學(xué)出版社, 2016: 1-24.
ZHAO Feng, YUAN Xuanping. The Ancient Chinese Silk Material Design Department: Image Volume[M]. Hangzhou: Zhejiang University Press, 2016: 1-24.
[10]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE, 2016: 770-778.
[11]高繼強(qiáng). 基于輕量級神經(jīng)網(wǎng)絡(luò)的服裝圖像檢索[J]. 科學(xué)技術(shù)創(chuàng)新, 2020(31): 94-95.
GAO Jiqiang. Clothing image retrieval based on lightweight neural network[J]. Scientific and Technological Innovation, 2020(31): 94-95.
[12]張飚雪, 劉成霞. 基于Faster R CNN的淺口高跟鞋款式識別[J]. 絲綢, 2021, 58(1): 79-84.
ZHANG Biaoxue, LIU Chengxia. Style recognition of shallow opening high-heeled shoes based on Faster R CNN[J]. Journal of Silk, 2021, 58(1): 79-84.
[13]郭波, 呂文濤, 余序宜, 等. 基于改進(jìn)YOLOv5模型的織物疵點(diǎn)檢測算法[J]. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 47(5): 755-763.
GUO Bo, L Wentao, YU Xuyi, et al. Fabric defect detection algorithm based on improved YOLOv5 model[J]. Journal of Zhejiang Sci-Tech University (Natural Sciences), 2022, 47(5): 755-763.
[14]LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//Computer Vision-ECCV 2016: 14th European Conference. Amsterdam: Springer International Publishing, 2016: 21-37.
[15]BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Trans Neural Netw, 1994, 5(2): 157-166.
[16]HU Z, ZHANG J J, GE Y. Handling vanishing gradient problem using artificial derivative[J]. IEEE Access, 2021, 9: 22371-22377.
[17]RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[18]李青, 冀艷波, 郭濠奇, 等. 基于深度學(xué)習(xí)的女襯衫圖案樣式識別分類[J]. 現(xiàn)代紡織技術(shù), 2022, 30(4): 207-213.
LI Qing, JI Yanbo, GUO Haoqi, et al. Pattern recognition and classification of women’s shirts based on deep learning[J]. Advanced Textile Technology, 2022, 30(4): 207-213.
Application of silk cultural relic pattern recognition based on deep learning
ZHANG Chi, WANG Xiangrong
SUN Xuanming, SU Miao
(a.College of Textile Science and Engineering (International Institute of Silk); b.World Silk and Silk Road International Research Center,Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract: Silk, as one of the greatest inventions in ancient China, has a history of over 5 000 years and represents one of China’s most significant traditional cultures. The value of ancient silk is a historical witness, and the important information it carries is also important. As the most representative cultural symbol of a nation, decorative patterns are a crucial part of the information carried by ancient silk. Therefore, extracting information from ancient silk is of great significance for the protection and promotion of China’s excellent traditional culture. Although museum visits are the most effective way for non-cultural relic protection workers to access ancient silk, this approach is not only inconvenient but also insecure, particularly in the context of the recent worldwide outbreak of the new coronavirus. To break the spatial limitations of collections and museums, bring people closer to cultural relics, realize resource exchange and sharing, and serve the promotion of the Silk Road spirit, China National Silk Museum has issued an initiative to jointly build the Silk Road Online Museum (SROM). The classification of cultural relics is an important step in the construction of digital museums. Compared with ordinary products, the classification of cultural relics is difficult. Specifically, textile cultural relics are more difficult to classify because of the difficulty in preserving materials and poor integrity. Therefore, how to quickly and accurately complete the identification and classification of textile cultural relics has become a problem to be solved.
In view of the above problems, we adopted deep learning to automatically identify the patterns of silk cultural relics. According to the classification method of physical patterns, a sample library including flower patterns, bird patterns, swastika patterns and cloud patterns was established. VGGNet, ResNet and MobileNet were used to classify patterns, and Faster R-CNN, YOLOv5 and SSD target detection algorithms were used to identify and locate patterns. The results show that MobileNet shows better performance in classifying patterns. It has the highest average accuracy amounting to 83.51% on the test set with the least computer hardware resources, which is slightly better than that of VGG16 and ResNet. Among the three target detection models of Faster-RCNN, SSD and YOLOv5, YOLOv5 shows obvious advantages in the recognition of four patterns. When the Score threshold is set at 0.5, the average accuracy of pattern recognition is 8842%. Among the four patterns, the bird pattern has the best recognition effect, with an AP of 95.97%. The AP of the flower pattern, swastika pattern and cloud pattern is 89.52%, 82.23% and 85.95%, respectively.
Based on the superior performance of YOLOv5 demonstrated in this study and the advantages of YOLO in video detection combined with camera equipment, directly marking data with a high degree of confidence can greatly improve the accuracy and speed of classification during the digitization of cultural relics. This can accelerate the establishment of digital museums, effectively reduce the classification threshold of ancient silk patterns, and have a positive impact on the protection and promotion of excellent traditional culture. Future research will aim to achieve recognition closer to the reality of cultural relics and verify the recognition effect of damaged and severely faded patterns. Additionally, building on the experimental results of this study, we can also explore the use of lightweight networks such as MobileNet as the backbone feature extraction network of the target detection model. This will reduce the network’s volume and consumption of hardware resources, allowing for the transplantation of the model to mobile terminals with camera equipment and making target detection possible on archaeological sites. These efforts contribute to the protection of cultural relics in China, particularly the preservation of textile cultural relics.
Key words: silk cultural relics; deep learning; digital museum; target detection; neural network; automatic classification
收稿日期: 20220930;
修回日期: 20230613
基金項(xiàng)目: 國家重點(diǎn)研發(fā)計(jì)劃課題項(xiàng)目(2019YFC1521301);浙江省文物保護(hù)專項(xiàng)項(xiàng)目(2021016);浙江理工大學(xué)科研啟動(dòng)基金項(xiàng)目(20202214-Y)
作者簡介: 孫選銘(1997),男,碩士研究生,研究方向?yàn)榻z綢歷史及其數(shù)字化應(yīng)用。通信作者:蘇淼,教授,sumiao2008@qq.com。