韓定良,黃鴻亮,王茂發(fā),盛炎平
(1.北京信息科技大學(xué) 理學(xué)院,北京100192;2.吉林大學(xué)珠海學(xué)院 公共基礎(chǔ)與應(yīng)用統(tǒng)計(jì)學(xué)院,珠海 519041;3.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,桂林 541004)
我國(guó)歷史上形成的海量柵格地質(zhì)圖像包含了大量的地理、地質(zhì)信息,對(duì)礦床發(fā)現(xiàn)、石油勘探、儲(chǔ)量估計(jì)、地理坐標(biāo)定位等有著重大意義。柵格地質(zhì)圖中的信息呈現(xiàn)形式以文本字符為主,所以圖像中的文本識(shí)別、定位研究就顯得尤為重要。傳統(tǒng)的通過(guò)人工識(shí)別特征和手動(dòng)錄入數(shù)據(jù)信息的地質(zhì)圖像檢索方式工作量大、重復(fù)性高,已經(jīng)無(wú)法滿(mǎn)足需要。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,通過(guò)計(jì)算機(jī)自動(dòng)識(shí)別和處理圖像文本信息可以大大提升工作效率。文本檢測(cè)算法主要通過(guò)計(jì)算機(jī)自動(dòng)框定出文本在地質(zhì)圖像中的范圍[1-2],作為后續(xù)文本識(shí)別過(guò)程的先行條件,在地質(zhì)圖像的檢索和信息提取中起著舉足輕重的作用。
從特定的場(chǎng)景中檢測(cè)文本來(lái)進(jìn)行場(chǎng)景理解是計(jì)算機(jī)視覺(jué)研究的一個(gè)重要分支。目前基于深度學(xué)習(xí)的文本檢測(cè)算法主要分為兩類(lèi),一類(lèi)是基于預(yù)選框的文本檢測(cè)算法,另一類(lèi)是使用全卷積網(wǎng)絡(luò)直接預(yù)測(cè)目標(biāo)。文獻(xiàn)[3]提出一種快速而準(zhǔn)確的直接預(yù)測(cè)目標(biāo)的檢測(cè)算法,它通過(guò)直接預(yù)測(cè)完整圖像中任意方向和四邊形形狀的單詞或文本行,消除使用單個(gè)神經(jīng)網(wǎng)絡(luò)的不必要的中間步驟,在各種公開(kāi)的數(shù)據(jù)集中取得了良好的效果。然而,在處理包含有大量復(fù)雜文本的地質(zhì)圖像時(shí),受圖像中陰影背景以及各種化學(xué)符號(hào)的干擾,EAST算法整體性能受限,通常也只能檢測(cè)到部分有效文本。
為解決這一問(wèn)題,本文基于文獻(xiàn)[3]提出一種改進(jìn)EAST(an efficient and accurate scene text detector)算法的地質(zhì)圖像文本檢測(cè)方法,通過(guò)減少易提取樣本的權(quán)重策略改進(jìn)損失函數(shù),運(yùn)用多尺度[4]的方法進(jìn)行背景和文本的分割,然后按不同比例尺切割圖像訓(xùn)練樣本,使得算法在地質(zhì)圖像上的檢測(cè)準(zhǔn)確率更高。
傳統(tǒng)的文本檢測(cè)方法[2]和一些基于深度神經(jīng)網(wǎng)絡(luò)的文本定位方法由若干組件構(gòu)成,包含多個(gè)步驟且在訓(xùn)練時(shí)需要對(duì)其分別進(jìn)行調(diào)優(yōu),耗費(fèi)時(shí)間較多。這些方法的準(zhǔn)確率和效率不能滿(mǎn)足地質(zhì)圖像文本檢測(cè)的需求。因此本文選取EAST這種快速而準(zhǔn)確的場(chǎng)景文本檢測(cè)方法作為基礎(chǔ)檢測(cè)算法。該算法的優(yōu)勢(shì)在于消除傳統(tǒng)算法中間冗余而又慢速的步驟,只包含兩個(gè)主要流程:一是使用全卷積網(wǎng)絡(luò)[5](fully convolutional networks,F(xiàn)CN)模型直接生成單詞或文本行級(jí)別預(yù)測(cè);二是將生成的文本預(yù)測(cè)(可以是旋轉(zhuǎn)的矩形或四邊形)輸入到非極大值抑制NMS[6](non-maximum suppression)中以產(chǎn)生最終結(jié)果。本文對(duì)EAST算法進(jìn)行改進(jìn),以提升檢測(cè)效果。
改進(jìn)后的EAST算法主要包含5個(gè)部分:算法神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、基于focal-loss[7]優(yōu)化的損失函數(shù)、傾斜的局部感知非極大值抑制網(wǎng)絡(luò)(NMS)、基于可變尺度的圖像分割優(yōu)化、按比例尺切割訓(xùn)練樣本。
改進(jìn)后的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。由3部分組成:特征提取分支、特征合并分支和輸出層。
圖1 EAST算法網(wǎng)絡(luò)結(jié)構(gòu)
特征提取分支是從ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)中選取4組卷積層Conv1、Conv2、Conv3、Conv4。分別從中提取4個(gè)級(jí)別的特征圖,表示為f1、f2、f3、f4。其圖像大小分別為輸入圖像的1/32、1/16、1/8、1/4。
在特征合并分支,原算法在每個(gè)合并階段,將來(lái)自最后一個(gè)階段的特征圖輸入到反池化層(unpool)中以使其大小加倍,然后與當(dāng)前特征圖合并,這一步操作會(huì)產(chǎn)生一部分計(jì)算代價(jià)。為提升算法效率,本文直接通過(guò)Conv1×1的卷積層減少通道的數(shù)量并且減少計(jì)算量,接著是一個(gè)Conv3×3的卷積層,它融合了局部信息產(chǎn)生這個(gè)合并階段的輸出。在最后一個(gè)合并階段之后,使用Conv3×3卷積核合并所有的特征圖并將其輸入到輸出層。
輸出層分為3個(gè)部分:置信度、文本區(qū)域和文本區(qū)域旋轉(zhuǎn)角度、包含8個(gè)坐標(biāo)的矩形文本區(qū)域。最終的輸出結(jié)果是1×1的卷積提取特征。
EAST算法的損失函數(shù)為
L=Ls+λgLg
(1)
式中:Ls為圖像背景和圖像文本的置信度的分類(lèi)損失,文本區(qū)域所在的部分為1,非文本區(qū)域的背景部分為0;像素點(diǎn)的分類(lèi)損失Lg為對(duì)應(yīng)文本區(qū)域的像素點(diǎn)所組成的矩形框和矩形框角度的回歸損失;λg為兩個(gè)損失之間的相關(guān)性,在原EAST算法中將λg設(shè)置為1。
為了簡(jiǎn)化訓(xùn)練過(guò)程,分類(lèi)損失使用平衡的交叉熵[9],圖像背景和圖像文本的分類(lèi)損失:
(2)
(3)
由于是二分類(lèi),所以y的值是正1或負(fù)1,p的范圍為0~1。當(dāng)真實(shí)標(biāo)簽是1,也就是y=1時(shí),假如某個(gè)樣本x預(yù)測(cè)為1這個(gè)類(lèi)的概率p=0.5,則損失為-log2(0.5),需注意這個(gè)損失是大于等于0的。如果p=0.8,則損失就是-log2(0.8),所以p=0.5時(shí)的損失要大于p=0.8時(shí)的損失。
為了加快收斂速度,本文引入focal-loss[8]損失函數(shù)作為分類(lèi)損失函數(shù),用來(lái)表示圖像分割預(yù)測(cè)值和真實(shí)值的相似度。γ為focusing parameter[9],pt表示預(yù)測(cè)類(lèi)別的概率,改進(jìn)后的圖像背景和圖像文本的分類(lèi)損失Ls為
Ls=-(1-pt)γlog2(pt)
(4)
focal-loss函數(shù)的收斂速度更快,效果優(yōu)于交叉熵?fù)p失函數(shù)的效果。其本質(zhì)是不斷學(xué)習(xí),使文本檢測(cè)區(qū)域的交并比越來(lái)越大。
圖2為使用交叉熵?fù)p失函數(shù)和focal-loss損失函數(shù)在訓(xùn)練過(guò)程中的損失值曲線(xiàn)。當(dāng)γ=0時(shí),曲線(xiàn)為交叉熵?fù)p失函數(shù)的收斂過(guò)程,速度較慢。當(dāng)γ>0時(shí),曲線(xiàn)為focal-loss損失函數(shù)的收斂過(guò)程,從圖中可以看出隨著參數(shù)γ的增大,網(wǎng)絡(luò)的收斂速度加快。
圖2 focal-loss與交叉熵?fù)p失函數(shù)對(duì)比
Lg為文本框矩形的幾何損失,是AABB損失和旋轉(zhuǎn)角度損失Lθ的加權(quán)和:
Lg=LAABB+λθLθ
(5)
式中:LAABB為從像素位置到文本矩形的上下左右4個(gè)邊界距離的損失:
(6)
Lθ為旋轉(zhuǎn)角度損失:
(7)
地質(zhì)圖像中文字尺度變化較大,且尺度不同的文本目標(biāo)在回歸損失中的權(quán)重不同,導(dǎo)致網(wǎng)絡(luò)在文本檢測(cè)中出現(xiàn)漏檢的問(wèn)題。Lg為公式(1)中的文本區(qū)域回歸損失,本文利用動(dòng)態(tài)調(diào)整權(quán)重的策略對(duì)Lg進(jìn)行改進(jìn),使Lg中的權(quán)重對(duì)不同比例尺的地質(zhì)圖像中各個(gè)尺度的文字保持一致。對(duì)于一張比例尺為1∶N的地質(zhì)圖像,同一批次訓(xùn)練樣本中的文本區(qū)域都包含相同的權(quán)重wi:
(8)
式中:S為圖像中總像素的個(gè)數(shù);Si為文本區(qū)域中實(shí)際的文字像素的個(gè)數(shù)。圖像中的像素點(diǎn)i應(yīng)該滿(mǎn)足公式(8)。當(dāng)圖像樣本中Si的數(shù)量增加時(shí),損失的權(quán)值會(huì)受到抑制;當(dāng)圖像樣本中Si的數(shù)量減少時(shí),尺度較小的文本區(qū)域權(quán)值會(huì)變大,尺度較大的文本區(qū)域權(quán)值會(huì)相應(yīng)變小,權(quán)重會(huì)相對(duì)一致,有利于文本目標(biāo)的檢測(cè)。改進(jìn)后的回歸損失為
(9)
將面積大于或小于某個(gè)閾值的文本框設(shè)置為困難樣本,式中yhard即困難樣本的數(shù)量。這些樣本訓(xùn)練起來(lái)較為困難,所以減少這些樣本的權(quán)重可使文本檢測(cè)定位效果有明顯提升。
非極大值抑制簡(jiǎn)稱(chēng)NMS,簡(jiǎn)單理解就是局部最大搜索,在目標(biāo)識(shí)別、數(shù)據(jù)挖掘、目標(biāo)跟蹤等計(jì)算機(jī)領(lǐng)域有重要作用。在目標(biāo)檢測(cè)中,經(jīng)過(guò)分類(lèi)器識(shí)別后,會(huì)產(chǎn)生多個(gè)預(yù)測(cè)框,每個(gè)預(yù)測(cè)框都會(huì)有一個(gè)分?jǐn)?shù),但是絕大多數(shù)預(yù)測(cè)框會(huì)出現(xiàn)交叉或包含的情形,所以就需要通過(guò)NMS來(lái)獲得鄰域里得分最高的預(yù)測(cè)框,同時(shí)抑制分?jǐn)?shù)低的預(yù)測(cè)框,得到最終結(jié)果。
標(biāo)準(zhǔn)NMS是直接取分?jǐn)?shù)最高的預(yù)測(cè)框,而局部感知NMS則是基于鄰近幾個(gè)多邊形是高度相關(guān)的假設(shè),在標(biāo)準(zhǔn)NMS的基礎(chǔ)上增加權(quán)重覆蓋,就是將2個(gè)IoU(intersection over union,交并比即重疊區(qū)域面積比例)高于某個(gè)閾值的輸出框,進(jìn)行基于得分的合并。合并后的輸出框的坐標(biāo)數(shù)值介于兩個(gè)合并的輸入框之間,這樣可以將所有回歸出的框的坐標(biāo)信息都利用起來(lái),有助于減少位置誤差。
由于兩個(gè)矩形文本框重疊的部分可以是任意多邊形,計(jì)算重疊區(qū)域面積的難度較大。所以局部感知NMS一般采取簡(jiǎn)化的計(jì)算方式,將相交部分近似為一個(gè)矩形,每計(jì)算一次相當(dāng)于計(jì)算矩形的頂點(diǎn)和坐標(biāo)軸組成的梯形的面積。圖3中有色區(qū)域的面積為
S=(S1+S3)-(S2+S4)
(10)
圖3 重疊區(qū)域面積計(jì)算過(guò)程
式中:S1為頂點(diǎn)A、D和橫坐標(biāo)軸組成的梯形的面積:
S1=((x3-x0)(y3+y0))/2
(11)
S2為頂點(diǎn)A、B和橫坐標(biāo)軸組成的梯形的面積:
S2=((x1-x0)(y1+y0))/2
(12)
S3為頂點(diǎn)B、C和橫坐標(biāo)軸組成的梯形的面積:
S3=((x2-x1)(y2+y1))/2
(13)
S4為頂點(diǎn)C、D和橫坐標(biāo)軸組成的梯形的面積:
S4=((x2-x3)(y3+y2))/2
(14)
本文使用的地質(zhì)圖像數(shù)據(jù)集中包含有大量的傾斜文本(文本與水平形成夾角),所以本文在局部感知NMS的基礎(chǔ)上增加了傾斜的NMS來(lái)處理這些傾斜文本,其基本步驟如下:
1) 對(duì)網(wǎng)絡(luò)輸出的旋轉(zhuǎn)矩形文本檢測(cè)框按照得分進(jìn)行降序排列,并存儲(chǔ)到一個(gè)降序列表里。
2) 依次遍歷上述的降序列表,將當(dāng)前的文本框和剩余的其他文本框進(jìn)行交集計(jì)算得到相應(yīng)的相交點(diǎn)集合。
3) 判斷相交點(diǎn)集合組成的凸多邊形的面積,計(jì)算每?jī)蓚€(gè)文本檢測(cè)框的IoU;對(duì)于大于閾值的文本框進(jìn)行過(guò)濾,保留小于閾值的文本框。
4) 得到最終的文本矩形檢測(cè)框。
地質(zhì)圖像具有范圍廣、文本尺度多樣的特點(diǎn)。對(duì)于其中文本目標(biāo)的檢測(cè),由于背景十分復(fù)雜,文本目標(biāo)和背景交叉覆蓋,文本特征難以提取,檢測(cè)較為困難。在進(jìn)行圖像分割時(shí),必須要考慮這些因素。文獻(xiàn)[10]中提出兩種利用特征的方式進(jìn)行圖像分割:一是將圖像轉(zhuǎn)化為不同尺度,在各個(gè)尺度的圖像上提取特征,在不同的特征上分別進(jìn)行預(yù)測(cè),該方法增加了時(shí)間復(fù)雜度;第二種方式是從不同的網(wǎng)絡(luò)層中提取特征:提取圖像最后一層的特征進(jìn)行預(yù)測(cè),如SPP-Net[11],Faster R-CNN[12]等;或從多個(gè)網(wǎng)絡(luò)層提取不同尺度特征圖做預(yù)測(cè),如SSD算法[13]。
提取地質(zhì)圖像的文本區(qū)域,首先要對(duì)圖像背景和圖像文字的像素點(diǎn)做一個(gè)分類(lèi),實(shí)際上就是一個(gè)圖像分割的過(guò)程。訓(xùn)練時(shí),文字區(qū)域所在部分表示為1,非文字的背景部分表示為0,這樣就能得到分類(lèi)任務(wù)的groundTruth[14](即有效的正確數(shù)據(jù))。
但對(duì)于圖4(a)中的情況,當(dāng)文本和背景的顏色無(wú)法區(qū)分開(kāi)時(shí),相對(duì)于圖4(b),文本區(qū)域的檢測(cè)并不準(zhǔn)確。為了對(duì)邊界像素點(diǎn)更好地分類(lèi),本文改進(jìn)方法對(duì)圖4(a)中原有的檢測(cè)框做了一點(diǎn)收縮,如圖中黃色虛線(xiàn)框收縮為綠色實(shí)線(xiàn)框,這樣邊界像素點(diǎn)可以分類(lèi)得更準(zhǔn)確。
圖4 文本和圖像背景
在文本檢測(cè)過(guò)程中地質(zhì)圖像的標(biāo)準(zhǔn)框中會(huì)存在一些非目標(biāo)信息,通過(guò)對(duì)邊界像素點(diǎn)的縮進(jìn)可以減少這些信息對(duì)目標(biāo)區(qū)域的影響,提高網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確性[15],如式(15)所示。每個(gè)頂點(diǎn)向內(nèi)收縮的參考長(zhǎng)度為
(15)
式中:pi為矩形的4個(gè)頂點(diǎn);D(pi,pj)為兩個(gè)頂點(diǎn)之間的相對(duì)長(zhǎng)度。首先縮短四邊形的兩條較長(zhǎng)邊,然后縮短兩條較短的邊。對(duì)于四邊形的每條邊D(pi,pimod4+1),通過(guò)將兩個(gè)頂點(diǎn)沿著邊緣分別向內(nèi)移動(dòng)Nri和Nri(imod4)+1的長(zhǎng)度。這里的N是一個(gè)超參數(shù),針對(duì)不同比例尺的圖像將N(0.0~1.0)設(shè)置為不同的值,可以?xún)?yōu)化檢測(cè)結(jié)果。
地質(zhì)圖像中地質(zhì)文本受到比例尺的影響,不同尺度圖像上的地質(zhì)文本尺度差異較大。在訓(xùn)練過(guò)程中,未改進(jìn)的EAST算法使用固定尺寸的圖像進(jìn)行訓(xùn)練[16],因此對(duì)于不同比例尺的地質(zhì)文字圖像,對(duì)文本區(qū)域的漏檢情況比較多。本文采取多尺度的訓(xùn)練方法,對(duì)于一張比例尺為1∶N、大小為M×M的地質(zhì)圖像,在訓(xùn)練階段為每張圖像設(shè)置的尺度為X×X×X,其中X=[M/N]。然后每張圖像選擇對(duì)應(yīng)比例尺的尺度組成多尺度圖像訓(xùn)練集。實(shí)驗(yàn)證明多尺度訓(xùn)練能夠提高算法對(duì)不同比例尺的地質(zhì)圖像文本檢測(cè)的泛化能力。
本實(shí)驗(yàn)在Win10系統(tǒng)下進(jìn)行,使用的顯卡為NVIDIA GTX1060Ti,內(nèi)存為16 G?;谏疃葘W(xué)習(xí)框架Tensorflow和Keras,使用Python編程實(shí)現(xiàn)算法模型。
本文所要檢測(cè)的地質(zhì)圖像數(shù)據(jù)來(lái)自中國(guó)國(guó)家地質(zhì)調(diào)查局,語(yǔ)言為中文。為了提高算法對(duì)地質(zhì)文本檢測(cè)的泛化能力,使用阿里巴巴“圖像和美”團(tuán)隊(duì)聯(lián)合華南理工大學(xué)共同舉辦ICPR MTWI 2018 挑戰(zhàn)賽公開(kāi)的基于網(wǎng)絡(luò)圖片的中英文數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。該數(shù)據(jù)集數(shù)據(jù)量充分,涵蓋數(shù)十種字體,幾個(gè)到幾百像素字號(hào),多種版式,較多干擾背景[17]。其圖像背景復(fù)雜性和地質(zhì)圖像較為類(lèi)似。另外本實(shí)驗(yàn)采用了地質(zhì)調(diào)查局的135張大型地質(zhì)圖像,按比例尺分割為4 000多個(gè)訓(xùn)練樣本構(gòu)成文本檢測(cè)訓(xùn)練集。并且根據(jù)模型訓(xùn)練需要,使用紅色文本框?qū)Φ刭|(zhì)圖像區(qū)域中的中文編碼進(jìn)行標(biāo)注,其中每張圖像對(duì)應(yīng)一個(gè)text標(biāo)簽文件,包含了所標(biāo)注的文本區(qū)域的8個(gè)坐標(biāo)點(diǎn)。如圖5所示。
圖5 標(biāo)注圖像數(shù)據(jù)
為了獲得比較好的文本檢測(cè)泛化能力,實(shí)驗(yàn)先在ICPR MTWI 2018挑戰(zhàn)賽的中英文數(shù)據(jù)集上進(jìn)行訓(xùn)練,獲得預(yù)訓(xùn)練權(quán)重。為了加快訓(xùn)練速度,使用隨機(jī)梯度下降法SGD[18](stochastic gradient descent)進(jìn)行訓(xùn)練優(yōu)化。批訓(xùn)練數(shù)量(batch-size)為32,默認(rèn)的動(dòng)量(pixel_threshold)為0.9,權(quán)重衰減系數(shù)為0.000 5,初始學(xué)習(xí)速度為0.01,每50 000次迭代以后學(xué)習(xí)速度減少為原來(lái)的0.1,學(xué)習(xí)速度到0.000 000 1后不再減少。
為了評(píng)估改進(jìn)前后的算法對(duì)地質(zhì)圖像文本檢測(cè)的準(zhǔn)確性,實(shí)驗(yàn)使用準(zhǔn)確率P(precision),召回率R(recall)、漏檢率(1-recall)、得分值(F1)評(píng)價(jià)算法對(duì)文本檢測(cè)的準(zhǔn)確性。
(16)
式中:tp、fp、fn分別為正確預(yù)測(cè)的文本區(qū)域的數(shù)量、錯(cuò)誤預(yù)測(cè)的文本區(qū)域的數(shù)量和漏檢的文本區(qū)域數(shù)量。檢出率等于召回率,用F1值來(lái)評(píng)估算法的準(zhǔn)確率。
使用3 000張按比例尺分割后的地質(zhì)圖像對(duì)EAST算法和結(jié)合損失函數(shù)優(yōu)化圖像分割優(yōu)化、按比例尺切割訓(xùn)練樣本的改進(jìn)EAST算法進(jìn)行訓(xùn)練,然后將訓(xùn)練好的模型在剩余的1 000張地質(zhì)圖像測(cè)試集(包含4 186個(gè)標(biāo)注的文本區(qū)域)上進(jìn)行測(cè)試。改進(jìn)前后的算法效果對(duì)比如表1所示。
表1 兩種算法檢測(cè)效果對(duì)比
從表1可以看出,改進(jìn)EAST算法在檢測(cè)準(zhǔn)確率上提高了4.5%,準(zhǔn)確檢測(cè)到文本框的概率提高了5.1%,F(xiàn)1值提高了4.9%。
圖6(a)為EAST算法效果圖,圖6(b)為改進(jìn)EAST算法的檢測(cè)效果圖??梢钥闯龈倪M(jìn)的EAST算法能夠準(zhǔn)確檢測(cè)出較多的地質(zhì)圖像文本區(qū)域,而EAST算法漏檢的文本區(qū)域較多,改進(jìn)的EAST算法檢測(cè)效果優(yōu)于原EAST算法。
圖6 實(shí)際檢測(cè)效果對(duì)比
表2列出了使用不同優(yōu)化方式對(duì)準(zhǔn)確率的影響,表中用T表示采用了該優(yōu)化方法,用F表示沒(méi)有采用該優(yōu)化方法。由于優(yōu)化了圖像分割方式,方法2比方法1的漏檢率降低了4.1%。由于按比例尺切割訓(xùn)練樣本增加了網(wǎng)絡(luò)對(duì)不同尺度圖像的適應(yīng)性,方法3比方法1的漏檢率降低了1.4%。方法5和方法1對(duì)比發(fā)現(xiàn),使用focal-loss損失函數(shù)替代交叉熵?fù)p失函數(shù),優(yōu)化損失函數(shù)后的方法漏檢率降低了5.1%。由表可知,實(shí)驗(yàn)中3種優(yōu)化方法均能降低漏檢率,提高文本檢測(cè)準(zhǔn)確率。
表2 不同優(yōu)化方法效果對(duì)比
本文作者測(cè)試了多種地質(zhì)圖像下改進(jìn)EAST算法的文本檢測(cè)效果,如圖7所示。紅色檢測(cè)框標(biāo)定了文本的出現(xiàn)位置。
圖7 多場(chǎng)景檢測(cè)效果對(duì)比
檢測(cè)結(jié)果表明,對(duì)于不同的地質(zhì)圖像,文本檢測(cè)算法的泛化性較好。
地質(zhì)圖像文本檢測(cè)、識(shí)別對(duì)于礦床發(fā)現(xiàn)、石油勘探、地理坐標(biāo)定位具有重大意義。針對(duì)大比例尺地質(zhì)圖像文本檢測(cè)準(zhǔn)確率不夠高的問(wèn)題,本文提出一種基于改進(jìn)EAST算法的地質(zhì)圖像文本檢測(cè)方法,運(yùn)用focal-loss函數(shù)改進(jìn)模型損失函數(shù),采用難、易檢測(cè)文本目標(biāo)權(quán)重動(dòng)態(tài)調(diào)整策略來(lái)改進(jìn)文本目標(biāo)漏檢的問(wèn)題。同時(shí)采用多尺度對(duì)象分割算法進(jìn)行圖像背景和圖像文本的分割,并結(jié)合比例尺方法切割訓(xùn)練樣本。實(shí)驗(yàn)驗(yàn)證了本文提出的算法具有檢測(cè)準(zhǔn)確率較高、對(duì)不同的地質(zhì)圖像的適應(yīng)力較強(qiáng)等優(yōu)點(diǎn)。
改進(jìn)后的EAST算法對(duì)于大比例尺、文本尺度多樣的地質(zhì)圖像中的文本檢測(cè)更加準(zhǔn)確。但仍然存在一些問(wèn)題,如化學(xué)符號(hào)、地質(zhì)符號(hào)特別密集的區(qū)域檢測(cè)準(zhǔn)確率較低。需繼續(xù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提升檢測(cè)算法的準(zhǔn)確性和適應(yīng)性。
致謝
本文相關(guān)實(shí)驗(yàn)得到了中國(guó)地質(zhì)調(diào)查局發(fā)展中心的數(shù)據(jù)支持,特別感謝中心李景朝、王成錫、鄭嘯老師在模型構(gòu)建、評(píng)估標(biāo)準(zhǔn)上的業(yè)務(wù)指導(dǎo)和大力支持!