索朗曲珍 高定國(guó) 李婧怡 白瑪旺久
摘要:隨著各種視頻的增多,對(duì)于大量視頻中文字的提取與監(jiān)測(cè)等方面提出了更高的要求,研究視頻中文字的文本檢測(cè)和識(shí)別對(duì)語(yǔ)音文本的收集、視頻監(jiān)測(cè)等有重要的意義。目前視頻中藏文文本的檢測(cè)、識(shí)別研究還處于起步階段,該文采用DBNet、DBNet++、PSENet、EAST、FCENet等5種基于分割的深度學(xué)習(xí)文字檢測(cè)算法對(duì)視頻中藏文字幕進(jìn)行了檢測(cè),對(duì)比分析了5種檢測(cè)算法對(duì)視頻中藏文字符的檢測(cè)性能。實(shí)驗(yàn)表明,在文字檢測(cè)階段采用的漸進(jìn)式擴(kuò)展算法PSENet在測(cè)試集上具有更好的檢測(cè)性能,其在測(cè)試集上的準(zhǔn)確率、召回率、F1值分別達(dá)到了0.996、0.995、0.998。
關(guān)鍵詞:視頻;藏文文本;檢測(cè)
中圖分類號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)35-0001-05
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
基于深度學(xué)習(xí)的視頻文字檢測(cè)是指檢測(cè)定位連續(xù)的視頻幀中包含文字區(qū)域的位置。視頻字幕中所包含的文字信息有助于理解視頻,是對(duì)視頻內(nèi)容的解釋說明。通過對(duì)視頻中的文字進(jìn)行檢測(cè)識(shí)別來監(jiān)管確保其內(nèi)容積極健康,如視頻畫面中是否含有反動(dòng)宣言等,在快速傳播的信息化時(shí)代下對(duì)維護(hù)國(guó)家安全、社會(huì)穩(wěn)定和推動(dòng)藏文信息處理的發(fā)展具有重要意義。
目前視頻中文字的檢測(cè)與識(shí)別研究主要集中在英文和中文,并取得了較好的成果,但視頻中藏文的檢測(cè)與識(shí)別研究仍處于起步階段,以往的研究主要針對(duì)現(xiàn)代印刷體、木刻版藏文古籍文本以及自然場(chǎng)景下的藏文進(jìn)行檢測(cè)和識(shí)別。視頻中藏文的檢測(cè)識(shí)別與自然場(chǎng)景下藏文的檢測(cè)識(shí)別相似,但存在著一定的差異。視頻中的藏文字分為場(chǎng)景文字和人工添加文字,人工文本雖然比自然場(chǎng)景中的文字更加穩(wěn)定,但由于視頻背景和文字實(shí)時(shí)變化、字體多樣且文字的位置和大小不固定,使得文字的檢測(cè)定位存在困難,于是有必要研究視頻中的藏文檢測(cè)與識(shí)別。
1 相關(guān)工作
目前,中英文針對(duì)視頻中的文本檢測(cè)識(shí)別方式主要有兩方面,分別是基于單幀的文本檢測(cè)和基于幀間的文本關(guān)聯(lián)?;趲g的文本關(guān)聯(lián)是指通過采用視頻前后幀間的文本關(guān)系來進(jìn)行檢測(cè)定位文本區(qū)域。對(duì)于幀間的文本關(guān)聯(lián)檢測(cè)方式在按照時(shí)間間隔截取視頻幀時(shí)存在丟失文本區(qū)域的現(xiàn)象。進(jìn)行幀間融合時(shí)若沒有足夠的幀,則文本增強(qiáng)效果不佳,且當(dāng)使用過多的幀時(shí)會(huì)出現(xiàn)文本的混淆。所以幀間的文本關(guān)聯(lián)檢測(cè)方式適合用于模糊不清的視頻文本提取?;趩螏奈谋緳z測(cè)是指將動(dòng)態(tài)視頻數(shù)據(jù)處理成一幀一幀的靜態(tài)圖片,然后采用文本檢測(cè)算法在單幀圖像上檢測(cè)文本區(qū)域。對(duì)于單幀檢測(cè)方式適合視頻質(zhì)量較好的檢測(cè),且單幀的處理方式不容易使視頻出現(xiàn)丟幀情況。由于本文實(shí)驗(yàn)所使用的視頻數(shù)據(jù)質(zhì)量較好,所以本文采用基于單幀的文本檢測(cè)方式。2019年,趙星馳[1]等人針對(duì)提取視頻內(nèi)部自然場(chǎng)景及人工添加文本,使用目標(biāo)檢測(cè)YOLOv3與基于實(shí)例分割的文本檢測(cè)PixelLink相結(jié)合的方法檢測(cè)提取視頻內(nèi)部的場(chǎng)景及人工添加文本。2020年張慧宇[2]等人采用基于候選框的 CTPN 算法,對(duì)不同背景的視頻文本具有較好的定位效果。2021年,常為弘[3]等人在檢測(cè)階段采用基于改進(jìn)的文字檢測(cè)算法CTPN,將CTPN原有的基于VGG16的特征提取網(wǎng)絡(luò)替換為帶有殘差結(jié)構(gòu)的特征提取網(wǎng)絡(luò),并在每個(gè)殘差塊中添加了通道注意力機(jī)制和空間注意力機(jī)制,對(duì)重要特征賦予更高的權(quán)重,實(shí)驗(yàn)表明,添加了殘差結(jié)構(gòu)和通道注意力機(jī)制的檢測(cè)模型效果更佳。
目前,針對(duì)視頻中藏文的檢測(cè)相關(guān)研究較少,視頻可以切分成連續(xù)的幀圖像,關(guān)于圖像中的藏文文字檢測(cè)與識(shí)別的相關(guān)研究主要有,王夢(mèng)錦[4]采用CTPN算法和EAST算法對(duì)藏文古籍文本進(jìn)行了檢測(cè),實(shí)驗(yàn)表明CTPN模型比EAST模型在其藏文古籍文本測(cè)試集上檢測(cè)的準(zhǔn)確率更高,達(dá)到89%。芷香香[5]采用基于分割的文字檢測(cè)算法PSENet等對(duì)多種字體的手寫藏文古籍文本進(jìn)行檢測(cè),并對(duì)比了不同文本檢測(cè)算法對(duì)不同大小字體的文本檢測(cè)效果。洪松[6]等人采用可微分的二值化網(wǎng)絡(luò)DBNet檢測(cè)自然場(chǎng)景下烏金體藏文,在測(cè)試集上的準(zhǔn)確率達(dá)到89%。仁青東主[7]針對(duì)藏文古籍木刻本復(fù)雜版面特征,采用基于候選框的文本檢測(cè)算法CTPN,實(shí)驗(yàn)結(jié)果表明,在其測(cè)試集上的準(zhǔn)確率達(dá)到96.31%。侯閆[8]采用基于分割的可微分二值化網(wǎng)絡(luò)DBNet檢測(cè)烏金印刷多字體藏文,在其測(cè)試集上的準(zhǔn)確率達(dá)到99.82%。李金成[9]受基于分割的思想提出一種文本實(shí)例中心區(qū)域邊界擴(kuò)增的文字檢測(cè)網(wǎng)絡(luò)模型,該方法在其藏漢雙語(yǔ)場(chǎng)景文字檢測(cè)測(cè)試數(shù)據(jù)集上準(zhǔn)確率達(dá)到75.47%。
由上述可知,基于深度學(xué)習(xí)的文字檢測(cè)算法在不同場(chǎng)景下藏文圖像檢測(cè)上取得了較好成果。本文通過參考和借鑒一些成功應(yīng)用于中英文視頻檢測(cè)模型,開展研究藏文視頻檢測(cè)的任務(wù)。本文首先利用網(wǎng)絡(luò)爬蟲收集大規(guī)模藏文視頻數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理和標(biāo)注,在此基礎(chǔ)上根據(jù)視頻特點(diǎn)探究適合藏文視頻文本檢測(cè)的方法。本研究選用5種基于分割的深度學(xué)習(xí)文本檢測(cè)算法對(duì)視頻中藏文字幕進(jìn)行檢測(cè)定位,并評(píng)估5種算法對(duì)藏文視頻文字的檢測(cè)性能,最后實(shí)驗(yàn)分析得到適合藏文視頻文字檢測(cè)的算法。
2 數(shù)據(jù)集構(gòu)建
2.1 視頻中藏文字的特點(diǎn)分析
為了有效地檢測(cè)視頻中的藏文字,有必要分析其特點(diǎn)。通常情況下,視頻中的藏文字分為兩種,一是視頻拍攝過程中拍攝到的自然場(chǎng)景中的場(chǎng)景文字;另一種是視頻制作時(shí),被人工添加在畫面特定位置的人工文字。對(duì)于人工文字進(jìn)一步可細(xì)分為兩種,部分文字顯示設(shè)計(jì)在與對(duì)比度較大的背景之上,被稱為分層人工文字;另一部分文字是直接嵌入畫面中,與背景易混淆,被稱為嵌入人工文字。具有以下特點(diǎn):
1) 字體多樣性:視頻中使用的不同藏文字體間的風(fēng)格差異較大,并且藏文字具有特殊性,與漢字相比在形體上從左到右的橫向和上到下的疊加構(gòu)成了長(zhǎng)寬不等的二維平面文字給檢測(cè)識(shí)別帶來困難,尤其檢測(cè)中容易漏檢藏文元音符號(hào),導(dǎo)致改變藏文的本意。
2) 文字不完整:對(duì)于位于視頻下方滾動(dòng)的藏文字幕存在模糊、背景復(fù)雜且在特定幀中出現(xiàn)不全等情況,這類文字的檢測(cè)識(shí)別是一項(xiàng)極大的挑戰(zhàn)。
3) 復(fù)雜背景:對(duì)于場(chǎng)景文字,由于拍攝角度的變化、物體遮擋被隨機(jī)嵌入在復(fù)雜的自然背景中,給檢測(cè)識(shí)別帶來困難。對(duì)于人工文字,嵌入人工文字由于藏文字體本身的復(fù)雜性,且使用的字體色與背景色相似,導(dǎo)致其檢測(cè)識(shí)別難度相較于分層人工文字具有較高的挑戰(zhàn)性。
4) 視頻模糊:視頻是經(jīng)過圖片壓縮處理的,視頻幀文字具有模糊、帶有虛影等增加了檢測(cè)識(shí)別難度,容易出現(xiàn)漏檢、誤檢。
5) 外界環(huán)境的制約:由于視頻拍攝中光照不均勻、視角等因素,直接影響視頻畫面的質(zhì)量。
本研究以復(fù)雜背景中,水平方向的藏文烏金體人工字幕為研究對(duì)象,構(gòu)建了本文實(shí)驗(yàn)所需數(shù)據(jù)。
2.2 視頻數(shù)據(jù)預(yù)處理
本采用網(wǎng)絡(luò)爬蟲技術(shù)共收集400多條藏文視頻數(shù)據(jù),每段視頻的時(shí)長(zhǎng)為24分04秒,幀率為24fps,其多樣性體現(xiàn)在背景色、字體位置及大小、高強(qiáng)外界的干擾等方面。然后使用OpenCV-Python讀取視頻數(shù)據(jù),在此基礎(chǔ)上保證數(shù)據(jù)不丟失的情況下,將原始視頻按照每隔10秒提取一幀圖像的方法來對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處理操作。最后,每段視頻平均得到1 490幀圖像,用于視頻檢測(cè)識(shí)別模型所需的訓(xùn)練數(shù)據(jù)集,其中部分幀圖片如圖1所示。
2.3 數(shù)據(jù)的標(biāo)注
本研究使用(VGG Image Annotator,VIA)標(biāo)注工具對(duì)視頻中藏文幀圖像的文本區(qū)域進(jìn)行標(biāo)注,標(biāo)注后生成JSON格式的標(biāo)簽文件,然后將其轉(zhuǎn)化為和ICDAR2015數(shù)據(jù)集一致格式的txt文件,具體流程如圖2所示。
3 視頻檢測(cè)方法研究
目前,基于分割的方法在場(chǎng)景文本檢測(cè)中能夠更準(zhǔn)確地描述任意形狀的場(chǎng)景文本。因此,本文采用以下幾種基于分割的方法用于藏文視頻中文字的檢測(cè)定位。
3.1 DBNet算法概述
本研究采用的DBNet[10]網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,在檢測(cè)階段將藏文視頻幀圖像輸入網(wǎng)絡(luò)后,首先通過特征提取網(wǎng)絡(luò)ResNet-18提取圖像中藏文的特征,并進(jìn)行上采樣融合,然后通過concat操作后生成圖3中的特征圖F,采用F分別預(yù)測(cè)出概率圖P和閾值圖T,最后由可微分的二值化算法計(jì)算出近似二值圖[B],最終得到視頻中藏文的檢測(cè)結(jié)果。
視頻中藏文檢測(cè)階段的可微分的二值化過程如式(1)所示,其中,[B]表示近似的二值圖,([i,j])表示概率圖中的坐標(biāo),[P]和[T]分別表示網(wǎng)絡(luò)學(xué)習(xí)的概率圖、閾值圖,[k]是一個(gè)因子。式(1)之所以能提高網(wǎng)絡(luò)整體性能,可從它的梯度反向傳播來解釋,定義一個(gè)[f(x)]如式(2)所示,其中[x=Pi,j-Ti,j],在使用交叉熵?fù)p失函數(shù),將正樣本的損失記為[l+],如式(3)所示,負(fù)樣本的損失記為[l-],如式(4)所示。正、負(fù)樣本對(duì)輸入的[x]進(jìn)行鏈?zhǔn)角髮?dǎo),得出相應(yīng)的偏導(dǎo)數(shù),分別為如式(5)、(6)所示。由此從微分式中可以看出,[k]是梯度增益因子,梯度對(duì)于錯(cuò)誤預(yù)測(cè)的增益幅度很大,進(jìn)而既促進(jìn)在反向傳播中對(duì)參數(shù)的更新,又有利于精準(zhǔn)預(yù)測(cè)視頻中藏文邊緣的特征。
[Bi,j =11+e-kPi,j-Ti,j] (1)
[fx=11+e-kx] (2)
[l+=-log11+e-kx] (3)
[l-=-log1-11+e-kx] (4)
[?l+?x=-kfxe-kx] (5)
[?l-?x=kfx ] (6)
網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)[L]如式(7)所示,是概率圖的損失[Ls]、二值圖的損失[Lb]、閾值圖的損失[Lt],其中[α]和[β]值分別設(shè)置為1.0和10。式(7)中的[Ls]和[Lb]使用二值交叉熵?fù)p失,如式(8)所示,其中[Sl]是經(jīng)過采樣的數(shù)據(jù)集,其正樣和負(fù)樣本的比值為1:3。[Lt]采用的是計(jì)算[Gd]內(nèi)預(yù)測(cè)與標(biāo)簽之間[L1]的距離之和,如式(9)所示,其中,[Rd]為標(biāo)注框經(jīng)過偏移量[D]擴(kuò)充后得到的框[Gd]里的一組像素的索引。
[L=Ls+α×Lb+β×Lt] (7)
[Ls=Lb=i∈Slyilogxi+1-yilog1-xi ] (8)
[Lt=i∈Rdy*i-x*i ] (9)
3.2 DBNet++算法概述
DBNet++[11]是基于DBNet的改進(jìn)算法,該算法的核心是提出了自適應(yīng)尺度融合模塊(Adaptive Scale Fusion,ASF),如圖4所示。首先,金字塔特征圖上采樣到相同大小,然后輸入ASF模塊中,對(duì)經(jīng)過尺度縮放的特征圖進(jìn)行concat,再經(jīng)過3×3卷積,獲得中間特征S,并對(duì)其采用空間注意力機(jī)制(attention)。最后,注意力權(quán)重[A∈RN×H×W]分別與輸入的特征圖對(duì)應(yīng)相乘后再concat得到ASF的輸出,很好地考慮了不同尺度特征圖的重要性,使得DBNet++模型具有更強(qiáng)的尺度魯棒能力,尤其是對(duì)本文大尺度的視頻文本目標(biāo)更魯棒,但藏文元音符號(hào)出現(xiàn)較嚴(yán)重的漏檢。
3.3 PSENet算法概述
PSENet[12]網(wǎng)絡(luò)的整體框架如圖5所示,該算法首先采用主干網(wǎng)絡(luò)ResNet50[13]提取n個(gè)通道特征圖,其次,使用函數(shù)來將低級(jí)紋理特征和高級(jí)語(yǔ)義特征相融合,并映射到F,此時(shí)促進(jìn)了不同尺度的內(nèi)核生產(chǎn)。然后產(chǎn)生了n個(gè)不同尺度的分割結(jié)果,其中最小尺度的分割結(jié)果是整個(gè)文本實(shí)例的中心位置,而最大尺度的分割結(jié)果是文本實(shí)例的完整形狀。最后使用漸進(jìn)式擴(kuò)展算法(PSENet),首先將最小內(nèi)核的分割結(jié)果通過連通分析形成不同連通域,進(jìn)而確定各種實(shí)例的中心位置,其次,通過廣度優(yōu)先算法合并相鄰像素逐漸擴(kuò)展到最大尺度分割結(jié)果,對(duì)于合并間存在沖突像素,采用先到先得的策略,從而獲得最終的藏文視頻檢測(cè)結(jié)果。
3.4 EAST算法概述
EAST[13]網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,該算法只包含兩個(gè)階段,分別是全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)和非極大值抑制(Non-Maximum Suppression,NMS)。首先將視頻幀圖像送到FCN網(wǎng)絡(luò)結(jié)構(gòu)中,由PVANet提取輸入圖像特征,并生成單通道像素級(jí)的文本分?jǐn)?shù)特征圖(score map)和多通道幾何圖形特征圖(geometry map),再使用上采樣、張量連接、卷積操作進(jìn)行特征合并,之后輸出部分直接產(chǎn)生文本框預(yù)測(cè)。文本區(qū)域采用了兩種幾何形狀:旋轉(zhuǎn)框(RBOX)和水平(QUAD),分別設(shè)計(jì)了不同的損失函數(shù)。然后采用閾值過濾幾何,其中評(píng)分超過預(yù)定閾值的幾何形狀被認(rèn)為有效,并將生成的文本預(yù)測(cè)框經(jīng)過非極大值抑制(NMS)篩選,產(chǎn)生最終結(jié)果。
本文在視頻藏文檢測(cè)階段采用EAST網(wǎng)絡(luò)原始的損失函數(shù),如式(10)所示,其中,[Ls]表示分類損失、[Lg]表示幾何損失、[λg]表示兩個(gè)損失的重要性,在本文實(shí)驗(yàn)中將其設(shè)置為1.0。[Ls]表達(dá)式如式(11)所示,其中[Y]是score map的預(yù)測(cè)值,[Y*]是Ground Truth真實(shí)標(biāo)簽,參數(shù)[β]是每一張幀圖像的正樣本和負(fù)樣本的平衡因子,其公式如式(12)所示。
[L=Ls+λgLg] (10)
[Ls=balanced-xentY,Y*? ? =-βY*logY-1-β1-Y*log(1-Y)] (11)
[β=1-y*∈Y*y*Y*] (12)
由于文本在視頻場(chǎng)景中的尺度變化較大,因此本文在RBOX回歸的AABB部分采用原網(wǎng)絡(luò)中使用的[IoU]損失,其[Lg]表達(dá)式如式(13)所示,其中,[LAABB]和旋轉(zhuǎn)角度損失計(jì)算公式分別如式(14)、(15)所示。當(dāng)幾何圖是QUAD時(shí),對(duì)其采用尺度歸一化的[smoothedL1]損失函數(shù),其損失值如式(16)所示,其中[NQ*]是四邊形的短邊長(zhǎng)度,其表達(dá)式如式(17)所示,從而保證文本尺度變化的穩(wěn)定性。
[Lg=LAABB+λθLθ] (13)
[LAABB=-logIoUR,R*=-logR∩R*R∪R*] (14)
[Lθθ,θ*=1-cosθ-θ* ] (15)
[Lg=LQUADQ,Q*? ? ?=minQ∈PQ*ci∈CQ,ci∈CQsmoothedL1ci-ci8×NQ*] (16)
[NQ*=mini=1,2,3,4DPi,Pi mod 4+1] (17)
3.5 FCENet算法概述
FCENet[14]算法提出了傅里葉輪廓嵌入(Fourier Contour Embedding,F(xiàn)CE)方法來將任意形狀的文本輪廓表示為緊湊的傅里葉特征向量。該網(wǎng)絡(luò)結(jié)構(gòu)由可變形卷積的殘差網(wǎng)絡(luò)模型作為特征提取層(backbone- ResNet50_DCN)[15]、特征金字塔網(wǎng)絡(luò)FPN[16]作為neck層來提取多尺度特征、FCE作為head層。其中,head層分為分類分支和回歸分支。分類分支用來預(yù)測(cè)文本區(qū)域和文本中心區(qū)域?;貧w分支用來預(yù)測(cè)文本的傅里葉特征向量,并將其輸入反向傅里葉變換進(jìn)行文本輪廓點(diǎn)序列的重建,最后通過非最大值抑制(NMS)獲得最終的視頻文本檢測(cè)。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)環(huán)境
本文檢測(cè)網(wǎng)絡(luò)訓(xùn)練的硬件環(huán)境為CPU: Intel?CoreTMi9-9900K、GPU:NVIDIA GeForce RTX 2080Ti,內(nèi)存:24GB,軟件環(huán)境為Ubuntu 20.04+cuda11.8+Python3.8+PyTorch1.12.1。
4.2 評(píng)價(jià)指標(biāo)
為了評(píng)估不同算法的性能,本文采用準(zhǔn)確率(Precision)、召回率(Recall)、F1值(H-mean)、幀速率(FPS)4個(gè)指標(biāo)對(duì)視頻中藏文幀圖像的文本區(qū)域檢測(cè)結(jié)果進(jìn)行評(píng)價(jià)。
4.3 視頻中藏文文本的檢測(cè)
本文視頻藏文文本檢測(cè)實(shí)驗(yàn)中,首先對(duì)數(shù)據(jù)預(yù)處理得到的2 752幀圖像進(jìn)行去重操作,共得到878幀實(shí)驗(yàn)所需數(shù)據(jù),并將數(shù)據(jù)按照8∶1∶1隨機(jī)分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。在此基礎(chǔ)上對(duì)比基于分割的DBNet、DBNet++、EAST、FCENet文字檢測(cè)算法與本文所采用的漸進(jìn)式擴(kuò)展算法PSENet在視頻中藏文的檢測(cè)效果。其中檢測(cè)效果如圖7所示,圖(a)為DBNet檢測(cè)效果,圖(b)為EAST檢測(cè)效果,圖(c)為FCENet檢測(cè)效果,圖(d)為DBNet++檢測(cè)效果,圖(e)為PSENet檢測(cè)效果。在測(cè)試集上的結(jié)果如表1所示。
從圖7和表1中可以看出,DBNet算法在單一背景下檢測(cè)效果較好,但對(duì)于復(fù)雜花色的背景下檢測(cè)效果不佳,而DBNet++網(wǎng)絡(luò)在復(fù)雜背景下能檢測(cè)定位到文本區(qū)域的4個(gè)坐標(biāo)點(diǎn),故所檢測(cè)的準(zhǔn)確率也高,但整體相比DBNet嚴(yán)重出現(xiàn)了藏文元音符號(hào)的漏檢,進(jìn)而易改變藏文本意。EAST算法在檢測(cè)視頻中相對(duì)較長(zhǎng)文本行時(shí)存在較嚴(yán)重的漏檢,且會(huì)生成多余的檢測(cè)框并重疊在一起,不適合用于檢測(cè)視頻場(chǎng)景的文字。FCENet檢測(cè)算法能夠有效檢測(cè)視頻中較小尺度的字幕,但由于視頻文字的位置和大小不固定,對(duì)于檢測(cè)較大尺度的文字易出現(xiàn)漏檢。本文采用的漸進(jìn)式擴(kuò)展算法PSENet既有效解決對(duì)于視頻中復(fù)雜背景、大小不固定的藏文字幕檢測(cè),又可有效檢測(cè)藏文元音符號(hào),在準(zhǔn)確率、召回率、F1值上都達(dá)到99%以上。
5 總結(jié)與展望
為研究藏語(yǔ)視頻中出現(xiàn)的文字信息,對(duì)其檢測(cè)定位是前提任務(wù)。本文通過分析視頻本身的特點(diǎn)及檢測(cè)難點(diǎn),采用5種基于分割的文字檢測(cè)算法用于藏文視頻字幕的檢測(cè)。在人工收集的藏文視頻數(shù)據(jù)集上進(jìn)行初步實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,基于分割的漸進(jìn)式擴(kuò)展算法PSENet在藏文視頻文字檢測(cè)中具有較好的效果,其準(zhǔn)確率、召回率、F1值都達(dá)到99%以上,證明該方法在藏文視頻文字檢測(cè)中具有可行性。同時(shí),通過分析實(shí)驗(yàn)結(jié)果在后續(xù)研究中需要進(jìn)一步開展不同位置、多字體以及復(fù)雜背景下藏文視頻場(chǎng)景文字的研究。
參考文獻(xiàn):
[1] 趙星馳.基于深度學(xué)習(xí)的視頻文字檢測(cè)技術(shù)[D].北京:北京郵電大學(xué),2019.
[2] 張慧宇.廣電視頻文字檢測(cè)與識(shí)別的研究[D].鄭州:鄭州大學(xué),2020.
[3] 常為弘.視頻中的文字檢測(cè)識(shí)別算法的研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2021.
[4] 王夢(mèng)錦.基于深度學(xué)習(xí)的藏文古籍文獻(xiàn)文本檢測(cè)研究[D].拉薩:西藏大學(xué),2020.
[5] 芷香香,高定國(guó).手寫多字體藏文古籍文本檢測(cè)方法研究[J].高原科學(xué)研究,2022,6(2):89-101.
[6] 洪松,高定國(guó),三排才讓,等.自然場(chǎng)景下烏金體藏文的檢測(cè)與識(shí)別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(12):332-338.
[7] 仁青東主.基于深度學(xué)習(xí)的藏文古籍木刻本文字識(shí)別研究[D].拉薩:西藏大學(xué),2021.
[8] 侯閆,高定國(guó),高紅梅.烏金印刷多字體藏文的文本檢測(cè)與識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2023,44(4):1058-1065.
[9] 李金成.藏漢雙語(yǔ)自然場(chǎng)景文字檢測(cè)與識(shí)別系統(tǒng)[D].蘭州:西北民族大學(xué),2021.
[10] LIAO M H,WAN Z Y,YAO C,et al.Real-time scene text detection with differentiable binarization[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):11474-11481.
[11] LIAO M H,ZOU Z S,WAN Z Y,et al.Real-time scene text detection with differentiable binarization and adaptive scale fusion[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(1):919-931.
[12] WANG W H,XIE E Z,LI X,et al.Shape robust text detection with progressive scale expansion network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA.IEEE,2019:9328-9337.
[13] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA.IEEE,2016:770-778.
[14] ZHOU X Y,YAO C,WEN H,et al.EAST:an efficient and accurate scene text detector[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:2642-2651.
[15] ZHU Y Q,CHEN J Y,LIANG L Y,et al.Fourier contour embedding for arbitrary-shaped text detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville,TN,USA.IEEE,2021:3122-3130.
[16] ZHU X Z,HU H,LIN S,et al.Deformable ConvNets V2:more deformable,better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA.IEEE,2019:9300-9308.
[17] LIN T Y,DOLLáR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:936-944.
【通聯(lián)編輯:唐一東】