付鵬斌, 李樹軍, 楊惠榮
(北京工業(yè)大學(xué)信息學(xué)部, 北京 100124)
手寫數(shù)學(xué)公式識(shí)別作為手寫識(shí)別領(lǐng)域的一個(gè)重要分支,有很多應(yīng)用場(chǎng)景,可分為聯(lián)機(jī)和脫機(jī)2種識(shí)別模式。其中,聯(lián)機(jī)模式是將數(shù)學(xué)公式以一維坐標(biāo)點(diǎn)序列的形式作為輸入,而脫機(jī)模式是將數(shù)學(xué)公式以二維靜態(tài)圖像的形式作為輸入。目前,聯(lián)機(jī)手寫數(shù)學(xué)公式的識(shí)別主要分為傳統(tǒng)識(shí)別方法和基于深度學(xué)習(xí)的識(shí)別方法。傳統(tǒng)識(shí)別方法旨在基于文法規(guī)則將識(shí)別過程劃分為字符分割、字符識(shí)別和結(jié)構(gòu)分析3個(gè)階段[1]。商俊蓓[2]采用隱性分割的方法,將時(shí)間點(diǎn)作為切分的依據(jù),避免字符粘連導(dǎo)致的切分錯(cuò)誤??岁徽躘3]通過構(gòu)建全局解析樹,實(shí)現(xiàn)數(shù)學(xué)公式的動(dòng)態(tài)結(jié)構(gòu)分析,可以根據(jù)結(jié)構(gòu)分析階段的錯(cuò)誤對(duì)前2個(gè)階段動(dòng)態(tài)調(diào)整。鄭恩東[4]通過構(gòu)建筆畫結(jié)構(gòu)圖的方式,克服一維序列對(duì)數(shù)學(xué)公式二維結(jié)構(gòu)表達(dá)的限制。然而,這一類識(shí)別方法過度依賴人工預(yù)定義規(guī)則,對(duì)公式的復(fù)雜程度有較高的要求。Deng等[5]將深度學(xué)習(xí)引入該領(lǐng)域,實(shí)現(xiàn)了端到端的識(shí)別,并且證實(shí)基于編碼器-解碼器框架的神經(jīng)網(wǎng)絡(luò)模型在很大程度上優(yōu)于傳統(tǒng)的識(shí)別方法。Zhang等[6]設(shè)計(jì)了基于門控循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器模型,引入注意力機(jī)制幫助模型在每次解碼前聚焦于特征信息的有效解碼區(qū)域,隨后又設(shè)計(jì)了TAP(track,attend and parse)模型[7]和WAP(watch,attend and parse)模型[8],前者將注意力引導(dǎo)機(jī)制作為正則化項(xiàng)以提高注意力機(jī)制的精確性,后者采用卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制實(shí)現(xiàn)對(duì)數(shù)學(xué)公式圖像的識(shí)別。Zhang等[9]設(shè)計(jì)了多尺度編碼器,在一定程度上克服了字符尺寸相差較大而造成的信息丟失問題。這類方法或模型均是在單模下實(shí)現(xiàn)的,只能接受同一種形式的數(shù)據(jù),即坐標(biāo)點(diǎn)序列形式或圖像形式,均無法充分利用輸入數(shù)據(jù)的特征。因此,Wang等[10]設(shè)計(jì)了基于注意力機(jī)制的多模識(shí)別模型,這里的多模是指雙模,即將聯(lián)機(jī)識(shí)別模型和脫機(jī)識(shí)別模型結(jié)合。然而,因?yàn)闆]有對(duì)單模下的識(shí)別做任何改進(jìn),所以單模模型的缺點(diǎn)會(huì)保留至雙模模型中。Wang等[11]設(shè)計(jì)了筆畫約束注意力網(wǎng)絡(luò)(stroke constrained attention network,SCAN)模型,將聯(lián)機(jī)模式與脫機(jī)模式下的特征信息融合,但是其形狀和信息密度不同,導(dǎo)致無法充分利用融合后的特征信息。
針對(duì)以上問題,本文設(shè)計(jì)了一種基于編碼器-解碼器框架的雙模識(shí)別模型(dual online-offline model,DOOM)。該模型可同時(shí)接受坐標(biāo)點(diǎn)序列和圖像形式的輸入數(shù)據(jù),充分保留原數(shù)據(jù)的特征。除此之外,還提出了正弦編碼,實(shí)現(xiàn)了聯(lián)機(jī)模式下輸入的數(shù)據(jù)增強(qiáng),并設(shè)計(jì)了平滑注意力機(jī)制,實(shí)現(xiàn)了脫機(jī)模式下手寫字符與相關(guān)特征信息的有效對(duì)齊。經(jīng)實(shí)驗(yàn)驗(yàn)證,該模型可有效提升數(shù)學(xué)公式識(shí)別的準(zhǔn)確率。
為了從輸入序列中提取子序列的標(biāo)志信息,本文提出了正弦編碼,其可應(yīng)用于輸入為序列數(shù)據(jù)的場(chǎng)景。序列化的數(shù)據(jù)在深度學(xué)習(xí)領(lǐng)域較為常見,一個(gè)序列往往由若干長(zhǎng)度不等的子序列組成,如一段文本包含多個(gè)長(zhǎng)短不一的句子,此時(shí)該序列的完整信息是由多個(gè)片段化的子序列信息組成的。然而,當(dāng)一個(gè)序列包含一個(gè)較短的子序列時(shí),極有可能在數(shù)據(jù)處理過程中造成該子序列數(shù)據(jù)信息的丟失,嚴(yán)重影響數(shù)據(jù)信息的完整度,因此,如何防止序列中各個(gè)子序列信息的丟失至關(guān)重要。
為了解決上述問題,本文提出了正弦編碼,對(duì)所有子序列中的每個(gè)元素通過正弦函數(shù)計(jì)算一個(gè)正弦標(biāo)志,因此,每個(gè)子序列都有一個(gè)正弦標(biāo)志序列,用來補(bǔ)充該子序列的數(shù)據(jù)信息。假設(shè)序列由各子序列組成,即
(1)
然后以同樣的方式計(jì)算序列Q中所有元素的正弦標(biāo)志,得到正弦標(biāo)志序列
最終,編碼后序列Z的公式為
Z=WQQ+WSS
(2)
式中:WQ為Q的權(quán)重;WS為S的權(quán)重。
從以上計(jì)算過程可以看出,正弦編碼是從輸入序列中提取每個(gè)子序列的正弦標(biāo)志序列,并且將正弦標(biāo)志序列同樣作為模型的輸入,因此,可在一定程度上保留子序列信息。
為了對(duì)不同大小的目標(biāo)區(qū)域進(jìn)行更加精確的篩選,本文提出一種平滑注意力機(jī)制。注意力機(jī)制是一種類似人類視覺神經(jīng)的算法,可通過自動(dòng)學(xué)習(xí)權(quán)重的方式得到輸入數(shù)據(jù)中的有效區(qū)域,常應(yīng)用于基于編碼器-解碼器框架的模型。假設(shè)輸入數(shù)據(jù)為特征圖G,即
式中每個(gè)像素特征gkl∈RD,1≤k≤h,1≤l≤w,D為特征維度。在每次解碼前,模型對(duì)特征圖中的每個(gè)像素特征自動(dòng)分配權(quán)重,權(quán)重越大,則表明其包含的有效信息越多,從而篩選出有效解碼信息。這里,以在解碼時(shí)刻計(jì)算像素特征gkl的權(quán)重為例,計(jì)算公式為
(3)
(4)
(5)
然而,以上這種計(jì)算方式經(jīng)常會(huì)造成過解碼和欠解碼的問題,即每次篩選到的有效特征信息過多或不足。為了避免這種問題,Zhang等[7]提出了覆蓋注意力機(jī)制,將之前所有解碼時(shí)刻的注意力值的和F也作為計(jì)算當(dāng)前時(shí)刻注意力因子的條件,即
(6)
則式(3)可改為
(7)
然而,當(dāng)原輸入圖像中的有效信息區(qū)域的范圍相差較大時(shí),在固定大小的感受野下,覆蓋注意力機(jī)制同樣很難比較精確地篩選出有效的特征信息。例如,當(dāng)輸入為手寫數(shù)學(xué)公式圖像時(shí),圖像中不同手寫符號(hào)的尺寸相差較大,注意力機(jī)制在捕捉尺寸較小的符號(hào)時(shí),往往會(huì)得到一些無用的特征信息,而捕捉尺寸較大的手寫符號(hào)時(shí),卻不能獲取該符號(hào)的全部特征信息。為了改善這個(gè)問題,本文基于覆蓋注意力機(jī)制提出了平滑注意力機(jī)制,通過引入平滑窗口,將窗口中所有像素特征的注意力因子作為計(jì)算當(dāng)前像素特征權(quán)重的條件。這里,同樣以在解碼時(shí)刻t計(jì)算gkl的權(quán)重為例對(duì)平滑注意力機(jī)制的計(jì)算方式進(jìn)行詳細(xì)介紹。
(8)
(9)
式中:σ表示Sigmoid激活函數(shù);T表示最大平滑范圍;「?表示向上取整操作;Weh∈RD×1,Wew∈RD×1,同樣為自動(dòng)更新的模型參數(shù)。
(10)
按照同樣的方式對(duì)G中所有的像素特征權(quán)重化可得到Gt,公式為
(11)
DOOM是通過編碼器-解碼器框架和注意力機(jī)制實(shí)現(xiàn)的。該模型主要包括聯(lián)機(jī)編碼器、脫機(jī)編碼器和解碼器3個(gè)部分,其中解碼器又包含了覆蓋注意力機(jī)制和平滑注意力機(jī)制,如圖1所示。每次模型接收的坐標(biāo)點(diǎn)序列和二維圖像均來自同一手寫數(shù)學(xué)公式。
圖1 DOOM結(jié)構(gòu)
在聯(lián)機(jī)模式下,每個(gè)手寫數(shù)學(xué)公式的輸入是一個(gè)坐標(biāo)點(diǎn)序列,其包含了很多長(zhǎng)度不等的子坐標(biāo)點(diǎn)序列,每個(gè)子坐標(biāo)點(diǎn)序列對(duì)應(yīng)該數(shù)學(xué)公式的一個(gè)筆畫的數(shù)據(jù),這剛好符合正弦編碼的應(yīng)用場(chǎng)景。當(dāng)手寫數(shù)學(xué)公式包含較多筆畫時(shí),為了避免在識(shí)別過程中丟失較短筆畫的信息,同時(shí)補(bǔ)充筆畫之間的間隔信息,本文采用正弦編碼對(duì)輸入的坐標(biāo)點(diǎn)序列進(jìn)行編碼。
假設(shè)聯(lián)機(jī)模型的輸入坐標(biāo)點(diǎn)序列為P,其正弦標(biāo)志序列為S。根據(jù)手寫數(shù)學(xué)公式的特點(diǎn),將編碼后的序列Xon作為聯(lián)機(jī)模式下的輸入,其計(jì)算公式為
Xon=tanh(Win(WPP+WSS))
(12)
式中:tanh為激活函數(shù);WP∈REin×E,WS∈R1×E,Win∈RE×E,皆為可訓(xùn)練的模型參數(shù),其中,Ein表示每個(gè)坐標(biāo)點(diǎn)的維度,E表示編碼維度。以圖2所示的手寫數(shù)學(xué)公式“yt+1”為例,其包含了7個(gè)筆畫,每個(gè)筆畫的坐標(biāo)點(diǎn)數(shù)量不同,均在公式右側(cè)標(biāo)明。從圖中可看出,正弦編碼可使每個(gè)筆畫內(nèi)的正弦標(biāo)志序列按正弦規(guī)律變化,并且可以用熱力圖的方式可視化該公式正弦標(biāo)志序列的變化規(guī)律,其中每個(gè)高亮區(qū)域?qū)?yīng)一個(gè)筆畫。每個(gè)筆畫的正弦標(biāo)志序列中的最小值為0,最大值為1,分別對(duì)應(yīng)筆畫的間隔位置和中心位置。筆畫越短,則正弦標(biāo)志變化越快;筆畫越長(zhǎng),則正弦值變化越慢。因此,不僅能夠根據(jù)該變化規(guī)律預(yù)測(cè)筆畫的長(zhǎng)度,而且能夠在一定程度上補(bǔ)充筆畫之間的間隔信息。
圖2 正弦編碼示例
聯(lián)機(jī)編碼模型由卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和門控循環(huán)單元(gate recurrent unit,GRU)神經(jīng)網(wǎng)絡(luò)兩部分構(gòu)成。其中CNN部分用于提取局部特征信息,如手寫筆跡的拐點(diǎn)信息等,根據(jù)DenseNet-20[12]實(shí)現(xiàn)。該模型主要由5個(gè)DenseBlock構(gòu)成,每個(gè)DenseBlock包含了3層網(wǎng)絡(luò),每層網(wǎng)絡(luò)又包含了2層卷積層,增長(zhǎng)因子K為24,如圖3所示。DenseBlock之間的卷積層起到連接和壓縮通道數(shù)的作用,壓縮因子為0.5。在第3個(gè)和第5個(gè)DenseBlock后分別設(shè)置了一層平均池化層,最終可將輸入序列的長(zhǎng)度降為原來的1/4,起到匯聚特征信息的作用。GRU部分用來提取坐標(biāo)點(diǎn)之間的關(guān)聯(lián)性特征,采用2層雙向門控循環(huán)單元(bi-direction gate recurrent unit,Bi-GRU)神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn),D為250,其輸入是CNN部分的輸出。
圖3 聯(lián)機(jī)編碼器模型
假設(shè)輸入序列Xon=[X1,X2,…,Xn],為了匹配模型的輸入格式,首先將Xon轉(zhuǎn)換成形狀為[E,n,1]的張量。經(jīng)過卷積后的輸出是一個(gè)形狀為[C,L,1]的張量,C表示最終輸出的通道數(shù),L表示輸出的特征序列的長(zhǎng)度,由于池化層的作用,L=N/4。然后,將該張量的形狀轉(zhuǎn)換為[L,C]并輸入GRU模型中,最終得到聯(lián)機(jī)特征信息Con=[C1,C2,…,CL],其包含了整個(gè)輸入坐標(biāo)點(diǎn)序列的特征信息。
脫機(jī)編碼器是由更深層的卷積神經(jīng)網(wǎng)絡(luò)模型DenseNet-99實(shí)現(xiàn)的,不同的是去掉了Transition后的平均池化層。模型主要由3個(gè)DenseBlock和2個(gè)Transition構(gòu)成,如圖4所示。每個(gè)DenseBlock包含23層網(wǎng)絡(luò),每層網(wǎng)絡(luò)包含4層卷積層,增長(zhǎng)因子K為24。在第1個(gè)DenseBlock前有一層卷積核為7×7的卷積層和一層最大池化層,卷積步長(zhǎng)為2。每個(gè)Transition內(nèi)部和后面均有一層卷積層,用來壓縮和連接2個(gè)相鄰DenseBlock的通道數(shù)。模型最后一層是全連接層,作用于通道維度上,用來控制輸出特征維度的大小。
圖4 脫機(jī)編碼器模型
假設(shè)輸入圖像的高和寬分別為Himg和Wimg,在輸入模型前需要將其轉(zhuǎn)換成形狀為[1,Himg,Wimg]的張量,1表示輸入通道數(shù)。經(jīng)過編碼后的脫機(jī)特征信息Coff是一個(gè)形狀為[D,H,W]的張量,其包含了整個(gè)輸入圖像的二維結(jié)構(gòu)特征信息,D表示脫機(jī)特征維度,與聯(lián)機(jī)特征維度大小相同,H和W分別表示輸出特征圖的高和寬。
解碼器模型根據(jù)Con和Coff預(yù)測(cè)LaTeX序列,由2層GRU構(gòu)成。為了在每次解碼前使解碼器聚焦于特征信息的有效解碼區(qū)域,引入了注意力機(jī)制。在每次解碼前,分別通過覆蓋注意力機(jī)制和平滑注意力機(jī)制對(duì)Con和Coff篩選有效的解碼信息,進(jìn)而提升解碼器的效果。解碼器計(jì)算過程的公式為
t=GRU1(yt-1,ht-1)
(13)
(14)
(15)
(16)
式中:上標(biāo)on和off分別表示聯(lián)機(jī)模式和脫機(jī)模式;yt-1和ht-1分別表示t-1時(shí)刻的標(biāo)簽和隱藏狀態(tài);t表示t時(shí)刻的近似輸出;Con和Coff分別表示聯(lián)機(jī)特征信息和脫機(jī)特征信息;Fon、Foff分別表示聯(lián)式、脫機(jī)模式下的注意力值矩陣;和分別表示在t解碼時(shí)刻經(jīng)過注意力機(jī)制篩選后的聯(lián)機(jī)特征信息和脫機(jī)特征信息;Q是一層卷積核為1×7的卷積層;和分別為覆蓋注意力機(jī)制和平滑注意力機(jī)制的實(shí)現(xiàn)函數(shù);fcross表示一種交叉合并操作,可將和合并。式(16)是一層GRU,根據(jù)和t計(jì)算得到t時(shí)刻的隱藏狀態(tài)ht。首先,在合并前要將轉(zhuǎn)換成形狀為[H×W,D]的序列形式;然后,利用卷積操作實(shí)現(xiàn)合并后的多模數(shù)據(jù)在數(shù)值上的充分融合。其中交叉合并是在Wang等[10]提出的多模融合方法的基礎(chǔ)上進(jìn)行改進(jìn)的,能夠保證多種模式的數(shù)據(jù)分布較均勻,其具體操作步驟如下。
m=max(lon,loff)min(lon,loff),「?
步驟3計(jì)算間隔距離為向上取整操作。
步驟5返回融合后的結(jié)果。
(17)
4.1.1 數(shù)據(jù)集
為了保證結(jié)果對(duì)比的公平性,實(shí)驗(yàn)采用CROHME[13]比賽提供的官方數(shù)據(jù)集。訓(xùn)練集為CROHME2014提供的訓(xùn)練集,模型的驗(yàn)證分別采用CROHME2014和CROHME2016提供的驗(yàn)證集。實(shí)驗(yàn)數(shù)據(jù)集如表1所示。每個(gè)公式的標(biāo)簽均是一個(gè)LaTeX格式的序列,因此,標(biāo)簽符號(hào)不僅包含了101種手寫字符,還包含了一些表示二維結(jié)構(gòu)關(guān)系的虛擬符號(hào), 如“^”“_”“{”等,共包含111種標(biāo)簽字符。這里111種標(biāo)簽字符已經(jīng)包含了用于標(biāo)志輸出序列結(jié)束的特殊符號(hào)。
表1 實(shí)驗(yàn)數(shù)據(jù)集
4.1.2 數(shù)據(jù)預(yù)處理
在輸入模型前數(shù)據(jù)集需要經(jīng)過數(shù)據(jù)預(yù)處理操作,其目的是要將手寫數(shù)學(xué)公式的原數(shù)據(jù)轉(zhuǎn)化為一維坐標(biāo)點(diǎn)序列和二維靜態(tài)圖像2種形式,進(jìn)而提高數(shù)據(jù)的表示能力。數(shù)據(jù)集中每個(gè)公式的原數(shù)據(jù)是一個(gè)坐標(biāo)點(diǎn)序列
[(x1,y1,s1),(x2,y2,s2),…,(xn,yn,sn)]
式中xi、yi和si(1≤i≤n)分別表示第i個(gè)坐標(biāo)點(diǎn)的橫坐標(biāo)值、縱坐標(biāo)值和該坐標(biāo)點(diǎn)所屬筆畫的序號(hào),坐標(biāo)點(diǎn)的順序?qū)?yīng)手寫的筆跡順序。每個(gè)人的手寫風(fēng)格和錄入設(shè)備規(guī)格不同,導(dǎo)致同一公式的錄入數(shù)據(jù)有很大差別,增大了識(shí)別難度。為了解決該問題,對(duì)聯(lián)機(jī)模式和脫機(jī)模式分別設(shè)計(jì)了不同的預(yù)處理方式。
對(duì)于聯(lián)機(jī)模式,首先根據(jù)文獻(xiàn)[14]對(duì)原坐標(biāo)點(diǎn)序列去重和歸一化,然后為了增強(qiáng)每個(gè)坐標(biāo)點(diǎn)與其前后坐標(biāo)點(diǎn)的關(guān)聯(lián)性,基于文獻(xiàn)[7] 將每個(gè)坐標(biāo)點(diǎn)表示為一個(gè)10維的特征向量
對(duì)于脫機(jī)模式而言,首先將原坐標(biāo)點(diǎn)序列進(jìn)行二維映射,然后經(jīng)過雙線性插值、平滑處理和膨脹處理,最后經(jīng)過轉(zhuǎn)換得到二維靜態(tài)圖像。
模型的輸出是LaTeX序列,其包含了手寫實(shí)體符號(hào)和表示二維結(jié)構(gòu)關(guān)系的虛擬符號(hào),因此,采用公式識(shí)別準(zhǔn)確率RE和結(jié)構(gòu)識(shí)別準(zhǔn)確率RS作為模型的評(píng)估指標(biāo)。具體的計(jì)算方式為
(18)
(19)
式中:N表示公式總數(shù);NE表示完全識(shí)別正確的公式數(shù)量;NS表示所有虛擬符號(hào)識(shí)別正確的公式數(shù)量。RE和RS的值越大,表示模型的識(shí)別效果越好。
實(shí)驗(yàn)分為訓(xùn)練和測(cè)試兩部分,其中訓(xùn)練的任務(wù)根據(jù)輸入數(shù)據(jù)更新模型參數(shù),使預(yù)測(cè)LaTeX序列的概率最大。為了降低過擬合,目標(biāo)函數(shù)采用引入了標(biāo)簽平滑的交叉熵?fù)p失函數(shù),公式為
(20)
式中:ε為0.1,表示平滑因子;R為111,表示標(biāo)簽字符的種類;pti為t時(shí)刻第i個(gè)字符的預(yù)測(cè)概率;yt為t時(shí)刻的真實(shí)標(biāo)簽;Y表示LaTeX序列的長(zhǎng)度。實(shí)驗(yàn)采用AdaDelta[15]作為優(yōu)化算法,參數(shù)rho為0.95,eps為10-6,weight_decay為10-4。根據(jù)實(shí)驗(yàn)環(huán)境,將訓(xùn)練批次設(shè)置為32,學(xué)習(xí)率設(shè)置為10-3,最大迭代次數(shù)為500,并且采用早停法根據(jù)單字符錯(cuò)誤率[16]判斷訓(xùn)練過程是否提前結(jié)束。實(shí)驗(yàn)相關(guān)的可調(diào)整參數(shù)主要有點(diǎn)特征維度Ein、編碼維度E、特征維度D、注意力維度A和平滑注意力機(jī)制的最大平滑范圍T。其中:Ein根據(jù)數(shù)據(jù)預(yù)處理設(shè)定為10;D和A的取值參考了文獻(xiàn)[6] 的參數(shù)設(shè)定,最終將D設(shè)置為250,A設(shè)置為500。本研究對(duì)新參數(shù)E和T進(jìn)行了參數(shù)分析實(shí)驗(yàn),并最終將E設(shè)置為200,T設(shè)置為4。參數(shù)分析實(shí)驗(yàn)分別將E設(shè)置為50、100、150、200、250、300和350,T設(shè)置為2、3、4、5和6,并觀察實(shí)驗(yàn)結(jié)果。圖5(a)為E和T的取值與公式識(shí)別準(zhǔn)確率之間的關(guān)系。從圖中可以得出,公式識(shí)別準(zhǔn)確率受E和T的影響較大且會(huì)隨著E的增大而增大。當(dāng)E取值為200及以上時(shí),公式識(shí)別準(zhǔn)確率的增長(zhǎng)開始趨于平緩。相較于取其他數(shù)值時(shí),T取4可使識(shí)別的準(zhǔn)確率達(dá)到較高水平。圖5(b)展示了E和T與單個(gè)公式識(shí)別耗時(shí)之間的關(guān)系。從圖中可以看出,當(dāng)E取值為250及以上時(shí),識(shí)別耗時(shí)明顯增長(zhǎng)且整體受T的影響較小。為了使公式識(shí)別準(zhǔn)確率盡可能高的同時(shí)保證識(shí)別性能,綜合考慮將E設(shè)置為200,將T設(shè)置為4。
圖5 參數(shù)E、T和B對(duì)識(shí)別的準(zhǔn)確率和識(shí)別耗時(shí)的影響
在測(cè)試階段,為了使預(yù)測(cè)LaTeX序列的概率最大,引入了束搜索策略,束寬為B。B的取值對(duì)公式識(shí)別準(zhǔn)確率和識(shí)別耗時(shí)的影響都比較大,因此,這里同樣對(duì)B的取值進(jìn)行了參數(shù)分析實(shí)驗(yàn)。圖5(c)展示了B與公式識(shí)別準(zhǔn)確率之間的關(guān)系,公式識(shí)別準(zhǔn)確率會(huì)隨著B的增大而增大,當(dāng)B取值為4及以上時(shí),公式識(shí)別準(zhǔn)確率的增長(zhǎng)開始趨于平緩。圖5(d)展示了B與識(shí)別耗時(shí)之間的關(guān)系。從圖中可以得出,識(shí)別耗時(shí)會(huì)隨著B的增大而快速增長(zhǎng),當(dāng)B取值為5及以上時(shí),識(shí)別耗時(shí)的增長(zhǎng)更加明顯。同樣,為了在公式識(shí)別準(zhǔn)確率較高的前提下,盡可能降低單個(gè)公式識(shí)別耗時(shí),綜合考慮將B設(shè)置為5。
為了驗(yàn)證本文提出的正弦編碼、平滑注意力機(jī)制及融合了這2種方法的DOOM的優(yōu)越性,本文分別對(duì)正弦編碼、平滑注意力機(jī)制及DOOM的效果進(jìn)行實(shí)驗(yàn)。
4.4.1 正弦編碼效果實(shí)驗(yàn)
本文提出正弦編碼的目的是通過豐富筆畫級(jí)別的表示信息,盡可能避免筆畫信息丟失,尤其是在有不同筆畫粘連和筆畫數(shù)量較多且長(zhǎng)度相差較大的情況下。本文對(duì)文獻(xiàn)[7] 中的TAP模型進(jìn)行復(fù)現(xiàn)并作為對(duì)比模型,在TAP的基礎(chǔ)上應(yīng)用正弦編碼得到模型TAP+SINS。加入正弦編碼后在CROHME2014和CROHME2016驗(yàn)證集上,公式識(shí)別準(zhǔn)確率分別提升3.89%和3.31%,結(jié)構(gòu)識(shí)別準(zhǔn)確率分別提升2.49%和3.12%,如表2所示。實(shí)驗(yàn)結(jié)果表明加入正弦編碼序列能夠有效豐富每個(gè)筆畫的特征信息,進(jìn)而提高不同筆畫之間的區(qū)分度,增強(qiáng)輸入數(shù)據(jù)的表示能力,在一定程度上提高了聯(lián)機(jī)模式下的公式識(shí)別準(zhǔn)確率和結(jié)構(gòu)識(shí)別準(zhǔn)確率。
表2 實(shí)驗(yàn)結(jié)果對(duì)比
本文通過2個(gè)實(shí)例對(duì)應(yīng)用正弦編碼前后的識(shí)別結(jié)果進(jìn)行了分析,表3分別展示了原手寫公式圖像、應(yīng)用正弦編碼前的識(shí)別結(jié)果(識(shí)別結(jié)果1)和應(yīng)用正弦編碼后的識(shí)別結(jié)果(識(shí)別結(jié)果2)。
表3 應(yīng)用正弦編碼前后識(shí)別結(jié)果對(duì)比
實(shí)例1展示了有筆畫粘連時(shí)的識(shí)別結(jié)果,粘連部分已在原手寫公式圖像中通過紅色矩形框圈出,可以看到字符“d”和“2”粘連在了一起。在應(yīng)用正弦編碼前,模型將其認(rèn)為是同一個(gè)筆畫,從而將其誤識(shí)別為“d”。在應(yīng)用正弦編碼后,模型能夠?qū)⒄尺B后的字符“d”和“2”分開識(shí)別,表明正弦編碼能夠補(bǔ)充筆畫的間隔信息,在一定程度上解決了筆畫粘連問題。
實(shí)例2展示了當(dāng)公式包含較多筆畫且筆畫長(zhǎng)度相差較大時(shí)的識(shí)別結(jié)果,從手寫公式圖像中可以看到,其不僅包含了較長(zhǎng)的筆畫,如求和符號(hào)“∑”,還包含了較短的筆畫,如在原手寫圖像中通過紅色矩形框圈出的字符“i”的“.”,由于該筆畫包含了非常少的坐標(biāo)點(diǎn),在識(shí)別過程中極有可能發(fā)生信息丟失的問題。在應(yīng)用正弦編碼前,丟失字符“i”中“.”的信息導(dǎo)致將其誤識(shí)別為“1”,如識(shí)別結(jié)果1所示。在應(yīng)用正弦編碼后,能夠有效保留了“i”中“.”的特征信息,并將其正確識(shí)別為“i”,表明應(yīng)用正弦編碼能夠補(bǔ)充各個(gè)筆畫的特征信息,進(jìn)而在一定程度上避免了較短筆畫的特征信息發(fā)生丟失。
4.4.2 平滑注意力機(jī)制效果實(shí)驗(yàn)
本文提出平滑注意力機(jī)制的目的是更加精確地篩選尺寸相差較大的符號(hào)的特征信息。本文基于平滑注意力機(jī)制得到模型WAP+ATTS。相比于復(fù)現(xiàn)后的WAP模型,WAP+ATTS模型在CROHME2014和CROHME2016驗(yàn)證集上,可將公式識(shí)別準(zhǔn)確率分別提升2.29%和0.32%,將結(jié)構(gòu)識(shí)別準(zhǔn)確率分別提升1.05%和0.56%,如表2所示。以上實(shí)驗(yàn)結(jié)果表明,平滑注意力機(jī)制能夠在一定程度上提升脫機(jī)模式下的公式識(shí)別準(zhǔn)確率和結(jié)構(gòu)識(shí)別準(zhǔn)確率。
為了能更直觀地感受應(yīng)用平滑注意力機(jī)制后模型對(duì)有效特征信息捕捉能力的提升,分別對(duì)覆蓋注意力機(jī)制和平滑注意力機(jī)制的結(jié)果進(jìn)行了可視化,效果對(duì)比如圖6所示。圖6以公式“g(b)-g(a)=b-a”為例,將右側(cè)字符對(duì)應(yīng)的有效手寫區(qū)域以紅色表示。從圖中可以看出,相比于覆蓋注意力機(jī)制,平滑注意力機(jī)制捕捉到的與右側(cè)符號(hào)有關(guān)的手寫區(qū)域更加精確。例如,在捕捉符號(hào)“b”的手寫區(qū)域時(shí),覆蓋注意力機(jī)制卻捕捉到了屬于左右括號(hào)的一些手寫區(qū)域,而平滑注意力機(jī)制可以精確捕捉只屬于“b”的手寫區(qū)域,表明平滑注意力機(jī)制可以對(duì)特征信息中的特征元素實(shí)現(xiàn)更細(xì)粒度的計(jì)算和篩選。除此之外,對(duì)于尺寸相差較大的符號(hào),如“-”和“g”,覆蓋注意力機(jī)制在對(duì)“-”捕捉特征信息時(shí),會(huì)捕捉到其他的無用信息,而對(duì)于“g”的信息捕捉時(shí),卻并不能捕捉到其全部的特征信息。相比之下,平滑注意力機(jī)制對(duì)“-”和“g”的特征信息捕捉效果較好,表明平滑注意力機(jī)制可以有效提升對(duì)不同大小的手寫符號(hào)特征信息的篩選效果。
圖6 覆蓋注意力機(jī)制與平滑注意力機(jī)制效果對(duì)比
4.4.3 DOOM識(shí)別效果實(shí)驗(yàn)
首先,通過識(shí)別準(zhǔn)確率指標(biāo)衡量DOOM的效果。相比于TAP+SINS模型,DOOM在CROHME2014和CROHME2016驗(yàn)證集上可將公式識(shí)別準(zhǔn)確率分別提升6.40%和4.91%,將結(jié)構(gòu)識(shí)別準(zhǔn)確率分別提升3.33%和4.88%,相比于WAP+ATTS模型,DOOM在CROHME2014和CROHME2016驗(yàn)證集上可將公式識(shí)別準(zhǔn)確率分別提升8.09%和5.89%,將結(jié)構(gòu)識(shí)別準(zhǔn)確率分別提升2.93%和4.39%,如表2所示。實(shí)驗(yàn)結(jié)果表明,相比于單模識(shí)別模型,DOOM能夠在一定程度上提高手寫符號(hào)和結(jié)構(gòu)關(guān)系分類的準(zhǔn)確率。
然后,將DOOM與相關(guān)領(lǐng)域內(nèi)的其他模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。UPV[13]和Wiris[17]分別在CROHME2014比賽和CROHME2016比賽中取得了最高的識(shí)別準(zhǔn)確率(在使用CROHME提供的官方數(shù)據(jù)集作為訓(xùn)練集的模型范圍內(nèi))。WYGIWYS[18]和PAL[19]同樣也在CROHME2014提供的數(shù)據(jù)集上取得了較高的識(shí)別準(zhǔn)確率。E-MAN[10]和MMSCAN-E[11]分別是2019年和2021年在該領(lǐng)域提出的多模識(shí)別模型。相比于E-MAN模型,DOOM可在CROHME2014和CROHME2016驗(yàn)證集上將公式識(shí)別準(zhǔn)確率分別提升4.71%和4.47%,將結(jié)構(gòu)識(shí)別準(zhǔn)確率分別提升0.95%和3.73%;相比于MMSCAN-E模型,DOOM可在CROHME2014和CROHME2016驗(yàn)證集將公式識(shí)別準(zhǔn)確率分別提升1.56%和1.06%。以上實(shí)驗(yàn)結(jié)果表明,本文提出的DOOM能夠更有效地實(shí)現(xiàn)多種模式數(shù)據(jù)的融合,豐富了特征信息,進(jìn)而在一定程度上提升了公式識(shí)別準(zhǔn)確率和結(jié)構(gòu)識(shí)別準(zhǔn)確率。
表4 與相關(guān)領(lǐng)域內(nèi)其他模型對(duì)比結(jié)果
本文提出雙模模型的目的是通過豐富特征信息,進(jìn)而提升每個(gè)字符的區(qū)分度。因此,本文選擇了一些相似字符,對(duì)不同模式下的特征向量進(jìn)行降維,進(jìn)而對(duì)相似字符可視化。圖7(a)(b)(c)分別為基于脫機(jī)模式、聯(lián)機(jī)模式和雙模模式特征向量的相似字符的可視化效果。從圖7(a)中可以看出,脫機(jī)模式下的相似字符在二維空間中分界并不明顯,尤其對(duì)于字符“b”和“6”。從圖7(b)中可以看出,相比于脫機(jī)模式,根據(jù)聯(lián)機(jī)模式特征信息可以更好地區(qū)分相似字符,尤其是對(duì)于手寫筆跡順序不同的字符,如“a”和“α”。然而,對(duì)于外形和筆跡均相同的字符,如“q”和“9”,分類界限仍然很模糊。圖7(c)展示了基于雙模模式特征信息的分類效果,這類特征信息不僅包含了手寫字符的二維結(jié)構(gòu)特征信息,而且保留了手寫筆跡的順序特征信息。從圖中可以看出,相比于單一的聯(lián)機(jī)模式或脫機(jī)模式,基于雙模模式特征信息對(duì)相似字符的區(qū)分度明顯提高,不僅可以對(duì)像“a”和“α”這種外形相似但筆跡順序不同的字符進(jìn)行分類,而且在一定程度上提升了對(duì)外形和筆跡順序都相同的字符的分類效果。
圖7 基于不同模式特征向量的相似字符分類效果對(duì)比
1) 為了解決單模識(shí)別模型只接受一種形式的數(shù)據(jù)導(dǎo)致輸入數(shù)據(jù)特征的豐富度較低以及數(shù)據(jù)信息在識(shí)別過程中衰減、手寫符號(hào)大小差異影響識(shí)別效果等問題,本文設(shè)計(jì)了雙模識(shí)別模型,并提出了正弦編碼和平滑注意力機(jī)制,分別針對(duì)聯(lián)機(jī)模式部分和脫機(jī)模式部分進(jìn)行增強(qiáng)。
2) 實(shí)驗(yàn)結(jié)果表明,正弦編碼通過對(duì)輸入坐標(biāo)點(diǎn)序列進(jìn)行編碼,可有效補(bǔ)充筆畫級(jí)別的表示信息,在一定程度上避免了該類信息在識(shí)別過程中丟失。平滑注意力機(jī)制在一定程度上克服了手寫符號(hào)大小差異帶來的影響,能夠在特征信息中有效篩選到與解碼字符相關(guān)的部分特征信息,從而提升了識(shí)別效果。相比于單模識(shí)別模型,雙模識(shí)別模型能夠更加有效地豐富手寫字符的特征信息,提高手寫字符的區(qū)分度。