高良才,李一博,都林,張新鵬,朱子儀,盧寧,金連文,黃永帥,湯幟*
1. 北京大學(xué)王選計(jì)算機(jī)研究所,北京 100871; 2. 華為技術(shù)有限公司 AI 應(yīng)用研究中心,北京 100085;3. 華南理工大學(xué)電子與信息學(xué)院,廣州 510640
在大數(shù)據(jù)時(shí)代,高效地存取數(shù)據(jù),以及從海量數(shù)據(jù)中提取有效信息是各行各業(yè)都亟需利用的重要技術(shù)。表格作為數(shù)據(jù)的一種重要載體,具有信息精煉集中、方便體現(xiàn)數(shù)據(jù)關(guān)系等特點(diǎn),已經(jīng)在各個(gè)行業(yè)得到了廣泛應(yīng)用。在教育領(lǐng)域中,表格常常會(huì)出現(xiàn)在各類試卷、題目中;在金融領(lǐng)域,表格用來(lái)展示和分析數(shù)據(jù);在科學(xué)領(lǐng)域,表格用來(lái)記錄各類實(shí)驗(yàn)配置以及結(jié)果;在現(xiàn)實(shí)生活中也常常在幻燈片、車(chē)站時(shí)刻牌上看到表格。因此對(duì)表格進(jìn)行區(qū)域檢測(cè)、結(jié)構(gòu)識(shí)別乃至對(duì)其中信息進(jìn)行識(shí)別理解都有著廣闊的應(yīng)用前景。
表格在生成或存儲(chǔ)過(guò)程中往往以圖片或PDF(portable document format)文件的形式存在,會(huì)丟失易于計(jì)算機(jī)理解的原有結(jié)構(gòu)信息。若是采用人工手段對(duì)表格進(jìn)行重新處理錄入,會(huì)面臨效率低下、數(shù)據(jù)量大導(dǎo)致出錯(cuò)等問(wèn)題。因此,如何讓計(jì)算機(jī)從文檔或圖像中自動(dòng)識(shí)別表格、提取信息,成為文檔識(shí)別領(lǐng)域一個(gè)重要的研究問(wèn)題。
早期對(duì)于表格的識(shí)別大多是針對(duì)較為簡(jiǎn)單或模板化的表格。從表格的布局結(jié)構(gòu)出發(fā),抽取表格線條或抽取文本塊,然后使用規(guī)則方法進(jìn)行分析,但這些方法往往泛化能力較差,且難以處理復(fù)雜表格。隨著深度學(xué)習(xí)的發(fā)展,無(wú)論是機(jī)器視覺(jué)方面還是自然語(yǔ)言處理方面都獲得了巨大的進(jìn)展,各種表格識(shí)別的方案相繼提出,并有研究者開(kāi)始嘗試對(duì)自然場(chǎng)景下的表格進(jìn)行處理。
本文將圍繞表格的區(qū)域檢測(cè)、表格結(jié)構(gòu)識(shí)別和表格內(nèi)容識(shí)別3個(gè)表格識(shí)別子任務(wù),從傳統(tǒng)方法、深度學(xué)習(xí)方法等方面,綜述該領(lǐng)域國(guó)內(nèi)國(guó)外的發(fā)展歷史和最新進(jìn)展,同時(shí)對(duì)國(guó)內(nèi)國(guó)外的研究進(jìn)行對(duì)比,對(duì)未來(lái)的趨勢(shì)和技術(shù)發(fā)展目標(biāo)進(jìn)行展望。
針對(duì)表格識(shí)別的不同子任務(wù)、表格格式、數(shù)據(jù)量和文檔類型等,本文對(duì)該領(lǐng)域的相關(guān)數(shù)據(jù)集總結(jié)如表1所示。
表格區(qū)域檢測(cè)目前通常采用給定IoU (intersection over union)的F1進(jìn)行評(píng)測(cè),IoU表示的是預(yù)測(cè)框和真實(shí)框的交并比。對(duì)于圖像中的表格,會(huì)選擇IoU值超過(guò)閾值且具有最大IoU值的預(yù)測(cè)框作為正確預(yù)測(cè)。據(jù)此可以計(jì)算出正確預(yù)測(cè)、錯(cuò)誤預(yù)測(cè)和未被召回的表格的數(shù)量,從而計(jì)算召回率和準(zhǔn)確率,得到F1值。
表格結(jié)構(gòu)識(shí)別的評(píng)測(cè)標(biāo)準(zhǔn)從早期到現(xiàn)在出現(xiàn)了多種形式,分別有單元格對(duì)的F1值、行列的預(yù)測(cè)準(zhǔn)確性、序列化標(biāo)注出現(xiàn)之后的BLEU(bilingual evaulation understudy)和TEDS (tree edition distance similiarity)等。單元格對(duì)的F1值的評(píng)測(cè)標(biāo)準(zhǔn)首先在ICDAR2013(International Conference on Document Analysis and Recognition)比賽中提出,這種方法將在結(jié)構(gòu)上處于同一行或同一列的單元格組成一個(gè)單元格對(duì),從而將表格分解成多個(gè)單元格對(duì),之后計(jì)算這些單元格對(duì)的準(zhǔn)確率、召回率和F1值。ICDAR2019比賽采取了相類似的方法,但是使用了IoU來(lái)確認(rèn)單元格是否被檢測(cè)到,將超過(guò)閾值的單元格組成單元格對(duì)計(jì)算F1值。行列預(yù)測(cè)準(zhǔn)確性的評(píng)測(cè)標(biāo)準(zhǔn)由Shahab等人(2010)提出, 其將檢測(cè)的結(jié)果分為正確檢測(cè)、部分檢測(cè)、過(guò)分割、分割不完全、丟失以及錯(cuò)誤檢測(cè)等6類來(lái)評(píng)估檢測(cè)的效果。Li等人(2019)在使用序列標(biāo)注表格結(jié)構(gòu)的同時(shí)借鑒了自然語(yǔ)言處理中的BLEU來(lái)評(píng)測(cè)表格結(jié)構(gòu)識(shí)別的效果。Zhong等人(2020)認(rèn)為基于單元格對(duì)的評(píng)測(cè)標(biāo)準(zhǔn)無(wú)法評(píng)估由于空白單元格和非直接鄰接的單元格未對(duì)齊對(duì)表格識(shí)別結(jié)果的影響,同時(shí)單元格對(duì)的評(píng)測(cè)標(biāo)準(zhǔn)是精準(zhǔn)匹配,因此無(wú)法衡量每個(gè)單元格的識(shí)別效果。據(jù)此,其提出了TEDS(樹(shù)編輯距離相似度),將表格的HTML代碼看成一棵樹(shù),HTML代碼的每個(gè)標(biāo)簽即為樹(shù)中的節(jié)點(diǎn),計(jì)算樹(shù)之間的編輯距離和樹(shù)長(zhǎng)度的比值作為錯(cuò)誤的比例。即
(1)
式中,Ta代表預(yù)測(cè)的HTML代碼,Tb代表真實(shí)的HTML代碼,Edit(Ta,Tb)代表兩種代碼序列的標(biāo)記距離,|T*|代表的是代碼的長(zhǎng)度。
Smock 等人(2021)提出了GriTS(grid table similarity),GriTS將表格的拓?fù)浣Y(jié)構(gòu)表示為2維網(wǎng)格或矩陣,并分為單元格內(nèi)容相似度、單元格位置相似度和單元格拓?fù)浣Y(jié)構(gòu)相似度3類來(lái)計(jì)算。對(duì)于單元格內(nèi)容相似度,使用最長(zhǎng)子串來(lái)計(jì)算;對(duì)于單元格位置相似度,使用IoU來(lái)計(jì)算;對(duì)于單元格的拓?fù)浣Y(jié)構(gòu)相似度,則使用跨行跨列來(lái)計(jì)算開(kāi)始行開(kāi)始列,并使用類似IoU的方式來(lái)計(jì)算。
表格區(qū)域檢測(cè)指的是從頁(yè)面中框出對(duì)應(yīng)的表格區(qū)域位置。在早期的研究中,檢測(cè)目標(biāo)多集中于掃描文檔圖片和PDF文檔。隨著圖像采集技術(shù)水平的提升,以及表格應(yīng)用領(lǐng)域的擴(kuò)展,還出現(xiàn)了自然場(chǎng)景表格的檢測(cè)任務(wù)。
1.2.1 傳統(tǒng)的表格區(qū)域檢測(cè)方法
國(guó)外的表格區(qū)域檢測(cè)研究起步較早,這些早期方法大多數(shù)基于啟發(fā)式規(guī)則或者簡(jiǎn)單的機(jī)器學(xué)習(xí)算法,依賴于圖像預(yù)處理和文檔分析獲得的線條、文本塊等視覺(jué)信息,或者依賴于PDF編碼中自帶的一些文字信息。
Watanabe等人(1993a)、Hirayama(1995)通過(guò)對(duì)掃描文檔進(jìn)行圖像處理,獲取文檔中的文本塊以及水平線和垂直線來(lái)定位表格。Ramel等人(2003)只嘗試尋找表格區(qū)域頂部的第1條水平線,該表格的其他區(qū)域則通過(guò)匹配9種框線相交情況中的4種“T”字形模板來(lái)尋找;Watanabe等人(1993b)使用水平垂直線等特征的同時(shí),在具體的檢測(cè)策略上更注重用單元格的左上角作為基準(zhǔn)點(diǎn)來(lái)確定表格位置(Watanabe和Luo,1996);Wang等人(2001)提出在初步定位表格時(shí)不用表格本身的特征,而是利用表格上下在水平方向上貫穿文檔的空白區(qū)域得到待定表格區(qū)域,再計(jì)算該區(qū)域內(nèi)的空白比例、單元格坐標(biāo)差異等信息進(jìn)行二次確認(rèn);Kieninger和Dengel(2001)認(rèn)為空白、框線等都不是表格必須具備的特征,而表格中的文本區(qū)域具有和其他普通文本區(qū)域不一樣的特性——不同列上的文本區(qū)域在x軸上投影基本不相交,并以此檢測(cè)表格區(qū)域。
國(guó)內(nèi)的表格區(qū)域檢測(cè)研究起步較晚,啟發(fā)式方法較少。其中,具有代表性的是Fang等人(2011)提出的基于表格結(jié)構(gòu)特征和視覺(jué)分隔符的方法。該方法以PDF文檔為輸入,分4步進(jìn)行表格檢測(cè):PDF解析、頁(yè)面布局分析、線條檢測(cè)和頁(yè)面分隔符檢測(cè)以及表格檢測(cè)。在最后的表格檢測(cè)部分中,通過(guò)對(duì)上一步檢測(cè)出的線條和頁(yè)面分隔符進(jìn)行分析得到表格位置。
1.2.2 基于深度學(xué)習(xí)的表格區(qū)域檢測(cè)方法
隨著計(jì)算機(jī)硬件水平的提高,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)的語(yǔ)義分割和目標(biāo)檢測(cè)等任務(wù)上取得了優(yōu)異表現(xiàn)。作為語(yǔ)義分割或目標(biāo)檢測(cè)領(lǐng)域的一個(gè)具體應(yīng)用,國(guó)際上提出了諸多方法來(lái)解決表格區(qū)域檢測(cè)問(wèn)題。一些具有代表性的方法在ICDAR2013和ICDAR2017競(jìng)賽上的結(jié)果如表2和表3所示。
表2 ICDAR2013表格檢測(cè)結(jié)果比較Table 2 Comparison results of table detection on ICDAR2013
表3 ICDAR2017表格檢測(cè)結(jié)果比較Table 3 Comparison results of table detection on ICDAR2017
Schreiber等人(2017)采用了Faster R-CNN(region convolutional neural network)(Ren等,2015)作為表格檢測(cè)的模型網(wǎng)絡(luò),來(lái)獲取每個(gè)表格的區(qū)域。Gilani等人(2017)在采用相同的目標(biāo)檢測(cè)網(wǎng)絡(luò)的同時(shí),還使用了3種距離變換來(lái)增強(qiáng)頁(yè)面圖像特征。He等人(2017a)將表格檢測(cè)作為文檔分割的子任務(wù),使用FCN(fully convolutional networks)(Long等,2015)作為基礎(chǔ)模型,考慮了多尺度特征,同時(shí)進(jìn)行表格、段落以及圖像的邊緣檢測(cè)和分類,最后通過(guò)連通體分析、條件隨機(jī)場(chǎng)等獲得表格區(qū)域。Kavasidis等人(2019)同樣使用了一個(gè)典型的語(yǔ)義分割架構(gòu),使用VGG(Visual Geometry Group)(Simonyan和Zisserman,2014)作為骨干網(wǎng)絡(luò),同時(shí)使用了空洞卷積(Yu和Koltun,2015)來(lái)擴(kuò)大感受野, 之后再通過(guò)上采樣和反卷積將特征放縮為原圖尺寸,以獲得每個(gè)像素的分類。使用條件隨機(jī)場(chǎng)來(lái)平滑表格邊緣,得到更加準(zhǔn)確的候選區(qū)域,并對(duì)每個(gè)區(qū)域使用Inception(Szegedy等,2015)網(wǎng)絡(luò)來(lái)進(jìn)行最終的表格分類。Siddiqui等人(2018)提出的DeCNT(deep deformable CNN for table detection)網(wǎng)絡(luò)將形變卷積(Dai等,2017)應(yīng)用在目標(biāo)檢測(cè)網(wǎng)絡(luò)中,使用了ResNet-101(He等,2016)作為特征提取網(wǎng)絡(luò),使用了特征金字塔(Lin等,2017)來(lái)抽取更全面的特征。Saha等人(2019)將表格檢測(cè)作為文檔檢測(cè)中圖形類目標(biāo)檢測(cè)的子任務(wù),嘗試了Faster R-CNN和Mask R-CNN(He等,2017b)網(wǎng)絡(luò), 并證明了預(yù)訓(xùn)練模型在表格檢測(cè)中的效果。Riba等人(2019)將圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)(Scarselli等,2009)應(yīng)用到了表格檢測(cè)中, 他們先檢測(cè)出文檔的文本區(qū)域和圖像區(qū)域,以這些區(qū)域?yàn)轫旤c(diǎn)構(gòu)建一個(gè)圖,然后送入圖網(wǎng)絡(luò)進(jìn)行特征交互,對(duì)點(diǎn)和邊進(jìn)行分類,判斷每個(gè)區(qū)域是否屬于表格,以及相鄰的兩個(gè)區(qū)域是否需要合并,從而獲得最終的表格區(qū)域。Melinda和Bhagvati(2019)將表格分為封閉表格和開(kāi)放表格。其中封閉表包含表格線條,可以直接得到表格區(qū)域。對(duì)于開(kāi)放表則通過(guò)使用混合高斯模型和EM(expectation maximization)算法對(duì)所有文本塊進(jìn)行分類,判斷其是否屬于表格區(qū)域,然后將屬于表格區(qū)域的單元格進(jìn)行合并得到表格的區(qū)域。Zheng等人(2020)將單元格檢測(cè)和表格檢測(cè)放在同一個(gè)檢測(cè)網(wǎng)絡(luò)中,使用單元格的位置來(lái)調(diào)整表格檢測(cè)的結(jié)果。此外,還有一些同時(shí)對(duì)表格進(jìn)行檢測(cè)和結(jié)構(gòu)識(shí)別的研究,將在表格結(jié)構(gòu)識(shí)別算法中進(jìn)行介紹。
近年來(lái),國(guó)內(nèi)也涌現(xiàn)出了許多基于深度學(xué)習(xí)的表格區(qū)域檢測(cè)算法。Huang等人(2019a)對(duì)Yolov3(you only look once)網(wǎng)絡(luò)的錨進(jìn)行了適應(yīng)性調(diào)整,同時(shí)在后處理時(shí)去除了檢測(cè)框的空白區(qū)域,過(guò)濾掉了噪聲對(duì)象,使得檢測(cè)的表格更加準(zhǔn)確。Sun等人(2019)提出,基于錨的表格檢測(cè)方法比較依賴于錨的設(shè)置,而錨的設(shè)置很難包含所有情況,因此借鑒CornerNet(Law和Deng,2018)的思想,在檢測(cè)表格的同時(shí)回歸表格的4個(gè)角的點(diǎn)的位置,最后再用4個(gè)點(diǎn)來(lái)矯正表格檢測(cè)的結(jié)果,提高了檢測(cè)的精度。Li等人(2019)則關(guān)注了少線表和無(wú)線表,使用對(duì)抗生成網(wǎng)絡(luò)來(lái)使生成器重點(diǎn)抽取到表格的布局特征,并將此特征和檢測(cè)網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)抽取的特征進(jìn)行融合,在無(wú)線表檢測(cè)上取得了更好的效果。Zhang等人(2021)提出了VSR(vision, semantics and relations)網(wǎng)絡(luò),融合了文檔的視覺(jué)和語(yǔ)義信息。文檔以圖像(視覺(jué))和文本嵌入映射(字符級(jí)和句子級(jí)語(yǔ)義)的形式輸入VSR。然后,通過(guò)一個(gè)雙流網(wǎng)絡(luò)提取對(duì)應(yīng)模態(tài)的視覺(jué)和語(yǔ)義特征,這些特征隨后被有效地組合到一個(gè)多尺度自適應(yīng)聚合模塊中。最后,結(jié)合基于GNN的關(guān)系模塊,對(duì)候選組件之間的關(guān)系進(jìn)行建模,并生成最終結(jié)果。
表格結(jié)構(gòu)識(shí)別是表格區(qū)域檢測(cè)之后的任務(wù),其目標(biāo)是識(shí)別出表格的布局結(jié)構(gòu)、層次結(jié)構(gòu)等,將表格視覺(jué)信息轉(zhuǎn)換成可重建表格的結(jié)構(gòu)描述信息。這些表格結(jié)構(gòu)描述信息包括:?jiǎn)卧竦木唧w位置、單元格之間的關(guān)系和單元格的行列位置等。在當(dāng)前的研究中,表格結(jié)構(gòu)信息主要包括以下兩類描述形式:1)單元格的列表(包含每個(gè)單元格的位置、單元格的行列信息和單元格的內(nèi)容);2)HTML代碼或Latex代碼(包含單元格的位置信息,有些也會(huì)包含單元格的內(nèi)容)。
1.3.1 傳統(tǒng)的表格結(jié)構(gòu)識(shí)別方法
與表格區(qū)域檢測(cè)任務(wù)類似,在早期的表格結(jié)構(gòu)識(shí)別方法中,研究者們通常會(huì)根據(jù)數(shù)據(jù)集特點(diǎn),設(shè)計(jì)啟發(fā)式算法或者使用機(jī)器學(xué)習(xí)方法來(lái)完成表格結(jié)構(gòu)識(shí)別任務(wù)。
Itonori(1993)根據(jù)表格中單元格的2維布局的規(guī)律性,使用連通體分析抽取其中的文本塊,然后對(duì)每個(gè)文本塊進(jìn)行擴(kuò)展對(duì)齊形成單元格,從而得到每個(gè)單元格的物理坐標(biāo)和行列位置。Rahgozar等人(1994)則根據(jù)行列來(lái)進(jìn)行表格結(jié)構(gòu)的識(shí)別,其先識(shí)別出圖片中的文本塊,然后按照文本塊的位置以及兩個(gè)單元格中間的空白區(qū)域做行的聚類和列的聚類,之后通過(guò)行和列的交叉得到每個(gè)單元格的位置和表格的結(jié)構(gòu)。Hirayama(1995)則從表格線出發(fā),通過(guò)平行、垂直等幾何分析得到表格的行和列,并使用動(dòng)態(tài)規(guī)劃匹配的方法對(duì)各個(gè)內(nèi)容塊進(jìn)行邏輯關(guān)系識(shí)別,來(lái)恢復(fù)表格的結(jié)構(gòu)。Zuyev(1997)使用視覺(jué)特征進(jìn)行表格的識(shí)別,使用行線和列線以及空白區(qū)域進(jìn)行單元格分割。該算法已經(jīng)應(yīng)用到FineReader OCR產(chǎn)品之中。Kieninger(1998)提出了T-Recs(table recognition system)系統(tǒng),以詞語(yǔ)區(qū)域的框作為輸入,并通過(guò)聚類和列分解等啟發(fā)式方法,輸出各個(gè)文本框?qū)?yīng)的信息,恢復(fù)表格的結(jié)構(gòu)。隨后,其又在此基礎(chǔ)上提出了T-Recs++系統(tǒng)(Kieninger和Dengel,2001),進(jìn)一步提升了識(shí)別效果。Amano等人(2001)創(chuàng)新性地引入了文本的語(yǔ)義信息,首先將文檔分解為一組框,并將它們半自動(dòng)地分為4種類型:空白、插入、指示和解釋。然后根據(jù)文檔結(jié)構(gòu)語(yǔ)法中定義的語(yǔ)義和幾何知識(shí),分析表示框與其關(guān)聯(lián)條目之間的框關(guān)系。Wang等人(2004)將表格結(jié)構(gòu)定義為一棵樹(shù),提出了一種基于優(yōu)化方法設(shè)計(jì)的表結(jié)構(gòu)理解算法。該算法通過(guò)對(duì)訓(xùn)練集中的幾何分布進(jìn)行學(xué)習(xí)來(lái)優(yōu)化參數(shù),得到表格的結(jié)構(gòu)。同樣使用樹(shù)結(jié)構(gòu)定義表格結(jié)構(gòu)的還有Ishitani等人(2005), 其使用了DOM (document object model)樹(shù)來(lái)表示表格,從表格的輸入圖像中提取單元格特征。然后對(duì)每個(gè)單元格進(jìn)行分類,識(shí)別出不規(guī)則的表格,并對(duì)其進(jìn)行修改以形成規(guī)則的單元格排布。Hassan和Baumgartner(2007)、Shigarov等人(2016)則以PDF文檔為表格識(shí)別的載體,從PDF文檔中反解出表格視覺(jué)信息。后者還提出了一種可配置的啟發(fā)式方法框架。
國(guó)內(nèi)的表格結(jié)構(gòu)識(shí)別研究起步較晚,因此傳統(tǒng)的啟發(fā)式方法和機(jī)器學(xué)習(xí)方法較少。在早期,Liu等人(1995)提出了表格框線模板方法,使用表格的框架線構(gòu)成框架模板,可以從拓?fù)渖匣驇缀紊戏从潮砀竦慕Y(jié)構(gòu)。然后提出相應(yīng)的項(xiàng)遍歷算法來(lái)定位和標(biāo)記表格中的項(xiàng)。之后Li等人(2012)使用OCR(optical character recognition)引擎抽取表單中的文本內(nèi)容和文本位置,使用關(guān)鍵詞來(lái)定位表頭,然后將表頭信息和表的投影信息結(jié)合起來(lái),得到列分隔符和行分隔符,從而得到表格結(jié)構(gòu)。
總體來(lái)說(shuō),表格結(jié)構(gòu)識(shí)別的傳統(tǒng)方法可以歸納為以下4種:基于行和列的分割與后處理,基于文本的檢測(cè)、擴(kuò)展與后處理,基于文本塊的分類和后處理,以及幾類方法的融合。
1.3.2 基于深度學(xué)習(xí)的表格結(jié)構(gòu)識(shí)別方法
在傳統(tǒng)的表格結(jié)構(gòu)識(shí)別算法基礎(chǔ)之上,基于深度學(xué)習(xí)的表格結(jié)構(gòu)識(shí)別算法可以分為:自底向上的方法、自頂向下的方法和圖像文本生成的方法。其中,自底向上的方法主要特點(diǎn)是先進(jìn)行表格單元格和文本塊的檢測(cè),再進(jìn)行單元格關(guān)系的分類;自頂向下的方法則先進(jìn)行表格行列的分割,之后對(duì)單元格進(jìn)行合并等操作;圖像文本生成方法是指基于表格圖像直接生成表格結(jié)構(gòu)所對(duì)應(yīng)的序列文本(HTML、Latex等)。
針對(duì)近年來(lái)的一些具有代表性的方法及代表性數(shù)據(jù)集(ICDAR2013, PubTabNet),其效果總結(jié)如表4和表5所示。由于此類方法所采用的評(píng)測(cè)標(biāo)準(zhǔn)各有不同,因此在備注一欄進(jìn)行具體闡述。
表4 ICDAR2013表格結(jié)構(gòu)識(shí)別結(jié)果比較Table 4 Comparison results of table structure recognition on ICDAR2013
表5 PubTabNet表格結(jié)構(gòu)識(shí)別結(jié)果比較Table 5 Comparison results of table structure recognition on PubTabNet
自底向上的基于單元格檢測(cè)和單元格關(guān)系分類的深度學(xué)習(xí)算法的基本框架如圖1所示(Qasim等,2019),圖中前半部分為單元格檢測(cè)階段,后半部分為單元格關(guān)系判斷階段。
圖1 自底向上的表格結(jié)構(gòu)識(shí)別深度學(xué)習(xí)算法框架(Qasim等,2019)Fig.1 The framework of bottom-up algorithm for table structure recognition(Qasim et al., 2019)
Prasad等人(2020)主要在前半部分的單元格檢測(cè)階段進(jìn)行研究,提出了CascadeTabNet,一種基于級(jí)聯(lián)掩膜區(qū)域的CNN高分辨率網(wǎng)絡(luò),同時(shí)檢測(cè)單元格和表格。在檢測(cè)表格位置的同時(shí),將表格分類為有線的表格和無(wú)線的表格。對(duì)于有線的表格直接使用常規(guī)的行列檢測(cè)算法,并使用行列交點(diǎn)來(lái)確定單元格;對(duì)于無(wú)線的表格則使用檢測(cè)到的單元格來(lái)預(yù)估缺失的線,進(jìn)而恢復(fù)表格結(jié)構(gòu)。Siddiqui等人(2019)提出的DeepTabStR網(wǎng)絡(luò)將可變型卷積應(yīng)用于目標(biāo)檢測(cè)網(wǎng)絡(luò)中,同時(shí)對(duì)行、列和單元格進(jìn)行檢測(cè),并根據(jù)單元格的位置特點(diǎn)恢復(fù)表格。還有一些研究是專注于后半部分的表格關(guān)系判斷階段,即給出單元格或文本區(qū)域,使用深度網(wǎng)絡(luò)模型來(lái)判斷單元格之間的關(guān)系。Clinchant等人(2018)在歷史文檔的表格識(shí)別中嘗試了條件隨機(jī)場(chǎng)和圖卷積網(wǎng)絡(luò)的作用。Qasim等人(2019)提出使用圖網(wǎng)絡(luò)來(lái)解決單元格之間的關(guān)系判斷問(wèn)題,首先使用OCR引擎獲取圖片中文本的位置和內(nèi)容,之后使用卷積神經(jīng)網(wǎng)絡(luò)獲取單元格的視覺(jué)特征,并以單元格位置作為位置特征,以文本的長(zhǎng)度作為文本特征,3種特征相融合為每個(gè)文本塊的特征。隨后將這些文本塊作為頂點(diǎn)構(gòu)建全連接的無(wú)向圖,并進(jìn)行圖卷積,卷積得到的特征送入DenseNet,然后判斷兩個(gè)文本塊是否處于同一行或同一列,以及是否需要合并,最后通過(guò)啟發(fā)式方法獲得表格結(jié)構(gòu)。另外,在訓(xùn)練中使用基于蒙特卡洛的采樣方法,解決正負(fù)樣本不均衡和單元格對(duì)內(nèi)存占用過(guò)大的問(wèn)題。
自頂向下的行列分割和單元格合并的基本流程如圖2所示(Tensmeyer等,2019)。其基本思路是先檢測(cè)單元格的行和列分隔符,將表格劃分為最基本的單元,然后再使用規(guī)則類方法或深度學(xué)習(xí)方法將這些基本單元進(jìn)行合并,以避開(kāi)難度較大的單元格檢測(cè)環(huán)節(jié)。最早期的行列分割方法忽略了單元格的跨行跨列問(wèn)題,直接進(jìn)行行和列的檢測(cè),而不進(jìn)行后續(xù)的行列合并等操作。
圖2 自頂向下的表格結(jié)構(gòu)識(shí)別深度學(xué)習(xí)方法流程(Tensmeyer等,2019)Fig.2 The framework of top-down algorithm for table structure recognition(Tensmeyer et al., 2019)
Siddiqui等人(2019)將表格識(shí)別定義為一個(gè)語(yǔ)義分割問(wèn)題,并使用了類似于編碼器—解碼器的架構(gòu), 編碼階段通過(guò)卷積和池化來(lái)獲取表格特征,解碼階段則通過(guò)反卷積和上采樣還原出和原圖相同大小的特征圖,并對(duì)每個(gè)像素進(jìn)行分類,再通過(guò)后處理獲得表格結(jié)構(gòu)識(shí)別結(jié)果。Schreiber等人(2017)在其提出的DeepDeSRT系統(tǒng)中,以FCN(Long等,2015)為基礎(chǔ)架構(gòu),進(jìn)行行和列的語(yǔ)義分割。此外,由于行與行之間的間隔相對(duì)較小,在進(jìn)行行檢測(cè)時(shí),此方法還會(huì)對(duì)圖片的高度進(jìn)行拉伸。Paliwal等人(2019)提出了TableNet, 同樣使用語(yǔ)義分割框架,將表格檢測(cè)和結(jié)構(gòu)識(shí)別放在一個(gè)框架下進(jìn)行處理,同時(shí)進(jìn)行表格檢測(cè)和行列檢測(cè)。此方法針對(duì)表格檢測(cè)和行列檢測(cè)的不同,分別提取骨干網(wǎng)絡(luò)中不同尺度的特征進(jìn)行融合。之后又制定啟發(fā)式規(guī)則對(duì)表格的行進(jìn)行分割,得到表格的結(jié)構(gòu)。Khan等人(2019)則認(rèn)為,卷積網(wǎng)絡(luò)受限于感受野無(wú)法獲取更廣的特征,同時(shí)忽略了行列(行—空白或線—行)的排布規(guī)律,會(huì)降低行列檢測(cè)的準(zhǔn)確率。因此使用了兩個(gè)雙向的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行像素級(jí)別的行列分隔符的識(shí)別。Tensmeyer等人(2019)對(duì)表格的行列分割和分割后的合并都進(jìn)行了詳細(xì)的討論,提出了一個(gè)合并網(wǎng)絡(luò),將表格分割為最細(xì)粒度的基本單元,然后進(jìn)行合并得到真正的表格結(jié)構(gòu)。
Raja等人(2020)把自頂向下和自底向上的處理流程進(jìn)行了融合,一方面使用檢測(cè)網(wǎng)絡(luò)來(lái)檢測(cè)單元格,另一方面對(duì)檢測(cè)出來(lái)的單元格進(jìn)行特征抽取,對(duì)文本塊對(duì)進(jìn)行同行和同列的判斷,從而獲得表格的完整結(jié)構(gòu)。
得益于Table2Latex(Deng等,2019)、TableBank(Li等,2019)等給定HTML或Latex代碼的表格數(shù)據(jù)集,圖片文本生成的方法逐漸興起。其基本架構(gòu)如圖3所示。
圖3 基于圖片文本生成的表格結(jié)構(gòu)識(shí)別方法框架Fig.3 The framework of image to text algorithm for table structure recognition
Deng等人(2019)使用了經(jīng)典的IM2LATEX模型(Deng等,2017), 此方法使用CNN抽取特征,并使用帶有注意力機(jī)制的長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory, LSTM)(Hochreiter和Schmidhuber,1997)來(lái)生成對(duì)應(yīng)的Latex代碼。Zhong等人(2020)提出的PubTabNet數(shù)據(jù)集不僅提供了表格結(jié)構(gòu)的HTML代碼,同時(shí)也提供了每個(gè)單元格的文本內(nèi)容。因此,他們提出了一種編碼器—雙解碼器的模型EDD,在編碼階段單獨(dú)使用了一個(gè)卷積神經(jīng)網(wǎng)絡(luò),而在解碼階段則使用兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),其中一個(gè)負(fù)責(zé)解碼出表格結(jié)構(gòu)標(biāo)簽,另一個(gè)負(fù)責(zé)解碼出具體的文本結(jié)果。值得注意的是,該網(wǎng)絡(luò)設(shè)置只有結(jié)構(gòu)解碼器解碼出“〈td〉”標(biāo)簽時(shí),文本解碼器才會(huì)被激活。在訓(xùn)練時(shí),需要先對(duì)結(jié)構(gòu)解碼器單獨(dú)進(jìn)行訓(xùn)練,之后再將兩個(gè)解碼器聯(lián)合訓(xùn)練。
隨著深度學(xué)習(xí)的發(fā)展,以及工業(yè)界對(duì)表格識(shí)別需求的日益增長(zhǎng),國(guó)內(nèi)的表格結(jié)構(gòu)識(shí)別研究迅速發(fā)展,并產(chǎn)生了一批有影響力的研究成果。
在自底向上的表格結(jié)構(gòu)識(shí)別研究中,Chi等人(2019)提出了GraphTSR模型,通過(guò)對(duì)PDF文檔的解析,得到單元格內(nèi)容以及相應(yīng)的邊界框。將每個(gè)單元格視做一個(gè)頂點(diǎn),構(gòu)建出全連接圖,并根據(jù)單元格大小、位置設(shè)計(jì)了相應(yīng)的特征。對(duì)于每個(gè)邊,通過(guò)點(diǎn)與點(diǎn)的距離計(jì)算權(quán)重,得到一個(gè)完整的圖。之后使用基于注意力機(jī)制的圖網(wǎng)絡(luò)來(lái)對(duì)每條邊進(jìn)行分類,判斷K鄰近的單元格對(duì)是否在同一行或同一列。Xue等人(2019)提出了Res2TIM系統(tǒng),在使用檢測(cè)網(wǎng)絡(luò)獲得各個(gè)文本區(qū)域后,將區(qū)域原圖特征和經(jīng)過(guò)卷積網(wǎng)絡(luò)的特征相融合,并構(gòu)建單元格對(duì)來(lái)判斷兩個(gè)單元格的上下左右關(guān)系,最終達(dá)到重建表格的目的。Qiao等人(2021)則將重心放在單元格檢測(cè)上,提出了LGPMA網(wǎng)絡(luò)。該網(wǎng)絡(luò)從局部和全局角度考慮了視覺(jué)特征,充分利用了局部和全局特征的信息,通過(guò)提出的掩碼重評(píng)分策略,獲得更可靠的對(duì)齊單元格區(qū)域,并使用軟標(biāo)簽的方式,巧妙解決了空白單元格對(duì)檢測(cè)模型的干擾。Li等人(2021a)使用多任務(wù)的語(yǔ)義分割網(wǎng)絡(luò)同時(shí)進(jìn)行前景單元格和背景的表格線分割。為了消除表格尺度不一致的影響,設(shè)計(jì)了一種基于每個(gè)文檔圖像中平均單元格大小和劃線密度的自適應(yīng)圖像縮放方法。Long等人(2021)在提出一個(gè)自然場(chǎng)景的表格識(shí)別數(shù)據(jù)集WTW的同時(shí),還提出了Cycle-CenterNet的表格結(jié)構(gòu)識(shí)別方法。他們認(rèn)為過(guò)去的文檔表格識(shí)別針對(duì)的都是非常規(guī)整的表格圖片,而在自然場(chǎng)景中由于表格存在扭曲,行和列之間沒(méi)有非常完備的對(duì)齊關(guān)系。他們以CenterNet(Duan等,2019)為基礎(chǔ),同時(shí)檢測(cè)單元格的中心以及4個(gè)單元格的交匯點(diǎn),這樣在單元格檢測(cè)完成之后就可以直接對(duì)表格結(jié)構(gòu)進(jìn)行恢復(fù)。
在自頂向下的行列分割方法中,Li等人(2021b)考慮到表格行和列的分類結(jié)果遵從“行—分隔符—行—分隔符—行”的規(guī)律,將行列檢測(cè)視為一個(gè)逐像素的序列標(biāo)注問(wèn)題。先用卷積神經(jīng)網(wǎng)絡(luò)獲取圖像特征并視做一個(gè)行或者列的序列,隨后使用序列標(biāo)注網(wǎng)絡(luò)對(duì)行和列的每個(gè)像素進(jìn)行分類,得到行和列的檢測(cè)效果,從而識(shí)別表格。
在圖片到文本序列的方法中,He等人(2021)提出的TableMaster模型以文字識(shí)別模型Master(Lu等,2021)為基礎(chǔ),先對(duì)表格HTML代碼進(jìn)行劃分,之后在解碼器部分增加了一個(gè)單元格檢測(cè)分支,使得單元格檢測(cè)和HTML代碼的生成一一對(duì)應(yīng),同步進(jìn)行。同時(shí)為了解決此模型單元格檢測(cè)效果相對(duì)較差的問(wèn)題,該方法又使用了PSENet(Wang等,2019b)對(duì)文本塊進(jìn)行檢測(cè),對(duì)TableMaster的單元格檢測(cè)進(jìn)行矯正。
在實(shí)際場(chǎng)景應(yīng)用中,表格結(jié)構(gòu)識(shí)別的流程比以上的研究領(lǐng)域復(fù)雜,需要同時(shí)進(jìn)行表格檢測(cè)和結(jié)構(gòu)識(shí)別,還需要對(duì)每個(gè)單元格的文本進(jìn)行識(shí)別和信息抽取。為了提高最終效果,會(huì)采用多模型的融合,其對(duì)表格識(shí)別的研究也有重要的借鑒意義。
好未來(lái)于2021年6月—9月舉辦了一個(gè)表格識(shí)別技術(shù)挑戰(zhàn)賽。本次比賽提供了2萬(wàn)幅包含表格的圖像。這些圖像來(lái)源于教育場(chǎng)景下學(xué)生的作業(yè)、試卷以及部分的掃描合同表。其中16 000幅圖像作為訓(xùn)練集,提供了詳細(xì)的HTML代碼、單元格框以及單元格內(nèi)容標(biāo)注;2 000幅含有內(nèi)容標(biāo)注的圖像作為驗(yàn)證集,完全沒(méi)有標(biāo)注的2 000幅作為測(cè)試集。比賽以TEDS作為評(píng)測(cè)指標(biāo)對(duì)各個(gè)隊(duì)伍的結(jié)果進(jìn)行打分。
總體而言,前3名的技術(shù)方案基本思路相同,都包含表格檢測(cè)、表格結(jié)構(gòu)識(shí)別、文本識(shí)別和HTML代碼恢復(fù)等階段,但在各個(gè)階段采用的模型存在差異。第1名的方法采用了Cascade R-CNN(Cai和Vasconcelos,2018)對(duì)表格進(jìn)行檢測(cè),并使用了后處理以提高表格檢測(cè)的準(zhǔn)確率;隨后其使用TableMaster模型(He等,2021)來(lái)預(yù)測(cè)HTML序列和單元格區(qū)域;之后使用BDN(barcode detection network)(Jia等,2020)來(lái)檢測(cè)文本行,并使用CRNN(convalutional recurrent neural network)和CTC(connectionist temporal classification)(Shi等,2017)來(lái)進(jìn)行文本行的識(shí)別,最后將所有結(jié)果合并起來(lái)得到最終結(jié)果。第2名采用了CDeC-Net(Agarwal等,2020)來(lái)進(jìn)行表格和單元格的檢測(cè);考慮到自然場(chǎng)景下表格會(huì)出現(xiàn)的扭曲、褶皺問(wèn)題,在表格檢測(cè)結(jié)束之后,采用了TPS(thin plate spline)變換和仿射變換來(lái)對(duì)圖像進(jìn)行矯正,矯正結(jié)果保證了每個(gè)單元格行和列的對(duì)齊,之后根據(jù)坐標(biāo)來(lái)直接還原出表格結(jié)構(gòu),最后采用DBNet(Liao等,2020)檢測(cè)文本行,并使用CRNN和CTC的方法來(lái)識(shí)別文字。第3名在表格結(jié)構(gòu)檢測(cè)上使用多任務(wù)的方式,同時(shí)分割單元格和表格線并檢測(cè)單元格;之后在文本識(shí)別過(guò)程中對(duì)任務(wù)進(jìn)行了細(xì)化,對(duì)單元格內(nèi)容進(jìn)行分類,判斷手寫(xiě)單元格、空單元格以及插圖單元格。
表格內(nèi)容識(shí)別的研究包含兩個(gè)方面,一方面是對(duì)于單元格內(nèi)的文本進(jìn)行識(shí)別,一般在獲得單元格區(qū)域之后,使用較為魯棒的光學(xué)字符識(shí)別方法(OCR)進(jìn)行解決,這方面不屬于表格識(shí)別的研究范疇,不做詳細(xì)介紹;另一方面是根據(jù)整個(gè)表格內(nèi)容進(jìn)行的表格分類、單元格分類以及表格信息抽取等任務(wù),這是當(dāng)前表格識(shí)別研究的熱點(diǎn)之一。
1.4.1 表格分類與單元格分類相關(guān)研究
表格分類指的是根據(jù)表格的結(jié)構(gòu)或內(nèi)容,對(duì)表格進(jìn)行分類。Wang和Hu(2002)根據(jù)表格包含的內(nèi)容將表格分為正品表(genuine table)和非正品表(non-genuine table)。其中非正品表是指僅僅使用HTML表格標(biāo)簽來(lái)進(jìn)行網(wǎng)頁(yè)布局的內(nèi)容,并不是用來(lái)展示表格數(shù)據(jù)。他們對(duì) HTML 中包含〈table〉標(biāo)簽的部分抽取了一系列特征,提出了一個(gè)可訓(xùn)練的機(jī)器學(xué)習(xí)方法對(duì)表格進(jìn)行分類。Crestan和Pantel(2011)將表格分為兩大類別:關(guān)系型知識(shí)表格以及不包含知識(shí)僅僅用于布局的表格。其中前者又細(xì)分為列表型、屬性/值、矩陣型、枚舉型和填空型;后者細(xì)分為導(dǎo)航型、格式化型。他們從表格中抽取了表格的布局特征和內(nèi)容特征,進(jìn)而使用有監(jiān)督機(jī)器學(xué)習(xí)算法對(duì)表格進(jìn)行分類。
單元格分類指的是將單元格分成表頭、數(shù)據(jù)單元格等類別。Fang等人(2012a)比較了簡(jiǎn)單的啟發(fā)式算法和基于機(jī)器學(xué)習(xí)的分類算法之間的效果。其中啟發(fā)式算法假設(shè)表格的行列表頭分別存在于表格的左邊和上邊,計(jì)算表格中連續(xù)的兩行/列的相似性,并以從上到下/從左到右出現(xiàn)的第1個(gè)局部最小值當(dāng)做表頭和數(shù)據(jù)的分隔,從而得到表頭;基于機(jī)器學(xué)習(xí)的分類算法利用了一系列能夠區(qū)分表頭的特征,并使用支持向量機(jī)分類器、邏輯回歸和隨機(jī)森林來(lái)將單元格行或列分類為表頭或數(shù)據(jù)單元格。Seth和Nagy(2013)將單元格分成 5 種不同類型:行表頭、列表頭、數(shù)據(jù)、存根表頭(stub head)和額外信息,利用表格中“每個(gè)數(shù)據(jù)單元格可以被行列表頭路徑的文本序列唯一確定”這一特性,來(lái)識(shí)別表格中的每個(gè)單元格的類型。Koci等人(2016)將表格中的單元格分為5個(gè)類別:元數(shù)據(jù)、表頭、屬性、數(shù)據(jù)和派生數(shù)據(jù),抽取表格單元格的內(nèi)容特征、單元格風(fēng)格特征、字體特征、引用特征和空間特征,然后將這些特征以及標(biāo)注結(jié)果輸入到常用的機(jī)器學(xué)習(xí)分類器中進(jìn)行學(xué)習(xí),得到單元格類別。Gol等人(2019)綜合考慮了單元格中的文本和風(fēng)格特征,通過(guò)一個(gè)表格預(yù)訓(xùn)練模型得到每個(gè)單元格的向量,利用單元格向量將其歸類到6個(gè)類別中。
國(guó)內(nèi)在表格分類和單元格分類領(lǐng)域的研究相對(duì)較少。其中具有代表性的是北京航空航天大學(xué)和微軟亞洲研究院的Dong等人(2019)的研究,他們利用 BERT(bidirectional encoder representation from Transformers)(Devlin等,2018)提取表格中的文本語(yǔ)義特征,并與其他手工特征一同輸入到 FCNN(fully CNN) 骨干網(wǎng)絡(luò)中,然后以3個(gè)分支網(wǎng)絡(luò)將表格信息抽取任務(wù)、表格區(qū)域檢測(cè)和單元格分類3個(gè)任務(wù)融入到這一多任務(wù)提取框架中。
1.4.2 表格信息抽取相關(guān)研究
基于表格的信息抽取任務(wù)是從表格或者包含表格的文檔中提取給定的關(guān)鍵信息字段,并對(duì)其進(jìn)行歸納、分析。從實(shí)際應(yīng)用的角度來(lái)看,自動(dòng)地從表格、票據(jù)和合同等文檔中收集個(gè)人信息、重要日期、地址和金額等關(guān)鍵字段具有很高的應(yīng)用價(jià)值。
其中具有代表性的ICDAR2019舉辦的表格信息提取競(jìng)賽的SROIE數(shù)據(jù)集的一些代表性結(jié)果如表6所示。
表6 SROIE數(shù)據(jù)集信息抽取結(jié)果比較Table 6 Comparison results of table information extraction on SROIE
近年來(lái),隨著自然語(yǔ)言處理技術(shù)的發(fā)展,一部分研究者的研究興趣從傳統(tǒng)的序列文本逐漸轉(zhuǎn)向表格等(半)結(jié)構(gòu)化文檔上來(lái),并將序列文本上先進(jìn)的語(yǔ)言模型,例如LSTM(Hochreiter和Schmidhuber,1997),Transformer(Vaswani等,2017),GPT(generative pre-training)(Radford和Narasimhan,2018),BERT(Devlin等,2018)及LayoutLM(Xu等,2020)等應(yīng)用于表格等(半)結(jié)構(gòu)化文檔上,取得了良好的效果,說(shuō)明這些模型在自然語(yǔ)言處理任務(wù)中具有良好的普適性和可遷移性。其中BERT及其變體RoBERTa(Liu等,2019b)、LayoutLM及其變體LayoutLMv2(Xu等,2022)在表格信息抽取理解的各類任務(wù)中都取得了較為穩(wěn)定且高效的性能,成為該領(lǐng)域中的基線方法。
目前常用的表格等(半)結(jié)構(gòu)化文檔信息抽取的公開(kāi)數(shù)據(jù)集有SROIE(Huang等,2019b),F(xiàn)UNSD(Jaume等,2019),CORD(consolidated receipt dataset)(Park等,2019),Kleister(Graliński等,2020)等。另外,近年來(lái)的研究中很多研究者在提出信息抽取方法時(shí),也會(huì)建立一套特定應(yīng)用場(chǎng)景的數(shù)據(jù)集,例如中文增值稅發(fā)票(Liu等,2019a)、火車(chē)票、醫(yī)學(xué)處方(Yu等,2020)、出租車(chē)收據(jù)(Zhang等,2020)和試卷標(biāo)題(Wang等,2021a)等。
表格信息抽取是表格內(nèi)容識(shí)別中的一項(xiàng)基礎(chǔ)任務(wù),根據(jù)對(duì)表格文檔表示形式的不同,可以分為基于序列、基于圖和基于2維特征網(wǎng)格等信息抽取方法。
基于序列的方法與典型的自然語(yǔ)言處理方法類似,需要將表格文檔首先序列化為1維文本序列,然后使用現(xiàn)有的序列標(biāo)記模型(如LSTM-CNN(Chiu和Nichols,2016)、Bi-LSTM-CRF(Ma和Hovy,2016)、BERT(Devlin等,2018)、RoBERTa(Liu等,2019b)等)提取字段值。較為新穎的方法(如LayoutLM,LAMBERT(Garncarek等,2020)等)則會(huì)在序列文本信息之外加入表格的布局信息和結(jié)構(gòu)信息,通過(guò)融合不同模態(tài)的信息、聯(lián)合訓(xùn)練不同模態(tài)特征等方式來(lái)提高精度。
基于圖的方法將每個(gè)文檔頁(yè)面建模為一個(gè)圖,其中文本片段(單詞或文本行)表示為節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)的初始表示可以結(jié)合其對(duì)應(yīng)文本段的視覺(jué)、文本和位置特征。然后利用圖神經(jīng)網(wǎng)絡(luò)或自注意力機(jī)制(Vaswani等,2017)在圖中相鄰節(jié)點(diǎn)之間傳播信息,得到每個(gè)節(jié)點(diǎn)的更豐富的表示,隨后將這些圖節(jié)點(diǎn)的特征輸入到分類器模型(如PICK(Yu等,2020)),或與文本特征共同輸入到序列標(biāo)記模型中獲得所需的字段(如GraphIE(Qian等,2019)、Liu等人(2019a)、Wei等人(2020)、TRIE(Zhang等,2020)和VIES(Wang等,2021a)等)。
基于2維特征網(wǎng)格(2D grid)的方法將文檔表示為一個(gè)包含字符特征的2D網(wǎng)格,然后使用標(biāo)準(zhǔn)實(shí)例分割模型從2D網(wǎng)格中提取字段值。這一類方法首先由Katti等人(2018)在Chargrid中提出。Chargrid引入了2D網(wǎng)格作為新的文本表示類型,通過(guò)將每個(gè)文檔頁(yè)面編碼為2維字符網(wǎng)格,可以保留文檔的2維布局,并提出一個(gè)用于結(jié)構(gòu)化文檔的通用文檔理解處理流程,利用完全卷積的編碼器—解碼器網(wǎng)絡(luò)來(lái)預(yù)測(cè)分割掩碼和邊界框。2D網(wǎng)格表示保留了文檔的文本和布局信息,但忽略了圖像信息,為此,VisualWordGrid(Kerroumi等,2021)將這些網(wǎng)格表示與文檔圖像的2D特征圖相結(jié)合,生成更強(qiáng)大的多模態(tài)2D文檔表示,它可以同時(shí)保存文檔的視覺(jué)、文本和布局信息。BERTgrid(Denk和Reisswig,2019)對(duì)Chargrid進(jìn)行了改良,將文檔表示為上下文詞塊特征向量的網(wǎng)格,在網(wǎng)絡(luò)結(jié)構(gòu)中加入了BERT網(wǎng)絡(luò),對(duì)來(lái)自目標(biāo)領(lǐng)域的大量未標(biāo)記文檔進(jìn)行預(yù)訓(xùn)練,為文檔中的每個(gè)詞塊計(jì)算上下文特征向量。與其他基于2維網(wǎng)格的方法相比,雖然BERTgrid在網(wǎng)格表示中加入了語(yǔ)言模型BERT,但在模型訓(xùn)練時(shí),預(yù)訓(xùn)練的BERT參數(shù)是固定的,沒(méi)有充分發(fā)揮語(yǔ)言模型的作用。
此外,在框架構(gòu)建方面,Clova AI的Hwang等人(2021)提出了一個(gè)信息抽取框架SPADE(spatial dependency parser),將信息抽取任務(wù)表述為一個(gè)空間依賴解析問(wèn)題。它以端到端方式在文檔中建模高度復(fù)雜的空間關(guān)系和任意數(shù)量的信息層。BROS(BERT relying on spatiality)(Hong等,2021)通過(guò)提出一種新的位置編碼方法和基于區(qū)域掩蔽的訓(xùn)練,進(jìn)一步改進(jìn)了SPADE,在大規(guī)模半結(jié)構(gòu)化文檔上使用新的區(qū)域掩蔽策略進(jìn)行預(yù)訓(xùn)練,同時(shí)有效地包含了輸入文檔的空間布局信息。Applica.ai的Powalski等人(2021)提出了一種同時(shí)學(xué)習(xí)布局信息、視覺(jué)特征和文本語(yǔ)義的神經(jīng)網(wǎng)絡(luò)架構(gòu)TILT,以預(yù)訓(xùn)練的Transformer為骨干網(wǎng)絡(luò),將布局信息表示為注意力機(jī)制中的偏差項(xiàng),并使用U-Net(Ronneberger等,2015)提取上下文的視覺(jué)特征加入到模型的輸入中。
國(guó)內(nèi)的研究者近年來(lái)在表格信息抽取領(lǐng)域取得了豐碩的成果,尤其是在基于圖的信息抽取方法研究中取得了領(lǐng)先地位,在基礎(chǔ)模型的構(gòu)建方面也頗有建樹(shù)。
在基于序列的表格信息抽取方法中,由于順序文本上的語(yǔ)言模型(如Transformer、BERT等)難以捕捉表格文檔的結(jié)構(gòu)信息,哈爾濱工業(yè)大學(xué)和北京航空航天大學(xué)的Xu等人(2020)提出了LayoutLM模型,現(xiàn)在已經(jīng)成為表格內(nèi)容理解領(lǐng)域中眾多研究方向的基線模型。LayoutLM模型相對(duì)于傳統(tǒng)的序列語(yǔ)言模型有了明顯的革新,將文檔的結(jié)構(gòu)信息也輸入到了模型中,豐富了結(jié)構(gòu)化文檔的特征表示。哈爾濱工業(yè)大學(xué)和微軟亞洲研究院的Xu等人(2022)隨后對(duì)LayoutLM進(jìn)行了優(yōu)化,提出了性能更強(qiáng)的LayoutLMv2。阿里巴巴公司的Wang等人(2020)提出了StructBERT,將語(yǔ)言結(jié)構(gòu)融入到預(yù)訓(xùn)練中,結(jié)合詞結(jié)構(gòu)目標(biāo)和句子結(jié)構(gòu)目標(biāo),利用語(yǔ)境表征中的語(yǔ)言結(jié)構(gòu)來(lái)擴(kuò)展BERT。這使得StructBERT能夠通過(guò)強(qiáng)制重建單詞和句子的正確順序進(jìn)行預(yù)測(cè),從而顯式地對(duì)語(yǔ)言結(jié)構(gòu)進(jìn)行建模。
在基于圖的方法方面,阿里巴巴集團(tuán)的Liu等人(2019a)提出了一種基于圖卷積的模型,以結(jié)合富信息視覺(jué)文檔中呈現(xiàn)的文本和視覺(jué)信息。將表格數(shù)據(jù)轉(zhuǎn)化為圖特征,經(jīng)過(guò)訓(xùn)練以總結(jié)文檔中文本段的上下文,并進(jìn)一步與文本特征相結(jié)合以進(jìn)行實(shí)體提取。徐州醫(yī)科大學(xué)和平安科技(深圳)有限公司的Yu等人(2020)提出了PICK,充分而有效地利用文檔的特性(包括文本、位置、布局和圖像)來(lái)獲得更豐富的語(yǔ)義表示,并結(jié)合圖學(xué)習(xí)與圖卷積,將圖學(xué)習(xí)模塊引入到現(xiàn)有的圖架構(gòu)中,沒(méi)有人為預(yù)先定義圖的邊緣類型,而是學(xué)習(xí)一個(gè)軟鄰接矩陣,表示任務(wù)節(jié)點(diǎn)之間的關(guān)系。利用圖卷積的方法,在輸入信息中加入了文檔的文本、圖像、位置等特征,提供了更加豐富的表格表示。學(xué)習(xí)到更豐富的表示,并用于解碼器,以輔助進(jìn)行字符級(jí)別的序列標(biāo)記。華南理工大學(xué)的Tang等人(2021)提出的MatchVIE,首次將鍵值匹配模型用于視覺(jué)信息抽取任務(wù)中,集成了實(shí)體的語(yǔ)義、位置和視覺(jué)信息,通過(guò)圖網(wǎng)絡(luò)中邊的關(guān)系來(lái)評(píng)價(jià)實(shí)體的相關(guān)性,證明了對(duì)鍵值關(guān)系進(jìn)行建模可以有效地提取視覺(jué)信息,為表格信息抽取任務(wù)提供了一個(gè)新的視角。
在基于2維特征網(wǎng)格的方法中,Lin等人(2021)提出了ViBERTgrid方法,拼接BERTGrid特征圖到CNN中間層得到的多模態(tài)主干網(wǎng)絡(luò),并對(duì)參數(shù)進(jìn)行聯(lián)合訓(xùn)練,顯著提高了模型的語(yǔ)言標(biāo)識(shí)能力,將基于2維特征網(wǎng)格的方法與多模態(tài)融合、聯(lián)合訓(xùn)練以及大規(guī)模預(yù)訓(xùn)練等方法相結(jié)合,相較于之前的同類方法有了大幅提升。
針對(duì)當(dāng)下普遍流行的基于OCR結(jié)果進(jìn)行表格文檔信息提取所帶來(lái)的高標(biāo)注成本和標(biāo)簽歧義等弊端,華南理工大學(xué)的Wang等人(2021b)還提出了一種統(tǒng)一的弱監(jiān)督學(xué)習(xí)框架TCPN,在編碼階段引入了一種高效的2D文檔表示方法,對(duì)2維OCR結(jié)果中的語(yǔ)義和布局信息進(jìn)行建模,在解碼階段進(jìn)行OCR糾錯(cuò)和快速推理,同時(shí)僅使用關(guān)鍵信息序列作為監(jiān)督,極大地節(jié)省了標(biāo)注成本并避免了標(biāo)簽歧義。這一方法對(duì)于如何緩解對(duì)完整標(biāo)注的過(guò)度依賴,以及如何減輕OCR錯(cuò)誤帶來(lái)的負(fù)面影響具有啟發(fā)性。
從總體上看,早期在表格檢測(cè)識(shí)別研究上投入比較大的是美國(guó)、德國(guó)和日本等;后來(lái)隨著深度學(xué)習(xí)的發(fā)展,表格檢測(cè)和結(jié)構(gòu)識(shí)別研究呈現(xiàn)了百花齊放的狀態(tài)。其中比較突出的有印度的研究,在IBM公司支持下的澳大利亞、美國(guó)的一些研究,以及國(guó)內(nèi)大學(xué)和互聯(lián)網(wǎng)公司的一系列研究。目前,工業(yè)界也涌現(xiàn)了一大批表格檢測(cè)和識(shí)別的服務(wù)。國(guó)外的一些大型云服務(wù)商已經(jīng)在他們的平臺(tái)上提供了表格檢測(cè)和識(shí)別的功能,比如亞馬遜的Textact服務(wù)、微軟的Azure服務(wù)等。而在國(guó)內(nèi),既有一些提供表格檢測(cè)和識(shí)別等云端基礎(chǔ)服務(wù)的互聯(lián)網(wǎng)公司,例如百度、阿里巴巴、騰訊、華為和網(wǎng)易等,也有一些深耕于相關(guān)領(lǐng)域多年的專業(yè)服務(wù)提供商,例如庖丁科技、好未來(lái)等。
從表格結(jié)構(gòu)識(shí)別的效果上看,國(guó)內(nèi)目前已經(jīng)處于世界較為領(lǐng)先的水平。2020年末和2021年初由IBM公司發(fā)起舉辦了ICDAR2021科學(xué)文檔解析比賽(Jimeno-Yepes等,2021),其中的任務(wù)二——表格識(shí)別任務(wù),吸引了來(lái)自國(guó)內(nèi)外的多個(gè)公司、學(xué)校參加。國(guó)內(nèi)許多公司都參與了這場(chǎng)比賽,其中海康威視提出的LGPMA模型和平安科技提出的TableMaster模型分別取得了比賽的第1、2名。由此可見(jiàn),在表格檢測(cè)和結(jié)構(gòu)識(shí)別的研究領(lǐng)域,尤其是在應(yīng)用方面,國(guó)內(nèi)的研究者已經(jīng)取得了國(guó)際領(lǐng)先的地位。
從數(shù)據(jù)集上看,國(guó)外的數(shù)據(jù)集主要為類PDF文檔,其中的表格結(jié)構(gòu)比較規(guī)整,不存在扭曲、陰影等問(wèn)題,例如SciTSR、PubTabNet等。而國(guó)內(nèi)除了規(guī)整文檔的表格數(shù)據(jù)集Tablebank之外,已經(jīng)開(kāi)始出現(xiàn)自然場(chǎng)景表格的數(shù)據(jù)集,例如WTW、NTable、TAL_OCR_TABLE比賽等數(shù)據(jù)集,這些數(shù)據(jù)集中應(yīng)用場(chǎng)景更豐富,也對(duì)表格識(shí)別方法提出了進(jìn)一步的挑戰(zhàn)。
在表格內(nèi)容識(shí)別的各個(gè)領(lǐng)域,國(guó)內(nèi)外研究者研究方向和方法選擇上呈現(xiàn)出了不同的偏好。在語(yǔ)言模型構(gòu)建方面,由于目前表格內(nèi)容識(shí)別領(lǐng)域常用的模型仍以序列語(yǔ)言模型的改進(jìn)為主,國(guó)外起步較早,技術(shù)積累更為豐富,LSTM、Transformer、BERT等一系列經(jīng)典模型在表格內(nèi)容識(shí)別任務(wù)中均取得了較好的效果。但國(guó)內(nèi)近年來(lái)出現(xiàn)了LayoutLM、StructBERT等先進(jìn)的文檔表征模型,這些模型專門(mén)針對(duì)表格等(半)結(jié)構(gòu)化文檔進(jìn)行設(shè)計(jì),并成為相關(guān)領(lǐng)域常用的基線模型之一,在基礎(chǔ)模型構(gòu)建的方面呈現(xiàn)出了較好的發(fā)展勢(shì)頭。
具體而言,在表格信息抽取方面,國(guó)內(nèi)的研究者在基于圖和基于2維特征網(wǎng)格的方法上居于世界領(lǐng)先地位,PICK、MatchVIE和ViBERTGrid等方法在各類信息抽取任務(wù)榜單中居于前列;國(guó)外的研究者在基于序列的方法上較為突出,提出了LAMBERT、TILT等一系列表現(xiàn)優(yōu)異的模型,這與國(guó)外積累已久的語(yǔ)言模型發(fā)展經(jīng)驗(yàn)密不可分,在基于2維特征網(wǎng)格的方法上國(guó)外起步更早,提出了Chargrid和BERTgrid等經(jīng)典模型,而對(duì)于基于圖的方法研究較少??傮w而言,近年來(lái)國(guó)內(nèi)外研究者對(duì)表格內(nèi)容識(shí)別均有很高的研究熱情,這一領(lǐng)域的方法也呈現(xiàn)出多樣化發(fā)展的趨勢(shì)。
對(duì)于表格區(qū)域檢測(cè),其準(zhǔn)確率已經(jīng)達(dá)到了比較高的水平。而檢測(cè)作為識(shí)別的一部分,兩者逐漸一體化,單獨(dú)的檢測(cè)逐漸弱化。如何讓檢測(cè)和結(jié)構(gòu)識(shí)別的結(jié)果相互促進(jìn)將是以后研究的方向和重點(diǎn)。
由于表格應(yīng)用場(chǎng)景較為廣泛,表格形式多種多樣,文檔圖像質(zhì)量參差不齊,表格結(jié)構(gòu)識(shí)別仍存在著較大的挑戰(zhàn)。具體表現(xiàn)為:1)跨頁(yè)表格對(duì)結(jié)構(gòu)識(shí)別帶來(lái)的識(shí)別困難;2)表格線未對(duì)齊帶來(lái)的行列判定困難;3)表格嵌套(某些小表格是大表格的單元格)帶來(lái)的識(shí)別困難;4)一些非常規(guī)的表格線標(biāo)注形式;5)現(xiàn)實(shí)場(chǎng)景帶來(lái)的扭曲、褶皺和光照等問(wèn)題。
對(duì)于表格結(jié)構(gòu)識(shí)別,現(xiàn)階段主流的方案包括兩種:1)單元格檢測(cè)+單元格關(guān)系判斷;2)編碼解碼器同時(shí)生成HTML或Latex代碼以及相對(duì)應(yīng)的單元格位置。方案1)主要關(guān)注如何檢測(cè)出更準(zhǔn)確的單元格,在后續(xù)研究中可嘗試使用表格文本的語(yǔ)義信息來(lái)提高;方案2)主要關(guān)注生成的代碼過(guò)長(zhǎng)時(shí),準(zhǔn)確率的降低以及回歸的單元格框漂移等問(wèn)題,可嘗試由目標(biāo)檢測(cè)網(wǎng)絡(luò)提出單元格候選框來(lái)改善。未來(lái)隨著表格應(yīng)用場(chǎng)景的增加,表格數(shù)據(jù)集的豐富,現(xiàn)實(shí)場(chǎng)景的表格識(shí)別以及表格識(shí)別的預(yù)訓(xùn)練模型都是值得深入挖掘的方向。
對(duì)于表格內(nèi)容識(shí)別與理解,總體來(lái)說(shuō),隨著自然語(yǔ)言模型的成熟和發(fā)展,自然語(yǔ)言處理的方法所能處理的信息形式已經(jīng)不僅僅局限于1維的順序文本,研究者們對(duì)于表格、票據(jù)等(半)結(jié)構(gòu)化文檔信息提取的研究熱情日益增長(zhǎng)。然而,由于表格形式復(fù)雜多樣,并涉及各個(gè)行業(yè)的專業(yè)知識(shí),目前研究者們面臨著兩大挑戰(zhàn):一方面是表格信息的表示方式難以統(tǒng)一,不同形式的表格有著不同形式的結(jié)構(gòu)關(guān)系,很難構(gòu)建出從表格信息到機(jī)器表征的通用識(shí)別框架,目前的大部分研究還處于針對(duì)某類特定的表格數(shù)據(jù)進(jìn)行性能優(yōu)化的階段;另一方面,對(duì)于表格的查詢、問(wèn)答和文本生成等以內(nèi)容為主導(dǎo)的任務(wù),由于表格數(shù)據(jù)通常具有一定的專業(yè)性且表格中表達(dá)的語(yǔ)義不唯一,數(shù)據(jù)的標(biāo)注難度很大且成本高昂,訓(xùn)練出的模型遷移能力較差。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,大規(guī)模預(yù)訓(xùn)練模型已經(jīng)成為自然語(yǔ)言處理領(lǐng)域中廣泛認(rèn)可的有效方法,表格內(nèi)容的識(shí)別及理解在近年來(lái)快速發(fā)展,但在這一領(lǐng)域中目前并沒(méi)有出現(xiàn)具有關(guān)鍵影響力的大規(guī)模預(yù)訓(xùn)練表格理解和表格生成模型。目前常用的方案大多都是對(duì)已有的語(yǔ)言模型進(jìn)行改進(jìn),盡管這類方法針對(duì)某類具體問(wèn)題可能是行之有效的,但往往不能很好地應(yīng)用于其他表格內(nèi)容識(shí)別相關(guān)的任務(wù)中。因此,尋找并構(gòu)建出針對(duì)表格結(jié)構(gòu)的大規(guī)模預(yù)訓(xùn)練模型,或是構(gòu)建出在順序文本、結(jié)構(gòu)化文本和場(chǎng)景文本等多種形式的文檔結(jié)構(gòu)中都有良好表現(xiàn)的預(yù)訓(xùn)練語(yǔ)言模型,也是該領(lǐng)域目前面臨的一大挑戰(zhàn)和重要研究方向。
就整體趨勢(shì)而言,一方面表格內(nèi)容識(shí)別的任務(wù)具有具象化的特征,新的任務(wù)和新的應(yīng)用場(chǎng)景紛紛出現(xiàn),體現(xiàn)出了很高的應(yīng)用價(jià)值,相關(guān)的任務(wù)類型和涵蓋的領(lǐng)域也趨于具體,出現(xiàn)了很多專門(mén)針對(duì)具體問(wèn)題的方法和模型;另一方面,表格內(nèi)容識(shí)別也具有理論意義,研究者們對(duì)于基礎(chǔ)模型的構(gòu)建具有很高的研究興趣,一些與表格內(nèi)容識(shí)別相關(guān)的方法已經(jīng)體現(xiàn)出了很高的泛化能力,能適用于序列文本、結(jié)構(gòu)化文本和場(chǎng)景文本等不同類型的對(duì)象。在抽象層次,力圖構(gòu)建泛化性更好的基于文檔的表征模型,尋找更加具有普適性的方法來(lái)描述、理解和處理表格信息,也是未來(lái)的研究熱點(diǎn)之一。
致 謝本文由中國(guó)圖象圖形學(xué)學(xué)會(huì)文檔圖像分析與識(shí)別專業(yè)委員會(huì)組織撰寫(xiě),該專委會(huì)更多詳情請(qǐng)見(jiàn)鏈接:http://www.csig.org.cn/detail/2551。