林鑫 余華娟 閆奕臻
(1. 華中師范大學(xué)信息管理學(xué)院,武漢 430079;2. 湖北省數(shù)據(jù)治理與智能決策研究中心,武漢 430079)
因具有簡潔規(guī)范、信息密度高、數(shù)據(jù)關(guān)系清晰等優(yōu)點,表格被廣泛應(yīng)用于各行各業(yè)的企事業(yè)單位日常管理、政務(wù)工作和科學(xué)交流中。與非結(jié)構(gòu)化文檔相比,盡管其具有結(jié)構(gòu)化程度高的優(yōu)勢,但由于常常以獨立文檔或文檔的組成部分存在,為實現(xiàn)對此類數(shù)據(jù)的系統(tǒng)管理、共享、復(fù)用與挖掘分析,還需要重新對其進(jìn)行數(shù)據(jù)化處理,即通過表格區(qū)域檢測、結(jié)構(gòu)識別、單元格語義關(guān)系識別,將表格從文檔中提取出來并實現(xiàn)機(jī)器可理解[1-2]。其中,表格區(qū)域檢測是指從包含表格的文檔或圖片中識別其邊界;結(jié)構(gòu)識別是指識別表格的布局結(jié)構(gòu)、層次結(jié)構(gòu),確定各單元格的具體位置及單元格間的位置關(guān)系;單元格語義關(guān)系識別首先需要識別單元格的類型,單元格的類型包括表頭、表體、說明性單元格3種,并在此基礎(chǔ)上,建立具有對應(yīng)關(guān)系的3種單元格間的語義關(guān)聯(lián),即將其轉(zhuǎn)換為表頭單元格、表體單元格、說明性單元格的元組形式。
根據(jù)表頭、表體、說明性單元格間的位置關(guān)系,可以將表格分成簡單結(jié)構(gòu)表格與復(fù)雜表格,前者是指表頭單元格集中分布在前1行/列或前幾行/列的行列表頭表格;后者是指表頭與表體單元格混合分布的表格,其在實踐中也廣泛應(yīng)用,如科研項目申請書、職稱評審表、信息登記表、報名表等。當(dāng)前圍繞單元格語義關(guān)系識別,國內(nèi)外學(xué)者主要圍繞簡單結(jié)構(gòu)表格展開研究,對復(fù)雜表格關(guān)注較少。復(fù)雜表格不但結(jié)構(gòu)復(fù)雜、單元格類型多樣,而且表頭類單元格的取值多樣,既難以復(fù)用行列表頭類表格的處理方法,也難以通過簡單的詞典或規(guī)則匹配的方法實現(xiàn)單元格語義關(guān)系識別,因此需要開展專門研究。
表格數(shù)據(jù)化是實現(xiàn)表格數(shù)據(jù)的系統(tǒng)管理與挖掘分析的重要基礎(chǔ),因此受到國內(nèi)外學(xué)者的關(guān)注,相關(guān)研究主要從表格區(qū)域檢測、表格結(jié)構(gòu)識別、單元格語義關(guān)系識別這三個方面展開。
表格區(qū)域檢測與結(jié)構(gòu)識別在早期主要針對的是具有表格形式標(biāo)記的文檔形態(tài),多將其視為兩個任務(wù)獨立進(jìn)行,但隨著時間的推移,研究與實踐關(guān)注的重點集中到pdf文檔、紙質(zhì)文件掃描件等不具備表格形式標(biāo)記的情形下,相關(guān)研究多基于表格結(jié)構(gòu)實現(xiàn)表格檢測,二者逐漸一體化。早期的研究主要是根據(jù)表格特征構(gòu)建啟發(fā)式規(guī)則來完成表格區(qū)域檢測和結(jié)構(gòu)識別任務(wù)。例如:Watanabe等[3]和Hirayama[4]對于掃描文檔,利用文檔的水平線和垂直線來定位表格區(qū)域;國內(nèi)學(xué)者Fang等[5]提出了一種基于表格結(jié)構(gòu)特征和視覺分隔符的表格區(qū)域檢測方法,該方法通過解析pdf文件的線條和頁面分隔符來獲得表格的位置;于豐暢等[6]針對pdf格式的學(xué)術(shù)文獻(xiàn),提出了一種幾何對象聚類的表格區(qū)域檢測方法。隨著深度學(xué)習(xí)的發(fā)展,為克服啟發(fā)式規(guī)則法受限于表格數(shù)據(jù)集的特征明顯程度以及數(shù)據(jù)集的規(guī)模大小的缺陷,逐漸將深度學(xué)習(xí)引入表格區(qū)域檢測和結(jié)構(gòu)識別過程中,如Schreiber等[7]采用改進(jìn)一種循環(huán)神經(jīng)網(wǎng)絡(luò)Faster R-CNN進(jìn)行表格區(qū)域檢測,Hao等[8]通過結(jié)合松散規(guī)則和改進(jìn)的卷神經(jīng)網(wǎng)絡(luò)確定表格位置。由于深度學(xué)習(xí)能夠適應(yīng)的場景非常廣泛,因此在通過深度學(xué)習(xí)定位表格區(qū)域和結(jié)構(gòu)識別的研究中,文本特征[9]、單元格位置特征[10]、表格空白特征[11]也被加入模型中,大大提升了表格區(qū)域檢測和結(jié)構(gòu)識別的精確度。
與表格區(qū)域檢測和結(jié)構(gòu)識別相似,單元格語義關(guān)系識別的方法也可以分為啟發(fā)式規(guī)則法和機(jī)器學(xué)習(xí)法。前者主要基于表格的結(jié)構(gòu)特征、內(nèi)容特征等構(gòu)建啟發(fā)式規(guī)則來完成單元格語義關(guān)系識別。代表性研究包括:張建東等[12]通過詞向量計算進(jìn)行表格內(nèi)容文本的劃分,識別表格表頭和表體;趙洪等[13]基于規(guī)則完成了表頭的語義分析和數(shù)值信息的抽取,將政府報表信息表示為六元組形式的結(jié)構(gòu)化數(shù)據(jù);張元鳴等[14]根據(jù)字典抽取非結(jié)構(gòu)化表格文檔的表頭,在此基礎(chǔ)上設(shè)計了單值區(qū)域與多值區(qū)域數(shù)據(jù)抽取的算法,最終將抽取結(jié)果組織為六元組DataStr結(jié)構(gòu)化數(shù)據(jù)模型;Seth等[15]根據(jù)表格中所有數(shù)據(jù)單元格均可以索引到行列表頭路徑的特征,將單元格分為行表頭、列表頭、數(shù)據(jù)、存根表頭和額外信息5類?;跈C(jī)器學(xué)習(xí)的技術(shù)思路,將單元格語義關(guān)系識別視為分類問題,進(jìn)而采用相應(yīng)的機(jī)器學(xué)習(xí)算法進(jìn)行實現(xiàn),在具體的技術(shù)模型選用上,既有傳統(tǒng)的機(jī)器學(xué)習(xí)模型(如隨機(jī)森林[16]、決策樹、支持向量機(jī)[17]),也包括深度學(xué)習(xí)[18]、預(yù)訓(xùn)練模型[19]等。
綜上所述,國內(nèi)外圍繞表格的數(shù)據(jù)化進(jìn)行了多方面研究,針對不同應(yīng)用場景提出了多種技術(shù)解決方案,具有較強(qiáng)的現(xiàn)實性。然而,在單元格語義關(guān)系識別方面,相關(guān)研究多以行列表頭表格為對象,較少關(guān)注表頭、表體單元格混合分布的復(fù)雜表格。針對這一問題,本文擬采用無監(jiān)督學(xué)習(xí)思想,綜合機(jī)器視覺與啟發(fā)式規(guī)則技術(shù),構(gòu)建一種面向復(fù)雜表格數(shù)據(jù)化的單元格語義關(guān)系識別模型,為復(fù)雜表格知識抽取提供支持。
實踐工作中,復(fù)雜表格除了因表頭與表體單元格混合分布帶來的結(jié)構(gòu)復(fù)雜外,常常還具有以下特點:①同模板的表格常常不止一份,如教育部每年會收到數(shù)萬份同模板的教育部人文社科基金申請書;②表格填寫過程中可能會對其結(jié)構(gòu)進(jìn)行微調(diào),如刪除一些不需要填寫的空行或者增加行、改變行高、單元格寬度等,但表頭類單元格一般不會被刪除;③單元格類型上,除了表頭、表體兩類外,還包括輔助性單元格,用于說明對應(yīng)單元格的取值范圍或填寫要求等,如2022年國家社會科學(xué)基金申請書數(shù)據(jù)表第3行的第3個單元格內(nèi)容為“A.重點項目B.一般項目C.青年項目D.一般自選項目E.青年自選項目”,限定了其左側(cè)臨近單元格“項目類別”的取值范圍;④表頭與表體單元格的關(guān)系多樣,數(shù)量上存在1:1、1:n、n:1等不同情形,位置關(guān)系上存在左右、上下兩種情形。結(jié)合上述特點,擬采用無監(jiān)督學(xué)習(xí)方法進(jìn)行復(fù)雜表格單元格語義關(guān)系識別模型構(gòu)建:首先利用機(jī)器視覺技術(shù)將樣本數(shù)據(jù)中的同模板表格聚合到一起;其次利用同模板申請書表頭單元格、說明性單元格取值一致的特點,將表體類單元格識別出來;最后結(jié)合表頭單元格、說明性單元格、表體單元格的取值、位置特點,設(shè)置啟發(fā)式規(guī)則進(jìn)行單元格關(guān)聯(lián)關(guān)系的識別。
遵循這一思路,構(gòu)建了如圖1所示的單元格語義關(guān)系識別模型,模型輸入為未標(biāo)注單元格類型的復(fù)雜表格數(shù)據(jù),輸出是表格模板及其對應(yīng)的單元格語義關(guān)系;處理流程上,包括基于機(jī)器視覺的表格分割、基于結(jié)構(gòu)與內(nèi)容相似度的同模板表格識別和基于啟發(fā)式規(guī)則的單元格元組識別三個環(huán)節(jié)。
圖1 基于無監(jiān)督學(xué)習(xí)的單元格語義關(guān)系識別模型
為避免表格填寫過程中的行列增刪、寬高調(diào)整等微調(diào)操作對同模板表格識別的干擾,需要對表格進(jìn)行模塊分割與規(guī)范化處理,從而實現(xiàn)對其核心視覺與內(nèi)容特征的提取。鑒于復(fù)雜表格以縱向布局為主,增刪對象主要是行而非列,因此表格分割中采用橫向區(qū)域最大化為主進(jìn)行分割,使得物理上連續(xù)且縱線、橫線長度均一致的最大區(qū)域成為獨立模塊。如圖2所示的復(fù)雜表格可以分解為5個模塊,規(guī)范化處理后,模塊3是縱向合并單元格,包括1個單元格;模塊1~2、4~5分別包含4個、6個、70個、5個單元格。
圖2 復(fù)雜表格分割示例
鑒于從pdf文檔、圖片等對象中提取的表格缺乏語義信息,無法準(zhǔn)確知曉哪些單元格進(jìn)行了縱向或橫向合并,因此,為提升表格分割算法的通用性,本文擬采用機(jī)器視覺技術(shù)進(jìn)行實現(xiàn)。實現(xiàn)步驟為:①表格預(yù)處理,將表格統(tǒng)一轉(zhuǎn)換為圖片,并進(jìn)行灰度化、二值化、腐蝕與膨脹處理、縱橫線掃描,使表格僅保留縱線與橫線特征;②基于橫線特征的區(qū)域分割,依據(jù)表格中橫線的長度、位置及是否相鄰(相鄰橫線長度不一時,將長的橫線截斷成多條),將復(fù)雜表格初步分割成多個區(qū)域,每個區(qū)域內(nèi)每條橫線起終點的縱坐標(biāo)均保持一致;③基于縱橫線特征的細(xì)粒度模塊分割,對分割后區(qū)域進(jìn)行逐行分析,若后一行與前一行內(nèi)的縱線數(shù)量一致且每條縱線的橫坐標(biāo)都一致,則將其視為同一模塊,否則將其分割為不同模塊。
經(jīng)分割處理后,復(fù)雜表格的結(jié)構(gòu)有所簡化,若僅考慮結(jié)構(gòu)特征,同模板表格識別中存在誤判的可能。為此,擬綜合考慮結(jié)構(gòu)與內(nèi)容相似度兩個方面進(jìn)行同模板表格的識別。實現(xiàn)過程中,首先根據(jù)表格分割結(jié)果,借鑒HTML的表格編碼規(guī)則對其進(jìn)行重新編碼,然后將結(jié)構(gòu)與內(nèi)容特征轉(zhuǎn)換為一體化格式,最后根據(jù)編碼結(jié)果的一致性進(jìn)行同模板表格識別。
(1)考慮結(jié)構(gòu)與內(nèi)容的表格信息編碼。該環(huán)節(jié)可以借鑒HTML中有關(guān)表格的語法規(guī)則進(jìn)行實現(xiàn),但為了在突出表格結(jié)構(gòu)與內(nèi)容特征的同時,又避免對同模板表格識別造成干擾,需要在表格信息編碼中注意三個方面。第一,若待編碼分割模塊包含多行,則只保留前兩行,從而在盡量保留表格結(jié)構(gòu)特征的前提下,避免增刪行操作對同模板表格識別的影響。同時,在此過程中需要關(guān)注對關(guān)聯(lián)模塊編碼的影響,并作出相應(yīng)的調(diào)整。第二,同一個分割模塊編碼時,不考慮單元格合并問題,即默認(rèn)所有的單元格寬度保持一致。第三,內(nèi)容信息編碼主要通過保留每個分割模塊左上角單元格取值的方式進(jìn)行實現(xiàn)。這是因為每個分割區(qū)域都可以視為一個獨立的表格,無論表頭、表體及說明性單元格的分布多復(fù)雜,左上角單元格都不可能是表體或說明性單元格,但其他任何一個單元格則無法排除這種可能。
(2)基于編碼信息的結(jié)構(gòu)與內(nèi)容相似度計算。鑒于編碼信息中已經(jīng)包含結(jié)構(gòu)信息與內(nèi)容信息,即各個單元格的位置信息與取值信息,因此,表格間的結(jié)構(gòu)與內(nèi)容相似度計算可以通過編碼的相似度進(jìn)行計算。具體實現(xiàn)方法上,鑒于相似度計算的目標(biāo)是用于同模板表格識別,因此只需要將相似度的取值范圍限定為0和1即可,若待計算表格編碼結(jié)果字符串完全匹配,則相似度為1;否則,相似度為0。假設(shè)表格i和表格j的編碼信息相似度為s(coni,conj),則表格i與表格j的相似度s(vi,vj)的計算方法如公式(1)所示。
識別單元格間語義關(guān)系的最終目標(biāo)是將具有語義關(guān)系的表頭單元格、表體單元格及說明性單元格關(guān)聯(lián)起來,從而為復(fù)雜表格的知識抽取提供支持。基于此,可以將單元格語義關(guān)系識別問題轉(zhuǎn)換為元組識別問題,將復(fù)雜表格中的所有單元格識別為(表頭單元格,表體單元格,說明性單元格)元組,每個元組中表頭單元格可以為1個或多個,表體單元格僅有1個,說明性單元格可以為0個或1個。具體實現(xiàn)上,可以進(jìn)一步分為單元格類型識別與元組識別兩個環(huán)節(jié)。
(1)基于頻次統(tǒng)計的單元格類型識別。只要同模板表格的樣本規(guī)模不過小,表體單元格的取值不可能完全一致,據(jù)此可以設(shè)計表體單元格識別策略:對每一組同模板表格,統(tǒng)計每個單元格取值的頻次,若單元格取值頻次小于表格數(shù)量,則將其視為表體類單元格。對于說明性單元格,若是用于明確表體單元格取值范圍,則臨近表體單元格的取值應(yīng)是其子集;若是用于解釋填寫規(guī)則,則常常位于同行單元格的最右側(cè),據(jù)此可以設(shè)計啟發(fā)式規(guī)則,實現(xiàn)表頭單元格與說明性單元格的區(qū)分。
(2)單元格元組識別啟發(fā)式規(guī)則設(shè)計。通過對多種類型的復(fù)雜表格調(diào)研,表頭與對應(yīng)表體單元格的位置分布遵循先右后下的原則,即表頭單元格優(yōu)先與右側(cè)臨近單元格構(gòu)成元組。據(jù)此,可以按如下方法進(jìn)行單元格元組的識別。①若表頭單元格的右側(cè)和下方臨近單元格均為表體類單元格,則與右側(cè)臨近單元格組成元組。②若表頭單元格的右側(cè)和下方臨近單元格均非表體類單元格,則該元組包含多個表頭單元格。③涉及單元格合并時,則將該合并單元格與臨近的所有表頭類單元格都組成元組。④涉及說明性單元格時,若屬于取值范圍說明型,則將其與對應(yīng)單元格組成元組即可;若屬于填寫規(guī)則說明型,則將其與臨近的左側(cè)或上面單元格組成元組。
隨著時間的推移,待處理的復(fù)雜表格類型可能會增加,因此,基于無監(jiān)督學(xué)習(xí)的復(fù)雜表格單元格語義關(guān)系識別在流程上既要支持符合已有模板的表格處理,也需要支持新模板的自動發(fā)現(xiàn)與加工,適應(yīng)復(fù)雜表格增量更新的基本現(xiàn)實。為此,設(shè)計了如圖3所示的面向增量更新的復(fù)雜表格單元格語義關(guān)系識別流程。
圖3 面向增量更新的復(fù)雜表格單元格語義關(guān)系識別流程
概括地說,當(dāng)新增一批待處理的復(fù)雜表格時,首先對符合既有模板的表格進(jìn)行處理;其次,以無法處理的表格為訓(xùn)練數(shù)據(jù),進(jìn)行新表格模板的學(xué)習(xí);最后,對之前未成功處理的表格再次進(jìn)行處理,直至實現(xiàn)全部表格的單元格語義關(guān)系識別。
具體而言,面向增量更新的復(fù)雜表格單元格語義關(guān)系識別流程為:①若待處理表格集合非空,則從中讀取一條數(shù)據(jù)并將其從數(shù)據(jù)集中刪除,之后轉(zhuǎn)步驟②;否則,判斷“已有模板未覆蓋”數(shù)據(jù)集是否為空,若為空則結(jié)束整個流程,反之轉(zhuǎn)步驟④;②讀取各單元格取值,并與模板中表頭單元格取值進(jìn)行比較判斷,若模板表格的表頭單元格被全部覆蓋,而且表頭單元格相對位置一致,則將其視為該表格對應(yīng)的模板并轉(zhuǎn)步驟③,否則,將其存入“已有模板未覆蓋”集合;③根據(jù)模板對應(yīng)的單元格語義關(guān)聯(lián)關(guān)系對該表格進(jìn)行處理,之后轉(zhuǎn)步驟①;④若“已有模板未覆蓋”數(shù)據(jù)集非空,隨機(jī)抽取一定規(guī)模的樣本,按照前文所述方法進(jìn)行新模板的學(xué)習(xí);⑤將新學(xué)習(xí)的模板及對應(yīng)的單元格語義關(guān)系映射規(guī)則更新至模板庫;⑥將“已有模板未覆蓋”集合中的數(shù)據(jù)全部存入待處理表格集合,再次啟動處理流程。
為驗證基于無監(jiān)督學(xué)習(xí)的復(fù)雜表格單元格語義關(guān)系識別模型的效果,從互聯(lián)網(wǎng)上搜集了多種類型的復(fù)雜表格進(jìn)行了實驗,下面對實驗設(shè)置與結(jié)果進(jìn)行說明。
為保證數(shù)據(jù)的多樣性與代表性,通過互聯(lián)網(wǎng)搜集了包含復(fù)雜表格的180篇文檔文件,包括國家社科成果文庫申請書、國家重點研發(fā)計劃項目預(yù)申報書、國家自然科學(xué)基金項目申請書、科技基礎(chǔ)調(diào)查基金項目申請書、國家社科基金項目申請書、華中師范大學(xué)學(xué)位申請與評定書在內(nèi)的6種模板180篇文檔,每類模板均為30個文檔。文檔的格式包括doc、docx和pdf,每篇文檔包含待處理的復(fù)雜表格1個,其中前五類文檔的復(fù)雜表格為基本信息表/數(shù)據(jù)表,包括項目基本信息、負(fù)責(zé)人信息、單位信息等內(nèi)容,后一類文檔的復(fù)雜表格包括申請人基本信息、學(xué)位申請信息等內(nèi)容。數(shù)據(jù)集分割上,2/3作為訓(xùn)練數(shù)據(jù),用于表格解析模型的無監(jiān)督學(xué)習(xí);1/3作為測試數(shù)據(jù)。
鑒于各類模板的單元格數(shù)量不一,為減少這一因素的影響,效果評價時首先對每類表格的識別效果進(jìn)行計算,之后再對其取均值。
(1)單類表格識別效果評價指標(biāo)。單類表格識別效果的計算是總體效果評價的基礎(chǔ)和核心。假設(shè)表格類型i中包含的單元格元組有m個,算法識別出來的元組有n個,其中q個正確,則準(zhǔn)確率pi和召回率ri計算方法如公式(2)和(3)所示。
(2)模型總體效果評價指標(biāo)。假設(shè)共有s類表格,則模型的準(zhǔn)確率aj和召回率bj計算方法如公式(4)和(5)所示。
實驗按照前文所構(gòu)建的復(fù)雜表格單元格語義關(guān)系識別模型進(jìn)行,因此對與模型完全一致的操作步驟不再贅述,僅對表格區(qū)域檢測及結(jié)構(gòu)識別、表格分割的具體操作方法進(jìn)行說明。
(1)表格區(qū)域檢測及結(jié)構(gòu)識別。鑒于doc和docx文檔中的表格存在對應(yīng)的語義標(biāo)簽信息,因此首先讀取兩類文檔中的表格,之后根據(jù)規(guī)則篩選出待解析的復(fù)雜表格。pdf格式文檔的表格區(qū)域檢測與結(jié)構(gòu)識別通過pdfminer工具完成,并采用同樣的規(guī)則進(jìn)行復(fù)雜表格篩選。
(2)表格分割。該環(huán)節(jié)主要利用OpenCV機(jī)器視覺庫實現(xiàn),主要流程包括:①調(diào)用word2pdf工具包將doc、docx格式的表格文件轉(zhuǎn)換為pdf文件,并調(diào)用pymupdf工具包將pdf表格文件轉(zhuǎn)換為png圖片;②調(diào)用OpenCV組件對圖片進(jìn)行灰度化、二值化處理,將原圖片轉(zhuǎn)換為更加清晰的黑白圖片;通過適當(dāng)?shù)母g與膨脹使橫線和豎線更加清晰;同時利用長為100,寬為1的矩形掃描得到m條橫線;利用長為1,寬為50矩形掃描得到n條豎線;③按照前文模型對表格進(jìn)行分割處理。
在基于120個表格完成6類復(fù)雜表格單元格語義關(guān)聯(lián)關(guān)系規(guī)則學(xué)習(xí)后,對剩余的60個測試表格進(jìn)行處理,效果如表1所示。總體來說,各類表格模板的識別效果均較好,準(zhǔn)確率和召回率絕大多數(shù)都在90%以上,全部模板的平均召回率92.7%,準(zhǔn)確率96.6%,能夠較好地滿足實踐應(yīng)用需求。
表1 實驗結(jié)果
實驗中同時發(fā)現(xiàn),各類模板都出現(xiàn)了不同程度的誤判,其主要原因在于:①部分表體類單元格的取值較為集中,導(dǎo)致各個訓(xùn)練集中對應(yīng)單元格的取值一致,從而被誤判為表頭類單元格,如國家社科基金申請書中的“身份證件類型”表頭對應(yīng)的取值絕大多數(shù)都是“身份證”,課題負(fù)責(zé)人的“最后學(xué)歷”“最后學(xué)位”兩個表頭單元格對應(yīng)的表體單元格取值在樣本中均為“研究生”“博士”;②華中師范大學(xué)學(xué)位申請與評定書模板中,右上角單元格是照片粘貼處,由于所采集的都是表格電子版,此處并未粘貼申請人的照片,導(dǎo)致系統(tǒng)將其誤判為說明性單元格。對于前一個問題,一方面可以根據(jù)實踐工作建立知識庫,收錄取值分布易集中的單元格元組,進(jìn)而指導(dǎo)單元格間語義關(guān)系識別;另一方面可以建立預(yù)警機(jī)制,將包含表頭類單元格過多的元組提供給用戶進(jìn)行審核,從而減少單元格間語義關(guān)系誤識別。對于后一個問題,需要優(yōu)化單元格元組的概念界定,并探索僅包含單個單元格元組的識別方法。
數(shù)據(jù)化是實現(xiàn)表格數(shù)據(jù)分析挖掘、重用的重要環(huán)節(jié),但受結(jié)構(gòu)復(fù)雜、規(guī)律性弱的特點,申請表、登記表、報名表等復(fù)雜表格的單元格間語義關(guān)系難以識別,導(dǎo)致此類表格的知識抽取較為困難。針對這一問題,本文利用待抽取復(fù)雜表格常包含多個副本、不同類型單元格間存在一定分布規(guī)律的特點,設(shè)計了基于無監(jiān)督學(xué)習(xí)的復(fù)雜表格單元格語義關(guān)系識別方法,以便于將具有對應(yīng)關(guān)系的表頭、表體及說明性單元格關(guān)聯(lián)起來,從而為表格數(shù)據(jù)化提供支撐。通過對6類表格進(jìn)行試驗,證實了所構(gòu)建模型的可行性和有效性。然而,該方法也存在一定局限性,構(gòu)成未來需要進(jìn)一步深化研究的問題:一是若訓(xùn)練集中的表體單元格取值一致,容易發(fā)生單元格類型誤判;二是鑒于表格分割與同模板表格識別時對原始表格進(jìn)行了簡化,因此若待處理表格中存在結(jié)構(gòu)類似的表格時,可能會出現(xiàn)同模板表格識別錯誤,進(jìn)而影響單元格語義分析的結(jié)果;三是模型默認(rèn)輸入的表格為復(fù)雜表格,未考慮復(fù)雜表格與行列表頭表格混合處理的情況。