基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本自動(dòng)識(shí)別*

2022-12-15 07:36黃佳妮于豐暢

數(shù)字圖書館論壇 2022年11期

黃佳妮于豐暢

黃佳妮于豐暢

（武漢大學(xué)信息管理學(xué)院，武漢 430072）

學(xué)術(shù)文獻(xiàn)中的表格以結(jié)構(gòu)化的形式高度凝練地展示了文獻(xiàn)中的核心知識(shí)。主流文獻(xiàn)檢索引擎中已逐步開(kāi)始使用表格內(nèi)容作為文字摘要的補(bǔ)充，以幫助科研人員快速掌握研究工作核心，提升科研工作效率。但是在僅展示表格而不提供表格的相關(guān)信息（對(duì)表格進(jìn)行描述或解釋的文本）的情況下，讀者往往難以充分理解表格內(nèi)容，阻礙文獻(xiàn)閱讀效率的進(jìn)一步提升。本文提出一種基于表格檢索和機(jī)器學(xué)習(xí)二階段的表格相關(guān)文本識(shí)別方法，階段一運(yùn)用表格內(nèi)容進(jìn)行全文檢索，獲取潛在相關(guān)文本；階段二構(gòu)建機(jī)器學(xué)習(xí)模型，判斷表格與潛在相關(guān)文本間的相關(guān)性，從而實(shí)現(xiàn)文獻(xiàn)中表格相關(guān)文本的自動(dòng)識(shí)別。以Text Retrieval Conference會(huì)議論文數(shù)據(jù)集為例，驗(yàn)證本文所提出的方法的有效性，證明該方法能夠快速抽取文獻(xiàn)中與圖表相關(guān)的文本，為現(xiàn)有的論文圖表抽取式摘要相關(guān)研究提供借鑒，對(duì)提高科研人員文獻(xiàn)調(diào)研效率具有重要的現(xiàn)實(shí)意義。

文獻(xiàn)表格；表格理解；機(jī)器學(xué)習(xí)

近年來(lái)，通信、網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步促進(jìn)了學(xué)術(shù)交流，加速了學(xué)術(shù)成果的產(chǎn)出，學(xué)術(shù)文獻(xiàn)數(shù)量也呈指數(shù)級(jí)增長(zhǎng)。2015年，僅在醫(yī)學(xué)領(lǐng)域，平均每天就有約2?200篇新論文發(fā)表[1]。海量文獻(xiàn)對(duì)科研人員的文獻(xiàn)調(diào)研、閱讀學(xué)習(xí)等科研工作提出了挑戰(zhàn)，如何在盡可能少的時(shí)間內(nèi)，從文獻(xiàn)中獲取盡可能多的有效信息，成為亟待解決的問(wèn)題。深度學(xué)習(xí)、自然語(yǔ)言處理等技術(shù)的興起，為海量學(xué)術(shù)文獻(xiàn)的自動(dòng)化處理、論文核心知識(shí)的自動(dòng)抽取提供了可能[2-4]。

當(dāng)前的大多數(shù)研究主要關(guān)注學(xué)術(shù)文獻(xiàn)的正文，往往忽略對(duì)圖像、表格和其他半結(jié)構(gòu)化信息的分析和處理。圖像、表格是學(xué)術(shù)文獻(xiàn)的重要組成部分，它們集中體現(xiàn)了學(xué)術(shù)研究的主要研究?jī)?nèi)容，圖表內(nèi)容也常用于支撐文獻(xiàn)核心觀點(diǎn)。多項(xiàng)研究表明，表格通常用于呈現(xiàn)實(shí)驗(yàn)的設(shè)置和結(jié)果，以及已有實(shí)驗(yàn)、背景或術(shù)語(yǔ)定義的相關(guān)信息[5-6]。Futrelle[7]以生物科學(xué)領(lǐng)域的文獻(xiàn)為例展開(kāi)研究，發(fā)現(xiàn)學(xué)術(shù)文獻(xiàn)中的圖表及其相關(guān)文本描述占整篇論文的50%。相較于文字內(nèi)容，圖表內(nèi)容因其簡(jiǎn)潔明了的視覺(jué)特性，在閱讀速度上有較大的優(yōu)勢(shì)。因此，以圖表內(nèi)容作為科技文獻(xiàn)摘要的補(bǔ)充信息，是一種輔助科研人員快速定位、理解文獻(xiàn)的可行手段。包括Springer、CNKI、Semantic Scholar在內(nèi)的多家科技文獻(xiàn)服務(wù)商也逐步將文獻(xiàn)中的圖表納入檢索范圍，提供文獻(xiàn)圖表檢索功能。

然而，當(dāng)前此類服務(wù)尚不完善，其主要原因在于：學(xué)術(shù)文獻(xiàn)中的圖表，特別是表格，以結(jié)構(gòu)化的形式高度概括了文獻(xiàn)的實(shí)驗(yàn)流程、研究成果等關(guān)鍵知識(shí)，其表現(xiàn)形式具有一定的抽象性，要求讀者具備相關(guān)的領(lǐng)域知識(shí)。在缺乏表格相關(guān)上下文信息的情況下，讀者往往很難充分理解表格內(nèi)容[8]。Yu等[9]的實(shí)證研究表明，僅提供表標(biāo)題而不提供相關(guān)補(bǔ)充信息將顯著降低受試者對(duì)表格的理解程度。讀者無(wú)法通過(guò)圖表理解文獻(xiàn)的主要內(nèi)容時(shí)，只能重新走上通篇閱讀文獻(xiàn)的老路，閱讀效率無(wú)法得到有效提高。因此，從學(xué)術(shù)文獻(xiàn)全文中識(shí)別出與圖表相關(guān)的信息，對(duì)幫助讀者充分理解表格的含義，節(jié)省文獻(xiàn)閱讀時(shí)間有重要的現(xiàn)實(shí)意義。

為實(shí)現(xiàn)自動(dòng)識(shí)別學(xué)術(shù)文獻(xiàn)中與表格相關(guān)的信息、輔助科研人員快速理解表格內(nèi)容、提升學(xué)術(shù)調(diào)研工作效率，本文提出一種基于表格檢索和機(jī)器學(xué)習(xí)的二階段方法，階段一運(yùn)用表格內(nèi)容進(jìn)行全文檢索，將檢索結(jié)果作為與表格內(nèi)容潛在相關(guān)的文本；階段二在學(xué)習(xí)檢索特征和文本特征的基礎(chǔ)上，使用機(jī)器學(xué)習(xí)分類方法對(duì)潛在相關(guān)文本與具體表格的相關(guān)性進(jìn)行判斷。然后通過(guò)收集的Text Retrieval Conference會(huì)議論文數(shù)據(jù)，對(duì)本文提出的方法進(jìn)行驗(yàn)證，得到了較好的結(jié)果。

1 相關(guān)研究

本研究基于表格檢索和機(jī)器學(xué)習(xí)，實(shí)現(xiàn)表格相關(guān)文本的識(shí)別，主要涉及表格識(shí)別與定位以及表格相關(guān)文本抽取這兩個(gè)領(lǐng)域，其相關(guān)研究狀況如下。

1.1 表格識(shí)別與定位

國(guó)內(nèi)外學(xué)者對(duì)PDF文件中表格的識(shí)別、定位進(jìn)行了多方面、深入的研究。竇方坤等[10]以藥學(xué)文獻(xiàn)為主要研究對(duì)象，抽取文獻(xiàn)PDF中的所有文本元素，確定表標(biāo)題文本所在區(qū)域，將表標(biāo)題以下的區(qū)域看作表格所在區(qū)域。于豐暢等[11]運(yùn)用機(jī)器視覺(jué)技術(shù)和PDF解析技術(shù)，從底層編碼分析和圖片理解兩種視角獲取圖表范圍的先驗(yàn)信息，通過(guò)對(duì)PDF中的幾何對(duì)象進(jìn)行聚類來(lái)確定圖表坐標(biāo)。田翠華等[12]基于pdfplumber，設(shè)計(jì)了一款基于Python平臺(tái)對(duì)PDF文檔中的表格進(jìn)行識(shí)別和提取的軟件。Siegel等[13]提出一種在大量科學(xué)文獻(xiàn)中為圖表形成高質(zhì)量標(biāo)簽的無(wú)監(jiān)督方法，并使用這個(gè)數(shù)據(jù)集訓(xùn)練了一個(gè)用于表格檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)。近年來(lái)深度學(xué)習(xí)技術(shù)發(fā)展迅速，越來(lái)越多的研究人員使用深度學(xué)習(xí)方法實(shí)現(xiàn)PDF中的表格檢測(cè)。這些研究根據(jù)網(wǎng)絡(luò)類型，可以分為目標(biāo)檢測(cè)算法（Faster R-CNN[14]、Mask R-CNN[15]、YOLO[16]等）、卷積神經(jīng)網(wǎng)絡(luò)（CNN[17]）和圖神經(jīng)網(wǎng)絡(luò)（GNN[18]）等。

1.2 表格相關(guān)文本抽取

表格相關(guān)文本提取的相關(guān)研究主要圍繞為表格生成提取式摘要展開(kāi)。1999年，F(xiàn)utrelle等[19]手工構(gòu)建了4個(gè)科技文獻(xiàn)中圖表摘要的例子，討論了自動(dòng)化圖表摘要生成的流程和相關(guān)算法。Jain等[20]提出了一種基于注意力機(jī)制的混合分層Encoder-Decoder模型，該模型能夠利用表內(nèi)容之外的結(jié)構(gòu)，但其局限性在于只能對(duì)固定模式的表格進(jìn)行處理。Yu等[21]采用分層聚類技術(shù)，基于詞匯相似性對(duì)學(xué)術(shù)文獻(xiàn)中的句子和圖表進(jìn)行聚類，根據(jù)聚類結(jié)果確定與圖表相關(guān)的文本。Agarwal等[22]構(gòu)建了自動(dòng)為生物醫(yī)學(xué)文獻(xiàn)中的圖表生成結(jié)構(gòu)化文本摘要系統(tǒng)FigSum，生成的結(jié)構(gòu)化摘要由4類句子生成，包括圖表的背景信息、實(shí)現(xiàn)圖表所示內(nèi)容的方法等。不過(guò)，F(xiàn)igSum的實(shí)驗(yàn)數(shù)據(jù)僅基于44個(gè)生物醫(yī)學(xué)領(lǐng)域論文中的圖表，因此模型的泛化能力有待進(jìn)一步研究。Bhatia等[23]找到文檔文本中引用圖表的句子，計(jì)算學(xué)術(shù)文獻(xiàn)中每個(gè)句子與引用句的相似度和接近度，從而確定與圖表相關(guān)的文本；此外，還研究了如何選擇最佳的圖表摘要大小，以在信息的完備度和生成的摘要長(zhǎng)度間取得平衡。Takeshima等[24]提出一種權(quán)重傳播機(jī)制，在“單詞重要性估計(jì)”和“句子權(quán)重更新”等過(guò)程中確定與圖表相關(guān)度最高的句子。Park等[25]提出了一種基于本體的、從論文正文中提取圖表描述性文本的方法，為句子構(gòu)建知識(shí)表示，采用本體語(yǔ)義來(lái)輔助圖表相關(guān)信息的概念識(shí)別。Saini等[26]提出了一種新的無(wú)監(jiān)督方法（FigSum++），使用多目標(biāo)進(jìn)化算法對(duì)生物科學(xué)領(lǐng)域的文章自動(dòng)生成圖表摘要。也有學(xué)者對(duì)現(xiàn)有的自動(dòng)生成圖表摘要系統(tǒng)進(jìn)行了對(duì)比評(píng)估。如Polepalli等[27]通過(guò)從19種不同的期刊中選取94個(gè)帶注釋的圖表，對(duì)一系列FigSum+系統(tǒng)進(jìn)行評(píng)價(jià)，并通過(guò)準(zhǔn)確性、召回率、F1和ROUGE分?jǐn)?shù)來(lái)評(píng)估測(cè)試結(jié)果，結(jié)果表明：最好的FigSum+系統(tǒng)是基于無(wú)監(jiān)督方法的系統(tǒng)，F(xiàn)1得分為0.66，ROUGE-1得分為0.97。

通過(guò)文獻(xiàn)調(diào)研發(fā)現(xiàn)，現(xiàn)有相關(guān)研究仍存在可改進(jìn)之處。已有研究往往針對(duì)單一表結(jié)構(gòu)展開(kāi)，且以學(xué)術(shù)文獻(xiàn)中的表格作為研究對(duì)象的較少，沒(méi)有充分利用表格標(biāo)題、注釋等表格相關(guān)文本。所使用的方法也較為局限，如基于文本相似度、基于本體、基于規(guī)則等，往往依賴大量人工處理，難以擴(kuò)展到大規(guī)模學(xué)術(shù)文獻(xiàn)數(shù)據(jù)集上。本研究所提出的方法不受表格結(jié)構(gòu)、格式的影響，可擴(kuò)展應(yīng)用于不同布局的表格。此外，本研究將表格標(biāo)題納入表格全文檢索的檢索字段中，輔助表格相關(guān)文本的識(shí)別。

盡管本文所提出的方法旨在識(shí)別學(xué)術(shù)文獻(xiàn)原文中與表格相關(guān)的描述信息，不屬于文本生成任務(wù)，但可為圖表摘要的自動(dòng)生成相關(guān)研究提供借鑒。此外，表格相關(guān)文本的自動(dòng)識(shí)別還能在輔助科研人員快速理解表格內(nèi)容、提升學(xué)術(shù)調(diào)研工作效率、增強(qiáng)圖表檢索效果等多方面發(fā)揮作用。

2 基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本識(shí)別

2.1 問(wèn)題界定

本文所提出的方法旨在自動(dòng)識(shí)別并抽取學(xué)術(shù)文獻(xiàn)PDF中的表格以及對(duì)表格進(jìn)行描述、解釋的表格相關(guān)文本。本研究將表格相關(guān)文本定義為一組對(duì)表格進(jìn)行描述或解釋的句子，如圖1所示，示例中陰影部分即為與表格Table 2相關(guān)的文本。該表格主要對(duì)模型在各個(gè)實(shí)驗(yàn)指標(biāo)上的效果進(jìn)行展示，表格相關(guān)文本的主要內(nèi)容是對(duì)不同模型以及指標(biāo)數(shù)值的闡述和對(duì)比分析。

圖1 文獻(xiàn)表格相關(guān)文本識(shí)別任務(wù)示例

2.2 研究思路

在規(guī)范的學(xué)術(shù)文獻(xiàn)正文中，作者為了對(duì)實(shí)驗(yàn)指標(biāo)或?qū)嶒?yàn)配置進(jìn)行具體展示、描述或討論，會(huì)使用諸如“如表1所示，某指標(biāo)……”之類明確的關(guān)于表格中具體內(nèi)容的引用?；谶@種寫作規(guī)范，本文將表格內(nèi)容作為檢索詞，通過(guò)檢索的方式在正文中查找表格內(nèi)容可能相關(guān)的信息。需要指出的是，由于表格中文字內(nèi)容數(shù)量較少且專有名詞占比較大，檢索結(jié)果不可避免包含并非與具體表格存在直接關(guān)聯(lián)的內(nèi)容，如相關(guān)研究章節(jié)中對(duì)于其他研究中指標(biāo)性能的介紹。因此，仍需要從語(yǔ)義角度對(duì)檢索到的文本是否與具體表格相關(guān)進(jìn)行判斷。

本文提出一種基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本識(shí)別方法，研究思路如下。

階段一：基于表格檢索的潛在相關(guān)文本獲取。識(shí)別并抽取文獻(xiàn)中的表格數(shù)據(jù)內(nèi)容，在表格數(shù)據(jù)、表格標(biāo)題的基礎(chǔ)上構(gòu)建檢索詞，進(jìn)行全文檢索，獲取與表格內(nèi)容有潛在相關(guān)關(guān)系的文本。

階段二：基于機(jī)器學(xué)習(xí)的相關(guān)性判斷。構(gòu)建檢索特征和文本語(yǔ)義特征融合的機(jī)器學(xué)習(xí)模型，學(xué)習(xí)文本檢索結(jié)果是否與表格內(nèi)容相關(guān)，若相關(guān)則進(jìn)一步判斷具體與哪一個(gè)表格相關(guān)。將檢索特征和文本特征拼接作為機(jī)器學(xué)習(xí)模型的輸入，機(jī)器學(xué)習(xí)模型輸出輸入特征所表征的文本是否與文獻(xiàn)中的任一表格相關(guān)。若相關(guān)，則根據(jù)階段一中表格的全文檢索結(jié)果進(jìn)一步確定其具體與哪一表格相關(guān)。整體研究流程如圖2所示。

（1）表格定位與抽取。表格定位是指識(shí)別PDF文件中的表格，并獲取表格在PDF中的坐標(biāo)。本研究以于豐暢等[11]提出的基于機(jī)器視覺(jué)的PDF學(xué)術(shù)文獻(xiàn)結(jié)構(gòu)識(shí)別方法作為本任務(wù)的表格定位算法，獲取表格坐標(biāo)并存入結(jié)構(gòu)化數(shù)據(jù)庫(kù)。

獲得表格坐標(biāo)后，需要根據(jù)坐標(biāo)抽取表格的數(shù)據(jù)內(nèi)容。本研究調(diào)用camelot第三方庫(kù)抽取特定坐標(biāo)的表格所對(duì)應(yīng)的數(shù)據(jù)內(nèi)容。

（2）文本抽取與表格、表標(biāo)題匹配。利用PyMuPDF庫(kù)讀取PDF文件，獲取PDF全文文本及坐標(biāo)，根據(jù)學(xué)術(shù)論文中表格標(biāo)題特征編寫正則表達(dá)式，對(duì)獲取的PDF全文文本按句匹配，得到表格標(biāo)題文本。計(jì)算表格標(biāo)題文本與表格的歐氏距離，實(shí)現(xiàn)表格標(biāo)題與表格的一一對(duì)應(yīng)。

（3）候選檢索詞生成。針對(duì)表格數(shù)據(jù)內(nèi)容，若數(shù)據(jù)值為數(shù)字，則直接輸出為檢索詞；若數(shù)據(jù)值為文本，則去除停用詞、轉(zhuǎn)換為小寫后輸出為檢索詞。此外，對(duì)表格標(biāo)題進(jìn)行分詞、刪除“table”、去除停用詞等預(yù)處理，形成表格候選檢索詞。

（4）潛在相關(guān)文本獲取與文本特征構(gòu)建。使用上一步獲得的檢索詞，運(yùn)用全文檢索技術(shù)，對(duì)段落粒度、句子粒度的文本進(jìn)行檢索，并構(gòu)建×1維的檢索特征向量，其中n是文獻(xiàn)中段落/句子的數(shù)量。對(duì)于一篇學(xué)術(shù)文獻(xiàn)中的所有句子或段落，若其出現(xiàn)在該文獻(xiàn)中任一表格的檢索結(jié)果中，則檢索特征值為1；若其未出現(xiàn)在檢索結(jié)果中，則檢索特征值為0。經(jīng)過(guò)此步驟，可以確定與表格有潛在相關(guān)關(guān)系的文本。

本文構(gòu)造了基于TF-IDF的語(yǔ)義特征向量，對(duì)學(xué)術(shù)文獻(xiàn)正文文本進(jìn)行特征提取，獲得學(xué)術(shù)文獻(xiàn)段落粒度文本、句子粒度文本的TF-IDF特征值。將檢索特征與文本特征拼接，得到融合特征，作為后續(xù)文本與表格的關(guān)聯(lián)性預(yù)測(cè)的輸入特征。

（5）文本關(guān)聯(lián)性預(yù)測(cè)與表格關(guān)聯(lián)文本確定。文本關(guān)聯(lián)性預(yù)測(cè)是二分類文本任務(wù)，即將與表格有潛在相關(guān)關(guān)系的文本分為“與文獻(xiàn)中的任一表格相關(guān)”或“與文獻(xiàn)中所有表格無(wú)關(guān)”兩類。本研究采用支持向量機(jī)（Support Vector Machines，SVM）算法完成分類任務(wù)。運(yùn)用Scikit-learn機(jī)器學(xué)習(xí)庫(kù)中提供的SVM模型，以“潛在相關(guān)文本獲取與文本特征構(gòu)建”步驟中構(gòu)建的融合特征作為輸入，實(shí)現(xiàn)文本關(guān)聯(lián)性預(yù)測(cè)。

對(duì)預(yù)測(cè)結(jié)果為“與文獻(xiàn)中的任一表格相關(guān)”的文本t，結(jié)合表格全文檢索結(jié)果，若其被某一表格的檢索詞檢索到，則認(rèn)為文本t是該表格的關(guān)聯(lián)文本。

3 實(shí)驗(yàn)與討論

3.1 數(shù)據(jù)來(lái)源

本研究數(shù)據(jù)來(lái)源為Text Retrieval Conference會(huì)議論文集，論文采集情況如表1所示。

3.2 實(shí)驗(yàn)設(shè)置

3.2.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理步驟如下：①調(diào)用學(xué)術(shù)文獻(xiàn)解析工具Grobid[28]對(duì)學(xué)術(shù)文獻(xiàn)的正文進(jìn)行識(shí)別，對(duì)作者姓名與機(jī)構(gòu)、參考文獻(xiàn)等與實(shí)驗(yàn)無(wú)關(guān)的文本進(jìn)行過(guò)濾；②對(duì)從學(xué)術(shù)論文PDF中抽取的段落粒度的文本，運(yùn)用Nltk庫(kù)[29]進(jìn)行句子分割，形成句子粒度的文本數(shù)據(jù)集；③將文本中的換行符、制表符、單詞跨行連字符刪除，并統(tǒng)一轉(zhuǎn)換為小寫。

3.2.2 數(shù)據(jù)標(biāo)注

由于時(shí)間有限，且標(biāo)注全部數(shù)據(jù)的人力成本較高，實(shí)驗(yàn)按照表格布局、表格數(shù)據(jù)類型等特征對(duì)Text Retrieval Conference會(huì)議論文集進(jìn)行采樣，共選取263篇論文中的303個(gè)表格進(jìn)行標(biāo)注，標(biāo)注情況如表2所示。后續(xù)研究將進(jìn)一步擴(kuò)充數(shù)據(jù)集，增加標(biāo)注數(shù)據(jù)量。從人工標(biāo)注結(jié)果來(lái)看，在數(shù)據(jù)集中與表格無(wú)關(guān)的文本占比較大，存在明顯的數(shù)據(jù)不平衡問(wèn)題，會(huì)對(duì)機(jī)器學(xué)習(xí)模型的分類性能造成影響。因此，設(shè)與表格相關(guān)的文本為正例，與表格無(wú)關(guān)的文本為負(fù)例，按照正例∶負(fù)例=3∶1的比例對(duì)負(fù)例進(jìn)行下采樣。

標(biāo)注示例如圖3所示，標(biāo)注文件中保存段落/句子粒度的學(xué)術(shù)文本、所屬章節(jié)、文本是否與文獻(xiàn)中的某一表格相關(guān)。此標(biāo)注文件用于評(píng)價(jià)文獻(xiàn)表格有效信息關(guān)聯(lián)任務(wù)的最終效果。

圖3 “相關(guān)文本-表格”標(biāo)注文件示例

在標(biāo)注完成后，對(duì)每一文獻(xiàn)中的所有表格標(biāo)注文件進(jìn)行遍歷，對(duì)于文獻(xiàn)中的每一條文本記錄，只要與任一表格相關(guān)，就標(biāo)記為表格相關(guān)文本，用于文本關(guān)聯(lián)性預(yù)測(cè)任務(wù)的評(píng)價(jià)。

3.2.3 實(shí)驗(yàn)細(xì)節(jié)和參數(shù)設(shè)置

實(shí)驗(yàn)各流程的相關(guān)細(xì)節(jié)和參數(shù)設(shè)置如表3所示。

3.3 實(shí)驗(yàn)結(jié)果和分析

3.3.1 消融實(shí)驗(yàn)

實(shí)驗(yàn)包含兩個(gè)子階段，分別是表格相關(guān)文本預(yù)測(cè)和“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定。為探究本文提出的基于表格檢索與機(jī)器學(xué)習(xí)二階段模型的有效性以及不同粒度文本對(duì)實(shí)驗(yàn)結(jié)果的影響，開(kāi)展以下對(duì)比實(shí)驗(yàn)：①以僅使用TF-IDF特征的SVM模型作為表格相關(guān)文本預(yù)測(cè)實(shí)驗(yàn)的baseline模型，與提出的二階段模型的實(shí)驗(yàn)結(jié)果對(duì)比，觀察結(jié)合檢索特征是否能提升相關(guān)文本預(yù)測(cè)的準(zhǔn)確率、召回率等指標(biāo)。②以僅通過(guò)表格檢索獲得潛在相關(guān)文本的模型作為“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定實(shí)驗(yàn)的baseline，與提出的二階段模型的實(shí)驗(yàn)結(jié)果對(duì)比，觀察在潛在相關(guān)文本的基礎(chǔ)上進(jìn)一步進(jìn)行文本分類是否能提升文本、表格間一一對(duì)應(yīng)的效果。實(shí)驗(yàn)結(jié)果如表4、表5所示。其中，0代表文本與表格無(wú)關(guān)，1代表文本與表格相關(guān)。

從以上兩表可知，在文本相關(guān)性預(yù)測(cè)實(shí)驗(yàn)中，將表格檢索結(jié)果與文本特征結(jié)合的方法使得召回率、精確率、F1都有所提升。在“相關(guān)文本-表格”關(guān)聯(lián)實(shí)驗(yàn)中，將檢索得到的潛在相關(guān)文本直接作為最終表格相關(guān)文本的baseline模型，在確定文本、表格間的一一對(duì)應(yīng)關(guān)系上的效果較差，準(zhǔn)確率、召回率低于本文提出的二階段方法。

3.3.2 結(jié)果分析

（1）不同粒度效果。在表格相關(guān)文本預(yù)測(cè)實(shí)驗(yàn)中，段落粒度的實(shí)驗(yàn)結(jié)果優(yōu)于句子粒度，推測(cè)原因是與表格相關(guān)的段落，包含多個(gè)與表格關(guān)聯(lián)的句子，分類特征更為明顯。

“相關(guān)文本-表格”關(guān)聯(lián)實(shí)驗(yàn)的結(jié)果則相反，在句子粒度上實(shí)驗(yàn)結(jié)果更佳。例如，“模型二+檢索”的實(shí)驗(yàn)精確率為0.74，高于“模型一+檢索”的0.68?？赡艿脑蚴嵌温淙菀资艿蕉鄠€(gè)句子信息融合的影響，而句子包含的關(guān)于特定表格的信息明確，因此更容易判斷和哪個(gè)表格有關(guān)聯(lián)。

（2）表格相關(guān)文本預(yù)測(cè)效果。表4的實(shí)驗(yàn)結(jié)果表明，相較于基線模型，結(jié)合表格檢索結(jié)果的方法有顯著提升，F1提升了5%，由此推斷：將表格檢索的結(jié)果與文本特征拼接能夠改進(jìn)機(jī)器學(xué)習(xí)模型在表格相關(guān)文本預(yù)測(cè)實(shí)驗(yàn)中的效果。

（3）“相關(guān)文本-表格”關(guān)聯(lián)效果。由表5可知，不通過(guò)表格相關(guān)文本預(yù)測(cè)實(shí)驗(yàn)篩選相關(guān)文本，直接根據(jù)檢索結(jié)果確定文本與表格之間的關(guān)聯(lián)關(guān)系的方法召回率、準(zhǔn)確率均較低。該方法是無(wú)監(jiān)督過(guò)程，可以使用全部的表格、文本數(shù)據(jù)，而數(shù)據(jù)中負(fù)例占比較大，且準(zhǔn)確率、召回率高，因此整體的精確率數(shù)值較高。

對(duì)比表5中段落粒度的兩個(gè)模型的實(shí)驗(yàn)效果，運(yùn)用SVM機(jī)器學(xué)習(xí)方法的模型在正例（結(jié)果類別為1）的精確率提升38%，召回率提升13%。在句子粒度上，SVM機(jī)器學(xué)習(xí)模型也優(yōu)于基線模型。SVM機(jī)器學(xué)習(xí)模型在段落粒度、句子粒度上均優(yōu)于基線模型，因此得出結(jié)論，在進(jìn)行“相關(guān)文本-表格”的關(guān)聯(lián)之前，先通過(guò)表格相關(guān)文本預(yù)測(cè)實(shí)驗(yàn)篩選相關(guān)文本可以提升模型效果。圖4為表格示例，圖5為表格相關(guān)文本示例，其中陰影部分為本文提出的方法所識(shí)別出的與表格相關(guān)的文本。

圖4 表格示例

圖5 表格相關(guān)文本示例

（4）整體實(shí)驗(yàn)效果。綜合表格相關(guān)文本預(yù)測(cè)和“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定兩個(gè)實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果可以看出，基于SVM和表格檢索模型的段落粒度實(shí)驗(yàn)效果最好，與基線實(shí)驗(yàn)相比，在各個(gè)指標(biāo)上的提升最明顯。在“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定實(shí)驗(yàn)中，本研究?jī)H使用表格檢索的結(jié)果，精確率仍有待提高。

根據(jù)表4結(jié)果，段落粒度實(shí)驗(yàn)在各項(xiàng)指標(biāo)上優(yōu)于句子粒度實(shí)驗(yàn)，F1提高了4%。對(duì)比表5中不同粒度模型的實(shí)驗(yàn)效果可以發(fā)現(xiàn)，兩階段模型在正例分類上相較于baseline模型都有提升，段落粒度最為明顯，準(zhǔn)確率和召回率分別提升38%、13%，句子粒度為32%、12%。綜上，基于SVM和表格檢索模型的段落粒度實(shí)驗(yàn)效果最好，與基線實(shí)驗(yàn)相比，在各個(gè)指標(biāo)上的提升最明顯。此外，“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定實(shí)驗(yàn)精確率尚有待提高，當(dāng)前實(shí)驗(yàn)的主要不足在于，對(duì)被預(yù)測(cè)為與任一表格關(guān)聯(lián)的文本和具體表格之間的匹配問(wèn)題，僅使用表格檢索的結(jié)果，特征不足。后續(xù)研究將考慮增加后處理步驟或挖掘其他特征，實(shí)現(xiàn)更精確的“相關(guān)文本-表格”關(guān)聯(lián)關(guān)系確定。

4 結(jié)論與局限性

本文提出了一種基于表格檢索和機(jī)器學(xué)習(xí)，在學(xué)術(shù)文獻(xiàn)全文中識(shí)別表格相關(guān)文本的方法，在Text Retrieval Conference數(shù)據(jù)集上從段落粒度、句子粒度對(duì)表格相關(guān)文本識(shí)別進(jìn)行了驗(yàn)證。由實(shí)驗(yàn)結(jié)果可知，本文提出的方法能夠?qū)ΜF(xiàn)有的圖表摘要進(jìn)行有效的補(bǔ)充，對(duì)提高文獻(xiàn)閱讀效率具有重要的現(xiàn)實(shí)意義。但本研究仍存在不足之處，例如本文使用的機(jī)器學(xué)習(xí)模型對(duì)于自然語(yǔ)言理解能力尚有欠缺，且實(shí)驗(yàn)效果受表格抽取工具精確度的影響。未來(lái)考慮在更加廣泛的多學(xué)科數(shù)據(jù)上，使用深度學(xué)習(xí)自然語(yǔ)言模型作進(jìn)一步的改進(jìn)研究。

［1］ MEDLINE/PubMed Resources［EB/OL］.［2022-11-21］. http://www.nlm.nih.gov/bsd/stats/cit_added.html.

［2］ CARVAILLO J C，BAROUKI R，COUMOUL X，et al. Linking bisphenol S to adverse outcome pathways using a combined text mining and systems biology approach［J］. Environmental health perspectives，2019，127（4）：047005.

［3］ KVELER K，STAROSVETSKY E，ZIV-KENET A，et al. Immune-centric network of cytokines and cells in disease context identified by computational mining of PubMed［J］. Nature Biotechnology，2018，36（7）：651-659.

［4］ TCHOUA R B，CHARD K，AUDUS D，et al. A hybrid human-computer approach to the extraction of scientific facts from the literature［J］. Procedia Computer Science，2016，80：386-397.

［5］ YEPES A J，VERSPOOR K. Towards automatic large-scale curation of genomic variation：improving coverage based on supplementary material［J］. BioLINK SIG，2013，2013：39-43.

［6］ WONG W，MARTINEZ D，CAVEDON L. Extraction of named entities from tables in gene mutation literature［C］// Proceedings of the BioNLP 2009 Workshop. Stroudsburg：Association for Computational Linguistics，2009：46-54.

［7］ FUTRELLE R P. Handling figures in document summarization［C］//Text Summarization Branches Out. Association for Computational Linguistics，2004：61-65.

［8］ SANDUSKY R J，TENOPIR C. Finding and using journal‐article components：Impacts of disaggregation on teaching and research practice［J］. Journal of the American Society for Information Science and Technology，2008，59（6）：970-982.

［9］ YU H，AGARWAL S，JOHNSTON M，et al. Are figure legends sufficient? Evaluating the contribution of associated text to biomedical figure comprehension［J］. Journal of Biomedical Discovery and Collaboration，2009，4（1）：1-10.

［10］竇方坤，曹皓偉，徐建良. 基于文本元素的PDF表格區(qū)域識(shí)別方法研究［J］. 軟件導(dǎo)刊，2020，19（1）：113-116.

［11］于豐暢，程齊凱，陸偉. 基于幾何對(duì)象聚類的學(xué)術(shù)文獻(xiàn)圖表定位研究［J］. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2020，5（1）：140-149.

［12］田翠華，張一平，胡志鋼，等. PDF文檔表格信息的識(shí)別與提取［J］. 廈門理工學(xué)院學(xué)報(bào)，2020，28（3）：70-76.

［13］ SIEGEL N，LOURIE N，PORWER R，et al. Extracting scientific figures with distantly supervised neural networks［C］//Proceedings of the 18th ACM/IEEE on Joint Conference on Digital Libraries. New York：Association for Computing Machinery，2018：223-232.

［14］ SCHREIBER S，AGNE S，WOLF I，et al. Deepdesrt：Deep learning for detection and structure recognition of tables in document images［C］//2017 14th IAPR International Conference on Document Analysis and Recognition（ICDAR）. IEEE，2017：1162-1167.

［15］ SAHA R，MONDAL A，JAWAHAR C V. Graphical object detection in document images［C］//2019 International Conference on Document Analysis and Recognition（ICDAR）. Piscataway：IEEE，2019：51-58.

［16］ HUANG Y，YAN Q，LI Y，et al. A YOLO-based table detection method［C］//2019 International Conference on Document Analysis and Recognition（ICDAR）. Piscataway：IEEE，2019：813-818.

［17］ KAVASIDIS I，PINO C，PALAZZO S，et al. A saliency-based convolutional neural network for table and chart detection in digitized documents［C］//International Conference on Image Analysis and Processing. Cham：Springer，2019：292-302.

［18］ RIBA P，DUTTA A，GOLDMANN L，et al. Table detection in invoice documents by graph neural networks［C］//2019 International Conference on Document Analysis and Recognition（ICDAR）. Piscataway：IEEE，2019：122-127.

［19］ FUTRELLE R P. Summarization of diagrams in documents［J］. Advances in Automated Text Summarization，1999：403-421.

［20］ JAIN P，LAHA A，SANKARANARAYANAN K，et al. A mixed hierarchical attention based encoder-decoder approach for standard table summarization［J/OL］. arXiv preprint arXiv：1804.07790［2022-11-21］. DOI:10.18653/v1/N18-2098.

［21］ YU H. Towards answering biological questions with experimental evidence：automatically identifying text that summarize image content in full-text articles［C］//AMIA Annual Symposium Proceedings. Bethesda：American Medical Informatics Association，2006：834.

［22］ AGARWAL S，YU H. FigSum：automatically generating structured text summaries for figures in biomedical literature［C］//AMIA Annual Symposium Proceedings. Bethesda：American Medical Informatics Association，2009：6.

［23］ BHATIA S，MITRA P. Summarizing figures，tables，and algorithms in scientific publications to augment search results［J］. ACM Transactions on Information Systems，2012，30（1）：1-24.

［24］ TAKESHIMA R，WATANBE T. The Extraction of Figure-Related Sentences to Effectively Understand Figures［M］//KACPRZYK J. Innovations in Intelligent Machines-2. Berlin：Springer Berlin Heidelberg，2012：19-31.

［25］ PARK G，RAYZ J T，POUCHARD L. Figure descriptive text extraction using ontological representation［C］//The Thirty-Third International Flairs Conference. Palo Alto：AAAI Press，2020.

［26］ SAINI N，SAHA S，BHATTACHARYYA P，et al. Textual entailment-based figure summarization for biomedical articles［J］. ACM Transactions on Multimedia Computing，Communications，and Applications，2020，16（1s）：1-24.

［27］ POLEPALLI R B，SETHI R J，YU H. Figure-associated text summarization and evaluation［J］. PloS One，2015，10（2）：e0115671.

［28］ LOPEZ P. GROBID：Combining automatic bibliographic data recognition and term extraction for scholarship publications［C］//International Conference on Theory and Practice of Digital Libraries. Berli，Springer，2009：473-474.

［29］ BIRD S，LOPER E. Nltk：The natural language toolkit［C］//Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. 2004：31.

Automatic Recognition of Table-related Text in Literature Based on Table Retrieval and Machine Learning Two-stage Method

HUANG JiaNi YU FengChang

( School of Information Management, Wuhan University, Wuhan 430072, P. R. China )

The tables in academic literature concisely represent the core knowledge in the literature in a structured form. Numerous academic search engines have integrated tables into retrieval results, which may help researchers quickly grasp the core knowledge and improve the research efficiency. However, while solely displaying the table without offering related information about it, readers frequently fail to fully understand the table’s content, hindering further improvement of literature reading efficiency. We propose a two-stage table-related text recognition method based on machine learning and table retrieval. Stage 1 uses the table content to perform a full-text retrieval, and the retrieval results are regarded as the text potentially related to the table. Stage 2 builds a machine learning model to determine the correlation between the table and potentially relevant text, thereby realizing the automatic recognition of relevant text in the literature. This study utilizes the dataset from the Text Retrieval Conference as an example to verify the effectiveness of the method proposed in this paper. This method can easily extract text related to tables in the literature, which can provide a reference for the existing research on extractive summary of scientific tables and it is of great practical significance for improving the efficiency of literature research.

Scientific Table; Table Understanding; Machine Learning

（2022-11-06）

TP391

10.3772/j.issn.1673-2286.2022.11.009

黃佳妮，于豐暢. 基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本自動(dòng)識(shí)別[J]. 數(shù)字圖書館論壇，2022（11）：34-42.

黃佳妮，女，1999年生，碩士研究生，研究方向：文本挖掘。

于豐暢，男，1990年生，博士后，通信作者，研究方向：信息抽取、機(jī)器學(xué)習(xí)，E-mail：yufc2002@whu.edu.cn。

* 本研究得到2021年度湖北省博士后創(chuàng)新研究崗位項(xiàng)目“基于遷移學(xué)習(xí)的開(kāi)放領(lǐng)域非格式化文檔理解”（編號(hào)：211000090）資助。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本自動(dòng)識(shí)別*

1 相關(guān)研究

1.1 表格識(shí)別與定位

1.2 表格相關(guān)文本抽取

2 基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本識(shí)別

2.1 問(wèn)題界定

2.2 研究思路

3 實(shí)驗(yàn)與討論

3.1 數(shù)據(jù)來(lái)源

3.2 實(shí)驗(yàn)設(shè)置

3.3 實(shí)驗(yàn)結(jié)果和分析

4 結(jié)論與局限性