摘要:隨著工程和設(shè)計(jì)行業(yè)的快速發(fā)展,計(jì)算機(jī)輔助設(shè)計(jì)(Computer-AidedDesign,CAD)系統(tǒng)在生產(chǎn)設(shè)計(jì)圖紙方面發(fā)揮著不可或缺的作用。然而,傳統(tǒng)CAD系統(tǒng)在表格數(shù)據(jù)管理和提取方面存在局限性,尤其是在處理大規(guī)模的工程圖紙中的表格數(shù)據(jù)時(shí)。為了解決這一問題,提出了一種新的自動(dòng)化方法來提取CAD圖紙中的大型表格數(shù)據(jù)。通過將原始CAD文件轉(zhuǎn)換為圖像格式,并應(yīng)用先進(jìn)的圖像處理技術(shù)和深度學(xué)習(xí)模型(SAHI算法和Cycle-CenterNet模型),該方法能夠有效地提高表格數(shù)據(jù)的識(shí)別準(zhǔn)確率和處理效率。實(shí)驗(yàn)結(jié)果顯示,對(duì)比直接提取表格數(shù)據(jù),使用該方法能顯著提高數(shù)據(jù)提取的精確度、召回率和F1分?jǐn)?shù),驗(yàn)證了其在自動(dòng)化提取大型CAD表格數(shù)據(jù)方面的有效性。未來的工作將集中在優(yōu)化模型架構(gòu)和提升其在不同類型圖紙中的通用性和效果。
關(guān)鍵詞:計(jì)算機(jī)輔助設(shè)計(jì)表格檢測表格結(jié)構(gòu)識(shí)別表格信息提取表格分割圖像處理深度學(xué)習(xí)卷積網(wǎng)絡(luò)
中圖分類號(hào):
DesignofCADTableRecognitionAlgorithmBasedonDeepLearning
FANGJingyu1HANWentao1YINGChengcai2HETianxiang3XURruiji3MAOKeji3*
1.ConstructionBranchofStateGridZhejiangElectricPowerCo.,Ltd,Hangzhou,ZhejiangProvince,310000China;2.ZhejiangHuayunInformationTechnologyCo.,Ltd,Hangzhou,ZhejiangProvince,310000China;3.ZhejiangUniversityofTechnology,Hangzhou,ZhejiangProvince,310000China
Abstract:Withtherapiddevelopmentoftheengineeringanddesignindustries,Computer-AidedDesign(CAD)playanindispensableroleinproducingdesigndrawings.However,traditionalCADsystemshavelimitationsinmanagingandextractingtabulardata,especiallywhendealingwithlarge-scaleengineeringdrawings.Toaddressthisissue,thispaperintroducesanewautomatedmethodforextractinglargetabledatafromCADdrawings.ByconvertingoriginalCADfilesintoimageformatsandapplyingadvancedimageprocessingtechniquesalongwithDeepLearningmodel(SAHIalgorithmandCycle-CenterNetmodel),thismethodcaneffectivelyimprovetheaccuracyandefficiencyoftabledatarecognitionandprocessing.Experimentalresultsshowthat,comparedtodirectextractionoftabledata,usingthismethodsignificantlyenhancestheprecision,recall,andF1scoreofdataextraction.Futureworkwillfocusonoptimizingthemodelarchitectureandenhancingitsapplicabilityandperformanceacrossvarioustypesofdrawings.
KeyWords:CAD;Tabledetection;Tablestructurerecognition;Tableinformationextraction;Tablesegmentation;Imageprocessing;DeepLearning;Convolutionalnetwork
在各種工程和設(shè)計(jì)行業(yè)中,計(jì)算機(jī)輔助設(shè)計(jì)(Computer-AidedDesign,CAD)軟件被廣泛應(yīng)用于產(chǎn)品設(shè)計(jì)、建筑規(guī)劃、工程制圖等多個(gè)領(lǐng)域。CAD系統(tǒng)能夠提供精確的繪制工具,輔助設(shè)計(jì)師高效地創(chuàng)建復(fù)雜的設(shè)計(jì)圖紙。這些圖紙內(nèi)嵌了大量的設(shè)計(jì)信息,包括幾何圖形、尺寸標(biāo)注、附帶的表格數(shù)據(jù)等,特別是表格數(shù)據(jù),通常用于詳細(xì)記錄設(shè)計(jì)參數(shù)、物料清單、規(guī)格說明等關(guān)鍵信息,表格規(guī)模較大。如何從繁雜的CAD圖紙中準(zhǔn)確和快速地提取出表格數(shù)據(jù)對(duì)于提高設(shè)計(jì)分析、項(xiàng)目管理及成本估算的效率至關(guān)重要。
盡管CAD軟件提供了強(qiáng)大的設(shè)計(jì)和繪圖功能,但在表格數(shù)據(jù)管理和提取方面卻相對(duì)薄弱。傳統(tǒng)的表格數(shù)據(jù)提取需要人工進(jìn)行操作,操作者需要在眾多圖層和復(fù)雜的圖紙之間進(jìn)行切換,手動(dòng)查找和記錄表格數(shù)據(jù),這個(gè)過程不僅費(fèi)時(shí)費(fèi)力,而且容易出現(xiàn)疏漏和錯(cuò)誤。隨著項(xiàng)目規(guī)模的擴(kuò)大和工作流程的數(shù)字化轉(zhuǎn)型,自動(dòng)化的數(shù)據(jù)提取方法變得尤為重要。
在此背景下,探索高效的CAD表格數(shù)據(jù)自動(dòng)提取技術(shù)不僅可以提升工作效率,還有助于減少人為錯(cuò)誤、保證數(shù)據(jù)的準(zhǔn)確性和一致性,這對(duì)于確保設(shè)計(jì)質(zhì)量、加速項(xiàng)目進(jìn)度、優(yōu)化資源分配等方面意義重大。
1相關(guān)工作
近年來,隨著計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的快速發(fā)展,表格提取技術(shù)取得了顯著進(jìn)展[1],表格提取技術(shù)也應(yīng)用于各個(gè)領(lǐng)域如財(cái)務(wù)報(bào)表[2]、科技文獻(xiàn)[3]、工業(yè)數(shù)據(jù)[4]等。然而,大多數(shù)研究集中于標(biāo)準(zhǔn)大小的文本和表格數(shù)據(jù)提取,而對(duì)于CAD大型工程圖紙中的大型表格提取的研究則相對(duì)較少。工程圖紙中的表格通常包含設(shè)計(jì)參數(shù)、物料清單、規(guī)格說明等關(guān)鍵信息,表格規(guī)模較大,直接使用深度模型訓(xùn)練對(duì)算力的要求很大,而縮放為標(biāo)準(zhǔn)尺寸后分辨率較低,模型準(zhǔn)確率較低,難以滿足工程使用的需求。
KOCIE等人[5]采用了一種基于圖的方法對(duì)電子表格進(jìn)行結(jié)構(gòu)識(shí)別,通過將單元格分類并構(gòu)建標(biāo)簽區(qū)域圖,將表格結(jié)構(gòu)識(shí)別(TowardsStructureRecognition,TSR)問題轉(zhuǎn)化為子圖分割任務(wù)。SIDDIQUISA等人[6]針對(duì)文檔圖像中表格位置和大小的多樣性提出了一種基于可變形卷積網(wǎng)絡(luò)的表格檢測方法,將表格結(jié)構(gòu)識(shí)別視為對(duì)象檢測問題,通過引入偏移向量和可變形的ROI-pooling層來適應(yīng)不同區(qū)域的表格行和列檢測。XUEWY等人[7]將表格結(jié)構(gòu)識(shí)別問題重新定義為表格圖重構(gòu)問題,通過結(jié)合ResNet50+FPN的特征提取和兩個(gè)并行處理分支——單元格檢測和單元格邏輯定位,利用分割方法生成單元格分割圖以確定位置,并應(yīng)用圖卷積網(wǎng)絡(luò)(GraphConvolutionNetwork,GCN)學(xué)習(xí)表格圖表示,將其視為有序節(jié)點(diǎn)分類問題,同時(shí),采用focalloss處理不平衡問題,最終實(shí)現(xiàn)對(duì)每個(gè)單元格空間位置及起始行列的準(zhǔn)確預(yù)測。SHENHW等人[8]提出了一種創(chuàng)新的基于圖像到文本的表格結(jié)構(gòu)識(shí)別方法,通過級(jí)聯(lián)的兩步解碼器架構(gòu),有效緩解了錯(cuò)誤積累問題,其中,第一步解碼器以非自回歸方式預(yù)測HTML表格行標(biāo)記,第二步以半自回歸方式預(yù)測單元格標(biāo)記,該方法不僅更適合圖像數(shù)據(jù)的二維結(jié)構(gòu),而且在處理大型表格(長序列預(yù)測)時(shí)表現(xiàn)更優(yōu)。
這些研究不僅展示了深度學(xué)習(xí)技術(shù)在表格數(shù)據(jù)提取方面的巨大潛力,而且提供了重要的技術(shù)路線圖,為進(jìn)一步開發(fā)高效和可靠的CAD表格提取技術(shù)提供了參考。但是,相關(guān)研究中,關(guān)于CAD中大型表格數(shù)據(jù)的自動(dòng)提取的研究較少。如何有效提取CAD中的大型表格數(shù)據(jù)需要進(jìn)一步的研究。
2研究方法
整個(gè)表格提取的過程如圖1所示。首先,將CAD圖紙中的表格轉(zhuǎn)換為圖片形式;然后,進(jìn)行預(yù)處理,提升圖片質(zhì)量。由于表格規(guī)模過大,直接提取的準(zhǔn)確率較低,因此,采用SAHI(SlicingAidedHyperInference)算法對(duì)表格進(jìn)行分割,把表格分為大小相同的分片,并記錄各個(gè)分片的坐標(biāo),對(duì)分片使用Cycle-CenterNet進(jìn)行數(shù)據(jù)提取,提取后的數(shù)據(jù)根據(jù)分片的坐標(biāo)和數(shù)據(jù)在各分片中的相對(duì)坐標(biāo)將其還原為原始表格。
2.1預(yù)處理階段
在處理CAD表格數(shù)據(jù)的預(yù)處理階段,首先,將原始CAD文件(如DWG或DXF格式)轉(zhuǎn)換成圖像格式,這有助于圖像處理算法的應(yīng)用。為了提高后續(xù)步驟的處理質(zhì)量和效率,采用高斯濾波去除圖像中的噪聲,并通過閾值處理技術(shù)OTSU算法去除非表格部分。整個(gè)預(yù)處理流程旨在優(yōu)化圖紙質(zhì)量,為接下來的數(shù)據(jù)提取和分析提供準(zhǔn)備,確保后續(xù)步驟的準(zhǔn)確性和效率。
2.2表格分割
CAD工程圖紙中的表格通常規(guī)模較大,無法直接識(shí)別,需要進(jìn)一步進(jìn)行分割。采用SAHI算法[9]對(duì)表格進(jìn)行分割。SAHI是一種用于對(duì)象檢測的算法,通過將大圖像分割成小塊,單獨(dú)對(duì)每個(gè)小塊進(jìn)行推理,來解決圖像縮放后細(xì)節(jié)丟失的問題,從而改進(jìn)物體的檢測效果。將表格分割為1024×1024的分片,如圖2所示,(a)為原始圖片,(b)為處理后的部分分片。記錄每個(gè)分片在表格中的坐標(biāo)根據(jù)每個(gè)分片在表格中的坐標(biāo),可以重新組合分片,恢復(fù)表格的全貌。
2.3內(nèi)容提取
對(duì)于分割后的表格分片,需要進(jìn)行文本提取和分析。使用Cycle-CenterNet[10]表格結(jié)構(gòu)識(shí)別模型來提取表格數(shù)據(jù)。該模型是以自底向上的方式:(1)基于單元格中心點(diǎn)回歸出到4個(gè)頂點(diǎn)的距離,解碼出單元格bbox(boundingbox);同時(shí),基于單元格頂點(diǎn),回歸出到共用該頂點(diǎn)的單元格的中心點(diǎn)距離,解碼出gbox(groupbox);(2)基于gbox,將離散的bbox拼接起來,得到精準(zhǔn)完整的電子表格。
3實(shí)驗(yàn)與結(jié)果
3.1實(shí)驗(yàn)數(shù)據(jù)
該研究中的數(shù)據(jù)來源于國家電網(wǎng)浙江省送變電工程有限公司的施工圖紙,包括1309張鐵塔設(shè)計(jì)圖紙,涵蓋了各種常見的鐵塔型號(hào)和設(shè)計(jì)風(fēng)格。具體包括了110~500kV的單雙回路及四回路的各類鐵塔設(shè)計(jì)圖,涵蓋直線塔、耐張轉(zhuǎn)角塔、換位塔、直線轉(zhuǎn)角塔與終端塔共5種類別,具體的塔形包括了上字型、干字型、酒杯型、貓頭型、羊角型與鼓型塔,數(shù)據(jù)分布情況如表1所示。
對(duì)施工圖表格進(jìn)行預(yù)處理后,我們按照廣泛使用的ICDAR2013[11]和ICDAR2019[12]的標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。
3.2評(píng)估指標(biāo)
模型性能根據(jù)準(zhǔn)確率(Precision)[13]、召回率(Recall)和F1分?jǐn)?shù)進(jìn)行評(píng)估。
準(zhǔn)確率:被提取的數(shù)據(jù)中正確提取的數(shù)據(jù)的比率。召回率:所有所需提取的數(shù)據(jù)里被正確提取的比率。F1分?jǐn)?shù):對(duì)準(zhǔn)確率和召回率的綜合評(píng)估。三項(xiàng)評(píng)估指標(biāo)的計(jì)算方式為
其中,TP為正確提取的數(shù)據(jù),F(xiàn)P為錯(cuò)誤提取的數(shù)據(jù),F(xiàn)N為未能提取的數(shù)據(jù)。
這些評(píng)估指標(biāo)是針對(duì)每個(gè)表格文件計(jì)算的,每個(gè)表格中的每個(gè)分片被視為子對(duì)象,對(duì)這些分片計(jì)算精確度和召回率,并對(duì)給定表格的所有分片取平均值,作為整個(gè)表格的評(píng)估指標(biāo)。
3.3實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)使用SAHI算法分片,然后使用Cycle-CenterNet網(wǎng)絡(luò)提取表格數(shù)據(jù)。實(shí)驗(yàn)環(huán)境如下表2所示。
實(shí)驗(yàn)采用的主要配置如下。
實(shí)驗(yàn)數(shù)據(jù):使用國家電網(wǎng)1309施工圖紙中的表格數(shù)據(jù)進(jìn)行實(shí)驗(yàn),以8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。
優(yōu)化器:使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)為0.001,帶有學(xué)習(xí)率衰減策略。
損失函數(shù):結(jié)合了位置損失(邊界框的定位)和識(shí)別損失(單元格內(nèi)容的識(shí)別)。
訓(xùn)練周期:模型經(jīng)過100個(gè)epochs的訓(xùn)練,使用驗(yàn)證集進(jìn)行模型性能的定期評(píng)估。
3.4實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果揭示了分片處理在提升表格識(shí)別性能方面具有顯著優(yōu)勢,尤其是在處理大型或復(fù)雜表格數(shù)據(jù)時(shí)。具體地,將采用了SAHI分片技術(shù)加上Cycle-CenterNet模型的組合與直接使用Cycle-CenterNet模型進(jìn)行表格識(shí)別比較。測試結(jié)果如表3所示。
如表3所示,采用SAHI分片的方法使Cycle-CenterNet模型的表現(xiàn)得到了全面提升,分片加模型的組合表現(xiàn)出了97.5%的準(zhǔn)確率和96.6%的召回率,F(xiàn)1得分達(dá)到了97.0%,反觀僅使用Cycle-CenterNet模型的情況,準(zhǔn)確率為80.2%,召回率為81.1%,F(xiàn)1得分為80.6%,這組對(duì)比數(shù)據(jù)清晰地展示了分片技術(shù)在提高識(shí)別準(zhǔn)確性、減少遺漏及平衡準(zhǔn)確率與召回率之間關(guān)系的重要作用。
通過分片處理,每個(gè)小片段都得以保持較高的圖像質(zhì)量和詳細(xì)信息,這為深度學(xué)習(xí)模型提供了更精確的輸入數(shù)據(jù),故而能有效地提高模型在識(shí)別表格時(shí)的準(zhǔn)確性和可靠性。此外,分片還限定了每個(gè)處理單元的數(shù)據(jù)范圍,降低了模型處理的復(fù)雜度,使得模型可以更集中地識(shí)別和處理每一部分的具體特征,進(jìn)而提高整體的識(shí)別效果。
3.5總結(jié)
綜上所述,通過分片的方法提取CAD圖紙表格具有優(yōu)勢,適合用于大型表格的識(shí)別。然而,分片過程可能會(huì)引入新的問題,如表格跨片斷裂等問題,未來的工作可以探索更智能的分片策略,如基于內(nèi)容的自適應(yīng)分片技術(shù),以減少對(duì)表格內(nèi)容完整性的影響;進(jìn)一步深化模型架構(gòu),如引入更深的殘差網(wǎng)絡(luò)或使用更先進(jìn)的圖像分割技術(shù),也可能提高模型在處理極其復(fù)雜圖紙的性能;此外,增強(qiáng)數(shù)據(jù)的多樣性和量化,如加入不同行業(yè)的施工圖紙,可能會(huì)提高模型的泛化能力和魯棒性。通過這些策略,未來研究將能更全面地應(yīng)對(duì)工程圖紙中表格信息提取的各種挑戰(zhàn),進(jìn)一步推動(dòng)自動(dòng)化和智能化的工程信息處理技術(shù)的發(fā)展。
4結(jié)語
本文中提出了一種高效的CAD工程圖紙大型表格提取方法,該方法使用表格分割技術(shù)和深度學(xué)習(xí)技術(shù),有效提高了從復(fù)雜圖紙中自動(dòng)化提取表格數(shù)據(jù)的準(zhǔn)確率和效率。實(shí)驗(yàn)結(jié)果表明,相較于傳統(tǒng)的手動(dòng)提取方法,使用該方法不僅顯著減少了所需的時(shí)間和人工成本,而且還提高了數(shù)據(jù)的準(zhǔn)確性與可靠性。由于工程圖紙的復(fù)雜多樣性,該方法還需通過實(shí)際案例測試來不斷調(diào)整和完善技術(shù),確保其在不同類型的工程圖紙和行業(yè)環(huán)境中的通用性和有效性。
參考文獻(xiàn)
[1]高良才,李一博,都林,等.表格識(shí)別技術(shù)研究進(jìn)展[J].中國圖象圖形學(xué)報(bào),2022,27(6):1898-1917.
[2]羅小清,賈網(wǎng),李佳靜,等.一種面向證券信息披露長文檔的表格分類方法[J].中文信息學(xué)報(bào),2023,37(5):70-79.
[3]黃佳妮,于豐暢.基于表格檢索和機(jī)器學(xué)習(xí)二階段的文獻(xiàn)表格相關(guān)文本自動(dòng)識(shí)別[J].數(shù)字圖書館論壇,2022(11):34-42.
[4]方浩東,鮑敏.工廠檢測檢驗(yàn)用手寫表格的識(shí)別及數(shù)字化處理方法[J].軟件工程,2023,26(5):20-23,10.
[5]KOCIE,THIELEM,ROMEROO,etal.Agenetic-basedsearchforadaptivetablerecognitioninspreadsheets[C]//2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR),Sydney,NSW,Australia,2019:1274-1279.
[6]SIDDIQUISA,F(xiàn)ATEHIA,RIZVISTR,etal.DeepTabStR:Deeplearningbasedtablestructurerecognition[C]//2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR),Sydney,NSW,Australia,2019:1403-1409.
[7]XUEWY,YUBS,WANGW,etal.TGRNet:Atablegraphreconstruction&hDURKVz6yT6+BXXOTlJxMhxMngaF7rWaVU3Z95cKCw4=nbsp;networkfortablestructurerecognition[C]//2021IEEE/CVFInternationalConferenceonComputerVision(ICCV),Montreal,QC,Canada,2021:1275-1284.
[8]SHENHW,GAOX,WEIJ,etal.Dividerowsandconquercells:Towardsstructurerecognitionforlargetables[C]//ProceedingsoftheThirty-SecondInternationalJointConferenceonArtificialIntelligence,2023:1369-1377.
[9]AKYONFC,ALTINUCSO,TEMIZELA.Slicingaidedhyperinferenceandfine-tuningforsmallobjectdetection[C]//2022IEEEInternationalConferenceonImageProcessing(ICIP)Bordeaux,F(xiàn)rance,,2022:966-970.
[10]LONGRJ,WANGW,XUEN,etal.Parsingtablestructuresinthewild[C]//2021IEEE/CVFInternationalConferenceonComputerVision(ICCV),Montreal,QC,Canada,2021:924-932.
[11]KARATZASD,SHAFAITF,UCHIDAS,etal.ICDAR2013robustreadingcompetition[C]//201312thInternationalConferenceonDocumentAnalysisandRecognition,Washington,DC,USA,2013:1484-1493.
[12]GAOLC,HUANGYL,DéJEANH,etal.ICDAR2019competitionontabledetectionandrecognition(cTDaR)[C]//2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR),Sydney,NSW,Australia,2019:1510-1515.
[13]SHAHABA,SHAFAITF,KIENINGERT,etal.Anopenapproachtowardsthebenchmarkingoftablestructurerecognitionsystems[C]//Proceedingsofthe9thIAPRInternationalWorkshoponDocumentAnalysisSystems.2010:113-120.