摘要:為提升合同中數(shù)據(jù)項識別和提取的準確率,提出一種基于卷積神經網絡(ConvolutionalNeuralNetwork,CNN)和殘差結構單元(ResidualBuildingUnit,RBU)結合優(yōu)化的CNN\|RECR(RealEstateTransactionContractInformationDetectionandRecognitionMethodBasedonImprovedConvolutionalNeuralNetwork)模型,并將其應用到不動產交易平臺中合同數(shù)據(jù)項的識別提取場景。首先,針對提取特征表示能力弱等問題,設計了合同數(shù)據(jù)文本檢測網絡(ContractDataTextDetectionNetwork,CDTD\|Net)對合同手寫文字的不同尺度特征進行提??;其次,與殘差結構單元相結合,設計識別文字與識別數(shù)字模型;最后,對實例進行實驗,實驗結果顯示CNN\|RECR模型的識別準確率達到97.62%,證明本方法能有效提高模型的識別性能,為實現(xiàn)低成本運行奠定了基礎。
關鍵詞:卷積神經網絡;殘差結構單元;合同數(shù)據(jù);識別提取
中圖分類號:TP391.1文獻標志碼:A
0 引言(Introduction)
在不動產登記交易領域,為了加快數(shù)據(jù)的處理速度,實現(xiàn)合同的數(shù)字化管理成為關鍵。數(shù)字化合同不僅便于備份,還能快速檢索合同中的詳細信息,確保合同中的數(shù)據(jù)與相關數(shù)據(jù)庫中的信息一致,保障交易的合法性和準確性[1]。因此高效地進行合同管理、信息的識別和提取,是實現(xiàn)這一目標的重要前提條件。
Hewlett\|Packard公司開發(fā)的開源OCR(OpticalCharacterRecognition)引擎Tesseract[2]最早是于1985年由HP(Hewlett\|Packard)實驗室的開發(fā)團隊發(fā)布的,通常借助光學字符識別技術(OpticalCharacterRecognition,OCR)將圖片中的信息轉化為計算機可以處理的數(shù)據(jù)[3]。ZHOU[4]提出采用改進的連接文本區(qū)域網絡(CTPN)文本檢測算法和卷積循環(huán)神經網絡(CRNN)模型對自然場景文字進行檢測與識別。2016年,DAI等[5]提出了殘差網絡(ResNet),通過引入殘差學習解決了深度神經網絡訓練中的梯度消失問題。YOLO(YouOnlyLookOnce)[6]是由JosephRedmon和AliFarhadi于2016年提出的目標檢測算法,它在實時目標檢測方面表現(xiàn)出色。
在數(shù)據(jù)識別提取的過程中,構建特征庫耗時且耗力,提取的圖片特征容易被噪聲干擾。本文提出一種基于卷積神經網絡(CNN)和殘差結構單元(RBU)結合優(yōu)化的CNN\|RECR(RealEstateTransactionContractInformationDetectionandRecognitionMethodBasedonImprovedConvolutionalNeuralNetwork)模型。該模型以卷積神經網絡(CNN)為基礎,并結合了殘差結構單元(RBU)進行優(yōu)化。通過在數(shù)據(jù)集上進行實驗驗證,結果表明CNN\|RECR模型提升了合同處理任務的實用性和可靠性。
1相關理論(Correlationtheories)
1.1卷積神經網絡
卷積神經網絡(ConvolutionalNeuralNetwork,CNN)是一種深度學習模型。計算機科學家YANN在1998年提出了卷積神經網絡(CNN)的概念[7],并在手寫字符識別等領域展示了其卓越的性能。傳統(tǒng)的卷積神經網絡在圖像處理過程中需要處理的數(shù)據(jù)量大,圖像數(shù)字化處理無法保留原有的圖像特征,導致圖像識別效率低下。相比之下,CNN則通過減少權重數(shù)量,相比于傳統(tǒng)的卷積神經網絡,能有效地提升圖像的識別能力。卷積神經網絡的拓撲結構如圖1所示。
對于房產交易合同中的手寫數(shù)據(jù)項的識別和提取過程,其目標函數(shù)是連接主干網絡(BackboneNetwork)及文本識別頭部(TextRecognitionHead)的綜合損失函數(shù),是由3個損失函數(shù)加權在一起的,分別為連接時序分類損失(ConnectionistTemporalClassification)、定位損失(LocalizationLoss)、分類損失(ClassificationLoss)。
連接時序分類損失的數(shù)學表達式為
其中:S表示訓練集;LCTC(S)表示給定序列和輸入后,最終輸出正確序列的概率。
定位損失的數(shù)學表達式為
其中:LNLL(Y,Y′)是一整個數(shù)據(jù)集中的交叉熵損失,n是樣本數(shù)量,C是類別數(shù)量,yij是第i個樣本的實際類別分布,y′[KG-1mm]ij是第i個樣本的模型預測的類別概率分布。
對于文字識別,分類損失選取使用交叉熵損失(Cross\|EntropyLoss)作為損失函數(shù),交叉熵損失結合Softmax函數(shù)的輸出與實際標簽之間的差異,用于衡量模型的性能。交叉熵損失的數(shù)學表達式為
其中:xi表示真實標簽的第i個元素,yi表示模型預測x屬于第i個類別的概率。
1.2殘差結構單元
殘差結構單元(RBU)是深度學習中用于構建殘差神經網絡(ResidualNeuralNetwork,ResNet)的基本組成部分。LIU等[8]的研究表明,RBU模塊能有效地提升圖像處理任務性能。殘差結構單元模塊通過引入捷徑連接的深度神經網絡結構,有效地解決了深層網絡訓練中的梯度消失問題,它是在提出的CNN模型的基礎上進行了優(yōu)化,旨在得到更高質量的識別結果。本文通過在CNN中引入殘差模塊解決了深度神經網絡訓練困難的問題。
本文在文字識別模型中采用了殘差結構單元,以緩解梯度消失問題,同時提升特征提取能力并加速模型訓練。
RBU結構如公式(4)所示:
特征映射如公式(5)所示,是指未添加捷徑連接的公式。
特征映射如公式(6)所示,是指添加了捷徑連接后,降低了模型優(yōu)化難度。在這里,擬合函數(shù)屬于一種數(shù)學模型,通常用于表示觀測數(shù)據(jù)之間的關系,用來學習恒等映射轉變成特征映射以及輸入的數(shù)據(jù)之間的差值。
公式(7)表示的是一個殘差塊,通過引入殘差連接,也就是將輸入添加到映射F(x),能更好地進行深層次網絡訓練。
基于優(yōu)化卷積的神經網絡模型是在傳統(tǒng)卷積神經網絡的基礎上構建的,它首先對數(shù)據(jù)集進行圖像預處理,其次在殘差結構單元的基礎上進行文本行處理及文字識別,判斷數(shù)據(jù)屬于哪一種類型,并構建相應的數(shù)據(jù)模型,最后得到結果輸出。
基于優(yōu)化卷積的神經網絡模型的流程如圖3所示。
2.1圖像預處理
圖像預處理是在將圖像輸入計算機視覺或圖像處理任務之前,對圖像進行的一系列操作和變換,旨在準備和優(yōu)化數(shù)據(jù)。圖像預處理有利于提高模型的性能,減少噪聲和一些不必要的信息,并且可以讓模型容易學習到有用的特征。圖像預處理的模塊包括圖像的銳化、圖像二值化、圖像形態(tài)學運算及模板匹配等。
對于房產交易合同的圖像預處理,通常是在準備圖像的同時進行一些其他任務,比如數(shù)據(jù)分析、文本提取等。該模塊對房產交易合同的掃描圖像輸入進行整體分析,并匹配每個數(shù)據(jù)項的位置坐標。其中使用高斯模糊技術對圖像中的噪點和一些不必要的要素進行去除,不僅可以提高圖像的質量,還能對識別到的合同數(shù)據(jù)圖像進行平滑處理。公式(8)為高斯函數(shù)的概率密度函數(shù)。
2.2文本行處理
文本行處理是指房產交易合同中的文本行處理模塊提取文本行的操作。進行掃描的合同是經過審核且留有檔案的合同,要求對每項對應的數(shù)據(jù)項和數(shù)據(jù)類型進行識別和處理。但是,對傾斜的文本進行識別和處理時,提取到的特征向量中字符特征發(fā)生了形變。在傳統(tǒng)的CRNN模型中,由于其具有時序性,因此有時會導致對輸入的圖像識別不完整的情況,要對特征f沿h維度進行平局池化,以此得到序列特征f∈Rc1h×1×〖SX(〗1〖〗8〖SX)〗w。如圖4所示,模型無法識別圖像中的“張”與“健”,無法確定與標簽相對應的關系,圖4中c、h、w分別為輸入圖像的統(tǒng)一通道數(shù)量、通道高、通道寬。
2.3文字的識別
在房產交易合同中的識別任務可以理解為是對數(shù)據(jù)的分類任務。通過統(tǒng)計分析,觀察到文本內容存在文字和數(shù)字混合的情況。針對兩種不同類型的數(shù)據(jù)進行分析,本文設計了CDTD\|Net檢測算法用于提取不同尺度特征并進行融合,該網絡基于FPN(FeaturePyramidNetworks)進行了改進和優(yōu)化,增加了特征提取層,它可以用于檢測和識別更小的手寫文字,CNN\|RECR模型包含識別文字模型和識別數(shù)字模型。
2.3.1識別文字模型構建
識別文字模型的構建步驟如下。
步驟1:圖像獲取和預處理。
初始階段,通過在圖像采集過程獲取輸入圖像,并對獲取圖像進行預處理操作,保證之后的分析可以在優(yōu)化的數(shù)據(jù)表示上進行。
步驟2:文字載體的識別獲取。
通過模型進行圖像識別,識別所有的文字載體[9],判斷其數(shù)據(jù)類型,若是文字,則將其轉換為對應的文本表示,若不是文字,則跳過該數(shù)據(jù)。在這一階段中,模型用捕獲文本信息和記錄文字在圖像中位置信息的方式,建立文字的空間分布信息。
步驟3:轉換為對應的文字。
判斷識別的文字數(shù)據(jù)類型,若是文字,則將其轉換為對應的文本表示。
步驟4:記載文字的位置。
通過識別文字具體的方位信息并進行記載,有利于精確定位圖像中的文字,讓模型在文本的具體位置上提供更準確的信息。
步驟5:獲取語句結構分布情況。
通過RBU,模型對特征向量進行處理并對模型的參數(shù)量進行修改,同時通過捷徑連接加速模型參數(shù)向前傳遞。經過RBU之后,模型執(zhí)行一維卷積層的轉換,將特征向量轉換為多維形式,獲取到語句結構的分布情況[10]。最后取識別的中間特征向量中概率最大的索引值為識別結果。
識別文字模型的流程圖如圖6所示。
3 實驗結果與分析(Experimentalresultsandanalysis)
3.1實驗數(shù)據(jù)及環(huán)境配置
為了驗證本文提出的CNN\|RECR模型對于房產交易合同文字進行提取和識別的效果,在實驗過程中采用存量房房產交易簽約合同圖片數(shù)據(jù)集進行模型的性能測試,并對比其他模型的數(shù)據(jù)項識別提取效果[12]。
3.1.1實驗數(shù)據(jù)
存量房房產交易簽約合同圖片數(shù)據(jù)集的數(shù)據(jù)集規(guī)模如表2所示;各類數(shù)據(jù)所含信息實例如表3所示。
3.1.2環(huán)境配置
實驗使用了Python編程語言和PyTorch框架,訓練和測試的硬件環(huán)境是AMDRyzen54500UCPU,軟件環(huán)境基于Python3.11版本實現(xiàn)。
3.2實驗結果分析
3.2.1手寫文本檢測算法驗證
本文采用精確率、召回率及加權調和的平均F作為合同中手寫文本檢測效果的指標,并與一些特征提取模型進行了實驗對比,如GoogleNet[13]、BertNet[14]及VGG16[15]等,驗證CDTD\|Net在特征提取方面的優(yōu)勢,對比結果如表4所示。實驗結果表明,相比于其他的算法,CDTD\|Net在提取文本特征準確率方面有了明顯的提高。
3.2.2不同模型對于文本識別結果對比
其中:precision(精準度/插準率)指被分類器判斷為1中預測正確的比重,recall(召回率/查全率)指被預測為正例的占總正例的比重。
本文提出了一種優(yōu)化的卷積神經網絡算法。該算法使用CNN\|RECR模型,結合了殘差結構單元,提高了對合同中數(shù)據(jù)項的識別、提取速度和精度。在以下4個不同的模型上進行了數(shù)據(jù)識別提取實驗,選取了YOLOv3\|CRNN[16]、PSENet\|CRNN[17]及Tesseract[18]3個模型與本文提出的CNN\|RECR模型在對數(shù)據(jù)項的識別準確性方面進行了對比(圖8),實驗結果顯示YOLOv3\|CRNN模型的識別準確率為77.10%,PSENet\|CRNN模型的識別準確率為80.60%,Tesseract模型的識別準確率為50.02%,本文提出的CNN\|RECR模型的識別準確率為97.62%。
根據(jù)圖8和表5中的數(shù)據(jù)可以看出,在房產交易合同數(shù)據(jù)項的識別、提取過程中,在相同的數(shù)據(jù)集條件下,與YOLOv3\|CRNN、PSENet\|CRNN及Tesseract相比,CNN\|RECR模型的識別準確率分別提高了20.52百分點、17.02百分點、47.60百分點。CNN\|RECR模型可以明顯地提高模型的識別準確率。
4結論(Conclusion)
本文基于FPN構造了CDTD\|Net,旨在提取手寫數(shù)據(jù)的不同特征,并提出了基于優(yōu)化卷積神經網絡的房產交易合同數(shù)據(jù)識別方法,設計了CNN\|RECR模型。CDTD\|Net可以使難以完整識別的手寫數(shù)據(jù)更準確地被識別,結合CNN與殘差結構單元,減輕了模型的優(yōu)化難度,增強了其特征表示能力,同時提高了網絡對于文字特征的抽取能力。實驗結果表明,與傳統(tǒng)的CNN模型相比,本文提出的方法對文本數(shù)據(jù)提取和識別的準確率更高,并降低了存儲開銷和計算復雜性。
參考文獻(References)
[1]趙旭升,趙前.電子合同的應用與展望[J].中國石油企業(yè),2021(9):77\|80.
[2]SMITHR.AnoverviewoftheTesseractOCRengine[C]∥IEEE.ProceedingsoftheNinthinternationalconferenceondocumentanalysisandrecognition(ICDAR2007.LosAlamitos:ntix4PGVjgSyva785hN5R2fnzHHL5Y5TZcrhhRlatB0=IEEEComputerSociety,2007,2:629\|633.
[3]SABUAM,DASAS.ASurveyonvariousOpticalCharacterRecognitionTechniques[C]∥IEEE.Proceedingsofthe2018ConferenceonEmergingDevicesandSmartSystems.Piscataway:IEEE,2018:152\|155.
[4]ZHOUY.ResearchontextdetectionandrecognitionalgorithmbasedonCNNinnaturalscene[D].Shanxi:shanxiuniversity,2020:14\|34.
[5]DAIJF,HEKM,SUNJ.Instance\|awaresemanticsegmentationviamulti\|tasknetworkcascades[C]∥IEEE.Proceedingsofthe2016IEEEconferenceoncomputervisionandpatternrecognition.Piscataway:IEEE,2016:3150\|3158.
[6]REDMONJ,DIVVALAS,GIRSHICKR,etal.Youonlylookonce:Unified,real\|timeobjectdetection[C]∥IEEE.Proceedingsofthe2016IEEEconferenceoncomputervisionandpatternrecognition.Piscataway:IEEE,2016:779\|788.
[7]BONTARJ,LECUNY.Computingthestereomatchingcostwithaconvolutionalneuralnetwork[C]∥IEEE.Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.Piscataway:IEEE,2015:1592\|1599.
[8]LIUX,SUGANUMAM,SUNZ,etal.Dualresidualnetworksleveragingthepotentialofpairedoperationsforimagerestoration[C]∥IEEE.Proceedingsofthe2019IEEE/CVFconferenceoncomputervisionandpatternrecognition.Piscataway:IEEE,2019:7007\|7016.
[9]劉影,余進,陳莉.基于改進卷積神經網絡的多標簽文本自動化分類研究[J].自動化與儀器儀表,2023(11):62\|66.
[10] 徐歡,張喜銘,楊秋勇,等.基于卷積神經網絡算法的電網數(shù)據(jù)治理方法[J].南京郵電大學學報(自然科學版),2023,43(6):102\|111.
[11]王治學.基于圖卷積神經網絡的主題模型文本分類探究[J].科技創(chuàng)新與應用,2023,13(36):83\|86.
[12]陳暄,吳吉義.基于優(yōu)化卷積神經網絡的車輛特征識別算法研究[J].電信科學,2023,39(10):101\|111.
[13]SIMONYANK,VEDALDIA,ZISSERMANA.Descriptorlearningusingconvexoptimisation[M]∥LectureNotesinComputerScience.Berlin,Heidelberg:SpringerBerlinHeidelberg,2012:243\|256.
[14]LIUW,ANGUELOVD,ERHAND,etal.Ssd:Singleshotmultiboxdetector[C]∥Springer.ProceedingsoftheComputerVision\|ECCV2016:14theuropeanconference,amsterdam,thenetherlands,October11\|14,2016,proceedings,partI14.springerinternationalpublishing.Berlin:Springer,2016:21\|37.
[15]SINGHS,GARGNK,KUMARM.VGG16:offlinehandwrittenDevanagariwordrecognitionusingtransferlearning[J].Multimediatoolsandapplications,2024,83(29):72561\|72594.
[16]WUQM,SONGYT.TextdetectioninnaturalscenesbasedonYOLOv3andCRNN[J].Computerengineeringanddesign,2022,43(8):2352\|2360.
[17]YUEB,ZHANGZT.Englishbillboardtextrecognitionusingdeeplearning[J].Journalofphysics:conferenceseries,2021,1994(1):012003.
[18]ZENGY,MAMD.ResearchontextrecognitionbasedonTesseractOCR[J].Computertechnologyanddevelopment,2021,31(11):76\|80.