摘 要:電力標(biāo)準(zhǔn)規(guī)范是電力行業(yè)知識(shí)和信息的主要載體,也是豐富的知識(shí)寶庫(kù)。對(duì)標(biāo)準(zhǔn)的有效處理與深度挖掘?qū)τ陔娏χR(shí)管理和決策支持具有至關(guān)重要的作用。為了順應(yīng)標(biāo)準(zhǔn)數(shù)字化的潮流,對(duì)于電力行業(yè)標(biāo)準(zhǔn)進(jìn)行結(jié)構(gòu)化的技術(shù)研究勢(shì)在必行。另一方面,電力行業(yè)標(biāo)準(zhǔn)文檔具有結(jié)構(gòu)明確、內(nèi)容清晰,用語(yǔ)簡(jiǎn)介等特點(diǎn),適合進(jìn)行結(jié)構(gòu)化加工、信息抽取和知識(shí)工程的加工處理。因此,本文面對(duì)行業(yè)標(biāo)準(zhǔn)特征和電力業(yè)務(wù)的具體需求,提出了電力行業(yè)標(biāo)準(zhǔn)規(guī)范的自動(dòng)結(jié)構(gòu)化加工的技術(shù),并針對(duì)網(wǎng)絡(luò)安全領(lǐng)域進(jìn)行結(jié)構(gòu)化加工的訓(xùn)練和驗(yàn)證。
關(guān)鍵詞:技術(shù)標(biāo)準(zhǔn),結(jié)構(gòu)化加工
0 引 言
文檔結(jié)構(gòu)化技術(shù)是指通過(guò)對(duì)文檔內(nèi)容進(jìn)行分析和處理,將無(wú)結(jié)構(gòu)的文檔轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的一種技術(shù)。它可幫助我們更好地理解文檔的內(nèi)容和關(guān)系,提供更高效、準(zhǔn)確的信息檢索和管理功能。對(duì)于電力標(biāo)準(zhǔn)文檔而言,文檔的結(jié)構(gòu)化指的是通過(guò)對(duì)標(biāo)準(zhǔn)的PDF文件進(jìn)行識(shí)別、抽取、標(biāo)注等信息加工,生成分類明確、結(jié)構(gòu)清晰、索引規(guī)范的結(jié)構(gòu)化信息。
相比于非結(jié)構(gòu)化文本,結(jié)構(gòu)化后的信息具有兩個(gè)主要優(yōu)勢(shì):增強(qiáng)人類閱讀理解和實(shí)現(xiàn)機(jī)器可讀。對(duì)讀者來(lái)說(shuō),結(jié)構(gòu)化可以降低理解難度,簡(jiǎn)化檢索過(guò)程,增進(jìn)閱讀效率;對(duì)機(jī)器來(lái)說(shuō),通過(guò)對(duì)各種信息的分類、標(biāo)注和抽取,來(lái)實(shí)現(xiàn)各種模型于數(shù)據(jù)的對(duì)接;同時(shí),結(jié)構(gòu)化也使得進(jìn)一步的利用加工成為可能,包括但不限于文本處理、機(jī)器學(xué)習(xí),以及大模型訓(xùn)練和知識(shí)圖譜構(gòu)建。
電力領(lǐng)域的專用工具缺失是目前電力行業(yè)業(yè)界面臨的主要問(wèn)題,通用的結(jié)構(gòu)化工具并不能滿足電力行業(yè)對(duì)結(jié)構(gòu)化加工的具體需求。另一方面,為了數(shù)據(jù)安全和技術(shù)獨(dú)立,應(yīng)減少對(duì)“黑盒”網(wǎng)絡(luò)服務(wù)平臺(tái)和相關(guān)API的依賴,開(kāi)發(fā)自研的、可以本地離線運(yùn)行、可以獨(dú)立部署的結(jié)構(gòu)化工具。因此本文提出了針對(duì)電力行業(yè)標(biāo)準(zhǔn)的結(jié)構(gòu)化加工實(shí)現(xiàn)方案。
1 研究現(xiàn)狀
結(jié)構(gòu)化知識(shí)抽取研究主要包括實(shí)體識(shí)別、版式識(shí)別。
版式識(shí)別方面,比較常見(jiàn)的有基于連通域的版面分割算法、游程碼平滑分割算法、基于圖像背景的分割算法、紋理分析算法[1-4]。
實(shí)體識(shí)別方面Zhang 等人[5]首先提出了一種名為L(zhǎng)attice-LSTM 的結(jié)構(gòu)用于中文命名實(shí)體識(shí)別任務(wù),該模型對(duì) LSTM 進(jìn)行了改進(jìn),將單一字符匹配的詞語(yǔ)編碼為有向無(wú)環(huán)圖,利用了詞匯信息,在各個(gè)數(shù)據(jù)集上取得了較為不錯(cuò)的結(jié)果;Ma 等人[6]借鑒了 Lattice-LSTM 中結(jié)合詞匯的思想,在嵌入層引入詞匯集合,融合了詞級(jí)信息,減少信息損失,進(jìn)一步提升了結(jié)果;Li 等人[7]將 Transformer 結(jié)構(gòu)應(yīng)用于中文命名實(shí)體識(shí)別任務(wù)中,利用其位置編碼重構(gòu) Lattice 結(jié)構(gòu),因此融合詞匯信息的 Transformer結(jié)構(gòu)既能憑借全連接自注意力結(jié)構(gòu)捕捉上下文中的長(zhǎng)距離依賴信息,又能借助全新的位置編碼方式更高效地定位實(shí)體邊界。隨著以 BERT[8]為代表的預(yù)訓(xùn)練語(yǔ)言模型的發(fā)布,其已在諸多下游任務(wù)中取得了極佳的結(jié)果。
2 系統(tǒng)設(shè)計(jì)
2.1 總體思路
本文結(jié)合版式識(shí)別、模式識(shí)別與語(yǔ)義標(biāo)注技術(shù),通過(guò)將標(biāo)準(zhǔn)文檔的結(jié)構(gòu)化過(guò)程視為對(duì)文檔內(nèi)容組件的識(shí)別與標(biāo)注任務(wù),構(gòu)建了電力專業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)化加工模型。該模型以電力行業(yè)標(biāo)準(zhǔn)的pdf文檔為輸入,通過(guò)對(duì)文檔的內(nèi)容識(shí)別與標(biāo)注,形成結(jié)構(gòu)化、語(yǔ)義化信息,并最終以XML、JSON、Markdown等形式輸出。
2.2 系統(tǒng)框架設(shè)計(jì)
本文設(shè)計(jì)的結(jié)構(gòu)化加工工具主要流程包括以下幾個(gè)部分:(1)PDF文檔信息提取,(2)文本信息處理,(3)多模態(tài)信息的提取和處理:包括圖片信息和表格信息,(4)對(duì)不同元素的結(jié)構(gòu)功能識(shí)別,(5)知識(shí)加工與信息再組織,(6)以XML為例的結(jié)構(gòu)化信息輸出。系統(tǒng)整體流程如圖1所示。
2.3 系統(tǒng)關(guān)鍵技術(shù)
2.3.1 文本信息處理
本文設(shè)計(jì)的文本信息處理方法主要包括3個(gè)部分,段落結(jié)構(gòu)識(shí)別、標(biāo)題識(shí)別、標(biāo)題與正文的對(duì)應(yīng)關(guān)系識(shí)別。
(1)段落結(jié)構(gòu)識(shí)別
在PDF文件中,每個(gè)單獨(dú)的字都被視為一個(gè)獨(dú)立單元,因此,文本信息加工的第一步是將獨(dú)立單元的文字根據(jù)位置信息組成“行”,再組成“段”。
1)行結(jié)構(gòu)判定
本文中行結(jié)構(gòu)判定的實(shí)現(xiàn)邏輯為,針對(duì)相鄰的一組字符元素,進(jìn)行“一組文字是否給構(gòu)成一行”的判別任務(wù)。通過(guò)基于規(guī)則或機(jī)器學(xué)習(xí)的方式,判斷一組文字的排列方式(表現(xiàn)為每個(gè)文字的橫坐標(biāo)和縱坐標(biāo)的特征)是否滿足篇章排版中作為一行文字的判斷標(biāo)準(zhǔn)。本文中使用的判斷規(guī)則為:①文字的上邊界和下邊界分別在相同的橫坐標(biāo)上(誤差不超過(guò)3dpi)。② 縱坐標(biāo)的差值統(tǒng)一且小于某一閾值。
2)段落結(jié)構(gòu)判別
本文采用了基于規(guī)則的判別方法,即針對(duì)每一行文字,判斷該文字是否具有首行、末行以及中間行特征,并根據(jù)首行、末行以及中間行的判定組成段落結(jié)構(gòu)。具體規(guī)則為:①是否由首行的4字符長(zhǎng)度的縮進(jìn);②是否由句號(hào)或分號(hào)結(jié)尾;③行右端是否達(dá)到了頁(yè)面排版范圍的邊界。
(2)標(biāo)題識(shí)別
本文的采用了基于內(nèi)容的判斷方式。
1)通過(guò)目錄頁(yè)抽取一級(jí)標(biāo)題,形成一級(jí)標(biāo)題列表,并逐項(xiàng)進(jìn)行比對(duì)。
2)二級(jí)及以上的標(biāo)題通過(guò)內(nèi)容的正則表達(dá)進(jìn)行判斷:即是否由【數(shù)字-點(diǎn)-數(shù)字】(如3.3)的形式開(kāi)頭,且該行結(jié)尾沒(méi)有標(biāo)點(diǎn)。
3)通過(guò)【數(shù)字-點(diǎn)】的數(shù)量判斷標(biāo)題等級(jí)。
(3)標(biāo)題與正文的對(duì)應(yīng)關(guān)系識(shí)別
本文中標(biāo)題與正文的對(duì)應(yīng)關(guān)系識(shí)別通過(guò)被識(shí)別為標(biāo)題的段落塊的坐標(biāo)信息與被識(shí)別為正文的段落塊信息之間的相對(duì)位置關(guān)系進(jìn)行對(duì)應(yīng)關(guān)系識(shí)別。即,縱坐標(biāo)在第一個(gè)標(biāo)題下,和第二個(gè)標(biāo)題之上的段落塊被認(rèn)定為第一個(gè)標(biāo)題下的正文內(nèi)容。
2.3.2 表格信息提取
在本文中表格信息提取分為表格識(shí)別和表頭識(shí)別。
(1)表格識(shí)別
本文使用pdfplumber和tabula工具進(jìn)行表格信息的抽取。抽取的邏輯是:對(duì)于任何給定的PDF頁(yè)面,找到(a)明確定義和/或(b)由頁(yè)面上的單詞對(duì)齊所暗示的行。然后找到合并重疊或幾乎重疊的線,并求出所有這些直線的交點(diǎn)。再根據(jù)交點(diǎn)找到使用這些交點(diǎn)作為頂點(diǎn)的最細(xì)粒度的矩形集合(即單元格),最后將連續(xù)的單元格分組到表中。
(2)表頭識(shí)別
對(duì)表格前后的文本進(jìn)行正則判斷:利用表頭的特殊格式,即“表+編號(hào)+空格”,以及特殊格式(居中)進(jìn)行抽取。同時(shí)考慮了跨頁(yè)處理。
(3)表格內(nèi)容識(shí)別
分塊識(shí)別表格內(nèi)的文字并統(tǒng)一輸出成表格型數(shù)據(jù)進(jìn)行儲(chǔ)存。
2.3.3 圖片信息提取
本文設(shè)計(jì)的圖片提取方法包括圖片提取和圖片名稱提取兩個(gè)部分。
(1)圖片提取
本文使用spire.pdf和pymupdf工具進(jìn)行提取。通過(guò)對(duì)每一頁(yè)應(yīng)用圖片提取算法,按順序抽取出pdf的圖片及其坐標(biāo)。
(2)圖片采用類似表頭識(shí)別的判定方法,對(duì)與表格相距最近的段落塊進(jìn)行判定。
2.3.4 元數(shù)據(jù)識(shí)別
本文根據(jù)各類元數(shù)據(jù)信息的內(nèi)容特征、位置信息和字體格式信息進(jìn)行綜合判斷及抽取。表1所示是封面、前言涉及到的元數(shù)據(jù)信息的內(nèi)容特征。
2.3.5 結(jié)構(gòu)功能識(shí)別
對(duì)每一頁(yè)中的每一個(gè)元素進(jìn)行結(jié)構(gòu)功能識(shí)別的各項(xiàng)判定,根據(jù)不同的信息在文檔中的位置信息和內(nèi)容特征、以及抽取的字體信息,進(jìn)行“學(xué)習(xí)”的方式,判定其結(jié)構(gòu)功能,并通過(guò)標(biāo)簽的形式,將該元素/信息單元在篇章結(jié)構(gòu)中的版式功能進(jìn)行標(biāo)注。在完成所有頁(yè)的所有元素的結(jié)構(gòu)功能識(shí)別后,再根據(jù)各元素的標(biāo)簽進(jìn)行整理和再組織。具體如圖2所示。
2.4 系統(tǒng)驗(yàn)證和應(yīng)用
本文選取了網(wǎng)絡(luò)安全領(lǐng)域的4個(gè)標(biāo)準(zhǔn)PDF文檔進(jìn)行加工實(shí)驗(yàn):Q/GDW 10597-2022《應(yīng)用軟件系統(tǒng)通用安全技術(shù)要求及測(cè)試規(guī)范》、Q/GDW11445-2022《管理信息系統(tǒng)安全基線要求》、Q/GDW 10929.5-2018《信息系統(tǒng)應(yīng)用安全 第5部分:代碼安全檢測(cè)》和Q/EPRI 075-2016《國(guó)家電網(wǎng)公司移動(dòng)應(yīng)用軟件安全技術(shù)要求及測(cè)試方法》。具體測(cè)試結(jié)果如表2所示。
從實(shí)驗(yàn)結(jié)果可以看出,在結(jié)構(gòu)化加工各功能模塊的準(zhǔn)確率均在85%以上,其中圖片提取準(zhǔn)確率達(dá)到100%。
3 總 結(jié)
標(biāo)準(zhǔn)文本數(shù)據(jù)是標(biāo)準(zhǔn)數(shù)字化研究的樣本基礎(chǔ),有了詳實(shí)有效的數(shù)據(jù)才能更好地開(kāi)展標(biāo)準(zhǔn)數(shù)字化研究,本文根據(jù)電力技術(shù)標(biāo)準(zhǔn)的特點(diǎn)設(shè)計(jì)了一種結(jié)構(gòu)化加工工具,該工具為后續(xù)標(biāo)準(zhǔn)數(shù)字化的研究提供了有效的標(biāo)準(zhǔn)文本數(shù)據(jù)支撐。
參考文獻(xiàn)
參考文獻(xiàn)
[1]Mi n g Y U,Q ia n G , D on g z hu a n g W, et a l . I mpr ove d connectivity-based layout segmentation method[J ].Computer Engineering&Applications,2013.
[2]O Mccallister W,Hung C C.Image segmentation using dynamic run-length coding technique[J].2003.
[3]Yong Z,Jianzheng Y,Hongzhe L,et al. GrabCut image segmentation algorithm based on structure tensor[J].The Joournal of China Universitites of Posts and Telecommunic ations,2017(02):42-51.
[4]Argenti F,Alparone L .Benelli G.Fast algorithms for texture analysis using co-occurrence matrices[J].IEE Processing,1990,137(6):443
[5]Zhang Y, Yang J. Chinese NER Using Lattice LSTM[C].Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).2018:1554-1564.
[6]Ma R, Peng M, Zhang Q, et al. Simplify the Usage of Lexicon in Chinese NER[C].Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2020: 5951-5960.
[7]Li X, Yan H, Qiu X, et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C].Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2020: 6836-6842.
[8]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirect iona l Tra nsfor mer s for L a ng ua ge Understanding[C]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,Volume 1 (Long and Short Papers). 2019: 4171-4186.
基金項(xiàng)目:本文是國(guó)家電網(wǎng)有限公司指南項(xiàng)目“標(biāo)準(zhǔn)文本資源及關(guān)鍵要素統(tǒng)一構(gòu)建技術(shù)研究”(項(xiàng)目編碼5216A624000B)研究成果。