吳庭偉 王夢靈 易樹平 郭景任
摘要:提出了多尺度核電質(zhì)量文本故障信息語義抽取方法,從核電質(zhì)量文本描述中獲取了存在質(zhì)量缺陷的故障設備與所屬階段的信息。針對故障設備與正常設備并存,以及所屬設計、采購、施工和調(diào)試的全價值鏈階段未描述的問題,提出了多尺度故障信息抽取策略?;赥ransformer雙向編碼的預訓練語言模型將核電質(zhì)量文本轉(zhuǎn)化為文本向量;采用注意力機制的雙向門控循環(huán)神經(jīng)網(wǎng)絡挖掘出質(zhì)量缺陷的關(guān)鍵語義特征;采用條件隨機場對關(guān)鍵語義特征進行實體預測,輸出故障設備;通過多層感知機對提取的關(guān)鍵語義特征進行微調(diào)及推理,解譯出故障設備所屬階段。最后,在真實的核電質(zhì)量文本數(shù)據(jù)集上進行驗證,F(xiàn)1值達到94.3%,表明提出的方法具有較好可行性和有效性。
關(guān)鍵詞:多尺度;核電質(zhì)量文本;語義抽??;預訓練語言模型;條件隨機場
中圖分類號:TP391.1
DOI:10.3969/j.issn.1004-132X.2023.08.012
Semantic Extraction Method of Multi-scale Nuclear Power Quality Text Fault Information
WU Tingwei1 WANG Mengling1 YI Shuping2 GUO Jingren3
Abstract: A semantic extraction method of multi-scale nuclear power quality text fault information was proposed to obtain the information of fault equipment and their stages from nuclear power quality text. The quality text included the faulty equipment and normal equipment, while the whole value chain stages of design, procurement, construction, and commissioning were not described. Firstly,
based on Transformer bidirectional encoding, the pre-trained language model were used to convert nuclear equipment quality text into text vectors. The bidirectional gated recurrent unit network with attention mechanism was introduced to mine the key semantic features of quality text defects. On the basis of those above, the conditional random field was used to predict the key semantic features and output the fault equipment. Fine-tuning the extracted key semantic features by multi-layer perceptron, the stages of fault equipment was interpreted. Finally, the experimental verification was conducted based on real nuclear power quality text datasets, and the F1 value reached 94.3%. The results show that the proposed method has good feasibility and effectiveness.
Key words: multi-scale; nuclear power quality text; semantic extraction; pre-trained language model; conditional random field
0 引言
核電設備的質(zhì)量決定了核電站安全穩(wěn)定的運行。根據(jù)核電設備建造的業(yè)務流程,設備在投入運營前,需歷經(jīng)設計、采購、施工和調(diào)試四個基本的全價值鏈階段。根據(jù)核電設備質(zhì)量缺陷的分析需求,工程師通過核電質(zhì)量文本完整記錄,即包含相關(guān)設備的狀態(tài)、相關(guān)現(xiàn)象、可能的原因等質(zhì)量缺陷信息描述質(zhì)量缺陷事件。通過對質(zhì)量文本的分析,得到各價值鏈階段質(zhì)量缺陷的關(guān)鍵信息,并將其匯聚成經(jīng)驗反饋包,以便質(zhì)量管理人員分析相同型號核電設備或者類似流程可能出現(xiàn)的質(zhì)量問題?;诮?jīng)驗反饋,相關(guān)部門能及時調(diào)整檢修計劃,盡量避免質(zhì)量問題造成的設備故障。
當前,從質(zhì)量文本抽取關(guān)鍵信息的主要方式為人工標注。這種標注方式不僅費時費力,還需要操作人員掌握詳細的核電領(lǐng)域知識。此外,由于質(zhì)量文本記錄了質(zhì)量缺陷事件發(fā)生的全部過程,文本內(nèi)容不僅涉及出現(xiàn)質(zhì)量缺陷的設備,還包含正常設備,且沒有明確說明質(zhì)量缺陷事件是在哪個階段發(fā)生的,因此工程師需要依據(jù)整段的文本描述,推斷出質(zhì)量缺陷對應的階段。為簡化描述,本文將存在/出現(xiàn)質(zhì)量缺陷的設備稱為故障設備,將出現(xiàn)質(zhì)量缺陷對應的價值鏈階段稱為故障所屬階段。質(zhì)量管理過程累積了大量的質(zhì)量文本,如何采用有效的方法快速準確提取故障設備與所屬階段十分重要。采用文本挖掘技術(shù)對文本進行數(shù)據(jù)挖掘是自然語言處理及文本信息抽取領(lǐng)域的一個研究熱點。因此,筆者將文本挖掘技術(shù)引入核電質(zhì)量文本處理,自動分析質(zhì)量文本缺陷信息并抽獲取故障設備及所屬階段,輔助工程師及時分析發(fā)現(xiàn)類似問題并進行處理和維護,提高核電質(zhì)量管理的效率。
當前,核電領(lǐng)域的自然語義分析研究主要圍繞智能問答系統(tǒng)和句法語義提取展開,通過構(gòu)建高級的信息檢索系統(tǒng),從給定的文本中推理出問題的答案。ZHAO等[1]采用字典與規(guī)則相結(jié)合的方法訓練因果關(guān)系抽取模型,并基于該模型構(gòu)建了核電智能問答任務系統(tǒng)。iExtractor方法[2]通過對比當前信息與歷史狀態(tài)來發(fā)現(xiàn)核電設備的運行異常情況。上述研究針對具有因果關(guān)系的文本,通過識別關(guān)鍵字詞進行語義搜索,完成信息提取任務。實際的核電質(zhì)量文本僅記錄缺陷產(chǎn)生的現(xiàn)象和對象,并無明確的因果關(guān)系,且沒有給定關(guān)鍵詞。
針對無因果關(guān)系的文本信息挖掘問題,WU等[3]采用雙向長短期記憶(bidirectional long short term memory,BiLSTM)網(wǎng)絡構(gòu)建微博文本情感分類模型來自動分類微博文本。JURADO[4]使用條件隨機場(conditional random field,CRF)構(gòu)建的實體抽取模型來自動提取報紙中的目標實體。文獻[5-6]采用BiLSTM模型與多層感知機(multi-layer perceptron,MLP)結(jié)合的方法,將切口信息提取轉(zhuǎn)化為分類問題,完成病例文本中的切口信息提取任務。文獻[7-8]將BiLSTM和卷積神經(jīng)網(wǎng)絡相結(jié)合來構(gòu)造實體抽取模型,通過對字向量進行特征提取,提高了模型的抽取精度。針對數(shù)據(jù)集較少的特點,采用
基于Trausformer的雙向編碼表示(bidirectional encoder representation from Transformer,BERT)與雙向門控循環(huán)單元(bidirectional gated recurrent unit,BiGRU)相結(jié)合的方法構(gòu)建的實體識別模型[9-11]比BiLSTM方法的結(jié)構(gòu)簡單,并且訓練速度更高。上述研究方法僅適用于單一任務的信息抽取,而從核電質(zhì)量文本中提取出故障設備和故障階段則是2個不同尺度的信息提取任務。故障設備提取是運用相關(guān)標記算法對質(zhì)量文本進行標記,獲取對應的故障設備;故障階段提取是融合質(zhì)量文本中每個字的語義信息,綜合推斷故障所屬的階段。
因此,本文構(gòu)建一個并行信息抽取模型來同時提取質(zhì)量文本中的故障設備與故障階段。從核電質(zhì)量文本中提取故障設備可轉(zhuǎn)化為實體抽取任務,依據(jù)整段質(zhì)量文本內(nèi)容推斷出故障階段可以轉(zhuǎn)化為4個階段的文本分類任務。筆者首先采用
BERT模型將質(zhì)量文本轉(zhuǎn)化為文本向量,利用基于注意力機制的循環(huán)神經(jīng)單元對文本向量進行缺陷特征的提取,得到關(guān)鍵語義信息特征,然后基于CRF計算得到對應的故障設備。接著采用MLP對提取的關(guān)鍵語義信息特征進行非線性微調(diào),推斷出故障所屬階段。最后,基于實際質(zhì)量管理過程的核電質(zhì)量文本數(shù)據(jù)進行實驗,以驗證本文方法的有效性和準確性。
1 問題描述
表1所示為包含故障設備及所屬階段信息的2個典型質(zhì)量文本樣例。
由樣例1可見,文本不僅包含出現(xiàn)質(zhì)量缺陷的設備“汽輪機”,還包含正常設備“發(fā)電機”。樣例2中,出現(xiàn)質(zhì)量缺陷問題的設備為“汽輪機”,這與樣例1的故障設備相同,但缺陷對應的故障階段卻不同。工程師根據(jù)2個本文描述的整體語義,分析出樣例1對應的缺陷階段為“調(diào)試”,樣例2對應的缺陷階段為“采購”。
由于質(zhì)量文本存在上述特點,因此從質(zhì)量文本同時抽取出故障設備和故障階段,需解決如下問題:
(1)從質(zhì)量文本中提取出故障設備是實體抽取任務,依據(jù)整段質(zhì)量文本的語義推斷故障設備所屬階段是文本分類任務,如何同時完成2個不同尺度的故障信息提取任務。
(2)質(zhì)量文本同時存在故障設備和正常設備時,如何準確地從中提取出故障設備。
(3)如何基于整段質(zhì)量文本的語義正確推斷出故障設備所屬階段。
考慮到上述問題,本文采用具有注意力機制的神經(jīng)網(wǎng)絡提取故障設備和故障階段的共性缺陷特征信息,得到關(guān)鍵語義特征,接著分別采用不同的解譯算法對關(guān)鍵特征進行解譯,同時輸出故障設備及所屬階段?;谏鲜龇治觯疚臉?gòu)建故障信息抽取模型(圖1),實現(xiàn)多尺度核電質(zhì)量文本故障信息語義的抽取。首先將質(zhì)量文本轉(zhuǎn)化為文本向量,接著通過注意力(Attention)機制[12]的BiGRU提取質(zhì)量文本中的語義特征信息,然后基于關(guān)鍵語義特征分別采用CRF和MLP同時進行故障設備提取與階段推斷。通過共享質(zhì)量文本的關(guān)鍵語義特征信息,減少不同尺度信息的特征提取步驟,減小模型計算量并提高信息抽取的精確度。
2 多尺度故障信息抽取模型
2.1 BERT字向量轉(zhuǎn)換
BERT模型是一種對文本進行編碼的表示模型,可以將一段文本轉(zhuǎn)化為融合了文本全局語義信息的一組向量。如圖2所示,wn為質(zhì)量文本的第n個字,vn1、vn2、vn3分別是wn的語義嵌入、位置嵌入、段落嵌入。語義嵌入通過字向量表將wn轉(zhuǎn)換為一個向量,位置嵌入將wn的位置信息編碼成向量,段落嵌入將wn所在句子編碼成向量。通過融合語義嵌入、位置嵌入和段落嵌入得到綜合特征向量vn后,將vn輸入到Transformer編碼器中進行編碼,得到對應字向量xn。
給定的核電質(zhì)量文本描述句序列w=(w1,w2,…,wn)經(jīng)BERT模型“理解”后,得到文本描述句對應向量x=(x1,x2,…,xn)。
2.2 關(guān)鍵語義特征提取
由于文本向量x包含所有質(zhì)量文本的信息,因此本文采用BiGRU-Attention提取文本中設備缺陷的關(guān)鍵語義特征,縮小解譯范圍。首先將文本向量輸入BiGRU,提取文本上下文語義關(guān)系的信息,得到對應的語義信息向量。然后通過Attention機制從提取的語義信息中篩選出與設備質(zhì)量缺陷相關(guān)的特征信息,輸出關(guān)鍵語義特征向量。
BiGRU是門控循環(huán)單元(gate recurrent unit,GRU)網(wǎng)絡輸出的正反向拼接。GRU的計算公式如下:
式中,zt為t時刻的更新向量,控制信息進入下一個時刻;xt為t時刻輸入的字向量;rt為t時刻的重置向量,決定當前時刻信息的留舍;ht為t時刻的狀態(tài)向量,包含了前t個時刻所有文本的有效信息;*表示哈達瑪積(Hadamard);Wzx、Wzh、Wrx、Wrh、Wh~x、Wh~h均為特征參數(shù)向量;bz、br為參數(shù);I是維度與zt相同且元素全為1的向量;σ為sigmiod激活函數(shù)。
將GRU網(wǎng)絡輸出的ht進行正反向拼接,得到BiGRU單個字向量xt對應的特征向量:
根據(jù)式(6)計算得到預測最優(yōu)序列,預測每個字對應的標簽概率。其中,最大標簽概率對應的文字組合即為所提取的故障設備。如圖4所示,經(jīng)CRF計算得出“汽”與“輪”的轉(zhuǎn)移概率為0.1,“輪”與“機”的轉(zhuǎn)移概率為0.4,則關(guān)鍵語義特征向量經(jīng)CRF計算調(diào)整后得到的實體預測向量(標號②)為(0.491,0.823,0.964),該向量輸出的實體為“汽輪機”,解決了實體之間的依存關(guān)系。
2.3.2 階段提取
經(jīng)BERT-BiGRU-Attention提取得到的ATT保持著文本序列長度并含有豐富的語義特征信息,但僅依據(jù)ATT不能推斷所屬階段,需要對提取的ATT進行壓縮與融合。本文為簡化計算,不再單獨采用神經(jīng)網(wǎng)絡獲取新的語義特征,而將ATT作為多層感知機(MLP)的輸入,通過MLP對現(xiàn)有的ATT特征進行微調(diào),推斷故障階段。
核電業(yè)務流程包含4個階段,因此將MLP輸出變量設為1個表征4個階段可能性的四維向量,形成基于BERT-BiGRU-Attention-MLP的核電質(zhì)量文本缺陷階段分類方法。MLP對提取的關(guān)鍵語義特征信息ATT進行壓縮與非線性融合,綜合考慮每個字對輸出的貢獻,輸出對應的缺陷階段。具體計算過程如下:
質(zhì)量文本描述句經(jīng)BERT-BiGRU-Attention計算后得到ATT,對ATT進行池化操作(Pooling),得到降維后的文本向量m=(m1,m2,…,mn),MLP對輸入m進行非線性融合,綜合推斷缺陷階段。
3 實驗與分析
3.1 實驗數(shù)據(jù)
本文采用某核電設備質(zhì)量文本數(shù)據(jù)進行核電故障設備信息提取實驗。數(shù)據(jù)集包含1300條文本數(shù)據(jù),將數(shù)據(jù)集按8∶1∶1的比例劃分為訓練集、驗證集、測試集。采用BERT-base作為文本字向量轉(zhuǎn)換模型。實體抽取任務僅提取故障設備實體,因此采用BIO標注策略(“B”表示元素屬于實體開頭,“I”表示元素屬于實體中間(非頭部),“O”表示元素不屬于實體)。將故障階段分為4類,采用2個BiGRU網(wǎng)絡提取數(shù)據(jù)特征,MLP網(wǎng)絡層數(shù)設置為3。
3.2 實驗驗證與分析
本文采用準確率P、召回率R以及F1作為評價指標來驗證提出方法的精度,針對故障設備抽取問題,與BERT-CRF模型和BERT-BiGRU-CRF模型進行對比,結(jié)果如表2所示。針對故障階段判別,將BERT-MLP模型和BERT-BiGRU-MLP模型作為參考模型進行對比,結(jié)果如表3所示。針對多任務同時抽取,將本文提出的方法與BERT-CRF+MLP、BERT-CRF+BiGRU-MLP、BERT-BiGRU-CRF+MLP和BERT-BiGRU-CRF+BiGRU-MLP進行對比,實驗結(jié)果如表4所示。
由表2可知,在BERT-CRF基礎上加入BiGRU網(wǎng)絡可以提取上下文語義特征信息,比BERT-CRF方法的F1值高出7.1%;在BERT-BiGRU-CRF方法中加入Attention機制進行關(guān)鍵語義信息提取,比BERT-BiGRU-CRF方法的F1值高出1.6%。由表3可知,BERT-BiGRU-Attention-MLP方法的抽取精度最高,其次是BERT-BiGRU-MLP方法,BERT-MLP方法最低,證明BiGRU-Attention在所屬階段的推斷任務中發(fā)揮了重要作用。由表4可知,在同時提取多個任務時,BERT-BiGRU-Attention-MLP的F1達到94.3%,比BERT-CRF+MLP高出10.9%,比BERT-BiGRU-CRF+MLP高出3.4%,由此可見BERT-BiGRU-Attention-MLP可以有效支持多尺度的雙任務文本并行提取問題。
3.3 結(jié)果分析
為驗證注意力機制的循環(huán)神經(jīng)網(wǎng)絡對關(guān)鍵語義特征提取的有效性,提取表1中的2個樣例進行關(guān)鍵語義特征的展示(見表5),選取概率最高的15個字進行分析。
由表5的樣例1可知,通過對關(guān)鍵語義信息的提取,正常設備“發(fā)電機”的信息被弱化,故障設備“汽輪機”被預測出來;樣例2中的故障設備“汽輪機”可以被正確預測。MLP微調(diào)關(guān)鍵語義特征向量后,得到缺陷階段的語義特征向量,選取概率最高的10個字進行展示,如表6所示。
由表6可知,綜合樣例1中的“調(diào)” “速”“超”“過”“值”等關(guān)鍵字得到故障所屬階段為調(diào)試;根據(jù)樣例2中的“焊”“接”“資”“質(zhì)”“不”“超”等關(guān)鍵字信息,分析出故障所屬階段為采購。表7給出了部分高頻故障設備和所屬階段的統(tǒng)計分析結(jié)果。
由表5~表7可知,本文提出的語義提取方法可從核電質(zhì)量文本提取質(zhì)量缺陷的故障設備和所屬階段,梳理高頻故障設備并進行歸類分析,有助于工程師充分認識當前建造過程出現(xiàn)質(zhì)量問題的設備相關(guān)情況,輔助后續(xù)的質(zhì)量缺陷根因分析和經(jīng)驗反饋。
4 結(jié)語
本文提出了多尺度核電質(zhì)量文本故障信息語義抽取方法,解決了傳統(tǒng)核電質(zhì)量文本關(guān)鍵信息人工提取的問題。實際核電質(zhì)量文本數(shù)據(jù)驗證表明本文方法的F1值達到94.3%。對已有數(shù)據(jù)的訓練可累積大量關(guān)鍵語義特征和高頻故障設備信息,輔助工程師及時了解設備相關(guān)情況,有效支撐后續(xù)缺陷根因分析和經(jīng)驗反饋,提高核電質(zhì)量管理效率。
參考文獻:
[1]ZHAO Y, DIAO X, HUANG J, et al. Automated Identification of Causal Relationships in Nuclear Power Plant Event Reports[J]. Nuclear Technology, 2019, 205(8):1021-1034.
[2]CHOI Y S, NGUYEN M D, THOMAS N K. Syntactic and Semantic Information Extraction from NPP Procedures Utilizing Natural Language Processing Integrated with Rules[J]. Nuclear Engineering and Technology, 2021, 53(3):866-878.
[3]WU P, LI X, LI C, et al. Sentiment Classification Using Attention Mechanism and Bidirectional Long Short-term Memory Network[J]. Applied Soft Computing, 2021, 112:107792.
[4]JURADO F. Journalistic Transparency Using CRFs to Identify the Reporter of Newspaper Articles in Spanish[J]. Applied Soft Computing, 2020, 95:106496.
[5]盧淑祺, 竇志成, 文繼榮. 手術(shù)病例中結(jié)構(gòu)化數(shù)據(jù)抽取研究[J]. 計算機學報, 2019, 42(12):2754-2768.
LU Shuqi, DOU Zhicheng, WEN Jirong. Research on Structural Data Extraction in Surgical Cases[J]. Chinese Journal of Computers, 2019, 42(12):2754-2768.
[6]NGUYEN M, LE D, LE L. Transformers-based Information Extraction with Limited Data for Domain-specific Business Documents[J]. Engineering Applications of Artificial Intelligence, 2021, 97:104100.
[7]WANG J, XU W, FU X, et al. ASTRAL:Adversarial Trained LSTM-CNN for Named Entity Recognition[J]. Knowledge-based Systems, 2020, 197:105842.
[8]CHO M, HA J, PARK C, et al. Combinatorial Feature Embedding Based on CNN and LSTM for Biomedical Named Entity Recognition[J]. Journal of Biomedical Informatics, 2020, 103:103381.
[9]DU C, HUANG L. Text Classification Research with Attention-based Recurrent Neural Networks[J]. International Journal of Computers Communications & Control, 2018, 13(1):50-61.
[10]張靖宜, 賀光輝, 代洲, 等. 融入BERT的企業(yè)年報命名實體識別方法[J]. 上海交通大學學報, 2021, 55(2):117-123.
ZHANG Jingyi, HE Guanghui, DAI Zhou, et al. Named Entity Recognition of Enterprise Annual Report Integrated with BERT[J]. Journal of Shanghai Jiaotong University, 2021, 55(2):117-123.
[11]JIA C, SHI Y, YANG Q, et al. Entity Enhanced BERT Pre-training for Chinese NER[C]∥Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing(EMNLP). 2020:6384-6396.
[12]VASWANI A, SHAZZER N, PARMER N, et al. Attention Is All You Need[C]∥Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, 2017:6000-6010.
(編輯 張 洋)
作者簡介:
吳庭偉,男,1998年生,碩士研究生。研究方向為文本分類、信息抽取。E-mail:y30200997@mail.ecust.edu.cn。
王夢靈(通信作者),女,1980年生,副教授。研究方向為數(shù)據(jù)挖掘、人工智能算法。發(fā)表論文30余篇。E-mail:wml_ling@ecust.edu.cn。
收稿日期:2021-08-31
修回日期:2023-01-04
基金項目:國家重點研發(fā)計劃(2020YFB1711700)