国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用Bert模型實(shí)現(xiàn)電力安全規(guī)程數(shù)據(jù)中實(shí)體關(guān)系抽取

2023-02-14 06:01徐鴻飛李英娜
電力科學(xué)與工程 2023年1期
關(guān)鍵詞:規(guī)程實(shí)體向量

徐鴻飛,李英娜

(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.云南省計(jì)算機(jī)應(yīng)用重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),云南 昆明 650500)

0 引言

電力安全規(guī)程數(shù)據(jù)包含各種類型的文本數(shù)據(jù)。電力安全文本數(shù)據(jù)分析的結(jié)果,可為電力現(xiàn)場(chǎng)檢修、電力設(shè)備管理、電網(wǎng)故障處置提供決策支持。電力安全規(guī)程中實(shí)體關(guān)系抽取的實(shí)現(xiàn),能夠使電力安全工作獲得挖掘和分析大規(guī)模文本數(shù)據(jù)中有用知識(shí)的能力。

實(shí)體關(guān)系抽取,旨在從海量結(jié)構(gòu)或非結(jié)構(gòu)文本中抽取出類別實(shí)體和分類關(guān)系,是構(gòu)建復(fù)雜的知識(shí)數(shù)據(jù)庫(kù)的關(guān)鍵步驟。

采用早期的基于規(guī)則和詞典抽取,需要利用人工標(biāo)注數(shù)據(jù)或通過(guò)已有詞典使用概率和模式匹配等方法實(shí)現(xiàn),在少量數(shù)據(jù)應(yīng)用時(shí)取得了良好的效果[1]。但基于規(guī)則和詞典的方法要求條件高,需要大量時(shí)間和人力,不利于大量數(shù)據(jù)處理;因此研究者們提出了使用機(jī)器學(xué)習(xí)的方法進(jìn)行實(shí)體關(guān)系抽取,希望使用算法建模并學(xué)習(xí)處理數(shù)據(jù),然后對(duì)特定任務(wù)做出預(yù)測(cè)。機(jī)器學(xué)習(xí)方法有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)3種方式。為了減少人工依賴和增加抽取任務(wù)的可遷移性,研究者們又提出了采用遠(yuǎn)程監(jiān)督方式進(jìn)行實(shí)體關(guān)系抽取。遠(yuǎn)程監(jiān)督通過(guò)文本對(duì)齊方式,將知識(shí)語(yǔ)料庫(kù)和待處理文本相同實(shí)體對(duì)進(jìn)行同類標(biāo)記,自動(dòng)訓(xùn)練大量樣本,生成特征訓(xùn)練分類器[2]。

由于機(jī)器學(xué)習(xí)方式用到的特征依然人工完成,而深度學(xué)習(xí)具有從低維映射高維,從而發(fā)現(xiàn)數(shù)據(jù)更多特征的優(yōu)點(diǎn),因此可以很好地用于實(shí)體關(guān)系抽取任務(wù)中[3]。文獻(xiàn)[4]使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional long short-term memory,BiLSTM)加條件隨機(jī)場(chǎng)(Conditional random fields,CRF)模型進(jìn)行訓(xùn)練,并將融合遷移學(xué)習(xí)用于數(shù)據(jù)集的命名實(shí)體識(shí)別任務(wù),取得91.53%的準(zhǔn)確率。文獻(xiàn)[5]針對(duì)中文語(yǔ)法句式復(fù)雜、現(xiàn)有神經(jīng)網(wǎng)絡(luò)抽取模型提取特征和語(yǔ)義表征能力差的問(wèn)題,使用Bert預(yù)訓(xùn)練模型融合實(shí)體對(duì)和實(shí)體類型等多特征信息進(jìn)行抽取,提高了F1值。文獻(xiàn)[6]針對(duì)非結(jié)構(gòu)化文本實(shí)體關(guān)系抽取存在上下文環(huán)境信息不能準(zhǔn)確表征,導(dǎo)致實(shí)體關(guān)系抽取模型準(zhǔn)確率不高的問(wèn)題,提出一種新型實(shí)體關(guān)系抽取模型。該模型使用雙向門控循環(huán)單元獲得語(yǔ)序信息,然后加入注意力機(jī)制關(guān)注某些序列特征,最后采用分段卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征并進(jìn)行抽取。實(shí)驗(yàn)證明,該模型具有較好的性能。文獻(xiàn)[7]針對(duì)遠(yuǎn)程監(jiān)督關(guān)系抽取方法常常忽略實(shí)體對(duì)的類型信息和句子語(yǔ)法信息的問(wèn)題,提出使用實(shí)體周圍詞文本的注意力機(jī)制融合依存句法分析的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的抽取器進(jìn)行實(shí)體關(guān)系抽取,從而提高了抽取的精度和召回率。

現(xiàn)有的關(guān)于利用神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)實(shí)體關(guān)系抽取方面的研究,其關(guān)注點(diǎn)通常集中于實(shí)體關(guān)系抽取性能和F1值。同時(shí),在這些研究中,對(duì)于實(shí)驗(yàn)數(shù)據(jù)集本身有嚴(yán)格限制:只能使用通過(guò)人工方式多次標(biāo)注核對(duì)獲得的高質(zhì)量數(shù)據(jù)集,或者使用公開(kāi)高標(biāo)準(zhǔn)數(shù)據(jù)。這些高質(zhì)量、高標(biāo)準(zhǔn)的數(shù)據(jù)集都集中在通用領(lǐng)域。對(duì)于其他專業(yè)領(lǐng)域高標(biāo)準(zhǔn)數(shù)據(jù)集缺乏的問(wèn)題,目前還沒(méi)有比較好的解決方法。

電力安全領(lǐng)域尚缺乏公開(kāi)的可用于進(jìn)行實(shí)體關(guān)系抽取相關(guān)研究的高標(biāo)準(zhǔn)數(shù)據(jù)集。同時(shí),目前自有數(shù)據(jù)集也面臨質(zhì)量不高、標(biāo)注存在噪聲等問(wèn)題。

電力安全規(guī)程相關(guān)文本數(shù)據(jù),具有數(shù)量龐大、多元、異構(gòu)、多維度、多形式的特點(diǎn)。在諸多電力安全規(guī)程文本數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)居多,而且非結(jié)構(gòu)化數(shù)據(jù)中存在很多與電力安全無(wú)關(guān)的語(yǔ)句。這些語(yǔ)句對(duì)電力安全規(guī)程實(shí)體關(guān)系抽取以及后續(xù)的圖譜構(gòu)建會(huì)造成一定影響[8]。

鑒于此,本文結(jié)合自有電力安全規(guī)程數(shù)據(jù)集,首先針對(duì)標(biāo)注噪聲問(wèn)題,提出使用句袋注意力機(jī)制對(duì)數(shù)據(jù)集進(jìn)行降噪;然后使用主流實(shí)體關(guān)系抽取方法 Bert+BiLSTM+CRF,對(duì)實(shí)體關(guān)系進(jìn)行抽取[9]。

自有數(shù)據(jù)集使用的文本種類復(fù)雜,內(nèi)容中難免出現(xiàn)頻率不一的無(wú)關(guān)語(yǔ)句。對(duì)無(wú)關(guān)語(yǔ)句定義為,句子中未出現(xiàn)相關(guān)實(shí)體和關(guān)系的語(yǔ)句。無(wú)關(guān)語(yǔ)句會(huì)對(duì)實(shí)體關(guān)系抽取產(chǎn)生不同程度的影響,即噪聲引入。噪聲會(huì)對(duì)語(yǔ)義特征產(chǎn)生影響,也就是無(wú)關(guān)語(yǔ)句對(duì)模型語(yǔ)義表征造成的影響。消除無(wú)關(guān)語(yǔ)句影響,可以對(duì)句子預(yù)先進(jìn)行處理,在使用神經(jīng)網(wǎng)絡(luò)模型層抽取之前進(jìn)行降噪。本文在抽取模型前使用句子注意力機(jī)制對(duì)句子進(jìn)行分類處理[10],避免錯(cuò)誤信息的誤差傳播,以有效減少句子引入的噪音,增加信息抽取的準(zhǔn)確性,優(yōu)化了計(jì)算資源分配,提高模型訓(xùn)練效果。

1 模型設(shè)計(jì)

1.1 模型架構(gòu)

為實(shí)現(xiàn)實(shí)體關(guān)系抽取,本文模型使用基于深度學(xué)習(xí)的4層結(jié)構(gòu),分別為:進(jìn)行句子降噪處理的預(yù)處理層、使用Bert模型的輸入層、使用BiLSTM和CRF算法的模型層,如圖1所示。

圖1 整體架構(gòu)圖Fig. 1 Overall architecture

預(yù)處理層:基于句袋注意力機(jī)制對(duì)文本進(jìn)行預(yù)處理。通過(guò)句子相似度計(jì)算,將句子分為若干句袋;使用注意力算法賦予語(yǔ)句不同權(quán)重值;最后,將一部分權(quán)重值低的句子直接丟棄。

輸入層:使用Bert模型進(jìn)行詞向量表征,提取語(yǔ)句基于前后文的語(yǔ)義信息。

模型層使用BiLSTM和CRF算法進(jìn)行信息抽取。

1.2 句袋注意力降噪輸入層

本文采用Word2vec向量劃分句袋模型。

首先使用 jieba對(duì)句子進(jìn)行分詞處理。使用Word2vec獲取每個(gè)詞的 Vector。然后,將所有Vector相加并求平均,得到Sentence Vector。計(jì)算句子夾角余弦值,得出句子相似度。將數(shù)據(jù)分為n個(gè)相似句袋t={t1,t2,···,tn}。其中,表示在句袋ti中有m個(gè)句子。

Attention是一種讓模型充分學(xué)習(xí)并關(guān)注重點(diǎn)信息的機(jī)制[11],其使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)Encoder-Decoder結(jié)構(gòu)。

Encoder把所有輸入序列編碼成一個(gè)包含語(yǔ)義特征的固定長(zhǎng)度隱向量(或上下文向量context)c。

與 Seq2Seq模型的 Decoder使用一個(gè)向量c計(jì)算隱藏層的情況不同,Attention在Decoder的每個(gè)時(shí)間輸入不同的向量c來(lái)進(jìn)行計(jì)算。計(jì)算過(guò)程如圖2。

圖2 句袋注意力機(jī)制結(jié)構(gòu)圖Fig. 2 Structure diagram of sentence bag attention mechanism

當(dāng)前位置上下文向量c,是由Encoder部分所有隱狀態(tài)h和對(duì)應(yīng)權(quán)重值α加權(quán)求和得到:

隱狀態(tài)hj和輸入隱狀態(tài)s′j的相關(guān)性etj通過(guò)前一階段的輸入隱狀態(tài)s′j-1和當(dāng)前隱狀態(tài)hj計(jì)算得到。使用 softmax進(jìn)行歸一化,得到權(quán)重atj。這個(gè)權(quán)重表示了當(dāng)前位置隱狀態(tài)hj對(duì)當(dāng)前位置輸入隱狀態(tài)sj的影響程度。

使用上一個(gè)輸入sj–1、上一個(gè)輸出yj–1和當(dāng)前位置的上下文向量cj更新當(dāng)前位置輸入隱狀態(tài)sj,然后計(jì)算出當(dāng)前輸出yj。

將同一句袋內(nèi)的句子權(quán)重進(jìn)行加和歸一化,按照大小進(jìn)行排序,根據(jù)排序結(jié)果權(quán)重值去除噪音句子。

1.3 詞向量表征Bert嵌入層

Bert模型是基于Transformer構(gòu)建的,如圖3所示。Transformer采用Encoder-Decoder架構(gòu),分別使用6層Encoder和Decoder堆疊在一起,如圖4所示。本文模型采用中文Bert_base Chinese模型。

圖3 Bert模型架構(gòu)圖Fig. 3 Bert model architecture diagram

圖4 Transformer結(jié)構(gòu)圖Fig. 4 The Transformer structure diagram

首先對(duì)數(shù)據(jù)進(jìn)行Embedding處理。Bert以單個(gè)句子序列的方式進(jìn)行輸入,還可以將2個(gè)句子組成的句子對(duì)的形式輸入模型訓(xùn)練。在句子開(kāi)頭插入[CLS]符號(hào);該符號(hào)本身沒(méi)有任何語(yǔ)義,但其編碼整個(gè)句子的語(yǔ)義,同時(shí)在句子中間插入[SEP]符號(hào),用來(lái)充當(dāng)分割句子的標(biāo)志位。對(duì)于中文數(shù)據(jù)集,對(duì)句子進(jìn)行分字處理,對(duì)單個(gè)字進(jìn)行向量化。將詞語(yǔ)級(jí)詞嵌入向量(Token embeddings)、句子信息嵌入向量(Segment embeddings)和位置嵌入向量(Position embeddings)進(jìn)行拼接。詞嵌入向量是詞語(yǔ)映射的低維稠密向量;句子嵌入向量表示輸入句子的區(qū)分;位置嵌入向量是詞語(yǔ)在句子中的位置信息。拼接后的向量包含了句子信息和位置信息。這些向量被用作下游模型的高質(zhì)量特征輸入。

將Embedding送入到Encoder層,Self-Attention處理完將數(shù)據(jù)送入前饋神經(jīng)網(wǎng)絡(luò),然后歸一化,送入下一個(gè) Encoder層。Self-Attention可以學(xué)習(xí)句子內(nèi)部詞語(yǔ)依賴關(guān)系信息以及句子結(jié)構(gòu)。由于Self-Attention和每個(gè)詞都要計(jì)算 Attention,所以可以獲得長(zhǎng)距離依賴關(guān)系。計(jì)算Embedding和矩陣相乘,得到Query、Key和Value 3個(gè)矩陣;然后計(jì)算Query和Key矩陣相乘。為了防止結(jié)果過(guò)大,使用 SoftMax函數(shù)歸一化為概率分布[12,13],公式如下:

式中:Q、K、V為Query、Key和Value 3個(gè)矩陣;dk為向量的維度。

Decoder還包含Mask multi-head attention層。多頭注意力機(jī)制使用多維度輸入提取重點(diǎn)關(guān)注內(nèi)容:

預(yù)訓(xùn)練時(shí),隨機(jī)使用Mask掩蓋15%的詞,然后采用非監(jiān)督方法預(yù)測(cè)該位置的詞。使用大量語(yǔ)料進(jìn)行預(yù)訓(xùn)練[14],獲得全局特征向量,引入句子之間的語(yǔ)義信息。經(jīng)過(guò)Bert模型處理過(guò)的嵌入層,文本詞向量獲得大量句子級(jí)詞語(yǔ)相關(guān)特征。

1.4 雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型層

BiLSTM模型分為2個(gè)獨(dú)立的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),分別以正序和倒序輸入到2個(gè)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)中進(jìn)行特征提取,將2個(gè)向量拼接后作為最終的特征表達(dá)。

LSTM 使用鏈?zhǔn)浇Y(jié)構(gòu)選擇記憶信息,使模型解決了長(zhǎng)距離依賴問(wèn)題,避免信息快速流失[15]。LSTM與RNN類似,但LSTM在隱藏層中增加了門控機(jī)構(gòu),分為遺忘門、輸入門和輸出門,結(jié)構(gòu)如圖5。

圖5 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)圖Fig. 5 Long and short memory network structure diagram

式中:xt為當(dāng)前時(shí)刻的輸入;h為隱藏層狀態(tài)值;ht–1為前一時(shí)刻狀態(tài)值;W為ht–1的權(quán)重系數(shù);Wf為遺忘門權(quán)重;Wi為輸入門權(quán)重;Wo為輸出門權(quán)重;Wc為特征提取過(guò)程中權(quán)重;U為xt的權(quán)重系數(shù);Uf為遺忘門權(quán)重;Ui為輸入門權(quán)重;Uc為特征提取過(guò)程中權(quán)重;b為偏置值;bf為遺忘門偏置;bi為輸入門偏置;bo為輸出門偏置;bc為特征提取過(guò)程中的偏置值;tanh為正切雙曲函數(shù);σ表示激活函數(shù)Sigmoid。

計(jì)算過(guò)程如下:首先通過(guò)遺忘門前一個(gè)時(shí)刻的隱藏層單元計(jì)算丟棄信息的概率值f(t),通過(guò)輸入門計(jì)算需要更新的狀態(tài)信息i(t);然后使用tanh計(jì)算需要添加的狀態(tài)信息a(t),更新記憶狀態(tài)值c(t);前一時(shí)刻狀態(tài)值ht–1中的部分狀態(tài)信息o(t)在輸入門中計(jì)算得出,然后就能得出當(dāng)前時(shí)刻的狀態(tài)值,即前向傳播特征信息h(t)。

雙向傳播使用序列信息進(jìn)行傳播,傳播方向是從后向前傳播,得到帶有后向傳播特征的序列信息;然后將2個(gè)不同方向得到的序列信息相加,即可得到融合了前向傳播特征與后向傳播特征的完整序列信息。

1.5 條件隨機(jī)場(chǎng)模型層

CRF是一種基于無(wú)向圖的概率判別模型。CRF不依賴獨(dú)立性假設(shè),避免了標(biāo)簽引入的偏差。

隨機(jī)過(guò)程:無(wú)限實(shí)數(shù)集T中存在無(wú)限多個(gè)隨機(jī)變量,這些變量依賴于實(shí)數(shù)集參數(shù),記為X(t),t∈T。根據(jù)條件概率分別進(jìn)行判別。計(jì)算輸入輸出條件下的另一組隨機(jī)變量:形式為對(duì)數(shù)線性模型,方法使用極大似然估計(jì)。

無(wú)向圖G=(V,E),G是中心節(jié)點(diǎn)。隨機(jī)變量的集合Y={Yv|v∈V},v是索引。給出一個(gè)隨機(jī)變量X,計(jì)算出每個(gè)隨機(jī)變量Yv。這些變量如果都能滿足馬爾可夫性:

則此時(shí)的概率分布P(Y|X)就滿足條件,就可以稱為一個(gè)條件隨機(jī)場(chǎng)。v表示在無(wú)向圖G=(V,E)中一個(gè)節(jié)點(diǎn)。w=v代表所有與這個(gè)節(jié)點(diǎn)有邊相連接的節(jié)點(diǎn);w≠v代表所有沒(méi)有邊和此節(jié)點(diǎn)相連接的其他節(jié)點(diǎn)。Yv是節(jié)點(diǎn)v對(duì)應(yīng)的一個(gè)隨機(jī)變量;Yw是w節(jié)點(diǎn)的隨機(jī)變量。

計(jì)算條件概率P(Y|X),使用到了勢(shì)函數(shù)和圖結(jié)構(gòu)。通過(guò)使用指數(shù)函數(shù),然后引用特征函數(shù),條件概率為:

式中:λk和μl為對(duì)應(yīng)的權(quán)重值;tk和sl為局部特征。

tk為一個(gè)定義在邊上的特征函數(shù),稱為轉(zhuǎn)移特征;其不僅依賴當(dāng)前位置,還依賴上一個(gè)位置。sl是定義在節(jié)點(diǎn)上的特征函數(shù),稱為狀態(tài)特征;其僅僅依賴當(dāng)前位置。當(dāng)2個(gè)函數(shù)滿足特征條件時(shí),取值為1;否則取值為0。Z(x)為規(guī)范化因子,功能是在所有可能的輸出序列上進(jìn)行求和。

使用特征函數(shù)打分,分別得出不同標(biāo)注網(wǎng)絡(luò)的得分,然后選擇可能性最高的,作為最終標(biāo)注網(wǎng)絡(luò)。

2 實(shí)驗(yàn)驗(yàn)證

本文采用自有電力安全規(guī)程數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)。用消融實(shí)驗(yàn)驗(yàn)證句袋注意力機(jī)制對(duì)數(shù)據(jù)集降噪效果。用對(duì)比實(shí)驗(yàn)驗(yàn)證算法的抽取效果。

本文使用帶 GPU的計(jì)算機(jī)進(jìn)行實(shí)驗(yàn),使用Python語(yǔ)言的版本為 Python3.6,使用的 Pytorch的版本為Pytorch1.14。

2.1 實(shí)驗(yàn)數(shù)據(jù)集

鑒于目前還沒(méi)有公開(kāi)的電力安全規(guī)程相關(guān)數(shù)據(jù)集,本文采用已有電力規(guī)程文檔和電力安全規(guī)程相關(guān)文檔組成的文本數(shù)據(jù),包括:新版電力安全工作規(guī)程、國(guó)家電網(wǎng)電力安全工程典型工作票、國(guó)家電網(wǎng)安全事故調(diào)查規(guī)程、電力通信安全規(guī)程、電力建設(shè)安全工作規(guī)程、電網(wǎng)安全規(guī)程精編、電力安全管理規(guī)定、電力安全隱患、輸電系統(tǒng)可靠性評(píng)價(jià)規(guī)程、農(nóng)村安全用電規(guī)程,電力安全技術(shù)監(jiān)察規(guī)程等。

由于數(shù)據(jù)集多為非結(jié)構(gòu)化數(shù)據(jù),因此使用人工方式進(jìn)行數(shù)據(jù)清理,去除將標(biāo)點(diǎn)符號(hào)、句子標(biāo)號(hào)、空白區(qū)域和多余文檔格式等。

統(tǒng)計(jì)結(jié)果顯示,在字?jǐn)?shù)為10個(gè)以下的句子中,有完整實(shí)體關(guān)系三元組的比例不足20%。在10個(gè)字以上的句子中,此比例隨字?jǐn)?shù)上升明顯:因此,去除字?jǐn)?shù)為10以下的句子。

采用 BIO(B-begin,I-inside,O-outside)方式進(jìn)行實(shí)體關(guān)系標(biāo)注。通過(guò)人工的方式構(gòu)建實(shí)體關(guān)系結(jié)構(gòu)。標(biāo)注分為實(shí)體關(guān)系標(biāo)注和無(wú)關(guān)語(yǔ)句標(biāo)注,如表1所示。

表1 電力規(guī)程人工標(biāo)注數(shù)據(jù)實(shí)例Tab. 1 Example of manual annotation data of power regulation

自有數(shù)據(jù)集的句式結(jié)構(gòu)特征單一,但實(shí)體關(guān)系類型比較復(fù)雜,所以:本文采用主(a-s)謂(d-f)賓(g-h)形式進(jìn)行實(shí)體–關(guān)系–實(shí)體標(biāo)注。

無(wú)關(guān)語(yǔ)句標(biāo)注。針對(duì)未出現(xiàn)與安全規(guī)程相關(guān)的實(shí)體關(guān)系語(yǔ)句,將語(yǔ)句所有字詞標(biāo)注為O。

使用多次人工校對(duì)和軟件校對(duì)進(jìn)行標(biāo)注校驗(yàn),以保證數(shù)據(jù)集的準(zhǔn)確性和可靠性。

實(shí)驗(yàn)數(shù)據(jù)集文本10 000條,按照8:1:1的比例劃分訓(xùn)練集、測(cè)試集和驗(yàn)證集。

2.2 實(shí)驗(yàn)參數(shù)和評(píng)價(jià)指標(biāo)

進(jìn)行多次調(diào)參實(shí)驗(yàn)。使用 Adam優(yōu)化器來(lái)更新迭代參數(shù)。當(dāng)訓(xùn)練效果達(dá)到最優(yōu)時(shí),學(xué)習(xí)率設(shè)置為0.000 03,學(xué)習(xí)衰減率0.000 01,隱藏層共768層,最大序列長(zhǎng)度128,dropout為0.4。

實(shí)驗(yàn)使用準(zhǔn)確率(precision,P)、召回率(recall,R)和F1值作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)[16]。

2.3 實(shí)驗(yàn)效果與分析

消融實(shí)驗(yàn)設(shè)置:將使用句袋注意力機(jī)制的模型與未使用句袋注意力機(jī)制的模型進(jìn)行對(duì)比;其他實(shí)驗(yàn)條件設(shè)置相同。訓(xùn)練模型使用Bert-BiLSTM-CRF進(jìn)行實(shí)驗(yàn),結(jié)果如表2所示。

表2 有無(wú)注意力機(jī)制實(shí)驗(yàn)結(jié)果對(duì)比Tab. 2 Comparison of experimental results with and without attention mechanism%

由表2所示的實(shí)驗(yàn)結(jié)果可知,使用句袋注意力對(duì)句子進(jìn)行預(yù)處理之后,準(zhǔn)確率、召回率和F1值均有4.0%以上的提高。由此證明,句袋注意力對(duì)實(shí)驗(yàn)效果有提高的作用。

圖6所示為Bert-BiLSTM-CRF模型在不同迭代次數(shù)時(shí)的運(yùn)行結(jié)果。由圖6可知,模型運(yùn)行迭代到12輪時(shí),F(xiàn)1值達(dá)到90.5%,以后結(jié)果趨于穩(wěn)定,穩(wěn)定在90.0%以上,在第22輪時(shí),結(jié)果達(dá)到最高值 91.5%,后續(xù)迭代不高于最高值,因此本次實(shí)驗(yàn)設(shè)置為30次迭代。

圖6 不同epochs下的F1值Fig. 6 F1 values at different epochs

將本文模型(Bert-BiLSTM-CRF)與目前主流的Bert-BiGRU-CNN、Bert-BiLSTM-Attention、Bert-CRF模型進(jìn)行對(duì)比:實(shí)驗(yàn)使用數(shù)據(jù)均為進(jìn)行過(guò)句子降噪的同一數(shù)據(jù)集,運(yùn)行在同一臺(tái)計(jì)算機(jī)上,均為同一軟件環(huán)境;結(jié)果如表3所示。

表3 不同模型效果對(duì)比Tab. 3 Effect comparison of different models%

由表3可知,本文模型在準(zhǔn)確率、召回率和F1值3個(gè)指標(biāo)方面均取得最好效果。本文模型F1值為 91.5%,為 4個(gè)模型中最高。Bert+BiGRU+CNN是對(duì)比模型中效果比較好的,但是和本文模型仍有 1.3%的差距。但是整體看來(lái),使用 Bert模型的對(duì)比模型,結(jié)果均達(dá)到 80.0%以上,由此可見(jiàn),Bert模型對(duì)于中文的表征性能達(dá)到很高的水平。

3 結(jié)論

在電力安全規(guī)程缺少高質(zhì)量數(shù)據(jù)集的情況下,本文引入句袋注意力機(jī)制,使用Bert預(yù)訓(xùn)練模型進(jìn)行表征,然后使用神經(jīng)網(wǎng)絡(luò)加機(jī)器學(xué)習(xí)的抽取模型,對(duì)自有電力安全規(guī)程進(jìn)行實(shí)體關(guān)系抽取。

實(shí)驗(yàn)結(jié)果證明,利用句袋注意力機(jī)制能夠減少噪聲影響,能夠提高模型抽取性能。這對(duì)于后續(xù)實(shí)體關(guān)系消岐工作和關(guān)系圖譜構(gòu)建都有重要的意義。

通過(guò)本實(shí)驗(yàn),能夠基本構(gòu)建出高質(zhì)量電力安全規(guī)程實(shí)體關(guān)系數(shù)據(jù)集,但仍有諸多工作和實(shí)驗(yàn)中產(chǎn)生的問(wèn)題需要進(jìn)一步的思考和解決。未來(lái)研究方向?yàn)榉沁B續(xù)關(guān)系識(shí)別和實(shí)體關(guān)系消岐。

猜你喜歡
規(guī)程實(shí)體向量
中國(guó)新車評(píng)價(jià)規(guī)程
基于規(guī)程法的雷擊跳閘率計(jì)算
向量的分解
聚焦“向量與三角”創(chuàng)新題
《四川省工傷認(rèn)定工作規(guī)程(試行)》出臺(tái)
中國(guó)新車評(píng)價(jià)規(guī)程
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”