陳 鵬, 蔡 冰, 何曉勇, 金兆軒, 金志剛, 侯 瑞
1(國網(wǎng)寧夏電力有限公司, 銀川 750001)
2(天津大學(xué) 電氣自動化與信息工程學(xué)院, 天津 300072)
3(華北電力大學(xué) 蘇州研究院, 蘇州 215123)
4(華北電力大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 北京 102206)
隨著智能電網(wǎng)的不斷革新, 信息技術(shù)與電力系統(tǒng)逐漸融合, 電力企業(yè)在數(shù)字化轉(zhuǎn)型的方向上有了極大的進(jìn)展, 在這一過程中產(chǎn)生了大量的行業(yè)相關(guān)數(shù)據(jù), 也可以稱為是數(shù)字資產(chǎn), 數(shù)字資產(chǎn)是企業(yè)或機(jī)構(gòu)在生產(chǎn)、運(yùn)營、管理過程中累積的對企業(yè)或機(jī)構(gòu)具有利用價值的數(shù)字化信息和內(nèi)容, 通過對數(shù)字資產(chǎn)的組織加工, 可以優(yōu)化企業(yè)內(nèi)容管理架構(gòu), 促進(jìn)企業(yè)運(yùn)營模式改革, 從而提高企業(yè)收益. 簡單地將海量的數(shù)字資產(chǎn)存儲在各種存儲介質(zhì)中并且不采取任何管理措施, 企業(yè)的數(shù)字資產(chǎn)無法體現(xiàn)其自身的任何價值, 為了發(fā)揮企業(yè)數(shù)字資產(chǎn)的最大價值, 數(shù)字資產(chǎn)管理應(yīng)運(yùn)而生. 數(shù)字資產(chǎn)管理是對數(shù)字資產(chǎn)的創(chuàng)建、采集、組織、存儲、利用和清除過程加以研究并提出的相應(yīng)方法的統(tǒng)稱.
將電力行業(yè)數(shù)據(jù)進(jìn)行有效的組織管理可成為電力企業(yè)實現(xiàn)數(shù)字資產(chǎn)商品化[1]的指導(dǎo)方法, 采用合適高效的分類管理方式不僅進(jìn)一步加快電力企業(yè)數(shù)字化轉(zhuǎn)型步伐, 也可以推動電力企業(yè)發(fā)掘新的利潤增長點(diǎn).
知識圖譜是谷歌公司于2012 年首次提出的概念.知識圖譜的本質(zhì)是一個與傳統(tǒng)數(shù)據(jù)庫不同的大型語義知識庫, 知識庫中主要涉及到的內(nèi)容為數(shù)據(jù)中的實體與關(guān)系, 一個構(gòu)建好的知識圖譜可以用來輔助進(jìn)行問答, 數(shù)據(jù)分析和決策等應(yīng)用[2]. 知識圖譜的構(gòu)建包含知識抽取, 知識融合等內(nèi)容, 其中知識抽取是構(gòu)建知識圖譜的核心環(huán)節(jié). 將知識圖譜的構(gòu)建方法應(yīng)用到電力企業(yè)所產(chǎn)生的龐大數(shù)據(jù), 可促進(jìn)對數(shù)據(jù)的高效分類并且促進(jìn)實現(xiàn)數(shù)字資產(chǎn)商品化, 提升數(shù)字資產(chǎn)的價值.
命名實體識別[3]是構(gòu)建知識圖譜最重要的也是最為根基的一環(huán), 該任務(wù)旨在從文本中抽取待分類的命名實體并標(biāo)注其類型, 通用的命名實體任務(wù)一般包括人名、地名、和機(jī)構(gòu)名等. 實現(xiàn)特定領(lǐng)域的命名實體識別需要將領(lǐng)域內(nèi)特定類別的實體識別出來, 該任務(wù)最早使用人工編寫規(guī)則的方式進(jìn)行識別, 例如通過制定有限的規(guī)則和模式, 從文本中自動匹配這些規(guī)則或模式的字符串, 并標(biāo)記為各類命名實體, 不過隨著數(shù)據(jù)集的越來越復(fù)雜, 用人工制定的有限規(guī)則識別日益增長的命名實體是非常困難的. 因此基于統(tǒng)計機(jī)器學(xué)習(xí)的方法獲得了越來越廣泛的關(guān)注, 使用統(tǒng)計機(jī)器學(xué)習(xí)的方法大致可分為以下幾個步驟: 選擇適合文本序列的模型, 使用合適的文本特征來增強(qiáng)模型的特征捕獲能力. 并且將命名實體任務(wù)轉(zhuǎn)化成為序列標(biāo)注任務(wù), 也即對序列中的每個字符都有多種標(biāo)簽類別的可能與之對應(yīng), 模型所要做的就是為每個字符分配可能性最大的分類標(biāo)簽, 從而使實體被標(biāo)注為正確實體類型標(biāo)簽,完成命名實體任務(wù).
近年來, 隨著基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)方法成為了機(jī)器學(xué)習(xí)中十分熱門的方向, 其中利用語言模型等任務(wù)所得到的預(yù)訓(xùn)練高維詞向量來作為詞語的表示方法更是加強(qiáng)了神經(jīng)網(wǎng)絡(luò)模型的表示能力, 這樣的表示不僅緩解了獨(dú)熱向量的數(shù)據(jù)稀疏問題, 還使得稠密的向量具有一定的語義表示能力. 從Word2Vec 開始, 尋找一個有效的詞向量表示成為了自然語言處理重要的研究方向, 文獻(xiàn)[4]使用BERT 模型在大規(guī)模語料中進(jìn)行自監(jiān)督的預(yù)訓(xùn)練, 得到每個字關(guān)于上下文的表示, 并且通過多層堆疊的Transformer 模型, 可以使得文本的向量表示具有動態(tài)的, 上下文相關(guān)的特點(diǎn), 這樣的特點(diǎn)可以緩解過去靜態(tài)的詞向量無法解決詞語歧義的問題.
郭軍成等人[5]利用BERT 嵌入Bi-LSTM 實現(xiàn)了對簡歷數(shù)據(jù)的命名實體識別, 吳超等人[6]利用了Transformer 混合GRU 在電力調(diào)度領(lǐng)域進(jìn)行了命名實體識別, 謝騰等人[7]將BERT 嵌入到Bi-LSTM-CRF中, 在MASR 通用數(shù)據(jù)集中獲得了顯著的效果, 趙丹丹等人[8]利用了多頭注意力機(jī)制和字詞融合實現(xiàn)人民日報中的通用領(lǐng)域命名實體識別. 與此同時, 近年來由于Transformer[9]使用自注意力機(jī)制在預(yù)訓(xùn)練任務(wù)上和機(jī)器翻譯任務(wù)上表現(xiàn)十分出色, 如何將Transformer 較好的適配到其他任務(wù)也成為了一個熱點(diǎn)的研究方向,韓玉民等人[10]利用Transformer 實現(xiàn)材料領(lǐng)域的英文命名實體識別, 何孝霆等人[11]利用Transformer 來捕捉文本的特征從而判斷文本的真實立場.
本文提出了一種融合字符和二元詞組特征, 通過BERT 預(yù)訓(xùn)練模型得到上下文語義特征, 然后嵌入改良位置編碼表示的Transformer 模型的命名實體識別方法, 較好地實現(xiàn)了電力領(lǐng)域命名實體識別任務(wù).
本文提出的模型CB-BRTC 如圖1 所示, 可分為4 部分, 第1 部分為特征表示, 本文提出了一種基于字符級別的混合二元詞組作為特征的輸入. 第2 部分為BERT 模型, 通過使用中文的BERT 模型可以得到上下文語義的表達(dá), 將字符混合二元詞組的特征通過BERT 模型得到具有上下文語義表示的詞嵌入向量.第3 部分為改進(jìn)Transformer 模型的編碼層, 使用多頭自注意力機(jī)制自動捕捉文本在不同語義空間的表達(dá),使用相對位置編碼融入詞向量中. 第4 部分為解碼層,通過使用條件隨機(jī)場解碼序列的輸入, 從而得到最終的標(biāo)簽序列.
圖1 CB-BRTC 模型結(jié)構(gòu)
算法的流程為:首先通過對收集來的電力政策數(shù)據(jù)進(jìn)行預(yù)處理, 得到字符序列和字符的二元詞序列, 然后將字符序列和二元詞組序列通過使用BERT 的詞表映射, 使文本通過BERT 計算每個字符的上下文語義表示的詞向量, 隨后使用相對位置編碼, 融合詞向量表示,通過使用Transformer 的多頭自注意力機(jī)制捕捉序列在不同語義空間的表達(dá), 再經(jīng)過前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行融合, 最終得到關(guān)于命名實體識別任務(wù)的編碼表示. 最后將該編碼表示通過條件隨機(jī)場解碼得到符合序列標(biāo)簽轉(zhuǎn)移規(guī)則的標(biāo)簽表達(dá), 同時為了高效解碼, 使用維比特算法得到分?jǐn)?shù)最高的路徑從而選擇合適的標(biāo)簽序列.
本文使用的結(jié)構(gòu)與前人主要的區(qū)別在于本文選擇了對中文命名實體識別效果具有高效并且容易得到的字符融合二元詞組特征, 利用BERT 得到符合上下文語義的動態(tài)詞向量使得句子的表達(dá)含義相較Word2Vec的靜態(tài)詞向量更加準(zhǔn)確. 并且使用改進(jìn)Transformer 位置編碼的編碼結(jié)構(gòu), 通過使用相對位置編碼來使得模型更易捕捉文本的前后關(guān)系.
BERT 模型是一種基于自監(jiān)督訓(xùn)練任務(wù)的預(yù)訓(xùn)練語言模型, 具有三大特點(diǎn), 即使用海量的數(shù)據(jù), 巨大的模型, 和使用強(qiáng)大的算力得到. BERT 本身采用多種Transformer 堆疊而成, 使用了包括掩碼語言模型和下一個句子預(yù)測的兩個預(yù)訓(xùn)練任務(wù).
BERT 使用詞向量, 塊向量和位置向量之和來表示輸入. 通過使用掩碼語言模型和下一個句子預(yù)測預(yù)訓(xùn)練任務(wù)來完成自監(jiān)督訓(xùn)練. 掩碼語言模型任務(wù)中,BERT 使用了15%的掩碼比例, 將輸入序列的15%的子詞進(jìn)行遮蓋, 在這15%的遮蓋子詞中, 有80%的概率使用“[MASK]”標(biāo)簽來替換, 有10%的概率使用詞表中的隨機(jī)詞來替換, 有10%的概率保持不變. 下一句預(yù)測是指利用文本中天然的句子順序, 通過控制正負(fù)樣本的比例在1:1, 即使正確句子順序和錯誤句子順序的比例為1:1, BERT 需要判斷后一個句子是否是前一個句子的下一個句子, 從而學(xué)習(xí)到兩段輸入文本之間的關(guān)聯(lián).
BERT-WWM[12]是在BERT 的基礎(chǔ)上使用進(jìn)階的預(yù)訓(xùn)練任務(wù), 進(jìn)一步提升預(yù)訓(xùn)練任務(wù)的難度, 從而使預(yù)訓(xùn)練模型具有更加有效的語義表達(dá)信息. BERT-WWM使用的預(yù)訓(xùn)練任務(wù)是整詞掩碼的任務(wù), 通過使用哈工大開發(fā)的LTP 工具完成對語料的分詞, 在進(jìn)行整詞掩碼時, 將整個詞語進(jìn)行遮蓋, 從而使得模型學(xué)習(xí)難度加大, 獲得更好的語義表達(dá)形式.
Transformer 是一種特殊的利用全連接的多頭自注意力機(jī)制模型, 完整的Transformer 是由編碼結(jié)構(gòu)和解碼結(jié)構(gòu)[9]組成的, Transformer 的編碼結(jié)構(gòu)通過使用多頭自注意力機(jī)制捕捉命名實體識別任務(wù)的文本在多個語義空間的表達(dá)和不同語義空間中文本序列中不同字符之間的關(guān)系. 本文使用的Transformer 結(jié)構(gòu)引入相對位置信息, 其編碼單元的結(jié)構(gòu)如圖2 所示.
圖2 相對位置Transformer 結(jié)構(gòu)
在Transformer 結(jié)構(gòu)中使用的多頭注意力機(jī)制如式(1)所示:
其中,Q,K,V在原始Transformer 結(jié)構(gòu)中是由式(3)中的向量表示得到,H為輸入的序列矩陣,WQ,WK,WV是可訓(xùn)練的參數(shù), 通過多頭自注意機(jī)制可以反映出來每個字符和其他字符的關(guān)系, 使用Transformer 可以有效緩解卷積神經(jīng)網(wǎng)絡(luò)的專注于局部性的特點(diǎn)和循環(huán)神經(jīng)網(wǎng)絡(luò)梯度消失所導(dǎo)致無法實際捕捉長距離依賴關(guān)系的問題, 擁有比卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)更好的特征捕捉能力.
Transformer 編碼單元利用殘差網(wǎng)絡(luò)和層正則化來緩解深度神經(jīng)網(wǎng)絡(luò)中經(jīng)常會遇到的退化問題, 具體的實現(xiàn)如式(4)所示:
其中,x為通過復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)前的輸出, 在Transformer中指多頭自注意力映射前的輸出或者通過前饋神經(jīng)網(wǎng)絡(luò)之前的輸出,Sublayer(x)表示通過復(fù)雜結(jié)構(gòu)之后的輸出, 在Transformer 中指多頭自注意力映射拼接降維后的輸出或者通過前饋神經(jīng)網(wǎng)絡(luò)的輸出.
在每個多頭注意力和殘差連接后都會接一個位置全連接前饋神經(jīng)網(wǎng)絡(luò), 表達(dá)式如式(5)所示:
其中,W1和W2為可學(xué)習(xí)的變換矩陣,b1和b2為可學(xué)習(xí)的偏置, 由于采用自注意機(jī)制來捕捉文本序列之間的關(guān)系, 其本身并沒有可以感知位置的結(jié)構(gòu), 所以在Transformer 的輸入部分引入位置編碼, 位置編碼可以使用可訓(xùn)練的矩陣表達(dá), 也可以通過事先設(shè)置好格式得到.文獻(xiàn)[9]采用了絕對位置編碼, 如式(5)和式(6).
其中,pos是位置,i是位置編碼的第i維度,d是輸入的維度, 原始的Transformer 采用三角函數(shù)來將絕對位置進(jìn)行編碼. 但是有研究[13]證明, 使用絕對位置編碼會使得Transformer 的位置感知能力喪失對方向的判斷, 相對位置的編碼結(jié)構(gòu)可以使得模型對位置的感知更加敏感, 因此本文采用相對位置編碼從而使得Transformer模型更適合命名實體識別這一任務(wù). 不僅如此, 原版的Transformer 模型存在一定的冗余參數(shù), 因此本文將原版公式中涉及到兩個可學(xué)習(xí)的參數(shù)的相乘結(jié)果用一個可學(xué)習(xí)參數(shù)替換, 使用相對位置編碼和消除冗余參數(shù)后的多頭自注意力機(jī)制計算公式如下所示:
其中,t是目標(biāo)字符的位置,j是文本中計算自注意力時每個字符的位置,Qt和Kj是t位置的問向量和j位置的鍵向量,Wq和Wv是可學(xué)習(xí)的矩陣,Hdk是由H以dk為單位劃分的每一個部分, 每一個部分使用一個自注意力的頭來捕捉特征,u和v都是可學(xué)習(xí)的向量,Rt?j是相對位置編碼的向量, 由正弦和余弦函數(shù)間隔填充, 從而可以捕捉前后字符出現(xiàn)的關(guān)系.
為了充分利用不同標(biāo)簽之間的依賴關(guān)系, 本文采用條件隨機(jī)場模型來捕捉序列標(biāo)簽之間的轉(zhuǎn)移概率和發(fā)射概率, 從而得到更加符合標(biāo)簽順序的標(biāo)簽序列, 一個序列的標(biāo)簽y=l1,l2,···,lτ出現(xiàn)的概率由式(12)所示:
實驗計算機(jī)的系統(tǒng)配置和主要程序版本如下:Linux 操作系統(tǒng), Python 3.7, PyTorch 1.2, 16 GB 內(nèi)存.
本文使用電力行業(yè)規(guī)章制度的標(biāo)注文本實驗, 對規(guī)章制度中的非結(jié)構(gòu)化數(shù)據(jù)利用專家標(biāo)注的方法構(gòu)建標(biāo)注數(shù)據(jù), 并將數(shù)據(jù)分為訓(xùn)練集, 開發(fā)集和測試集, 數(shù)據(jù)集中的實體類型分為“機(jī)構(gòu)單位”“電力設(shè)施”“政策原則”這3 種實體類型. 采用“BMEO”的實體標(biāo)注方式, 例如“機(jī)構(gòu)單位”的實體用“B-AFF”“M-AFF”“E-AFF”來表示“機(jī)構(gòu)單位”實體的開頭中間和結(jié)尾. “O”代表該字符不屬于3 類實體的任一類. 數(shù)據(jù)集的規(guī)模如表1 所示.
表1 電力政策實體標(biāo)注數(shù)據(jù)集
本文實驗采用的評價指標(biāo)為邊界判斷的準(zhǔn)確率(P)、召回率(R)和F1 值來表示模型對實體所在位置的定位, 用類型準(zhǔn)確率(type acc)表示對實體判斷的準(zhǔn)確率. 公式的參數(shù)定義如下:TP為模型識別正確的邊界數(shù)量,FP為模型識別出錯誤的邊界的數(shù)量,FN為該字符是相關(guān)實體的邊界但模型沒識別出實體邊界的數(shù)量.計算公式如下.
為了證明本文提出的模型的有效性, 本文使用了多種模型的對比實驗來說明本文提出方法的有效性,實驗中, 我們分別對比了卷積神經(jīng)網(wǎng)絡(luò)中的膨脹卷積方法[14], 循環(huán)神經(jīng)網(wǎng)絡(luò)中的長短期記憶網(wǎng)絡(luò)和雙向長短期記憶網(wǎng)絡(luò)[15], 原始Transformer 模型與本文提出的CB-BRTC 模型. 對比試驗的結(jié)果如表2 所示.
表2 對比實驗結(jié)果 (%)
從表2 中可以看出, 本文提出的模型算法流程充分利用了輸入的特征, 并具有高效的特征提取能力, 長短期記憶網(wǎng)絡(luò)在一定程度上優(yōu)于卷積神經(jīng)網(wǎng)絡(luò), 因為其具有捕捉序列的長程依賴的能力, 原版的Transformer模型難以直接捕捉到序列的先后關(guān)系, 從而效果并不如長短期記憶網(wǎng)絡(luò). 通過引入相對位置編碼, 本文提出的基于字符特征和二元詞組特征的模型, 利用BERT構(gòu)建符合上下語義的詞嵌入表示, 并使用相對位置編碼的Transformer 模型得到序列中有方向感知的文本序列編碼, 最后通過條件隨機(jī)場解碼, 取得了優(yōu)于其他模型的效果, 在同樣使用一層網(wǎng)絡(luò)結(jié)構(gòu)來對電力政策文本進(jìn)行命名實體識別任務(wù)時, 本文提出的模型取得了最優(yōu)的效果, 擁有比IDCNN 方法高出6.96%的F1值, 比長短期記憶網(wǎng)絡(luò)方法高出3.49%的F1 值, 比原型Transformer 高4.83%的F1 值.
本文利用字符和二元詞組特征來作為神經(jīng)網(wǎng)絡(luò)的輸入, 由于中文缺少像英文文本中的空格邊界, 所以中文命名實體識別多采用字符特征來作為模型的輸入,而由于中文的語言習(xí)慣, 多為兩字成詞, 所以二元詞組是實體中較為重要的特征, 本文融入這兩種特征作為輸入, 對命名實體識別的效果是有幫助的. 將字符特征和二元詞組特征融合后通過BERT 預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),可以將預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)中通過自監(jiān)督訓(xùn)練得到的符合語義表示的字向量和詞向量的高效表示遷移到本任務(wù)所使用的字符上. 利用增加了相對位置編碼的Transformer神經(jīng)網(wǎng)絡(luò)捕捉針對命名實體識別在不同語義空間的特征表達(dá), 擁有比絕對位置編碼的Transformer 更好的方向感知. 最后使用機(jī)器學(xué)習(xí)中經(jīng)典的條件隨機(jī)場算法來捕捉標(biāo)簽的發(fā)射概率和轉(zhuǎn)移概率, 從而減少差錯, 得到更加合理的標(biāo)簽序列表達(dá).
目前現(xiàn)存的BERT 使用方法有兩種, 一是使用BERT當(dāng)作特征, 固定參數(shù), 不參與訓(xùn)練, 只訓(xùn)練Transformer和條件隨機(jī)場的參數(shù), 另一種是在BERT 上做精調(diào), 將BERT 的參數(shù)也做訓(xùn)練. 本節(jié)主要探究了這兩種不同方式之間的差異. 效果之間的不同如表3 所示.
表3 是否精調(diào)BERT 模型結(jié)果 (%)
在利用Transformer 網(wǎng)絡(luò)進(jìn)行BERT 的精調(diào)探究,實驗結(jié)果表示精調(diào)的結(jié)果要比不精調(diào)效果更好, 精調(diào)是為了在通用語義表示的基礎(chǔ)上, 根據(jù)命名實體任務(wù)的特性進(jìn)行領(lǐng)域適配, 使BERT 模型與命名實體識別更加適配, 得到更加高效的電力行業(yè)規(guī)章制度文本表達(dá), 這樣的文本表達(dá)對識別命名實體有著更好的表達(dá),本文在探究BERT 的使用方法中, 我們使用了更加細(xì)致的實驗用來增強(qiáng)模型對電力命名實體識別的效果,采用凍結(jié)和解凍的策略來反映BERT 預(yù)訓(xùn)練模型對命名實體識別的促進(jìn)作用, 凍結(jié)是指在訓(xùn)練的過程中,BERT 模型的參數(shù)不參與梯度下降算法進(jìn)行迭代更新,解凍之后, 隨著模型一起更新, 結(jié)果如表4 所示.
表4 凍結(jié)解凍BERT 參數(shù) (%)
實驗結(jié)果表明使用BERT 作為詞嵌入層, 在一開始就解凍的策略是該模型進(jìn)行命名實體識別任務(wù)最有效的策略. 經(jīng)過使用不同超參數(shù)調(diào)試, 我們設(shè)置具有BERT 學(xué)習(xí)參數(shù)為相對位置編碼的Transformer 學(xué)習(xí)率的0.04 倍, 用來避免精調(diào)BERT 所導(dǎo)致預(yù)訓(xùn)練模型的災(zāi)難性遺忘的現(xiàn)象[16].
在利用BERT 進(jìn)行模型的實驗分析中, 本文對于電力行業(yè)規(guī)章制度的標(biāo)注文本中的實體進(jìn)行識別, 并探究了不同類型實體識別的效果, 分別采用精確率, 召回率和F1 值3 種評價指標(biāo). 精調(diào)的實驗結(jié)果如表5 所示.
表5 不同實體類別識別結(jié)果 (%)
實驗結(jié)果表明模型對于機(jī)構(gòu)單位的實體識別效果最好,F1 值為79.23%, 機(jī)構(gòu)單位的識別效果最好的原因可能是由于電力內(nèi)部企業(yè)數(shù)量固定, 且政策中反復(fù)提及的電網(wǎng)機(jī)構(gòu)單位模型更容易判斷. 政策原則的識別效果最差,F1 值為49.21%, 導(dǎo)致政策原則識別效果差的原因可能是因為實體類型過長, 并且政策原則種類繁多, 模型不能在有限的數(shù)據(jù)中得到很好的訓(xùn)練.
為了探究本文所提出的方法中每個部分對電力政策文本進(jìn)行命名實體識別的作用, 本節(jié)對CB-BRTC 模型進(jìn)行了消融實驗, 分別通過去除二元詞組特征, 去除BERT 詞嵌入層和去除Transformer 中的相對位置編碼信息的實驗來探究每個模塊對模型的作用, 實驗結(jié)果如表6 所示.
表6 消融實驗結(jié)果 (%)
表6 中, A1 表示整個模型去除BERT 后使用Word2-Vec 在中文語料上的預(yù)訓(xùn)練詞向量輸入相對位置編碼的Transformer, 然后將編碼結(jié)構(gòu)的輸出再通過條件隨機(jī)場, A2 表示整個模型去除二元詞組特征后通過BERT來構(gòu)建詞嵌入, 然后利用相對位置編碼的Transformer對序列進(jìn)行編碼, 最后將編碼的結(jié)果通過條件隨機(jī)場,A3 表示模型去除Transformer 中的相對位置編碼, 替換為絕對位置編碼, 通過使用BERT 構(gòu)建序列的詞嵌入, 通過絕對位置編碼的Transformer 后將輸出送入條件隨機(jī)場. 表6 的結(jié)果表明, 去除二元詞組特征后的模型對電力政策文本的命名實體識別效果最差,F1 值為62.95%, 并且當(dāng)去除本文所提出模型中的任何一部分都會對模型的效果造成損傷. 這一實驗結(jié)果說明本文使用字符混合二元詞組作為特征, 將BERT作為詞嵌入層, 利用相對位置編碼的Transformer 結(jié)構(gòu), 使用條件隨機(jī)場作為解碼輸出, 對電力行業(yè)文本的命名實體識別效果有顯著的效果.
本文提出了一種新穎的神經(jīng)網(wǎng)絡(luò)模型CB-BRTC模型來對電網(wǎng)企業(yè)的規(guī)章制度等文件進(jìn)行信息提取,識別出非結(jié)構(gòu)化文本中的命名實體. 模型使用字符級別的向量和二元詞組特征作為輸入, 使用改進(jìn)Transformer的結(jié)構(gòu)作為編碼器結(jié)構(gòu), 引入相對位置編碼使得Transformer 具有方向感知的功能, 最后使用條件隨機(jī)場捕捉標(biāo)簽之間的轉(zhuǎn)移概率和發(fā)射概率, 使得序列標(biāo)注更合理. 本文提出的方法在電力行業(yè)規(guī)章制度上均比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法取得了更好的實體識別效果. 本文的方法可以促進(jìn)將電力行業(yè)數(shù)據(jù)進(jìn)行有效的組織管理, 通過進(jìn)一步的結(jié)構(gòu)化構(gòu)建電力行業(yè)知識圖譜, 不僅進(jìn)一步加快電力企業(yè)數(shù)字化轉(zhuǎn)型步伐, 也可以推動電力企業(yè)發(fā)掘新的利潤增長點(diǎn). 不過對于行業(yè)內(nèi)的命名實體效果仍難以達(dá)到通用領(lǐng)域非常高的識別率, 找到更有效率的神經(jīng)網(wǎng)絡(luò)模型來促進(jìn)行業(yè)數(shù)字資產(chǎn)管理,這也是我們下一步工作的方向.