田 園,原 野,劉海斌,滿志博,毛存禮
(1.云南電網(wǎng)有限責(zé)任公司信息中心,云南 昆明 650000;2.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
利用信息技術(shù)實(shí)現(xiàn)智能電網(wǎng)設(shè)備故障分析具有十分重要的價(jià)值[1]。電網(wǎng)設(shè)備故障分析傳統(tǒng)的方法主要有基于數(shù)據(jù)挖掘方法、基于分類的方法、基于聚類的方法。韓博聞[2]提出基于Apriori關(guān)聯(lián)算法的配電網(wǎng)運(yùn)行大數(shù)據(jù)關(guān)聯(lián)分析模型,挖掘配電網(wǎng)運(yùn)行維護(hù)中各運(yùn)行因素與運(yùn)行維護(hù)指標(biāo)之間的顯性或隱性關(guān)聯(lián)。劉科研等[3]提出了基于數(shù)據(jù)挖掘的配電網(wǎng)故障關(guān)聯(lián)因素分析與風(fēng)險(xiǎn)預(yù)警方法,有效提高了配電網(wǎng)風(fēng)險(xiǎn)預(yù)警的準(zhǔn)確性。洪翠等[4]提出以故障分量均方根及歐氏距離為特征量,結(jié)合改進(jìn)多分類支持向量機(jī)(Support vector machine,SVM)的配電網(wǎng)短路故障識(shí)別方法。張斌等[5]提出結(jié)合降維技術(shù)的電力負(fù)荷曲線集成聚類算法,解決電網(wǎng)中由于電力負(fù)荷過低引起的異常問題。然而,這些方法都是基于特征工程的方法,進(jìn)行設(shè)備故障分類時(shí)很大程度上依賴于故障數(shù)據(jù)的數(shù)據(jù)集大小以及特征選取的準(zhǔn)確性,由于電網(wǎng)中的故障數(shù)據(jù)無規(guī)律、關(guān)聯(lián)程度小等特點(diǎn),基于特征工程的方法受到了一定程度的局限。近年來,隨著深度學(xué)習(xí)技術(shù)在圖像處理、語音識(shí)別、自然語言處理等方面取得顯著的效果[6-8],一些學(xué)者嘗試將深度學(xué)習(xí)方法應(yīng)用于設(shè)備故障任務(wù)中。朱元振等[9]提出基于深度學(xué)習(xí)直流閉鎖判斷的高風(fēng)險(xiǎn)連鎖故障快速搜索方法,能夠快速給出高風(fēng)險(xiǎn)交直流連鎖故障的傳播路徑和故障概率,可用于在線安全預(yù)警和防控決策。孫宇嫣等[10]提出基于深度學(xué)習(xí)的智能變電站通信網(wǎng)絡(luò)故障診斷與定位方法,仿真結(jié)果驗(yàn)證了所提故障診斷方法即使在通信網(wǎng)絡(luò)部分信息不可信時(shí)仍能得到準(zhǔn)確診斷結(jié)果,容錯(cuò)性能較好。
這些研究主要是針對(duì)設(shè)備是否可能存在故障進(jìn)行分析,很少考慮根據(jù)電網(wǎng)設(shè)備缺陷文本識(shí)別電網(wǎng)設(shè)備缺陷部位,這是電網(wǎng)設(shè)備故障分析的一個(gè)關(guān)鍵環(huán)節(jié)。電網(wǎng)設(shè)備缺陷文本識(shí)別可以采用文本分類的方法來處理,但由于電網(wǎng)設(shè)備缺陷文本中詞匯具有很強(qiáng)的領(lǐng)域特點(diǎn)。因此有效獲取電網(wǎng)設(shè)備缺陷文本中有關(guān)設(shè)備、缺陷部位、故障表象等語義特征有助于提升缺陷部位文本分類的準(zhǔn)確性。最新研究發(fā)現(xiàn)預(yù)訓(xùn)練語言模型在自然語言處理很多任務(wù)中表現(xiàn)出非常優(yōu)秀的性能。為此,本文提出一種基于雙向Transformers偏碼表示(Bidirectional encoder representation from transformers,BERT)預(yù)訓(xùn)練語言模型的電網(wǎng)設(shè)備缺陷文本分類方法。首先,基于BERT預(yù)訓(xùn)練語言模型對(duì)電網(wǎng)設(shè)備缺陷文本進(jìn)行預(yù)訓(xùn)練生成具有上下文特征的Word embedding向量作為模型輸入。同時(shí),為避免電網(wǎng)領(lǐng)域分詞錯(cuò)誤影響模型效果,把電網(wǎng)設(shè)備缺陷文本中由數(shù)字與字母組合的設(shè)備ID、設(shè)備名稱以及由多個(gè)詞匯構(gòu)成的缺陷特征詞匯作為領(lǐng)域詞匯來處理,然后,利用BiLSTM網(wǎng)絡(luò)對(duì)輸入的電網(wǎng)設(shè)備缺陷文本向量進(jìn)行雙向編碼提取表征缺陷文本的語義表征,并通過Attention機(jī)制增強(qiáng)電網(wǎng)設(shè)備缺陷文本中與缺陷部位相關(guān)的領(lǐng)域詞匯的語義特征權(quán)重,進(jìn)而得到有助于電網(wǎng)設(shè)備缺陷部位分類的語義特征向量。最后,通過模型的SoftMax層實(shí)現(xiàn)電網(wǎng)設(shè)備缺陷部位分類。
電網(wǎng)設(shè)備具有類型多樣、分類復(fù)雜等特點(diǎn),如,常見的設(shè)備斷路器可以分為中壓斷路器、SF6斷路器、真空斷路器、低壓斷路器、柱上斷路器、油斷路器等10余種類型,不同類型的設(shè)備具有不同的缺陷特征。本文以云南電網(wǎng)某生產(chǎn)域業(yè)務(wù)系統(tǒng)中收集的“SF6真空斷路器”、“主變壓器”這兩種設(shè)備缺陷部位的結(jié)構(gòu)化數(shù)據(jù)來構(gòu)建用于模型訓(xùn)練的缺陷文本數(shù)據(jù),圖1展現(xiàn)了主變壓器缺陷元數(shù)據(jù)邏輯結(jié)構(gòu)及數(shù)據(jù)特征。
基于BiLSTM-Attention的方法能夠捕獲文本中的深層語義特征,在文本分類任務(wù)中取得了較好的效果[11-13]。本文將電網(wǎng)領(lǐng)域設(shè)備缺陷部位識(shí)別過程看作文本分類任務(wù),提出的基于BERT預(yù)訓(xùn)練語言模型的電網(wǎng)設(shè)備缺陷文本分類模型框架如圖2所示,主要包括以下3個(gè)部分:
(1)輸入層。為了得到電網(wǎng)設(shè)備缺陷文本表示,本文將記錄電網(wǎng)設(shè)備故障數(shù)據(jù)的結(jié)構(gòu)化特征及描述故障現(xiàn)象的非結(jié)構(gòu)化特征構(gòu)造為具有上下文信息的文本,同時(shí),為避免分詞錯(cuò)誤造成的影響,本文將設(shè)備名稱、設(shè)備缺陷類型、缺陷部位等結(jié)構(gòu)化特征作為電網(wǎng)領(lǐng)域?qū)I(yè)詞匯。
(2)詞嵌入層。將輸入層構(gòu)建的設(shè)備缺陷文本中的詞匯進(jìn)行Word embedding表示,并拼接生成表征文本的向量輸入到網(wǎng)絡(luò)模型中。Google在2018年提出的預(yù)訓(xùn)練語言模型BERT[14]是一種基于Transformer網(wǎng)絡(luò)結(jié)構(gòu),能夠根據(jù)當(dāng)前的文本輸入,分別計(jì)算Key、Query和Value向量,并基于上述向量對(duì)每個(gè)輸入使用注意力機(jī)制,以獲得當(dāng)前輸入與上下文語義的關(guān)系和自身所包含的信息,并通過多層累加和多頭注意力機(jī)制,不斷獲取當(dāng)前輸入更為合適的向量表示,生成的詞向量是一種動(dòng)態(tài)的形式。為此,本文基于BERT預(yù)訓(xùn)練語言模型生成電網(wǎng)設(shè)備缺陷文本詞匯Word embedding向量,不僅能夠有效獲取詞匯的上下文信息,而且能夠有效獲取缺陷文本中領(lǐng)域詞匯的語義特征。
(3)雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-directional long short-term memory,BiLSTM)。對(duì)輸入的電網(wǎng)設(shè)備缺陷文本向量進(jìn)行雙向編碼訓(xùn)練,獲得前向和后向的電網(wǎng)領(lǐng)域設(shè)備信息的加和,生成具有上下文語義特征的電網(wǎng)故障文本向量。例如,電網(wǎng)設(shè)備主變壓器缺陷數(shù)據(jù)“冷空箱端子排變色發(fā)熱”。通過正向編碼可以捕捉到“冷空箱”,“端子排”等信息,通過反向編碼則可以捕捉到“變色發(fā)熱”,采用雙向網(wǎng)絡(luò)編碼可以捕捉更完整的語義表征。
(4)注意力(Attention)層。在文本分類任務(wù)中Attention機(jī)制能夠捕捉到與分類任務(wù)相關(guān)的重要特征[15]。為此,本文通過Attention層來獲取電網(wǎng)設(shè)備缺陷描述文本中有關(guān)缺陷部位詞匯特征實(shí)現(xiàn)對(duì)BiLSTM層提取到的文本特征向量進(jìn)行加權(quán),進(jìn)而得到電網(wǎng)設(shè)備缺陷文本的語義特征向量。
(5)輸出層。將BiLSTM-Attention層獲取到的電網(wǎng)設(shè)備缺陷文本語義向量輸入SoftMax函數(shù)實(shí)現(xiàn)電網(wǎng)設(shè)備故障部位分類。
(1)數(shù)據(jù)預(yù)處理。由于電網(wǎng)領(lǐng)域的數(shù)據(jù)特點(diǎn),從故障設(shè)備記錄中選取這些缺陷文本,這些文本中包含許多錯(cuò)誤或者沒有實(shí)際意義的符號(hào)組合,例如,設(shè)備名稱中包含“36 kV負(fù)載器#¥%*&&”字符,其中,這些特殊符號(hào)“#¥%*&&”是錯(cuò)誤的信息。為此,利用Python通過編寫規(guī)則化的表達(dá)式將這些無意義的符號(hào)進(jìn)行預(yù)處理刪除。另外,這些設(shè)備故障的文本都是具有一定的整體性,這樣的特點(diǎn)導(dǎo)致這些文本無法直接進(jìn)行處理。如果直接利用分詞工具或者分詞接口會(huì)導(dǎo)致部分電網(wǎng)中的數(shù)據(jù)被切分為無意義的詞語組合,例如,“更換分閘線圈”、“緊固螺栓后正?!?、“分閘線圈燒壞已進(jìn)行更換”、“經(jīng)加油后正常投運(yùn)”、“更換行程開關(guān)”、“申請緊急缺陷停電更換新元件”等這些缺陷文本中的電網(wǎng)故障詞匯都是不能夠直接通過分詞拆分的。為了將這些電網(wǎng)專業(yè)領(lǐng)域的詞匯信息保留最大化,本文將利用數(shù)據(jù)庫中的電網(wǎng)故障設(shè)備的設(shè)備名稱、缺陷部位、設(shè)備缺陷表象等結(jié)構(gòu)化特征構(gòu)建了電網(wǎng)領(lǐng)域詞典,并且結(jié)合電網(wǎng)領(lǐng)域的詞典及結(jié)巴(Jieba)分詞工具實(shí)現(xiàn)設(shè)備缺陷文本分詞預(yù)處理。
(2)基于BERT預(yù)訓(xùn)練的詞嵌入層向量表示。輸入一句給定的電網(wǎng)設(shè)備缺陷文本S:S缺陷文本=x1,x2,…,xT,其中,xi表示文本S中的第i個(gè)詞匯,基于BERT預(yù)訓(xùn)練好的中文詞向量包含三部分:基于當(dāng)前詞位置的表示轉(zhuǎn)化為其詞向量的表示為EL=el1,el2,…,elT,基于當(dāng)前詞的表示轉(zhuǎn)化為其詞向量的表示為EW=ew1,ew2,…,ewT,基于上下句信息的表示轉(zhuǎn)化為其向量的表示為ES=es1,es2,…,esT,那么,基于BERT預(yù)訓(xùn)練后具有整體文本語義信息的故障設(shè)備詞向量表示為
eberti=eWi+eLi+eSi
(1)
由不可拆分的結(jié)構(gòu)化屬性構(gòu)成的電網(wǎng)領(lǐng)域?qū)I(yè)詞匯通常由多個(gè)詞匯組合構(gòu)成,應(yīng)作為整體化處理,這些專業(yè)詞匯的詞向量表征為
e專業(yè)詞匯=W專業(yè)詞匯v專業(yè)詞匯
(2)
對(duì)于輸入模型的第i個(gè)詞語ei的詞向量表示分為兩部分,分別是基于BERT生成的詞向量eberti與專業(yè)詞匯微量e專業(yè)詞匯的拼接,如式(3)所示
ei=eberti+e專業(yè)詞匯
(3)
根據(jù)式(3),句子S缺陷文本將被轉(zhuǎn)化為一個(gè)具有特定的故障設(shè)備信息的實(shí)數(shù)矩陣:embs={e1,e2,…,eT},并傳遞給模型的下一層。
(3)雙向LSTM(BiLSTM)神經(jīng)網(wǎng)絡(luò)層由兩個(gè)部分構(gòu)成:①自前向后的單層LSTM;②自后向前的單層LSTM。
文中,利用LSTM網(wǎng)絡(luò)門控機(jī)制,具體公式為
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(4)
ct=(1-it)·ct-1+it·tanh(Wxcxt+Whcht-1+bc)
(5)
ot=σ(Wxoxt+Wh0ht-1+Wcoct+bo)
(6)
ht=ot·tanh(ct)
(7)
(8)
這樣的正向和反向的狀態(tài)結(jié)合,充分體現(xiàn)了BiLSTM的特點(diǎn),結(jié)合電網(wǎng)設(shè)備缺陷文本從前至后又從后至前地將整句話中的重要信息,即考慮到了上下文中的語境,又做到通過整體的環(huán)境進(jìn)行特征提取,保證特征不丟失的特點(diǎn)。將LSTM層輸入的向量集合表示為H:[h1,h2,…,hT]。
(4)基于Attention機(jī)制的特征加權(quán)。如圖2所示,在BiLSTM后生成了對(duì)應(yīng)每個(gè)詞嵌入對(duì)應(yīng)的隱狀態(tài)序列H:[h1,h2,…,hT],針對(duì)電網(wǎng)缺陷文本數(shù)據(jù),例如,“冷空箱”,本文中對(duì)其進(jìn)行結(jié)構(gòu)化的構(gòu)造,其得到的權(quán)重h1在Attention機(jī)制中得到的整體權(quán)重更大,可以更好的提取描述語句的特征。
在Attention模型中,實(shí)質(zhì)是設(shè)備缺陷文本編碼—設(shè)備缺陷部位解碼的過程,可以看作是序列到序列的處理方式。具體如圖3所示。
在電網(wǎng)設(shè)備缺陷部位解碼的過程中,計(jì)算yk的公式表示為
yk=D(ck,y1,y2,…,yk-1)
(9)
式中:ck是通過輸入的編碼過程中設(shè)備缺陷文本的訓(xùn)練數(shù)據(jù)進(jìn)行一個(gè)non-linear得到的值。那么,ck可表示為
(10)
式中:aik表示第i個(gè)數(shù)據(jù)輸出的注意力分布,S(eT)表示模型中輸入的相應(yīng)的函數(shù)變化數(shù)值。
aik=F(hi,Hk)
(11)
式中:hi為i時(shí)刻的電網(wǎng)設(shè)備缺陷文本向量正向和反向隱狀態(tài)的加和,Hk是輸出數(shù)據(jù)yk在解碼端的的隱狀態(tài),F為計(jì)算符合狀態(tài)的概率和。
那么,在BiLSTM-Attention模型中,將LSTM層輸入的向量集合表示為H:[h1,h2,…,hT]。
M=tanh(H)
(12)
式中:M表示由BiLSTM的設(shè)備缺陷文本的輸出H對(duì)最終的狀態(tài)的注意力概率分布。
α=softmax(wTM)
(13)
式中:wT表示訓(xùn)練過程中電網(wǎng)設(shè)備缺陷文本生成的權(quán)重參數(shù),w={w1,w2,…,wn},w1表示“冷空箱”,這個(gè)專業(yè)詞語在訓(xùn)練過程中生成的特征權(quán)重,本文通過Attention機(jī)制增強(qiáng)電網(wǎng)設(shè)備缺陷文本中與缺陷部位相關(guān)的領(lǐng)域詞匯的意義特征權(quán)重。
其Attention層得到的權(quán)重矩陣r由式(14)得到
r=HαT
(14)
在該權(quán)重矩陣中,包含提取到的專業(yè)詞的特征權(quán)重加權(quán),利用BERT預(yù)訓(xùn)練生成的詞向量表示更加加強(qiáng)了語義的特征。例如,w1表示“冷空箱”這個(gè)專業(yè)名詞的特征權(quán)重,在預(yù)訓(xùn)練過程中,由BERT提供預(yù)訓(xùn)練的詞向量,結(jié)合該句的上下文w={w1,w2,…,wn},w1與w2以及wn之間具有不可分割的語義關(guān)系。
最終用于分類的電網(wǎng)設(shè)備缺陷句子將表示為
h*=tanh(r)
(15)
(16)
(17)
式中:S表示輸入的設(shè)備缺陷語句,bs為訓(xùn)練過程中生成的隨機(jī)參數(shù)。
(6)目標(biāo)損失函數(shù)。在整個(gè)訓(xùn)練過程中,針對(duì)本文提出的電網(wǎng)領(lǐng)域缺陷文本的分類問題,是一個(gè)多分類的問題,經(jīng)過歸一化處理softmax輸出后的標(biāo)簽的概率與真實(shí)的標(biāo)簽分布概率計(jì)算損失函數(shù),具體如下
(18)
式中:m為電網(wǎng)設(shè)備缺陷部位標(biāo)簽的個(gè)數(shù),t∈Rm為正樣本的向量化表征,y∈Rm為softmax估計(jì)出的每個(gè)類別的概率,λ是正則化的超參數(shù)。
本實(shí)驗(yàn)基于Tensorflow框架進(jìn)行實(shí)驗(yàn),Tensorflow框架整合包含了大部分的深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)模型。具體實(shí)驗(yàn)環(huán)境及其配置如表1所示。
表1 實(shí)驗(yàn)環(huán)境
在本文實(shí)驗(yàn)中使用了來自電網(wǎng)的設(shè)備缺陷數(shù)據(jù)信息,通過篩選、去除無用信息留下主變壓器33 701個(gè)缺陷文本,SF6真空斷路器50 139個(gè)缺陷文本,將兩種數(shù)據(jù)按照1∶1∶8的比例進(jìn)行模型的測試集、驗(yàn)證集以及訓(xùn)練集數(shù)據(jù)分配。
3.2.1 超參數(shù)設(shè)置
本文涉及到的對(duì)比實(shí)驗(yàn)的相關(guān)參數(shù)設(shè)置為SVM分類器的核函數(shù)為線性核函數(shù);FastText模型中,詞向量的維度選擇300維,訓(xùn)練輪次Epoch為20;BiLSTM模型中,詞向量的維度選擇300維,訓(xùn)練輪次Epoch為140;CNN模型中,詞向量的維度選擇300維,訓(xùn)練輪次Epoch為140。
本文方法在實(shí)驗(yàn)中模型的超參數(shù)設(shè)置如表2所示。
表2 實(shí)驗(yàn)超參數(shù)設(shè)置表
3.2.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)
精確率(Precision),即正確預(yù)測為正的占全部預(yù)測為正的比例。查準(zhǔn)率,即設(shè)備缺陷文本真正正確的占設(shè)備缺陷文本所有預(yù)測為正的比例。
召回率(Recall),即正確預(yù)測為正的占全部實(shí)際為正的比例。查全率,即設(shè)備缺陷文本真正正確的占所有缺陷文本實(shí)際為正的比例。
F1值:精確率和召回率的調(diào)和均值。具體公式為
(19)
(20)
(21)
實(shí)驗(yàn)1不同方法設(shè)備缺陷文本分類效果對(duì)比。
為了驗(yàn)證本文提出的基于BERT預(yù)訓(xùn)練語言模型的電網(wǎng)設(shè)備缺陷文本分類的效果,設(shè)計(jì)對(duì)比試驗(yàn)結(jié)合兩種設(shè)備缺陷(主變壓器、SF6真空斷路器)數(shù)據(jù)進(jìn)行分析。
實(shí)驗(yàn)1中利用Word2Vec[16]訓(xùn)練電網(wǎng)設(shè)備缺陷文本集語料以及FastText預(yù)訓(xùn)練好的在中文詞向量對(duì)本文實(shí)驗(yàn)的語料進(jìn)行預(yù)處理[17]并進(jìn)行缺陷文本分類處理。
對(duì)比模型:基于SVM的分類方式[18],基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)提取到語句之間的特征分布的分類方法[19]以及利用LSTM(Long short-term memory,LSTM)處理文本之間任務(wù)[20]。利用不同的詞向量生成方式,以及本文基于BERT預(yù)訓(xùn)練語言模型對(duì)電網(wǎng)設(shè)備缺陷文本的詞向量生成方法,本文設(shè)計(jì)實(shí)驗(yàn)1的對(duì)比實(shí)驗(yàn)如表3、表4所示。對(duì)主變壓器和SF6真空斷路器這兩種設(shè)備缺陷文本分類實(shí)驗(yàn)得出以下結(jié)論。
表3 主變壓器:不同方法設(shè)備陷部文本分類結(jié)果對(duì)比
表4 SF6真空斷路器:不同方法設(shè)備陷部文本分類結(jié)果對(duì)比
(1)在兩種數(shù)據(jù)集中,本文方法都體現(xiàn)出較好的效果,兩種數(shù)據(jù)集中的專業(yè)詞匯的復(fù)雜程度與組合方式都不同,這樣的組合方式在一定程度上會(huì)影響識(shí)別的準(zhǔn)確性。例如,在主變壓器中,大多的缺陷部位名稱的特點(diǎn)是較為短且組合較少,“風(fēng)機(jī)”、“冷卻器”、“油位表”等,在SF6真空斷路器中,大多的設(shè)備名稱的特點(diǎn)組合較多,例如“瓷質(zhì)絕緣子”、“密度繼電器表盤”、“時(shí)間繼電器”等。
(2)利用FastText的方法,不能更好地結(jié)合設(shè)備缺陷文本的數(shù)據(jù)特點(diǎn)進(jìn)行訓(xùn)練,CNN著重提取數(shù)據(jù)特征,但這也有可能會(huì)忽略了模型局部重要的特征提取,單純地使用BiLSTM在長文本上是不具有顯著的特征的,在電網(wǎng)設(shè)備缺陷文本中有大量的長文本句子描述。LSTM的方法不能夠前向以及后向捕捉語義的信息,文本不具有上下文的信息,效果較差。本文提出的方法不僅在模型輸入的詞嵌入層能夠根據(jù)詞匯在設(shè)備缺陷文本的上下文信息生成動(dòng)態(tài)的word embedding向量,而且能夠更好地結(jié)合Attention機(jī)制提取設(shè)備缺陷部位與文本中缺陷特征詞匯之間的關(guān)系。
實(shí)驗(yàn)2預(yù)訓(xùn)練詞向量對(duì)實(shí)驗(yàn)結(jié)果的影響。
為了驗(yàn)證不同詞向量對(duì)實(shí)驗(yàn)結(jié)果的影響,本文對(duì)比了基于Word2Vec[16]、GloVe[21]、BERT[14]3種詞向量生成方式下設(shè)備缺陷文本分類實(shí)驗(yàn),在實(shí)驗(yàn)2中,本文將主變壓器33 701個(gè)設(shè)備缺陷文本以及50 139個(gè)SF6真空斷路器缺陷文本進(jìn)行混合得到83 840個(gè)缺陷文本,將兩種數(shù)據(jù)混合訓(xùn)練,進(jìn)而驗(yàn)證本模型的通用性,對(duì)比結(jié)果如表5所示。
表5 不同詞向量方式對(duì)實(shí)驗(yàn)結(jié)果的影響
從表5中的結(jié)果可以看出,基于Word2Vec的詞向量生成方式分類效果最差,基于預(yù)訓(xùn)練BERT模型生成的詞向量產(chǎn)生的分類效果明顯高于另外兩種。由此可見,本文提出的基于預(yù)訓(xùn)練語言模型的方式生成電網(wǎng)設(shè)備缺陷文本的詞向量具有文本的上下文特征,更能準(zhǔn)確地表征電網(wǎng)設(shè)備故障詞匯的語義特征,尤其是針對(duì)故障缺陷文本中表征缺陷特征的專業(yè)詞匯的詞向量具有更好的效果,而基于Word2Vec的方式生成的詞向量不考慮具體的上下文語義信息。
實(shí)驗(yàn)3領(lǐng)域詞匯對(duì)實(shí)驗(yàn)結(jié)果的影響。
為驗(yàn)證電網(wǎng)設(shè)備缺陷文本中領(lǐng)域詞匯特征對(duì)模型效果的影響。分別采用通用分詞工具和領(lǐng)域分詞對(duì)電網(wǎng)設(shè)備缺陷文本進(jìn)行分詞實(shí)驗(yàn)對(duì)比,其中,通用分詞使用jieba分詞工具,領(lǐng)域分詞采用構(gòu)建的領(lǐng)域詞典+jieba分詞,實(shí)驗(yàn)結(jié)果分別如表6、表7所示。
表6 領(lǐng)域詞匯對(duì)主變壓器實(shí)驗(yàn)結(jié)果的影響
表7 領(lǐng)域詞匯對(duì)主變壓器實(shí)驗(yàn)結(jié)果的影響
從表6和7可以看出,采用領(lǐng)域分詞的效果明顯高于直接使用jieba分詞的效果。本文將電網(wǎng)設(shè)備缺陷文本中由數(shù)字與字母組合的設(shè)備名稱以及由多個(gè)詞匯構(gòu)成的缺陷特征詞匯作為領(lǐng)域詞匯來處理,如,“SF6真空斷路器”,“瓷質(zhì)絕緣子”,“CPU插件”,“空壓機(jī)油乳化”,“信二次回路”“硅膠變色”等。這些詞匯如果直接使用jieba分詞后將導(dǎo)致具有完整語義的設(shè)備缺陷特征拆開后導(dǎo)致語義信息丟失,而作為領(lǐng)域詞匯利用BERT進(jìn)行詞向量表征后能夠有效獲取到電網(wǎng)缺陷詞匯的語義特征,更有利于通過Attention層進(jìn)行捕捉。
電網(wǎng)設(shè)備缺陷部位識(shí)別是設(shè)備故障分析的關(guān)鍵環(huán)節(jié)。針對(duì)這個(gè)問題,本文提出了一種基于BERT預(yù)訓(xùn)練語言模型的電網(wǎng)設(shè)備缺陷文本分類方法,該方法在基于BiSLTM-Attention的模型基礎(chǔ)上考慮了電網(wǎng)領(lǐng)域的設(shè)備缺陷文本特點(diǎn),結(jié)合BERT預(yù)訓(xùn)練語言模型的方法使生成的詞向量具有缺陷文本的上下文信息,更好地將電網(wǎng)設(shè)備缺陷部位識(shí)別轉(zhuǎn)換為文本分類任務(wù)。實(shí)驗(yàn)結(jié)果表明了提出的方法在主變壓器、SF6真空斷路器這兩種設(shè)備缺陷數(shù)據(jù)集中,相比較于Baseline的F1值有明顯提升,從而驗(yàn)證了本文方法的有效性。下一步,可以將該方法應(yīng)用在類似領(lǐng)域中的相關(guān)設(shè)備缺陷分析任務(wù)中。