国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于正則表達式和Jaccard系數(shù)的智能變電站錄波通道同源匹配

2024-01-25 06:11:02王冠南郭麗娟彭曙蓉陳慧霞黃浩宇
浙江電力 2024年1期
關鍵詞:錄波分詞同源

王冠南,郭麗娟,彭曙蓉,陳慧霞,黃浩宇

(1. 國網(wǎng)江西省電力有限公司電力科學研究院,南昌 330096;2. 長沙理工大學 電氣與信息工程學院,長沙 410114)

0 引言

智能變電站是智能電網(wǎng)中的重要節(jié)點,具有高可靠性、自診斷和自治功能,為電網(wǎng)的安全穩(wěn)定運行提供了數(shù)據(jù)支持[1-3]。故障錄波裝置可以自動記錄因系統(tǒng)大擾動引起的系統(tǒng)電壓、電流等電氣量的變化情況[4-6],是智能變電站內(nèi)的重要設備。220 kV 及以上電壓等級的智能變電站中采用雙套錄波裝置進行錄波。電力系統(tǒng)保護專業(yè)人員通過對比、分析雙套錄波文件中記錄的波形情況,可以實現(xiàn)電力系統(tǒng)異常情況的預警,有利于電力系統(tǒng)的安全穩(wěn)定運行,前提是雙套錄波文件中的各錄波通道已經(jīng)按照各自所監(jiān)測的電力系統(tǒng)一次設備完成了同源匹配工作。大型智能變電站內(nèi)設備數(shù)量多,相應的錄波通道數(shù)量也很多。以220 kV智能變電站為例,站內(nèi)雙套錄波通道數(shù)目平均為60對左右,一些220 kV智能變電站內(nèi)甚至有多達120對雙套錄波通道,這還不包括站內(nèi)的備用錄波通道以及開關量通道等。全國現(xiàn)有智能變電站的數(shù)量也很多,以江西省為例,現(xiàn)有220 kV 及以上電壓等級智能變電站約90 座,而這僅僅只是經(jīng)濟發(fā)達省份一個市擁有的220 kV 智能變電站數(shù)量。錄波通道數(shù)量眾多,人工進行通道匹配時很容易發(fā)生同源通道匹配錯誤。因此,有必要提出一種基于智能算法的智能變電站錄波通道同源匹配方法。

目前,針對智能變電站錄波通道同源匹配問題尚缺乏深入研究,工程上主要采用人工匹配進行這項工作。因為錄波通道數(shù)量多、通道命名不規(guī)范且通道排列的順序不統(tǒng)一,人工匹配難度大、容易出錯。文獻[7]采用配置模板的方式識別通道,進而實現(xiàn)通道的歸一化;該方法需要對不同設備廠家的命名方式進行歸納匯總,同時需要歸納不同命名格式的信號,操作較為復雜。分析錄波通道名稱文本發(fā)現(xiàn),通道名稱為短文本類型,固定包含了“電壓等級和間隔名稱”等關鍵信息,通過分析、對比各通道的關鍵信息就可以很好地區(qū)分出不同間隔。因此,可以將錄波通道同源匹配問題轉化為短文本匹配問題。

本文提出一種基于正則表達式和Jaccard 相似系數(shù)的智能變電站錄波通道同源匹配方法。正則表達式可以規(guī)范錄波通道的命名形式,Jaccard 相似系數(shù)可以準確計算出錄波通道名稱文本間的相似度。首先,對原始通道名稱文本數(shù)據(jù)進行預處理,使用正則表達式刪除錄波通道名稱文本中的冗余信息,同時統(tǒng)一同類間隔的表達形式;然后,對文本進行分詞和去停用詞操作,為后續(xù)的相似度計算工作做鋪墊;最后,使用Jaccard 相似系數(shù)計算錄波通道名稱間的相似度,根據(jù)相似度計算結果進行錄波通道同源匹配。使用實際電網(wǎng)中的錄波文件數(shù)據(jù)進行仿真驗證,該方法能夠簡單、有效地解決智能變電站錄波通道同源匹配問題,同時多個智能變電站中均能達到比較好的匹配效果,為智能變電站錄波通道同源匹配提供了新的思路。

1 文本匹配

文本匹配問題是自然語言理解的核心問題,涉及信息檢索、自動問答、機器翻譯、對話系統(tǒng)、復述問題等多個領域[8]。常見的文本匹配算法可以分為傳統(tǒng)文本匹配算法和基于深度學習的文本匹配算法。

1.1 傳統(tǒng)文本匹配算法

傳統(tǒng)文本匹配算法重點考察文本的字與字、詞與詞之間的一一對應關系,能夠較好地發(fā)現(xiàn)文本間的表層關聯(lián)關系。常見的傳統(tǒng)文本匹配方法包括Jaccard 相似系數(shù)[9-10]、Levenshtein 編輯距離[11]、Simhash相似度[12]、BM25(Okapi BM25)模型[13]、VSM(向量空間模型)算法[14]、BERT(基于Transformer的雙向編碼器表征)模型等。

Jaccard 相似系數(shù)由Paul Jaccard[15]提出,用于分析樣本集之間的相似性,定義為樣本的交集與樣本的并集之比。給定樣本集合A和樣本集合B,則它們的Jaccard相似系數(shù)可由式(1)計算得到。規(guī)定兩個空集樣本之間的Jaccard相似系數(shù)為1。Jaccard 系數(shù)值越大,則樣本集合間的相似度越高。使用Jaccard 相似系數(shù)進行文本匹配,只需要考慮文本間詞語的共現(xiàn)情況。兩個文本共有詞數(shù)量與所有詞語數(shù)量的比值即為兩個文本的Jaccard 相似度。文本a 與文本b 之間的Jaccard 相似度計算如式(2)所示。Jaccard相似系數(shù)算法復雜度低,不需要考慮相似度計算模型的訓練問題。

式中:Same(a,b)為文本a與文本b的共有詞數(shù)量;Total(a,b)為文本a與文本b的詞語總數(shù)。

Simhash 相似度是一種局部敏感的散列函數(shù)。對于兩個局部不同的相似文本,經(jīng)SHA-1(安全散列算法1)處理后得到兩個完全不同的散列值,而Simhash 算法可以得到兩個相似的散列值[16],體現(xiàn)了Simhash 算法的局部敏感特征。Simhash 計算文本相似度應用的是降維技術,將一個高維向量映射為一個低維向量,然后通過計算兩個低維向量的漢明距離來判斷兩個文本是否相似。漢明距離越大,表示文本間的相似度越低。

Levenshtein 距離計算的是兩個字符串之間的編輯距離,即由一個字符串得到另一個字符串所需要的最少編輯次數(shù)。編輯操作包括替換、插入和刪除字符。編輯距離越小,表示兩個字符串間的相似度越大。

綜合上述三種傳統(tǒng)文本匹配算法的特征可以發(fā)現(xiàn),傳統(tǒng)文本匹配算法在挖掘文本表層特征時表現(xiàn)良好,匹配速度快,無需對模型進行預訓練,但是在挖掘文本的深層語義特征方面表現(xiàn)不佳。

1.2 基于深度學習的文本匹配算法

基于深度學習的文本匹配算法可以自動從原始文本數(shù)據(jù)中抽取特征,當使用的訓練數(shù)據(jù)不同時,實現(xiàn)的任務也不一樣。與傳統(tǒng)文本匹配算法相比,基于深度學習的文本匹配算法更加靈活,泛化能力也更強,能夠較好地挖掘文本的深層語義。同時,基于深度學習的文本匹配模型結合詞向量化[17]技術,很好地解決了詞語匹配的多元性問題。文獻[18]利用Word2vec(詞向量化)模型實現(xiàn)字符詞向量的分布式表達,然后采用TextCNN(文本卷積神經(jīng)網(wǎng)絡)模型進行文本語義挖掘和分類,最終實現(xiàn)錄波器的自配置。文獻[19]從深度語義、詞語共現(xiàn)和最大匹配度三個層面提取文本特征,結合孿生網(wǎng)絡,運用雙向長短期記憶網(wǎng)絡、卷積神經(jīng)網(wǎng)絡和密集連接網(wǎng)絡構建文本匹配模型,改善了農(nóng)業(yè)提問數(shù)據(jù)相似性判斷性能。

基于深度學習的文本匹配算法適用于涉及文本語義分析的匹配問題,在挖掘文本深層含義時表現(xiàn)良好。使用基于深度學習的文本匹配算法首先需要建立數(shù)據(jù)的訓練集,并根據(jù)訓練集學習出對應文本數(shù)據(jù)的匹配模型?;谏疃葘W習的文本匹配算法能夠靈活地根據(jù)待匹配數(shù)據(jù)的特征訓練模型,可用于各種文本數(shù)據(jù)的匹配工作。

2 基于正則表達式和Jaccard系數(shù)的錄波通道匹配模型

考慮各種文本匹配算法的特征以及智能變電站錄波通道數(shù)據(jù)本身的特點,尋找適合智能變電站錄波通道數(shù)據(jù)特征的匹配算法。

2.1 錄波通道數(shù)據(jù)特征分析

錄波通道數(shù)據(jù)由配置文件(.CFG 擴展名)給出,各智能變電站均配有雙套錄波裝置,給出雙套錄波文件。一般來說,對于一座智能變電站內(nèi)的某個一次設備,在雙套錄波文件中均存在對應該設備的錄波通道,雙套錄波文件中的各錄波通道原則上是一一對應的。

按照相關規(guī)范,錄波通道名稱中均包含有電壓等級、間隔名稱等關鍵信息,且這些關鍵信息不需要深度挖掘其語義特征,能夠僅從詞語的表層含義上將其區(qū)分開來。表1列舉了部分典型的同源錄波通道名稱。

表1 錄波通道名稱示例Table 1 Examples of recording channel names

由表1中的示例可知,可以從文本表層含義的差異上進行A、B雙套錄波文件中的錄波通道同源匹配工作,不需要考慮文本的深層語義特征。同時,對于不同的智能變電站,錄波通道名稱中都存在其獨有的關鍵詞,例如當?shù)氐牡孛?。若使用深度學習的文本匹配算法,為了得到更為準確的匹配結果,則需要在每座智能變電站內(nèi)選擇一些錄波通道數(shù)據(jù)組成訓練集,且需要先對這些數(shù)據(jù)進行人工同源匹配。這將增加錄波通道同源匹配工作的前期工作量和復雜度,而且訓練得到的模型很容易發(fā)生過擬合,無法正確匹配錄波通道。因此,考慮選擇匹配速度更快、復雜度更低、前期準備工作相對更少的Jaccard 相似系數(shù)算法進行錄波通道同源匹配。

智能變電站錄波通道的命名僅要求包含電壓等級和間隔名稱,而沒有具體的標準形式,因此工作人員往往會根據(jù)自己的習慣對錄波通道進行命名,導致錄波通道名稱在表達形式上不一致。例如:部分錄波通道名稱中加入了設備的編號信息,或是存在無實際含義的編號信息;由于輸入法不同,部分錄波通道在表示母線間隔時出現(xiàn)了羅馬數(shù)字和英文字母混用的情況;部分錄波通道對主變間隔的描述存在多種形式。具體的同源錄波通道特殊情況示例見表2。

表2 同源錄波通道名稱中的特殊情況示例Table 2 Examples of special cases in homologous recording channel names

Jaccard 相似系數(shù)在計算文本相似度時,考慮的是兩個文本間共現(xiàn)詞在總詞匯中的占比,而不盡相同的編號信息以及同類間隔的不同表達形式,都會影響共現(xiàn)詞在總詞匯中的占比。因此,需要統(tǒng)一錄波通道名稱的表達形式。針對錄波通道名稱中出現(xiàn)的特殊情況,引入正則表達式進行處理。

2.2 正則表達式

正則表達式又稱規(guī)則表達式,由一串具有特定意義的字符組成,表示某種特定的匹配規(guī)則。正則表達式的字符分為普通字符和特殊字符,特殊字符又稱元字符,常見的元字符如表3[20]所示。

表3 常見的正則表達式元字符Table 3 Common regular expression metacharacters

正則表達式能夠實現(xiàn)數(shù)據(jù)的匹配、替換和提取功能[21]。將設定的正則表達式與待匹配的文本進行比較,查找出文本中與設定的正則表達式內(nèi)容一致的信息,即匹配功能。根據(jù)匹配的結果,可以提取出相應的文本信息或者是將其替換成另外的文本信息。在使用正則表達式時,只需要將希望匹配的內(nèi)容正確寫入到正則表達式中即可。

歸納錄波通道名稱文本中的特殊情況,以正則表達式的形式體現(xiàn)出來。使用寫出的正則表達式對錄波通道名稱文本進行匹配、替換,即可統(tǒng)一錄波通道名稱的表達形式,降低編號信息和同類間隔的不同表達形式對錄波通道名稱文本相似度計算的不利影響。

2.3 錄波通道匹配模型

根據(jù)2.1 節(jié)分析的錄波通道名稱文本的特征,提出智能變電站雙套錄波通道同源匹配算法。首先,使用正則表達式處理雙套錄波通道名稱原始數(shù)據(jù),降低錄波通道名稱中不規(guī)范的表達形式對后續(xù)文本相似度計算的不利影響。然后使用jieba分詞算法對錄波通道名稱進行分詞,分詞過程中使用自定義的分詞詞典,以更好地劃分錄波通道名稱中的電氣領域專有名詞以及一些特殊地名。在jieba 分詞結果的基礎上,使用自定義的停用詞表刪去其中的冗余信息,提高相似度計算的準確度。正則表達式處理過程、jieba 分詞過程和去停用詞過程統(tǒng)稱為錄波通道名稱數(shù)據(jù)的預處理過程。

將經(jīng)過預處理的錄波通道名稱文本數(shù)據(jù)作為輸入,使用Jaccard 相似系數(shù)計算雙套錄波通道名稱文本間的相似度,輸出相似度最大的匹配結果。綜上,基于正則表達式和Jaccard 相似系數(shù)的智能變電站錄波通道同源匹配算法的流程如圖1所示。

圖1 智能變電站錄波通道同源匹配算法流程Fig.1 Flow chart of homologous matching algorithm for recording channels in the substation

3 算例分析

本文采用的實驗數(shù)據(jù)是來自中國某省70 座智能變電站的雙套錄波文件,共計4 416對同源錄波通道。每座智能變電站均包含A、B 兩套錄波文件,每套錄波文件中的錄波通道分為模擬量通道和開關量通道,原則上這些錄波通道都存在一一對應關系,但是不排除一些特殊情況,例如:某一套錄波文件中遺漏了部分錄波通道,或者是雙套錄波各自留存的備用通道數(shù)目不一致。本文暫不考慮這些特殊情況,僅討論具有實際意義的模擬量通道,采用智能算法挖掘通道名稱文本中包含的語義特征,完成錄波通道同源匹配工作。

3.1 數(shù)據(jù)預處理

采用正則表達式處理錄波通道名稱文本中命名不規(guī)范的情況。針對如表2所示的命名不規(guī)范的問題:歸納設備編號信息以及其他無實際含義編號信息的命名規(guī)律,按規(guī)定格式形成相應的正則表達式,經(jīng)過匹配、刪除操作后,去除錄波通道名稱中的編號信息;歸納同類間隔的各種表達形式,借助正則表達式的匹配、替換功能,將各種表達形式統(tǒng)一為同一種表達。

經(jīng)過正則表達式處理后的一些錄波通道名稱示例見表4。從表4可以看出,正則表達式能夠做到:

表4 正則表達式處理示例Table 4 Examples of regular expression processing

1)去除冗余的編號信息,如“4016#02_”“UDM-502”“UDM-502-MIB-A-G”。

2)通過將字母統(tǒng)一為羅馬數(shù)字表達形式,解決由于輸入法不同而出現(xiàn)的英文字母、羅馬數(shù)字混用的問題。

3)解決由于工作人員命名習慣不一致而出現(xiàn)的間隔表達形式不同的問題,例如主變編號采用“#1”“1#”或者“1 號”等多種形式,均將其統(tǒng)一為“#1”表達形式。

經(jīng)過正則表達式處理的錄波通道名稱中還包含一些特殊符號,例如“_”及空格字符。這些特殊字符在文本匹配工作中并不能提供有利信息,相反可能還會降低同源通道之間的相似度。因此,需要對錄波通道數(shù)據(jù)進行進一步處理,考慮采用分詞和去停用詞算法。

現(xiàn)有中文分詞工具很多,例如jieba 分詞和Pkuseg 分詞。為了選擇合適的分詞工具,分別使用jieba分詞和Pkuseg分詞結合Jaccard相似系數(shù)算法進行仿真。仿真結果表明jieba 分詞算法對錄波通道數(shù)據(jù)的分詞效果更好,使用jieba 分詞進行同源匹配的匹配準確率比Pkuseg 分詞的匹配準確率高6.2%,而且仿真過程中jieba分詞耗時更少。因此,本文采用jieba 分詞算法對正則表達式處理后的錄波通道名稱文本進行分詞。由于仿真數(shù)據(jù)來自變電站,數(shù)據(jù)中含有大量電氣領域專有名詞,而且智能變電站在命名進出線時通常會使用當?shù)氐牡孛@些專有名詞、地名等特殊詞匯,可能會導致分詞過程中出現(xiàn)每次分詞結果不一致或者是不符合預期分詞結果的情況。因此,分詞過程中導入自定義的分詞詞典,以適應錄波通道名稱文本中的這些特殊詞匯。然后,導入自定義的停用詞表,剔除錄波通道名稱中的特殊符號、停用詞等冗余信息。為了能更直觀地看到分詞結果,對其進行詞頻統(tǒng)計,如圖2所示。

圖2 智能變電站錄波通道名稱詞頻統(tǒng)計Fig.2 Word frequency statistics of recording channel names in the intelligent substation

由圖2可以發(fā)現(xiàn),文本的關鍵信息包括電壓等級、間隔名稱等,這些信息在后續(xù)文本匹配過程中占據(jù)重要地位。經(jīng)過預處理之后的智能變電站錄波通道名稱,不再包含設備編號以及其他無實際意義的編號信息,同類間隔表達形式一致,不包含空格等無用字符以及一些停用詞信息。

3.2 錄波通道同源匹配仿真

采用Jaccard相似系數(shù)計算經(jīng)過預處理的70座智能變電站錄波通道名稱文本數(shù)據(jù)間的相似度,依據(jù)各自相似度值的大小判斷同源錄波通道。采用Python 進行算法仿真,電腦配置為i7-7500U、2.7 GHz、12 GB。

對于每座智能變電站的A、B雙套錄波通道文件,依次遍歷A 套錄波文件中的每條通道名稱數(shù)據(jù),使用Jaccard 相似系數(shù)計算其與B 套錄波文件中每條通道名稱的相似度,比較相似度的大小,選擇相似度最大的組合作為結果輸出。例如,對于A 套錄波文件中的第一條錄波通道,分別計算其與B 套錄波文件中每條錄波通道的相似度值,比較大小,記錄與A 套第一條錄波通道名稱相似度最大的B 套錄波通道名稱及其相似度值,然后依次類推,直至求出與A 套錄波文件中最后一條錄波通道名稱相似度最大的B 套錄波通道。此過程推廣應用至所有70座智能變電站的雙套錄波文件。

為了驗證Jaccard 相似系數(shù)匹配的效果,引入VSM 相似度、BM25 相似度、Simhash 相似度、Levenshtein 距離和余弦相似度這幾種匹配算法,比較各自的匹配結果。同時,為了驗證引入正則表達式可以提高錄波通道同源匹配的準確度,對正則表達式處理前后的通道名稱文本均進行同源匹配,比較匹配結果。

為了量化模型的匹配效果,引入評價指標。設定同源錄波通道被正確匹配為同源通道的對數(shù)為TP,非同源錄波通道被錯誤匹配為同源通道的對數(shù)為FP,則模型的匹配精確率Rprec[22-24]定義為:

匹配算法的評價指標比較結果如表5所示。由表5可知,針對錄波通道同源匹配問題,這幾種算法中,Jaccard 相似系數(shù)的匹配效果最好。在通道名稱數(shù)據(jù)經(jīng)過正則表達式處理的情況下,Jaccard相似系數(shù)匹配精確率達到96.9%,較VSM、BM25、Simhash、Levenshtein、余弦相似度算法的精確率分別提高了64.9 個百分點、32.8 個百分點、13.2 個百分點、6.3 個百分點、1.1 個百分點。在錄波通道名稱數(shù)據(jù)未經(jīng)過正則表達式處理的情況下,Jaccard 相似系數(shù)匹配精確率為94.2%,較VSM、BM25、Simhash、Levenshtein 算法的匹配精確率分別提高了63 個百分點、30.4 個百分點、11.5個百分點、4.3個百分點;此時余弦相似度算法的匹配精確率較Jaccard 相似系數(shù)的匹配精確率高了0.8個百分點,但是引入正則表達式預處理之后,Jaccard 相似系數(shù)的精度優(yōu)于余弦相似度。同時,表5中的數(shù)據(jù)也表明,正則表達式對原始數(shù)據(jù)的處理有利于提高錄波通道同源匹配的精確率。經(jīng)過正則表達式處理后,每種算法的匹配精確率都有所提高。

表5 算法評價指標比較Table 5 Comparison of evaluation indices of algorithms

選擇匹配精確率最高的三種算法對比分析每座智能變電站的匹配情況,如圖3所示。圖3展示了70座智能變電站分別使用Jaccard相似系數(shù)、余弦相似度和Levenshtein 距離三種匹配算法進行錄波通道同源匹配后的結果??梢园l(fā)現(xiàn),Jaccard 相似系數(shù)算法是三種算法中表現(xiàn)最好的,曲線較余弦相似度和Levenshtein 距離的曲線更高,且有更多的點落在100%。這表明,Jaccard算法的泛化能力是最強的,能夠適應更多智能變電站內(nèi)錄波通道的排布情況。

圖3 各智能變電站同源錄波通道匹配情況Fig.3 Homologous matching of recording channels in intelligent substations

綜合上述仿真結果可知,結合正則表達式的Jaccard 相似系數(shù)錄波通道同源匹配算法不僅精確率更高,而且泛化能力更強,能夠適應各種智能變電站的通道排布情況,易于推廣。

4 結語

針對智能變電站雙套錄波通道同源匹配問題,本文分析了錄波通道名稱數(shù)據(jù)的特點,即通道名稱中包含明顯關鍵詞,且可以從字面上作出區(qū)分,但是通道名稱中出現(xiàn)了無用編號信息以及同類間隔表達形式不統(tǒng)一的情況。依據(jù)錄波通道名稱數(shù)據(jù)的特點,提出了基于正則表達式和Jaccard 相似系數(shù)的智能變電站錄波通道同源匹配方法。該方法使用正則表達式、jieba 分詞算法和去停用詞操作,統(tǒng)一錄波通道名稱文本的表達形式;使用Jaccard相似系數(shù)算法對雙套錄波通道進行同源匹配。將Jaccard 相似系數(shù)匹配的結果與其他文本匹配算法的匹配結果進行對比發(fā)現(xiàn),Jaccard 相似系數(shù)具有更高的匹配精確率,且在不同變電站中均能取得更好的匹配效果。

猜你喜歡
錄波分詞同源
藥食同源
——紫 蘇
兩岸年味連根同源
華人時刊(2023年1期)2023-03-14 06:43:36
故障錄波裝置自動測試系統(tǒng)設計與實現(xiàn)
電氣技術(2022年8期)2022-08-20 02:33:22
以同源詞看《詩經(jīng)》的訓釋三則
結巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
值得重視的分詞的特殊用法
虔誠書畫乃同源
基于Hadoop技術的批量錄波數(shù)據(jù)高性能處理方法
基于暫態(tài)錄波數(shù)據(jù)的負荷建模方法研究
電測與儀表(2015年2期)2015-04-09 11:29:26
基于IEC61850標準的水電廠錄波數(shù)據(jù)接入實現(xiàn)方案
嘉义市| 聂拉木县| 平利县| 罗田县| 长武县| 建始县| 大石桥市| 衡东县| 宿州市| 灯塔市| 搜索| 光泽县| 罗甸县| 保德县| 利津县| 江油市| 双江| 阳曲县| 潜江市| 丰都县| 辉县市| 梁平县| 遂溪县| 宜都市| 奈曼旗| 通辽市| 曲水县| 新邵县| 灵石县| 工布江达县| 绿春县| 都昌县| 海南省| 衡水市| 崇义县| 平南县| 海原县| 永宁县| 革吉县| 临泽县| 渭源县|