覃禹銘,包義釗
(貴州電網(wǎng)有限責(zé)任公司遵義供電局,貴州 遵義 563000)
“調(diào)控一體化”建設(shè)是將網(wǎng)區(qū)所轄的變電站通過調(diào)度自動化系統(tǒng)實現(xiàn)廠站全面的、規(guī)范的中心監(jiān)視和遠(yuǎn)程控制,對電網(wǎng)進(jìn)行全面、科學(xué)管理,最大限度地達(dá)到減員增效的效果。
“一體化”的高水平建設(shè)離不開高質(zhì)量的基礎(chǔ)數(shù)據(jù)作為支撐。電網(wǎng)運行系統(tǒng)的基礎(chǔ)數(shù)據(jù)取決于廠站遠(yuǎn)傳數(shù)據(jù),這些數(shù)據(jù)的全面與否、規(guī)范與否至關(guān)重要。由于種種原因,變電站遠(yuǎn)動上送的站內(nèi)監(jiān)測信息不能滿足“一體化”的規(guī)范要求,存在不全面、不規(guī)范等問題。對于這些廠站,調(diào)度自動化系統(tǒng)的建設(shè)及運維人員需要核查問題,梳理整改。對于一個地市級電網(wǎng)的廠站規(guī)模而言,核查的工作量大,同時需要調(diào)度、運行、保護(hù)、自動化等多方面專業(yè)知識的支持。鑒于遙信、遙測信息在電力系統(tǒng)中的重要地位,信號的命名、取舍均由具有專業(yè)知識及豐富經(jīng)驗的人把關(guān)。對于經(jīng)驗不足的人員而言,這是一個難點及痛點。顯然,此項工作具有繁瑣性、復(fù)雜性和專業(yè)性等。目前,在變電站信息梳理工作方面,未見相關(guān)論文進(jìn)行研究。本文針對性地設(shè)計了基于Python的告警信息梳理平臺,利用人工智能相關(guān)技術(shù)創(chuàng)新性地解決了上述問題。
告警信息梳理是以規(guī)范性文件為依據(jù),詳細(xì)約束了不同電壓等級的廠站下屬主變高中低、線路、容抗器等間隔遙測、遙信的命名規(guī)范和信息完整性要求,同時對智能站的特殊設(shè)備提出了全面性、規(guī)范性的要求。
信息梳理的對象是轄區(qū)內(nèi)納入“調(diào)控一體化”的所有變電站。依照規(guī)范化文件制作各廠站規(guī)范化告警信息表,然后按照規(guī)范的要求核查各間隔的遙信遙測是否符合信號全面性、命名規(guī)范性的要求并進(jìn)行相應(yīng)的標(biāo)注,最后匯總?cè)具b信遙測存在的問題形成報告,提交相關(guān)專業(yè)安排整改。
調(diào)度自動化主站工作人員梳理并匯總形成報告的難點及重復(fù)性工作主要包含以下內(nèi)容。
(1)按照規(guī)范化文件核實變電站的所有間隔,并按文件形成全站應(yīng)該具有的信息表,完整、規(guī)范地涵蓋該站按照文件要求需要上送的所有遙信遙測;
(2)根據(jù)信息表羅列的間隔,將主站點表的遙測、遙信信息按間隔列表分類;
(3)根據(jù)信息表,逐間隔從主站點表中查找該間隔要求的信息,并標(biāo)注處理已知的問題,以規(guī)范要求的遙信、遙測的描述中包含的關(guān)鍵詞來檢索所屬間隔的主站點表;
(4)按照格式匯總報告該站存在的問題。
除了上述的重復(fù)性行為,該項工作更大的挑戰(zhàn)是對梳理人員的電力系統(tǒng)知識水平的要求。
結(jié)合調(diào)度自動化主站系統(tǒng)的特點,設(shè)計了如下流程。
(1)根據(jù)導(dǎo)出的電網(wǎng)間隔模型文件,自動生成規(guī)范要求的全站標(biāo)準(zhǔn)信息表;
(2)導(dǎo)入規(guī)范點表和主站導(dǎo)出的變電站點表,逐間隔查找核實主站點表情況;
(3)全站核查結(jié)果匯總并生成報告。
Python語言作為目前廣泛應(yīng)用的計算機(jī)語言,在自然語言處理、人工智能等領(lǐng)域的運用尤其亮眼。
根據(jù)抽象出來的流程,解決信息梳理工作繁復(fù)性主要在步驟上,信息的整理標(biāo)注工作上尤其耗時,這些工作通過計算機(jī)處理是簡單的,棘手的問題在于梳理工作中對專業(yè)知識的依賴。
自然語言識別技術(shù)最初適用于互聯(lián)網(wǎng)搜索引擎搜索結(jié)果排序,利用匹配程度進(jìn)行搜索結(jié)果排序,使用戶優(yōu)先瀏覽匹配較高的搜索結(jié)果。在告警信息核查過程中,以規(guī)范化告警詞條進(jìn)行全站信息檢索也是一種搜索動作,但因未能進(jìn)行匹配程度的排序,導(dǎo)致需要在大量告警描述中尋找最優(yōu)結(jié)果。因此,使用自然語言識別技術(shù)不僅能更容易匹配檢索信息,還可以通過計算機(jī)判斷自動選取匹配工作。
規(guī)范化告警信息中存在某些告警信息某詞義相似的情況,如“重合閘動作”“重合閘保護(hù)動作”,或相近的情況如“裝置閉鎖”“裝置故障”。該信息在處理過程中需要大量的調(diào)度運行、保護(hù)自動化等專業(yè)知識支持,對于此類信息的判斷是一個難點。針對這一問題,本文在軟件設(shè)計中提出了機(jī)器學(xué)習(xí)的概念。程序在協(xié)助工作人員梳理過程中,記錄經(jīng)驗豐富的梳理人員的梳理結(jié)果。當(dāng)經(jīng)驗不足的梳理人員在處理相同或者相似問題時,系統(tǒng)通過調(diào)取經(jīng)驗匹配的方式自動給出建議。若有其他選項,在經(jīng)過經(jīng)驗豐富的梳理人員的許可下,可以將其填寫到匹配結(jié)果。這一流程本質(zhì)上是一個半監(jiān)督的機(jī)器學(xué)習(xí)。
告警信息梳理工作一般多人同時參與。為了能夠?qū)崟r共享主站點表、經(jīng)驗庫、標(biāo)準(zhǔn)信息表、匯總報告等文件及配置,設(shè)計了一套分布式梳理、集中式數(shù)據(jù)共享的告警信息梳理軟件,以滿足日常廠站告警信息信息規(guī)范化核查工作。通過使用機(jī)器學(xué)習(xí)和自然語言識別等技術(shù),減輕工作人員工作壓力和技術(shù)需求,逐步形成半監(jiān)督自動化處理流程,從而為告警信息識別提供相應(yīng)的算法、經(jīng)驗及識別功能框架。整體結(jié)構(gòu)如圖1所示。
圖1 軟件整體建構(gòu)圖
該軟件采用Python編譯,數(shù)據(jù)庫部分采用PostgreSQL數(shù)據(jù)庫。主程序部分包含規(guī)范文件預(yù)處理模塊、數(shù)據(jù)導(dǎo)入模塊和數(shù)據(jù)導(dǎo)出模塊,其中數(shù)據(jù)處理按告警詞條類型調(diào)用處理子程序。依照現(xiàn)有電網(wǎng)模型結(jié)構(gòu)和告警信息特點,將整體廠站遙信信息部分劃分為主變、線路、母線及其他4種類型。處理流程如圖2所示。軟件采用PyQT5設(shè)計交互界面(如圖3所示),使用Listwidget、Tablewidget等控件滿足信息選取時的匹配操作。
圖2 軟件流程圖
首先比對告警信息規(guī)范化描述與實際告警描述,宜采用TF-IDF(Term Frequency-Inverse Document Frequency)計算進(jìn)行詞條的相似度計算。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級。除了TF-IDF以外,互聯(lián)網(wǎng)上的搜索引擎還會使用基于鏈接分析的評級方法,以確定文件在搜索結(jié)果中出現(xiàn)的順序。
詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。這個數(shù)字是對詞數(shù)(Term Count)的歸一化,以防止它偏向長的文件(同一個詞語在長文件里可能會比短文件有更高的詞數(shù),而不管該詞語重要與否)。對于在某一特定文件里的詞語ti來說,它的重要性可表示為:
圖3 軟件交互主界面
其中,ni,j是該詞在文件dj中出現(xiàn)的次數(shù),分母是在文件dj中所有字詞的出現(xiàn)次數(shù)之和。
逆向文件頻率(Inverse Document Frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取以10為底的對數(shù)得到,即:
TF-IDF實際上是在詞頻TF的基礎(chǔ)上加入逆文本IDF的信息,即:
通過上述計算方法,將兩個待比較的詞條逐字分解成數(shù)組,計算出TF-IDF矩陣,然后計算二者的交集大小和并集大小,作商得出告警規(guī)范化描述與實際描述的匹配度。
例如,計算“#2主變高壓側(cè)過負(fù)荷告警”規(guī)范化告警描述過程中與實際廠站告警描述的匹配結(jié)果,如表1所示。
表1 匹配值示意表
機(jī)器學(xué)習(xí)是人工智能的一個分支,該領(lǐng)域的主要研究方向為如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能。通過記錄數(shù)據(jù)或以往的經(jīng)驗,優(yōu)化計算機(jī)程序或計算機(jī)算法的性能。為避免在處理過程中出現(xiàn)重復(fù)匹配過程,提高匹配精度,軟件在半監(jiān)督處理過程中記錄人工告警信息匹配的選取過程,將該處理經(jīng)驗存入經(jīng)驗學(xué)習(xí)庫,在下次描述詞條處理過程中調(diào)取相關(guān)經(jīng)驗處理信息,并使用經(jīng)驗與詞條進(jìn)行TF-IDF匹配計算。由于在實際運算過程中可能會存在無經(jīng)驗情況,此時采用關(guān)鍵字匹配計算進(jìn)行人工匹配工作,確保人工確認(rèn)數(shù)量達(dá)到可控制范圍。機(jī)器學(xué)習(xí)處理流程,如圖4所示。
圖4 機(jī)器學(xué)習(xí)處理流程圖
單規(guī)范化詞條與1 000個廠站實際描述匹配值計算時間為5.3 s(常規(guī)工作站配置)。為解決處理時長過長的問題,軟件將所有待匹配的實際描述組按處理進(jìn)程數(shù)隨機(jī)均分,實現(xiàn)進(jìn)程之間的負(fù)載均衡。實際采用8進(jìn)程進(jìn)行同時處理時,單規(guī)范詞條處理時長降至1.4 s。
解決告警描述匹配閾值的選取問題,需設(shè)定訓(xùn)練集進(jìn)行匹配閾值的匹配驗證,控制整體算法在匹配過程中的精確程度,減少不必要的計算量。設(shè)定1 000個規(guī)范化描述與實際描述匹配的訓(xùn)練集,閾值區(qū)間取值為0.7~1,以0.1為步長,最低選取匹配閾值如圖5所示。
統(tǒng)計結(jié)果中,閾值等于1的情況不存在參考價值,故剔除后按照95%的準(zhǔn)確率進(jìn)行重統(tǒng)計計算。滿足準(zhǔn)確率95%時,閾值選取范圍為0.82。配合經(jīng)驗處理后,可適當(dāng)提高0.02~0.05,提高識別精度。
圖5 閾值選取分布曲線
本文將人工智能領(lǐng)域中自然語言識別技術(shù)、機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于變電站信息核查工作,結(jié)合工作的特點,創(chuàng)新性地建立了遙信信號命名經(jīng)驗庫,并將其應(yīng)用于核查算法,解決了梳理工作依賴于人員經(jīng)驗的問題。在業(yè)務(wù)流程上,本文構(gòu)建了分布式處理平臺,應(yīng)用經(jīng)驗數(shù)據(jù)庫共享、多線程技術(shù),簡化了梳理的繁瑣流程,將人從繁復(fù)的操作中解放出來,使其專注于信號梳理,顯著提高了梳理工作的效率和準(zhǔn)確性,同時為今后告警信息智能化識別、處理、優(yōu)化提供了重要依據(jù)。