王慧芳 曹靖
電力文本還可以采用正則表達式法,用于提取句中的數(shù)字、字母、特殊符號等隱含重要信息的字段。不同的文本挖掘需求可以采用一種或多種方法融合表示。
電力數(shù)據(jù)挖掘方法
電力文本在經(jīng)過預(yù)處理與表示環(huán)節(jié)后,轉(zhuǎn)化為計算機可以處理的結(jié)構(gòu)化數(shù)據(jù),從而可以利用結(jié)構(gòu)化數(shù)據(jù)挖掘方法進行數(shù)據(jù)挖掘。數(shù)據(jù)挖掘方法有很多,常見的有各種機器學(xué)習(xí)方法。基于機器學(xué)習(xí)方法,可以根據(jù)學(xué)習(xí)模式將機器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),是否有監(jiān)督取決于訓(xùn)練數(shù)據(jù)是否有標(biāo)注。根據(jù)學(xué)習(xí)方法,又可以將機器學(xué)習(xí)分為傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)等。傳統(tǒng)機器學(xué)習(xí)算法有邏輯回歸、隱馬爾科夫方法、支持向量機方法、K近鄰方法、貝葉斯方法以及決策樹方法等;深度學(xué)習(xí)算法有深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、受限玻爾茲曼機和循環(huán)神經(jīng)網(wǎng)絡(luò)等。其中,由循環(huán)神經(jīng)網(wǎng)絡(luò)變種而來的長短時記憶網(wǎng)絡(luò),由于加入了長期記憶機制,在處理長序列時具有優(yōu)勢,因而適用于長文本的挖掘。
文本挖掘技術(shù)在
電力缺陷文本中的應(yīng)用
電力缺陷文本的特點及挖掘需求
在電力文本挖掘領(lǐng)域,已有一些針對電力缺陷文本的應(yīng)用。電力缺陷文本來自于電網(wǎng)企業(yè)日常運維記錄,一般包括計算機可直接處理的格式規(guī)范、語義清晰的內(nèi)容,如缺陷設(shè)備編號、名稱、缺陷發(fā)現(xiàn)時間、缺陷等級等;也包括計算機難以理解的文本,主要為缺陷詳細描述,如“2號主變冷卻器風(fēng)扇有異響”“有載分接開關(guān)呼吸器硅膠變色2/3以上”。缺陷描述由現(xiàn)場工作人員記錄,可能存在一些不規(guī)范或錯誤需要進行更正。此外,缺陷描述包含的內(nèi)容通常較為豐富,一條文本可能包含多條缺陷信息,每一條缺陷信息包含著缺陷發(fā)生部件、現(xiàn)象及程度等缺陷特征,因此需要進行缺陷分離、特征抽取、關(guān)系挖掘等研究。
缺陷文本錯誤識別與質(zhì)量提升
缺陷文本常常存在各種原因造成的質(zhì)量問題,如描述不完整、有歧義等,若將這些存在質(zhì)量問題的記錄作為有效文本進行挖掘,會造成挖掘結(jié)果偏差。因此需采用適當(dāng)?shù)姆椒▽θ毕菸谋具M行質(zhì)量評價,對質(zhì)量較差的歷史文本進行質(zhì)量提升,對新錄入文本給出改進建議,從源頭上保證文本質(zhì)量,對確保后續(xù)文本挖掘效果具有重要意義。
缺陷嚴(yán)重等級自動分類
電力設(shè)備缺陷的嚴(yán)重程度常分為緊急、嚴(yán)重、一般三類,不同等級缺陷有不同的消缺時間要求,因此缺陷文本的準(zhǔn)確分類非常重要。人工對缺陷文本進行嚴(yán)重等級分類,不僅效率低,而且由于主觀因素和經(jīng)驗差異,準(zhǔn)確性難以保障。文獻基于one-hot詞袋模型,實現(xiàn)了文本的向量化,然后基于KNN(自主區(qū)間搜索K最近鄰)算法,將待歸類的缺陷文本與缺陷文本庫中已歸類的缺陷文本進行對比,找到最相近的文本,然后將待歸類文本歸入最接近文本的一類。算例驗證了基于KNN算法對文本進行分類的可行性。文獻則提出了基于卷積神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本分類模型。首先以大量經(jīng)過文本預(yù)處理的電力設(shè)備缺陷文本為語料庫,訓(xùn)練出每個詞的詞向量表示,詞向量的各個維度代表通過神經(jīng)網(wǎng)絡(luò)語言模型學(xué)習(xí)到的詞的語義特征。然后參考電力設(shè)備用語規(guī)范,對同義詞的詞向量進行合并。接下來構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)分類器,以準(zhǔn)確標(biāo)注缺陷等級的文本為訓(xùn)練數(shù)據(jù),構(gòu)建以缺陷文本為輸入、以分類等級結(jié)果為輸出的電力缺陷文本分類模型。算例展示了該模型在分類效果上的顯著優(yōu)勢,為電力文本分類提供了有效手段。
缺陷文本智能檢索
目前,缺陷處理工作依賴于工作人員的知識與經(jīng)驗。如果可以通過檢索找到相同缺陷情況的歷史記錄,就可以借鑒前人的經(jīng)驗,參考以往的處理方法對該缺陷進行相應(yīng)處理,這在實際缺陷管理中,尤其是對于知識和經(jīng)驗不足的人員有重要的指導(dǎo)意義。
缺陷文本的健康狀態(tài)自動評價
電力設(shè)備缺陷文本蘊藏著設(shè)備健康既往史,對客觀評價設(shè)備健康狀態(tài)發(fā)展過程大有用處。既然可以把缺陷嚴(yán)重程度分類結(jié)果融入健康狀態(tài)評價模型,那么也可更進一步從句子結(jié)構(gòu)和語義的角度對缺陷文本進行深入挖掘,通過對比缺陷描述與標(biāo)準(zhǔn)導(dǎo)則,給出缺陷文本當(dāng)時場景下的設(shè)備健康得分,這樣設(shè)備既往史融入健康狀態(tài)評價的科學(xué)性會大大提高。但是,實際缺陷文本與標(biāo)準(zhǔn)導(dǎo)則之間的自動準(zhǔn)確匹配仍是一個難題,對比文本相似度的準(zhǔn)確度不夠高,采用知識圖譜技術(shù),或者利用依存句法分析,將缺陷描述轉(zhuǎn)化為樹形結(jié)構(gòu),基于樹匹配算法與導(dǎo)則進行比較,從而得到健康指數(shù)分值,是正在研究的解決辦法。
缺陷文本挖掘的啟發(fā)
上述電力缺陷文本的挖掘研究提供了以下啟發(fā):1. 電力文本種類多,文本挖掘技術(shù)手段也多,需根據(jù)文本特點及挖掘需求研究適合的挖掘方法。2. 文本挖掘效果與文本本身質(zhì)量、本體字典質(zhì)量有重大關(guān)系,因此應(yīng)通過管理和技術(shù)手段保證電力文本質(zhì)量,并建立完善的電力本體字典。3.文本數(shù)據(jù)是電力大數(shù)據(jù)中的一種模態(tài),需結(jié)合其他模態(tài)數(shù)據(jù)的挖掘成果,融合起來才能發(fā)揮更大的作用。
電力文本挖掘面臨的挑戰(zhàn)
電力本體字典的構(gòu)建
電力本體字典的構(gòu)建是電力領(lǐng)域文本挖掘的基礎(chǔ)工作。本體字典蘊含了電力領(lǐng)域最基本的知識,其質(zhì)量與數(shù)量不僅決定著文本預(yù)處理中分詞、詞性標(biāo)注等的準(zhǔn)確性,也影響著消除歧義、構(gòu)建知識圖譜等工作,是電力文本挖掘中最根本的知識庫。
電力本體字典的構(gòu)建是個難題。一方面,電力領(lǐng)域相關(guān)術(shù)語的數(shù)量非常龐大,僅名詞類詞匯就有近萬個。另一方面,電力領(lǐng)域分支眾多,在不同分支領(lǐng)域有不同的專業(yè)詞匯、俗稱及表達習(xí)慣等,比如GIS在設(shè)備層面是指氣體絕緣組合電器,而在電網(wǎng)層面則是指地理信息系統(tǒng)。然而,電力領(lǐng)域畢竟是一個確定的封閉域,雖然困難,但只要電力領(lǐng)域科研工作者共同努力,不斷豐富完善,高質(zhì)量的電力本體字典建設(shè)是可以實現(xiàn)的。
電力知識圖譜的構(gòu)建與應(yīng)用
在已實踐的電力知識圖譜構(gòu)建過程中,基于本體字典進行實體識別,準(zhǔn)確率較高;但在關(guān)系抽取中,如何定義電力實體間的關(guān)系類型,做到不冗余、不缺漏,又滿足挖掘需求,是需要不斷實踐與總結(jié)的。此外,還有尚未實踐的知識圖譜領(lǐng)域更深層次問題,比如,如何根據(jù)已有實體屬性與實體間的關(guān)系,推理得到新的屬性或者關(guān)系,這對于電力知識圖譜的智能化運用非常關(guān)鍵;如何將各種電力知識表示成“實體-關(guān)系-實體”三元組,是一個富有挑戰(zhàn)性的問題;是不是可以打破這種知識表示的限制,創(chuàng)造更多的知識表示的方法,更是一個關(guān)系電力知識圖譜架構(gòu)本身值得研究的問題。目前大規(guī)模知識圖譜的應(yīng)用還比較有限,領(lǐng)域內(nèi)的知識圖譜更是如此。
如何有效實現(xiàn)電力知識圖譜的應(yīng)用,提高大規(guī)模知識圖譜計算效率,不僅需要研究人員探索相關(guān)技術(shù),還需要發(fā)掘合適的應(yīng)用場景進行示范。例如,在電力設(shè)備運維管理的智能查詢、策略推送方面,知識圖譜技術(shù)可望有所作為。
多模態(tài)數(shù)據(jù)融合挖掘提升應(yīng)用價值
數(shù)據(jù)融合是數(shù)據(jù)挖掘的研究分支之一。除常見的結(jié)構(gòu)化數(shù)據(jù)外,還有文本、圖像、視頻、波形等多種模態(tài)的非結(jié)構(gòu)化數(shù)據(jù)。目前開展較多的是結(jié)構(gòu)化數(shù)據(jù)之間的融合研究,如多傳感器監(jiān)測數(shù)據(jù)融合的故障診斷研究,但還缺乏多模態(tài)數(shù)據(jù)融合研究。以電力設(shè)備健康狀態(tài)評估為例,若通過對歷史缺陷文本的缺陷細節(jié)挖掘,獲得電力設(shè)備缺陷發(fā)生的深層次規(guī)律,指導(dǎo)設(shè)備進行測試性設(shè)計,獲得更有效的各種模態(tài)監(jiān)測數(shù)據(jù),再加上挖掘的設(shè)備既往史,則能更全面準(zhǔn)確地評估設(shè)備的健康狀態(tài)。因此電力文本數(shù)據(jù)挖掘與其他模態(tài)數(shù)據(jù)融合挖掘能提升工程應(yīng)用價值。