楊維, 張浩, 張才俊, 曹璐, 曾月陽, 徐強(qiáng)
(1.國家電網(wǎng)有限公司客戶服務(wù)中心,天津 300300;2.北京中電普華信息技術(shù)有限公司,北京 100085)
隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,現(xiàn)代企業(yè)逐漸受到時(shí)代變化的影響,電網(wǎng)企業(yè)是電力業(yè)務(wù)發(fā)展的首要單位,對電網(wǎng)企業(yè)數(shù)據(jù)進(jìn)行合理管理[1-3],能夠有效約束企業(yè)的風(fēng)險(xiǎn)影響。由于互聯(lián)網(wǎng)技術(shù)的廣泛傳播,電網(wǎng)公司的運(yùn)營逐漸信息化,當(dāng)客戶工單的不斷增多[4],電網(wǎng)系統(tǒng)中的信息也呈海量增長?,F(xiàn)階段我國電網(wǎng)公司的客戶工單信息報(bào)送部分還在使用人工的形式[5],這使得電網(wǎng)公司對信息的管理以及查詢存在缺失,導(dǎo)致電力客戶工單信息維護(hù)困難,出現(xiàn)質(zhì)量差錯(cuò)[6]。
許多學(xué)者對電力信息的查詢問題進(jìn)行研究,如楊捷等[7]研究面向電力工單文本的服務(wù)失誤識別,具體應(yīng)用時(shí)存在查詢及時(shí)性較差問題;邵冠宇等[8]研究基于依存句法分析的電力設(shè)備缺陷文本信息精確辨識方法,但面對海量的電力工單信息時(shí),仍然存在信息難以精準(zhǔn)分類,特征提取關(guān)聯(lián)度低等問題。
桌面云坐席系統(tǒng)是電網(wǎng)企業(yè)中所采用的有效的管理系統(tǒng),能夠使用戶隨時(shí)隨地對個(gè)人桌面進(jìn)行查看,具有使用方便等特點(diǎn),還能夠整合客戶端技術(shù)、虛擬桌面以及遠(yuǎn)程桌面訪問技術(shù),能夠有效改善電力公司的統(tǒng)一信息操作過程,因此,本文提出了桌面云坐席系統(tǒng)電力客戶工單信息精準(zhǔn)查詢方法,并對其性能進(jìn)行了分析。
通過塑造文本表示模型實(shí)現(xiàn)自動(dòng)分詞。由于中文句子存在特殊性,各個(gè)詞語所組成的句子當(dāng)中,并不會(huì)存在分隔符或者英文空格符[9-10],所以若想實(shí)現(xiàn)中文文本挖掘,必須實(shí)現(xiàn)自動(dòng)分詞?,F(xiàn)階段存在較多的分詞算法,如HMM算法、CRF算法等,其中本文采用條件隨機(jī)場CRF(Conditional random field)分詞算法實(shí)現(xiàn)自動(dòng)分詞,該算法是一種標(biāo)注算法,并且依據(jù)概率圖模型設(shè)計(jì),現(xiàn)階段較為成熟,且精準(zhǔn)度較高,還擁有更好的適用效果[11],是馬爾科夫隨機(jī)場的條件概率約束的一種特殊狀態(tài)。設(shè)隨機(jī)變量X、Y,并設(shè)計(jì)無向圖G=(R,Q),該無向圖由Y組成,并采用公式(1)描述馬爾科夫隨機(jī)場。
P(YR|X,YW,γ)=P(YR|X,YW,ω-γ)
(1)
式(1)中,YR、YW表示節(jié)點(diǎn)r、w相應(yīng)的隨機(jī)變量,點(diǎn)ω-γ表示在圖G=(R,Q)中,全部節(jié)點(diǎn)剔除掉節(jié)點(diǎn)r之后,所剩下的節(jié)。
馬爾科夫隨機(jī)場中所存在的某種特殊情況,即是該分詞算法中所使用的條件,由一致圖形態(tài)的線性鏈條件隨機(jī)場構(gòu)成,該條件被X、Y擁有。設(shè)計(jì)隨機(jī)變量的序列,并共同存在于線性鏈表示中,由X={X1,X2,X3,…,Xn}、Y={Y1,Y2,Y3,…,Yn}描述,當(dāng)隨機(jī)變量序列X的約束已經(jīng)確認(rèn)時(shí),隨機(jī)場由序列Y的條件概率P(Y|X)組成,n表示序列的長度,序列位置由i描述,通過公式(2)描述該過程:
P(Yi|X,Y1,Yi-1,Yi+1…Yn)=P(Yi|X,Y1,Yi-1,Yi+1)
(2)
進(jìn)行標(biāo)注調(diào)整中文分詞過程中,X表示等待調(diào)整的添加序列,Y表示發(fā)送的標(biāo)記序列。進(jìn)行文本訓(xùn)練過程的學(xué)習(xí),可以獲取分詞過程中隨機(jī)場模型的參數(shù),最終實(shí)現(xiàn)電力客戶工單信息文本分詞[12]。
在文本分詞的基礎(chǔ)上,通過特征選擇算法選擇特征,為下一步工單信息分類實(shí)現(xiàn)精準(zhǔn)查詢做好基礎(chǔ)工作。常見的特征選擇算法有卡方特征選擇(CHI)、信息增益(IG)等算法,本文采用改進(jìn)CHI特征選擇算法,以使特征項(xiàng)中負(fù)相關(guān)的問題削弱或剔除,通過式(3)描述該算法改進(jìn)后:
(3)
對該算法的改進(jìn)過程,是將因子A/(A+C)乘以未改進(jìn)的算法,主要目的是,每類的χ2(w,c)在被特征項(xiàng)預(yù)計(jì)時(shí),不研究本類別中不存在的特征詞,即A為0,依據(jù)公式(3)最終獲知χ2(w,c)=0。若A/(A+C)略小,即該類別文本中,存在頻率并不大的詞,其χ2(w,c)同時(shí)變小,當(dāng)A/(A+C)較大,即頻率較大的詞存在時(shí),χ2(w,c)一并變大。
通常特征項(xiàng)的CHI值,是其全部類別的CHI最大或平均值,而本文所改進(jìn)之后,全部類別的CHI最大值來描述CHI值。
通過VSM方法進(jìn)行文本表示,對于VSM列矩陣變量,采用上述特征選擇后的特征項(xiàng)。依據(jù)TF-IDF算法,計(jì)算特征向量的權(quán)重,具體為
wik=tfik×idfik
(4)
式(4)中,tfik表示文本di內(nèi)存在已獲取特征項(xiàng)tk的頻率,idfik表示特征項(xiàng)tk的逆向工單頻率,該公式的含義是該特征項(xiàng)的重要性隨著特征項(xiàng)tk存在于文本集中的區(qū)域決定,存在的區(qū)域越大,特征項(xiàng)的重要度即越低,計(jì)算過程如式(5):
(5)
式(5)中,N表示全部文本數(shù)量,表示nk涵蓋特征項(xiàng)tk的全部文本數(shù)量,α=0.01。
由于特征項(xiàng)權(quán)重值會(huì)因?yàn)槲谋敬笮“l(fā)生改變,因此,歸一化調(diào)整權(quán)重,通過式(6)描述:
(6)
基于上述獲取的特征項(xiàng)重要度,利用樸素貝葉斯分類器,依據(jù)特征選定給定的輸入值內(nèi)需要?jiǎng)澐值臉?biāo)簽。分類器首先對標(biāo)簽的先驗(yàn)概率進(jìn)行計(jì)算,以實(shí)現(xiàn)標(biāo)簽向輸入值提供的過程,計(jì)算形式依據(jù)訓(xùn)練集中標(biāo)簽頻率的驗(yàn)證結(jié)果獲知。并且整合特征的先驗(yàn)概率與重要度,能夠?qū)?biāo)簽的似然分?jǐn)?shù)進(jìn)行獲取,輸入值中會(huì)保存似然估計(jì)分?jǐn)?shù)最大的標(biāo)簽,并且最終得分可以用作表示被取出值的概率估計(jì)。Label表示發(fā)送標(biāo)簽由,features表示添加的n個(gè)特征值,該算法通過以下步驟進(jìn)行計(jì)算:
(1) 計(jì)算過程如式(7):
P(features)=∑label∈labelsP(features,label)
(7)
(2) 所給出標(biāo)簽特征的概率乘以標(biāo)簽的概率,可以描述似然標(biāo)簽,當(dāng)特征不依賴于其他條件時(shí),計(jì)算過程如式(8):
P(features,label)=P(label)×P(features|label)=P(label)×∏f∈featuresP(f|label)
(8)
式(8)中,P(label)表示標(biāo)簽的先驗(yàn)概率,其含義是標(biāo)簽可能性中,每個(gè)特征的貢獻(xiàn),是訓(xùn)練所給出標(biāo)簽與所給出特征的比例,通過如式(9):
P(f|label)=count(f|label)/count(label)
(9)
(3) 若所給標(biāo)簽與特征未同時(shí)存在過,并且該特征出現(xiàn)在訓(xùn)練集中,P(f|label),使得標(biāo)簽疑似為0,導(dǎo)致該標(biāo)簽中不會(huì)出現(xiàn)所添加的值,最終使分類效果變差,準(zhǔn)確度不高。采用“拉歐拉斯修正”,在預(yù)算概率值時(shí)進(jìn)行剔除修正,以防止訓(xùn)練集內(nèi)隱藏的屬性值剔除各式屬性帶領(lǐng)的信息。
設(shè)訓(xùn)練集D內(nèi)疑似的類型數(shù)由M表示,Mi表示第i個(gè)屬性疑似取值,Dc表示D中第c類樣本構(gòu)成的集合,Dc中第i個(gè)屬性上,當(dāng)樣本值為xi,所構(gòu)成的集合通過Dcixi描述,具體計(jì)算公式為
(10)
(11)
(4) 計(jì)算P(label|features),對于新添加特征值的標(biāo)簽成果,采用與最大概率相應(yīng)的標(biāo)簽。
通過上述過程完成電力客戶工單信息錄入后的自動(dòng)分類,實(shí)現(xiàn)精準(zhǔn)查詢。
將本文方法應(yīng)用至某電網(wǎng)企業(yè)的桌面云坐席系統(tǒng)中,以該電網(wǎng)企業(yè)3月份收集的53 692條電力客戶工單信息為數(shù)據(jù)樣本。為分析本文方法的桌面云坐席系統(tǒng)電力客戶工單信息精準(zhǔn)查詢能力,選取文獻(xiàn)[7]面向電力工單文本的服務(wù)失誤識別方法與文獻(xiàn)[8]基于依存句法分析的電力設(shè)備缺陷文本信息精確辨識方法作為本文的對比方法,進(jìn)行分類訓(xùn)練。
分析3種方法訓(xùn)練后的信息特征選擇關(guān)聯(lián)度,分析結(jié)果如表1所示。根據(jù)表1可知,經(jīng)訓(xùn)練后,3種方法的特征詞匯關(guān)聯(lián)度有所不同,文獻(xiàn)[7]方法關(guān)聯(lián)度最高的詞匯為“損壞”,達(dá)到0.52,而文獻(xiàn)[8]方法的關(guān)聯(lián)詞匯關(guān)聯(lián)度最高的是“登記”,關(guān)聯(lián)度為0.54,本文方法在所選關(guān)聯(lián)詞匯中關(guān)聯(lián)度均要高于其他2種方法,且最高達(dá)到0.78,因此本文方法的具有較高的信息特征選擇關(guān)聯(lián)度。
表1 特征詞匯及其關(guān)聯(lián)度
分析不同方法的特征選擇能力,選取上述8個(gè)特征的12 000個(gè)特征樣本進(jìn)行訓(xùn)練,隨著特征數(shù)量的不斷提升,不同方法的F1值,分析結(jié)果如圖1所示。根據(jù)圖1、圖2可知,隨著訓(xùn)練特征樣本數(shù)的不斷上升,不同方法的F1值也隨之上升。當(dāng)特征樣本數(shù)為2000時(shí),文獻(xiàn)[7]方法的宏平均F1值與微平均F1值分別為65%與74%,低于文獻(xiàn)[8]方法與本文方法,且文獻(xiàn)[8]方法的F1值同時(shí)也低于本文方法,在特征樣本數(shù)達(dá)到12 000時(shí),本文方法的宏平均F1值為97%,微平均F1值為96%,在特征樣本數(shù)不斷變化下一直高于其他兩種方法,由此可知,當(dāng)特征樣本數(shù)量相同的情況下,本文方法所選擇特征包含較多信息,可為工單信息精準(zhǔn)查詢提供強(qiáng)有力數(shù)據(jù)支撐。
圖1 不同方法宏平均F1值對比
分別對比3種方法查詢結(jié)果的準(zhǔn)確率、精度以及召回率,并通過以下方式進(jìn)行計(jì)算,分析結(jié)果如表2所示。根據(jù)表2可知,從準(zhǔn)確率來看3種方法都在85%以上,都有較高的準(zhǔn)確率,但文獻(xiàn)[7]方法與文獻(xiàn)[8]方法的準(zhǔn)確率低于本文方法,且本文方法的查詢準(zhǔn)確率達(dá)到95%,因此本文方法具有較高的查詢準(zhǔn)確率。本文方法的查詢召回率、精度都要高于另外兩種方法,因此本文方法能夠明顯提高查詢能力。
表2 不同方法的查詢結(jié)果
選取電力客戶5類工單,分析本文方法對電力客戶工單信息精準(zhǔn)查詢的支持度,分析結(jié)果如圖3所示。根據(jù)圖3可知,不同方法對每種工單類別的查詢支持度有所不同,其中文獻(xiàn)[7]方法在工單關(guān)鍵詞為“停送電”的支持度最高,與其他工單關(guān)鍵詞支持度存在較大差距,而文獻(xiàn)[8]方法不同工單關(guān)鍵詞支持度較為相似,但一直保持較低水平,本文方法同樣存在較為穩(wěn)定的精準(zhǔn)查詢類工單關(guān)鍵詞支持度,并且一直保持高于文獻(xiàn)[7]方法與文獻(xiàn)[8]方法,因此本文方法具有較高的工單信息精準(zhǔn)查詢支持度。
圖3 不同查詢方法支持度
分析不同方法對5種工單類別的120個(gè)工單信息的查詢遺漏率,分析結(jié)果如圖4所示。根據(jù)圖4可知,隨著工單信息的增加,3種方法的查詢遺漏率有所下降,其中文本方法與文獻(xiàn)[7]方法一直保持隨著工單信息的增加逐漸下降的趨勢,而文獻(xiàn)[8]方法在工單信息數(shù)量40~60時(shí)突然出現(xiàn)下降,出現(xiàn)波折趨勢,查詢遺漏情況不穩(wěn)定,本文方法的查詢遺漏率最高達(dá)到7.1%,最低只有5.2%,一直保持在最低狀態(tài),因此本文方法不會(huì)出現(xiàn)較大的查詢遺漏問題。
圖4 不同方法查詢遺漏率
分析不同方法在精準(zhǔn)查詢時(shí)的加速比,分析結(jié)果如圖5所示。根據(jù)圖5所示,特征樣本數(shù)量的提升影響了不同方法的總處理時(shí)間,但本文方法的處理時(shí)間雖然受到特征樣本數(shù)量的影響,但時(shí)間增加較為緩慢,并且保持始終低于另外2種方法,因此本文方法擁有較好的加速比。
圖5 不同方法查詢加速比
選取固定信噪比,分析不同方法隨著信噪比變化的工單信息精確查詢程度,分析結(jié)果如圖6所示。根據(jù)圖6可知,當(dāng)信噪比由10 dB逐漸下降到-6 dB時(shí),3種方法的查詢準(zhǔn)確率逐漸變低,尤其是在信噪比下降到0 dB后,文獻(xiàn)[7]方法與文獻(xiàn)[8]方法的準(zhǔn)確率逐漸下降到65%以下,本文方法在信噪比為0 dB時(shí)信噪比未低于78%,并且在0 dB以下依舊保持著70%以上的信噪比,因此,本文方法具有較強(qiáng)的抗噪性能,且信息精準(zhǔn)查詢準(zhǔn)確率較高。
圖6 不同方法的信息精準(zhǔn)查詢結(jié)果
本文提出了桌面云坐席系統(tǒng)電力客戶工單信息精準(zhǔn)查詢方法,通過條件隨機(jī)場分詞算法進(jìn)行文本分詞,通過改進(jìn)CHI特征選擇算法,進(jìn)行電力客戶工單信息特征選擇,依據(jù)文本向量化過程,最終采用樸素貝葉斯算法實(shí)現(xiàn)特征分類,最終完成工單信息精準(zhǔn)查詢。未來階段可繼續(xù)加深研究,在桌面云坐席系統(tǒng)中實(shí)現(xiàn)更精準(zhǔn)的電力客戶工單信息查詢。