劉興平,章曉明,沈 然,林少娃,章琛敏,張 維,朱 斌,何 韻(國網(wǎng)浙江省電力公司電力科學研究院,杭州 310014)
?
電力企業(yè)投訴工單文本挖掘模型
劉興平,章曉明,沈然,林少娃,章琛敏,張維,朱斌,何韻
(國網(wǎng)浙江省電力公司電力科學研究院,杭州310014)
摘要:以客戶投訴工單和回訪不滿意工單為樣本,引入LDA文檔主題生成模型對文本信息進行中文自然語言處理和數(shù)據(jù)挖掘,發(fā)現(xiàn)問題屬性類別,通過大數(shù)據(jù)對文本挖掘結果進行分析和監(jiān)控,構建適合電力公司的投訴工單文本挖掘模型,實現(xiàn)對工單進行分類篩選、便簽判斷和初步歸因。
關鍵詞:客戶滿意度;訴投工單;文本挖掘;大數(shù)據(jù)分析
隨著電力行業(yè)售電側改革不斷加深,對客服管理質量要求越來越高,需要進一步改善客戶體驗和提升客戶滿意度。要提升客戶滿意度,必須從客戶不滿意點出發(fā),客戶投訴的工單分析就是其中的關鍵環(huán)節(jié)。本文依據(jù)一般客服問題管理機制和文本挖掘理論,并結合電力企業(yè)客服特點,闡述了如何對客服投訴工單文本進行挖掘分析以及如何在系統(tǒng)中的應用。
業(yè)務工單中的投訴工單、客戶回訪處理不滿意的工單能直接反映客戶對產(chǎn)品、對服務的感知,是客戶滿意度的最直接反映。從現(xiàn)狀來看,目前的工單處理方式,是由調查分析人員通過對95598客戶訴求數(shù)據(jù)的分析,以此來發(fā)現(xiàn)客戶對問題感知的不滿意點。這種方式缺乏有效的輔助分析手段,分析手段單一,影響服務問題的分析和解決效率,因此需要構建客服投訴工單文本分析模型,利用中文自然語言處理、數(shù)據(jù)挖掘、人工智能等技術,結合電力領域的業(yè)務特點,對工單進行自動化的智能分析與處理,以實現(xiàn)文本學習、挖掘問題工單及原因、統(tǒng)計分析和大數(shù)據(jù)分析監(jiān)控等。
1.1文本挖掘技術
文本挖掘(Text Mining,TM)是近幾年來數(shù)據(jù)挖掘領域的一個新興分支,是以文本數(shù)據(jù)為特定挖掘對象的知識挖掘。文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程[1—2]。文本挖掘的要點是分詞,根據(jù)文本數(shù)據(jù)中的特征信息進行分詞處理,以此構建文本的中間表示[3]。原始的文本數(shù)據(jù)以結構化的數(shù)據(jù)呈現(xiàn)之后,再利用分類、聚類等技術轉化為結構化文本,進而發(fā)現(xiàn)新的概念和獲取相應的關系[4]。
1.2基于領域特征詞表的特征詞標注
以大量投訴工單中反映業(yè)務種類、問題現(xiàn)象、問題原因的特征詞為基礎,設立特征詞表,進行基于特征詞匹配的子句標注,并依不同維度進行工單分類。在實際應用中發(fā)現(xiàn),基于領域特征詞表的輔助分析,可以顯著提高工單分類、聚類等的準確性和效率[5]。
1.3基于大數(shù)據(jù)的數(shù)據(jù)監(jiān)控分析
通過構建檢測模型和確定模型指標體系、指標閾值等參數(shù),對工單數(shù)據(jù)進行大數(shù)據(jù)分析,采取可視化大屏全屏展示的方式進行全方位多角度的展開實時監(jiān)控、分析、預警和展示,及時發(fā)現(xiàn)當前問題、變化趨勢,并對問題點改進情況進行跟蹤[6]。
2.1客服工單文本挖掘模型結構
從客戶感知出發(fā)進行問題挖掘,選取客戶投訴的受理工單、回訪工單和歸檔工單為樣本,進行文本挖掘,以發(fā)現(xiàn)問題、判斷問題屬性和類別,對問題歸因分析,并通過大數(shù)據(jù)對文本挖掘結果進行分析和監(jiān)控,以此構建本文文本挖掘模型。整個文本挖掘思路達到對工單的分類篩選、便簽判斷和初步歸因的效果,從而利于在信息化系統(tǒng)平臺的支撐下,達到對工單數(shù)據(jù)的及時分析和監(jiān)控管理的目的。
客服工單的管理模型如圖1所示,主要有樣本選取、問題預處理、模型訓練和大數(shù)據(jù)分析等大類。其中,文本學習指采取數(shù)據(jù)挖掘技術對文本進行挖掘,并與設立的特征詞庫進行比對;分類歸因指將各個工單與相應的問題標簽、原因標簽對應起來,以達到問題分類和歸因挖掘的目的;模型優(yōu)化指通過模型的自動學習,加上專家經(jīng)驗輔助,不斷地完善各類特征詞庫,使得模型準確率不斷提升;統(tǒng)計分析指采用大數(shù)據(jù)技術、以大量數(shù)據(jù)為基礎,進行多維度的統(tǒng)計分析;監(jiān)控分析指監(jiān)控各單位相關服務指標的變化,設立預警閾值,并對問題點解決情況進行跟蹤分析。
圖1客服工單管理模型結構
2.2數(shù)據(jù)來源
數(shù)據(jù)的主要來源有:①國網(wǎng)95598客服系統(tǒng)中投訴受理工單、回訪不滿意工單信息;②營銷系統(tǒng)和配網(wǎng)搶修平臺提供的工單受理時間、故障區(qū)域、故障所在線路等基本信息;③反映客戶主要訴求信息的投訴受理記錄內容、投訴處理過程記錄。
2.3文本學習
文本學習主要通過2種方式進行:專家經(jīng)驗和自動學習。利用專家的豐富經(jīng)驗,對問題的特征詞和原因的特征詞進行總結,例如:在投訴服務人員態(tài)度不好的工單中,工單的投訴受理記錄文本或投訴處理過程記錄文本會出現(xiàn)“態(tài)度差”等詞匯,于是把“態(tài)度差”等詞匯設置為態(tài)度類問題工單的特征詞,特征詞不唯一;在由于天氣原因造成的投訴工單中,工單的投訴受理記錄文本或投訴處理過程記錄文本會出現(xiàn)“雷電、暴雨、臺風”等詞匯,于是把“雷電、暴雨、臺風”等詞匯設置為此類天氣類原因造成投訴工單的特征詞,特征詞不唯一。
專家經(jīng)驗的文本學習方式是常態(tài)化機器自動學習的判斷前提和補充,系統(tǒng)的判斷也需要人工的進一步判斷,在系統(tǒng)不斷升級優(yōu)化的過程中通過系統(tǒng)自動學習的方式,不斷對問題及原因特征詞庫進行補充,后期系統(tǒng)將對各類問題及其原因在不同維度的統(tǒng)計分析,統(tǒng)計分析的結果將作為自動學習的參考依據(jù),輔以人工輔助,進行特征詞庫的調整。例如:某一類問題或者原因的工單,存在某個詞匯多次反復出現(xiàn),十分顯著,則將這個詞匯自動添加到此類特征詞庫中。
2.4模型訓練
中文自然語言文本進行自動化處理的基礎是對文本進行挖掘算法建模。本文引入LDA文檔主題生成模型對文本進行挖掘分析,它采用了詞袋(bag of words)的方法[7],這種方法將每一篇文檔視為一個詞頻向量,每一篇文檔代表了一些主題所構成的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。針對每一篇文檔,LDA主題生成主要有3個步驟:首先對每一篇文檔,從主題分布中抽取一個主題;其次從上述被抽到的主題所對應的單詞分布中抽取一個單詞;最后重復上述過程直至遍歷文檔中的每一個單詞。用LDA模型對大量工單進行挖掘,再與特征詞庫進行匹配,將不同的特征詞進行分類,劃分為不同的標簽,再將不同標簽與各個工單進行對應。其中,標簽的設立也會采取專家經(jīng)驗進行人工輔助的方式設立。
例如:電力公司接到投訴工單的處理內容文本為:“4月2日晚,XX供電所接到投訴工單后,供電所所長立即開展仔細的調查,調查結果是:4月2日19:05,由于突然的惡劣天氣,導致變電所10 kV線路的995線和991線均同時被雷擊跳閘停電,為盡快恢復供電,供電所值班人員全部外出搶修,值班室內只留有保安人員一人應急處理值班電話接聽工作;由于停電面積廣,停電咨詢電話較多,供電所3個值班電話****3901,****3832,****6866同一時間響起(當時投訴人潘先生撥打電話****6866),保安忙于處理其他2個值班電話,導致投訴人潘先生等待時間長,并產(chǎn)生焦急心理,待電話接通時,潘先生語氣較急,認為保安拖延,服務態(tài)度差。”
從上面的工單來看,將上述文檔設為D,由一個單詞序列
式中:zi是潛在變量,表明第i個詞匯記號;wi取自該主題;P(wi|zi=j)是詞匯wi記號屬于主題j的概率;P(zi=j)給出主題j屬于當前文本的概率。假定T個主題形成d個文本,且以W個唯一性詞匯表示,為記號方便,令ψ(wz=j) =P(z=j)表示對于主題j,W個詞匯上的多項分布,其中w是W個唯一性詞匯表中的詞匯;令φdz=j=Pz=j表示對于文本d,T個主題上的多項分布,于是文本d中詞匯w的概率為
通過上述方式,文本中出現(xiàn)的“惡劣天氣”、“拖延”和“態(tài)度差”等詞匯與特征詞庫中“拖延”、“態(tài)度差”等詞匯契合,匹配成功后,查找這2個詞統(tǒng)屬的標簽,假設標簽為“服務態(tài)度差”,則將問題標簽“服務態(tài)度差”與該工單進行關聯(lián),將此作為該工單的問題點;將“天氣惡劣”等詞匯與原因特征詞庫進行匹配,匹配成功后,查找這個詞統(tǒng)屬的標簽,假設標簽為“客觀原因”,則將此原因標簽與該工單進行關聯(lián),將此作為該工單的原因點。通過模型的使用,特征詞庫的不斷調整,也是一個不斷優(yōu)化的過程。
通過如上所述的方式,系統(tǒng)自動進行文本挖掘,起到工單的篩選、分類和初步歸因的作用,將大量工單以標簽的形式進行分類和歸因,極大地減少工作量,提升工作效率,提高服務質量。
2.5大數(shù)據(jù)統(tǒng)計分析
2.5.1挖掘結果統(tǒng)計分析
通過問題點的篩選與分類、問題的分析與歸因,得到一系列具有大數(shù)據(jù)挖掘價值的數(shù)據(jù),例如:各類問題點在某時間段出現(xiàn)的次數(shù)、各類問題點在不同時間段出現(xiàn)的變化趨勢、各類問題點占比等,以大量的數(shù)據(jù)為基礎,進行各個維度的統(tǒng)計和分析:進一步進行問題點的穿透分析,找到問題原因本質,設立典型問題和專題問題,出具不同類型的解決方案;后臺報表自動關聯(lián)進行統(tǒng)計分析,包括工單反應問題和原因的時間、責任歸口部門、責任人、空間分布等。
以前文提到的投訴工單為例,通過文本挖掘對工單進行標簽設置,其中原因標簽為“天氣惡劣”,將大量的挖掘結果進行統(tǒng)計分析,如果在較長時間內以“天氣惡劣”作為原因的投訴工單數(shù)量龐大,或在某個區(qū)域內出現(xiàn)此類投訴數(shù)量顯著高于其他區(qū)域,則歸類為專題問題,進行深層次的歸因。深層次的歸因分析,需要專家以統(tǒng)計分析結果輔助進行,出具分析報告和問題改進方案,包括改進問題點、改進措施、責任歸口部門、改進措施內容、改進時間計劃、階段性改進目標等,以期達到針對性進行下一步工作的目的。
2.5.2大數(shù)據(jù)分析監(jiān)控
大數(shù)據(jù)分析監(jiān)控主要分為2個部分:大數(shù)據(jù)監(jiān)控分析和問題點改進跟蹤。
大數(shù)據(jù)監(jiān)控分析主要通過監(jiān)控各單位相關服務指標的變化(例如:故障搶修到達現(xiàn)場),設定需重點關注工單的篩選規(guī)則。通過對指標值趨勢變化的分析以及指標值是否到達預警閾值從內外2方面對相關服務質量的變化進行檢測。
問題點的改進跟蹤主要指問題點的改進過程在系統(tǒng)中留有改進執(zhí)行痕跡信息,例如:問題點、所屬業(yè)務類型、所屬業(yè)務環(huán)節(jié)、歸屬責任單位、歸屬責任部門、開始改進時間、結束改進時間等。分析人員跟蹤、查詢業(yè)務部門的措施執(zhí)行情況,并對完成整改的措施進行執(zhí)行效果評價,支持進行多次評價。在業(yè)務研判環(huán)節(jié),如果針對同一個單位部門、相同業(yè)務類型、相同業(yè)務環(huán)節(jié)出現(xiàn)相同的問題點,則系統(tǒng)進行告警,提醒分析人員關注,結合該問題的改進執(zhí)行是否已結束,綜合分析該問題點的改進方案是否要調整,并對問題改進效果進行評估。
基于客服工單文本挖掘模型的浙江電力客服投訴工單管理系統(tǒng)建設采用滿足技術先進性與成熟性相結合的基于J2EE的多層技術構架,以提高系統(tǒng)的靈活性、可擴展性、安全性以及并發(fā)處理能力。
采用組件技術將界面控制、業(yè)務邏輯和數(shù)據(jù)映射分離,實現(xiàn)系統(tǒng)內部的松耦合,以靈活、快速地響應業(yè)務變化對系統(tǒng)的需求。系統(tǒng)在技術上劃分為客戶端、展現(xiàn)層、業(yè)務邏輯層(包含公用組件和業(yè)務支撐)、信息層和企業(yè)數(shù)據(jù)總線,通過各層次系統(tǒng)組件間服務的承載關系,實現(xiàn)系統(tǒng)功能,具體如圖2所示。
圖2客服投訴工單管理系統(tǒng)架構
客服投訴工單管理系統(tǒng)關聯(lián)海量數(shù)據(jù),通過樣本選取、問題預處理、模型訓練和大數(shù)據(jù)分析,結合專家經(jīng)驗,實現(xiàn)業(yè)務邏輯層的各項業(yè)務支撐功能;實時查找服務問題突出點和熱點,實現(xiàn)全省電力客戶服務情況綜合分析和展示,及時掌握全省服務水平和狀態(tài);預警潛在投訴點,實現(xiàn)用戶行為預測,協(xié)助一線工作人員制定個性化服務方案,同時給公司決策層提供數(shù)據(jù)支撐和依據(jù)。
客服工單文本挖掘模型建立起了常態(tài)化文本挖掘模型方法,涉及問題發(fā)現(xiàn)、問題篩選、問題分析、歸因分析、統(tǒng)計分析等,提高了問題點歸因的可信性和準確性,降低了人力成本。
考慮到客戶服務質量將在未來處于越發(fā)重要的地位,其業(yè)務復雜程度將日益加深,因此在模型調優(yōu)上仍然有進步的空間。在客服投訴工單管理系統(tǒng)中,可以挖掘的數(shù)據(jù)龐大,需要進一步明確各類數(shù)據(jù)口徑、范圍、評價對象及指標價值。通過研究不斷地增減和調整各類需要挖掘的對象,豐富和完善指標體系,挖掘出更多具有價值的數(shù)據(jù)和指標,在經(jīng)過分析后,更好地為下一步的工作目標、工作重點起到指導作用。
參考文獻:
[1]王麗坤,王宏,陸玉昌.文本挖掘及其關鍵技術與方法[J].計算機科學,2002(12):12-19.
[2]潘鋼.上海移動公司客戶投訴管理研究及應用[D].上海:上海交通大學,2013.
[3]諶志群,張國煊.文本挖掘研究進展[J].智能識別與人工智能,2005(1):65-74.
[4]陳陽,凌俊民,蒙圣光.投訴數(shù)據(jù)智能挖掘分類管理系統(tǒng)[J].數(shù)字技術與應用,2011(6):146-149.
[5]Kodratoff Y. Knowledge Discovery in Texts:A Definition and Applications. Proc[C]∥ISMIS’99,Warsaw,1999.
[6]高崇,韓雨.基于大數(shù)據(jù)分析的運營監(jiān)測信息系統(tǒng)應用[J].科技與創(chuàng)新,2015(12):116.
[7]李文波,孫樂,張大鯤.基于Labeled?LDA模型的文本分類新算法[J].計算機學報,2008(4):620-621.
(本欄責任編輯徐文紅)
Text mining model of electric power complaint work
LIU Xing?ping,ZHANG Xiao?ming,SHEN Ran,LIN Shao?wa,ZHANG Chen?min,ZHANG Wei,ZHU Bin,HE Yun
(State Grid Zhejiang Electric Power Corporation Research Institute,Hangzhou 310014,China)
Abstract:Taking customer complaint work order and unsatis?faied return visit as sample,the article introduces LDA text informa?tion model to Chinese natural language processing and data mining. Analysis and monitoring of the text mining results also uses the big data analysis. The model is aimed to achieve the effect of classifica?tion and selection,note and judgment,initial attribution. Under the support of the information system platform,the timely analysis and monitoring management is achieved.
Key words:customer satisfaction;complaints work order;text mining;big data analysis
中圖分類號:F407.61
文獻標志碼:B
文章編號:1009-1831(2016)02-0057-04
DOI:10.3969/j.issn.1009-1831.2016.02.015
收稿日期:2015-11-19;修回日期:2016-01-08