李靜1. 劉思濤2.
1.國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院2.國(guó)網(wǎng)山東省電力公司物資公司
基于文本挖掘技術(shù)的95598重復(fù)投訴分析
李靜1. 劉思濤2.
1.國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院2.國(guó)網(wǎng)山東省電力公司物資公司
重復(fù)投訴工單的挖掘與分析,對(duì)供電業(yè)務(wù)薄弱點(diǎn)的發(fā)現(xiàn)與改進(jìn),提升供電企業(yè)的服務(wù)品質(zhì),提升企業(yè)形象具有重要且深遠(yuǎn)的意義。目前重復(fù)投訴工單的發(fā)現(xiàn),主要依靠人工,費(fèi)時(shí)費(fèi)力,效率低。本文提出了一種基于客戶投訴內(nèi)容的重復(fù)投訴工單識(shí)別,對(duì)文本信息進(jìn)行中文自然語(yǔ)言處理和數(shù)據(jù)挖掘,通過(guò)大數(shù)據(jù)對(duì)文本挖掘結(jié)果進(jìn)行分析監(jiān)控,構(gòu)建適合電力公司的重復(fù)投訴工單文本挖掘模型,高效準(zhǔn)確的識(shí)別重復(fù)投訴工單,便于分析人員及時(shí)準(zhǔn)確地發(fā)現(xiàn)重復(fù)投訴原因熱點(diǎn)。
重復(fù)投訴 文本挖掘 文本相似度 多維分析
在95598來(lái)電工單中,包含了大量投訴類工單,這些文本數(shù)據(jù)蘊(yùn)含了對(duì)用戶訴求的直接描述,如何快速?gòu)膩?lái)電工單中挖掘出重復(fù)投訴的工單,成為投訴管理的迫切需求。目前重復(fù)投訴工單的識(shí)別挖掘,主要依靠投訴分析人員通過(guò)對(duì)95598投訴工單的分析,人工逐條查閱工單內(nèi)容,分析效率低,無(wú)法及時(shí)了解客戶重復(fù)投訴的原因,容易產(chǎn)生客戶服務(wù)滯后的問(wèn)題。另外,工單中的投訴內(nèi)容為文本內(nèi)容,文本信息量大非結(jié)構(gòu)化,難以對(duì)數(shù)據(jù)進(jìn)行直接分析。因此,為解決以上問(wèn)題,本文引入了文本挖掘的理念和方法,通過(guò)構(gòu)建重復(fù)投訴模型,實(shí)現(xiàn)重復(fù)投訴工單的識(shí)別,根據(jù)重復(fù)投訴的分析結(jié)果,查找重復(fù)投訴原因,制定行之有效的投訴處理策略,提高投訴處理質(zhì)量和效率。
(一)文本挖掘技術(shù)。文本挖掘(Text Mining,TM)是近幾年來(lái)數(shù)據(jù)挖掘領(lǐng)域的一個(gè)新興分支,是以文本數(shù)據(jù)為特定挖掘?qū)ο蟮闹R(shí)挖掘。文本挖掘的要點(diǎn)是分詞,根據(jù)文本數(shù)據(jù)中的特征信息進(jìn)行分詞處理,以此構(gòu)建文本的中間表示。文本挖掘分析大量的半結(jié)構(gòu)化或非結(jié)構(gòu)化文本數(shù)據(jù),利用數(shù)據(jù)挖掘的算法,抽取出關(guān)鍵的詞語(yǔ)和文字間的關(guān)聯(lián)關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類或聚類,進(jìn)而發(fā)現(xiàn)新的概念和獲取相應(yīng)的關(guān)系。
(二)基于領(lǐng)域特征詞表的特征詞標(biāo)注。以大量投訴工單中反映業(yè)務(wù)種類、問(wèn)題現(xiàn)象、問(wèn)題原因的特征詞為基礎(chǔ),設(shè)立特征詞表,進(jìn)行基于特征詞匹配的子句標(biāo)注,并依不同緯度進(jìn)行工單分類。在實(shí)際應(yīng)用中發(fā)現(xiàn),基于領(lǐng)域特征詞表的輔助分析,可以顯著提高工單分類、聚類等的準(zhǔn)確性和效率。
(三)基于大數(shù)據(jù)的數(shù)據(jù)監(jiān)控分析。通過(guò)構(gòu)建檢測(cè)模型和確定模型指標(biāo)體系、指標(biāo)閥值等參數(shù),對(duì)工單數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析,采取可視化大屏全屏展示的方式進(jìn)行全方位多角度的展開(kāi)實(shí)時(shí)監(jiān)控、分析,及時(shí)發(fā)現(xiàn)當(dāng)前重復(fù)投訴問(wèn)題變化趨勢(shì),并對(duì)問(wèn)題點(diǎn)改進(jìn)情況進(jìn)行跟蹤。
所謂重復(fù)投訴工單是指客戶第一次投訴后,再次來(lái)電投訴相同事情的工單。具體描述如下:從查詢周期內(nèi),同一戶號(hào)、同一來(lái)電號(hào)碼、受理內(nèi)容相似的工單、并對(duì)重復(fù)事件數(shù)、工單數(shù)、電話數(shù)的單位分布進(jìn)行分析。
根據(jù)重復(fù)投訴工單定義,采用2015年全年的投訴工單數(shù)據(jù),先進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)預(yù)處理等步驟完成數(shù)據(jù)的清洗,通過(guò)文本建模分析,識(shí)別重復(fù)投訴工單,并利用多維分析手段,對(duì)結(jié)果進(jìn)行可視化展示。重復(fù)投訴模型如下圖所示:
圖1 重復(fù)投訴模型分析
(一)數(shù)據(jù)清理。清除投訴工單中存在異常來(lái)電的數(shù)據(jù),如信息不全的工單、受理內(nèi)容含“無(wú)故掛斷”,等內(nèi)容的工單,客戶編號(hào)或地址或電話為*的工單。
(二)數(shù)據(jù)預(yù)處理。根據(jù)重復(fù)投訴定義,提取工單中電話號(hào)碼、供電公司、供電單位都相同的工單,作為一組重復(fù)工單。
(三)文本挖掘。對(duì)每組重復(fù)工單的受理內(nèi)容,進(jìn)行兩兩相似度的判斷,選取相似度相同的工單合并為重復(fù)投訴工單。
(1)中文分詞。分詞,采用 TD-CS 分詞技術(shù),將一段文本轉(zhuǎn)化為詞語(yǔ)集合。原理:按詞長(zhǎng)對(duì)中文詞匯分進(jìn)行分詞,對(duì)要分詞的文本進(jìn)行匹配,如果找到了匹配詞匯,則在該詞匯處分詞,如果沒(méi)有匹配,那么縮短詞匯繼續(xù)進(jìn)行匹配,直到匹配為止,如果一直到最后單字都沒(méi)匹配,則認(rèn)為該詞為新詞,在新詞后進(jìn)行分詞。
(2)向量空間模型。向量空間模型的基本思想是將文本分為若干的特征項(xiàng),通過(guò)特定的手段計(jì)算出每個(gè)特征項(xiàng)在該文本中的權(quán)重,進(jìn)而將整個(gè)文本用以特征項(xiàng)的權(quán)重為分量的向量來(lái)表示,在將文本用特征向量的方式表示為數(shù)學(xué)模型以后,再基于特征向量進(jìn)行文本之間的相似度計(jì)算。權(quán)值可分為詞頻型和布爾型,詞頻即詞條在文章中出現(xiàn)的次數(shù),布爾型即在詞條在文本中是否出現(xiàn)過(guò),出現(xiàn)為1,未出現(xiàn)為0。由于投訴工單受理內(nèi)容多位短文本,所以權(quán)值采用布爾型表示。
(3)文本相似度判斷。文檔表示成向量后,文本之間的語(yǔ)義相似度就可以通過(guò)空間中的這兩個(gè)向量間的幾何關(guān)系來(lái)度量。目前相似度的計(jì)量方法有內(nèi)積、JACCARD系數(shù),余弦函數(shù)等方法[1]。本文采用余弦函數(shù)的方式計(jì)算文本相似度,即用空間中的兩個(gè)向量的夾角余弦來(lái)度量文檔之間的相似度,夾角余弦值越大,兩個(gè)向量的夾角越小,表示文檔越相似[2]。經(jīng)典的計(jì)算公式如下:
其中,Ti表示文本特征向量,Tit表示文本Ti的第t個(gè)向量。
對(duì)重復(fù)工單進(jìn)行文本相似度兩兩計(jì)算,選取相似度高的為重復(fù)投訴工單,如果兩組含有相同工單,則合并兩組工單,去除相同工單,聚為一組重復(fù)投訴工單。
(4)模型優(yōu)化。根據(jù)模型訓(xùn)練的結(jié)果,采取優(yōu)化訓(xùn)練集、修正關(guān)鍵詞、修正模型算法等方式,結(jié)合人工經(jīng)驗(yàn),優(yōu)化模型。
根據(jù)重復(fù)投訴工單的挖掘,利用多維分析手段,統(tǒng)計(jì)重復(fù)投訴的工單數(shù)、電話數(shù)、事項(xiàng)數(shù)等的單位分布,并對(duì)重復(fù)投訴工單進(jìn)行詳單的下鉆展示。根據(jù)重復(fù)投訴工單的電話號(hào)碼、客戶編號(hào)等關(guān)鍵信息,追溯該客戶的的歷史來(lái)電記錄,挖掘重復(fù)投訴下的深層次的原因。重復(fù)投訴工單的結(jié)果展示,主要通過(guò)報(bào)表、柱形圖、條形圖等可視化方式展現(xiàn)的。
圖2 重復(fù)投訴可視化界面圖
表1重復(fù)投訴工單明細(xì)
一組:工單編號(hào):XX;業(yè)務(wù)類型:投訴; 受理時(shí)間: 2016-01-22 14:52:49;
受理內(nèi)容:【頻繁停電】客戶反映該地點(diǎn)最近一個(gè)月內(nèi),出現(xiàn)三四次停電,嚴(yán)重影響居民的正常生活生產(chǎn),至今沒(méi)有解決,客戶表示非常不滿,要求供電公司相關(guān)部門盡快徹底解決此問(wèn)題并盡快給客戶合理解釋。同時(shí)客戶表示今天楊莊集鎮(zhèn)的夏廟村現(xiàn)在還是正常用電的,自己家唐店村停電了,客戶對(duì)此不解。
聯(lián)系電話: XX;供電單位:XX縣客戶服務(wù)中心。
二組:工單編號(hào):XX;業(yè)務(wù)類型:投訴; 受理時(shí)間:2016-02-27 20:19:56;
受理內(nèi)容:【頻繁停電】客戶反映該地點(diǎn)最近一個(gè)月內(nèi)頻繁停電,今天一天出現(xiàn)三次停電,嚴(yán)重影響居民的正常生活生產(chǎn),至今沒(méi)有解決,客戶表示非常不滿,要求供電公司相關(guān)部門盡快徹底解決此問(wèn)題并盡快給客戶合理解釋,客戶對(duì)此不解。聯(lián)系電話: XX;供電單位:XX縣客戶服務(wù)中心
本文引入文本挖掘與智能識(shí)別技術(shù),探索基于客戶投訴內(nèi)容的重復(fù)投訴智能識(shí)別,實(shí)現(xiàn)投訴內(nèi)容分析快速準(zhǔn)確識(shí)別客戶重復(fù)投訴原因,便于投訴分析人員及時(shí)準(zhǔn)確地發(fā)現(xiàn)重復(fù)投訴原因熱點(diǎn),專家協(xié)同工作深耕引發(fā)原因背后的產(chǎn)品服務(wù)短板,提出短板優(yōu)化建議并落實(shí)。
[1]Salton G, Wong A, Yang C S. A vector space model for automatic indexiBg[J]. Communications of the ACM, 1975,18(11): 613-620.
[2]周昭濤,文本聚類分析效果評(píng)價(jià)及文本表示研究,中科院,碩士學(xué)位論文,2005
[3]王興起,王維才,謝宗曉等.文本挖掘技術(shù)在信息安全風(fēng)險(xiǎn)評(píng)估系統(tǒng)中的應(yīng)用研究[J].情報(bào)理論與實(shí)踐,2013,36(4) :107-110.
李靜(1977-),女,工程師,長(zhǎng)期從事電力營(yíng)銷工作。