国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自然語言的國網(wǎng)投訴工單智能分類模型構建

2020-07-29 08:55張兆芝陳翔高敏盧燕燊張鐘杰
微型電腦應用 2020年7期

張兆芝 陳翔 高敏 盧燕燊 張鐘杰

摘 要: 為了更好的深入挖掘投訴工單背后所蘊含的信息,從自然語言處理技術出發(fā),對客戶投訴工單進行深入文本挖掘。在對電力投訴工單進行數(shù)據(jù)清洗的基礎上,運用jieba進行分詞,構造專業(yè)詞典提升分詞準確度,并對特征進行降維,然后運用利用詞袋模型對中文文本進行分詞,利用Bagging集成模型,構造包括樸素貝葉斯模型、決策樹模型等在內的多個分類器模型,實現(xiàn)對詞頻在不同業(yè)務中的分布情況的研究,并根據(jù)結果開展相應改進措施,把控住當下電力客戶投訴的主要問題,為不同類型的電力客戶提供差異化的服務策略,以落在實處的為客戶解決難題。

關鍵詞: 自然語言; 投訴工單; 分類器模型

中圖分類號: TG 409文獻標志碼: A

Construction of Intelligent Classification Model of Complaint

SheetstoState Grid Based on Natural Language

ZHANG Zhaozhi, CHEN Xiang, GAO Min, LU Yanyan, ZHANG Zhongjie

(Fujian Power Supply Serice Co., Ltd., Fuzhou, Fujian 350000, China)

Abstract: In order to better dig out the information behind the complaint sheet, based on natural language processing technology, customer complaint sheet is deeply mined. On the basis of data cleaning for power complaint worksheet, the key dictionary is constructed, and the dimension of the feature is reduced. Then the Chinese text is segmented by using the word bag model, and several classifier models including Naive Bayesian model and decision tree model are constructed by using Bagging integrated model. The distribution of word frequencies in different services is studied. Result corresponding improvement measures are carried out to control the main problems of current power customers'complaints, and to provide different service strategies for different types of power customers, so as to solve the problems for actual customers.

Key words: natural language; complaint worksheet; classifier model

0 引言

隨著我國電力行業(yè)供給側改革的深入,進一步提高客服人員管理的質量,提高用戶的體驗和客戶滿意度,成為當前電力企業(yè)的共識。而要提高客戶的滿意度,就需要從熱點工單業(yè)務入手,對熱點的工單業(yè)務進行挖掘,以此快速找到在電力服務中存在的短板。而在業(yè)務工單中,投訴工單和回訪不滿意工單,可直接的反應出客戶對電力企業(yè)產品和服務的問題,也是客戶滿意度的一個最為直觀的反映。因此,要轉變和提升客戶服務滿意度,就需要從這類工單入手。但是從目前的方式來看,針對工單的分類處理,大部分是工作人員通過95598客戶訴求數(shù)據(jù)進行分析,然后對其中的內容進行篩選,最后完成對不同工單類型的分類。這種方式雖然有效,當缺乏必要的輔助分析手段,從而導致分析效率不高,分析結果不夠客觀,進而影響了分析和解決的效率。對此,需要結合當前的自然語言處理技術和文本挖掘技術等,對95598來電工單進行智能分類,以實現(xiàn)對業(yè)務工單的智能化挖掘。而從具體的智能化處理方法來看,人們提出了各種方法,如王震(2016)結合95598的特點,提出采用LDA算法對工單進行分類;任華(2018)在采用大數(shù)據(jù)對電信投訴工單進行挖掘,以此大大提高了挖掘的效率。本文則在以上研究的基礎上,提出一種基于自然語言處理技術的投訴工單分類模型。

1 構建目標

本文的研究思路是:以自然語言處理技術為車幾乎,結合95598客戶訴求問題,利用機器學習算法對工單進行智能分類,從而以機器替代人工,提升工單分析的效率,減少工作人員的工作力度,并提升分析的廣度和深度。因此,本文構建的目標,是通過自然語言處理技術,完成訴求工單數(shù)據(jù)的處理,并通過機器學習算法,實現(xiàn)對工單的分類,以提高工單智能分類的效率與準確性,更好的實現(xiàn)用戶訴求的精準定位。

2 整體解決方案設計

在上述構建目標下,以自然語言處理技術為基礎,以數(shù)據(jù)標注為手段,對工單投訴業(yè)務進行重新梳理,然后建立分類規(guī)則、關鍵詞典,以提取工單的特征,然后結合機器學習算法建立投訴工單分類模型,進而實現(xiàn)對95598工單的智能分類。整體解決方案如圖1所示。

2.1 數(shù)據(jù)標注

文本分類 (tagging) 是一個有監(jiān)督學習問題,需要事先準備好已經分類好的樣本供模型進行學習。在本研究中,主要根據(jù)工單中的“受理內容”“處理情況”“受理錄音文本”及“處理佐證錄音”等作為智能歸因分類的主要對象,通過分析其中的文本內容,完成對工單的智能化分類。同時在本文中,主要是以‘營銷和‘運檢兩個方向作為業(yè)務的主要標注對象。具體標注過程如圖2所示。

2.2 文本清洗

文本清洗是自然語言處理中的重要步驟。通過文本清洗,可減少詞匯的噪音,繼而得到更多更為有效的文本特征,并提高分類模型分類的精度。在文本清洗中,主要包括小寫轉化、去除標點符號和停用詞去除等清洗工作。

2.2.1 小寫轉化

為更好的方便計算機對詞義的辨識,需要將大小寫進行轉換。將文本中設計到的所有的英文文本全部變?yōu)樾懀@樣可避免出現(xiàn)相同副本的問題。比如,在文本詞匯計算時,“Analytics”和“analytics”中因為大小寫的不同,會被認為是兩個不同的單詞。

2.2.2 去除標點符號

刪除標點符號,目的是減少訓練數(shù)據(jù)的大小,從而提高訓練的效率。

2.2.3 停用詞去除

在文本數(shù)據(jù)的處理中,去除停用詞的目的是為了減少信息對模型分類的干擾,所以一般在去除中,會創(chuàng)建一個列表stopwords,以此將其作為停用詞庫。

2.2.4 常見詞和稀缺詞去除

常見詞、稀缺詞和停用詞一樣,都是為了避免噪聲干擾。在具體的常見詞去除中,可以把常出現(xiàn)的10個字的文本數(shù)據(jù)抽出,然后刪除;稀缺詞則采用一般的形式去替代,以提高稀缺詞的計數(shù)。

2.2.5 消歧轉換

對文本描述中出現(xiàn)的同音錯別字,需要進行轉換,如“陪產”要根據(jù)具體的語音意思, 轉換為“賠償”。

2.3 特征提取

2.3.1 關鍵詞典構造

在完成文本數(shù)據(jù)的處理后,則需要采用關鍵詞典對文本數(shù)據(jù)特征進行提取。具體關鍵詞典構造方法主要包含兩種:一是建立投訴工單數(shù)據(jù)的小粒度用戶詞典和停用詞典。其中,小粒度用戶詞典建立的目的是提高模型的泛化能力,而建立用戶詞典,是為了保證專有詞的準確切分;二是過濾掉停用詞詞點鐘的沒有實際意義的詞。具體示例如圖3表示。

2.3.2 文本分詞

文本分詞的目的,是為了保證詞語的準確切分。在具體分詞方法上,吳剛勇(2018)在其發(fā)表的論文中,則采用了隱馬爾可夫模型和Jieba包對投訴工單文本進行分詞。在本文中,則采用詞袋模型(Bag-of-words model)進行分詞。所謂的詞袋模型,是在自然語言處理和信息檢索下被簡化的一種表達模型。具體分詞示例如圖4所示。

2.3.3 賦權與選擇

在完成詞典提取后,結合詞出現(xiàn)的相關指標,如詞頻數(shù)、詞頻率等,進行組合賦權,然后對比模型效果,提取最適合擬合模型的文本特征。在上述基礎上,再對文本特征進行特征降維,以進一步提取與業(yè)務相關的特征。具體思路如圖5所示。

3 分類器模型構建

特征分類是實現(xiàn)投訴工單智能化的關鍵。要實現(xiàn)工單的自動分類,就需要選定訓練集的數(shù)據(jù),然后借助分類器模型對工單數(shù)據(jù)進行分類,進而了解工單中的熱點事件或詞語,以此為下一步的電力營銷服務改進提供借鑒與參考,實現(xiàn)電力營銷被動轉主動的方式,提高用戶滿意度和忠誠度。在本文中,在構建分類算法的基礎上,使用AdaBoost進行集成學習,提高分類器精度。而在AdaBoost樣本中,通常采用樸素貝葉斯和決策樹分類器。

3.1 樸素貝葉斯分類器

樸素貝葉斯的原理是在給定分類變量的情況下,所有樸素貝葉斯分類器中給定目標值與屬性之間相互條件獨立。在給出的待分類項中,求解此項出現(xiàn)條件的條件下,各個類別出現(xiàn)的概率。那個概率最大,則認為此待分類項屬于其中的某個類別。具體原理如圖6所示。

3.2 決策樹分類器

決策樹表示的是對象特征與對象目標分類之間的一種映射關系。其中每個分叉的路徑代表的是某個可能的特征水平,而每個葉節(jié)點則表示為對應的從根節(jié)點到該葉節(jié)點的路徑表示的對象的目標分類對于給出的該分類項。具體步驟如圖7所示。

3.3 集成學習模型構建

在分類器模型設計的基礎上,考慮到不同數(shù)據(jù)的挖掘不平衡問題,采用Bagging進行集成學習。具體實現(xiàn)的思路為:在給定訓練集的基礎上,Bagging算法從中均勻、有放回地選出的多個子集作為新的訓練集;而在新的訓練集上,則采用多個模型進行訓練,最后在通過投票表決等方法,得到最終的結果。具體來講,在采用Bagging集成模型中,將貝葉斯分類模型、決策樹分類模型都加入到該集成模型中,以用于對不同文本數(shù)據(jù)對分類。最后通過降低結果方差的凡是,提升對未出現(xiàn)文本的泛化能力。

4 分類結果驗證

為驗證上述方案的正確性,以分類的準確率、遺漏率、查準率、查全率等作為評價依據(jù),并以“停電”作為分類示例,分析不同分類模型的對投訴工單的分類效果。具體是將訓練集中的待分類工單輸入至擬合分類器中進行分類,然后進行效果評估,評估結果如表1所示。

同時在全部輸入投訴的工單后,分類器模型共識別出118張疑似停電工單。具體分類結果如圖8所示。

根據(jù)圖8的結果看出,在識別出的118張工單中,深藏著不同不同類型的意思停電工單,其中停送電投訴類工單為74張,占整體的62.7%;營業(yè)投訴類工單上為14張,占整體的11.86%;服務投訴類工單為2張,占1.69%。由此可以看出,在通過分類后,可以明確投訴類工單出自哪個部門,而電力企業(yè)則可以根據(jù)工單指向,對不同的部門進行考核和追責,并轉變當前的服務方式,提高自身的服務滿意度。

5 總結

通過上述的分析看出,在通過自然語言處理后,并結合機器學習算法,打破了傳統(tǒng)的電力營銷分析方式。而通過挖掘,也填補了在電力營銷挖掘中存在的用電訴求盲區(qū),為更好的實現(xiàn)用電需求側的管理,提高自身的服務質量,提供了更為精準的信息化算法。

參考文獻

[1] 厲建賓,朱雅魁,付立衡. 基于大數(shù)據(jù)技術的客戶訴求分析與應用[J]. 電力大數(shù)據(jù),2017,20(10):14-17.

[2] 李顥,張吉皓. 基于文本挖掘技術的客服投訴工單自動分類探討[J]. 移動通信,2017,41(23):66-72.

[3] 周慧珺,龍濤,陳景航. 一種基于K均值的移動客戶投訴數(shù)據(jù)處理算法研究[J]. 電信工程技術與標準化,2018,31(7):77-80.

[4] 劉海濱. 歷史工單分析與智能派單的探索[J]. 信息通信技術與政策,2018(6):68-74.

[5] 吳剛勇,張千斌,吳恒超,等. 基于自然語言處理技術的電力客戶投訴工單文本挖掘分析[J]. 中國設備工程,2018(17):154-156.

[6] 吳剛勇,張千斌,吳恒超,等. 基于自然語言處理技術的電力客戶投訴工單文本挖掘分析[J]. 電力大數(shù)據(jù),2018,21(10):68-73.

[7] 門萍,郭瑞英,王一靈,等. 基于規(guī)約的電力客服投訴處理中心與地市公司現(xiàn)場處理投訴共享機制研究[J]. 機電信息,2018(30):148-149.

[8] 黃峰,王定軍. 基于文本相似度的智能工單分析系統(tǒng)解決方案研究[J]. 電子技術與軟件工程,2018(19):206-207.

[9] 朱龍珠,徐宏,劉莉莉. 基于深度學習的95598重大服務事件識別研究[J]. 電力信息與通信技術,2018,16(11):19-23.

[10] 任華,王錚,楊迪. 基于大數(shù)據(jù)技術的客服投訴智能分類與預警系統(tǒng)[J]. 電信科學,2018,34(S2):100-107.

[11] 徐俊利,趙江江,趙寧,等. 營銷活動問題標簽分類語料庫的構建與分類研究[J]. 計算機應用與軟件,2019,36(3):42-48.

[12] 劉興平,章曉明,沈然,等. 電力企業(yè)投訴工單文本挖掘模型[J]. 電力需求側管理,2016,18(2):57-60.

[13] 王震,代巖巖,陳亮,等. 基于LDA模型的95598熱點業(yè)務工單挖掘分析[J]. 電子技術與軟件工程,2016(22):190-192.

[14] 陳亮,王剛,王震. 并行LDA主題模型在電力客服工單文本挖掘中的應用[J]. 科技創(chuàng)新導報,2017,14(12):245-248.

[15] 楊兆明,于磊,袁純良. 人工智能在銀行工單處理系統(tǒng)中的應用與探索[J]. 中國金融電腦,2017(9):52-56.

[16] 羅欣,張爽. 深度學習在電力潛在投訴識別分類中的應用[J]. 浙江電力,2017,36(10):83-86.

(收稿日期: 2019.05.25)

作者簡介:張兆芝(1976-),女,本科,高級工程師,研究方向:電力營銷服務。

陳翔(1975-),女,本科,工程師,研究方向:客戶服務。

高敏(1979-),女,本科,中級經濟師,研究方向:營銷服務。

盧燕燊(1983-),女,本科,中級經濟師,研究方向:營銷服務。

張鐘杰(1988-),男,本科,工程師,研究方向:電力系統(tǒng)設計。