梁浩波 林浩釗 封祐鈞
摘要:文本挖掘和聚類分析是數(shù)據(jù)挖掘的重要內(nèi)容之一,其應(yīng)用十分廣泛。本文首先對文本挖掘技術(shù)和聚類分析的基本概念進行系統(tǒng)地歸納總結(jié),然后將文本挖掘和聚類分析技術(shù)應(yīng)用于信息服務(wù)事件的智能分析中,實現(xiàn)信息服務(wù)客戶群的細(xì)分以及信息系統(tǒng)熱點問題發(fā)現(xiàn),從而大大提升信息服務(wù)水平。
關(guān)鍵詞:文本挖掘;聚類分析;信息服務(wù);客戶細(xì)分
中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2015)20-0143-02
ITSM(IT服務(wù)管理),它是一套面向過程、以客戶為中心的規(guī)范的管理方法,它通過集成IT服務(wù)和業(yè)務(wù),協(xié)助企業(yè)提高其IT服務(wù)提供和支持能力,而ITSM服務(wù)管理系統(tǒng)則是ITSM方法論的系統(tǒng)實現(xiàn),具有變更管理、配置管理、請求管理、事件管理、知識管理等功能模塊。
ITSM服務(wù)管理系統(tǒng)中的事件管理模塊中詳細(xì)記錄了信息服務(wù)人員與企業(yè)員工問題事件交互的信息,其中包括事件報告人、事件報告人部門、事件分類、事件描述等。但由于這些信息服務(wù)事件信息一般以文本方式存放,傳統(tǒng)的數(shù)據(jù)分析的工具和軟件無法對其內(nèi)容進行分析,導(dǎo)致長期以來信息服務(wù)事件描述所蘊含的價值無法得以利用。本文綜合利用文本挖掘和聚類分析技術(shù),實現(xiàn)信息服務(wù)事件的智能分析,以實現(xiàn)信息服務(wù)水平的提升。
1 文本挖掘技術(shù)概述
文本挖掘又稱為文本數(shù)據(jù)挖掘或文本知識發(fā)現(xiàn),是指為了發(fā)現(xiàn)知識,從文本數(shù)據(jù)中抽取隱含的、以前未知的、潛在有用的模式的過程,它是個分析文本數(shù)據(jù),抽取文本信息,進而發(fā)現(xiàn)文本知識的過程。
文本挖掘的具體流程如圖1所示:
1)文本收集:在文本挖掘前應(yīng)盡可能尋找和檢索所有被認(rèn)為可能與當(dāng)前挖掘工作有關(guān)的文本。
2)文本分析:由于文本不僅是非結(jié)構(gòu)化或半結(jié)構(gòu)的,而且文本的內(nèi)容是人類所使用的自然語言,所以文本如果不經(jīng)過特別加工,數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于其上。文本分析首先要提取文本的特征,然后再結(jié)構(gòu)化表示這些特征。
3)特征選擇:經(jīng)過文本分析得到的特征有必要進行特征選擇, 以降低特征的維數(shù)。通過特征選擇, 就可以得到代表文檔集合的有效的、精簡的特征子集, 并在此基礎(chǔ)上開展各種文檔挖掘工作。
4)獲取知識模式:該階段的目標(biāo)是應(yīng)用有效的文本挖掘算法挖掘出一些有用的知識模式。這些知識模式主要包括: 文本總結(jié)、文本分類、聚類分析、關(guān)聯(lián)規(guī)則、趨勢預(yù)測等。
5)結(jié)果評價:對文本挖掘算法發(fā)現(xiàn)的知識模式進行評估。比較常用的評估方法有準(zhǔn)確率( Precision) 、召回率( Recall) 等。
圖1 文本挖掘工作流程圖
2 聚類分析技術(shù)概述
聚類就是對物理對象或抽象對象進行分組的過程,所生成的組稱為簇,簇是數(shù)據(jù)對象的集合。簇內(nèi)部任意對象之間應(yīng)該具有較高的相似度,而屬于不同簇的兩個對象之間應(yīng)該具有較高的相異度。
一般而言,主要的基本聚類算法可以劃分為如下幾類:
1)基于劃分方法的聚類:給定一個n個對象的集合,劃分方法構(gòu)建數(shù)據(jù)的k個分區(qū),其中每個分區(qū)表示一個簇,并且k<=n。也就是說,它把數(shù)據(jù)劃分為k個組,使得每個組至少包含一個對象。大部分劃分方法是基于距離的。
2)基于層次方法的聚類:層次方法創(chuàng)建給定數(shù)據(jù)對象集的層次分解。根據(jù)層次分解如何形成,層次方法可以分為凝聚的或分裂的方法。
3)基于密度方法的聚類:其主要思想是只要“鄰域”中的密度(對象或數(shù)據(jù)點的數(shù)目)超過某個閾值,就繼續(xù)增長給定的簇。這樣的方法可以用來過濾噪聲或離群點,發(fā)現(xiàn)任意形狀的簇。
4)基于網(wǎng)格方法的聚類:把對象空間量化為有限個單元,形成一個網(wǎng)絡(luò)結(jié)構(gòu),所有的聚類操作都在這個網(wǎng)格結(jié)構(gòu)(即量化空間)上進行。
3 信息服務(wù)事件智能分析應(yīng)用
ITSM信息服務(wù)系統(tǒng)詳細(xì)記錄了信息服務(wù)人員與企業(yè)員工問題事件交互的詳細(xì)信息,其中包括事件報告人、事件報告人部門、事件分類、事件描述等。為挖掘信息服務(wù)事件所蘊含的價值,一方面通過聚類分析實現(xiàn)信息服務(wù)客戶群細(xì)分,獲取各客戶群的信息服務(wù)需求特征,有助于為各客戶群提供個性化信息服務(wù);另一方面,獲取各主營業(yè)務(wù)系統(tǒng)熱點問題,可作為日后業(yè)務(wù)系統(tǒng)培訓(xùn)的重點內(nèi)容,使系統(tǒng)培訓(xùn)更具有針對性。
3.1 聚類分析實現(xiàn)信息服務(wù)客戶群細(xì)分
實現(xiàn)思路:以各部門對各主營業(yè)務(wù)系統(tǒng)的信息服務(wù)報障數(shù)作為客戶細(xì)分的重要指標(biāo),利用聚類分析技術(shù)以部門為對象進行客戶群劃分。
客戶細(xì)分實現(xiàn)過程如圖2所示:
1)數(shù)據(jù)準(zhǔn)備:從ITSM服務(wù)管理系統(tǒng)中導(dǎo)出某指定時間段的ITSM事件單;包括事件ID、事件報告人、事件報告部門、事件性質(zhì)、事件類別等字段信息。
2)數(shù)據(jù)預(yù)處理:采用數(shù)據(jù)清理、數(shù)據(jù)歸約、數(shù)據(jù)變換等多種數(shù)據(jù)預(yù)處理技術(shù),解決現(xiàn)實數(shù)據(jù)中存在不完整的、不正確的或含噪聲的、不一致的問題,提高數(shù)據(jù)質(zhì)量。
3)特征選?。喊凑帐录悇e,以部門為單位,匯總統(tǒng)計出各部門各業(yè)務(wù)系統(tǒng)的報障數(shù),用于標(biāo)識各部門的特征。
4)聚類分析:將每個部門單位看作是一個獨立的對象,該部門單位各業(yè)務(wù)系統(tǒng)報障數(shù)看作是該對象的屬性值,各對象的相異度則根據(jù)描述對象的屬性值進行計算。在本實驗中,采用k-means聚類算法(相異度采用的度量指標(biāo)是對象間的距離),根據(jù)各部門單位的業(yè)務(wù)系統(tǒng)報障數(shù)的特點,進行信息服務(wù)客戶群的細(xì)分,得到客戶群細(xì)分結(jié)果。
模型應(yīng)用前景:通過聚類;分析對信息服務(wù)群進行細(xì)分,同一客戶群的部門單位具有相似的信息服務(wù)需求特征,有助于日后為各客戶群提供個性化信息服務(wù),提升客戶體驗。
圖2 客戶細(xì)分實現(xiàn)過程
3.2 文本挖掘歸納業(yè)務(wù)系統(tǒng)最熱點問題
實現(xiàn)思路:ITSM中有關(guān)業(yè)務(wù)系統(tǒng)咨詢問題是以文本方式存放,而中文語句無法用一般統(tǒng)計軟件進行簡單的數(shù)量統(tǒng)計。本文基于中文文本挖掘技術(shù),實現(xiàn)對業(yè)務(wù)系統(tǒng)咨詢問題的自動分類(簡稱“文本聚類”)。根據(jù)聚類后的結(jié)果,統(tǒng)計各類事件的出現(xiàn)頻數(shù),從而得到各業(yè)務(wù)系統(tǒng)的熱點問題。
業(yè)務(wù)系統(tǒng)熱點問題挖掘?qū)崿F(xiàn)過程如圖3所示:
1)數(shù)據(jù)準(zhǔn)備:從ITSM服務(wù)管理系統(tǒng)中導(dǎo)出某指定時間段的ITSM事件單;包括事件ID、事件報告人、事件報告部門、事件性質(zhì)、事件類別等字段信息。
2)數(shù)據(jù)整理:根據(jù)事件類別字段,將涉及某一指定業(yè)務(wù)系統(tǒng)的所有事件的描述信息匯總,得到一個文本文件。
3)文本聚類:首先采用IK Analyzer工具包對文本文件進行中文分詞,并通過詞頻統(tǒng)計提取出關(guān)鍵詞。然后將提取的關(guān)鍵詞作為事件描述的聚類特征,并給每個事件添加“類標(biāo)簽”。
4)頻數(shù)統(tǒng)計:根據(jù)事件的“類標(biāo)簽”進行事件頻數(shù)統(tǒng)計,并根據(jù)業(yè)務(wù)知識得到各業(yè)務(wù)系統(tǒng)熱點問題。
模型應(yīng)用前景:通過文本挖掘技術(shù)得到各主營業(yè)務(wù)系統(tǒng)熱點問題,可作為日后業(yè)務(wù)系統(tǒng)培訓(xùn)的重點內(nèi)容,使系統(tǒng)培訓(xùn)更具針對性,提高系統(tǒng)培訓(xùn)效果。
圖3 業(yè)務(wù)系統(tǒng)熱點問題挖掘過程
4 結(jié)語
通過文本挖掘和聚類分析等數(shù)據(jù)挖掘技術(shù),一方面對信息服務(wù)群進行細(xì)分,獲取各客戶群的信息服務(wù)需求特征,有助于為各客戶群提供個性化信息服務(wù);另一方面獲取各主營業(yè)務(wù)系統(tǒng)熱點問題,可作為日后主營業(yè)務(wù)系統(tǒng)培訓(xùn)的重點內(nèi)容,使系統(tǒng)培訓(xùn)更具有針對性,并提高系統(tǒng)培訓(xùn)效果。上述兩個措施,能有效地幫助信息服務(wù)人員了解用戶對信息服務(wù)更深層次、更真實的需求,有助于提升信息服務(wù)人員服務(wù)能力,進一步提高信息服務(wù)質(zhì)量。
參考文獻:
[1] 諶志群, 張國煊. 文本挖掘研究進展[J]. 模式識別與人工智能, 2005,18(1):66-74.
[2] 程志, 黃榮懷. 文本挖掘及其教育應(yīng)用[J]. 現(xiàn)代遠(yuǎn)距離教育, 2008(2):71-73.
[3] 諶志群, 張國煊. 文本挖掘與中文文本挖掘模型研究[J]. 情報科學(xué), 2007, 25(7):1047-1051.
[4] 唐守忠. 文本挖掘關(guān)鍵技術(shù)研究[D]. 北京: 北京林業(yè)大學(xué), 2013.
[5] Feldman R,Hirsh H,Dagan I. Mining Text Using Keyword Distributions[J]. Journal of Intelligent Information Systems, 1998, 10(3): 281-300.