黃峰 王定軍
摘要
在互聯(lián)網(wǎng)和大數(shù)據(jù)時代,企業(yè)將一些密集重復(fù)性的工作逐漸由機器來替代。進入人工智能時代后,以大數(shù)據(jù)驅(qū)動的智能方面的研究方興未艾,旨在通過大數(shù)據(jù)加機器學(xué)習(xí)相關(guān)技術(shù)將企業(yè)的問題工單進行自動識別、打標簽,為企業(yè)智慧運營提供分析決策支撐。本文介紹并實現(xiàn)了一種基于文本相似度的自動打標簽研究方法,同時通過實驗評估了本方法的實施效果。
【關(guān)鍵詞】文本相似度 機器學(xué)習(xí) 工單打標簽
文本相似度是進行文本聚類的基礎(chǔ),和傳統(tǒng)的結(jié)構(gòu)化數(shù)值數(shù)據(jù)的聚類方法相似,文本聚類是通過計算文本之間的“距離”來表示文本之間的相似度,并產(chǎn)生聚類。文本相似度的常用計算方法有普貝葉斯。但是文本數(shù)據(jù)和普通的數(shù)據(jù)不同,它是一種半結(jié)構(gòu)化的數(shù)據(jù),在進行聚類之前必須要對文本數(shù)據(jù)源進行處理,如分詞、向量化表示等,其目的就是使用向量化的數(shù)值來表達這些半結(jié)構(gòu)化的文本數(shù)據(jù)。使其適用于文本分析。
1 基于文本相似度的智能工單分析系統(tǒng)解決方案
集團管理域信息化集中后,每天會受理大量的工單,工單反應(yīng)出系統(tǒng)的使用的問題,和業(yè)務(wù)的導(dǎo)向,現(xiàn)階段每月靠人工處理大量工單,并人工為工單打上標簽。耗費大量人力物力,因此需要一套系統(tǒng)能夠?qū)芜M行自動識別和打上標簽。基于文本相似度的工單標簽分析系統(tǒng)通過以下幾個方面的步驟實施,能夠?qū)芜M行自動識別打標,解決企業(yè)痛點。
1.1 選取并訓(xùn)練數(shù)據(jù)集
(1)取最近一年內(nèi),人工已經(jīng)打過標簽的工單約30000條記錄的70%,約21000條作為訓(xùn)練集;
(2)通過IK分詞器,對工單內(nèi)容進行分詞處理,這里面包括停用詞庫和擴展詞庫的的編輯;
(3)通過關(guān)鍵詞及其出現(xiàn)頻次,構(gòu)建向量空間和標簽的對應(yīng)關(guān)系。
1.2 工單打標簽
(1)對剩余的30%,約9000條工單進行分詞,并提取關(guān)鍵字;
(2)對分詞過的工單,構(gòu)建向量空間;
(3)用工單的向量值跟訓(xùn)練集的向量值,通過普貝葉斯對數(shù)據(jù)進行分類,并自動打上標簽。
1.3 結(jié)果比對
9000條機器打標簽的工單跟人工標簽比對,6342條標簽完全一致,1795條不一致,863條沒有打上。
結(jié)論,通過文本相似度算法,工單打標簽準確率約70%,具有一定普識性,能夠代表運維問題的趨勢和導(dǎo)向,后期通過優(yōu)化算法和調(diào)整詞庫,可以進一步提高準確度。
2 基于文本相似度的智能工單分析系統(tǒng)實現(xiàn)
分數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析三層,來構(gòu)建系統(tǒng),用過可以通過瀏覽器快速的查詢打標的情況和基于打標后的分析月報等內(nèi)容。系統(tǒng)分3個功能模組:
2.1 工單系統(tǒng)的數(shù)據(jù)采集
通過跟工單系統(tǒng)接口獲取工單流程信息和工單類型、組織、狀態(tài)等數(shù)據(jù);通過和數(shù)據(jù)中心的接口獲取工單內(nèi)容信息??紤]到數(shù)據(jù)比較大,采用增量方式每小時定期獲取最新的數(shù)據(jù)。
2.2 采集的工單數(shù)據(jù)進行清理、訓(xùn)練、分類、打標
數(shù)據(jù)采集完成后,對數(shù)據(jù)里面的特殊字符和無用字段進行清理,清理后的數(shù)據(jù)提取一部分作為訓(xùn)練數(shù)據(jù)進行分詞和向量化。訓(xùn)練集以外的工單,通過普貝葉斯算法進行分類,并自動打上對應(yīng)標簽。主要過程如下:
2.2.1 分詞
文本舉例:16FJ001197001nbsp;nbsp;預(yù)轉(zhuǎn)固OSS資產(chǎn)提交,提示錯誤,請協(xié)助處理。謝謝!
分詞:[16fj001197001nbsp][預(yù)轉(zhuǎn)固][oss][資產(chǎn)][提交][提示][錯誤]。
去掉停用詞:請協(xié)助處理。謝謝!等。
2.2.2 建立詞向量(word2vec)
通過轉(zhuǎn)換,可以把對文本內(nèi)容的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度。向量的長度為詞典的大小,向量的分量只有一個1,其他全為。,I的位置對應(yīng)該詞在詞典中的位置。舉個例子,“話筒”表示為[0001000000000000…]。
2.2.3 權(quán)重TFIDF
TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TF-IDF實際上是:TF*IDF。
詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。這個數(shù)字是對詞數(shù)(term count)的歸一化,以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數(shù),而不管該詞語重要與否。)
逆向文件頻率(Inverse DocumentFrequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到。
某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。
2.2.4 分類算法樸素貝葉斯算法
通過樸素貝葉斯算法對數(shù)據(jù)集進行訓(xùn)練,從而統(tǒng)計出所有詞向量各種分類的概率,對于待分類的文本,在轉(zhuǎn)換為詞向量之后,從訓(xùn)練集中取得該詞向量為各種分類的概率,概率最大的分類就是所求分類結(jié)果。樸素貝葉斯分類算法常常用于文本的分類,而且實踐證明效果挺不錯的。如圖1所示。
2.3 基于打標結(jié)果的統(tǒng)計分析和運維月報
依據(jù)前面的數(shù)據(jù)采集和工單打標,每個月出具運維月報,按專工程、財務(wù)和采購三個專業(yè)出具:標簽覆蓋率、標簽發(fā)單量和標簽轉(zhuǎn)二線率等維度的圖文分析報告。集團依據(jù)這個結(jié)果進行通報,各下屬公司依據(jù)報告對當月問題進行整改。
2.3.1 標簽覆蓋率
標簽覆蓋率包括:工單總數(shù)、工單打標數(shù)和標簽覆蓋率3個具體指標,工單總數(shù)主要反映一段時間內(nèi)工單數(shù)量的變化情況,從而知曉業(yè)務(wù)峰谷的時間特征;工單打標數(shù)和標簽覆蓋率表示打上標簽的工單數(shù)量以及和總工單數(shù)的比例,反映出標簽的普適度是否合理。
2.3.2 標簽發(fā)單量
標簽發(fā)單量表示各類標簽的工單數(shù)量在時間段內(nèi)的趨勢變化情況,反映出系統(tǒng)某類業(yè)務(wù)問題的變化,對于持續(xù)增長的問題標簽,各部門應(yīng)該制定應(yīng)對方案,降低問題的發(fā)生率,提高系統(tǒng)的易用性。
2.3.4 標簽轉(zhuǎn)二線率
標簽轉(zhuǎn)二線率體現(xiàn)的是相關(guān)標簽的工單提交集團數(shù)量和總工單的比例,這個是集團考核各省公司的硬性指標,大部分的問題各省一線層面必須自己辦法解決,實在有問題的才能提交到集團二線支撐,作為KPI指標對各省運營負責(zé)部門進行績效考核。如圖2所示。
3 基于文本相似度的智能工單分析系統(tǒng)效果評估
目前,中國電信集團MSS運營中心每個月的運營大會,都會基于此分析結(jié)果進行通報,各省對分析結(jié)果比較認同,也基于分析結(jié)果進行問題整改,便于集團了解各省的運營過程出現(xiàn)的問題和業(yè)務(wù)時間趨勢,對業(yè)務(wù)系統(tǒng)進行優(yōu)化,對業(yè)務(wù)流程進行及時調(diào)整。更好了支撐業(yè)務(wù)運營,也進一步落實集團提出的智慧運營目標,目前對運營工作的支撐明顯。
參考文獻
[1]張連文.貝葉斯網(wǎng)引論[M].科學(xué)出版社,2006.
[2]Cameron Davidson-Pilon貝葉斯方法:概率編程與貝葉斯推斷[M].人民郵電出版社,2017.