許鑫 王莉 孫志杰
摘要摘要:傳統(tǒng)的故障工單處理方法是人工處理,效率低下。在對95598工單地址分析的基礎(chǔ)上,建立了用于存儲標(biāo)準(zhǔn)數(shù)據(jù)集的標(biāo)準(zhǔn)地址庫結(jié)構(gòu)和匹配規(guī)則,提出了基于標(biāo)準(zhǔn)地址庫的95598客戶服務(wù)故障工單匹配方法。該方法依據(jù)標(biāo)準(zhǔn)地址庫分詞,限定了正向匹配算法的最大詞長,能夠沿著自定義的地址匹配規(guī)則進行匹配,從而減少了待匹配地址與標(biāo)準(zhǔn)數(shù)據(jù)集的匹配次數(shù),縮小了下次分詞所用到的目標(biāo)數(shù)據(jù)集,提高了匹配效率。通過對歧義地址的定義和對規(guī)則樹的拓展,提高了匹配成功率和系統(tǒng)執(zhí)行的靈活性。
關(guān)鍵詞關(guān)鍵詞:匹配算法;標(biāo)準(zhǔn)數(shù)據(jù)庫;模糊地址匹配;95598工單;標(biāo)準(zhǔn)地址庫
DOIDOI:10.11907/rjdk.171133
中圖分類號:TP319
文獻標(biāo)識碼:A文章編號文章編號:16727800(2017)005014003
0引言
目前,針對95598故障工單中地址信息匹配停留在人工分析層面,當(dāng)用戶對停電次數(shù)過多產(chǎn)生不滿進行投訴時,業(yè)務(wù)人員只能通過系統(tǒng)查詢該地區(qū)兩個月內(nèi)由于供電企業(yè)責(zé)任引起的故障停電和計劃停電次數(shù),以確定是否為頻繁停電投訴。利用人工查詢停電次數(shù)不僅存在效率低下、規(guī)范性差等問題,并且對工作人員經(jīng)驗要求較高。
為解決這一問題,本文提出一種基于標(biāo)準(zhǔn)地址數(shù)據(jù)庫的95598故障工單地址分詞匹配算法。該算法通過采用最大正向匹配算法將地址分詞在標(biāo)準(zhǔn)地址庫中進行匹配[1]。通過借助每次分詞時對標(biāo)準(zhǔn)地址庫搜索,獲取正向最大匹配算法的詞長[2],并實時參照地址匹配規(guī)則樹,達(dá)到不斷更新匹配詞長和縮小目標(biāo)數(shù)據(jù)集的目的。匹配出規(guī)范地址后,終止算法,返回目標(biāo)數(shù)據(jù)集,完成規(guī)范地址輸出。
1地址匹配方法
1.1匹配方法框架
(1)構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)庫。將國網(wǎng)冀北電力有限公司知識庫中的行政區(qū)域與營業(yè)區(qū)域?qū)φ毡硪?guī)范化處理后形成標(biāo)準(zhǔn)數(shù)據(jù)庫,創(chuàng)建地址結(jié)構(gòu)數(shù)據(jù)表。
(2)地址匹配。調(diào)用分詞算法進行自動匹配,如果匹配成功,則經(jīng)過轉(zhuǎn)換格式直接輸出;如果匹配失敗,則輸出到待處理庫等待人工修正。人工進行原因分析修正,完善標(biāo)準(zhǔn)數(shù)據(jù)庫或添加歧義表數(shù)據(jù),將地址標(biāo)準(zhǔn)化處理并實現(xiàn)規(guī)范地址輸出。
1.2匹配方案實現(xiàn)
(1)標(biāo)準(zhǔn)地址庫構(gòu)建。標(biāo)準(zhǔn)地址主要是為分詞匹配提供標(biāo)準(zhǔn)詞長及匹配值,因此需要分析當(dāng)前故障地址和停電信息的地址結(jié)構(gòu),明確各行政區(qū)域的劃分,然后分級構(gòu)建對應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)表。
經(jīng)過對2015~2016年6萬多張故障報修工單和4萬多條停電信息進行分析,當(dāng)前故障地址信息以省、市、區(qū)/縣、鄉(xiāng)/鎮(zhèn)/街道辦事處、村/小區(qū)為結(jié)構(gòu),停電信息地址結(jié)構(gòu)為供電單位、停電范圍。其中,供電單位作為地址的一部分是因為停電信息的地址有些只提供區(qū)縣和村落,將供電單位也作為地址信息的參考對象,可避免區(qū)縣重名,出現(xiàn)識別錯誤。停電范圍內(nèi)的地址信息以市、區(qū)/縣、鄉(xiāng)/鎮(zhèn)/街道辦事處、村/小區(qū)結(jié)構(gòu)為主。針對以上數(shù)據(jù)結(jié)構(gòu),構(gòu)建地址層級結(jié)構(gòu)如圖1所示。
(2)地址匹配定義??紤]到故障報修工單地址的書寫格式問題,為了提高匹配效率,便于按照當(dāng)前地址格式進行匹配,梳理了故障報修工單數(shù)據(jù)中的地址信息,整理出地址的所有書寫格式,如表1所示。
為了便于表示,將標(biāo)準(zhǔn)地址庫中各表進行編號,如表2所示,然后利用編號對故障工單地址的匹配規(guī)則進行定義,如表3所示。以表3中規(guī)則一為例,當(dāng)對地址進行匹配時,首先對省表中數(shù)據(jù)進行匹配運算,省表匹配成功后,再匹配市表,依次進行匹配,匹配完成后終止運算,返回規(guī)范的地址。但當(dāng)規(guī)則一在匹配到區(qū)/縣(編號3)時匹配失敗,就直接按照規(guī)則三繼續(xù)匹配,直到匹配完成。如果在執(zhí)行運算過程中遇到多個分支,則默認(rèn)按規(guī)則排序前后依次執(zhí)行。
(3)模糊地址處理。由于故障工單中的地址信息是95598客服人員直接根據(jù)用戶口述填報,因此得到的地址數(shù)據(jù)存在表達(dá)模糊、地址編寫不完整問題,可將模糊地址分為可匹配的模糊地址和不可匹配的模糊地址兩類[1][3]。針對可匹配的模糊地址,通過附加一些匹配規(guī)則來提高匹配成功率??梢云ヅ涞哪:刂分饕譃槠缌x地址和行政區(qū)劃稱謂不全。對于這兩種地址,該匹配算法提出如下解決方法:①構(gòu)建歧義地址匹配表。通過建立歧義地址、行政區(qū)劃稱謂不全與標(biāo)準(zhǔn)地址之間的關(guān)聯(lián)關(guān)系,構(gòu)建數(shù)據(jù)表。當(dāng)?shù)刂菲ヅ涞较鄳?yīng)的行政區(qū)劃且無法在標(biāo)準(zhǔn)地址庫中匹配成功時,可對歧義地址表中存在關(guān)聯(lián)關(guān)系的數(shù)據(jù)進行匹配,根據(jù)匹配情況得出結(jié)果;②人工完善歧義表內(nèi)容。在匹配過程中,歧義表主要通過自動匹配失敗后的人工梳理,逐步完善匹配規(guī)則。
雖然歧義表作為標(biāo)準(zhǔn)地址庫的一部分,在整個數(shù)據(jù)表設(shè)置中有些冗余,但是可以解決匹配模糊地址問題,從而提高匹配成功率。
例如:“河北省承德市雙灤區(qū)雙塔山百旺家園”相對于標(biāo)準(zhǔn)地址“河北省承德市雙灤區(qū)雙塔山鎮(zhèn)百旺家園”缺少了“鎮(zhèn)”這個行政區(qū)劃稱謂,屬于行政區(qū)劃稱謂不全。通過地址分析,在匹配到“鎮(zhèn)”的行政區(qū)劃時,對歧義表中相關(guān)聯(lián)的“鎮(zhèn)”信息進行匹配,從而匹配成功。
2匹配過程
(1)分詞過程。待匹配地址載入到匹配流程中,按照匹配規(guī)則限定最大詞長及匹配目標(biāo)集,并對待匹配地址進行分詞。
(2)匹配過程。將分詞的待匹配地址與標(biāo)準(zhǔn)地址匹配。如果匹配成功,按照標(biāo)準(zhǔn)地址庫截取相應(yīng)的行政區(qū)劃詞長,并按照規(guī)則循環(huán)匹配;如果匹配不成功,查詢歧義地址表并進行匹配。匹配成功后輸出標(biāo)準(zhǔn)地址,匹配不成功需要查詢匹配規(guī)則樹重新定義詞長與標(biāo)準(zhǔn)數(shù)據(jù)集。如果匹配規(guī)則樹沒有此規(guī)則,那么此地址將跳入到人工處理流程。
(3)規(guī)范地址輸出。如果為自動執(zhí)行過程,在匹配完成后就直接輸出匹配成功的規(guī)范地址;如果是人工處理匹配過程,則需要工作人員對存在的問題進行分析,根據(jù)所發(fā)現(xiàn)的問題修正標(biāo)準(zhǔn)庫、歧義表、規(guī)則樹。詳細(xì)流程如圖3所示。
3創(chuàng)新點及應(yīng)用成果
基于標(biāo)準(zhǔn)地址庫的95598客戶服務(wù)故障工單地址匹配方法創(chuàng)新點如下:
(1)實現(xiàn)了故障地址的有效分詞。該地址匹配方法根據(jù)匹配規(guī)則樹和上一次匹配成功的行政區(qū)劃,從標(biāo)準(zhǔn)地址數(shù)據(jù)庫的地址結(jié)構(gòu)數(shù)據(jù)表中確定當(dāng)前匹配的地址范圍,實現(xiàn)多級詞表設(shè)計,從而解決了匹配過程中單個詞表導(dǎo)致的匹配詞量過多問題,可以利用多級詞表的關(guān)聯(lián)關(guān)系實現(xiàn)將標(biāo)準(zhǔn)詞表匹配范圍最小化。在模糊地址匹配設(shè)計上利用標(biāo)準(zhǔn)地址數(shù)據(jù)庫的地址結(jié)構(gòu)數(shù)據(jù)表與歧義地址匹配表內(nèi)數(shù)據(jù)的關(guān)聯(lián)關(guān)系,快速定位模糊地址對應(yīng)的標(biāo)準(zhǔn)地址,有效解決了模糊地址的匹配問題。在地址匹配過程中利用規(guī)則引導(dǎo)地址匹配過程,減少了匹配次數(shù),提高了匹配效率。
(2)有益于預(yù)警工作開展。地址規(guī)范化處理有助于電力部門在工單數(shù)據(jù)的統(tǒng)計分析上實現(xiàn)地址維度的數(shù)據(jù)統(tǒng)計分析,比如:針對某地區(qū)停電數(shù)據(jù)分析、某地用戶偏好分析、某地業(yè)務(wù)數(shù)量統(tǒng)計分析等。另外,該技術(shù)的延伸將有助于實現(xiàn)計劃停電信息、投訴工單信息的分析及地址處理。
頻繁停電投訴的管理及數(shù)據(jù)分析,難點在于地址填寫不規(guī)范,本技術(shù)方案解決了在頻繁停電投訴管理和數(shù)據(jù)分析中遇到的地址不規(guī)范難題,為投訴預(yù)警及服務(wù)關(guān)口前移創(chuàng)造了條件。
參考文獻參考文獻:
[1]程昌秀,于濱.一種基于規(guī)則的模糊中文地址分詞匹配方法[J].地理與地理信息科學(xué),2011(3):2629.
[2]王瑞雷,欒靜,潘曉花,等.一種改進的中文分詞正向最大匹配算法[J].計算機應(yīng)用與軟件,2011,28(3):195197.
[3]譚侃侃.基于規(guī)則的中文地址分詞與匹配方法[D].濟南:山東科技大學(xué),2011.
[4]金在全,趙照.一種改進的增字最大匹配算法[J].科學(xué)技術(shù)與工程,2007,7(9):47614764.
[5]吳勝遠(yuǎn).一種漢語分詞方法[J].計算機研究與發(fā)展,1996,33(4):306 310.
[6]陳桂林,王永成,韓客松,等.一種改進的快速分詞算法[J].計算機研究與發(fā)展,2000,37(4):418424.
[7]張黎,徐蔚然.中文分詞研究[J].軟件,2012,33(12):103108.
[8]高文利,李德華.分詞索引樹的構(gòu)建[J].語言研究,2007(4):103105.
責(zé)任編輯(責(zé)任編輯:杜能鋼)