国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種針對中國移動客服文本的分詞方法

2020-04-10 10:58鐘建高海洋
現(xiàn)代信息科技 2020年1期
關(guān)鍵詞:用詞分詞客服

鐘建 高海洋

摘? 要:為提升客戶服務(wù)的效率,快速分析和解決客戶問題,并將客戶述求和投訴充分轉(zhuǎn)換為中國移動發(fā)展的動力和資源;提出了一種針對移動客服聊天記錄的數(shù)據(jù)分詞框架,針對客服聊天文本的特點(diǎn),制定了結(jié)合文本糾錯、停用詞擴(kuò)充、關(guān)鍵詞提取、詞性分析這幾個方面的數(shù)據(jù)預(yù)處理步驟。依靠這樣的框架,提升了文本數(shù)據(jù)分詞的質(zhì)量,使用字典映射的方式,糾正出文本數(shù)據(jù)中存在的共性的錯誤。

關(guān)鍵詞:數(shù)據(jù)預(yù)處理;停用詞;關(guān)鍵詞;糾錯字典

中圖分類號:TP391.1? ? ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)01-0007-03

Abstract:In order to improve the efficiency of customer service,quickly analyze and solve customer problems,and fully convert customer complaints into the power and resources of China Mobiles development. We propose a data segmentation framework for mobile customer service chat record. According to the characteristics of customer service chat text,we develop the data preprocessing steps of text error correction,stop words expansion,keyword extraction,part of speech analysis. Relying on this framework,we improve the quality of text data segmentation. We use dictionary mapping to correct the common errors in the text data.

Keywords:data preprocessing;stop words;keywords;error correction dictionary

0? 引? 言

近幾年來,隨著大數(shù)據(jù)概念以及人工智能的迅速發(fā)展,現(xiàn)在的各行各業(yè)都在向智能化的方法探索、發(fā)展,傳統(tǒng)的服務(wù)行業(yè)也不例外,如何有效地使用機(jī)器學(xué)習(xí)的方法來減輕人工的工作量、提升工作效率是服務(wù)行業(yè)較為關(guān)心的問題。情感極性分析是自然語言處理中常見的任務(wù)之一,在不同的中文語料上,已有很多人進(jìn)行了不同的研究[1]。通過分詞工具以及人工篩選,筆者提取出了針對該文本的停用詞以及關(guān)鍵詞;通過對詞性的分析,進(jìn)一步對分詞結(jié)果進(jìn)行了篩選,得到了最終文本數(shù)據(jù)的分詞結(jié)果。實(shí)驗(yàn)結(jié)果表明,使用上述分詞框架后,對中國移動客服文本數(shù)據(jù)情感分析的二分類任務(wù),在精確值上有2%的提升。

1? 傳統(tǒng)數(shù)據(jù)預(yù)處理

在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域,都有很多方法來進(jìn)行情感極性的分析[1]。盡管它們在對數(shù)據(jù)的數(shù)量和質(zhì)量的要求上有所區(qū)別,但是在數(shù)據(jù)預(yù)處理方面,不論是傳統(tǒng)的機(jī)器學(xué)習(xí)方法,還是深度學(xué)習(xí)模型,分詞一般都是大家的首選步驟,雖然也有部分模型的研究粒度是基于字的[2],但是目前的主流方法還是基于詞的。而受限于我們的數(shù)據(jù)集數(shù)量,實(shí)驗(yàn)中我們使用的是傳統(tǒng)的機(jī)器學(xué)習(xí)方法來進(jìn)行情感分類任務(wù)。

傳統(tǒng)的數(shù)據(jù)預(yù)處理步驟包括分詞,去除停用詞兩個操作。在中文語料分詞方面,Jieba分詞工具憑借其使用方便、分詞高效的特點(diǎn),備受大家的青睞,是最常用的分詞工具。在將長文分?jǐn)?shù)據(jù)為多個詞之后,我們通常還會去除分詞結(jié)果中的停用詞。通常停用詞會單獨(dú)作為一個停用詞詞表,常用的中文詞表有“哈工大停用詞表”“百度停用詞表”等。通過去除分詞結(jié)果中的停用詞,我們可以去除結(jié)果中的噪聲詞,這樣做的好處是不僅可以降低分詞結(jié)果的長度,也可以去除停用詞對下游任務(wù)的影響。

針對我們的數(shù)據(jù),在使用上述的分詞步驟后,我們發(fā)現(xiàn),由于我們領(lǐng)域的特定性,直接使用Jieba分詞得到的結(jié)果并沒有滿足我們的需要,會出現(xiàn)我們關(guān)注的一些關(guān)鍵詞被分為了多個詞或某些詞沒有被切分成功的情況,這就直接影響了后面的特征構(gòu)造以及文本表示。所以,在中國移動客服對話文本數(shù)據(jù)中,直接使用Jieba進(jìn)行分詞顯然是不合理的。因?yàn)榭头奶靸?nèi)容的有限性和重復(fù)性,我們關(guān)心的詞的數(shù)量也是有限的,所以,針對這個不足,我們提出了領(lǐng)域的關(guān)鍵詞表,這樣的好處是,所有我們關(guān)心的詞都可以被正確的切分,因此,文本中的關(guān)鍵特征得以保存。同時,我們也維護(hù)了一份領(lǐng)域的停用詞詞表。除了去除通用領(lǐng)域的停用詞之外,針對我們的數(shù)據(jù),我們除去了針對客服文本數(shù)據(jù)的一些停用詞。這些詞大多屬于客服代表的規(guī)范用語,如“客服代表”“網(wǎng)絡(luò)專席”“您好”一類的詞匯,這樣的詞匯廣泛的出現(xiàn)在客服聊天文本中,但是對我們的任務(wù)分析沒有作用,不需要作為我們的特征,因此需要去掉,然而在常用的停用詞表中,無法將這些詞有效地去除,因此我們更新了停用詞表,得到我們針對中國移動客服聊天記錄的停用詞表。

由于我們數(shù)據(jù)的特殊性,在進(jìn)行以上分詞過程前,我們還需要進(jìn)行一項(xiàng)任務(wù),那就是文本糾錯。由于我們的文本數(shù)據(jù)是由客服聊天錄音通過翻譯軟件翻譯而來,而錄音本身并不是十分標(biāo)準(zhǔn)的普通話,導(dǎo)致聊天語音中有著大量的方言。受限于當(dāng)前機(jī)器翻譯軟件的翻譯質(zhì)量,我們得到的翻譯文本中,存在相當(dāng)一部分的翻譯錯誤文本。此類句子表現(xiàn)出無語法結(jié)構(gòu),無語序結(jié)構(gòu)等等問題,多數(shù)句子直接無法判斷其意思,屬于無效的句子。當(dāng)前的中文糾錯研究,主要都是針對某些公開數(shù)據(jù)集上的某種問題,如語法、錯別字等等[3]。對我們這樣綜合多種錯誤的文本來說,文本糾錯是一個很難的問題。為了減輕這樣的影響,針對我們的文本數(shù)據(jù),我們采用的字典映射的方式來處理一部分文本錯誤。在簡單處理后,使用我們的分詞方法,再進(jìn)行分詞。

下面筆者將從糾錯字典的構(gòu)造、停用詞表與關(guān)鍵詞表的構(gòu)造、實(shí)驗(yàn)方法以及實(shí)驗(yàn)結(jié)果及分析這幾個方面介紹我們的工作。分詞框架如圖1所示。

2? 糾錯字典的構(gòu)造

從上述的介紹中,我們已經(jīng)得知,我們的文本數(shù)據(jù)中存在著一部分由于語音翻譯帶來的錯誤,使得文本數(shù)據(jù)無法理解。一方面,混合錯誤的文本數(shù)據(jù)糾錯問題現(xiàn)在還缺乏一定的研究,我們嘗試過使用百度AILab的糾錯API,但是毫無效果;另一方面,我們沒有缺乏有效的訓(xùn)練數(shù)據(jù),即我們無法識別錯誤文本的真正意思是什么。以上原因使得我們無法使用機(jī)器學(xué)習(xí)的方法來糾正文本數(shù)據(jù)中的錯誤。由于我們的原始音頻數(shù)據(jù)都是來自于同一個地區(qū)的客服聊天記錄,即便是口音問題導(dǎo)致的翻譯出錯,它們的錯也具有一定的相似性,因此,我們采用字典映射的方式來處理那些普遍存在于翻譯文本中的具有一定共性的錯誤。通過人工識別的方式,我們總結(jié)出可以糾正的多音字或錯別字錯誤,將其與普通話的字進(jìn)行一一對應(yīng),形成了糾錯字表。使用糾錯字表,我們將文本中的這些字一一修改成普通話中對應(yīng)的字,達(dá)到簡單的糾錯效果。

3? 停用詞表與關(guān)鍵詞表構(gòu)造

在進(jìn)行簡單的文本糾錯后,我們需要構(gòu)造停用詞表以及關(guān)鍵詞表,這兩個詞表的構(gòu)造對我們的分詞以及文本篩選的準(zhǔn)確性有著很大的影響。因?yàn)檫@兩個詞表的功能具有一定的相反性,因此我們是同時構(gòu)造這兩個詞表的,下面是我們構(gòu)造這兩個詞表的過程。首先我們使用Jieba分詞工具,將糾錯后的文本進(jìn)行直接的分詞,使用通用領(lǐng)域的停用詞表去除停用詞,得到分詞后的文本。這時候,每一條原始數(shù)據(jù)都由一系列的詞表示。接著,我們抽樣出部分原始文本與其分詞數(shù)據(jù),人工觀察識別分詞結(jié)果,對比原始的文本,提取出錯分的詞,構(gòu)造成我們的關(guān)鍵詞表。然后對分詞文本進(jìn)行數(shù)值上的統(tǒng)計,由于我們的數(shù)據(jù)具有領(lǐng)域特性,所以對于高頻詞,我們需要額外的關(guān)注。對于出現(xiàn)次數(shù)高于100次或出現(xiàn)次數(shù)在前100~200的詞,直接人工判斷是否需要重點(diǎn)關(guān)注這些詞,如果需要,則將它們加入到關(guān)鍵詞表中,如果不需要,則把它們加入到停用詞表中。最后,在完成一次關(guān)鍵詞表與停用詞表的更新后,我們重新使用Jieba進(jìn)行分詞,加入關(guān)鍵詞表,保證詞表中的詞都能被正確分類,加入停用詞詞表,保證詞表中的詞都被去除。迭代進(jìn)行2~3次關(guān)鍵詞表與停用詞表的更新。由于我們數(shù)據(jù)的特點(diǎn),一方面領(lǐng)域特點(diǎn)保證了我們關(guān)鍵詞和停用詞的有限性;另一方面,我們使用分詞工具去輔助人工發(fā)現(xiàn)關(guān)鍵詞與停用詞,這兩點(diǎn)保證了人工篩選詞匯的可行性和高效性。

4? 實(shí)驗(yàn)設(shè)計

本次實(shí)驗(yàn)采用了三個傳統(tǒng)的機(jī)器學(xué)習(xí)模型:支持向量機(jī)、XGBoost、logistics回歸[4]。在傳統(tǒng)的機(jī)器學(xué)習(xí)模型中,對于分類任務(wù),以上三種方法是最常使用的模型,之前很多的研究已經(jīng)證明了在分類任務(wù)上以上三種模型的優(yōu)秀表現(xiàn)。實(shí)驗(yàn)文本特征的構(gòu)造使用自然語言處理中較為常見的one-hot表示以及TF-IDF表示,分別構(gòu)造文本數(shù)據(jù)的特征,使文本數(shù)據(jù)向量化。在文本向量化之后,我們將數(shù)據(jù)分別使用不同的模型進(jìn)行分類,得到實(shí)驗(yàn)結(jié)果。對比實(shí)驗(yàn),我們使用控制變量的方法,使用本文的分詞方法對數(shù)據(jù)進(jìn)行預(yù)處理,對比不使用該方法的普通的分詞方法,使用同樣的實(shí)驗(yàn)方法、實(shí)驗(yàn)參數(shù),對比實(shí)驗(yàn)的結(jié)果。實(shí)驗(yàn)結(jié)果的衡量指標(biāo)為F1值。

5? 實(shí)驗(yàn)結(jié)果及分析

各方法實(shí)驗(yàn)的結(jié)果如表1所示,Before列代表未使用上述分詞方法的實(shí)驗(yàn)結(jié)果,After列代表使用上述分詞方法的實(shí)驗(yàn)結(jié)果。

從實(shí)驗(yàn)中我們可以看出,在不同的方法以及不同的特征構(gòu)造上,使用本文提出的分詞方法后,部分模型的表現(xiàn)都有了效果上的提升。主要原因一方面是我們減少了文本中的錯誤,減少了很多干擾詞,另一方面是因?yàn)槲覀兪褂昧祟I(lǐng)域的停用詞表和關(guān)鍵詞表,更多重要的詞被保留,在構(gòu)造文本特征的時候,與直接分詞相比保留了更多的特征,因此在分類的結(jié)果上,使用本文的方法后,分類的效果有了提升。

6? 結(jié)? 論

本文提出的這種針對中國移動客服文本的分詞方法經(jīng)實(shí)驗(yàn)驗(yàn)證是有效的。針對中國移動客服文本的預(yù)處理問題,在經(jīng)過我們的文本糾錯,結(jié)合本領(lǐng)域的關(guān)鍵詞表和停用詞表的輔助分詞后,文本的特征得到了很好的保留,從而在下游的情感分析任務(wù)上,與單純的分詞相比,在不同模型上都有了效果上的提升,充分說明了本文提出的分詞方法的有效性。

參考文獻(xiàn):

[1] WANG Y,ZHENG X,HOU D,et al. Short text sentiment classification of high dimensional hybrid feature based on SVM [J].Computer Technology and Development,2018,28(2):88-93.

[2] DEVLIN J,CHANG M,LEE K,et al. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].[2019-11-20].https://arxiv.org/abs/1810.04805?context=cs.

[3] YANG Y,XIE P,TAO J,et alAlibaba at IJCNLP-2017 Task 1:Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task [C]//Proceedings of the IJCNLP 2017,Shared Tasks,2017:41-46.

[4] WRIGHT R E. Logistic regression [J].Reading & Unders-tanding Multivariate Statistics,1995,68(3):497-507.

作者簡介:鐘建(1969-),男,漢族,四川成都人,高級工

程師,碩士研究生,研究方向:移動網(wǎng)絡(luò)的建設(shè)維護(hù)和優(yōu)化。

猜你喜歡
用詞分詞客服
分詞在英語教學(xué)中的妙用
語音推銷
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
相似的內(nèi)容,靈動的表達(dá)
建議
追問文本,捕捉文字背后的聲音
出大事了等
銷售能手
中學(xué)英語園地·教學(xué)指導(dǎo)版(2008年6期)2008-05-31
永定县| 合江县| 曲麻莱县| 台南县| 砚山县| 宁都县| 阳原县| 茂名市| 都安| 盖州市| 武定县| 临猗县| 罗源县| 汕尾市| 昌吉市| 澄城县| 昂仁县| 洛扎县| 类乌齐县| 珠海市| 曲阜市| 阳谷县| 绍兴县| 商都县| 台东县| 罗田县| 嘉义市| 靖安县| 崇信县| 平和县| 子洲县| 利津县| 吴旗县| 寿宁县| 自贡市| 贺兰县| 吴桥县| 宜兴市| 克什克腾旗| 宣城市| 闻喜县|