基于樸素貝葉斯算法的群眾留言多標(biāo)簽分類的應(yīng)用

2021-04-24 09:06:46方小宇羅補(bǔ)干周鑠洋郭麗莎

科學(xué)技術(shù)創(chuàng)新 2021年9期

方小宇羅補(bǔ)干周鑠洋郭麗莎

（中南民族大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院，湖北武漢430074）

1 概述

近年來(lái)，互聯(lián)網(wǎng)已經(jīng)發(fā)展成為人們獲取信息、關(guān)注熱點(diǎn)事件、了解國(guó)情乃至了解世界的重要媒介。目前，我們已經(jīng)步入了“互聯(lián)網(wǎng)+”的生活時(shí)代。社會(huì)各方面高速發(fā)展、科技發(fā)達(dá)、信息泉涌，人們與政府之間的交流越來(lái)越密切，微信、微博、市長(zhǎng)信箱、陽(yáng)光熱線等網(wǎng)絡(luò)問(wèn)政平臺(tái)逐步成為政府了解民意、匯聚民智、凝聚民氣的重要渠道。各類社情民意相關(guān)的文本數(shù)據(jù)量不斷攀升，給以往主要依靠人工來(lái)進(jìn)行留言劃分的相關(guān)部門(mén)的工作帶來(lái)了極大挑戰(zhàn)。同時(shí)，隨著大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)的發(fā)展，建立基于自然語(yǔ)言處理技術(shù)的智慧政務(wù)系統(tǒng)已經(jīng)是社會(huì)治理創(chuàng)新發(fā)展的新趨勢(shì)，對(duì)提升政府的管理水平和施政效率具有極大的推動(dòng)作用。本文首先通過(guò)網(wǎng)絡(luò)爬蟲(chóng)搜集到7 個(gè)類別的9210條留言，然后對(duì)搜集到的數(shù)據(jù)進(jìn)行處理和分析，接著運(yùn)用樸素貝葉斯算法建立了多標(biāo)簽分類模型，最后對(duì)模型進(jìn)行評(píng)估。

2 數(shù)據(jù)預(yù)處理

為了模型建立的有效性，首先要對(duì)搜集的留言進(jìn)行數(shù)據(jù)處理，包括數(shù)據(jù)清洗、文本分詞、文本向量化等，具體處理流程如圖1 所示。

2.1 去除無(wú)關(guān)字符

圖1 數(shù)據(jù)預(yù)處理流程

通過(guò)對(duì)文本的分析，發(fā)現(xiàn)文本中存在許多無(wú)用無(wú)意義的字符或連接，如空白字符、“baidu.cm”等，這些無(wú)意義的字符給模型訓(xùn)練和評(píng)估帶來(lái)負(fù)面的影響，因此，首先在文本中將這些無(wú)關(guān)字符去除。

2.2 文本分詞

去除無(wú)關(guān)字符后，接下來(lái)就是對(duì)文本進(jìn)行分詞，常見(jiàn)的分詞方法有：基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于規(guī)則的分詞方法，每種方法下面對(duì)應(yīng)許多具體的算法。對(duì)于此問(wèn)題而言，本文采用Jieba 分詞庫(kù)。但因?yàn)閖ieba 詞庫(kù)中一些分詞與現(xiàn)實(shí)生活中人們習(xí)慣的分詞存在差別。比如下列一部分對(duì)留言主題的分詞結(jié)果：

1''“[‘西湖’,‘建筑’,‘集團(tuán)’,‘占’,‘道’,‘施工’,‘安全隱患’]”

2''“[‘市中坡’,‘山’,‘公園’,‘內(nèi)溜狗’,‘有損’,‘景區(qū)’,‘環(huán)境’,‘應(yīng)’,‘嚴(yán)禁’]”

3''“[‘農(nóng)村信用’,‘合作’,‘聯(lián)社’,‘208’,‘戶’,‘合伙’,‘建房’,‘工程’,‘招投標(biāo)’,‘問(wèn)題’]”

4''“[‘申請(qǐng)’,‘市公’,‘租房’,‘問(wèn)題’,‘咨詢’]”

5''“[‘城市居民’,‘保障’,‘房’,‘相關(guān)’,‘政策’]”

6''“[‘校園’,‘暴力事件’,‘屢屢’,‘發(fā)生’]”

在這些分詞中，劃線的詞語(yǔ)的分詞都與現(xiàn)實(shí)生活中的分詞不太符合，所以要對(duì)分詞的詞庫(kù)進(jìn)行添加，使這些詞語(yǔ)能夠符合現(xiàn)實(shí)的詞語(yǔ)表達(dá)，比如：“‘占道’，‘公園內(nèi)’，‘農(nóng)村信用合作聯(lián)社’，‘公租房’，‘保障房’，‘校園暴力’”。所以要將這些詞語(yǔ)更新到詞庫(kù)中，再次進(jìn)行分詞。

2.3 去除停用詞

在分詞之后，會(huì)發(fā)現(xiàn)分詞結(jié)果中存在大量無(wú)意義的詞，比如：“‘了’，‘的’，‘地’”等，不僅對(duì)文本分類沒(méi)有作用，還會(huì)增加之后的工作量，所以要將這些停用詞過(guò)濾。首先是使用傳統(tǒng)的停用詞庫(kù)去停用詞，由第一次去停用詞的結(jié)果，更新停用詞庫(kù)后，再次去除停用詞。

2.4 文本向量化

定義一個(gè)詞的權(quán)重通常采用的是TF-IDF 的方法。在信息檢索理論中，TF-IDF 是Term Frequency-Inverse Document Frequency 的簡(jiǎn)寫(xiě)，TF 是詞頻，IDF 是逆文檔頻率，用于反映一個(gè)詞對(duì)于語(yǔ)料中某篇文檔的重要性。在信息檢索和文本挖掘領(lǐng)域，它經(jīng)常用于因子加權(quán)。TF-IDF 的主要思想就是：如果某個(gè)詞在一篇文檔中出現(xiàn)的頻率高，也即TF 高；并且在語(yǔ)料庫(kù)中其他文檔中很少出現(xiàn)，即DF 低，也即IDF 高，則認(rèn)為這個(gè)詞具有很好的類別區(qū)分能力。

Cornell SMART 系統(tǒng)的詞頻的計(jì)算公式如下：

本文先將語(yǔ)料轉(zhuǎn)化為詞袋向量，根據(jù)詞袋向量統(tǒng)計(jì)TF-IDF，根據(jù)數(shù)據(jù)集文本序列長(zhǎng)度，通過(guò)計(jì)算發(fā)現(xiàn)98.6%的樣本文本序列長(zhǎng)度都小于2500。為了簡(jiǎn)化計(jì)算，做出每2500 詞劃分一次的調(diào)整，長(zhǎng)度大于2500 的進(jìn)行切分，小于2500 的進(jìn)行填充。最終可以得到文本的TF-IDF 表示。

3 多標(biāo)簽分類

3.1 數(shù)據(jù)增強(qiáng)

首先，觀察數(shù)據(jù)集，數(shù)據(jù)分布如圖2 所示，共有七個(gè)分類，且數(shù)據(jù)具有不平衡的特性，最多的類別“城鄉(xiāng)建設(shè)”的數(shù)量是最少類別“交通運(yùn)輸”的三倍多。由于多數(shù)類和少數(shù)類在數(shù)量上的傾斜，以總體分類精度最大為目標(biāo)會(huì)使得分類模型偏向于多數(shù)類而忽略少數(shù)類，導(dǎo)致少數(shù)類被判斷為多數(shù)類的概率大大增加，造成少數(shù)類的分類精度較低。

圖2 類別分布圖

對(duì)于數(shù)據(jù)不平衡問(wèn)題，可以從三個(gè)角度予以解決，分別是數(shù)據(jù)角度、評(píng)價(jià)指標(biāo)角度和算法角度。此處采用從數(shù)據(jù)角度來(lái)著手，對(duì)原始數(shù)據(jù)進(jìn)行回譯以達(dá)到增強(qiáng)數(shù)據(jù)的效果，即將目標(biāo)數(shù)據(jù)進(jìn)行多次不同語(yǔ)種翻譯，再翻譯回來(lái)的一種方法，將其它六類擴(kuò)充到與城鄉(xiāng)建設(shè)數(shù)量相同。擴(kuò)充后數(shù)據(jù)集數(shù)量達(dá)到14063條。數(shù)據(jù)增強(qiáng)示意圖如圖3 所示。

圖3 數(shù)據(jù)增強(qiáng)示意圖

3.2 貝葉斯分類模型理論

3.2.1 貝葉斯定理

貝葉斯方法采用計(jì)算每一個(gè)樣本屬于每一類的概率，然后將樣本劃分為具有最大概率的那一類中。即已知樣本x 的條件下，計(jì)算屬于某一類的概率。

3.2.2 貝葉斯公式中的相關(guān)概率

先驗(yàn)概率P(cj)：表示訓(xùn)練樣本數(shù)據(jù)前cj（類別）擁有的初始概率。P(cj)常被稱為cj的先驗(yàn)概率（prior probability），通常采用樣例中屬于cj的樣例數(shù)|cj|與總樣例數(shù)|D|的比值來(lái)近似表示。如（1）式所示：

后驗(yàn)概率P(cj|X):指當(dāng)給定數(shù)據(jù)樣本X,屬于cj的概率。P(cj|X)被稱為cj的后驗(yàn)概率（posterior probability），它反映先看到數(shù)據(jù)樣本X 后cj成立的置信度。使用貝葉斯公式計(jì)算后驗(yàn)概率，如（3）式所示。

貝葉斯公式：

由于P(X)對(duì)所有類都是相同的，因此在實(shí)際的應(yīng)用中我們只需計(jì)算貝葉斯公式分子部分，求取最大值，如（4）式所示，然后把X 就分到最大值對(duì)應(yīng)的類ccmp中。

3.2.3 樸素貝葉斯分類器

由于計(jì)算（2）式相當(dāng)困難，所以樸素貝葉斯分類器假設(shè)：在給定樣本的目標(biāo)值時(shí)屬性之間的相互條件獨(dú)立。即（2）式求取的類條件概率就是每個(gè)單獨(dú)屬性對(duì)應(yīng)的概率的乘積，如（5）式所示。

因此，對(duì)于樸素貝葉斯學(xué)習(xí)方法就是從訓(xùn)練樣本中估計(jì)不同的P(cj)和P(ai|cj)，針對(duì)新的待分樣本實(shí)例，采用（4）式、（5）式進(jìn)行計(jì)算給出分類結(jié)果。

4 文本分類結(jié)果分析

表1

本文中使用準(zhǔn)確率、召回率、F1-score 三個(gè)指標(biāo)來(lái)評(píng)估算法效果。

4.1 精確率（Precision）:分類結(jié)果中正確分類為Ci 的樣本數(shù)占分類結(jié)果中所有分為Ci 類別的樣本數(shù)，衡量分類的查準(zhǔn)率：

4.2 召回率（Recall）:分類結(jié)果中正確分類為Ci 的樣本數(shù)占所有Ci 類的樣本數(shù)的比例，衡量分類的查全率：

4.3 F1-score：在精確率和召回率的基礎(chǔ)上提出了F1 值的概念，來(lái)對(duì)精確率和召回率進(jìn)行整體評(píng)價(jià):

最終得到整體的分類效果:

本文基于如上實(shí)驗(yàn)步驟實(shí)現(xiàn)了樸素貝葉斯分類算法，衡量分類效果的F1 值高達(dá)92%，實(shí)驗(yàn)結(jié)果表明樸素貝葉斯分類算法有很好的多文本分類能力。

5 結(jié)論

樸素貝葉斯是經(jīng)典的機(jī)器學(xué)習(xí)算法之一，通過(guò)考慮特征概率來(lái)預(yù)測(cè)分類，是為數(shù)不多的基于概率統(tǒng)計(jì)學(xué)的分類算法，文章論述了貝葉斯模型的基本理論，采用貝葉斯分類器對(duì)網(wǎng)絡(luò)問(wèn)政平臺(tái)的群眾留言進(jìn)行了多標(biāo)簽分類研究。通過(guò)將樣本14063條數(shù)據(jù)80%劃分為訓(xùn)練集，20%劃分為測(cè)試集。進(jìn)行測(cè)試評(píng)估，在測(cè)試集上準(zhǔn)確率達(dá)到了91.68%，F(xiàn)1-Score 達(dá)到了0.9161。不足之處是貝葉斯分類模型需要知道先驗(yàn)概率，并假設(shè)屬性之間相互獨(dú)立，因此當(dāng)屬性個(gè)數(shù)較多或?qū)傩灾g相關(guān)性較大時(shí)，分類效率比不上決策樹(shù)模型。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡