国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樸素貝葉斯的敏感信息識(shí)別方法研究

2021-07-16 06:45:24陸向艷蘇崇劉峻
關(guān)鍵詞:詞庫(kù)樸素分詞

◆陸向艷 蘇崇 劉峻

(1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院 廣西 530004;2.廣西師范大學(xué)廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室 廣西 54100)

互聯(lián)網(wǎng)經(jīng)過20 多年的發(fā)展,已經(jīng)深入滲透到社會(huì)生產(chǎn)、生活和學(xué)習(xí)等領(lǐng)域的各個(gè)方面,互聯(lián)網(wǎng)各種平臺(tái)上每天產(chǎn)生大量的文本信息,其中有些信息不加以辨別和控制會(huì)對(duì)政治、經(jīng)濟(jì)和道德等領(lǐng)域造成損害或影響。這些信息主要包括政治敏感信息、恐怖信息、色情信息、侮辱謾罵信息、惡意廣告信息等[1],被統(tǒng)稱為敏感信息。如果不及時(shí)識(shí)別和處理這些敏感信息,互聯(lián)網(wǎng)環(huán)境將不斷地遭受破壞,給社會(huì)穩(wěn)定、安全和文明等方面造成不利影響,識(shí)別并過濾敏感信息成為當(dāng)前凈化網(wǎng)絡(luò)環(huán)境的重要手段。由于互聯(lián)網(wǎng)信息量巨大,當(dāng)前主要采取自動(dòng)化方法來識(shí)別敏感信息。自動(dòng)識(shí)別敏感信息方法主要為基于機(jī)器學(xué)習(xí)的分類方法,當(dāng)前研究主要有基于SVM、決策樹、K 近鄰等[2-5]方法,本文提出一種基于樸素貝葉斯的敏感信息識(shí)別方法,旨在為敏感信息識(shí)別提供方法參考。

2 基于樸素貝葉斯的敏感信息識(shí)別方法

2.1 方法模型

基于樸素貝葉斯的敏感信息識(shí)別方法包括敏感信息標(biāo)記、文本分詞、樸素貝葉敏感詞訓(xùn)練、樸素貝葉斯敏感信息分類4 個(gè)步驟,方法模型如圖1 所示。

圖1 模型圖

2.2 敏感信息標(biāo)記

用爬蟲軟件收集文本數(shù)據(jù)集,取其中一部分進(jìn)行文本敏感屬性標(biāo)記,將包含和不包含敏感信息的文本分開存放。將敏感數(shù)據(jù)集分成涉黃、涉政、涉恐、廣告、謾罵五個(gè)類別進(jìn)行分類標(biāo)記。

2.3 文本分詞

用Word 分詞器的最大Ngram 分值算法對(duì)文本數(shù)據(jù)集進(jìn)行分詞、去除停用詞后,將敏感信息與非敏感信息的分詞分開保存。

2.4 樸素貝葉敏感詞訓(xùn)練

對(duì)于訓(xùn)練集文本的每一個(gè)分詞,首先進(jìn)行詞頻統(tǒng)計(jì)并計(jì)算分詞先驗(yàn)概率,然后查看敏感詞庫(kù)是否已記錄該分詞,是則修正該詞語(yǔ)的概率,否則寫入敏感詞庫(kù)。敏感詞庫(kù)最后保留詞頻排序在前15%的詞匯。樸素貝葉敏感詞訓(xùn)練過程如圖2 所示。

圖2 訓(xùn)練過程

3 實(shí)驗(yàn)和結(jié)果分析

實(shí)驗(yàn)收集涉黃、涉政、涉恐、廣告、謾罵五個(gè)類別文本數(shù)據(jù)各500 個(gè),每個(gè)類別分別取100 個(gè)文本進(jìn)行標(biāo)記,300 個(gè)文本進(jìn)行訓(xùn)練,100 個(gè)文本進(jìn)行測(cè)試,驗(yàn)證本文提出的基于樸素貝葉斯的敏感信息方法的有效性,實(shí)驗(yàn)結(jié)果如表1 所示。

表1 實(shí)驗(yàn)結(jié)果

對(duì)于實(shí)驗(yàn)的五個(gè)類別數(shù)據(jù),算法正確檢出率都在87%以上,其中涉恐、涉黃和廣告文本正確檢出率在90%以上,相對(duì)較高,涉黃和謾罵文本正確檢出率相對(duì)較低,原因主要是因?yàn)闃闼刎惾~斯在計(jì)算各分詞概率時(shí)獨(dú)立計(jì)算,而涉黃和謾罵文本相對(duì)涉政、涉恐和廣告文本這三類文本其詞匯的上下文關(guān)聯(lián)更強(qiáng)。

4 結(jié)束語(yǔ)

識(shí)別網(wǎng)絡(luò)敏感信息,對(duì)凈化網(wǎng)絡(luò)環(huán)境具有重要意義。本文提出一種基于樸素貝葉斯的敏感信息識(shí)別方法。實(shí)驗(yàn)結(jié)果表明本文方法能有效識(shí)別敏感文本信息。

猜你喜歡
詞庫(kù)樸素分詞
隔離樸素
樸素的安慰(組詩(shī))
他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
結(jié)巴分詞在詞云中的應(yīng)用
最神奇最樸素的兩本書
值得重視的分詞的特殊用法
詞庫(kù)音系學(xué)的幾個(gè)理論問題芻議
環(huán)境變了,詞庫(kù)別變
電腦迷(2014年14期)2014-04-29 00:44:03
高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
QQ手機(jī)輸入法如何導(dǎo)入分類詞庫(kù)
電腦迷(2012年15期)2012-04-29 17:09:47
三门县| 攀枝花市| 绵阳市| 手游| 阿拉善左旗| 河源市| 彩票| 葫芦岛市| 长治市| 宁安市| 奉贤区| 南和县| 成武县| 安泽县| 沈丘县| 镇宁| 浙江省| 容城县| 衡水市| 沂南县| 资溪县| 汉阴县| 北宁市| 响水县| 同江市| 左权县| 若羌县| 延庆县| 贵阳市| 龙门县| 东海县| 阜平县| 濉溪县| 潜山县| 周至县| 黄石市| 香港 | 自贡市| 克拉玛依市| 武宣县| 宣威市|