国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本內(nèi)容信息過濾系統(tǒng)的研究與設(shè)計(jì)

2012-04-29 12:01:39鄒嵐徐芳
電腦知識(shí)與技術(shù) 2012年34期
關(guān)鍵詞:詞庫拼音文本

鄒嵐 徐芳

摘要:該文設(shè)計(jì)的文本內(nèi)容信息過濾系統(tǒng)使用PHP開發(fā)設(shè)計(jì),做為PHP網(wǎng)站的一個(gè)功能接口,該系統(tǒng)主要功能有:后臺(tái)管理、非法信息過濾、遠(yuǎn)程頁面檢測(cè)和自動(dòng)安裝等。系統(tǒng)方便了網(wǎng)站管理員對(duì)詞庫、檢測(cè)日志報(bào)告等信息的管理,同時(shí)系統(tǒng)自動(dòng)檢測(cè)網(wǎng)站信息內(nèi)容并過濾其中的不良信息,大大提高了網(wǎng)站管理員審核文章等信息內(nèi)容的速度和效率。該文研究與設(shè)計(jì)的系統(tǒng)在一定程度上抑制了非法信息在網(wǎng)絡(luò)上的傳播,凈化了網(wǎng)絡(luò)環(huán)境,為網(wǎng)絡(luò)用戶提供了一個(gè)良好健康的信息資源環(huán)境。

關(guān)鍵詞:文本;信息過濾;敏感詞

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)34-8187-05

1概述

隨著互聯(lián)網(wǎng)的發(fā)展,人們享受網(wǎng)絡(luò)技術(shù)帶來的美好生活,同時(shí)也使某些不法分子通過網(wǎng)絡(luò)傳送非法信息。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和應(yīng)用,網(wǎng)上色情、暴力、反動(dòng)等不良信息時(shí)有傳播,而且有泛濫的趨勢(shì),因此,網(wǎng)絡(luò)信息安全值得大家去關(guān)注和研究。在此背景下,為了濾除網(wǎng)絡(luò)文本內(nèi)容中的不良信息,減少不良信息在網(wǎng)絡(luò)中傳播,為網(wǎng)絡(luò)用戶提供一個(gè)良好健康的信息資源環(huán)境,就需要建立一個(gè)高效的信息過濾系統(tǒng),對(duì)信息發(fā)布者所發(fā)布的信息內(nèi)容進(jìn)行分析過濾,濾除其中的不良信息內(nèi)容。該文主要是研究與設(shè)計(jì)文本內(nèi)容信息過濾系統(tǒng),使用PHP開發(fā),該系統(tǒng)做為PHP網(wǎng)站的一個(gè)功能接口,對(duì)信息發(fā)布者發(fā)表的評(píng)論、文章內(nèi)容等信息進(jìn)行監(jiān)控,通過信息過濾系統(tǒng)分析,過濾其中出現(xiàn)的不良信息,再將過濾后的信息內(nèi)容返回給網(wǎng)站,最后網(wǎng)站再將信息發(fā)布。該文對(duì)文本內(nèi)容信息過濾技術(shù)進(jìn)行研究,凈化網(wǎng)絡(luò)文本信息,為網(wǎng)絡(luò)用戶提供一個(gè)良好健康的信息資源,就需要建立一個(gè)高效的信息過濾系統(tǒng),對(duì)信息發(fā)布者的信息進(jìn)行分析過濾。該文在理論研究的基礎(chǔ)上,設(shè)計(jì)了一個(gè)文本內(nèi)容信息過濾系統(tǒng),并應(yīng)用于中小型網(wǎng)站,獲取用戶發(fā)表的評(píng)論、文章等內(nèi)容信息,通過信息過濾系統(tǒng)分析,過濾文中出現(xiàn)的不良信息,再將信息返回給網(wǎng)站,網(wǎng)站再將信息發(fā)布。

2系統(tǒng)功能需求

文本內(nèi)容信息過濾系統(tǒng)對(duì)網(wǎng)站信息發(fā)布、公眾信息公開申請(qǐng)和網(wǎng)站留言等模塊內(nèi)容實(shí)現(xiàn)提交時(shí)的自動(dòng)過濾處理,發(fā)現(xiàn)有謾罵、誹謗、等非法言論進(jìn)行自動(dòng)過濾,并給用戶友好的提示,同時(shí)向管理員提交報(bào)告。從而大大提高了審核速度和效率。使用PHP開發(fā)設(shè)計(jì)文本內(nèi)容信息過濾系統(tǒng),該系統(tǒng)可將文本內(nèi)容中的有害信息濾除,并可對(duì)已經(jīng)發(fā)表的文章內(nèi)容進(jìn)行檢測(cè),得出檢測(cè)結(jié)果,通知管理員對(duì)該文章進(jìn)行相應(yīng)的操作,如修改或刪除操作。信息過濾流程如圖1所示。

(1)數(shù)據(jù)庫設(shè)計(jì)

使用MySQL數(shù)據(jù)庫,設(shè)計(jì)結(jié)構(gòu)清晰,方便管理的詞庫表、用戶表與日志表等,詞庫表中包含了敏感詞名、敏感詞、詞類別等信息。用戶表中包含了用戶名、用戶密碼、用戶類別信息。日志表則包含了檢測(cè)結(jié)果、URL地址、原文章內(nèi)容。

(2)中文簡體轉(zhuǎn)繁體功能

MySQL數(shù)據(jù)庫字符集設(shè)置的為GBK格式,敏感詞為簡體。而在用戶發(fā)表文章時(shí),文章內(nèi)容信息往往含有繁體敏感詞。在對(duì)用戶發(fā)表文章中的文本內(nèi)容,進(jìn)行信息過濾時(shí),需要進(jìn)行敏感詞的簡繁轉(zhuǎn)換,提高信息過濾的準(zhǔn)確性。中文簡體轉(zhuǎn)繁體流程如圖2所示。

(3)中文轉(zhuǎn)換拼音功能

許多敏感詞都以拼音字母的形式出現(xiàn)在各個(gè)文章中,中文轉(zhuǎn)換拼音的功能應(yīng)用到文本內(nèi)容信息過濾系統(tǒng)中,可以有效地濾除文章中的有害敏感詞信息,使得過濾有害信息更加精確。中文轉(zhuǎn)拼音流程如圖3所示。

3系統(tǒng)設(shè)計(jì)

本系統(tǒng)整體上包括四大模塊:后臺(tái)管理模塊、信息過濾模塊、頁面檢測(cè)模塊和自動(dòng)安裝模塊。后臺(tái)管理模塊為管理員提供一個(gè)管理敏感詞庫、用戶管理、權(quán)限管理等操作后臺(tái)。信息過濾模塊為本系統(tǒng)的核心模塊,將文本內(nèi)容的敏感詞進(jìn)行分析,過濾文本內(nèi)容中的非法詞匯。頁面檢測(cè)模塊是檢測(cè)遠(yuǎn)程URL地址,提取網(wǎng)頁源碼,分析其中的文本內(nèi)容濾除有害信息。自動(dòng)安裝模塊是對(duì)系統(tǒng)進(jìn)行配置,如數(shù)據(jù)庫連接信息,創(chuàng)建系統(tǒng)管理員,并生成配置文件。文本內(nèi)容信息過濾系統(tǒng)結(jié)構(gòu)如圖4所示。

3.1后臺(tái)管理設(shè)計(jì)

本系統(tǒng)為管理員設(shè)計(jì)一個(gè)友好、簡潔、功能完善的后臺(tái)管理,管理員能夠進(jìn)行用戶的管理,詞庫的管理,對(duì)詞庫中數(shù)據(jù)可增加、刪除、修改、查詢等操作以及權(quán)限管理。

3.2信息過濾模塊設(shè)計(jì)

信息過濾模塊包括了簡繁轉(zhuǎn)換,中文轉(zhuǎn)拼音與信息過濾,喜好詞生成等功能。能夠?qū)τ脩舭l(fā)表的文章中的不法信息進(jìn)行濾除,對(duì)用戶所搜索的關(guān)鍵詞進(jìn)行分析,智能生成喜好詞,方便用戶搜索自己感興趣的信息。

3.3頁面檢測(cè)模塊設(shè)計(jì)

頁面檢測(cè)模塊用于檢測(cè)未經(jīng)過信息系統(tǒng)過濾已發(fā)布的文章或評(píng)論,可對(duì)多頁面檢測(cè),并將檢測(cè)結(jié)果入庫,得出分析報(bào)告,管理員根據(jù)報(bào)告內(nèi)容,可對(duì)原URL文章的內(nèi)容進(jìn)行修改或者刪除操作。

3.4自動(dòng)安裝設(shè)計(jì)

自動(dòng)安裝模塊是用于對(duì)系統(tǒng)進(jìn)行全新安裝,進(jìn)行三個(gè)步驟安裝。第一步:填寫系統(tǒng)配置信息,生成配置文件。第二步:創(chuàng)建系統(tǒng)管理員。第三步:創(chuàng)建系統(tǒng)數(shù)據(jù)庫,包含了系統(tǒng)敏感詞庫。

3.5數(shù)據(jù)庫表

本系統(tǒng)針對(duì)系統(tǒng)功能的分析,設(shè)計(jì)了5張表:用戶表、角色分類表、敏感詞表、敏感詞分類表和日志報(bào)告表。對(duì)系統(tǒng)表的設(shè)計(jì)滿足了第三范式,消除了多值依賴和傳遞依賴。

4關(guān)鍵模塊的實(shí)現(xiàn)

4.1簡體轉(zhuǎn)繁體模塊

通過簡體轉(zhuǎn)繁體功能,可以將簡體轉(zhuǎn)換為繁體。當(dāng)用戶發(fā)表的文章或評(píng)論內(nèi)容含有繁體敏感詞時(shí),信息過濾系統(tǒng)也應(yīng)分析文本內(nèi)容中的繁體敏感詞。本系統(tǒng)采用對(duì)文本內(nèi)容進(jìn)行分析時(shí),將詞庫中的簡體敏感詞轉(zhuǎn)換為繁體,繁體敏感詞不需要存儲(chǔ)在數(shù)據(jù)庫中,從而減少詞庫的容量。

簡體轉(zhuǎn)繁體函數(shù)實(shí)現(xiàn)代碼如下:

4.2中文轉(zhuǎn)拼音模塊

中文轉(zhuǎn)拼音功能是將中文轉(zhuǎn)換為拼音字母形式。目前,很多用戶發(fā)表的文章中往往含有以拼音字母形式出現(xiàn)的敏感詞。若是將敏感詞的拼音也存入數(shù)據(jù)庫中,這會(huì)增大詞庫的容量。本系統(tǒng)采用在對(duì)文本內(nèi)容分析時(shí),對(duì)其中的拼音形式出現(xiàn)的敏感詞,先將中文轉(zhuǎn)換為拼音形式,再進(jìn)行分析過濾操作。

關(guān)鍵代碼如下:

4.3信息過濾模塊

信息過濾模塊用于過濾文本內(nèi)容中的敏感詞。通過將文本內(nèi)容中的字符串與詞庫中的敏感詞進(jìn)行比較是否匹配,若匹配,則進(jìn)行過濾替換操作,當(dāng)文本內(nèi)容分析過濾完畢,計(jì)算文本內(nèi)容中所有敏感詞的敏感值總和,當(dāng)該值大于等于過濾閥值時(shí),改文本內(nèi)容不予發(fā)布。

信息過濾模塊的設(shè)計(jì)思想:第一步,取出詞庫中第一個(gè)敏感詞,與文本內(nèi)容的字符串進(jìn)行比較是否匹配,若匹配,則進(jìn)行過濾替換操作。第二步,將該敏感詞轉(zhuǎn)換為繁體,再與文本內(nèi)容的字符串進(jìn)行比較是否匹配,若匹配,則進(jìn)行過濾替換操作。第三步,將該敏感詞轉(zhuǎn)換為拼音,再與文本內(nèi)容的字符串進(jìn)行比較是否匹配,若匹配,則進(jìn)行過濾替換操作。

關(guān)鍵代碼如下:

5小結(jié)

該文研究和設(shè)計(jì)的系統(tǒng)采用了關(guān)鍵詞匹配技術(shù),對(duì)文本內(nèi)容中出現(xiàn)頻率較高的敏感詞優(yōu)先分析過濾,再根據(jù)待檢測(cè)的文本內(nèi)容中首個(gè)出現(xiàn)的敏感詞,對(duì)該敏感詞類型進(jìn)行深度的分析過濾,提高對(duì)不良信息內(nèi)容過濾的精確度。

參考文獻(xiàn):

[1]Sung-HyukC,SargurN.Afastnearestneighborsearchalgorithmbyfiltration[J].PatternRecognition,2002(3):76-79.

[2]CavnarWB.Usingann-gram-baseddocumentrepresentationwithavectorprocessingretrievalmodel[J].TREC-3,1994(1):48-50.

猜你喜歡
詞庫拼音文本
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
詞庫音系學(xué)的幾個(gè)理論問題芻議
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
快樂拼音
快樂拼音
快樂拼音
哭泣的拼音
環(huán)境變了,詞庫別變
電腦迷(2014年14期)2014-04-29 00:44:03
如何快速走進(jìn)文本
陆丰市| 太仆寺旗| 夹江县| 庆阳市| 西昌市| 邹平县| 承德市| 吉木萨尔县| 松潘县| 买车| 肇源县| 沙坪坝区| 丰原市| 无极县| 桐乡市| 舞阳县| 民县| 中阳县| 鹿泉市| 南京市| 闸北区| 怀安县| 和静县| 宜宾市| 龙岩市| 萨嘎县| 江永县| 财经| 中方县| 连山| 长泰县| 临夏县| 土默特左旗| 祥云县| 阿城市| 陆河县| 波密县| 萨迦县| 芦山县| 招远市| 江西省|