鄒嵐 徐芳
摘要:該文設(shè)計(jì)的文本內(nèi)容信息過濾系統(tǒng)使用PHP開發(fā)設(shè)計(jì),做為PHP網(wǎng)站的一個(gè)功能接口,該系統(tǒng)主要功能有:后臺(tái)管理、非法信息過濾、遠(yuǎn)程頁面檢測(cè)和自動(dòng)安裝等。系統(tǒng)方便了網(wǎng)站管理員對(duì)詞庫、檢測(cè)日志報(bào)告等信息的管理,同時(shí)系統(tǒng)自動(dòng)檢測(cè)網(wǎng)站信息內(nèi)容并過濾其中的不良信息,大大提高了網(wǎng)站管理員審核文章等信息內(nèi)容的速度和效率。該文研究與設(shè)計(jì)的系統(tǒng)在一定程度上抑制了非法信息在網(wǎng)絡(luò)上的傳播,凈化了網(wǎng)絡(luò)環(huán)境,為網(wǎng)絡(luò)用戶提供了一個(gè)良好健康的信息資源環(huán)境。
關(guān)鍵詞:文本;信息過濾;敏感詞
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)34-8187-05
1概述
隨著互聯(lián)網(wǎng)的發(fā)展,人們享受網(wǎng)絡(luò)技術(shù)帶來的美好生活,同時(shí)也使某些不法分子通過網(wǎng)絡(luò)傳送非法信息。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和應(yīng)用,網(wǎng)上色情、暴力、反動(dòng)等不良信息時(shí)有傳播,而且有泛濫的趨勢(shì),因此,網(wǎng)絡(luò)信息安全值得大家去關(guān)注和研究。在此背景下,為了濾除網(wǎng)絡(luò)文本內(nèi)容中的不良信息,減少不良信息在網(wǎng)絡(luò)中傳播,為網(wǎng)絡(luò)用戶提供一個(gè)良好健康的信息資源環(huán)境,就需要建立一個(gè)高效的信息過濾系統(tǒng),對(duì)信息發(fā)布者所發(fā)布的信息內(nèi)容進(jìn)行分析過濾,濾除其中的不良信息內(nèi)容。該文主要是研究與設(shè)計(jì)文本內(nèi)容信息過濾系統(tǒng),使用PHP開發(fā),該系統(tǒng)做為PHP網(wǎng)站的一個(gè)功能接口,對(duì)信息發(fā)布者發(fā)表的評(píng)論、文章內(nèi)容等信息進(jìn)行監(jiān)控,通過信息過濾系統(tǒng)分析,過濾其中出現(xiàn)的不良信息,再將過濾后的信息內(nèi)容返回給網(wǎng)站,最后網(wǎng)站再將信息發(fā)布。該文對(duì)文本內(nèi)容信息過濾技術(shù)進(jìn)行研究,凈化網(wǎng)絡(luò)文本信息,為網(wǎng)絡(luò)用戶提供一個(gè)良好健康的信息資源,就需要建立一個(gè)高效的信息過濾系統(tǒng),對(duì)信息發(fā)布者的信息進(jìn)行分析過濾。該文在理論研究的基礎(chǔ)上,設(shè)計(jì)了一個(gè)文本內(nèi)容信息過濾系統(tǒng),并應(yīng)用于中小型網(wǎng)站,獲取用戶發(fā)表的評(píng)論、文章等內(nèi)容信息,通過信息過濾系統(tǒng)分析,過濾文中出現(xiàn)的不良信息,再將信息返回給網(wǎng)站,網(wǎng)站再將信息發(fā)布。
2系統(tǒng)功能需求
文本內(nèi)容信息過濾系統(tǒng)對(duì)網(wǎng)站信息發(fā)布、公眾信息公開申請(qǐng)和網(wǎng)站留言等模塊內(nèi)容實(shí)現(xiàn)提交時(shí)的自動(dòng)過濾處理,發(fā)現(xiàn)有謾罵、誹謗、等非法言論進(jìn)行自動(dòng)過濾,并給用戶友好的提示,同時(shí)向管理員提交報(bào)告。從而大大提高了審核速度和效率。使用PHP開發(fā)設(shè)計(jì)文本內(nèi)容信息過濾系統(tǒng),該系統(tǒng)可將文本內(nèi)容中的有害信息濾除,并可對(duì)已經(jīng)發(fā)表的文章內(nèi)容進(jìn)行檢測(cè),得出檢測(cè)結(jié)果,通知管理員對(duì)該文章進(jìn)行相應(yīng)的操作,如修改或刪除操作。信息過濾流程如圖1所示。
(1)數(shù)據(jù)庫設(shè)計(jì)
使用MySQL數(shù)據(jù)庫,設(shè)計(jì)結(jié)構(gòu)清晰,方便管理的詞庫表、用戶表與日志表等,詞庫表中包含了敏感詞名、敏感詞、詞類別等信息。用戶表中包含了用戶名、用戶密碼、用戶類別信息。日志表則包含了檢測(cè)結(jié)果、URL地址、原文章內(nèi)容。
(2)中文簡體轉(zhuǎn)繁體功能
MySQL數(shù)據(jù)庫字符集設(shè)置的為GBK格式,敏感詞為簡體。而在用戶發(fā)表文章時(shí),文章內(nèi)容信息往往含有繁體敏感詞。在對(duì)用戶發(fā)表文章中的文本內(nèi)容,進(jìn)行信息過濾時(shí),需要進(jìn)行敏感詞的簡繁轉(zhuǎn)換,提高信息過濾的準(zhǔn)確性。中文簡體轉(zhuǎn)繁體流程如圖2所示。
(3)中文轉(zhuǎn)換拼音功能
許多敏感詞都以拼音字母的形式出現(xiàn)在各個(gè)文章中,中文轉(zhuǎn)換拼音的功能應(yīng)用到文本內(nèi)容信息過濾系統(tǒng)中,可以有效地濾除文章中的有害敏感詞信息,使得過濾有害信息更加精確。中文轉(zhuǎn)拼音流程如圖3所示。
3系統(tǒng)設(shè)計(jì)
本系統(tǒng)整體上包括四大模塊:后臺(tái)管理模塊、信息過濾模塊、頁面檢測(cè)模塊和自動(dòng)安裝模塊。后臺(tái)管理模塊為管理員提供一個(gè)管理敏感詞庫、用戶管理、權(quán)限管理等操作后臺(tái)。信息過濾模塊為本系統(tǒng)的核心模塊,將文本內(nèi)容的敏感詞進(jìn)行分析,過濾文本內(nèi)容中的非法詞匯。頁面檢測(cè)模塊是檢測(cè)遠(yuǎn)程URL地址,提取網(wǎng)頁源碼,分析其中的文本內(nèi)容濾除有害信息。自動(dòng)安裝模塊是對(duì)系統(tǒng)進(jìn)行配置,如數(shù)據(jù)庫連接信息,創(chuàng)建系統(tǒng)管理員,并生成配置文件。文本內(nèi)容信息過濾系統(tǒng)結(jié)構(gòu)如圖4所示。
3.1后臺(tái)管理設(shè)計(jì)
本系統(tǒng)為管理員設(shè)計(jì)一個(gè)友好、簡潔、功能完善的后臺(tái)管理,管理員能夠進(jìn)行用戶的管理,詞庫的管理,對(duì)詞庫中數(shù)據(jù)可增加、刪除、修改、查詢等操作以及權(quán)限管理。
3.2信息過濾模塊設(shè)計(jì)
信息過濾模塊包括了簡繁轉(zhuǎn)換,中文轉(zhuǎn)拼音與信息過濾,喜好詞生成等功能。能夠?qū)τ脩舭l(fā)表的文章中的不法信息進(jìn)行濾除,對(duì)用戶所搜索的關(guān)鍵詞進(jìn)行分析,智能生成喜好詞,方便用戶搜索自己感興趣的信息。
3.3頁面檢測(cè)模塊設(shè)計(jì)
頁面檢測(cè)模塊用于檢測(cè)未經(jīng)過信息系統(tǒng)過濾已發(fā)布的文章或評(píng)論,可對(duì)多頁面檢測(cè),并將檢測(cè)結(jié)果入庫,得出分析報(bào)告,管理員根據(jù)報(bào)告內(nèi)容,可對(duì)原URL文章的內(nèi)容進(jìn)行修改或者刪除操作。
3.4自動(dòng)安裝設(shè)計(jì)
自動(dòng)安裝模塊是用于對(duì)系統(tǒng)進(jìn)行全新安裝,進(jìn)行三個(gè)步驟安裝。第一步:填寫系統(tǒng)配置信息,生成配置文件。第二步:創(chuàng)建系統(tǒng)管理員。第三步:創(chuàng)建系統(tǒng)數(shù)據(jù)庫,包含了系統(tǒng)敏感詞庫。
3.5數(shù)據(jù)庫表
本系統(tǒng)針對(duì)系統(tǒng)功能的分析,設(shè)計(jì)了5張表:用戶表、角色分類表、敏感詞表、敏感詞分類表和日志報(bào)告表。對(duì)系統(tǒng)表的設(shè)計(jì)滿足了第三范式,消除了多值依賴和傳遞依賴。
4關(guān)鍵模塊的實(shí)現(xiàn)
4.1簡體轉(zhuǎn)繁體模塊
通過簡體轉(zhuǎn)繁體功能,可以將簡體轉(zhuǎn)換為繁體。當(dāng)用戶發(fā)表的文章或評(píng)論內(nèi)容含有繁體敏感詞時(shí),信息過濾系統(tǒng)也應(yīng)分析文本內(nèi)容中的繁體敏感詞。本系統(tǒng)采用對(duì)文本內(nèi)容進(jìn)行分析時(shí),將詞庫中的簡體敏感詞轉(zhuǎn)換為繁體,繁體敏感詞不需要存儲(chǔ)在數(shù)據(jù)庫中,從而減少詞庫的容量。
簡體轉(zhuǎn)繁體函數(shù)實(shí)現(xiàn)代碼如下:
4.2中文轉(zhuǎn)拼音模塊
中文轉(zhuǎn)拼音功能是將中文轉(zhuǎn)換為拼音字母形式。目前,很多用戶發(fā)表的文章中往往含有以拼音字母形式出現(xiàn)的敏感詞。若是將敏感詞的拼音也存入數(shù)據(jù)庫中,這會(huì)增大詞庫的容量。本系統(tǒng)采用在對(duì)文本內(nèi)容分析時(shí),對(duì)其中的拼音形式出現(xiàn)的敏感詞,先將中文轉(zhuǎn)換為拼音形式,再進(jìn)行分析過濾操作。
關(guān)鍵代碼如下:
4.3信息過濾模塊
信息過濾模塊用于過濾文本內(nèi)容中的敏感詞。通過將文本內(nèi)容中的字符串與詞庫中的敏感詞進(jìn)行比較是否匹配,若匹配,則進(jìn)行過濾替換操作,當(dāng)文本內(nèi)容分析過濾完畢,計(jì)算文本內(nèi)容中所有敏感詞的敏感值總和,當(dāng)該值大于等于過濾閥值時(shí),改文本內(nèi)容不予發(fā)布。
信息過濾模塊的設(shè)計(jì)思想:第一步,取出詞庫中第一個(gè)敏感詞,與文本內(nèi)容的字符串進(jìn)行比較是否匹配,若匹配,則進(jìn)行過濾替換操作。第二步,將該敏感詞轉(zhuǎn)換為繁體,再與文本內(nèi)容的字符串進(jìn)行比較是否匹配,若匹配,則進(jìn)行過濾替換操作。第三步,將該敏感詞轉(zhuǎn)換為拼音,再與文本內(nèi)容的字符串進(jìn)行比較是否匹配,若匹配,則進(jìn)行過濾替換操作。
關(guān)鍵代碼如下:
5小結(jié)
該文研究和設(shè)計(jì)的系統(tǒng)采用了關(guān)鍵詞匹配技術(shù),對(duì)文本內(nèi)容中出現(xiàn)頻率較高的敏感詞優(yōu)先分析過濾,再根據(jù)待檢測(cè)的文本內(nèi)容中首個(gè)出現(xiàn)的敏感詞,對(duì)該敏感詞類型進(jìn)行深度的分析過濾,提高對(duì)不良信息內(nèi)容過濾的精確度。
參考文獻(xiàn):
[1]Sung-HyukC,SargurN.Afastnearestneighborsearchalgorithmbyfiltration[J].PatternRecognition,2002(3):76-79.
[2]CavnarWB.Usingann-gram-baseddocumentrepresentationwithavectorprocessingretrievalmodel[J].TREC-3,1994(1):48-50.