国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)機(jī)制研究綜述

2010-08-15 00:42林向陽
關(guān)鍵詞:有害信息關(guān)鍵字分詞

林向陽

中國移動(dòng)通信集團(tuán)福建有限公司福州分公司支撐中心 福建 350001

0 引言

互聯(lián)網(wǎng)的快速發(fā)展使得人們可以很方便的獲得各種信息,與此同時(shí),抵御互聯(lián)網(wǎng)上的反動(dòng)、淫穢或色情等有害信息的思想文化滲透成了一個(gè)迫切需要解決的問題。如何監(jiān)管和控制這些有害信息,使之不會(huì)對互聯(lián)網(wǎng)和國家社會(huì)造成危害,是一個(gè)頗具研究價(jià)值的課題。

互聯(lián)網(wǎng)上主要有兩類有害信息:一類是反動(dòng)、色情、迷信、謾罵和機(jī)密等有礙社會(huì)公德和不便公開的信息;另一類是會(huì)影響互聯(lián)網(wǎng)本身和用戶計(jì)算機(jī)安全的不良代碼,如特殊控制、計(jì)算機(jī)病毒等。

1 網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)研究

網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)機(jī)制主要有主動(dòng)發(fā)現(xiàn)和被動(dòng)防御兩種方式。主動(dòng)發(fā)現(xiàn)的方式主要有基于搜索引擎的有害信息主動(dòng)監(jiān)測,被動(dòng)防御的方式以網(wǎng)絡(luò)內(nèi)容過濾為主。

1.1 基于搜索引擎的有害信息主動(dòng)監(jiān)測技術(shù)

采用主動(dòng)掃描探測方法進(jìn)行有害信息監(jiān)控的系統(tǒng),首先要設(shè)計(jì)網(wǎng)絡(luò)蜘蛛模塊,實(shí)現(xiàn)對html、asp、php和jsp等網(wǎng)頁的自動(dòng)抓取,采用算法實(shí)現(xiàn)中文分詞,開發(fā)信息索引模塊,實(shí)現(xiàn)對網(wǎng)頁的批量和增量索引,并且包含有害信息檢索模塊,實(shí)現(xiàn)有害信息監(jiān)控及預(yù)警功能。

搜索引擎,概括起來其組成大致分為四個(gè)部分:

(1)搜索器。主要完成互聯(lián)網(wǎng)上獲取網(wǎng)頁和鏈接結(jié)構(gòu)信息進(jìn)行分析處理;

(2)索引器。理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表,為用戶檢索奠定基礎(chǔ)。索引器可以使用集中式索引算法或分布式索引算法 ;

(3)檢索器。用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價(jià),對將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制;

(4)用戶接口。主要作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要目的是方便用戶使用搜索引擎,高效率和多方式地從搜索引擎中得到有效并且及時(shí)的信息。

1.2 內(nèi)容過濾技術(shù)

內(nèi)容過濾技術(shù)一般包括名單過濾技術(shù)、關(guān)鍵詞過濾技術(shù)、圖像過濾技術(shù)、模版過濾技術(shù)和智能過濾技術(shù)等。

現(xiàn)階段的內(nèi)容過濾技術(shù)主要分為基于網(wǎng)關(guān)和基于代理兩種,二者都不能解決的問題是對網(wǎng)絡(luò)速度的負(fù)面影響。而且因?yàn)槭谴刑幚恚绻W(wǎng)關(guān)和代理出現(xiàn)故障都會(huì)使網(wǎng)絡(luò)不通。

目前過濾技術(shù)大多在網(wǎng)絡(luò)處理的應(yīng)用層實(shí)現(xiàn),適應(yīng)性和安全性較差。基于網(wǎng)絡(luò)層的實(shí)現(xiàn),最大的挑戰(zhàn)有兩個(gè)方面:首先,應(yīng)用層分析技術(shù)必須全面, 因?yàn)橹苯訉W(wǎng)絡(luò)包進(jìn)行應(yīng)用層分析,需要充分了解需要過濾的所有應(yīng)用在網(wǎng)絡(luò)層是如何實(shí)現(xiàn)的。其次,是實(shí)現(xiàn)兼容性,為實(shí)現(xiàn)與操作系統(tǒng)網(wǎng)絡(luò)底層處理融合,需要充分了解操作系統(tǒng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)制,甚至替代部分功能,如何不影響操作系統(tǒng)的原有功能是相當(dāng)困難的,特別是在Windows環(huán)境缺乏底層資料的情況下。

1.3 有害信息監(jiān)測的核心技術(shù)

有害信息監(jiān)測的核心技術(shù)包括分詞技術(shù)、文本內(nèi)容分類、關(guān)鍵字識(shí)別、變形關(guān)鍵字識(shí)別、錨文本分析、有害代碼特征識(shí)別等。

1.3.1 分詞技術(shù)

對網(wǎng)頁進(jìn)行監(jiān)測時(shí)需要進(jìn)行特征項(xiàng)的提取。對于英文文本,一般是進(jìn)行詞匯的提取, 由于詞匯之間有天然的分隔符(空格),所以特征項(xiàng)的提取比較容易。中文信息沒有這個(gè)特點(diǎn),所以必須采用中文分詞技術(shù),把沒有詞匯標(biāo)示的中文句子,通過某種特殊的技術(shù)切分出詞匯。現(xiàn)有的分詞算法可分為三大類 :基于字符串匹配的分詞方法(機(jī)械分詞方法)、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法?;谧址ヅ涞姆衷~方法也稱為基于詞典的分詞方法是目前三種分詞方法中最快的。影響這種方法分詞速度的因素主要有兩點(diǎn):詞典的結(jié)構(gòu)以及匹配算法。

1.3.2 文本內(nèi)容分類

文本內(nèi)容分類是一個(gè)廣泛研究的課題,它的任務(wù)是把一篇文章分類到一些預(yù)定義的類型中。在對網(wǎng)頁進(jìn)行監(jiān)測時(shí)可以通過文本分類的方法,把網(wǎng)頁分為有害信息網(wǎng)頁和普通信息網(wǎng)頁?,F(xiàn)有的文本分類方法有支持向量機(jī)(SVM)、決策樹、Nearest neighbor、algorithm等。這些訓(xùn)練過程的基本思路都是從文章中抽取出一些特征關(guān)鍵詞,根據(jù)這些關(guān)鍵詞在文章中的出現(xiàn)次數(shù)對文章進(jìn)行向量化之后進(jìn)行訓(xùn)練。

1.3.3 關(guān)鍵字識(shí)別

1.3.4 變形關(guān)鍵字識(shí)別

為了逃避過濾,不法分子會(huì)故意將留言中的關(guān)鍵字進(jìn)行適當(dāng)變形后進(jìn)行提交。關(guān)鍵字常用的變形方法有同音字法、拼音法、字詞顛倒法、字詞間加其它字符串、以及多種變形混用法等。

由于關(guān)鍵字特征被完全打亂,基本上找不到可以匹配的關(guān)鍵字。因此首先根據(jù)關(guān)鍵詞識(shí)別的情況,就可以判斷出屬于此類問題。然后只要采用矩陣的轉(zhuǎn)秩算法就可以將這段文字恢復(fù)回正常的順序,最后再進(jìn)行過濾。

1.3.5 錨文本分析

每一個(gè)超級(jí)鏈接都有一個(gè)描述文本即錨文本,這個(gè)文本反映了該網(wǎng)頁與該鏈接所至網(wǎng)頁的某種關(guān)系,是互聯(lián)的關(guān)鍵所在。通過分析這個(gè)描述文本,就可以得到網(wǎng)頁之間重要的關(guān)系。導(dǎo)向詞是一組關(guān)鍵詞,它們會(huì)引導(dǎo)搜索器按照一定順序搜索網(wǎng)絡(luò)。通過設(shè)置導(dǎo)向詞以及對應(yīng)的權(quán)值,錨文本中含有導(dǎo)向詞的網(wǎng)頁會(huì)被優(yōu)先進(jìn)行信息采集。權(quán)值的設(shè)定有根據(jù)經(jīng)驗(yàn)手工設(shè)定和采用程序進(jìn)行特征提取兩種方法。

1.3.6 有害代碼特征識(shí)別

網(wǎng)絡(luò)上除了有礙社會(huì)公德的有害信息外,還存在影響互聯(lián)網(wǎng)本身和用戶計(jì)算機(jī)安全的不良代碼,如特殊控制、計(jì)算機(jī)病毒等。計(jì)算機(jī)病毒等可以通過各類防火墻的殺毒模塊進(jìn)行查殺,而在網(wǎng)絡(luò)論壇上可以通過BBS提交的惡意代碼,則是網(wǎng)絡(luò)過濾的重點(diǎn)。

基于瀏覽器的BBS不僅能發(fā)表文字信息,而且還能在信息中加入超文本代碼。如果這些超文本代碼含有有害指令,輕則會(huì)使用戶顯示異常,重則會(huì)傳播病毒,甚至?xí)诳蛻魴C(jī)上安裝木馬程序等。因此需要過濾掉發(fā)言信息中有害的代碼。

(1)可執(zhí)行代碼的過濾

2.5 兩組手術(shù)前后CSI及BSI比較 術(shù)前,兩組CSI及BSI比較,差異無統(tǒng)計(jì)學(xué)意義(P>0.05);術(shù)后,兩組CSI及BSI均下降,組間比較差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。見表5。

HTML是一種標(biāo)記語言,即在普通文本中插入一些標(biāo)記(Tag)來控制文本的顯示屬性。通常HTML本身不具有執(zhí)行程序的功能,但HTML支持插入功能各異的ActiveX控件,如一般的客戶端瀏覽器就支持非常流行的VbScript腳本語言和Java.Script腳本語言。為使調(diào)用Script腳本語言的代碼失效,可以用“<”代替“<”。因?yàn)椤?lt;”是“<”的轉(zhuǎn)定義字符,瀏覽器在解釋“<”時(shí)會(huì)把它當(dāng)作“<”來處理,但它這時(shí)不會(huì)把“<”作控制符看,而只是把它當(dāng)作顯示字符。為避免大小寫混寫的“<Script>”查不出來,可使用Lcase()函數(shù)先把字符串變成小寫再查,這樣就限制了“<Script>”后面的腳本程序的執(zhí)行,同時(shí)將代碼顯示出來。

(2)貼圖代碼的過濾

在BBS中,文字可使用過濾的方法進(jìn)行處理,圖像信息和視頻信息目前卻無好的解決辦法。通常的做法是在BBS中禁用貼圖和加視頻流的代碼。在HTML中,除了正常的貼圖指令<IMG SRC=“…”>以外,還有很多可以貼圖的非正規(guī)指令,也必須一一找出來加以過濾。

(3)其它代碼的過濾

除上述代碼外,還有一些代碼如果出現(xiàn)在BBS中,也有可能造成危害,因而需要在過濾程序中將這些代碼過濾掉,如包含頁代碼<IFRAME></IFRAME>,可以在頁面中插入任何其它頁面;自動(dòng)跳轉(zhuǎn)頁面代碼<meta http-equiv=“refresh”content=“3;url=http://……/newpage.htm”>可以將頁面從當(dāng)前頁跳轉(zhuǎn)到任何頁面。如果包含頁或跳轉(zhuǎn)頁面含有有害信息,則客戶機(jī)同樣將受到危害。因此這兩條指令也是需要過濾掉的。一般來說,在BBS中需要過濾掉的代碼有<img,background,<embed,<input,<iframe,<o(jì)bject,<applet,<script,<meta等。

2 結(jié)論

網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)和處置方面還有很多研究工作要做,以下幾方面值得考慮:

(1)為提高信息查找的準(zhǔn)確性,還需要進(jìn)一步研究采用語法和語義分析,自然語言理解等技術(shù);為了提高信息獲取的效率,更好的適應(yīng)網(wǎng)上各種機(jī)器環(huán)境,還需要進(jìn)一步研究采用分布式的多智能體系統(tǒng)協(xié)同工作。

(2)現(xiàn)有的面向互聯(lián)網(wǎng)上的智能檢測還不能令人滿意地解決中文信息的查詢問題,還有必要在漢語分詞、漢語的信息提取和理解等方面進(jìn)行研究,以期獲得更為理想的監(jiān)控過濾效果。

(3)內(nèi)容過濾技術(shù)最終的發(fā)展方向必然是實(shí)時(shí)、準(zhǔn)確、智能地進(jìn)行內(nèi)容分類。中文的詞義/語義分析和圖形的識(shí)別需要進(jìn)一步研究和實(shí)用化。

(4)基于高層協(xié)議解析的入侵檢測是未來的入侵檢測技術(shù)方向。

(5)由于HTML語言特點(diǎn),使得Web信息的組織結(jié)構(gòu)性很差,如何利用XML語言更有效地實(shí)現(xiàn)對Web有害信息的挖掘,是值得研究的方向。

未來的研究需要把網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)與各類網(wǎng)絡(luò)安全技術(shù)結(jié)合起來,創(chuàng)造出更加安全、更加干凈的互聯(lián)網(wǎng)絡(luò)環(huán)境。

[1] 王艷華.一種基于人工神經(jīng)網(wǎng)絡(luò)的有害信息實(shí)時(shí)動(dòng)態(tài)監(jiān)測系統(tǒng)模型及其實(shí)現(xiàn).燕山大學(xué)學(xué)報(bào).2004.

[2] 張曉梅,蘇斌,王竹林,楊柳.基于搜索引擎的有害信息監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).鐵路計(jì)算機(jī)應(yīng)用.2007.

[3] 黃東平,田芳.BBS信息過濾技術(shù)研究.長江大學(xué)學(xué)報(bào)(自然科學(xué)版).2004.

[4] 劉宗仁.網(wǎng)上內(nèi)容過濾技術(shù)的現(xiàn)狀及面臨的問題.現(xiàn)代情報(bào).2005.

[5] 唐文榮.網(wǎng)絡(luò)有害信息識(shí)別和控制技術(shù).西安交通大學(xué)碩士學(xué)位論文.2003.

[6] 宋治國.數(shù)據(jù)挖掘在Internet有害信息過濾中的應(yīng)用.山東師范大學(xué)碩士學(xué)位論文.2006.

[7] 馬驪.基于搜索引擎技術(shù)的警情信息搜集系統(tǒng)的研究與實(shí)現(xiàn).山東大學(xué)碩士學(xué)位論文.2006.

猜你喜歡
有害信息關(guān)鍵字分詞
履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
分詞在英語教學(xué)中的妙用
行政法在治理網(wǎng)絡(luò)有害信息中的作用研究
成功避開“關(guān)鍵字”
上半年利用AI技術(shù)清理有害信息312.2億條
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
行政法在治理網(wǎng)絡(luò)有害信息中的作用研究
網(wǎng)絡(luò)有害信息的類型及治理措施
論英語不定式和-ing分詞的語義傳承