網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)機(jī)制研究綜述

2010-08-15 00:42林向陽

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2010年1期

林向陽

中國移動(dòng)通信集團(tuán)福建有限公司福州分公司支撐中心福建 350001

0 引言

互聯(lián)網(wǎng)的快速發(fā)展使得人們可以很方便的獲得各種信息，與此同時(shí)，抵御互聯(lián)網(wǎng)上的反動(dòng)、淫穢或色情等有害信息的思想文化滲透成了一個(gè)迫切需要解決的問題。如何監(jiān)管和控制這些有害信息，使之不會(huì)對互聯(lián)網(wǎng)和國家社會(huì)造成危害，是一個(gè)頗具研究價(jià)值的課題。

互聯(lián)網(wǎng)上主要有兩類有害信息：一類是反動(dòng)、色情、迷信、謾罵和機(jī)密等有礙社會(huì)公德和不便公開的信息；另一類是會(huì)影響互聯(lián)網(wǎng)本身和用戶計(jì)算機(jī)安全的不良代碼，如特殊控制、計(jì)算機(jī)病毒等。

1 網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)研究

網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)機(jī)制主要有主動(dòng)發(fā)現(xiàn)和被動(dòng)防御兩種方式。主動(dòng)發(fā)現(xiàn)的方式主要有基于搜索引擎的有害信息主動(dòng)監(jiān)測，被動(dòng)防御的方式以網(wǎng)絡(luò)內(nèi)容過濾為主。

1.1 基于搜索引擎的有害信息主動(dòng)監(jiān)測技術(shù)

采用主動(dòng)掃描探測方法進(jìn)行有害信息監(jiān)控的系統(tǒng)，首先要設(shè)計(jì)網(wǎng)絡(luò)蜘蛛模塊，實(shí)現(xiàn)對html、asp、php和jsp等網(wǎng)頁的自動(dòng)抓取，采用算法實(shí)現(xiàn)中文分詞，開發(fā)信息索引模塊，實(shí)現(xiàn)對網(wǎng)頁的批量和增量索引，并且包含有害信息檢索模塊，實(shí)現(xiàn)有害信息監(jiān)控及預(yù)警功能。

搜索引擎，概括起來其組成大致分為四個(gè)部分：

（1）搜索器。主要完成互聯(lián)網(wǎng)上獲取網(wǎng)頁和鏈接結(jié)構(gòu)信息進(jìn)行分析處理；

（2）索引器。理解搜索器所搜索的信息，從中抽取出索引項(xiàng)，用于表示文檔以及生成文檔庫的索引表，為用戶檢索奠定基礎(chǔ)。索引器可以使用集中式索引算法或分布式索引算法；

（3）檢索器。用戶的查詢在索引庫中快速檢出文檔，進(jìn)行文檔與查詢的相關(guān)度評價(jià)，對將要輸出的結(jié)果進(jìn)行排序，并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制；

（4）用戶接口。主要作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要目的是方便用戶使用搜索引擎，高效率和多方式地從搜索引擎中得到有效并且及時(shí)的信息。

1.2 內(nèi)容過濾技術(shù)

內(nèi)容過濾技術(shù)一般包括名單過濾技術(shù)、關(guān)鍵詞過濾技術(shù)、圖像過濾技術(shù)、模版過濾技術(shù)和智能過濾技術(shù)等。

現(xiàn)階段的內(nèi)容過濾技術(shù)主要分為基于網(wǎng)關(guān)和基于代理兩種，二者都不能解決的問題是對網(wǎng)絡(luò)速度的負(fù)面影響。而且因?yàn)槭谴刑幚恚绻W(wǎng)關(guān)和代理出現(xiàn)故障都會(huì)使網(wǎng)絡(luò)不通。

目前過濾技術(shù)大多在網(wǎng)絡(luò)處理的應(yīng)用層實(shí)現(xiàn)，適應(yīng)性和安全性較差。基于網(wǎng)絡(luò)層的實(shí)現(xiàn)，最大的挑戰(zhàn)有兩個(gè)方面：首先，應(yīng)用層分析技術(shù)必須全面，因?yàn)橹苯訉W(wǎng)絡(luò)包進(jìn)行應(yīng)用層分析，需要充分了解需要過濾的所有應(yīng)用在網(wǎng)絡(luò)層是如何實(shí)現(xiàn)的。其次，是實(shí)現(xiàn)兼容性，為實(shí)現(xiàn)與操作系統(tǒng)網(wǎng)絡(luò)底層處理融合，需要充分了解操作系統(tǒng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)制，甚至替代部分功能，如何不影響操作系統(tǒng)的原有功能是相當(dāng)困難的，特別是在Windows環(huán)境缺乏底層資料的情況下。

1.3 有害信息監(jiān)測的核心技術(shù)

有害信息監(jiān)測的核心技術(shù)包括分詞技術(shù)、文本內(nèi)容分類、關(guān)鍵字識(shí)別、變形關(guān)鍵字識(shí)別、錨文本分析、有害代碼特征識(shí)別等。

1.3.1 分詞技術(shù)

對網(wǎng)頁進(jìn)行監(jiān)測時(shí)需要進(jìn)行特征項(xiàng)的提取。對于英文文本，一般是進(jìn)行詞匯的提取，由于詞匯之間有天然的分隔符(空格)，所以特征項(xiàng)的提取比較容易。中文信息沒有這個(gè)特點(diǎn)，所以必須采用中文分詞技術(shù)，把沒有詞匯標(biāo)示的中文句子，通過某種特殊的技術(shù)切分出詞匯。現(xiàn)有的分詞算法可分為三大類：基于字符串匹配的分詞方法(機(jī)械分詞方法)、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法?；谧址ヅ涞姆衷~方法也稱為基于詞典的分詞方法是目前三種分詞方法中最快的。影響這種方法分詞速度的因素主要有兩點(diǎn)：詞典的結(jié)構(gòu)以及匹配算法。

1.3.2 文本內(nèi)容分類

文本內(nèi)容分類是一個(gè)廣泛研究的課題，它的任務(wù)是把一篇文章分類到一些預(yù)定義的類型中。在對網(wǎng)頁進(jìn)行監(jiān)測時(shí)可以通過文本分類的方法，把網(wǎng)頁分為有害信息網(wǎng)頁和普通信息網(wǎng)頁?，F(xiàn)有的文本分類方法有支持向量機(jī)(SVM)、決策樹、Nearest neighbor、algorithm等。這些訓(xùn)練過程的基本思路都是從文章中抽取出一些特征關(guān)鍵詞，根據(jù)這些關(guān)鍵詞在文章中的出現(xiàn)次數(shù)對文章進(jìn)行向量化之后進(jìn)行訓(xùn)練。

1.3.3 關(guān)鍵字識(shí)別

1.3.4 變形關(guān)鍵字識(shí)別

為了逃避過濾，不法分子會(huì)故意將留言中的關(guān)鍵字進(jìn)行適當(dāng)變形后進(jìn)行提交。關(guān)鍵字常用的變形方法有同音字法、拼音法、字詞顛倒法、字詞間加其它字符串、以及多種變形混用法等。

由于關(guān)鍵字特征被完全打亂，基本上找不到可以匹配的關(guān)鍵字。因此首先根據(jù)關(guān)鍵詞識(shí)別的情況，就可以判斷出屬于此類問題。然后只要采用矩陣的轉(zhuǎn)秩算法就可以將這段文字恢復(fù)回正常的順序，最后再進(jìn)行過濾。

1.3.5 錨文本分析

每一個(gè)超級(jí)鏈接都有一個(gè)描述文本即錨文本，這個(gè)文本反映了該網(wǎng)頁與該鏈接所至網(wǎng)頁的某種關(guān)系，是互聯(lián)的關(guān)鍵所在。通過分析這個(gè)描述文本，就可以得到網(wǎng)頁之間重要的關(guān)系。導(dǎo)向詞是一組關(guān)鍵詞，它們會(huì)引導(dǎo)搜索器按照一定順序搜索網(wǎng)絡(luò)。通過設(shè)置導(dǎo)向詞以及對應(yīng)的權(quán)值，錨文本中含有導(dǎo)向詞的網(wǎng)頁會(huì)被優(yōu)先進(jìn)行信息采集。權(quán)值的設(shè)定有根據(jù)經(jīng)驗(yàn)手工設(shè)定和采用程序進(jìn)行特征提取兩種方法。

1.3.6 有害代碼特征識(shí)別

網(wǎng)絡(luò)上除了有礙社會(huì)公德的有害信息外，還存在影響互聯(lián)網(wǎng)本身和用戶計(jì)算機(jī)安全的不良代碼，如特殊控制、計(jì)算機(jī)病毒等。計(jì)算機(jī)病毒等可以通過各類防火墻的殺毒模塊進(jìn)行查殺，而在網(wǎng)絡(luò)論壇上可以通過BBS提交的惡意代碼，則是網(wǎng)絡(luò)過濾的重點(diǎn)。

基于瀏覽器的BBS不僅能發(fā)表文字信息，而且還能在信息中加入超文本代碼。如果這些超文本代碼含有有害指令，輕則會(huì)使用戶顯示異常，重則會(huì)傳播病毒，甚至?xí)诳蛻魴C(jī)上安裝木馬程序等。因此需要過濾掉發(fā)言信息中有害的代碼。

（1）可執(zhí)行代碼的過濾

2.5 兩組手術(shù)前后CSI及BSI比較術(shù)前，兩組CSI及BSI比較，差異無統(tǒng)計(jì)學(xué)意義(P>0.05)；術(shù)后，兩組CSI及BSI均下降，組間比較差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。見表5。

HTML是一種標(biāo)記語言，即在普通文本中插入一些標(biāo)記(Tag)來控制文本的顯示屬性。通常HTML本身不具有執(zhí)行程序的功能，但HTML支持插入功能各異的ActiveX控件，如一般的客戶端瀏覽器就支持非常流行的VbScript腳本語言和Java.Script腳本語言。為使調(diào)用Script腳本語言的代碼失效，可以用“<”代替“＜”。因?yàn)椤?lt;”是“＜”的轉(zhuǎn)定義字符，瀏覽器在解釋“<”時(shí)會(huì)把它當(dāng)作“＜”來處理，但它這時(shí)不會(huì)把“＜”作控制符看，而只是把它當(dāng)作顯示字符。為避免大小寫混寫的“＜Script>”查不出來，可使用Lcase()函數(shù)先把字符串變成小寫再查，這樣就限制了“＜Script>”后面的腳本程序的執(zhí)行，同時(shí)將代碼顯示出來。

（2）貼圖代碼的過濾

在BBS中，文字可使用過濾的方法進(jìn)行處理，圖像信息和視頻信息目前卻無好的解決辦法。通常的做法是在BBS中禁用貼圖和加視頻流的代碼。在HTML中，除了正常的貼圖指令＜IMG SRC=“…”>以外，還有很多可以貼圖的非正規(guī)指令，也必須一一找出來加以過濾。

（3）其它代碼的過濾

除上述代碼外，還有一些代碼如果出現(xiàn)在BBS中，也有可能造成危害，因而需要在過濾程序中將這些代碼過濾掉，如包含頁代碼＜IFRAME>＜／IFRAME>，可以在頁面中插入任何其它頁面；自動(dòng)跳轉(zhuǎn)頁面代碼＜meta http-equiv=“refresh”content=“3；url=http://……/newpage.htm”>可以將頁面從當(dāng)前頁跳轉(zhuǎn)到任何頁面。如果包含頁或跳轉(zhuǎn)頁面含有有害信息，則客戶機(jī)同樣將受到危害。因此這兩條指令也是需要過濾掉的。一般來說，在BBS中需要過濾掉的代碼有＜img，background，＜embed，＜input，＜iframe，＜o(jì)bject，＜applet，＜script，＜meta等。

2 結(jié)論

網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)和處置方面還有很多研究工作要做，以下幾方面值得考慮：

（1）為提高信息查找的準(zhǔn)確性，還需要進(jìn)一步研究采用語法和語義分析，自然語言理解等技術(shù)；為了提高信息獲取的效率，更好的適應(yīng)網(wǎng)上各種機(jī)器環(huán)境，還需要進(jìn)一步研究采用分布式的多智能體系統(tǒng)協(xié)同工作。

（2）現(xiàn)有的面向互聯(lián)網(wǎng)上的智能檢測還不能令人滿意地解決中文信息的查詢問題，還有必要在漢語分詞、漢語的信息提取和理解等方面進(jìn)行研究，以期獲得更為理想的監(jiān)控過濾效果。

（3）內(nèi)容過濾技術(shù)最終的發(fā)展方向必然是實(shí)時(shí)、準(zhǔn)確、智能地進(jìn)行內(nèi)容分類。中文的詞義／語義分析和圖形的識(shí)別需要進(jìn)一步研究和實(shí)用化。

（4）基于高層協(xié)議解析的入侵檢測是未來的入侵檢測技術(shù)方向。

（5）由于HTML語言特點(diǎn)，使得Web信息的組織結(jié)構(gòu)性很差，如何利用XML語言更有效地實(shí)現(xiàn)對Web有害信息的挖掘，是值得研究的方向。

未來的研究需要把網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)與各類網(wǎng)絡(luò)安全技術(shù)結(jié)合起來，創(chuàng)造出更加安全、更加干凈的互聯(lián)網(wǎng)絡(luò)環(huán)境。

[1] 王艷華.一種基于人工神經(jīng)網(wǎng)絡(luò)的有害信息實(shí)時(shí)動(dòng)態(tài)監(jiān)測系統(tǒng)模型及其實(shí)現(xiàn).燕山大學(xué)學(xué)報(bào).2004.

[2] 張曉梅,蘇斌,王竹林,楊柳.基于搜索引擎的有害信息監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).鐵路計(jì)算機(jī)應(yīng)用.2007.

[3] 黃東平,田芳.BBS信息過濾技術(shù)研究.長江大學(xué)學(xué)報(bào)(自然科學(xué)版).2004.

[4] 劉宗仁.網(wǎng)上內(nèi)容過濾技術(shù)的現(xiàn)狀及面臨的問題.現(xiàn)代情報(bào).2005.

[5] 唐文榮.網(wǎng)絡(luò)有害信息識(shí)別和控制技術(shù).西安交通大學(xué)碩士學(xué)位論文.2003.

[6] 宋治國.數(shù)據(jù)挖掘在Internet有害信息過濾中的應(yīng)用.山東師范大學(xué)碩士學(xué)位論文.2006.

[7] 馬驪.基于搜索引擎技術(shù)的警情信息搜集系統(tǒng)的研究與實(shí)現(xiàn).山東大學(xué)碩士學(xué)位論文.2006.