摘要:網(wǎng)絡(luò)安全過濾技術(shù)是保障公眾上網(wǎng)安全的主要技術(shù)。隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,人們在享受便利快捷的服務(wù)的同時,也不斷承受著網(wǎng)絡(luò)病毒、木馬和不良信息的危害。該文將云計算網(wǎng)絡(luò)爬蟲技術(shù)及云服務(wù)模式引入傳統(tǒng)安全過濾系統(tǒng)中,為大范圍用戶網(wǎng)絡(luò)安全訪問提供了一種高效靈活,可持續(xù)發(fā)展的解決方案。
關(guān)鍵詞: 云計算;網(wǎng)絡(luò)爬蟲;信息過濾;不良信息
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)02-0245-02
隨著互聯(lián)網(wǎng)的流行,互聯(lián)網(wǎng)技術(shù)也隨之飛速發(fā)展,社交網(wǎng)絡(luò)(SNS)、網(wǎng)上銀行、電子商務(wù)、多媒體等應(yīng)用服務(wù)在豐富人們工作生活體驗的同時,也帶來了安全隱患。非法內(nèi)容、淫穢圖像、暴力視頻和賭博網(wǎng)站等大量不良信息在網(wǎng)絡(luò)上泛濫,在危害成人身心健康的同時,也對大量青少年網(wǎng)民造成了極大的危害。于是,誕生了各種網(wǎng)絡(luò)不良信息過濾技術(shù)和相應(yīng)的軟件及產(chǎn)品,以用于凈化網(wǎng)絡(luò)環(huán)境。
1 網(wǎng)絡(luò)不良信息過濾技術(shù)發(fā)展現(xiàn)狀
當(dāng)前,網(wǎng)絡(luò)不良信息過濾技術(shù)主要可分為三大類:內(nèi)容分級過濾、網(wǎng)址過濾(IP和URL)和內(nèi)容過濾。
1)內(nèi)容分級過濾
內(nèi)容分級過濾就是對網(wǎng)絡(luò)信息進(jìn)行分類別和等級進(jìn)行過濾的方法,需要預(yù)先按照一定的分級標(biāo)準(zhǔn)對網(wǎng)頁或網(wǎng)站化分類分級,當(dāng)用戶訪問時根據(jù)分級標(biāo)記決定是否能夠訪問。其中分級包括兩種方式:自我分級和第三方分級。自我分級是由網(wǎng)站管理者針對自己網(wǎng)站的內(nèi)容,在不同的向度下給予適當(dāng)?shù)臉?biāo)記,并將等級標(biāo)簽嵌入網(wǎng)頁原始碼或表頭中。第三方分級是由第三方組織機構(gòu)針對網(wǎng)站內(nèi)容給予各向度的分級,分級標(biāo)簽則是透過標(biāo)簽機構(gòu)分發(fā)。用戶在使用時,通過瀏覽器、安全軟件、網(wǎng)絡(luò)安全設(shè)備等方式,下載所需的過濾分級分類檔案,以實現(xiàn)安全上網(wǎng)。內(nèi)容分級過濾方法的優(yōu)點是覆蓋面范圍廣泛,管理成本低,效果較好,有助于簡化互聯(lián)網(wǎng)管理體系。其缺點是自我分級的質(zhì)量難以保證,而第三方分級組織又很難形成規(guī)模和公信力。
2)網(wǎng)址過濾
網(wǎng)址過濾主要是通過對互聯(lián)網(wǎng)信息進(jìn)行分類后,精確地匹配URL和與之對應(yīng)的頁面內(nèi)容,形成一個預(yù)分類網(wǎng)址庫。在用戶訪問網(wǎng)頁時,將要訪問的網(wǎng)址與預(yù)分類網(wǎng)址庫中的網(wǎng)頁地址進(jìn)行對比,以此來判斷該網(wǎng)址是否允許被訪問。通常情況下,需要維護(hù)兩種類型的列表,黑/白名單,由于保存維護(hù),禁止訪問網(wǎng)站和被允許訪問網(wǎng)站的URL。URL地址列表一般由第三方管理者,根據(jù)一定的標(biāo)準(zhǔn)來收集和編制。網(wǎng)址過濾的優(yōu)點是過濾準(zhǔn)確率高、實現(xiàn)簡單、成本低。其缺點是由于互聯(lián)網(wǎng)不良信息資源每天都在不斷的增加和變化,因此URL列表需要不斷的更新和豐富。
3)內(nèi)容過濾
內(nèi)容過濾技術(shù)能較好的動態(tài)辨別文檔圖片等信息的實際含義,其方法類似于信息檢索,往往采用與信息檢索相似的技術(shù),目前已有一些算法主要有:關(guān)鍵詞匹配法、潛在語義索引法、神經(jīng)網(wǎng)絡(luò)法和多媒體信息過濾法等。內(nèi)容過濾的優(yōu)點是可以通過實際語義和圖片等信息過濾不良信息。其缺點是計算量巨大、速度慢、效率低、資源開銷嚴(yán)重,會使用戶網(wǎng)絡(luò)體驗感和網(wǎng)絡(luò)應(yīng)用服務(wù)質(zhì)量嚴(yán)重降低。
上述三種安全過濾方式都具有較好的過濾效果,和比較明顯的缺陷。該文推出一種基于云模式的新型過濾系統(tǒng),通過以上三種方式的混合應(yīng)用,及云計算模式的引入l/LGhtjR+h0/TtAzma3bfw==,依托于安全網(wǎng)關(guān)等安全設(shè)備,可有效保障大范圍用戶訪問網(wǎng)絡(luò)綠色安全。
2 云計算引入安全過濾系統(tǒng)的必要性分析
據(jù)Google調(diào)查,當(dāng)前互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量以每天一億的數(shù)量急速增長。傳統(tǒng)過濾方法已經(jīng)不能夠適應(yīng)當(dāng)前互聯(lián)網(wǎng)的需求。對數(shù)據(jù)存儲和處理要求也已經(jīng)遠(yuǎn)遠(yuǎn)超出了當(dāng)前本地數(shù)據(jù)庫能力。
云計算(Cloud Computing)是在2007年第3季度才誕生的新名詞。它是一種新型商業(yè)計算模型,它將計算分布在大量計算機構(gòu)成的資源池上,使用戶能夠按需獲取技術(shù)力、存儲空間和信息服務(wù)。用戶可以動態(tài)申請部分資源,支持各種應(yīng)用程序的運轉(zhuǎn),無需為繁瑣的細(xì)節(jié)而煩惱,能夠更加專注于自己的業(yè)務(wù),有利于提高效率、降低成本和技術(shù)創(chuàng)新。因此業(yè)界推出了利用數(shù)據(jù)云實現(xiàn)安全過濾的構(gòu)想。
該系統(tǒng)通過數(shù)據(jù)云安全過濾機制,實現(xiàn)基于云技術(shù)的不良信息網(wǎng)站URL收集、分類處理及發(fā)放策略,并不依賴于本地數(shù)據(jù)庫有限的資源進(jìn)行分析與檢測,也不依賴于數(shù)據(jù)庫更新最新的URL分類,利用的是專門的分類服務(wù)器群,根據(jù)實際網(wǎng)絡(luò)的使用與普及方式對網(wǎng)頁內(nèi)容及語義進(jìn)行全面分析后的分類。與傳統(tǒng)的云不同的是,真正做到了云的客戶端自動主動地去云的服務(wù)器端獲取所需的數(shù)據(jù),而不是單純的基于云服務(wù)端的定時推送更新方法。
3 基于云模式的新型過濾系統(tǒng)設(shè)計與實現(xiàn)
該過濾系統(tǒng)分為兩大部分,分別是綜合安全網(wǎng)關(guān)和云過濾平臺,如圖1所示。
圖1 系統(tǒng)結(jié)構(gòu)圖
其中云過濾平臺主要通過基于云計算的網(wǎng)絡(luò)挖掘技術(shù)和網(wǎng)址、分類、關(guān)鍵詞、內(nèi)容等過濾技術(shù)及設(shè)備的部署,實現(xiàn)URL病毒庫、分類庫的建立和運維更新。綜合安全網(wǎng)關(guān),主要部署于用戶網(wǎng)絡(luò)出口處,通過云過濾平臺提供的URL病毒及分類庫,快速實現(xiàn)用戶綠色安全上網(wǎng)的需求。并通過入侵防護(hù)、病毒過濾、反垃圾郵件等功能,實現(xiàn)數(shù)據(jù)的第二輪檢測,并將檢測出了不良或可疑URL等信息,發(fā)送給云端做深度檢測,以實現(xiàn)云端URL病毒、分類庫的不斷更新完善。
4 總結(jié)
本文將云計算中的網(wǎng)絡(luò)挖掘技術(shù),引入了網(wǎng)絡(luò)安全過濾系統(tǒng)中,通過用戶端安全網(wǎng)關(guān)和云端云過濾平臺,兩部分的綜合大范圍部署,既實現(xiàn)了用戶快速安全靈活訪問網(wǎng)絡(luò)資源的需求,又通過云端網(wǎng)絡(luò)挖掘技術(shù)和用戶端提供的最新不良或可疑URL信息豐富了系統(tǒng)URL庫的即時性和針對性,形成了一種良性的循環(huán),促進(jìn)了整體安全系統(tǒng)的不斷更新和完善。而且隨著未來新技術(shù)的發(fā)展,只需在云端應(yīng)用最新過濾技術(shù)及安全設(shè)備,用戶端維持URL庫和分類庫的更新即可。
參考文獻(xiàn):
[1] M.Roesch. Snort: Lightweight Instrusion Detection for Networks[R]. In Proceeding of the 1999 USENIX LISA Systems Administration Conference, November 1999:41-47.
[2] M.Fisk, G.Varghese. An Analysis of Fast String Matching Applied to Content-Based Forwarding and Intrusion Detection[R]. Technical Report CS2001-0670 (updated version), University of California-San Diego, 2002:34-43.
[3] 懷特 (Tom White) , 周傲英, Doug Cutting.Hadoop權(quán)威指南[M].2版.周敏奇,等,譯.北京:清華大學(xué)出版社,2011:170-211.
[4] 禤漢元,陳元琰. 入侵檢測系統(tǒng)中多模式匹配算法的研究與改進(jìn)[J]. 廣西師范大學(xué)計算機科學(xué)與信息工程學(xué)院,2011: 83-111.
[5] 麥克納布(Cbris McNab).網(wǎng)絡(luò)安全評估[M].2版.王景新,譯.北京:中國電力出版社, 2010: 45-167.
[6] 趙炯. Linux內(nèi)核完全注釋修正版[M]. 北京:機械工業(yè)出版社, 2006:79-124.