蘇圣泳,劉 輝
(山東廣電網(wǎng)絡有限公司招遠分公司,招遠 265400)
信息過濾技術(shù)及應用
蘇圣泳,劉輝
(山東廣電網(wǎng)絡有限公司招遠分公司,招遠265400)
本文著重探討網(wǎng)上不良信息的過濾。
信息過濾;分類;技術(shù)應用
信息過濾(information filtering,IF)作為解決網(wǎng)絡信息超載問題而發(fā)展起來的技術(shù)與方法,最初運用于新聞和電子郵件過濾,后來被用于各類信息源過濾。目前,國內(nèi)外關(guān)于信息過濾的研究主要集中在兩個方面:一是不良信息過濾,主要目的在于維護網(wǎng)絡信息的健康,凈化網(wǎng)絡環(huán)境;二是獲取相關(guān)信息過濾,過濾掉無用或不相關(guān)的信息,主要目的在于獲取與用戶需求密切相關(guān)的信息。
不良信息是一個主觀的、相對的概念,同一信息相對于不同的用戶、不同的監(jiān)管者和不同的環(huán)境條件來說,可能會有不同的定位。我國自1996年以來,已經(jīng)制定了20多個涉及互聯(lián)網(wǎng)非法內(nèi)容的法律文件。一般情況下,凡是違背社會主義精神文明建設要求,違背中華民族優(yōu)良文化傳統(tǒng)與習慣,以及其他違背社會公德的各類文字、圖片、音視頻信息都可視為不良信息。
目前,國內(nèi)外的各種不良信息過濾軟件或系統(tǒng),在網(wǎng)頁信息鑒別上主要使用四種過濾技術(shù),即基于因特網(wǎng)內(nèi)容分級平臺過濾(PICS)、數(shù)據(jù)庫過濾(IP庫、URL庫)、關(guān)鍵詞過濾以及基于內(nèi)容理解的過濾。
2.1基于因特網(wǎng)內(nèi)容分級平臺過濾(PICS)
為了保護用戶免受網(wǎng)絡不良信息的侵擾,W3C (World Wide Web Consortium)于1995年8月組織當時因特網(wǎng)上的主導力量共同商討制定一套技術(shù)規(guī)范,即因特網(wǎng)內(nèi)容分級平臺(PICS),它是一種分級過濾軟件標準,為網(wǎng)上信息內(nèi)容的標記、分級提供一個平臺,使用戶或組織能夠根據(jù)各自認同的分級體系對網(wǎng)絡內(nèi)容進行分級,分級體系(rating system)規(guī)定了分級的類目、類目的級別和分級的標準。
分級得到被稱為分級標記(content rating)的數(shù)據(jù)集,分級標記產(chǎn)生以后,凡是遵循PICS技術(shù)規(guī)范開發(fā)的軟件都可以對其進行處理。用戶可以通過分級標記了解到分級機構(gòu)和分級體系的情況,從而在使用時下載合適的過濾系統(tǒng)分級檔案,并在瀏覽器中設置不同的向度,在瀏覽網(wǎng)頁時,瀏覽器會依據(jù)用戶設定的向度級別篩選出合適的信息。
利用網(wǎng)頁內(nèi)容分級法,采取人工分級方法過濾不良信息,其錯誤率相對較低,并可以準確地對圖像、視頻等多媒體信息進行準確分級,尤其是網(wǎng)頁作者能主動采用標準的分級體系分級時,將對過濾不良信息、凈化網(wǎng)絡環(huán)境有較大的推動作用。但這與網(wǎng)頁作者希望更多的人瀏覽其網(wǎng)頁的初衷是相違背的,如果網(wǎng)頁作者是惡意地傳播不良信息的話,用戶對其是無法控制的。
2.2數(shù)據(jù)庫過濾
數(shù)據(jù)庫過濾就是通過對網(wǎng)上各種信息進行分類后,精確地匹配URL和與之對應的頁面內(nèi)容,形成一個預分類的網(wǎng)址庫。網(wǎng)址庫有兩種類型的列表,一種為“黑名單”,包括禁止訪問的目標網(wǎng)站的URL;另一個是“白名單”,包括允許訪問的目標網(wǎng)站的URL。在用戶訪問網(wǎng)頁時,依據(jù)數(shù)據(jù)庫中的IP地址或URL來判定是否需要過濾掉相應的內(nèi)容。數(shù)據(jù)庫必須依賴事先列出的特定網(wǎng)址,對非法URL的覆蓋程度不高,此外這種方法對許多寄生在綜合性網(wǎng)站內(nèi)的不良信息也無法過濾。但數(shù)據(jù)庫過濾的過濾速度快,準確率比較高,且經(jīng)過系統(tǒng)的不斷訓練反饋,通過一定時間一定規(guī)模的積累之后,禁用地址數(shù)據(jù)庫將動態(tài)地修改完善,在一定程度上可以滿足用戶要求。
2.3基于關(guān)鍵詞的過濾
基于關(guān)鍵詞的過濾原理簡單,就是給定一系列描述文檔特征的關(guān)鍵字或索引詞,或者時間、作者姓名等個性信息。在過濾過程中,它以數(shù)據(jù)流中是否包含關(guān)鍵詞或衡量與關(guān)鍵詞的相似度,判斷是否要過濾掉該頁面。這種方法的性能取決于是否建立精確完備的禁用關(guān)鍵詞庫,它過濾速度快,但往往不考慮上下文的關(guān)聯(lián)性,漏報、錯報率較高,而且有些信息內(nèi)容的發(fā)布者可能有意避開使用這些詞,用其他的詞或圖片替代,使得基于關(guān)鍵詞的信息過濾機制不能識別。
2.4基于內(nèi)容理解的過濾
基于內(nèi)容理解的過濾是指對獲取的網(wǎng)絡信息內(nèi)容進行識別、判斷、分類,確定其是否為需要過濾的目標內(nèi)容,并對已確定的目標內(nèi)容進行過濾等檢測控制的技術(shù),它是根據(jù)不良信息的一些內(nèi)容所呈現(xiàn)的特征來進行判斷的一種識別過濾方法?;趦?nèi)容理解的過濾技術(shù)具有適應性強、精度高等特點,能有效地解決基于數(shù)據(jù)庫和關(guān)鍵詞的過濾技術(shù)不能處理好的問題,包括文本內(nèi)容理解過濾、圖像內(nèi)容分析過濾、視頻內(nèi)容分析過濾和智能混合過濾等。
2.5其他過濾策略
基于提高過濾不良信息的整體性能和運行速度考慮,分級匹配過濾的策略也被提出來。第一級過濾是基于查詢關(guān)鍵詞的過濾和基于數(shù)據(jù)庫的過濾,這兩種過濾方式過濾速度快,可以快速剔除一部分不良信息,緩解了系統(tǒng)壓力。第二級過濾是基于內(nèi)容理解的過濾,是主要的過濾環(huán)節(jié)。兩種過濾方式的有機結(jié)合,在一定程度上提高了過濾的效率和準確率。
通過在服務器端或是計算機終端安裝過濾產(chǎn)品,信息過濾技術(shù)已經(jīng)被廣泛地應用于網(wǎng)絡環(huán)境的凈化。公安、安全網(wǎng)絡監(jiān)察部門廣泛采用各種信息過濾產(chǎn)品,實現(xiàn)對互聯(lián)網(wǎng)接入單位網(wǎng)絡出口的信息審計管理。教育部、財政部、工信部、國務院新聞辦2009年4月下發(fā)通知,為各中小學校聯(lián)網(wǎng)的計算機終端免費提供綠色上網(wǎng)過濾軟件,以凈化校園網(wǎng)絡環(huán)境。中國電信等運營商也陸續(xù)在全國各地推出綠色上網(wǎng)業(yè)務,為用戶提供不良信息過濾服務,這些舉措都可為部隊網(wǎng)絡管理部門所借鑒。
目前,經(jīng)過公安部審核頒發(fā)銷售許可證的硬件或軟件的信息過濾產(chǎn)品已達30余種,可以實現(xiàn)IP過濾、自動收集、識別網(wǎng)上的各種信息,具有智能化地提取摘要和關(guān)鍵詞、建立索引、提供查詢和對不良信息的報警等功能?;谥虚g服務器過濾的網(wǎng)絡安全管理系統(tǒng)或網(wǎng)關(guān)型產(chǎn)品,對于部隊網(wǎng)絡管理部門來說是一個良好的選擇,所有的信息都要經(jīng)過它的過濾才能進出內(nèi)網(wǎng),可以對不良信息進行有效控制,實現(xiàn)把內(nèi)網(wǎng)安全管理由被動防護轉(zhuǎn)變?yōu)橹鲃訖z測,根據(jù)用戶工作性質(zhì)設置管理策略,對用戶網(wǎng)上行為進行監(jiān)管、審計、追蹤等,能夠有效提高網(wǎng)絡信息管理水平。
依靠專門的網(wǎng)絡信息過濾產(chǎn)品,在隔離不良信息方面雖然能起到明顯的作用,但任何一種過濾策略不可能剔除網(wǎng)上所有的不良信息。創(chuàng)建良好的網(wǎng)絡環(huán)境,引導和督促使用者養(yǎng)成良好的上網(wǎng)習慣,加強對上網(wǎng)行為的嚴格管理是關(guān)鍵。在現(xiàn)實生活中,管理者往往只關(guān)注系統(tǒng)是否完備、應用是否通暢,以及設備的檢修維護等,卻忽視了對上網(wǎng)人員的行為管理和教育。
上網(wǎng)行為管理,又稱網(wǎng)絡行為管理,就是對上網(wǎng)人員在網(wǎng)上進行的各種個人或社會活動,進行合理的、規(guī)范的管理。近幾年來,上網(wǎng)行為管理已經(jīng)引起各國政府的關(guān)注,上網(wǎng)行為管理產(chǎn)品也逐漸形成了獨立的系統(tǒng)。這些產(chǎn)品以網(wǎng)絡行為記錄和控制為主要手段,可以對BBS發(fā)帖內(nèi)容等進行關(guān)鍵詞過濾,并對此類行為自動記錄;對流量進行控制,保障重要用戶和核心用戶的帶寬;進行網(wǎng)絡行為客觀評估,形成詳盡的網(wǎng)絡流量日志、郵件日志、網(wǎng)絡監(jiān)控日志等統(tǒng)計報表,并向管理者報告;對不規(guī)范網(wǎng)絡行為進行阻斷,實現(xiàn)帶寬資源的合理利用,保障健康網(wǎng)絡文化的傳播。上網(wǎng)行為管理支持網(wǎng)關(guān)模式、網(wǎng)橋模式等多種方式,由用戶根據(jù)需要自由選擇,與各種網(wǎng)絡安全軟件和防病毒、防入侵技術(shù)相互補充,為各個內(nèi)部網(wǎng)絡安全建設和管理提供幫助。在平時的管理工作中,準確把握不良信息傳播的動向,及時采取有效的過濾處理技術(shù),堵住不良信息來源路徑,切斷傳播渠道,并教育和引導用戶增強識別不良信息的判斷力、抵抗力,有效防止和控制不良信息侵入內(nèi)部網(wǎng)絡?!?/p>
10.3969/J.ISSN.1672-7274.2016.09.017
TP391,TP393
B
1672-7274(2016)09-0056-02