楊躍東 魯欣正
國(guó)家教育考試網(wǎng)上有害信息自動(dòng)監(jiān)測(cè)模型研究
楊躍東 魯欣正
隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已成為國(guó)家教育考試有害信息傳播的主要途徑。為凈化涉考網(wǎng)絡(luò)環(huán)境,保障教育考試的公平和安全,在國(guó)家教育考試期間,各級(jí)考試機(jī)構(gòu)安排專人利用百度、搜狗等搜索引擎,人工搜索有害信息,并上報(bào)有關(guān)部門進(jìn)行處置。然而該方式存在工作效率低、搜索范圍小、信息分析程度低等問題。針對(duì)這些問題,本文利用主題搜索、文本處理等信息技術(shù)手段,提出了以領(lǐng)域知識(shí)庫(kù)為核心的有害信息自動(dòng)監(jiān)測(cè)模型,自動(dòng)對(duì)互聯(lián)網(wǎng)信息進(jìn)行采集、去重、分類等處理,實(shí)時(shí)提供分類統(tǒng)計(jì)、熱點(diǎn)分析、來(lái)源分析等基礎(chǔ)數(shù)據(jù)。最后給出該模型與現(xiàn)有人工監(jiān)測(cè)的協(xié)作方式,兩者之間相互補(bǔ)充,從而形成覆蓋面大、實(shí)時(shí)性強(qiáng)、精確度高的有害信息監(jiān)控體系。
教育考試;有害信息;信息采集;信息處理;領(lǐng)域知識(shí)庫(kù)
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)已經(jīng)逐漸成為主要的信息傳播途徑,人們每時(shí)每刻產(chǎn)生的信息都能夠通過互聯(lián)網(wǎng)迅速傳播。2015年7月23日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在京發(fā)布第36次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,該報(bào)告顯示,截至2015年6月,我國(guó)網(wǎng)民規(guī)模達(dá)6.68億,互聯(lián)網(wǎng)普及率為48.8%。[1]全球數(shù)據(jù)信息量也呈指數(shù)式爆炸增長(zhǎng)之勢(shì),根據(jù)國(guó)際數(shù)據(jù)公司IDC研究報(bào)告,從2010年到2020年,全球數(shù)據(jù)量會(huì)有50倍的增長(zhǎng),將達(dá)到40ZB(約40萬(wàn)億GB)。
在互聯(lián)網(wǎng)普及、網(wǎng)民數(shù)量龐大、信息爆炸增長(zhǎng)的環(huán)境下,網(wǎng)絡(luò)已發(fā)展成為人們?nèi)粘=涣?、表達(dá)思想和宣泄情緒的重要平臺(tái),成為反映社會(huì)輿情的“第四媒體”。在國(guó)家教育考試領(lǐng)域,圍繞教育考試相關(guān)的有害信息通過互聯(lián)網(wǎng)快速、廣泛傳播,嚴(yán)重影響教育考試公平和公正性。國(guó)家教育考試的組織和管理遇到了前所未有的壓力和挑戰(zhàn),考試組織管理不僅要打好傳統(tǒng)考試安全戰(zhàn),還要打好信息戰(zhàn)、新聞戰(zhàn)。目前,在高考、研考、成考、自考等國(guó)家教育考試中,有害信息監(jiān)測(cè)的工作方式為:各省級(jí)考試機(jī)構(gòu)指派專人,利用百度、搜狗等搜索引擎進(jìn)行人工搜索,將搜索結(jié)果報(bào)送教育部考試中心,經(jīng)過統(tǒng)一匯總后報(bào)公安等有關(guān)部門。這種方式有如下幾點(diǎn)不足:一是工作效率較低,網(wǎng)上有害信息監(jiān)測(cè)人員需花費(fèi)大量的時(shí)間在網(wǎng)絡(luò)上通過關(guān)鍵詞搜索有害信息,隨意性較強(qiáng),各省之間搜索手段趨同,工作效率較低。二是覆蓋范圍較小,利用百度等傳統(tǒng)互聯(lián)網(wǎng)搜索引擎,搜索結(jié)果數(shù)量依賴于給定關(guān)鍵詞的多少,在有限的時(shí)間內(nèi),人工往往無(wú)法枚舉所有的關(guān)鍵詞組合,因此,信息檢索的范圍較小。三是缺乏有效分析,由于主要精力用于搜索和匯總,導(dǎo)致缺乏對(duì)有害信息的分析判斷,例如類型分析、熱點(diǎn)分析等。
針對(duì)上述問題,為了更加快速、科學(xué)、全面地監(jiān)測(cè)和掌握互聯(lián)網(wǎng)有害信息動(dòng)態(tài),本文結(jié)合國(guó)家教育考試的實(shí)際業(yè)務(wù),充分利用主題搜索、文本處理等信息化技術(shù)手段,提出了國(guó)家教育考試網(wǎng)上有害信息自動(dòng)監(jiān)測(cè)模型,結(jié)合人工搜索,形成覆蓋面大、實(shí)時(shí)性強(qiáng)、精確度高的有害信息監(jiān)控體系,為教育考試的安全、公平和公正保駕護(hù)航。
在學(xué)術(shù)界,網(wǎng)上有害信息沒有形成統(tǒng)一的定義。目前使用最多的稱呼是有害信息或不良信息。對(duì)其分類而言,不同的角度給出的分類界定也有所不同。從法律層面來(lái)看,根據(jù)《計(jì)算機(jī)信息網(wǎng)絡(luò)國(guó)際聯(lián)網(wǎng)安全保護(hù)管理辦法》和《互聯(lián)網(wǎng)安全保護(hù)技術(shù)措施規(guī)定》等國(guó)家法律法規(guī),網(wǎng)上有害信息(互聯(lián)網(wǎng)有害信息)包括:煽動(dòng)抗拒、破壞憲法和法律、行政法規(guī)實(shí)施的;煽動(dòng)顛覆國(guó)家政權(quán),推翻社會(huì)主義制度的;煽動(dòng)分裂國(guó)家、破壞國(guó)家統(tǒng)一的;煸動(dòng)民族仇恨、民族歧視,破壞民族團(tuán)結(jié)的;捏造或者歪曲事實(shí),散布謠言,擾亂社會(huì)秩序的;宣揚(yáng)封建迷信、淫穢、色情、賭博、暴力、兇殺、恐怖,教唆犯罪的;公然侮辱他人或者捏造事實(shí)誹謗他人的;損害國(guó)家機(jī)關(guān)信譽(yù)的;其他違反憲法和法律、行政法規(guī)的。[2]從信息性質(zhì)來(lái)分,有些學(xué)者認(rèn)為不良信息大致可以分為“違反法律”、“違反道德”和“破壞信息安全”三大類別。從信息所屬領(lǐng)域來(lái)劃分,網(wǎng)絡(luò)有害信息可以分為“政治領(lǐng)域的有害信息”、“經(jīng)濟(jì)領(lǐng)域的有害信息”、“文化領(lǐng)域的有害信息”和“社會(huì)領(lǐng)域的有害信息”等多類。[3]
本文采用領(lǐng)域分類法,所研究的網(wǎng)上有害信息界定為“教育考試領(lǐng)域的有害信息”,即影響考試安全、公平、公正的互聯(lián)網(wǎng)信息,具體包括:買賣答案、作弊器材、代考替考、考試作弊、漏題泄題等內(nèi)容??记爸攸c(diǎn)關(guān)注買賣答案、作弊器材、代考替考等;考中重點(diǎn)關(guān)注考試作弊、漏題泄題等;考后重點(diǎn)關(guān)注考場(chǎng)情況、大規(guī)模舞弊等。
教育考試領(lǐng)域的有害信息自動(dòng)監(jiān)測(cè)模型主要由領(lǐng)域知識(shí)庫(kù)、信息采集、分析處理、服務(wù)應(yīng)用四個(gè)部分組成,構(gòu)成了以領(lǐng)域知識(shí)庫(kù)為核心的有害信息自動(dòng)監(jiān)測(cè)體系。結(jié)構(gòu)如圖1所示。
3.1 領(lǐng)域知識(shí)庫(kù)
領(lǐng)域知識(shí)庫(kù)是整個(gè)模型的核心,是驅(qū)動(dòng)模型自動(dòng)和正常運(yùn)轉(zhuǎn)的基礎(chǔ),是區(qū)別傳統(tǒng)搜索引擎(百度、Google、搜狗等)的關(guān)鍵,其選擇的優(yōu)劣將決定監(jiān)測(cè)模型查全率和查準(zhǔn)率。結(jié)合實(shí)際業(yè)務(wù),本文提出了基于多維關(guān)鍵詞的領(lǐng)域知識(shí)庫(kù)構(gòu)建方法:
(1)羅列關(guān)鍵詞
一方面可根據(jù)業(yè)務(wù)經(jīng)驗(yàn)人工設(shè)定關(guān)鍵詞,另一方面可以從歷年有害信息監(jiān)測(cè)結(jié)果中分析和提取相關(guān)關(guān)鍵詞。例如,根據(jù)2014年1月研究生考試2 000多條有害信息中,可抽取2014、研考、研究生考試、保過、QQ、Q、扣扣、出售、提供、發(fā)現(xiàn)、題目、作文題、試卷、答案等關(guān)鍵詞。
(2)關(guān)鍵詞分類
將上述的關(guān)鍵詞進(jìn)行細(xì)粒度拆分,并按照其屬性歸類,分為時(shí)間、考試類型、行為、對(duì)象、途徑等類,例如“2014”、“14”、“二零一四”等屬于時(shí)間類別,“發(fā)現(xiàn)”、“我有”等屬于行為類別,“QQ”、“Q”、“扣扣”等屬于途徑類別。以2014年研究生考試為例,各類別樣例如下:
1)時(shí)間類別={今年,2014,14,二零一四};
2)考試類型類別={研究生考試,研考,考研,碩士生,統(tǒng)考,研究生};
圖1 國(guó)家教育考試網(wǎng)上有害信息自動(dòng)監(jiān)測(cè)模型結(jié)構(gòu)
3)行為類別={購(gòu)買,出售,叫賣,賣,買,提供,發(fā)現(xiàn),我有,泄題,漏題,提前發(fā)現(xiàn),…};
4)對(duì)象類別={答案,真題,試題,卷子,試卷,原題,題目,作文,設(shè)備,耳機(jī),器材,針孔,接收設(shè)備,…};
5)途徑類別={Q,QQ,扣扣,扣,…}。
每個(gè)有害信息主題詞都是由這些類別中的關(guān)鍵詞組合而成的,例如(今年,購(gòu)買,答案)、(2014,出售,答案)為兩個(gè)有害信息主題詞。
根據(jù)以上分析,不同的類別可構(gòu)建有害信息多維離散空間(A-時(shí)間,B-考試類型,C-行為,D-對(duì)象,E-途徑,…),每條有害信息主題詞X∈(A,B,C,D,E,…)。該離散空間也可通俗稱為領(lǐng)域知識(shí)庫(kù)。該領(lǐng)域知識(shí)庫(kù)可根據(jù)監(jiān)測(cè)結(jié)果進(jìn)行持續(xù)的擴(kuò)充、優(yōu)化和調(diào)整。隨著知識(shí)庫(kù)的完善,本文監(jiān)測(cè)模型的效果將越好,有害信息的查準(zhǔn)率將越高。
(3)查詢表達(dá)式構(gòu)造及應(yīng)用
領(lǐng)域知識(shí)庫(kù)建立完畢后,可構(gòu)建不同維度的查詢表達(dá)式,以用于采集、處理和分析等階段。例如,在采集階段,為保證互聯(lián)網(wǎng)信息的抓取效率,可采用二維組合(時(shí)間,考試類型),也即采用((今年| 2014|14|二零一四)&(研究生考試|研考|考研|碩士生|統(tǒng)考|研究生|碩士生))這個(gè)查詢表達(dá)式采集互聯(lián)網(wǎng)的數(shù)據(jù)。在處理和分析階段,可采用(行為,對(duì)象)、(行為,途徑)、(對(duì)象,途徑)、(行為,對(duì)象,途徑)等多種組合方式進(jìn)行再次檢索,例如:
①買賣答案類查詢表達(dá)式:(購(gòu)買|出售|叫賣|賣|買|提供|發(fā)現(xiàn)|我有)&(答案|真題|試題|卷子|試卷|原題|題目|作文)
②泄題漏題類查詢表達(dá)式:(泄題|漏題|提前發(fā)現(xiàn)|泄露)&(答案|真題|試題|卷子|試卷|原題|題目|作文)
③通過QQ進(jìn)行代考替考的查詢表達(dá)式:(Q|QQ|扣扣|扣)&(代考|替考|助考|槍手|助攷|包過|保過)
將多維查詢表達(dá)式笛卡爾展開后,將對(duì)應(yīng)若干組有害信息主題詞,例如二維查詢表達(dá)式“(購(gòu)買|出售)&(答案|真題)”展開后,對(duì)應(yīng)(購(gòu)買,答案)、(購(gòu)買,真題)、(出售,答案)、(出售,真題)四個(gè)有害信息主題詞。
3.2 信息采集
有害信息在互聯(lián)網(wǎng)上存在較為分散,并且形式多樣,有獨(dú)立網(wǎng)站、新聞、論壇、貼吧、博客、微博等各種形式。信息采集的主要任務(wù)是從這些形式多樣、海量的信息載體中有選擇地挖掘可能含有有害信息的頁(yè)面文檔。根據(jù)信息采集技術(shù)和原理的不同,可分為網(wǎng)頁(yè)信息采集模型、微博信息采集模型、元搜索采集模型三類。
(1)網(wǎng)頁(yè)信息采集模型
該模型主要針對(duì)于獨(dú)立網(wǎng)站、新聞、論壇、貼吧、博客等信息源,利用面向主題的網(wǎng)絡(luò)爬蟲技術(shù)[4,5],按照設(shè)定的網(wǎng)頁(yè)搜索策略(廣度優(yōu)先、深度優(yōu)先等),從初始化URL列表中下載網(wǎng)頁(yè),并根據(jù)有害信息領(lǐng)域知識(shí)庫(kù)中的主題詞進(jìn)行相關(guān)性判斷,舍棄沒有價(jià)值URL地址,提取符合要求的URL地址,經(jīng)過去重和篩選后,加入到待搜索的URL列表中繼續(xù)進(jìn)行下載。相關(guān)性判斷公式為:
其中主題詞X∈(時(shí)間,考試類型)。
(2)微博信息采集模型
微博作為言論非?;钴S的陣地,信息量及其龐大(例如新浪微博網(wǎng)站每天產(chǎn)生上億條微博),而且消息的傳播速度驚人。很多有害信息都在微博中引爆,并在幾分鐘或幾十分鐘之內(nèi)大面積擴(kuò)散,因此需要對(duì)其進(jìn)行重點(diǎn)監(jiān)測(cè)。微博采集內(nèi)容主要包括信息正文、URL、發(fā)布時(shí)間、微博客名稱、微博客網(wǎng)站名稱、轉(zhuǎn)發(fā)次數(shù)、評(píng)論數(shù)量、評(píng)論人、發(fā)布人粉絲數(shù)等內(nèi)容。在微博的分析上,我們可以對(duì)微博熱點(diǎn)話題、消息評(píng)論數(shù)等重要指標(biāo)進(jìn)行評(píng)價(jià)。
在采集技術(shù)手段上,可采用新浪等微博平臺(tái)提供的API接口進(jìn)行采集,例如通過statuses/mentions獲取當(dāng)前用戶的若干條最新微博。該方式將受到API授權(quán)及每天調(diào)用次數(shù)的限制,數(shù)據(jù)采集量無(wú)法滿足應(yīng)用需求。還可以采用模擬登錄的微博數(shù)據(jù)采集方式,通過程序模擬用戶登錄微博服務(wù)器后進(jìn)行數(shù)據(jù)自動(dòng)采集。[6]
(3)元搜索采集模型
在實(shí)際應(yīng)用中,由于互聯(lián)網(wǎng)信息源極其龐大,僅僅依靠網(wǎng)頁(yè)信息采集和微博信息采集無(wú)法對(duì)全網(wǎng)進(jìn)行覆蓋,容易忽略某些重要的信息。因此,為提高有害信息監(jiān)測(cè)的覆蓋面,需要借助元搜索的方式進(jìn)行補(bǔ)充,以達(dá)到全網(wǎng)監(jiān)測(cè)的目的。元搜索是一種基于搜索引擎的搜索方法,匯聚百度、谷歌、搜狗等常見搜索引擎的搜索功能和博客、微博網(wǎng)站自身信息檢索功能,對(duì)所有搜索結(jié)果進(jìn)行整合、去重,加入有害信息原始庫(kù)中。[7,8]
在技術(shù)實(shí)現(xiàn)上,首先根據(jù)有害信息知識(shí)庫(kù),構(gòu)造符合搜索引擎要求的查詢命令。以百度搜索為例,經(jīng)過URL編碼轉(zhuǎn)換和條件組合后,查詢表達(dá)式“(2014|14|今年)&(研究生|研考)&(泄題)”將轉(zhuǎn)換為“2014%7C14%7C今年%20研究生%7C研考%20泄題”,再將搜索引擎的鏈接、編碼、時(shí)間限制等信息合并得到完整的查詢命令。例如“http://www.bai?du.com/s?wd=2014%7C14%7C今年%20研究生%7C研考%20泄題&ie=utf-8&lm=7”表示用百度搜索引擎查詢一周內(nèi),有關(guān)2014年研究生考試泄題的信息。此外,可采用多線程技術(shù)同時(shí)構(gòu)造多組關(guān)鍵詞,向多個(gè)搜索引擎發(fā)送查詢請(qǐng)求,從而有效提高檢索速度。
3.3 分析處理
信息分析處理環(huán)節(jié)是整個(gè)模型的核心部分,按照關(guān)鍵詞對(duì)有害信息原始庫(kù)的數(shù)據(jù)進(jìn)行進(jìn)一步精加工,并進(jìn)行分類,為后續(xù)應(yīng)用提供有效的數(shù)據(jù)支撐。整個(gè)處理過程包括兩個(gè)主要步驟:
(1)預(yù)處理
經(jīng)過信息采集得到的有害信息頁(yè)面文檔一般采用HTML格式進(jìn)行存儲(chǔ),正文內(nèi)容和格式標(biāo)簽混在一起,干擾后續(xù)的處理和分析,因此,預(yù)處理的主要目的是將有害信息原始庫(kù)中數(shù)據(jù)進(jìn)行去重、內(nèi)容提取、分詞表示等,將HTML有害信息轉(zhuǎn)換為可量化的表達(dá)。
①頁(yè)面文檔去重。不同的信息采集模型可能采集到相同的頁(yè)面文檔,因此,首先可以根據(jù)URL進(jìn)行去重處理,將重復(fù)采集的頁(yè)面剔除。
[9]
③中文分詞。將有效的文本信息進(jìn)行中文分詞,將其切成一個(gè)個(gè)詞語(yǔ),并去除停用詞和噪音詞,后續(xù)的分類處理將基于這些詞語(yǔ)進(jìn)行。例如“提供2013年各省高考考試真題原卷答案/需要的加Q”分詞后形成(“提供”、“2013”、“各省”、“高考”、“考試”、“真題”、“原卷”、“答案”、“需要”、“Q”)。目前中文分詞算法很多,大致可歸納為:詞典分詞方法、理解分詞方法、統(tǒng)計(jì)分詞法等。[10]國(guó)內(nèi)外也有很多開源的分詞系統(tǒng)或項(xiàng)目,例如庖丁解牛分詞包、LingPipe、IKAnalyzer和ICTCLA等。
(2)熱度及相關(guān)性計(jì)算
熱度及相關(guān)性計(jì)算的目的是統(tǒng)計(jì)頁(yè)面重復(fù)出現(xiàn)的次數(shù)(次數(shù)越多,熱度越高),以及與輸入查詢表達(dá)式的相關(guān)程度(也即相似度),最終形成如表1所示的數(shù)據(jù),這些數(shù)據(jù)將為后續(xù)熱點(diǎn)分析、主題分類等提供支撐。
表1 熱度及相關(guān)性計(jì)算后生成的內(nèi)容
①頁(yè)面文檔表示。為進(jìn)行頁(yè)面文檔之間、頁(yè)面文檔與查詢表達(dá)式之間的相關(guān)性計(jì)算,需要對(duì)頁(yè)面文檔進(jìn)行量化表示,轉(zhuǎn)為計(jì)算機(jī)可識(shí)別的符號(hào)??刹捎貌紶柲P汀⑾蛄靠臻g模型、概率模型等進(jìn)行表示,其中向量空間模型(VSM)是目前最常用的一種表示方法。[11,12]每個(gè)頁(yè)面文檔d可表示為一組特征向量:V(d)=(t1:w1(d),t2:w2(d),…,tn:wn(d))簡(jiǎn)化表達(dá)為:V(d)=(w1(d),w2(d),…,wn(d))其中t為關(guān)鍵詞,wi(d)為關(guān)鍵詞ti在文檔d中出現(xiàn)的次數(shù)。例如在某一頁(yè)面文檔中,關(guān)鍵詞“2014”出現(xiàn)1次,關(guān)鍵詞“高考”出現(xiàn)4次,關(guān)鍵詞“答案”出現(xiàn)6次,則該文檔的向量表示為(2014:1,高考:4,答案:6),簡(jiǎn)化表示為(1,4,6)。
②頁(yè)面文檔熱度計(jì)算。對(duì)教育考試有害信息監(jiān)測(cè)工作而言,如果某一條有害信息被多次轉(zhuǎn)載,或者出現(xiàn)在多個(gè)不同的網(wǎng)站中,則該信息為熱點(diǎn)信息,需要重點(diǎn)關(guān)注。因此,頁(yè)面文檔熱度計(jì)算的核心是識(shí)別頁(yè)面內(nèi)容是否重復(fù),如果重復(fù)則熱度加一。判斷頁(yè)面文檔重復(fù)可采用基于聚類的方法、基于簽名的方法、基于特征碼的方法等。[13]本模型采用K-Means等聚類算法進(jìn)行重復(fù)次數(shù)計(jì)算,算法的核心是頁(yè)面文檔的相似度。文檔中文分詞后僅保留動(dòng)詞和名詞,將頁(yè)面文檔向量按照wi(d)的大小值排序,取前10個(gè)關(guān)鍵詞,并進(jìn)行對(duì)齊處理,使兩個(gè)文檔關(guān)鍵詞個(gè)數(shù)和順序完全一致。兩個(gè)特征向量表示的文檔d1和d2之間的相似度可用余弦距離來(lái)刻畫,將兩個(gè)向量放到坐標(biāo)系原點(diǎn),以兩個(gè)向量的夾角θ的余弦值來(lái)表示文檔的相似程度,夾角越大相似度越小,夾角越小相似度越大,其相似度定義為:
當(dāng)兩個(gè)文檔之間的相似度高于設(shè)定的閾值時(shí),則認(rèn)為這兩個(gè)文檔屬于同一類,重復(fù)次數(shù)增加1次。
③與查詢表達(dá)式之間的相關(guān)性計(jì)算。根據(jù)教育考試網(wǎng)上有害信息監(jiān)測(cè)需要,基于領(lǐng)域知識(shí)庫(kù)構(gòu)造任意多組查詢表達(dá)式,例如買賣答案類、泄題漏題類等,計(jì)算與每個(gè)聚類類別(用該類中的任意一個(gè)頁(yè)面文檔來(lái)表示該類別)的相似程度,相似度越大,則表示該文檔越符合查詢表達(dá)式的要求。給定文檔向量V(d)=(t1:w1(d),t2:w2(d),…,tn:wn(d))和有害信息主題詞X=(x1,x2,…,xm),從文檔向量V(d)中提取僅僅包括關(guān)鍵詞xi的子向量M(d)=(x1:w1(d),x2:w2(d),…,xm:wm(d)),則文檔d與主題詞X之間的相似度定義為:
給定頁(yè)面d和查詢表達(dá)式S,令S笛卡爾展開后分解為(X1,X2,…,Xl),也即S可分解為l組有害信息主題詞,則文檔d與查詢表達(dá)式S之間的相似度定義為:
通過該方法可以計(jì)算所有頁(yè)面文檔與查詢表達(dá)式之間的相似度。
3.4 服務(wù)應(yīng)用
根據(jù)數(shù)據(jù)分析處理產(chǎn)生的結(jié)果,可以圍繞教育考試有害信息監(jiān)測(cè)的需要,進(jìn)行進(jìn)一步的分類統(tǒng)計(jì)、熱點(diǎn)分析、來(lái)源分析、趨勢(shì)分析等,以方便管理和決策。
(1)分類統(tǒng)計(jì)
根據(jù)給定的查詢表達(dá)式,可對(duì)買賣答案類、作弊設(shè)備類、助考代考類、泄題漏題類進(jìn)行分類監(jiān)測(cè),并按照有害信息發(fā)布時(shí)間和相關(guān)程度排序列出。還可分析各類有害信息所占的比重,從而在業(yè)務(wù)上指導(dǎo)監(jiān)控的重點(diǎn),例如考前絕大部分有害信息為買賣答案類。此外,在實(shí)際業(yè)務(wù)應(yīng)用中,還可以構(gòu)造任意專題的查詢表達(dá)式,并不單單限定于有害信息。
(2)熱點(diǎn)分析
基于頁(yè)面文檔重復(fù)次數(shù),可以統(tǒng)計(jì)某段時(shí)間內(nèi),有害信息出現(xiàn)的次數(shù),并進(jìn)行排序。對(duì)于微博來(lái)說,還可以按照轉(zhuǎn)發(fā)量和評(píng)論量進(jìn)行統(tǒng)計(jì)排序。通過該功能,可掌握有害信息的擴(kuò)散情況,對(duì)次數(shù)最多的信息進(jìn)行重點(diǎn)關(guān)注和處理,可在上報(bào)公安部門的時(shí)候,進(jìn)行強(qiáng)調(diào)說明。
(3)來(lái)源分析
通過來(lái)源站點(diǎn)排名分析可清楚掌握有害信息主要在哪些媒體出現(xiàn),從而進(jìn)行專題分析和重點(diǎn)監(jiān)測(cè)。例如,2014年研究生考試中,對(duì)1000多個(gè)論壇監(jiān)測(cè)過程中,大家論壇、返利網(wǎng)論壇、百度貼吧、天涯社區(qū)、e度教育網(wǎng)、騰訊論壇都是有害信息出現(xiàn)次數(shù)比較多的論壇。
(4)趨勢(shì)分析
通過對(duì)不同考試項(xiàng)目有害信息長(zhǎng)期持續(xù)的跟蹤,分析其隨時(shí)間變化有害信息出現(xiàn)的條數(shù)以及類別分布情況,可以總結(jié)經(jīng)驗(yàn),為第二年有害信息監(jiān)控工作的開展提供依據(jù)。
有害信息自動(dòng)監(jiān)測(cè)模型在提高工作效率、增加有害信息監(jiān)測(cè)的覆蓋面,以及增強(qiáng)對(duì)信息的分析和利用程度等方面具有較為顯著的優(yōu)勢(shì)。然而,如何將自動(dòng)監(jiān)測(cè)模型與現(xiàn)有業(yè)務(wù)模式有機(jī)結(jié)合,充分整合和利用全戰(zhàn)線人員的力量,這是發(fā)揮該模型作用的重要因素。本文認(rèn)為,有害信息自動(dòng)監(jiān)測(cè)模型可以為業(yè)務(wù)提供技術(shù)手段,然而人工監(jiān)測(cè)仍然是不可或缺的方面。具體作用體現(xiàn)在如下兩個(gè)方面:
(1)信息甑別。引入自動(dòng)監(jiān)測(cè)模型,將極大提高有害信息的數(shù)量。根據(jù)目前業(yè)務(wù)模式,需要定期將有害信息反饋給公安部門,由公安部門進(jìn)行后續(xù)處理。然而如此龐大的數(shù)據(jù)量全部反饋給公安部門,勢(shì)必加大其工作量。為此,可以集中全戰(zhàn)線工作人員在模型監(jiān)測(cè)結(jié)果的基礎(chǔ)上,分任務(wù)進(jìn)行有害信息過濾和甑別(而不是重復(fù)搜索),例如人工判斷有害信息的重要性和危害程度,結(jié)合模型提供的熱點(diǎn)信息,選擇性地上報(bào)公安部門,一方面可減輕公安部門的工作量,另一方面可提高有害信息打擊的精度。
(2)微博信息的監(jiān)測(cè)。由于微博信息更新較快,而且影響面較大,可以安排人工對(duì)新浪、騰訊等幾個(gè)重點(diǎn)微博進(jìn)行跟蹤和監(jiān)控,與自動(dòng)監(jiān)測(cè)模型相互配合、相互補(bǔ)充,監(jiān)測(cè)效果會(huì)更好。
參考文獻(xiàn)
[1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第36次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告 [EB/OL]. http://www.cnnic.cn/gywm/xwzx/rdxw/2015/201507/ t20150723_52626.htm,2015-7-23.
[2]左堅(jiān)衛(wèi).互聯(lián)網(wǎng)有害信息的界定和相關(guān)行為的處理芻議[J].信息網(wǎng)絡(luò)安全,2005(6):35-36.
[3]王勇.媒介融合環(huán)境下網(wǎng)絡(luò)有害信息傳播與治理研究述評(píng)[J].昆明理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013(1):79-85.
[4]孫駿雄.基于網(wǎng)絡(luò)爬蟲的網(wǎng)站信息采集技術(shù)研究[D].大連:大連海事大學(xué),2014.
[5]陳立為.面向主題信息采集系統(tǒng)現(xiàn)狀分析[J].湖南有色金屬,2014(2):77-80.
[6]孫青云,王俊峰,趙宗渠,高夢(mèng)超.一種基于模擬登錄的微博數(shù)據(jù)采集方案[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(3):6-10.
[7]楊更.基于元搜索的信息采集平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2012(7):175-177,259.
[8]吳小蘭,汪琪.元搜索引擎研究綜述[J].圖書情報(bào)工作,2009(9):46-49.
[9]高天宏.互聯(lián)網(wǎng)輿情分析中信息采集技術(shù)的研究與設(shè)計(jì)[D].北京:北京郵電大學(xué),2015.
[10]奉國(guó)和,鄭偉.國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J].圖書情報(bào)工作,2011(2):41-45.
[11]宋辰.科技情報(bào)采集系統(tǒng)的設(shè)計(jì)及其快速文本聚類方法研究[D].北京工業(yè)大學(xué),2014.
[12]賈自艷.Web信息智能獲取若干關(guān)鍵問題研究[D].北京:中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),2004.
[13]劉書一.基于文本相似度的網(wǎng)頁(yè)消重策略[J].計(jì)算機(jī)應(yīng)用與軟件,2011(11):228-229,278.
Research on the Model of Internet Harmful Information Auto-detection about National Education Examinations
YANG Yuedong&LU Xinzheng
With the rapid development of information technology,the Internet has become the main way of the harmful information on National Education Examinations.In order to ensure fair and safe examination,the examination staff search harmful information using search engines,such as Baidu and Sogou.The search results will be submitted to the relevant departments for disposal.However,this method has some problems,such as low efficiency,small searching scope and low information analysis.In order to solve these problems,this paper presents an Internet harmful information auto-detecting model based on domain knowledge.The model can automatically collect information of the Internet,de-duplicate,classify,and provide the basis data for classification,hot spot analysis and source analysis.Finally,this paper presents the model of cooperation with the existing manual monitoring to form a harmful information monitoring system with large coverage,real-time performance and high accuracy.
NationalEducation Examinations;HarmfulInformation;Information Collection;Information Processing;Domain Knowledge
G405
A
1005-8427(2016)03-0008-7
楊躍東,男,教育部考試中心,工程師,博士(北京 100084)
魯欣正,男,教育部考試中心,處長(zhǎng)(北京 100084)