吳岳廷,李石君
(武漢大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢430072)
與傳統(tǒng)的通用爬蟲不同,領(lǐng)域主題爬蟲的目標(biāo)在于抓取與指定主題相關(guān)的網(wǎng)頁集。目前計(jì)算網(wǎng)頁與特定主題的相關(guān)性通常采用的是基于靜態(tài)關(guān)鍵詞項(xiàng)的頁面量化與向量空間模型相結(jié)合的方法。然而,這種方法忽略了頁面語義層面與主題領(lǐng)域之間的關(guān)系,片面地通過計(jì)算詞頻作為網(wǎng)頁過濾的依據(jù),容易造成爬取的結(jié)果與主題偏離,引入大量的噪音頁面從而降低領(lǐng)域主題爬蟲的抓取效率和實(shí)用性[1]。
為了提高目標(biāo)網(wǎng)頁爬取的準(zhǔn)確度和效率,綜合考慮現(xiàn)有模型和方法的優(yōu)缺點(diǎn),將擴(kuò)展主題特征庫引入網(wǎng)頁相關(guān)度計(jì)算過程中,提出一種基于擴(kuò)展主題特征庫的領(lǐng)域主題爬蟲。該爬蟲基于擴(kuò)展主題特征庫定義網(wǎng)絡(luò)空間中的頁面。為了能夠?qū)崟r(shí)調(diào)整對主題相關(guān)頁面的捕獲粒度,提高對噪音頁面的識(shí)別精度,在網(wǎng)頁抓取過程中動(dòng)態(tài)地更新主題庫,通過動(dòng)態(tài)的擴(kuò)展主題項(xiàng)和網(wǎng)頁相關(guān)度計(jì)算算法量化頁面的主題相關(guān)度,剔除不相關(guān)或相關(guān)性較弱的網(wǎng)頁,從而彌補(bǔ)了傳統(tǒng)的領(lǐng)域主題爬蟲對網(wǎng)頁語義層次處理的不足。最后通過對新舊方法的實(shí)驗(yàn)結(jié)果進(jìn)行分析與比較,驗(yàn)證改進(jìn)后的主題爬蟲的優(yōu)勢。
在網(wǎng)絡(luò)空間中,網(wǎng)頁是由各種類型的HTML 標(biāo)簽和嵌入在其中的文本內(nèi)容所組成,不同種類的標(biāo)簽放置在網(wǎng)頁的不同區(qū)域體現(xiàn)其對頁面的不同作用[3]。例如突出強(qiáng)調(diào)重要信息,劃分文本塊結(jié)構(gòu)或者裝載子標(biāo)簽形成嵌套復(fù)雜結(jié)構(gòu) (類似容器)等多種功能,而同類型的標(biāo)簽通常在頁面的表現(xiàn)形式中發(fā)揮類似的作用。例如,<strong>、<b>、<h1>、<i>都在頁面中起到對重點(diǎn)內(nèi)容進(jìn)行突出展示的作用,而<p>、<div>、<span>起著類似于文本容器的作用。正因?yàn)榫W(wǎng)頁與HTML標(biāo)簽存在緊密的聯(lián)系,且標(biāo)簽可以根據(jù)其功能劃分成不同的類型集,因此可以將網(wǎng)頁抽象成重要標(biāo)簽塊和標(biāo)簽塊相互之間關(guān)系集的節(jié)點(diǎn)集模型
根據(jù)Web站點(diǎn)中不同種類的網(wǎng)頁從中抽取出所有代表性的標(biāo)簽,表示成標(biāo)簽塊節(jié)點(diǎn) (tag-block node),所有標(biāo)簽塊節(jié)點(diǎn)及其相互之間的關(guān)系構(gòu)成整體頁面。具體表示如下所示
式中:TN——頁面中的所有標(biāo)簽塊節(jié)點(diǎn)的集合,Block(m)——由標(biāo)簽塊節(jié)點(diǎn)的詳細(xì)結(jié)構(gòu),m——頁面中標(biāo)簽塊的數(shù)目。BlockId——標(biāo)簽塊節(jié)點(diǎn)編號(hào),是對頁面中特定位置特定類型標(biāo)簽的唯一標(biāo)識(shí),BlockName——標(biāo)簽塊的名稱,BlockDetail——對標(biāo)簽塊的描述信息,BlockContent——標(biāo)簽塊內(nèi)的文本內(nèi)容,BlockType——標(biāo)簽塊節(jié)點(diǎn)類型,由塊內(nèi)標(biāo)簽的功能特點(diǎn)決定。AttributeSet——標(biāo)簽塊的屬性集合,KeyTagSet——節(jié)點(diǎn)中的重要標(biāo)簽集合,weight——標(biāo)簽節(jié)點(diǎn)的權(quán)重,impact——標(biāo)簽塊節(jié)點(diǎn)的影響因子。
各標(biāo)簽塊節(jié)點(diǎn)的影響因子 (impact factor)和權(quán)值(weight)不同,在計(jì)算其影響因子和權(quán)值之前,首先給出影響因子和權(quán)值的定義。
定義1 標(biāo)簽塊節(jié)點(diǎn)影響因子標(biāo)簽塊節(jié)點(diǎn)p 的影響因子Block.impact是對節(jié)點(diǎn)p 對頁面主題的語義和結(jié)構(gòu)方面綜合影響力的量值。由塊所含有的標(biāo)簽和其在頁面中的所在的區(qū)域特征等因素所構(gòu)成。
通常而言,頁面的任意一區(qū)域塊,如果其含有的重要標(biāo)簽數(shù)目越多,則其重要性即影響因子越大;塊中的標(biāo)簽和文本內(nèi)容對塊類型貢獻(xiàn)出的語義特征越顯著,其影響因子相應(yīng)地也越大。根據(jù)這兩點(diǎn),可以將標(biāo)簽塊節(jié)點(diǎn)的影響因子的數(shù)值量化成二者的加權(quán)組合求和。計(jì)算方法如式(3)所示
式中:Block.impact0由塊節(jié)點(diǎn)中含有的重要信息標(biāo)簽的數(shù)量決定,——Block.impact0對應(yīng)的權(quán)值,計(jì)算公式如下所示
式中:keyTagSet——標(biāo)簽塊中含有的所有關(guān)鍵標(biāo)簽集,keyTagSet.size ()——標(biāo)簽塊節(jié)點(diǎn)中關(guān)鍵標(biāo)簽的個(gè)數(shù)。Block.impact1根據(jù)經(jīng)驗(yàn)值設(shè)定,根據(jù)標(biāo)簽塊節(jié)點(diǎn)Block-Type的不同設(shè)置不同的數(shù)值。
定義2 標(biāo)簽塊節(jié)點(diǎn)權(quán)值標(biāo)簽塊塊節(jié)點(diǎn)權(quán)值指其影響因子在其所在的頁面所有標(biāo)簽塊影響因子數(shù)值總和中的比例。
塊節(jié)點(diǎn)的影響因子具有可傳遞性。如果某個(gè)塊含有關(guān)鍵標(biāo)簽和重要文本信息,即其影響因子較大,則該區(qū)域塊的外層嵌套塊的影響因子也隨之受影響而相應(yīng)較大。類似于這種情形,如果隨著網(wǎng)頁主題的轉(zhuǎn)移某一標(biāo)簽塊的重要性發(fā)生變化,則影響因子會(huì)擴(kuò)展到其相鄰的或內(nèi)包含的區(qū)域塊,最終影響塊節(jié)點(diǎn)權(quán)值。mj的權(quán)值計(jì)算公式如下所示
在網(wǎng)頁WP 中統(tǒng)計(jì)得出塊mj中關(guān)鍵詞j 的詞項(xiàng)頻率WTfij,即可以計(jì)算出詞項(xiàng)j的權(quán)值
式中:m——網(wǎng)頁中所有的重要詞項(xiàng)總數(shù),NT——WP-m頁面模型中標(biāo)簽塊節(jié)點(diǎn)的總數(shù)。
傳統(tǒng)爬蟲的主題特征庫是一個(gè)靜態(tài)的常量。根據(jù)特定專業(yè)領(lǐng)域的特點(diǎn)由富有經(jīng)驗(yàn)的領(lǐng)域?qū)<医?,結(jié)合網(wǎng)頁相關(guān)度計(jì)算策略來篩選網(wǎng)頁,以決定網(wǎng)頁是否下載到本地文件系統(tǒng)或者數(shù)據(jù)庫中。靜態(tài)的主題特征庫 (static topic feature library,STFL)由于在爬蟲爬取網(wǎng)頁的過程中不能根據(jù)爬取的深度和已處理的站點(diǎn)規(guī)律作出適應(yīng)性變化,所以缺乏靈活性和可變性。而且單純根據(jù)獨(dú)立的關(guān)鍵詞項(xiàng)來篩選網(wǎng)頁還忽略了對頁面語義層次的相關(guān)度考量,易漏掉很多不屬于靜態(tài)主題特征庫但含有很多與特征庫中的關(guān)鍵詞項(xiàng)同義或近義詞的網(wǎng)頁集。
為了提高主題特征關(guān)鍵詞的區(qū)分能力和移植性,在相對較少的時(shí)間內(nèi)搜索少而準(zhǔn)確的網(wǎng)頁集,同時(shí)盡可能動(dòng)態(tài)地在爬取過程中適應(yīng)主題多變性的要求,這就要求與主題相關(guān)的特征項(xiàng)是動(dòng)態(tài)變化的,且包含體現(xiàn)頁面語義的特征項(xiàng)。具備這樣特點(diǎn)的特征庫稱之為動(dòng)態(tài)主題特征庫 (dynamic topic feature library,DTFL)。將靜態(tài)和動(dòng)態(tài)的主題特征庫結(jié)合起來形成了擴(kuò)展主題特征庫 (extended topic feature library,ETFL),如下所示
主題特征項(xiàng)通常包括事物主體、時(shí)間、地點(diǎn)以及詳情信息等要素。為了精確地描述專業(yè)領(lǐng)域內(nèi)的特定概念和事件,主題特征項(xiàng)應(yīng)該至少包含事物發(fā)生的主體,專業(yè)領(lǐng)域內(nèi)的專用詞匯以及有利情報(bào)的判定詞。事物發(fā)生的主體定義了事物涉及的團(tuán)體或機(jī)構(gòu),專用詞匯則限定事物的范圍,具有指向性強(qiáng)和專業(yè)領(lǐng)域分辨度高等特點(diǎn),情報(bào)判定詞則在一定程度上定義了信息的有效性和重要性,結(jié)合3種關(guān)鍵詞項(xiàng)可以最基本地描述一個(gè)領(lǐng)域主題。以稅務(wù)領(lǐng)域?yàn)槔?,涉稅主體包括國稅機(jī)關(guān),地稅機(jī)關(guān)在內(nèi)的征稅主體和個(gè)體工商戶、企業(yè)集團(tuán)在內(nèi)的納稅主體;涉稅專業(yè)詞匯包括印花稅、對物稅等,這類詞大量應(yīng)用于稅務(wù)領(lǐng)域,對辨別稅務(wù)信息非常有效。
另一方面,由于稅務(wù)信息種類繁多,為了從多而繁雜的涉稅信息中爬取到稅收情報(bào)相關(guān)信息,有必要對頁面信息作價(jià)值性判定分析。因此需要在主題特征庫中引入體現(xiàn)稅收情報(bào)信息特點(diǎn)的判定詞項(xiàng),這類詞對網(wǎng)頁內(nèi)容是否具備稅務(wù)情報(bào)特點(diǎn)具有較強(qiáng)的引導(dǎo)和分辨力,能決定頁面是否具有情報(bào)利用價(jià)值。涉稅主題特征詞項(xiàng)的示例見表1。
表1 涉稅信息的主題特征詞項(xiàng)示例
因?yàn)椴煌恢煤皖愋偷臉?biāo)簽對網(wǎng)頁主題的貢獻(xiàn)重要性不同。例如同樣是標(biāo)題,網(wǎng)頁標(biāo)題和段落標(biāo)題對網(wǎng)頁主題的貢獻(xiàn)度不同,對超鏈接進(jìn)行描述的錨文本和網(wǎng)頁正文對網(wǎng)頁的重要性也不一樣??梢灾匾圆煌臉?biāo)簽劃分到不同的標(biāo)簽塊節(jié)點(diǎn)中,因?yàn)槠鋵λ鶎僦黝}的區(qū)分貢獻(xiàn)度不同,所以在主題特征項(xiàng)的提取過程中需要對不同的標(biāo)簽進(jìn)行區(qū)別對待。下面是本文提出的網(wǎng)頁主題動(dòng)態(tài)提取算法的偽代碼:
基于靜態(tài)主題特征庫進(jìn)行爬取被證實(shí)存在諸多缺陷,要改進(jìn)網(wǎng)頁過濾算法首要要對主題特征庫進(jìn)行擴(kuò)展。擴(kuò)展主要采取如下兩種方案。
一種方案是基于Wikipedia,HowNet等電子資料庫來生成動(dòng)態(tài)主題特征庫,這種方法通過采用包含同義詞和上下位相關(guān)聯(lián)詞在內(nèi)的同義詞典的方式來擴(kuò)展特征庫[9]。第二種方案是通過在Google、百度等主流的搜索引擎的搜索框中輸入原始的靜態(tài)主題特征項(xiàng),在搜索引擎返回的搜索結(jié)果中選擇前top L 篇文檔作為預(yù)選頁面,利用2.2所示的網(wǎng)頁主題特征提取算法從上述頁面中抽取擴(kuò)展特征項(xiàng);
以第二種方案為例,其執(zhí)行過程是,針對原始主題特征庫中的每一個(gè)特征項(xiàng),在Google等搜索引擎中輸入詞rw,Google基于詞rw 返回一個(gè)結(jié)果列表,其中包括一系列與rw 相關(guān)的URL列表,選取前Top L 個(gè)URL,下載至本地文件系統(tǒng)中,構(gòu)成與詞項(xiàng)rw 相關(guān)的網(wǎng)頁集WSet。然后對WSet中的網(wǎng)頁進(jìn)行正文抽取,去除正文中的停用詞和主題噪音詞,采用式 (6)所示的加權(quán)的TF*IDF 公式計(jì)算出的權(quán)值Wek對結(jié)果進(jìn)行排序,選擇詞頻排在前Top n位的擴(kuò)展詞構(gòu)成詞集 {e1,e2,...,en},作為基于rw 詞項(xiàng)擴(kuò)展的主題特征項(xiàng)集。在經(jīng)過用戶的辨別,篩選和編輯后,加入到擴(kuò)展主題庫特征庫中
式中:w——詞項(xiàng),f (ek)——詞w 在頁面中的詞頻,fmax——頁面中所有詞詞頻的最大值。采用兩種方案相結(jié)合的方法生成擴(kuò)展主題特征庫的算法描述如下所示:
設(shè)Topic表示某一主題的名稱,TD 表示對主題Topic的描述字符串,SE 表示Google、百度等主流搜索引擎集合,OL 表示Hownet、Wikipedia等在線語料庫集合,IW為用戶手動(dòng)輸入的主題特征項(xiàng)集,EW 表示通過方案一提取出的擴(kuò)展詞項(xiàng),SW 表示通過方案二提取出的擴(kuò)展詞項(xiàng),UT 為主題特征項(xiàng)待選集,CT 為經(jīng)過用戶確認(rèn)后的主題特征項(xiàng)集,CT_s為涉稅主體特征項(xiàng)集,CT_t為涉稅專業(yè)特征項(xiàng)集,CT_i為稅務(wù)情報(bào)判定特征項(xiàng)集,RS 經(jīng)過用戶確認(rèn)后的種子URL 集。SU 表示主題Topic的種子URL(爬蟲最開始爬取的站點(diǎn))待選集,CU 為經(jīng)過用戶確認(rèn)后的種子URL集合。
接著定義一些方法來描述主題特征集動(dòng)態(tài)擴(kuò)展算法中的子過程。
方法fq(U)表示將網(wǎng)頁下載到本地文件系統(tǒng)中或者將網(wǎng)頁相關(guān)信息存儲(chǔ)到數(shù)據(jù)庫中的過程。
σ(p)表示從網(wǎng)頁P(yáng) 中下自動(dòng)抽取出主題特征詞項(xiàng)的過程。
方法fe(UT)表示用戶對主題特征項(xiàng)的辨別,篩選和編輯后,形成最終主題特征項(xiàng)集的過程。
方法fc(CT)表示根據(jù)稅務(wù)主題的特點(diǎn)對主題特征項(xiàng)進(jìn)行分類的過程。
主題特征庫動(dòng)態(tài)擴(kuò)展的算法描述如下所示:
因?yàn)椴煌愋偷臉?biāo)簽塊節(jié)點(diǎn)對網(wǎng)頁主題的貢獻(xiàn)度不同,所以對各部分進(jìn)行加權(quán)求和,公式如下所示
式中:Rtitle(wp)——標(biāo)題的主題相關(guān)度,Rcontent(wp)——正文的主題相關(guān)度,Rnavigation(wp)——網(wǎng)頁導(dǎo)航欄的主題相關(guān)度,Ranchor(wp)——網(wǎng)頁內(nèi)錨文本的主題相關(guān)度,Rother(wp)——其它類標(biāo)標(biāo)簽塊節(jié)點(diǎn)的主題相關(guān)度。
其中,各標(biāo)簽塊節(jié)點(diǎn)主題相關(guān)度的計(jì)算方法是采用向量空間模型 (vector space model,VSM)和TF-IDF算法相結(jié)合的方法。使用VSM 將網(wǎng)頁wp表示為各詞項(xiàng)權(quán)重組成的主題特征向量。即wp ={w1,w2,…,wn},其中wt表示詞項(xiàng)t在網(wǎng)頁中的權(quán)重值。
在擴(kuò)展特征庫中,將領(lǐng)域主體Fb,領(lǐng)域?qū)I(yè)詞Fs,領(lǐng)域情報(bào)判定詞Fv表示成主題特征向量
通過TF-IDF算法對頁面中各詞項(xiàng)的權(quán)重值進(jìn)行計(jì)算,計(jì)算公式如下所示
上述公式中的tft為詞項(xiàng)t頁面中出現(xiàn)的頻數(shù),idft為詞項(xiàng)的逆文本頻率。為了避免網(wǎng)頁文本內(nèi)容的篇幅的長短給權(quán)值計(jì)算造成的影響,對權(quán)值進(jìn)行歸一化處理,計(jì)算方法如式 (13)所示
式中:fl(t)——特征項(xiàng)t所在的標(biāo)簽塊節(jié)點(diǎn)l 的位置權(quán)值,L——f(t)所在的標(biāo)簽塊總數(shù)。越能體現(xiàn)網(wǎng)頁主題且與其它標(biāo)簽塊的區(qū)分度越高的節(jié)點(diǎn),其fl(t)的值越大,反之則越低。
fl(t)的計(jì)算方法如式 (14)所示
最后使用余弦相似度計(jì)算式 (15)計(jì)算網(wǎng)頁P(yáng)j與相應(yīng)主題T 的相關(guān)度
根據(jù)主題T 的特點(diǎn)設(shè)置相關(guān)度的閾值η,若sim(Pj,T)≥η,則任務(wù)頁面Pj與主題T 相關(guān),爬蟲允許其通過各處理鏈,最終下載到文件系統(tǒng)或數(shù)據(jù)庫中;否則網(wǎng)頁過濾模塊將其丟棄。
令L= {L1,L2,…,Ls}表示經(jīng)過上述算法生成的擴(kuò)展主題特征庫,其中,Li為擴(kuò)展主題特征項(xiàng),s為主題特征項(xiàng)個(gè)數(shù),WP = {wp1,wp2,…,wpt}表示網(wǎng)頁集。
基于擴(kuò)展主題特征庫的網(wǎng)頁過濾算法的基本思路是:首先對網(wǎng)頁pj進(jìn)行分析,表示成如1.1小節(jié)所示的標(biāo)簽塊節(jié)點(diǎn)集模型,并抽取出重要的詞項(xiàng)構(gòu)成精簡的網(wǎng)頁文本集sj,將sj中與擴(kuò)展項(xiàng)ei具有同義或者上下相關(guān)的詞項(xiàng)替換成主題概念ci,通過使用主題概念代替固定的關(guān)鍵詞,從而使對網(wǎng)頁與主題的相關(guān)性評定轉(zhuǎn)化為語義層次的頁面文本概念集與擴(kuò)展特征庫的相關(guān)度計(jì)算。算法描述如下:
對于網(wǎng)頁集WP 中的每一個(gè)網(wǎng)頁WPj,基于擴(kuò)展的主題特征集k形成基于概念的新頁面WPj’,在算法開始執(zhí)行時(shí),WPj’與原始頁面基本相同。
記擴(kuò)展主題特征庫為E= {E1,E2,…,En},Ei={ei1,ei2,…,ein},其中eij(1≤i≤n,1≤j≤t)表示根據(jù)關(guān)鍵詞ei擴(kuò)展出的同義詞或者上下相關(guān)聯(lián)詞;對每個(gè)原始詞ei將Ei的每一項(xiàng)存入template;
根據(jù)式 (13),可以計(jì)算出基于概念的新頁面WP’j的特征向量 (w1,j’,w2,j’,...,wn,j’)。設(shè)定θ為閾值,如果網(wǎng)頁WPj的主題相關(guān)性sim(Pj,T)≥θ,則認(rèn)為頁面為主題相關(guān),應(yīng)該下載。
為了檢驗(yàn)本文中提出的領(lǐng)域主題爬蟲在網(wǎng)頁過濾方法上的有效性,選定稅務(wù)領(lǐng)域?yàn)槭纠瑢⒒跀U(kuò)展主題特征庫的涉稅主題爬蟲與基于靜態(tài)關(guān)鍵詞的涉稅主題爬蟲在相同的實(shí)驗(yàn)環(huán)境中進(jìn)行爬取,然后對結(jié)果進(jìn)行分析和比較。
實(shí)驗(yàn)采用CentOS6.2作為操作系統(tǒng),選用Sybase ASE 15.0.3for Linux作為數(shù)據(jù)庫管理系統(tǒng),開發(fā)集成環(huán)境為InteliJIDEA+jdk-6u10-rc2。
衡量主題爬蟲網(wǎng)頁過濾策略是否優(yōu)良的一個(gè)重要指標(biāo)是頁面抓取精度RR (relevance ratio),頁面抓取精度RR=涉稅主題爬蟲實(shí)際抓取的主題相關(guān)網(wǎng)頁數(shù)目relevant_pages/領(lǐng)域主題爬蟲實(shí)際抓取的主題相關(guān)網(wǎng)頁數(shù)目/領(lǐng)域主題爬蟲爬取的網(wǎng)頁總數(shù)total_crawled。除此之外,衡量爬取抓取結(jié)果的兩個(gè)重要指標(biāo)為準(zhǔn)確率precision和召回率recall,準(zhǔn)確率precision =領(lǐng)域主題爬蟲實(shí)際抓取的主題相關(guān)網(wǎng)頁數(shù)目relevant_pages/經(jīng)過爬蟲判定為主題相關(guān)后下載的主題相關(guān)網(wǎng)頁的數(shù)目fetch_pages,召回率recall =領(lǐng)域主題爬蟲實(shí)際抓取的主題相關(guān)網(wǎng)頁數(shù)目relevant_pages/網(wǎng)絡(luò)空間中實(shí)際存在的與主題相關(guān)的網(wǎng)頁數(shù)目existing_relevant_pages,為了能夠綜合體現(xiàn)準(zhǔn)確率和召回率的指標(biāo)性,引入指標(biāo)F,計(jì)算公式如下所示
實(shí)驗(yàn)結(jié)果如表2和圖1所示。
由表2的實(shí)驗(yàn)結(jié)果分析得出,相對于傳統(tǒng)的靜態(tài)特征庫,采用擴(kuò)展特征庫的涉稅主題爬蟲準(zhǔn)確率precision 對比傳統(tǒng)主題爬蟲提高了23.74%,召回率recall 提高了24.28%,二者的綜合因素F 對比提高了24.43%,爬取結(jié)果中主題相關(guān)性網(wǎng)頁的比例明顯增大。而從圖1網(wǎng)頁抓取精度和已爬取網(wǎng)頁總數(shù)的動(dòng)態(tài)變化趨勢圖可以看出,在網(wǎng)頁抓取初期階段,由于初始URL 和根據(jù)鏈接分析得出的URL離主題相關(guān)性資源集中域較近,所以兩種爬蟲中的網(wǎng)頁的抓取精度都比較高而且差距較小,而隨著爬蟲的運(yùn)行,處理的頁面網(wǎng)址偏離主題資源區(qū)域的概率增大,抓取精度下降比較快,且差距增大。觀察可知,隨著爬蟲的運(yùn)行,基于擴(kuò)展主題特征庫的主題爬蟲網(wǎng)抓取精度均比基于靜態(tài)主題庫的高,而且上下浮動(dòng)比較小,表明爬取精度較為穩(wěn)定;而靜態(tài)主題庫爬蟲的實(shí)驗(yàn)結(jié)果上下浮動(dòng)比較大,表示判定主題相關(guān)性網(wǎng)頁的穩(wěn)定性不足,易引入主題噪音頁面。
表2 兩次采集實(shí)驗(yàn)結(jié)果對比
圖1 靜態(tài)主題庫與動(dòng)態(tài)主題庫對比
因此,通過實(shí)驗(yàn)結(jié)果表2和圖1的分析和比較可知,相比于傳統(tǒng)的基于靜態(tài)關(guān)鍵詞項(xiàng)的領(lǐng)域主題爬蟲,基于擴(kuò)展主題庫的主題爬蟲能夠更精準(zhǔn)地對主題相關(guān)性頁面進(jìn)行下載,對主題噪音頁面進(jìn)行過濾,使網(wǎng)頁抓取更加高效和實(shí)用。
在領(lǐng)域主題爬蟲中,傳統(tǒng)的方法僅根據(jù)網(wǎng)頁的靜態(tài)主題特征庫來定義主題相關(guān)性網(wǎng)頁,缺乏對隱藏在主題特征項(xiàng)之間語義層次關(guān)系的處理。本文提出一種基于擴(kuò)展主題特征庫的新型領(lǐng)域主題爬蟲。該爬蟲通過標(biāo)簽塊節(jié)點(diǎn)集模型定義頁面,通過在線語料庫和從擴(kuò)展頁面中動(dòng)態(tài)提取特征項(xiàng)等方式對主題特征項(xiàng)進(jìn)行擴(kuò)充,生成擴(kuò)展主題特征庫,并結(jié)合改進(jìn)的網(wǎng)頁相關(guān)性判定算法對網(wǎng)頁進(jìn)行過濾。這種方法綜合了特征項(xiàng)的詞頻與頁面主題概念兩方面的因素,彌補(bǔ)了傳統(tǒng)方法對網(wǎng)頁語義和概念層次上的缺失。實(shí)際測試和項(xiàng)目應(yīng)用結(jié)果表明,引入擴(kuò)展主題特征庫的領(lǐng)域主題爬蟲在網(wǎng)頁抓取中具有較強(qiáng)的定向性和準(zhǔn)確度。下一步將對網(wǎng)頁正文的抽取和主題噪音頁面模式的識(shí)別方面進(jìn)行研究,以進(jìn)一步提高爬蟲對目標(biāo)頁面抓取的效率和精確度。
[1]HUANG Ren,WANG Liangwei.Research on focused crawler based on topic-related concept and page segmentation[J].Applica-tion Research of Computers,2013,30 (8):2377-2380 (in Chinese).[黃仁,王良偉.基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30 (8):2377-2380.]
[2]Ramiz MA.A new sentence similarity measure and sentence based extractive technique for automatic text summarization [J].Expert Systems with Application,2009,36 (4):7764-7772.
[3]HUANG Chenghui,YIN Jian,HOU Fang.A text similarity measurement combining word semantic information with TFIDF method [J].Chinese Journal of Computers,2011,34(5):856-863 (in Chinese). [黃承慧,印鑒,侯昉.一種結(jié)合語義信息和TF-IDF方法的文本相似度量方法 [J].計(jì)算機(jī)學(xué)報(bào),2011,34 (5):856-863.]
[4]JIN Mingzhu,DING Yuewei.Topic crawler based on dynamic topic knowledge base [J].Journal of Computer Application,2009,29:45-46 (in Chinese).[金明珠,丁岳偉.基于動(dòng)態(tài)主題庫的主題爬蟲 [J].計(jì)算機(jī)應(yīng)用,2009,29:44-46.]
[5]JU Shiguang,LV Xia,WANG Jing.Temporal link-analyze based on Web page ranking algorithm [J].Application Research of Computers,2009,26 (7):2438-2441(in Chinese). [鞠時(shí)光,呂霞,王婧.基于時(shí)間鏈接分析的頁面排序優(yōu)化算法 [J].計(jì)算機(jī)應(yīng)用與研究,2009,26 (7):2438-2441.]
[6]WANG Zhihua,WEI Bin,LI Zhanbo,et al.Web information extraction system based on ontology [J].Computer Engineering and Design,2012,33 (7):2634-2639 (in Chinese).[王志華,魏斌,李占波,等.基于本體的Web研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33 (7):2634-2639.]
[7]JIN Mingzhu,DING Yuewei.Research and implementation for topic crawler using statistic model[J].Computer Engineering and Design,2010,31 (16):3700-3704 (in Chinese).[金明珠,丁岳偉.基于模型統(tǒng)計(jì)的主題爬蟲的研究與實(shí)現(xiàn) [J].計(jì)算工程與設(shè)計(jì),2010,31 (16):3700-3704.]
[8]GUAN Huifen,SHI Jun.Focused crawler technology based on ontology [J].Computer Simulation,2009,26 (10):123-126 (in Chinese).[關(guān)慧芬,師軍.基于本體的主題爬蟲技術(shù)研究 [J].計(jì)算機(jī)仿真,2009,26 (10):123-126.]
[9]TIAN Xuan,LI Dongmei.Probability estimation for semantic association on domain ontology [J].Computer Engineering and Application,2011,47 (27):136-140 (in Chinese).[田萱,李冬梅.領(lǐng)域本體中概念間語義相關(guān)度的概率估計(jì) [J].計(jì)算機(jī)工程與應(yīng)用,2011,47 (27):136-140.]
[10]DAI Kuan,ZHAO Hui,HAN Dong,et al.Theme feature extraction of Chinese Web page based on vector space model[J].Journal of Jilin University,2014,32 (1):88-93 (in Chinese).[代寬,趙輝,韓東,等.基于向量空間模型的中文網(wǎng)頁主題特征項(xiàng)抽取[J].吉林大學(xué)學(xué)報(bào),2014,32 (1):88-93.]