基于擴(kuò)展主題特征庫的領(lǐng)域主題爬蟲

2015-12-23 00:59吳岳廷李石君

計(jì)算機(jī)工程與設(shè)計(jì) 2015年5期

吳岳廷，李石君

（武漢大學(xué) 計(jì)算機(jī)學(xué)院，湖北武漢430072）

0 引言

與傳統(tǒng)的通用爬蟲不同，領(lǐng)域主題爬蟲的目標(biāo)在于抓取與指定主題相關(guān)的網(wǎng)頁集。目前計(jì)算網(wǎng)頁與特定主題的相關(guān)性通常采用的是基于靜態(tài)關(guān)鍵詞項(xiàng)的頁面量化與向量空間模型相結(jié)合的方法。然而，這種方法忽略了頁面語義層面與主題領(lǐng)域之間的關(guān)系，片面地通過計(jì)算詞頻作為網(wǎng)頁過濾的依據(jù)，容易造成爬取的結(jié)果與主題偏離，引入大量的噪音頁面從而降低領(lǐng)域主題爬蟲的抓取效率和實(shí)用性［1］。

為了提高目標(biāo)網(wǎng)頁爬取的準(zhǔn)確度和效率，綜合考慮現(xiàn)有模型和方法的優(yōu)缺點(diǎn)，將擴(kuò)展主題特征庫引入網(wǎng)頁相關(guān)度計(jì)算過程中，提出一種基于擴(kuò)展主題特征庫的領(lǐng)域主題爬蟲。該爬蟲基于擴(kuò)展主題特征庫定義網(wǎng)絡(luò)空間中的頁面。為了能夠?qū)崟r(shí)調(diào)整對主題相關(guān)頁面的捕獲粒度，提高對噪音頁面的識(shí)別精度，在網(wǎng)頁抓取過程中動(dòng)態(tài)地更新主題庫，通過動(dòng)態(tài)的擴(kuò)展主題項(xiàng)和網(wǎng)頁相關(guān)度計(jì)算算法量化頁面的主題相關(guān)度，剔除不相關(guān)或相關(guān)性較弱的網(wǎng)頁，從而彌補(bǔ)了傳統(tǒng)的領(lǐng)域主題爬蟲對網(wǎng)頁語義層次處理的不足。最后通過對新舊方法的實(shí)驗(yàn)結(jié)果進(jìn)行分析與比較，驗(yàn)證改進(jìn)后的主題爬蟲的優(yōu)勢。

1 標(biāo)簽塊節(jié)點(diǎn)

1.1 標(biāo)簽塊節(jié)點(diǎn)數(shù)據(jù)結(jié)構(gòu)

在網(wǎng)絡(luò)空間中，網(wǎng)頁是由各種類型的HTML 標(biāo)簽和嵌入在其中的文本內(nèi)容所組成，不同種類的標(biāo)簽放置在網(wǎng)頁的不同區(qū)域體現(xiàn)其對頁面的不同作用［3］。例如突出強(qiáng)調(diào)重要信息，劃分文本塊結(jié)構(gòu)或者裝載子標(biāo)簽形成嵌套復(fù)雜結(jié)構(gòu) （類似容器）等多種功能，而同類型的標(biāo)簽通常在頁面的表現(xiàn)形式中發(fā)揮類似的作用。例如，＜strong＞、＜b＞、＜h1＞、＜i＞都在頁面中起到對重點(diǎn)內(nèi)容進(jìn)行突出展示的作用，而＜p＞、＜div＞、＜span＞起著類似于文本容器的作用。正因?yàn)榫W(wǎng)頁與HTML標(biāo)簽存在緊密的聯(lián)系，且標(biāo)簽可以根據(jù)其功能劃分成不同的類型集，因此可以將網(wǎng)頁抽象成重要標(biāo)簽塊和標(biāo)簽塊相互之間關(guān)系集的節(jié)點(diǎn)集模型

根據(jù)Web站點(diǎn)中不同種類的網(wǎng)頁從中抽取出所有代表性的標(biāo)簽，表示成標(biāo)簽塊節(jié)點(diǎn) （tag－block node），所有標(biāo)簽塊節(jié)點(diǎn)及其相互之間的關(guān)系構(gòu)成整體頁面。具體表示如下所示

式中：TN——頁面中的所有標(biāo)簽塊節(jié)點(diǎn)的集合，Block（m）——由標(biāo)簽塊節(jié)點(diǎn)的詳細(xì)結(jié)構(gòu)，m——頁面中標(biāo)簽塊的數(shù)目。BlockId——標(biāo)簽塊節(jié)點(diǎn)編號(hào)，是對頁面中特定位置特定類型標(biāo)簽的唯一標(biāo)識(shí)，BlockName——標(biāo)簽塊的名稱，BlockDetail——對標(biāo)簽塊的描述信息，BlockContent——標(biāo)簽塊內(nèi)的文本內(nèi)容，BlockType——標(biāo)簽塊節(jié)點(diǎn)類型，由塊內(nèi)標(biāo)簽的功能特點(diǎn)決定。AttributeSet——標(biāo)簽塊的屬性集合，KeyTagSet——節(jié)點(diǎn)中的重要標(biāo)簽集合，weight——標(biāo)簽節(jié)點(diǎn)的權(quán)重，impact——標(biāo)簽塊節(jié)點(diǎn)的影響因子。

1.2 標(biāo)簽塊節(jié)點(diǎn)的影響因子和權(quán)值

各標(biāo)簽塊節(jié)點(diǎn)的影響因子（impact factor）和權(quán)值（weight）不同，在計(jì)算其影響因子和權(quán)值之前，首先給出影響因子和權(quán)值的定義。

定義1 標(biāo)簽塊節(jié)點(diǎn)影響因子標(biāo)簽塊節(jié)點(diǎn)p 的影響因子Block.impact是對節(jié)點(diǎn)p 對頁面主題的語義和結(jié)構(gòu)方面綜合影響力的量值。由塊所含有的標(biāo)簽和其在頁面中的所在的區(qū)域特征等因素所構(gòu)成。

通常而言，頁面的任意一區(qū)域塊，如果其含有的重要標(biāo)簽數(shù)目越多，則其重要性即影響因子越大；塊中的標(biāo)簽和文本內(nèi)容對塊類型貢獻(xiàn)出的語義特征越顯著，其影響因子相應(yīng)地也越大。根據(jù)這兩點(diǎn)，可以將標(biāo)簽塊節(jié)點(diǎn)的影響因子的數(shù)值量化成二者的加權(quán)組合求和。計(jì)算方法如式（3）所示

式中：Block.impact0由塊節(jié)點(diǎn)中含有的重要信息標(biāo)簽的數(shù)量決定，——Block.impact0對應(yīng)的權(quán)值，計(jì)算公式如下所示

式中：keyTagSet——標(biāo)簽塊中含有的所有關(guān)鍵標(biāo)簽集，keyTagSet.size （）——標(biāo)簽塊節(jié)點(diǎn)中關(guān)鍵標(biāo)簽的個(gè)數(shù)。Block.impact1根據(jù)經(jīng)驗(yàn)值設(shè)定，根據(jù)標(biāo)簽塊節(jié)點(diǎn)Block－Type的不同設(shè)置不同的數(shù)值。

定義2 標(biāo)簽塊節(jié)點(diǎn)權(quán)值標(biāo)簽塊塊節(jié)點(diǎn)權(quán)值指其影響因子在其所在的頁面所有標(biāo)簽塊影響因子數(shù)值總和中的比例。

塊節(jié)點(diǎn)的影響因子具有可傳遞性。如果某個(gè)塊含有關(guān)鍵標(biāo)簽和重要文本信息，即其影響因子較大，則該區(qū)域塊的外層嵌套塊的影響因子也隨之受影響而相應(yīng)較大。類似于這種情形，如果隨著網(wǎng)頁主題的轉(zhuǎn)移某一標(biāo)簽塊的重要性發(fā)生變化，則影響因子會(huì)擴(kuò)展到其相鄰的或內(nèi)包含的區(qū)域塊，最終影響塊節(jié)點(diǎn)權(quán)值。mj的權(quán)值計(jì)算公式如下所示

在網(wǎng)頁WP 中統(tǒng)計(jì)得出塊mj中關(guān)鍵詞j 的詞項(xiàng)頻率WTfij，即可以計(jì)算出詞項(xiàng)j的權(quán)值

式中：m——網(wǎng)頁中所有的重要詞項(xiàng)總數(shù)，NT——WP－m頁面模型中標(biāo)簽塊節(jié)點(diǎn)的總數(shù)。

2 擴(kuò)展主題特征庫

傳統(tǒng)爬蟲的主題特征庫是一個(gè)靜態(tài)的常量。根據(jù)特定專業(yè)領(lǐng)域的特點(diǎn)由富有經(jīng)驗(yàn)的領(lǐng)域?qū)＜医?，結(jié)合網(wǎng)頁相關(guān)度計(jì)算策略來篩選網(wǎng)頁，以決定網(wǎng)頁是否下載到本地文件系統(tǒng)或者數(shù)據(jù)庫中。靜態(tài)的主題特征庫（static topic feature library，STFL）由于在爬蟲爬取網(wǎng)頁的過程中不能根據(jù)爬取的深度和已處理的站點(diǎn)規(guī)律作出適應(yīng)性變化，所以缺乏靈活性和可變性。而且單純根據(jù)獨(dú)立的關(guān)鍵詞項(xiàng)來篩選網(wǎng)頁還忽略了對頁面語義層次的相關(guān)度考量，易漏掉很多不屬于靜態(tài)主題特征庫但含有很多與特征庫中的關(guān)鍵詞項(xiàng)同義或近義詞的網(wǎng)頁集。

為了提高主題特征關(guān)鍵詞的區(qū)分能力和移植性，在相對較少的時(shí)間內(nèi)搜索少而準(zhǔn)確的網(wǎng)頁集，同時(shí)盡可能動(dòng)態(tài)地在爬取過程中適應(yīng)主題多變性的要求，這就要求與主題相關(guān)的特征項(xiàng)是動(dòng)態(tài)變化的，且包含體現(xiàn)頁面語義的特征項(xiàng)。具備這樣特點(diǎn)的特征庫稱之為動(dòng)態(tài)主題特征庫（dynamic topic feature library，DTFL）。將靜態(tài)和動(dòng)態(tài)的主題特征庫結(jié)合起來形成了擴(kuò)展主題特征庫（extended topic feature library，ETFL），如下所示

2.1 專業(yè)領(lǐng)域主題特征項(xiàng)

主題特征項(xiàng)通常包括事物主體、時(shí)間、地點(diǎn)以及詳情信息等要素。為了精確地描述專業(yè)領(lǐng)域內(nèi)的特定概念和事件，主題特征項(xiàng)應(yīng)該至少包含事物發(fā)生的主體，專業(yè)領(lǐng)域內(nèi)的專用詞匯以及有利情報(bào)的判定詞。事物發(fā)生的主體定義了事物涉及的團(tuán)體或機(jī)構(gòu)，專用詞匯則限定事物的范圍，具有指向性強(qiáng)和專業(yè)領(lǐng)域分辨度高等特點(diǎn)，情報(bào)判定詞則在一定程度上定義了信息的有效性和重要性，結(jié)合3種關(guān)鍵詞項(xiàng)可以最基本地描述一個(gè)領(lǐng)域主題。以稅務(wù)領(lǐng)域?yàn)槔?，涉稅主體包括國稅機(jī)關(guān)，地稅機(jī)關(guān)在內(nèi)的征稅主體和個(gè)體工商戶、企業(yè)集團(tuán)在內(nèi)的納稅主體；涉稅專業(yè)詞匯包括印花稅、對物稅等，這類詞大量應(yīng)用于稅務(wù)領(lǐng)域，對辨別稅務(wù)信息非常有效。

另一方面，由于稅務(wù)信息種類繁多，為了從多而繁雜的涉稅信息中爬取到稅收情報(bào)相關(guān)信息，有必要對頁面信息作價(jià)值性判定分析。因此需要在主題特征庫中引入體現(xiàn)稅收情報(bào)信息特點(diǎn)的判定詞項(xiàng)，這類詞對網(wǎng)頁內(nèi)容是否具備稅務(wù)情報(bào)特點(diǎn)具有較強(qiáng)的引導(dǎo)和分辨力，能決定頁面是否具有情報(bào)利用價(jià)值。涉稅主題特征詞項(xiàng)的示例見表1。

表1 涉稅信息的主題特征詞項(xiàng)示例

2.2 網(wǎng)頁主題特征項(xiàng)提取算法

因?yàn)椴煌恢煤皖愋偷臉?biāo)簽對網(wǎng)頁主題的貢獻(xiàn)重要性不同。例如同樣是標(biāo)題，網(wǎng)頁標(biāo)題和段落標(biāo)題對網(wǎng)頁主題的貢獻(xiàn)度不同，對超鏈接進(jìn)行描述的錨文本和網(wǎng)頁正文對網(wǎng)頁的重要性也不一樣?？梢灾匾圆煌臉?biāo)簽劃分到不同的標(biāo)簽塊節(jié)點(diǎn)中，因?yàn)槠鋵λ鶎僦黝}的區(qū)分貢獻(xiàn)度不同，所以在主題特征項(xiàng)的提取過程中需要對不同的標(biāo)簽進(jìn)行區(qū)別對待。下面是本文提出的網(wǎng)頁主題動(dòng)態(tài)提取算法的偽代碼：

2.3 擴(kuò)展主題特征庫生成算法

基于靜態(tài)主題特征庫進(jìn)行爬取被證實(shí)存在諸多缺陷，要改進(jìn)網(wǎng)頁過濾算法首要要對主題特征庫進(jìn)行擴(kuò)展。擴(kuò)展主要采取如下兩種方案。

一種方案是基于Wikipedia，HowNet等電子資料庫來生成動(dòng)態(tài)主題特征庫，這種方法通過采用包含同義詞和上下位相關(guān)聯(lián)詞在內(nèi)的同義詞典的方式來擴(kuò)展特征庫［9］。第二種方案是通過在Google、百度等主流的搜索引擎的搜索框中輸入原始的靜態(tài)主題特征項(xiàng)，在搜索引擎返回的搜索結(jié)果中選擇前top L 篇文檔作為預(yù)選頁面，利用2.2所示的網(wǎng)頁主題特征提取算法從上述頁面中抽取擴(kuò)展特征項(xiàng)；

以第二種方案為例，其執(zhí)行過程是，針對原始主題特征庫中的每一個(gè)特征項(xiàng)，在Google等搜索引擎中輸入詞rw，Google基于詞rw 返回一個(gè)結(jié)果列表，其中包括一系列與rw 相關(guān)的URL列表，選取前Top L 個(gè)URL，下載至本地文件系統(tǒng)中，構(gòu)成與詞項(xiàng)rw 相關(guān)的網(wǎng)頁集WSet。然后對WSet中的網(wǎng)頁進(jìn)行正文抽取，去除正文中的停用詞和主題噪音詞，采用式（6）所示的加權(quán)的TF＊IDF 公式計(jì)算出的權(quán)值Wek對結(jié)果進(jìn)行排序，選擇詞頻排在前Top n位的擴(kuò)展詞構(gòu)成詞集｛e1，e2，...，en｝，作為基于rw 詞項(xiàng)擴(kuò)展的主題特征項(xiàng)集。在經(jīng)過用戶的辨別，篩選和編輯后，加入到擴(kuò)展主題庫特征庫中

式中：w——詞項(xiàng)，f （ek）——詞w 在頁面中的詞頻，fmax——頁面中所有詞詞頻的最大值。采用兩種方案相結(jié)合的方法生成擴(kuò)展主題特征庫的算法描述如下所示：

設(shè)Topic表示某一主題的名稱，TD 表示對主題Topic的描述字符串，SE 表示Google、百度等主流搜索引擎集合，OL 表示Hownet、Wikipedia等在線語料庫集合，IW為用戶手動(dòng)輸入的主題特征項(xiàng)集，EW 表示通過方案一提取出的擴(kuò)展詞項(xiàng)，SW 表示通過方案二提取出的擴(kuò)展詞項(xiàng)，UT 為主題特征項(xiàng)待選集，CT 為經(jīng)過用戶確認(rèn)后的主題特征項(xiàng)集，CT＿s為涉稅主體特征項(xiàng)集，CT＿t為涉稅專業(yè)特征項(xiàng)集，CT＿i為稅務(wù)情報(bào)判定特征項(xiàng)集，RS 經(jīng)過用戶確認(rèn)后的種子URL 集。SU 表示主題Topic的種子URL（爬蟲最開始爬取的站點(diǎn)）待選集，CU 為經(jīng)過用戶確認(rèn)后的種子URL集合。

接著定義一些方法來描述主題特征集動(dòng)態(tài)擴(kuò)展算法中的子過程。

方法fq（U）表示將網(wǎng)頁下載到本地文件系統(tǒng)中或者將網(wǎng)頁相關(guān)信息存儲(chǔ)到數(shù)據(jù)庫中的過程。

σ（p）表示從網(wǎng)頁P(yáng) 中下自動(dòng)抽取出主題特征詞項(xiàng)的過程。

方法fe（UT）表示用戶對主題特征項(xiàng)的辨別，篩選和編輯后，形成最終主題特征項(xiàng)集的過程。

方法fc（CT）表示根據(jù)稅務(wù)主題的特點(diǎn)對主題特征項(xiàng)進(jìn)行分類的過程。

主題特征庫動(dòng)態(tài)擴(kuò)展的算法描述如下所示：

3 網(wǎng)頁過濾

3.1 網(wǎng)頁相關(guān)度計(jì)算

因?yàn)椴煌愋偷臉?biāo)簽塊節(jié)點(diǎn)對網(wǎng)頁主題的貢獻(xiàn)度不同，所以對各部分進(jìn)行加權(quán)求和，公式如下所示

式中：Rtitle（wp）——標(biāo)題的主題相關(guān)度，Rcontent（wp）——正文的主題相關(guān)度，Rnavigation（wp）——網(wǎng)頁導(dǎo)航欄的主題相關(guān)度，Ranchor（wp）——網(wǎng)頁內(nèi)錨文本的主題相關(guān)度，Rother（wp）——其它類標(biāo)標(biāo)簽塊節(jié)點(diǎn)的主題相關(guān)度。

其中，各標(biāo)簽塊節(jié)點(diǎn)主題相關(guān)度的計(jì)算方法是采用向量空間模型（vector space model，VSM）和TF－IDF算法相結(jié)合的方法。使用VSM 將網(wǎng)頁wp表示為各詞項(xiàng)權(quán)重組成的主題特征向量。即wp ＝｛w1，w2，…，wn｝，其中wt表示詞項(xiàng)t在網(wǎng)頁中的權(quán)重值。

在擴(kuò)展特征庫中，將領(lǐng)域主體Fb，領(lǐng)域?qū)I(yè)詞Fs，領(lǐng)域情報(bào)判定詞Fv表示成主題特征向量

通過TF－IDF算法對頁面中各詞項(xiàng)的權(quán)重值進(jìn)行計(jì)算，計(jì)算公式如下所示

上述公式中的tft為詞項(xiàng)t頁面中出現(xiàn)的頻數(shù)，idft為詞項(xiàng)的逆文本頻率。為了避免網(wǎng)頁文本內(nèi)容的篇幅的長短給權(quán)值計(jì)算造成的影響，對權(quán)值進(jìn)行歸一化處理，計(jì)算方法如式（13）所示

式中：fl（t）——特征項(xiàng)t所在的標(biāo)簽塊節(jié)點(diǎn)l 的位置權(quán)值，L——f（t）所在的標(biāo)簽塊總數(shù)。越能體現(xiàn)網(wǎng)頁主題且與其它標(biāo)簽塊的區(qū)分度越高的節(jié)點(diǎn)，其fl（t）的值越大，反之則越低。

fl（t）的計(jì)算方法如式（14）所示

最后使用余弦相似度計(jì)算式（15）計(jì)算網(wǎng)頁P(yáng)j與相應(yīng)主題T 的相關(guān)度

根據(jù)主題T 的特點(diǎn)設(shè)置相關(guān)度的閾值η，若sim（Pj，T）≥η，則任務(wù)頁面Pj與主題T 相關(guān)，爬蟲允許其通過各處理鏈，最終下載到文件系統(tǒng)或數(shù)據(jù)庫中；否則網(wǎng)頁過濾模塊將其丟棄。

3.2 基于擴(kuò)展主題特征庫的網(wǎng)頁過濾

令L＝｛L1，L2，…，Ls｝表示經(jīng)過上述算法生成的擴(kuò)展主題特征庫，其中，Li為擴(kuò)展主題特征項(xiàng)，s為主題特征項(xiàng)個(gè)數(shù)，WP ＝｛wp1，wp2，…，wpt｝表示網(wǎng)頁集。

基于擴(kuò)展主題特征庫的網(wǎng)頁過濾算法的基本思路是：首先對網(wǎng)頁pj進(jìn)行分析，表示成如1.1小節(jié)所示的標(biāo)簽塊節(jié)點(diǎn)集模型，并抽取出重要的詞項(xiàng)構(gòu)成精簡的網(wǎng)頁文本集sj，將sj中與擴(kuò)展項(xiàng)ei具有同義或者上下相關(guān)的詞項(xiàng)替換成主題概念ci，通過使用主題概念代替固定的關(guān)鍵詞，從而使對網(wǎng)頁與主題的相關(guān)性評定轉(zhuǎn)化為語義層次的頁面文本概念集與擴(kuò)展特征庫的相關(guān)度計(jì)算。算法描述如下：

對于網(wǎng)頁集WP 中的每一個(gè)網(wǎng)頁WPj，基于擴(kuò)展的主題特征集k形成基于概念的新頁面WPj’，在算法開始執(zhí)行時(shí)，WPj’與原始頁面基本相同。

記擴(kuò)展主題特征庫為E＝｛E1，E2，…，En｝，Ei＝｛ei1，ei2，…，ein｝，其中eij（1≤i≤n，1≤j≤t）表示根據(jù)關(guān)鍵詞ei擴(kuò)展出的同義詞或者上下相關(guān)聯(lián)詞；對每個(gè)原始詞ei將Ei的每一項(xiàng)存入template；

根據(jù)式（13），可以計(jì)算出基于概念的新頁面WP’j的特征向量（w1，j’，w2，j’，...，wn，j’）。設(shè)定θ為閾值，如果網(wǎng)頁WPj的主題相關(guān)性sim（Pj，T）≥θ，則認(rèn)為頁面為主題相關(guān)，應(yīng)該下載。

4 實(shí)驗(yàn)結(jié)果分析與比較

為了檢驗(yàn)本文中提出的領(lǐng)域主題爬蟲在網(wǎng)頁過濾方法上的有效性，選定稅務(wù)領(lǐng)域?yàn)槭纠瑢⒒跀U(kuò)展主題特征庫的涉稅主題爬蟲與基于靜態(tài)關(guān)鍵詞的涉稅主題爬蟲在相同的實(shí)驗(yàn)環(huán)境中進(jìn)行爬取，然后對結(jié)果進(jìn)行分析和比較。

實(shí)驗(yàn)采用CentOS6.2作為操作系統(tǒng)，選用Sybase ASE 15.0.3for Linux作為數(shù)據(jù)庫管理系統(tǒng)，開發(fā)集成環(huán)境為InteliJIDEA＋jdk－6u10－rc2。

衡量主題爬蟲網(wǎng)頁過濾策略是否優(yōu)良的一個(gè)重要指標(biāo)是頁面抓取精度RR （relevance ratio），頁面抓取精度RR＝涉稅主題爬蟲實(shí)際抓取的主題相關(guān)網(wǎng)頁數(shù)目relevant＿pages/領(lǐng)域主題爬蟲實(shí)際抓取的主題相關(guān)網(wǎng)頁數(shù)目/領(lǐng)域主題爬蟲爬取的網(wǎng)頁總數(shù)total＿crawled。除此之外，衡量爬取抓取結(jié)果的兩個(gè)重要指標(biāo)為準(zhǔn)確率precision和召回率recall，準(zhǔn)確率precision ＝領(lǐng)域主題爬蟲實(shí)際抓取的主題相關(guān)網(wǎng)頁數(shù)目relevant＿pages/經(jīng)過爬蟲判定為主題相關(guān)后下載的主題相關(guān)網(wǎng)頁的數(shù)目fetch＿pages，召回率recall ＝領(lǐng)域主題爬蟲實(shí)際抓取的主題相關(guān)網(wǎng)頁數(shù)目relevant＿pages/網(wǎng)絡(luò)空間中實(shí)際存在的與主題相關(guān)的網(wǎng)頁數(shù)目existing＿relevant＿pages，為了能夠綜合體現(xiàn)準(zhǔn)確率和召回率的指標(biāo)性，引入指標(biāo)F，計(jì)算公式如下所示

實(shí)驗(yàn)結(jié)果如表2和圖1所示。

由表2的實(shí)驗(yàn)結(jié)果分析得出，相對于傳統(tǒng)的靜態(tài)特征庫，采用擴(kuò)展特征庫的涉稅主題爬蟲準(zhǔn)確率precision 對比傳統(tǒng)主題爬蟲提高了23.74%，召回率recall 提高了24.28%，二者的綜合因素F 對比提高了24.43%，爬取結(jié)果中主題相關(guān)性網(wǎng)頁的比例明顯增大。而從圖1網(wǎng)頁抓取精度和已爬取網(wǎng)頁總數(shù)的動(dòng)態(tài)變化趨勢圖可以看出，在網(wǎng)頁抓取初期階段，由于初始URL 和根據(jù)鏈接分析得出的URL離主題相關(guān)性資源集中域較近，所以兩種爬蟲中的網(wǎng)頁的抓取精度都比較高而且差距較小，而隨著爬蟲的運(yùn)行，處理的頁面網(wǎng)址偏離主題資源區(qū)域的概率增大，抓取精度下降比較快，且差距增大。觀察可知，隨著爬蟲的運(yùn)行，基于擴(kuò)展主題特征庫的主題爬蟲網(wǎng)抓取精度均比基于靜態(tài)主題庫的高，而且上下浮動(dòng)比較小，表明爬取精度較為穩(wěn)定；而靜態(tài)主題庫爬蟲的實(shí)驗(yàn)結(jié)果上下浮動(dòng)比較大，表示判定主題相關(guān)性網(wǎng)頁的穩(wěn)定性不足，易引入主題噪音頁面。

表2 兩次采集實(shí)驗(yàn)結(jié)果對比

圖1 靜態(tài)主題庫與動(dòng)態(tài)主題庫對比

因此，通過實(shí)驗(yàn)結(jié)果表2和圖1的分析和比較可知，相比于傳統(tǒng)的基于靜態(tài)關(guān)鍵詞項(xiàng)的領(lǐng)域主題爬蟲，基于擴(kuò)展主題庫的主題爬蟲能夠更精準(zhǔn)地對主題相關(guān)性頁面進(jìn)行下載，對主題噪音頁面進(jìn)行過濾，使網(wǎng)頁抓取更加高效和實(shí)用。

5 結(jié)束語

在領(lǐng)域主題爬蟲中，傳統(tǒng)的方法僅根據(jù)網(wǎng)頁的靜態(tài)主題特征庫來定義主題相關(guān)性網(wǎng)頁，缺乏對隱藏在主題特征項(xiàng)之間語義層次關(guān)系的處理。本文提出一種基于擴(kuò)展主題特征庫的新型領(lǐng)域主題爬蟲。該爬蟲通過標(biāo)簽塊節(jié)點(diǎn)集模型定義頁面，通過在線語料庫和從擴(kuò)展頁面中動(dòng)態(tài)提取特征項(xiàng)等方式對主題特征項(xiàng)進(jìn)行擴(kuò)充，生成擴(kuò)展主題特征庫，并結(jié)合改進(jìn)的網(wǎng)頁相關(guān)性判定算法對網(wǎng)頁進(jìn)行過濾。這種方法綜合了特征項(xiàng)的詞頻與頁面主題概念兩方面的因素，彌補(bǔ)了傳統(tǒng)方法對網(wǎng)頁語義和概念層次上的缺失。實(shí)際測試和項(xiàng)目應(yīng)用結(jié)果表明，引入擴(kuò)展主題特征庫的領(lǐng)域主題爬蟲在網(wǎng)頁抓取中具有較強(qiáng)的定向性和準(zhǔn)確度。下一步將對網(wǎng)頁正文的抽取和主題噪音頁面模式的識(shí)別方面進(jìn)行研究，以進(jìn)一步提高爬蟲對目標(biāo)頁面抓取的效率和精確度。

［1］HUANG Ren，WANG Liangwei.Research on focused crawler based on topic－related concept and page segmentation［J］.Applica－tion Research of Computers，2013，30 （8）：2377－2380 （in Chinese）.［黃仁，王良偉.基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究［J］.計(jì)算機(jī)應(yīng)用研究，2013，30 （8）：2377－2380.］

［2］Ramiz MA.A new sentence similarity measure and sentence based extractive technique for automatic text summarization ［J］.Expert Systems with Application，2009，36 （4）：7764－7772.

［3］HUANG Chenghui，YIN Jian，HOU Fang.A text similarity measurement combining word semantic information with TFIDF method ［J］.Chinese Journal of Computers，2011，34（5）：856－863 （in Chinese）. ［黃承慧，印鑒，侯昉.一種結(jié)合語義信息和TF－IDF方法的文本相似度量方法［J］.計(jì)算機(jī)學(xué)報(bào)，2011，34 （5）：856－863.］

［4］JIN Mingzhu，DING Yuewei.Topic crawler based on dynamic topic knowledge base ［J］.Journal of Computer Application，2009，29：45－46 （in Chinese）.［金明珠，丁岳偉.基于動(dòng)態(tài)主題庫的主題爬蟲［J］.計(jì)算機(jī)應(yīng)用，2009，29：44－46.］

［5］JU Shiguang，LV Xia，WANG Jing.Temporal link－analyze based on Web page ranking algorithm ［J］.Application Research of Computers，2009，26 （7）：2438－2441（in Chinese）. ［鞠時(shí)光，呂霞，王婧.基于時(shí)間鏈接分析的頁面排序優(yōu)化算法［J］.計(jì)算機(jī)應(yīng)用與研究，2009，26 （7）：2438－2441.］

［6］WANG Zhihua，WEI Bin，LI Zhanbo，et al.Web information extraction system based on ontology ［J］.Computer Engineering and Design，2012，33 （7）：2634－2639 （in Chinese）.［王志華，魏斌，李占波，等.基于本體的Web研究［J］.計(jì)算機(jī)工程與設(shè)計(jì)，2012，33 （7）：2634－2639.］

［7］JIN Mingzhu，DING Yuewei.Research and implementation for topic crawler using statistic model［J］.Computer Engineering and Design，2010，31 （16）：3700－3704 （in Chinese）.［金明珠，丁岳偉.基于模型統(tǒng)計(jì)的主題爬蟲的研究與實(shí)現(xiàn) ［J］.計(jì)算工程與設(shè)計(jì)，2010，31 （16）：3700－3704.］

［8］GUAN Huifen，SHI Jun.Focused crawler technology based on ontology ［J］.Computer Simulation，2009，26 （10）：123－126 （in Chinese）.［關(guān)慧芬，師軍.基于本體的主題爬蟲技術(shù)研究［J］.計(jì)算機(jī)仿真，2009，26 （10）：123－126.］

［9］TIAN Xuan，LI Dongmei.Probability estimation for semantic association on domain ontology ［J］.Computer Engineering and Application，2011，47 （27）：136－140 （in Chinese）.［田萱，李冬梅.領(lǐng)域本體中概念間語義相關(guān)度的概率估計(jì) ［J］.計(jì)算機(jī)工程與應(yīng)用，2011，47 （27）：136－140.］

［10］DAI Kuan，ZHAO Hui，HAN Dong，et al.Theme feature extraction of Chinese Web page based on vector space model［J］.Journal of Jilin University，2014，32 （1）：88－93 （in Chinese）.［代寬，趙輝，韓東，等.基于向量空間模型的中文網(wǎng)頁主題特征項(xiàng)抽取［J］.吉林大學(xué)學(xué)報(bào)，2014，32 （1）：88－93.］

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡