余楊奎,王 旅,李婉茹,程振林,劉 潔
WEB內(nèi)容提取技術是針對WEB網(wǎng)站目標內(nèi)容進行結(jié)構、語法、語義、規(guī)則、特征等分析的基礎上實現(xiàn)對信息的自動提取.WEB內(nèi)容的提取根據(jù)不同的劃分標準可分為如下幾類:根據(jù)所提取的WEB內(nèi)容可劃分為靜態(tài)內(nèi)容的提取、動態(tài)內(nèi)容的提??;根據(jù)WEB內(nèi)容提取的自動化程度又可以劃分為人工提取、機器提??;根據(jù)提取技術的不同,可以劃分為基于傳統(tǒng)文本信息的技術、基于樹形結(jié)構的技術、基于模板的技術、基于視覺處理的技術.其中基于傳統(tǒng)文本信息的WEB內(nèi)容提取技術是以自然語言處理為基礎,通過WEB內(nèi)容的句型、語法、語義等方面的分析,按照一定規(guī)則實現(xiàn)對內(nèi)容信息的提?。挥捎趥鹘y(tǒng)文本信息提取技術的約束性較強,規(guī)則較為單一,使得此類提取WEB頁面內(nèi)容的效率不高,限制較多,并不能有效支持具有片段性特點的WEB內(nèi)容標簽.
基于樹形結(jié)構的WEB內(nèi)容提取技術,是從WEB頁面結(jié)構視角展開的對內(nèi)容提取技術,它突破了傳統(tǒng)提取技術只針對WEB頁面文本信息的束縛,轉(zhuǎn)而對WEB頁面的結(jié)構信息進行分析并獲得內(nèi)容.在該類提取技術中,充分利用了WEB頁面具有的HTML標簽結(jié)構,將HTML源代碼看成一種典型的樹結(jié)構,具體如圖1所示.
圖1 WEB頁面的樹形結(jié)構
基于模板的WEB內(nèi)容提取技術,是在歸納總結(jié)出WEB內(nèi)容提取規(guī)則的基礎上展開的,此類技術的實現(xiàn)一般分為兩個步驟,第一步為訓練樣本并產(chǎn)生規(guī)則;第二步為利用規(guī)則進行內(nèi)容提取.首先通過獲得大量的WEB內(nèi)容樣本,對其展開訓練,產(chǎn)生WEB內(nèi)容提取規(guī)則;其次利用這些規(guī)則在目標WEB頁面集中實現(xiàn)內(nèi)容提取,并將提取內(nèi)容存儲到相應的數(shù)據(jù)庫中.該技術的基本提取流程如圖2所示.基于模板的WEB內(nèi)容提取技術,可專門用于對具有近似特征的WEB頁面內(nèi)容進行提取,具有很高的提取精確度;但該方法的普遍適應性較差.
圖2 基于模板的提取技術圖示
對于WEB內(nèi)容的提取技術,國內(nèi)外很多學者從統(tǒng)計學領域、視覺特征領域,以及WEB模板技術領域等方面進行了深入的研究.常見的WEB內(nèi)容提取方法包含三種:基于模板[1]、基于機器學習[2]和基于頁面分塊的網(wǎng)頁內(nèi)容提取方法[3],第一類方法基于模板方法使用模板來匹配網(wǎng)頁中的內(nèi)容,然后進行提?。坏诙惙椒ɑ跈C器學習為基礎的WEB內(nèi)容提取技術,主要是通過已經(jīng)提取的特征集實施訓練,構建對應模型,并使用構建的模型進行WEB內(nèi)容提取;第三類方法在網(wǎng)頁內(nèi)容提取領域是比較主流的方法,目前有兩種較為常用的頁面分塊算法:基于視覺特征的頁面分塊方法(VIPS)[4?5]和基于文本對象模型(DOM)的頁面分塊方法[6].楊柳青等提出并實現(xiàn)了一種基于布局相似性的網(wǎng)頁正文提取方法,通過比對來自同一網(wǎng)站同一專題的網(wǎng)頁DOM樹中節(jié)點數(shù)據(jù)信息的相似性實現(xiàn)正文提取[7].潘心宇等通過分析正文信息DOM樹節(jié)點路徑的規(guī)律提出了相應的正文信息提取方法.多名學者針對基于WEB內(nèi)容信息的抽取方法進行了深入研究,主要借助了樹結(jié)構匹配的思想,認為在WEB頁面的樹結(jié)構中,匹配的節(jié)點越多,表明兩個WEB頁面結(jié)構的樹相似度就越高;在此基礎上,進一步提出了WEB樹結(jié)構近似度算法,為WEB內(nèi)容的提取提供了基礎[8?10].王宇龍等依據(jù)網(wǎng)頁頭部標題元素與網(wǎng)頁內(nèi)容上的聯(lián)系提取網(wǎng)頁標題;提取網(wǎng)頁正文區(qū)域的網(wǎng)頁結(jié)構和內(nèi)容上的多個特征分類網(wǎng)頁DOM節(jié)點,定義節(jié)點的擴展、整合規(guī)則獲得正文候選塊,引入密度值和影響因子從各候選塊中甄別正文塊;利用發(fā)布時間與標題、正文之間的位置關系,通過正則表達式實現(xiàn)發(fā)布時間的提?。?1].李桐宇對基于文本對象模型的WEB內(nèi)容提取技術進行了研究,借助DOM網(wǎng)頁分塊算法,實現(xiàn)了對各種WEB頁面內(nèi)容的識別與提取,并有效檢測WEB頁面內(nèi)容的噪聲,具有較大的通用性;研究結(jié)果表明,在召回率近似的條件下,利用DOM網(wǎng)頁分塊算法具有更高的WEB內(nèi)容提取效率[12].吳克介對基于模板匹配技術的WEB內(nèi)容提取方法進行了研究,指出使用模板進行WEB頁面信息匹配是在規(guī)則集合的基礎上展開的,典型的如正則表達式集合,在絕大多數(shù)情況下,相同集合的規(guī)則都是在近似WEB頁面樹結(jié)構基礎上產(chǎn)生的,從而提高WEB內(nèi)容提取過程中的效率和正確率[13].陳婷婷等針對內(nèi)容分析算法在正文抽取中易丟失部分正文字段、錨文本、結(jié)構數(shù)據(jù)(表格、列表)的缺點,提出一種改進的網(wǎng)頁正文提取算法.在搜集大量網(wǎng)頁,總結(jié)網(wǎng)頁布局及正文特征規(guī)律基礎上,就正文塊生成和剪枝兩個方面對Readablility算法進行改進[14].王海涌等提出一種基于結(jié)構相似網(wǎng)頁聚類的網(wǎng)頁正文提取算法.該方法在正文提取時充分考慮網(wǎng)頁采集來源的不確定性,以及網(wǎng)頁結(jié)構的復雜性對正文提取準確度的干擾,引入網(wǎng)頁結(jié)構權重的概念,并將網(wǎng)頁塊相似度計算轉(zhuǎn)化為網(wǎng)頁DOM樹相似度計算,對聚類之后結(jié)果簇中的所有網(wǎng)頁內(nèi)容相似部分進行去除,剩余部分則是網(wǎng)頁正文信息[15].張龍龍?zhí)岢隽艘环N基于網(wǎng)站結(jié)構特征和內(nèi)容特征相結(jié)合的網(wǎng)站特征抽取算法,并結(jié)合BM25算法和余弦距離實現(xiàn)相關度的計算,同時綜合考慮網(wǎng)站的特征數(shù)量和更新頻度等評價網(wǎng)站的重要度[16?17].
盡管國內(nèi)外學者對于WEB內(nèi)容的提取技術進行了深入而廣泛的研究,所得到的成果也是非常豐富的,但是,由于WEB內(nèi)容本身具有的復雜性,使得各種研究技術和成果總是具有一定的缺陷.在新的互聯(lián)網(wǎng)時代,大數(shù)據(jù)的廣泛應用更加推動了對WEB內(nèi)容獲取的需求,該領域的研究仍然需要更加深入地展開.基于此,本文在對前人研究成果總結(jié)的基礎上,設計一種可針對異構WEB網(wǎng)站內(nèi)容進行高效、動態(tài)獲取的算法.
基于頁面賦權的網(wǎng)頁內(nèi)容提取方法,是在互聯(lián)網(wǎng)海量WEB信息范圍內(nèi)進行目標WEB頁面的搜索,并剔除掉不相關的WEB頁面內(nèi)容,準確地提取獲取到的WEB頁面內(nèi)容.為實現(xiàn)WEB內(nèi)容提取算法目標,需要對算法進行必要的初始化配置,配置目的是強化網(wǎng)絡爬蟲的搜索效率,并為WEB內(nèi)容的自動提取解析更精確的數(shù)據(jù)路徑.此外,初始化配置也可以讓本算法更加具有廣泛性和通用性.表1中為初始化配置信息.
表1 初始化信息
根據(jù)上述初始化的信息進行初始化配置,即針對目標鏈接地址、定位關鍵詞、WEB內(nèi)容提取數(shù)據(jù)等信息,可以發(fā)現(xiàn)初始化配置較為簡單,特別是定位的關鍵詞往往能夠通過HTML標簽直接獲取.本文設計的算法流程如圖3所示.
圖3 本文算法流程
設計的算法按照兩個步驟劃分,初始化配置為第一步驟,該步驟成為后續(xù)URL正則表達式產(chǎn)生、篩選和解析模板構建的基礎.在這一階段中,通過網(wǎng)絡獲取目標內(nèi)容的相關URL,并針對這些WEB頁面進行頁面URL、目錄URL的識別,構建自身的正則表達式,并對正則表達式實施多重篩選.存在的正則表達式分為兩類,一類為頁面URL正則表達式,一類為目錄URL正則表達式,通過這兩類不同的正則表達式,進一步獲取到目標WEB頁面的HTML標簽節(jié)點鏈接,再按照初始化配置的內(nèi)容,獲得WEB內(nèi)容所需要的正確路徑,最后構建WEB內(nèi)容提取模板.
在第二個步驟中,針對WEB頁面的賦權操作是該階段的首要步驟,根據(jù)第一階段的初始化配置內(nèi)容和相關路徑,確立WEB頁面的搜索賦權,從而建立與定位關鍵詞相匹配的精確WEB頁面定位,并通過篩選技術,完成對WEB內(nèi)容的自動提取,這是本文所提算法關鍵的提取信息技術環(huán)節(jié).
本文提出的算法能夠完成針對不同網(wǎng)站精確、高效的WEB內(nèi)容獲取.在本算法的實現(xiàn)過程中需要解決兩大關鍵問題,其一是精確的預先搜索策略如何實現(xiàn);其二是在路徑模板基礎上如何實現(xiàn)WEB內(nèi)容的自動提取.
從前文的算法設計中可以發(fā)現(xiàn),WEB內(nèi)容提取需要以頁面搜索為基礎,搜索能力的高低在很大程度上決定了WEB內(nèi)容獲取的時間效率,如果搜索結(jié)果中包括大量的和目標內(nèi)容無關的主題信息,顯然會降低WEB內(nèi)容提取的精確度,而且還會消耗大量的提取時間和空間.為此,本文提出了帶權的搜索算法,該算法作為WEB內(nèi)容提取的前置算法,是在傳統(tǒng)的廣度優(yōu)先搜索策略基礎上實現(xiàn)的.在WEB頁面中,信息量大且類型復雜,一些信息所表現(xiàn)出來的數(shù)據(jù)類型和結(jié)構并不能與正則表達式很好地匹配,從而讓一部分目標WEB頁面被遺漏.
為此,本次算法設計過程中,將正則表達式與廣度優(yōu)先搜索策略進行結(jié)合,使用正則表達式完成篩選,并在廣度優(yōu)先搜索策略基礎上得到WEB頁面的對應URL.具體而言,本算法利用正則表達式建立針對WEB頁面URL與鏈接的規(guī)則篩選工具,從而有效篩選掉一些與搜索目標無關的URL;此外,利用規(guī)則篩選工具還可以完成對WEB頁面權重的計算,促進實現(xiàn)優(yōu)先搜索.利用正則表達式實現(xiàn)WEB頁面URL的篩選,主要完成兩項工作,其一為識別URL與篩選工具中正則表達式的匹配程度,對于匹配完好的URL,則標識為爬蟲選取的對象;否則,則要篩選掉那些不匹配的URL.其二在具體的帶權搜索過程中,需要圍繞參數(shù)計算頁面權重,并對搜索的WEB頁面進行URL檢測,確定是否包含目標URL.
本算法通過初始化配置信息所包含的鏈接地址,以及定位關鍵詞,對互聯(lián)網(wǎng)中的WEB頁面進行獲取,并精確定位到目標URL,據(jù)此將所屬的URL進行正則表達式轉(zhuǎn)換,構建正則表達式篩選工具.一般情況下,初始化配置中包含的鏈接只是提供了一個WEB頁面目錄URL,缺少必要的具體頁面URL,這就使得算法在進行WEB內(nèi)容爬取時無法預先知曉具體的URL信息和相關格式;此外,對于WEB頁面目錄與具體的WEB頁面而言,URL信息往往具有一定的差別,且具體的WEB頁面內(nèi)容在互聯(lián)網(wǎng)中也存在非常大的數(shù)量,因此,如何根據(jù)初始化配置、頁面目錄URL來提取目標內(nèi)容是需要解決的關鍵問題.
大多數(shù)WEB站點都包含三個不同的層級,分別為初始WEB頁、WEB目錄頁、WEB內(nèi)容頁,三個層級由淺入深,由粗到細逐步展開.在這樣的結(jié)構條件下,提取WEB內(nèi)容的爬蟲只有同時橫向、縱向進行爬取,才能最大限度地獲得目標頁面.顯然在這個過程中,很多與目標頁面不相關的WEB頁面也會被爬取,浪費大量的時間,甚至由于不相關WEB頁面路徑的延伸,使得爬蟲效率極低,與目標頁面相距甚遠,降低了WEB內(nèi)容提取的精確度.為此,本算法中充分在WEB站點多層結(jié)構的基礎上,實現(xiàn)對WEB頁面的權重計算,從而減少爬蟲搜索過程中對于不相關頁面的搜索.本算法借鑒BERGMARK等人提出的WEB頁面主題隧道理論,通過對WEB頁面進行賦權,并判斷頁面權重與目標頁面之間的關系,假若頁面與目標內(nèi)容相關,則賦權為0,假若頁面與目標內(nèi)容不相關,則將該頁面的權重值在其上級頁面的權重值基礎上增加1.具體原理如圖4所示.
圖4 WEB頁面權重隧道理論
圖4 的各節(jié)點中,1表示該節(jié)點頁面的賦權為0,下層的2、3、4節(jié)點頁面的賦權則為1,而節(jié)點6、7、8的賦權則為2;同理,節(jié)點5、9的賦權也是0,對應下層的節(jié)點賦權為1.算法中規(guī)定只針對某一值范圍內(nèi)的節(jié)點進行爬取,如權重小于2的節(jié)點,這樣,在爬取時圖4中的6、7、8節(jié)點都不會被搜索.
根據(jù)這一理論,本算法針對WEB頁面的賦權進行了如下設定:假若WEB頁面的HTML內(nèi)容中包含了與目標頁面URL吻合的內(nèi)容,那么就認定該頁面具有可使用正則表達式進行篩選的URL;當WEB頁面URL的HTML內(nèi)容中包含了初始化配置中的定位關鍵詞時,同樣將該URL賦權為0.反過來,假若WEB頁面URL的HTML內(nèi)容中未包含初始化配置中的定位關鍵詞,而且也沒有包含目標頁面的URL時,那么該WEB頁面URL的賦權是其父頁面URL權重值增加1.賦權的計算公式如下:
顯然,對于URL而言,對其賦權越小,表明該URL與搜索內(nèi)容的吻合度較高,否則吻合度較低.對于不同的篩選閾值,本算法所獲得的爬取數(shù)量有很大的差異,一般情況下設置的閾值越大,爬取獲得的WEB頁面較少,反之則較大,這主要是由于閾值設置較大的情況下,本算法的爬取范圍也有很大增加,爬取的不相關WEB頁面會更多.換句話說,如果閾值選擇1的情況下,爬取到的WEB頁面權重為小于2的,而如果閾值選擇為2,則爬取到的WEB頁面權重還會包括3,必然會導致不相關WEB頁面的增加.
本文在研究傳統(tǒng)WEB內(nèi)容提取算法的基礎上,以基于模板技術和樹結(jié)構技術為基礎,結(jié)合前文提出的帶權搜索技術,提出了WEB內(nèi)容提取模板的產(chǎn)生算法.對于WEB頁面的HTML源代碼而言,其中所包含的內(nèi)容節(jié)點均對應有唯一的定位路徑,在進行WEB內(nèi)容提取時,便是在這樣的路徑基礎上展開的,因此針對這些路徑的提取便成為WEB內(nèi)容提取的關鍵,借助算法實現(xiàn)對內(nèi)容定位路徑的自動提取并構建模板,便能夠更好地實現(xiàn)對WEB內(nèi)容的提取.
總體來看,本算法在該環(huán)節(jié)中充分利用了基于模板的WEB內(nèi)容提取思想,通過設定預獲取樣本集,從而有效識別出目標WEB內(nèi)容頁面,并從這些URL集合中選擇出基準頁面URL,將該基準頁面URL中的內(nèi)容信息作為提取的目標信息,然后根據(jù)該信息從其他的WEB頁面中進行節(jié)點路徑提取,并把節(jié)點路徑轉(zhuǎn)變?yōu)樽詈蟮奶崛÷窂?,構建路徑模板,凡是那些結(jié)構近似的WEB頁面,都可以使用該路徑模板進行WEB內(nèi)容的提取.在WEB內(nèi)容提取的初始階段,本算法通過標記兩條不同的WEB頁面路徑,將其存儲在初始化配置文件中,構成WEB內(nèi)容提取的基準信息,并將兩條路徑定位為樹形結(jié)構,二者的公共節(jié)點作為新的模板樹的起始節(jié)點,生成路徑模板.具體的算法如下(僅以偽代碼形式展現(xiàn)):
在獲得WEB內(nèi)容提取的模板之后,算法還需要按照初始化配置中的獲取目標定位出需要爬取的WEB內(nèi)容的具體路徑,從而完成目標內(nèi)容的提取.在具體路徑的定位過程中,按照以下算法描述展開:
(1)根據(jù)與設定的目標WEB內(nèi)容信息文件中提取目標WEB內(nèi)容詳細屬性;
(2)在已經(jīng)構建的子節(jié)點隊列中遍歷搜索提取獲得目標WEB內(nèi)容的詳細屬性;
(3)如在隊列中存在了與目標WEB內(nèi)容詳細屬性相同的內(nèi)容,那么存儲該子節(jié)點以及其具體路徑進入到新的隊列中;
(4)如在隊列中不存在與目標WEB內(nèi)容詳細屬性相同的內(nèi)容,那么按照自底向上的方式遍歷所有樹中的非子節(jié)點,同樣將滿足需求的非子節(jié)點及其具體路徑進入到新的非子節(jié)點隊列中;
(5)如在子節(jié)點以及非子節(jié)點中均為搜索到與目標WEB內(nèi)容詳細屬性相同的內(nèi)容,那么進一步搜索包含目標WEB內(nèi)容詳細屬性的節(jié)點,每找到一個此類節(jié)點,都要向其父節(jié)點延伸,延伸過程中,發(fā)現(xiàn)相同層級相同名稱節(jié)點的,存儲其節(jié)點名稱,如名稱不同,則存儲包括名稱在內(nèi)的其他屬性,包括類別、ID號等.
按照上述描述的步驟,算法最后將獲得與目標WEB內(nèi)容爬取屬性相關的一般路徑定位模板,所有路徑都通過Json格式進行文本存儲,同時該模板文本信息中包含了屬性節(jié)點內(nèi)容、位置、具體的屬性值等,根據(jù)這些屬性值,可以獲得不同目標WEB內(nèi)容標簽的爬取.在實際的WEB內(nèi)容提取過程中,通過這種頁面賦權的策略與方法,可對互聯(lián)網(wǎng)中的目標頁面完成搜索,而對于已經(jīng)獲取的WEB頁面,則根據(jù)屬性標簽進一步實現(xiàn)路徑定位,快速提取頁面內(nèi)容.
為進一步驗證基于頁面賦權的WEB內(nèi)容提取算法可行性和具體效果,筆者在算法設計完成的基礎上,將其應用在爬蟲系統(tǒng)中進行實驗,并將實驗結(jié)果與其他爬蟲算法進行對比.基于頁面賦權的WEB內(nèi)容提取算法實驗環(huán)境分兩部分,軟件環(huán)境主要包括Eclipse開發(fā)平臺,通過該平臺的多個開源模塊,實現(xiàn)WEB頁面的模擬瀏覽與內(nèi)容解析,此外還可以借助Redis完成WEB頁面重復性的消除;硬件環(huán)境根據(jù)系統(tǒng)的應用需求采用普通的服務器系統(tǒng),該實驗服務器的CPU為AMD系列8核3.6 G,內(nèi)存為8 G,配備windows 2012 server操作系統(tǒng).
按照本文提出并設計的WEB內(nèi)容提取算法,從兩個層面展開對其效果的檢驗,分別為不同類型WEB站點的多次實驗,檢驗算法的通用性和效率性;與其他同類算法相比,檢驗本算法的優(yōu)劣性.
選擇股票類WEB內(nèi)容、體育類WEB內(nèi)容、教育類WEB內(nèi)容三大類目標WEB內(nèi)容提取作為基本需求,應用本算法進行檢驗.這三類內(nèi)容在構成方面各有特點,例如股票類WEB站點往往具有大量的分類信息、公司名稱、地址,以及很多與股票相關的評論等,這些信息能夠為使用者提供較大的數(shù)據(jù)挖掘價值.體育類WEB站點更能體現(xiàn)數(shù)據(jù)的聚合利用,同時包含各類信息的采集,大數(shù)據(jù)的分析等.教育類WEB站點則屬于文本信息相對較多的網(wǎng)站,最有利于爬蟲系統(tǒng)實現(xiàn)WEB內(nèi)容獲取 類 型[18?19].通 過 對 這 些 不 同 類 型 網(wǎng) 站 的 實驗,對具體結(jié)果展開分析,測試基于頁面賦權的WEB內(nèi)容提取算法穩(wěn)定性和通用性,并判斷它與預期的判斷是否相符.
在對上述不同類型網(wǎng)站進行對應的爬蟲系統(tǒng)初始化設置之后,根據(jù)設定的關鍵詞進行頁面內(nèi)容的提取,分別得到表2所示的結(jié)果.
表2 各站點內(nèi)容平均提取結(jié)果
表2中的預期數(shù)量是按照一般人工搜索關鍵字方式獲得結(jié)果確定的.對比三類網(wǎng)站的提取結(jié)果可以發(fā)現(xiàn),不同的WEB內(nèi)容提取關鍵字,所獲得的提取數(shù)量及需要的提取時間各不相同,預期數(shù)量與最終提取獲得的數(shù)量是相匹配的.事實上,表2中各站點的提取時間、數(shù)量都屬于平均值,是使用本算法多次提取實驗之后得到的結(jié)果,每個類型WEB內(nèi)容提取和預期數(shù)量的差距主要是由于定位關鍵詞中覆蓋范圍仍然有限而形成的.總而言之,從本算法實際的WEB內(nèi)容提取結(jié)果來看,基本能夠滿足需求.
前文對于本算法的實驗是從某些類型WEB內(nèi)容需求出發(fā)的,使得本算法構建的爬蟲系統(tǒng)只是實現(xiàn)了固定類型WEB內(nèi)容關鍵字提取,還沒有針對更大范圍的通用WEB站點內(nèi)容進行提取.為此,按照本文算法策略,與某一傳統(tǒng)的WEB內(nèi)容爬蟲系統(tǒng)進行效率比較實驗.
針對WEB內(nèi)容的提取效率是評價本算法的基本指標,也是證明本算法可行的主要參數(shù).首先通過實驗比較對單一WEB頁的內(nèi)容提取效率,在相同的網(wǎng)絡實驗環(huán)境中,某傳統(tǒng)的WEB內(nèi)容爬蟲系統(tǒng)在多媒體加載的條件下,提取該WEB頁內(nèi)容約為13秒,而在多媒體不加載的條件下,提取該WEB頁內(nèi)容約為5秒;相比而言,本次設計的算法未支持對WEB頁面多媒體的加載,但在不加載多媒體的條件下,本文算法提取該WEB頁內(nèi)容的時間約為3秒,這是由于算法在設計過程中考慮了URL路徑的解析,對于WEB頁面可通過該路徑完成提取,增加了提取的速度.
評價本算法的另一個重要指標為WEB內(nèi)容提取的精確度,即利用本算法能夠獲得的WEB頁面內(nèi)容與目標頁面的相關性程度.實驗結(jié)果表明,利用本算法構建的爬蟲系統(tǒng),無法針對全部WEB內(nèi)容的提取都達到100%精確,但精確度都在95%以上,有一些WEB站點的提取精確度達到100%.表3所示為本算法的爬蟲系統(tǒng)與傳統(tǒng)爬蟲系統(tǒng)的精確度比較實驗結(jié)果.
表3 本算法的爬蟲系統(tǒng)與傳統(tǒng)爬蟲系統(tǒng)的精確度比較結(jié)果
由表3可知,與傳統(tǒng)爬蟲系統(tǒng)相比,本算法構建的爬蟲系統(tǒng)精確度方面要明顯高于傳統(tǒng)系統(tǒng),特別是由于提取過程中借助正則表達式篩選環(huán)節(jié)過濾掉一部分無關目標的WEB頁面內(nèi)容,從而提高了精確度.