一種基于頁面賦權的網(wǎng)頁內(nèi)容提取方法

2021-10-27 00:46余楊奎李婉茹程振林

通化師范學院學報 2021年10期

余楊奎，王旅，李婉茹，程振林，劉潔

WEB內(nèi)容提取技術是針對WEB網(wǎng)站目標內(nèi)容進行結(jié)構、語法、語義、規(guī)則、特征等分析的基礎上實現(xiàn)對信息的自動提取.WEB內(nèi)容的提取根據(jù)不同的劃分標準可分為如下幾類：根據(jù)所提取的WEB內(nèi)容可劃分為靜態(tài)內(nèi)容的提取、動態(tài)內(nèi)容的提??；根據(jù)WEB內(nèi)容提取的自動化程度又可以劃分為人工提取、機器提??；根據(jù)提取技術的不同，可以劃分為基于傳統(tǒng)文本信息的技術、基于樹形結(jié)構的技術、基于模板的技術、基于視覺處理的技術.其中基于傳統(tǒng)文本信息的WEB內(nèi)容提取技術是以自然語言處理為基礎，通過WEB內(nèi)容的句型、語法、語義等方面的分析，按照一定規(guī)則實現(xiàn)對內(nèi)容信息的提?。挥捎趥鹘y(tǒng)文本信息提取技術的約束性較強，規(guī)則較為單一，使得此類提取WEB頁面內(nèi)容的效率不高，限制較多，并不能有效支持具有片段性特點的WEB內(nèi)容標簽.

基于樹形結(jié)構的WEB內(nèi)容提取技術，是從WEB頁面結(jié)構視角展開的對內(nèi)容提取技術，它突破了傳統(tǒng)提取技術只針對WEB頁面文本信息的束縛，轉(zhuǎn)而對WEB頁面的結(jié)構信息進行分析并獲得內(nèi)容.在該類提取技術中，充分利用了WEB頁面具有的HTML標簽結(jié)構，將HTML源代碼看成一種典型的樹結(jié)構，具體如圖1所示.

圖1 WEB頁面的樹形結(jié)構

基于模板的WEB內(nèi)容提取技術，是在歸納總結(jié)出WEB內(nèi)容提取規(guī)則的基礎上展開的，此類技術的實現(xiàn)一般分為兩個步驟，第一步為訓練樣本并產(chǎn)生規(guī)則；第二步為利用規(guī)則進行內(nèi)容提取.首先通過獲得大量的WEB內(nèi)容樣本，對其展開訓練，產(chǎn)生WEB內(nèi)容提取規(guī)則；其次利用這些規(guī)則在目標WEB頁面集中實現(xiàn)內(nèi)容提取，并將提取內(nèi)容存儲到相應的數(shù)據(jù)庫中.該技術的基本提取流程如圖2所示.基于模板的WEB內(nèi)容提取技術，可專門用于對具有近似特征的WEB頁面內(nèi)容進行提取，具有很高的提取精確度；但該方法的普遍適應性較差.

圖2 基于模板的提取技術圖示

1 WEB內(nèi)容提取技術的相關研究

對于WEB內(nèi)容的提取技術，國內(nèi)外很多學者從統(tǒng)計學領域、視覺特征領域，以及WEB模板技術領域等方面進行了深入的研究.常見的WEB內(nèi)容提取方法包含三種：基于模板［1］、基于機器學習［2］和基于頁面分塊的網(wǎng)頁內(nèi)容提取方法［3］，第一類方法基于模板方法使用模板來匹配網(wǎng)頁中的內(nèi)容，然后進行提?。坏诙惙椒ɑ跈C器學習為基礎的WEB內(nèi)容提取技術，主要是通過已經(jīng)提取的特征集實施訓練，構建對應模型，并使用構建的模型進行WEB內(nèi)容提取；第三類方法在網(wǎng)頁內(nèi)容提取領域是比較主流的方法，目前有兩種較為常用的頁面分塊算法：基于視覺特征的頁面分塊方法（VIPS）［4?5］和基于文本對象模型（DOM）的頁面分塊方法［6］.楊柳青等提出并實現(xiàn)了一種基于布局相似性的網(wǎng)頁正文提取方法，通過比對來自同一網(wǎng)站同一專題的網(wǎng)頁DOM樹中節(jié)點數(shù)據(jù)信息的相似性實現(xiàn)正文提取［7］.潘心宇等通過分析正文信息DOM樹節(jié)點路徑的規(guī)律提出了相應的正文信息提取方法.多名學者針對基于WEB內(nèi)容信息的抽取方法進行了深入研究，主要借助了樹結(jié)構匹配的思想，認為在WEB頁面的樹結(jié)構中，匹配的節(jié)點越多，表明兩個WEB頁面結(jié)構的樹相似度就越高；在此基礎上，進一步提出了WEB樹結(jié)構近似度算法，為WEB內(nèi)容的提取提供了基礎［8?10］.王宇龍等依據(jù)網(wǎng)頁頭部標題元素與網(wǎng)頁內(nèi)容上的聯(lián)系提取網(wǎng)頁標題；提取網(wǎng)頁正文區(qū)域的網(wǎng)頁結(jié)構和內(nèi)容上的多個特征分類網(wǎng)頁DOM節(jié)點，定義節(jié)點的擴展、整合規(guī)則獲得正文候選塊，引入密度值和影響因子從各候選塊中甄別正文塊；利用發(fā)布時間與標題、正文之間的位置關系，通過正則表達式實現(xiàn)發(fā)布時間的提?。?1］.李桐宇對基于文本對象模型的WEB內(nèi)容提取技術進行了研究，借助DOM網(wǎng)頁分塊算法，實現(xiàn)了對各種WEB頁面內(nèi)容的識別與提取，并有效檢測WEB頁面內(nèi)容的噪聲，具有較大的通用性；研究結(jié)果表明，在召回率近似的條件下，利用DOM網(wǎng)頁分塊算法具有更高的WEB內(nèi)容提取效率［12］.吳克介對基于模板匹配技術的WEB內(nèi)容提取方法進行了研究，指出使用模板進行WEB頁面信息匹配是在規(guī)則集合的基礎上展開的，典型的如正則表達式集合，在絕大多數(shù)情況下，相同集合的規(guī)則都是在近似WEB頁面樹結(jié)構基礎上產(chǎn)生的，從而提高WEB內(nèi)容提取過程中的效率和正確率［13］.陳婷婷等針對內(nèi)容分析算法在正文抽取中易丟失部分正文字段、錨文本、結(jié)構數(shù)據(jù)（表格、列表）的缺點，提出一種改進的網(wǎng)頁正文提取算法.在搜集大量網(wǎng)頁，總結(jié)網(wǎng)頁布局及正文特征規(guī)律基礎上，就正文塊生成和剪枝兩個方面對Readablility算法進行改進［14］.王海涌等提出一種基于結(jié)構相似網(wǎng)頁聚類的網(wǎng)頁正文提取算法.該方法在正文提取時充分考慮網(wǎng)頁采集來源的不確定性，以及網(wǎng)頁結(jié)構的復雜性對正文提取準確度的干擾，引入網(wǎng)頁結(jié)構權重的概念，并將網(wǎng)頁塊相似度計算轉(zhuǎn)化為網(wǎng)頁DOM樹相似度計算，對聚類之后結(jié)果簇中的所有網(wǎng)頁內(nèi)容相似部分進行去除，剩余部分則是網(wǎng)頁正文信息［15］.張龍龍?zhí)岢隽艘环N基于網(wǎng)站結(jié)構特征和內(nèi)容特征相結(jié)合的網(wǎng)站特征抽取算法，并結(jié)合BM25算法和余弦距離實現(xiàn)相關度的計算，同時綜合考慮網(wǎng)站的特征數(shù)量和更新頻度等評價網(wǎng)站的重要度［16?17］.

盡管國內(nèi)外學者對于WEB內(nèi)容的提取技術進行了深入而廣泛的研究，所得到的成果也是非常豐富的，但是，由于WEB內(nèi)容本身具有的復雜性，使得各種研究技術和成果總是具有一定的缺陷.在新的互聯(lián)網(wǎng)時代，大數(shù)據(jù)的廣泛應用更加推動了對WEB內(nèi)容獲取的需求，該領域的研究仍然需要更加深入地展開.基于此，本文在對前人研究成果總結(jié)的基礎上，設計一種可針對異構WEB網(wǎng)站內(nèi)容進行高效、動態(tài)獲取的算法.

2 基于頁面賦權的WEB內(nèi)容提取算法的實現(xiàn)過程

基于頁面賦權的網(wǎng)頁內(nèi)容提取方法，是在互聯(lián)網(wǎng)海量WEB信息范圍內(nèi)進行目標WEB頁面的搜索，并剔除掉不相關的WEB頁面內(nèi)容，準確地提取獲取到的WEB頁面內(nèi)容.為實現(xiàn)WEB內(nèi)容提取算法目標，需要對算法進行必要的初始化配置，配置目的是強化網(wǎng)絡爬蟲的搜索效率，并為WEB內(nèi)容的自動提取解析更精確的數(shù)據(jù)路徑.此外，初始化配置也可以讓本算法更加具有廣泛性和通用性.表1中為初始化配置信息.

表1 初始化信息

根據(jù)上述初始化的信息進行初始化配置，即針對目標鏈接地址、定位關鍵詞、WEB內(nèi)容提取數(shù)據(jù)等信息，可以發(fā)現(xiàn)初始化配置較為簡單，特別是定位的關鍵詞往往能夠通過HTML標簽直接獲取.本文設計的算法流程如圖3所示.

圖3 本文算法流程

設計的算法按照兩個步驟劃分，初始化配置為第一步驟，該步驟成為后續(xù)URL正則表達式產(chǎn)生、篩選和解析模板構建的基礎.在這一階段中，通過網(wǎng)絡獲取目標內(nèi)容的相關URL，并針對這些WEB頁面進行頁面URL、目錄URL的識別，構建自身的正則表達式，并對正則表達式實施多重篩選.存在的正則表達式分為兩類，一類為頁面URL正則表達式，一類為目錄URL正則表達式，通過這兩類不同的正則表達式，進一步獲取到目標WEB頁面的HTML標簽節(jié)點鏈接，再按照初始化配置的內(nèi)容，獲得WEB內(nèi)容所需要的正確路徑，最后構建WEB內(nèi)容提取模板.

在第二個步驟中，針對WEB頁面的賦權操作是該階段的首要步驟，根據(jù)第一階段的初始化配置內(nèi)容和相關路徑，確立WEB頁面的搜索賦權，從而建立與定位關鍵詞相匹配的精確WEB頁面定位，并通過篩選技術，完成對WEB內(nèi)容的自動提取，這是本文所提算法關鍵的提取信息技術環(huán)節(jié).

本文提出的算法能夠完成針對不同網(wǎng)站精確、高效的WEB內(nèi)容獲取.在本算法的實現(xiàn)過程中需要解決兩大關鍵問題，其一是精確的預先搜索策略如何實現(xiàn)；其二是在路徑模板基礎上如何實現(xiàn)WEB內(nèi)容的自動提取.

2.1 WEB內(nèi)容提取前置算法：帶權搜索

從前文的算法設計中可以發(fā)現(xiàn)，WEB內(nèi)容提取需要以頁面搜索為基礎，搜索能力的高低在很大程度上決定了WEB內(nèi)容獲取的時間效率，如果搜索結(jié)果中包括大量的和目標內(nèi)容無關的主題信息，顯然會降低WEB內(nèi)容提取的精確度，而且還會消耗大量的提取時間和空間.為此，本文提出了帶權的搜索算法，該算法作為WEB內(nèi)容提取的前置算法，是在傳統(tǒng)的廣度優(yōu)先搜索策略基礎上實現(xiàn)的.在WEB頁面中，信息量大且類型復雜，一些信息所表現(xiàn)出來的數(shù)據(jù)類型和結(jié)構并不能與正則表達式很好地匹配，從而讓一部分目標WEB頁面被遺漏.

為此，本次算法設計過程中，將正則表達式與廣度優(yōu)先搜索策略進行結(jié)合，使用正則表達式完成篩選，并在廣度優(yōu)先搜索策略基礎上得到WEB頁面的對應URL.具體而言，本算法利用正則表達式建立針對WEB頁面URL與鏈接的規(guī)則篩選工具，從而有效篩選掉一些與搜索目標無關的URL；此外，利用規(guī)則篩選工具還可以完成對WEB頁面權重的計算，促進實現(xiàn)優(yōu)先搜索.利用正則表達式實現(xiàn)WEB頁面URL的篩選，主要完成兩項工作，其一為識別URL與篩選工具中正則表達式的匹配程度，對于匹配完好的URL，則標識為爬蟲選取的對象；否則，則要篩選掉那些不匹配的URL.其二在具體的帶權搜索過程中，需要圍繞參數(shù)計算頁面權重，并對搜索的WEB頁面進行URL檢測，確定是否包含目標URL.

本算法通過初始化配置信息所包含的鏈接地址，以及定位關鍵詞，對互聯(lián)網(wǎng)中的WEB頁面進行獲取，并精確定位到目標URL，據(jù)此將所屬的URL進行正則表達式轉(zhuǎn)換，構建正則表達式篩選工具.一般情況下，初始化配置中包含的鏈接只是提供了一個WEB頁面目錄URL，缺少必要的具體頁面URL，這就使得算法在進行WEB內(nèi)容爬取時無法預先知曉具體的URL信息和相關格式；此外，對于WEB頁面目錄與具體的WEB頁面而言，URL信息往往具有一定的差別，且具體的WEB頁面內(nèi)容在互聯(lián)網(wǎng)中也存在非常大的數(shù)量，因此，如何根據(jù)初始化配置、頁面目錄URL來提取目標內(nèi)容是需要解決的關鍵問題.

大多數(shù)WEB站點都包含三個不同的層級，分別為初始WEB頁、WEB目錄頁、WEB內(nèi)容頁，三個層級由淺入深，由粗到細逐步展開.在這樣的結(jié)構條件下，提取WEB內(nèi)容的爬蟲只有同時橫向、縱向進行爬取，才能最大限度地獲得目標頁面.顯然在這個過程中，很多與目標頁面不相關的WEB頁面也會被爬取，浪費大量的時間，甚至由于不相關WEB頁面路徑的延伸，使得爬蟲效率極低，與目標頁面相距甚遠，降低了WEB內(nèi)容提取的精確度.為此，本算法中充分在WEB站點多層結(jié)構的基礎上，實現(xiàn)對WEB頁面的權重計算，從而減少爬蟲搜索過程中對于不相關頁面的搜索.本算法借鑒BERGMARK等人提出的WEB頁面主題隧道理論，通過對WEB頁面進行賦權，并判斷頁面權重與目標頁面之間的關系，假若頁面與目標內(nèi)容相關，則賦權為0，假若頁面與目標內(nèi)容不相關，則將該頁面的權重值在其上級頁面的權重值基礎上增加1.具體原理如圖4所示.

圖4 WEB頁面權重隧道理論

圖4 的各節(jié)點中，1表示該節(jié)點頁面的賦權為0，下層的2、3、4節(jié)點頁面的賦權則為1，而節(jié)點6、7、8的賦權則為2；同理，節(jié)點5、9的賦權也是0，對應下層的節(jié)點賦權為1.算法中規(guī)定只針對某一值范圍內(nèi)的節(jié)點進行爬取，如權重小于2的節(jié)點，這樣，在爬取時圖4中的6、7、8節(jié)點都不會被搜索.

根據(jù)這一理論，本算法針對WEB頁面的賦權進行了如下設定：假若WEB頁面的HTML內(nèi)容中包含了與目標頁面URL吻合的內(nèi)容，那么就認定該頁面具有可使用正則表達式進行篩選的URL；當WEB頁面URL的HTML內(nèi)容中包含了初始化配置中的定位關鍵詞時，同樣將該URL賦權為0.反過來，假若WEB頁面URL的HTML內(nèi)容中未包含初始化配置中的定位關鍵詞，而且也沒有包含目標頁面的URL時，那么該WEB頁面URL的賦權是其父頁面URL權重值增加1.賦權的計算公式如下：

顯然，對于URL而言，對其賦權越小，表明該URL與搜索內(nèi)容的吻合度較高，否則吻合度較低.對于不同的篩選閾值，本算法所獲得的爬取數(shù)量有很大的差異，一般情況下設置的閾值越大，爬取獲得的WEB頁面較少，反之則較大，這主要是由于閾值設置較大的情況下，本算法的爬取范圍也有很大增加，爬取的不相關WEB頁面會更多.換句話說，如果閾值選擇1的情況下，爬取到的WEB頁面權重為小于2的，而如果閾值選擇為2，則爬取到的WEB頁面權重還會包括3，必然會導致不相關WEB頁面的增加.

2.2 WEB內(nèi)容提取模板算法：具體路徑的產(chǎn)生

本文在研究傳統(tǒng)WEB內(nèi)容提取算法的基礎上，以基于模板技術和樹結(jié)構技術為基礎，結(jié)合前文提出的帶權搜索技術，提出了WEB內(nèi)容提取模板的產(chǎn)生算法.對于WEB頁面的HTML源代碼而言，其中所包含的內(nèi)容節(jié)點均對應有唯一的定位路徑，在進行WEB內(nèi)容提取時，便是在這樣的路徑基礎上展開的，因此針對這些路徑的提取便成為WEB內(nèi)容提取的關鍵，借助算法實現(xiàn)對內(nèi)容定位路徑的自動提取并構建模板，便能夠更好地實現(xiàn)對WEB內(nèi)容的提取.

總體來看，本算法在該環(huán)節(jié)中充分利用了基于模板的WEB內(nèi)容提取思想，通過設定預獲取樣本集，從而有效識別出目標WEB內(nèi)容頁面，并從這些URL集合中選擇出基準頁面URL，將該基準頁面URL中的內(nèi)容信息作為提取的目標信息，然后根據(jù)該信息從其他的WEB頁面中進行節(jié)點路徑提取，并把節(jié)點路徑轉(zhuǎn)變?yōu)樽詈蟮奶崛÷窂?，構建路徑模板，凡是那些結(jié)構近似的WEB頁面，都可以使用該路徑模板進行WEB內(nèi)容的提取.在WEB內(nèi)容提取的初始階段，本算法通過標記兩條不同的WEB頁面路徑，將其存儲在初始化配置文件中，構成WEB內(nèi)容提取的基準信息，并將兩條路徑定位為樹形結(jié)構，二者的公共節(jié)點作為新的模板樹的起始節(jié)點，生成路徑模板.具體的算法如下（僅以偽代碼形式展現(xiàn)）：

在獲得WEB內(nèi)容提取的模板之后，算法還需要按照初始化配置中的獲取目標定位出需要爬取的WEB內(nèi)容的具體路徑，從而完成目標內(nèi)容的提取.在具體路徑的定位過程中，按照以下算法描述展開：

（1）根據(jù)與設定的目標WEB內(nèi)容信息文件中提取目標WEB內(nèi)容詳細屬性；

（2）在已經(jīng)構建的子節(jié)點隊列中遍歷搜索提取獲得目標WEB內(nèi)容的詳細屬性；

（3）如在隊列中存在了與目標WEB內(nèi)容詳細屬性相同的內(nèi)容，那么存儲該子節(jié)點以及其具體路徑進入到新的隊列中；

（4）如在隊列中不存在與目標WEB內(nèi)容詳細屬性相同的內(nèi)容，那么按照自底向上的方式遍歷所有樹中的非子節(jié)點，同樣將滿足需求的非子節(jié)點及其具體路徑進入到新的非子節(jié)點隊列中；

（5）如在子節(jié)點以及非子節(jié)點中均為搜索到與目標WEB內(nèi)容詳細屬性相同的內(nèi)容，那么進一步搜索包含目標WEB內(nèi)容詳細屬性的節(jié)點，每找到一個此類節(jié)點，都要向其父節(jié)點延伸，延伸過程中，發(fā)現(xiàn)相同層級相同名稱節(jié)點的，存儲其節(jié)點名稱，如名稱不同，則存儲包括名稱在內(nèi)的其他屬性，包括類別、ID號等.

按照上述描述的步驟，算法最后將獲得與目標WEB內(nèi)容爬取屬性相關的一般路徑定位模板，所有路徑都通過Json格式進行文本存儲，同時該模板文本信息中包含了屬性節(jié)點內(nèi)容、位置、具體的屬性值等，根據(jù)這些屬性值，可以獲得不同目標WEB內(nèi)容標簽的爬取.在實際的WEB內(nèi)容提取過程中，通過這種頁面賦權的策略與方法，可對互聯(lián)網(wǎng)中的目標頁面完成搜索，而對于已經(jīng)獲取的WEB頁面，則根據(jù)屬性標簽進一步實現(xiàn)路徑定位，快速提取頁面內(nèi)容.

3 基于頁面賦權的WEB內(nèi)容提取算法實驗效果

為進一步驗證基于頁面賦權的WEB內(nèi)容提取算法可行性和具體效果，筆者在算法設計完成的基礎上，將其應用在爬蟲系統(tǒng)中進行實驗，并將實驗結(jié)果與其他爬蟲算法進行對比.基于頁面賦權的WEB內(nèi)容提取算法實驗環(huán)境分兩部分，軟件環(huán)境主要包括Eclipse開發(fā)平臺，通過該平臺的多個開源模塊，實現(xiàn)WEB頁面的模擬瀏覽與內(nèi)容解析，此外還可以借助Redis完成WEB頁面重復性的消除；硬件環(huán)境根據(jù)系統(tǒng)的應用需求采用普通的服務器系統(tǒng)，該實驗服務器的CPU為AMD系列8核3.6 G，內(nèi)存為8 G，配備windows 2012 server操作系統(tǒng).

按照本文提出并設計的WEB內(nèi)容提取算法，從兩個層面展開對其效果的檢驗，分別為不同類型WEB站點的多次實驗，檢驗算法的通用性和效率性；與其他同類算法相比，檢驗本算法的優(yōu)劣性.

3.1 應用本算法提取不同類型WEB內(nèi)容實驗

選擇股票類WEB內(nèi)容、體育類WEB內(nèi)容、教育類WEB內(nèi)容三大類目標WEB內(nèi)容提取作為基本需求，應用本算法進行檢驗.這三類內(nèi)容在構成方面各有特點，例如股票類WEB站點往往具有大量的分類信息、公司名稱、地址，以及很多與股票相關的評論等，這些信息能夠為使用者提供較大的數(shù)據(jù)挖掘價值.體育類WEB站點更能體現(xiàn)數(shù)據(jù)的聚合利用，同時包含各類信息的采集，大數(shù)據(jù)的分析等.教育類WEB站點則屬于文本信息相對較多的網(wǎng)站，最有利于爬蟲系統(tǒng)實現(xiàn)WEB內(nèi)容獲取類型［18?19］.通過對這些不同類型網(wǎng) 站的實驗，對具體結(jié)果展開分析，測試基于頁面賦權的WEB內(nèi)容提取算法穩(wěn)定性和通用性，并判斷它與預期的判斷是否相符.

在對上述不同類型網(wǎng)站進行對應的爬蟲系統(tǒng)初始化設置之后，根據(jù)設定的關鍵詞進行頁面內(nèi)容的提取，分別得到表2所示的結(jié)果.

表2 各站點內(nèi)容平均提取結(jié)果

表2中的預期數(shù)量是按照一般人工搜索關鍵字方式獲得結(jié)果確定的.對比三類網(wǎng)站的提取結(jié)果可以發(fā)現(xiàn)，不同的WEB內(nèi)容提取關鍵字，所獲得的提取數(shù)量及需要的提取時間各不相同，預期數(shù)量與最終提取獲得的數(shù)量是相匹配的.事實上，表2中各站點的提取時間、數(shù)量都屬于平均值，是使用本算法多次提取實驗之后得到的結(jié)果，每個類型WEB內(nèi)容提取和預期數(shù)量的差距主要是由于定位關鍵詞中覆蓋范圍仍然有限而形成的.總而言之，從本算法實際的WEB內(nèi)容提取結(jié)果來看，基本能夠滿足需求.

3.2 應用本算法提取WEB內(nèi)容的效率比較實驗

前文對于本算法的實驗是從某些類型WEB內(nèi)容需求出發(fā)的，使得本算法構建的爬蟲系統(tǒng)只是實現(xiàn)了固定類型WEB內(nèi)容關鍵字提取，還沒有針對更大范圍的通用WEB站點內(nèi)容進行提取.為此，按照本文算法策略，與某一傳統(tǒng)的WEB內(nèi)容爬蟲系統(tǒng)進行效率比較實驗.

針對WEB內(nèi)容的提取效率是評價本算法的基本指標，也是證明本算法可行的主要參數(shù).首先通過實驗比較對單一WEB頁的內(nèi)容提取效率，在相同的網(wǎng)絡實驗環(huán)境中，某傳統(tǒng)的WEB內(nèi)容爬蟲系統(tǒng)在多媒體加載的條件下，提取該WEB頁內(nèi)容約為13秒，而在多媒體不加載的條件下，提取該WEB頁內(nèi)容約為5秒；相比而言，本次設計的算法未支持對WEB頁面多媒體的加載，但在不加載多媒體的條件下，本文算法提取該WEB頁內(nèi)容的時間約為3秒，這是由于算法在設計過程中考慮了URL路徑的解析，對于WEB頁面可通過該路徑完成提取，增加了提取的速度.

評價本算法的另一個重要指標為WEB內(nèi)容提取的精確度，即利用本算法能夠獲得的WEB頁面內(nèi)容與目標頁面的相關性程度.實驗結(jié)果表明，利用本算法構建的爬蟲系統(tǒng)，無法針對全部WEB內(nèi)容的提取都達到100%精確，但精確度都在95%以上，有一些WEB站點的提取精確度達到100%.表3所示為本算法的爬蟲系統(tǒng)與傳統(tǒng)爬蟲系統(tǒng)的精確度比較實驗結(jié)果.

表3 本算法的爬蟲系統(tǒng)與傳統(tǒng)爬蟲系統(tǒng)的精確度比較結(jié)果

由表3可知，與傳統(tǒng)爬蟲系統(tǒng)相比，本算法構建的爬蟲系統(tǒng)精確度方面要明顯高于傳統(tǒng)系統(tǒng)，特別是由于提取過程中借助正則表達式篩選環(huán)節(jié)過濾掉一部分無關目標的WEB頁面內(nèi)容，從而提高了精確度.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡