一種基于鄰居規(guī)則分類算法的聚焦爬蟲

2017-07-10 08:31:12敬烜魯紅英

電腦知識與技術(shù) 2017年14期

關(guān)鍵詞：信息檢索

敬烜+魯紅英

摘要：判定鏈接錨文本與主題的相關(guān)度、評估鏈接的優(yōu)先級并過濾不相關(guān)的鏈接是實現(xiàn)聚焦爬行的關(guān)鍵。通過判定鏈接所在頁面是否主題相關(guān)、是否是導航頁面劃分鏈接的類別，結(jié)合鏈接錨文本與主題的相似度，提出了一種基于鄰居規(guī)則分類算法評估鏈接優(yōu)先級的聚焦爬蟲。該爬蟲包括一個主題相關(guān)網(wǎng)頁判別器、一個導航網(wǎng)頁判別器和一個基于鄰居規(guī)則分類算法的鏈接優(yōu)先級評估器。實驗結(jié)果表明，基于鄰居規(guī)則分類算法的聚焦爬蟲比僅僅根據(jù)錨文本判定鏈接優(yōu)先級的標準聚焦爬蟲具有更好的性能，因此更加適合用于信息檢索。

關(guān)鍵詞：信息檢索；聚焦爬蟲；鄰居規(guī)則；分類算法；鏈接優(yōu)先級

中圖分類號：TP391 文獻標識碼：A 文章編號：1009-3044（2017）14-0151-113

1概述

隨著網(wǎng)絡(luò)數(shù)據(jù)的不斷增長，如何有效地發(fā)現(xiàn)、過濾、處理和利用這些數(shù)據(jù)成為了一個需要解決的問題。適合特定主題和個性化搜索的聚焦爬蟲是一個有效的解決途徑。聚集爬蟲可被分作三類：經(jīng)典聚焦爬蟲，基于錨文本與主題詞匯集的相似性，利用機器學習評估鏈接優(yōu)先級；語義聚焦爬蟲，分析頁面與主題的語義相關(guān)性計算各鏈接下載優(yōu)先級；在線增量自學習聚焦爬蟲，采用可更新的分類器指定頁面優(yōu)先級，爬行過程中分類器可在線增強學習，從而提高分類準確性和爬行精度。本文提出了一種基于錨文本和網(wǎng)頁類型的聚焦爬蟲，相對于經(jīng)典聚焦爬蟲，本文爬蟲考慮了鏈接所在頁面是否是主題相關(guān)網(wǎng)頁或?qū)Ш骄W(wǎng)頁，并以此評估鏈接優(yōu)先級。

2聚焦爬蟲模型

2.1確定鏈接屬性

錨文本與主題間的相似度通過式（1）來確定。

2.2評估鏈接優(yōu)先級

本文采用基于鄰居規(guī)則的分類算法[1]，根據(jù)鏈接與主題的相似度和鏈接的類別將鏈接分為0到5級，5級優(yōu)先級最高，0級優(yōu)先級最低，爬蟲爬行過程中優(yōu)先爬取優(yōu)先級高的鏈接并舍棄0級鏈接。

本文爬蟲通過有標注的訓練樣本D完成算法訓練過程，得到特征屬性集合S，在確定鏈接屬性sim（q，p）和類別后，通過算法分類過程得到鏈接類別，即確定鏈接優(yōu)先級。

2.3系統(tǒng)結(jié)構(gòu)

根據(jù)上述原理建立的聚焦爬蟲模型如圖1。與通用web爬行器相比，圖3增加了三個組件：鏈接優(yōu)先級評估器、主題相關(guān)判定器和導航網(wǎng)頁判定器。主題相關(guān)判定器和導航網(wǎng)頁判定器用于確定抽取出來的鏈接類別，鏈接優(yōu)先級評估器用于確定提供主題相關(guān)頁面的可能性。

該系統(tǒng)運行過程如下：從種子鏈接開始爬取網(wǎng)頁，判定下載下來的網(wǎng)頁是否主題相關(guān)、是否是導航頁面，并由此確定抽取出來的鏈接的類別；計算鏈接錨文本與主題的相似度；利用鏈接優(yōu)先級評估器評估鏈接的優(yōu)先級，舍棄其中0級的鏈接后放入到優(yōu)先級隊列中；爬蟲不停地從優(yōu)先級隊列隊首取得最高優(yōu)先級鏈接進行爬取，爬取了指定數(shù)目的鏈接后終止。

3系統(tǒng)實現(xiàn)及實驗

3.1系統(tǒng)實現(xiàn)

根據(jù)上述的系統(tǒng)模型，在windows系統(tǒng)下MyEclipse 2013實現(xiàn)了一個聚焦爬蟲原型系統(tǒng)webcollector。主題相關(guān)判別器和導航頁面判別器均使用樸素貝葉斯分類器，鏈接優(yōu)先級評估器使用基于鄰居規(guī)則分類算法的分類器，將鏈接分為0到5級。主題相關(guān)判別器的計算和訓練采用頁面特征文本，包含當前頁面的標題、meta中keywords、description和tabs以及網(wǎng)頁正文；導航頁面判別器的計算和訓練采用頁面中所有鏈接的錨文本，包括相似度大于0的鏈接總數(shù)、鏈接相似度總和、平均鏈接相似度等。在計算主題相似度sim時，先進行分詞并過濾中文中”?！?、”，”、”的”等常用符號和停用詞。系統(tǒng)實現(xiàn)參考了中國科學院計算所的漢語詞法分析系統(tǒng)ICTCLAS和懷卡托大學的weka機器學習軟件。

3.2實驗

為了檢驗本文所用算法的有效性，將本文模型的某些功能去掉，分別形成標準通用爬蟲模型和標準聚焦爬蟲模型，然后比較3種模型。實驗中爬蟲的種子網(wǎng)頁為新浪體育（http：∥sports.sina.com.cn）、網(wǎng)易體育（http：∥sports.163.com.cn）、搜狐體育（http：∥sports.sohu.com）。實驗選擇的評測指標為搜索到的主題相關(guān)頁面的個數(shù)、訪問鏈接數(shù)和搜索主題相關(guān)頁面的回調(diào)率。實驗平臺為windows 10，CPU為IntelI5-5200U 2.19GHz，內(nèi)存為8GB，實驗主題為”足球”。用標準通用爬蟲從上述種子網(wǎng)頁爬取了495個頁面，進行兩次標記后分別作為主題相關(guān)判別器和導航網(wǎng)頁判別器的訓練數(shù)據(jù)。然后從中選取9個典型網(wǎng)頁抽取出1131鏈接，進行標記后作為鏈接優(yōu)先級評估器的訓練數(shù)據(jù)。爬蟲在爬行過程中記錄訪問的鏈接數(shù)、下載的頁面數(shù)，以最終下載的最大相關(guān)頁面數(shù)為1計算回調(diào)率。

3.3實驗結(jié)果討論

由圖4可以看出，在爬取9500個頁面的過程中，基于CRN分類算法的聚焦爬蟲和標準聚焦爬蟲都比通用網(wǎng)絡(luò)爬蟲具有更好的性能。另外可以看出，本文聚焦爬蟲在下載頁面抽取鏈接的過程中，由于采用了CRN分類算法識別更有可能指向主題相關(guān)頁面的鏈接，爬行的主題相關(guān)頁面數(shù)高于標準聚焦爬蟲。由圖5可以看出，基于CRN分類算法的聚焦爬蟲能夠比較穩(wěn)定地爬取到主題相關(guān)頁面。

4結(jié)束語

聚焦爬蟲的研究，對個性化搜索引擎的應(yīng)用和發(fā)展具有重要的意義。本文提出了一種基于鄰居規(guī)則分類算法的聚焦爬蟲，相對與標準聚焦爬蟲，能更好地搜索主題相關(guān)網(wǎng)頁。目前，鏈接優(yōu)先級評估器只是采用離線訓練數(shù)據(jù)，如果將下載下來的頁面中的鏈接處理得到分類結(jié)果后反饋給鏈接優(yōu)先級評估器，在線更新其訓練數(shù)據(jù)，可以增強評估器的分類性能和準確性，這是下一步要做的工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于鄰居規(guī)則分類算法的聚焦爬蟲