敬烜+魯紅英
摘要:判定鏈接錨文本與主題的相關(guān)度、評估鏈接的優(yōu)先級并過濾不相關(guān)的鏈接是實現(xiàn)聚焦爬行的關(guān)鍵。通過判定鏈接所在頁面是否主題相關(guān)、是否是導航頁面劃分鏈接的類別,結(jié)合鏈接錨文本與主題的相似度,提出了一種基于鄰居規(guī)則分類算法評估鏈接優(yōu)先級的聚焦爬蟲。該爬蟲包括一個主題相關(guān)網(wǎng)頁判別器、一個導航網(wǎng)頁判別器和一個基于鄰居規(guī)則分類算法的鏈接優(yōu)先級評估器。實驗結(jié)果表明,基于鄰居規(guī)則分類算法的聚焦爬蟲比僅僅根據(jù)錨文本判定鏈接優(yōu)先級的標準聚焦爬蟲具有更好的性能,因此更加適合用于信息檢索。
關(guān)鍵詞:信息檢索;聚焦爬蟲;鄰居規(guī)則;分類算法;鏈接優(yōu)先級
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)14-0151-113
1概述
隨著網(wǎng)絡(luò)數(shù)據(jù)的不斷增長,如何有效地發(fā)現(xiàn)、過濾、處理和利用這些數(shù)據(jù)成為了一個需要解決的問題。適合特定主題和個性化搜索的聚焦爬蟲是一個有效的解決途徑。聚集爬蟲可被分作三類:經(jīng)典聚焦爬蟲,基于錨文本與主題詞匯集的相似性,利用機器學習評估鏈接優(yōu)先級;語義聚焦爬蟲,分析頁面與主題的語義相關(guān)性計算各鏈接下載優(yōu)先級;在線增量自學習聚焦爬蟲,采用可更新的分類器指定頁面優(yōu)先級,爬行過程中分類器可在線增強學習,從而提高分類準確性和爬行精度。本文提出了一種基于錨文本和網(wǎng)頁類型的聚焦爬蟲,相對于經(jīng)典聚焦爬蟲,本文爬蟲考慮了鏈接所在頁面是否是主題相關(guān)網(wǎng)頁或?qū)Ш骄W(wǎng)頁,并以此評估鏈接優(yōu)先級。
2聚焦爬蟲模型
2.1確定鏈接屬性
錨文本與主題間的相似度通過式(1)來確定。
2.2評估鏈接優(yōu)先級
本文采用基于鄰居規(guī)則的分類算法[1],根據(jù)鏈接與主題的相似度和鏈接的類別將鏈接分為0到5級,5級優(yōu)先級最高,0級優(yōu)先級最低,爬蟲爬行過程中優(yōu)先爬取優(yōu)先級高的鏈接并舍棄0級鏈接。
本文爬蟲通過有標注的訓練樣本D完成算法訓練過程,得到特征屬性集合S,在確定鏈接屬性sim(q,p)和類別后,通過算法分類過程得到鏈接類別,即確定鏈接優(yōu)先級。
2.3系統(tǒng)結(jié)構(gòu)
根據(jù)上述原理建立的聚焦爬蟲模型如圖1。與通用web爬行器相比,圖3增加了三個組件:鏈接優(yōu)先級評估器、主題相關(guān)判定器和導航網(wǎng)頁判定器。主題相關(guān)判定器和導航網(wǎng)頁判定器用于確定抽取出來的鏈接類別,鏈接優(yōu)先級評估器用于確定提供主題相關(guān)頁面的可能性。
該系統(tǒng)運行過程如下:從種子鏈接開始爬取網(wǎng)頁,判定下載下來的網(wǎng)頁是否主題相關(guān)、是否是導航頁面,并由此確定抽取出來的鏈接的類別;計算鏈接錨文本與主題的相似度;利用鏈接優(yōu)先級評估器評估鏈接的優(yōu)先級,舍棄其中0級的鏈接后放入到優(yōu)先級隊列中;爬蟲不停地從優(yōu)先級隊列隊首取得最高優(yōu)先級鏈接進行爬取,爬取了指定數(shù)目的鏈接后終止。
3系統(tǒng)實現(xiàn)及實驗
3.1系統(tǒng)實現(xiàn)
根據(jù)上述的系統(tǒng)模型,在windows系統(tǒng)下MyEclipse 2013實現(xiàn)了一個聚焦爬蟲原型系統(tǒng)webcollector。主題相關(guān)判別器和導航頁面判別器均使用樸素貝葉斯分類器,鏈接優(yōu)先級評估器使用基于鄰居規(guī)則分類算法的分類器,將鏈接分為0到5級。主題相關(guān)判別器的計算和訓練采用頁面特征文本,包含當前頁面的標題、meta中keywords、description和tabs以及網(wǎng)頁正文;導航頁面判別器的計算和訓練采用頁面中所有鏈接的錨文本,包括相似度大于0的鏈接總數(shù)、鏈接相似度總和、平均鏈接相似度等。在計算主題相似度sim時,先進行分詞并過濾中文中”?!?、”,”、”的”等常用符號和停用詞。系統(tǒng)實現(xiàn)參考了中國科學院計算所的漢語詞法分析系統(tǒng)ICTCLAS和懷卡托大學的weka機器學習軟件。
3.2實驗
為了檢驗本文所用算法的有效性,將本文模型的某些功能去掉,分別形成標準通用爬蟲模型和標準聚焦爬蟲模型,然后比較3種模型。實驗中爬蟲的種子網(wǎng)頁為新浪體育(http:∥sports.sina.com.cn)、網(wǎng)易體育(http:∥sports.163.com.cn)、搜狐體育(http:∥sports.sohu.com)。實驗選擇的評測指標為搜索到的主題相關(guān)頁面的個數(shù)、訪問鏈接數(shù)和搜索主題相關(guān)頁面的回調(diào)率。實驗平臺為windows 10,CPU為IntelI5-5200U 2.19GHz,內(nèi)存為8GB,實驗主題為”足球”。用標準通用爬蟲從上述種子網(wǎng)頁爬取了495個頁面,進行兩次標記后分別作為主題相關(guān)判別器和導航網(wǎng)頁判別器的訓練數(shù)據(jù)。然后從中選取9個典型網(wǎng)頁抽取出1131鏈接,進行標記后作為鏈接優(yōu)先級評估器的訓練數(shù)據(jù)。爬蟲在爬行過程中記錄訪問的鏈接數(shù)、下載的頁面數(shù),以最終下載的最大相關(guān)頁面數(shù)為1計算回調(diào)率。
3.3實驗結(jié)果討論
由圖4可以看出,在爬取9500個頁面的過程中,基于CRN分類算法的聚焦爬蟲和標準聚焦爬蟲都比通用網(wǎng)絡(luò)爬蟲具有更好的性能。另外可以看出,本文聚焦爬蟲在下載頁面抽取鏈接的過程中,由于采用了CRN分類算法識別更有可能指向主題相關(guān)頁面的鏈接,爬行的主題相關(guān)頁面數(shù)高于標準聚焦爬蟲。由圖5可以看出,基于CRN分類算法的聚焦爬蟲能夠比較穩(wěn)定地爬取到主題相關(guān)頁面。
4結(jié)束語
聚焦爬蟲的研究,對個性化搜索引擎的應(yīng)用和發(fā)展具有重要的意義。本文提出了一種基于鄰居規(guī)則分類算法的聚焦爬蟲,相對與標準聚焦爬蟲,能更好地搜索主題相關(guān)網(wǎng)頁。目前,鏈接優(yōu)先級評估器只是采用離線訓練數(shù)據(jù),如果將下載下來的頁面中的鏈接處理得到分類結(jié)果后反饋給鏈接優(yōu)先級評估器,在線更新其訓練數(shù)據(jù),可以增強評估器的分類性能和準確性,這是下一步要做的工作。