国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于鄰居規(guī)則分類算法的聚焦爬蟲

2017-07-10 08:31:12敬烜魯紅英
電腦知識與技術(shù) 2017年14期
關(guān)鍵詞:信息檢索

敬烜+魯紅英

摘要:判定鏈接錨文本與主題的相關(guān)度、評估鏈接的優(yōu)先級并過濾不相關(guān)的鏈接是實現(xiàn)聚焦爬行的關(guān)鍵。通過判定鏈接所在頁面是否主題相關(guān)、是否是導航頁面劃分鏈接的類別,結(jié)合鏈接錨文本與主題的相似度,提出了一種基于鄰居規(guī)則分類算法評估鏈接優(yōu)先級的聚焦爬蟲。該爬蟲包括一個主題相關(guān)網(wǎng)頁判別器、一個導航網(wǎng)頁判別器和一個基于鄰居規(guī)則分類算法的鏈接優(yōu)先級評估器。實驗結(jié)果表明,基于鄰居規(guī)則分類算法的聚焦爬蟲比僅僅根據(jù)錨文本判定鏈接優(yōu)先級的標準聚焦爬蟲具有更好的性能,因此更加適合用于信息檢索。

關(guān)鍵詞:信息檢索;聚焦爬蟲;鄰居規(guī)則;分類算法;鏈接優(yōu)先級

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)14-0151-113

1概述

隨著網(wǎng)絡(luò)數(shù)據(jù)的不斷增長,如何有效地發(fā)現(xiàn)、過濾、處理和利用這些數(shù)據(jù)成為了一個需要解決的問題。適合特定主題和個性化搜索的聚焦爬蟲是一個有效的解決途徑。聚集爬蟲可被分作三類:經(jīng)典聚焦爬蟲,基于錨文本與主題詞匯集的相似性,利用機器學習評估鏈接優(yōu)先級;語義聚焦爬蟲,分析頁面與主題的語義相關(guān)性計算各鏈接下載優(yōu)先級;在線增量自學習聚焦爬蟲,采用可更新的分類器指定頁面優(yōu)先級,爬行過程中分類器可在線增強學習,從而提高分類準確性和爬行精度。本文提出了一種基于錨文本和網(wǎng)頁類型的聚焦爬蟲,相對于經(jīng)典聚焦爬蟲,本文爬蟲考慮了鏈接所在頁面是否是主題相關(guān)網(wǎng)頁或?qū)Ш骄W(wǎng)頁,并以此評估鏈接優(yōu)先級。

2聚焦爬蟲模型

2.1確定鏈接屬性

錨文本與主題間的相似度通過式(1)來確定。

2.2評估鏈接優(yōu)先級

本文采用基于鄰居規(guī)則的分類算法[1],根據(jù)鏈接與主題的相似度和鏈接的類別將鏈接分為0到5級,5級優(yōu)先級最高,0級優(yōu)先級最低,爬蟲爬行過程中優(yōu)先爬取優(yōu)先級高的鏈接并舍棄0級鏈接。

本文爬蟲通過有標注的訓練樣本D完成算法訓練過程,得到特征屬性集合S,在確定鏈接屬性sim(q,p)和類別后,通過算法分類過程得到鏈接類別,即確定鏈接優(yōu)先級。

2.3系統(tǒng)結(jié)構(gòu)

根據(jù)上述原理建立的聚焦爬蟲模型如圖1。與通用web爬行器相比,圖3增加了三個組件:鏈接優(yōu)先級評估器、主題相關(guān)判定器和導航網(wǎng)頁判定器。主題相關(guān)判定器和導航網(wǎng)頁判定器用于確定抽取出來的鏈接類別,鏈接優(yōu)先級評估器用于確定提供主題相關(guān)頁面的可能性。

該系統(tǒng)運行過程如下:從種子鏈接開始爬取網(wǎng)頁,判定下載下來的網(wǎng)頁是否主題相關(guān)、是否是導航頁面,并由此確定抽取出來的鏈接的類別;計算鏈接錨文本與主題的相似度;利用鏈接優(yōu)先級評估器評估鏈接的優(yōu)先級,舍棄其中0級的鏈接后放入到優(yōu)先級隊列中;爬蟲不停地從優(yōu)先級隊列隊首取得最高優(yōu)先級鏈接進行爬取,爬取了指定數(shù)目的鏈接后終止。

3系統(tǒng)實現(xiàn)及實驗

3.1系統(tǒng)實現(xiàn)

根據(jù)上述的系統(tǒng)模型,在windows系統(tǒng)下MyEclipse 2013實現(xiàn)了一個聚焦爬蟲原型系統(tǒng)webcollector。主題相關(guān)判別器和導航頁面判別器均使用樸素貝葉斯分類器,鏈接優(yōu)先級評估器使用基于鄰居規(guī)則分類算法的分類器,將鏈接分為0到5級。主題相關(guān)判別器的計算和訓練采用頁面特征文本,包含當前頁面的標題、meta中keywords、description和tabs以及網(wǎng)頁正文;導航頁面判別器的計算和訓練采用頁面中所有鏈接的錨文本,包括相似度大于0的鏈接總數(shù)、鏈接相似度總和、平均鏈接相似度等。在計算主題相似度sim時,先進行分詞并過濾中文中”?!?、”,”、”的”等常用符號和停用詞。系統(tǒng)實現(xiàn)參考了中國科學院計算所的漢語詞法分析系統(tǒng)ICTCLAS和懷卡托大學的weka機器學習軟件。

3.2實驗

為了檢驗本文所用算法的有效性,將本文模型的某些功能去掉,分別形成標準通用爬蟲模型和標準聚焦爬蟲模型,然后比較3種模型。實驗中爬蟲的種子網(wǎng)頁為新浪體育(http:∥sports.sina.com.cn)、網(wǎng)易體育(http:∥sports.163.com.cn)、搜狐體育(http:∥sports.sohu.com)。實驗選擇的評測指標為搜索到的主題相關(guān)頁面的個數(shù)、訪問鏈接數(shù)和搜索主題相關(guān)頁面的回調(diào)率。實驗平臺為windows 10,CPU為IntelI5-5200U 2.19GHz,內(nèi)存為8GB,實驗主題為”足球”。用標準通用爬蟲從上述種子網(wǎng)頁爬取了495個頁面,進行兩次標記后分別作為主題相關(guān)判別器和導航網(wǎng)頁判別器的訓練數(shù)據(jù)。然后從中選取9個典型網(wǎng)頁抽取出1131鏈接,進行標記后作為鏈接優(yōu)先級評估器的訓練數(shù)據(jù)。爬蟲在爬行過程中記錄訪問的鏈接數(shù)、下載的頁面數(shù),以最終下載的最大相關(guān)頁面數(shù)為1計算回調(diào)率。

3.3實驗結(jié)果討論

由圖4可以看出,在爬取9500個頁面的過程中,基于CRN分類算法的聚焦爬蟲和標準聚焦爬蟲都比通用網(wǎng)絡(luò)爬蟲具有更好的性能。另外可以看出,本文聚焦爬蟲在下載頁面抽取鏈接的過程中,由于采用了CRN分類算法識別更有可能指向主題相關(guān)頁面的鏈接,爬行的主題相關(guān)頁面數(shù)高于標準聚焦爬蟲。由圖5可以看出,基于CRN分類算法的聚焦爬蟲能夠比較穩(wěn)定地爬取到主題相關(guān)頁面。

4結(jié)束語

聚焦爬蟲的研究,對個性化搜索引擎的應(yīng)用和發(fā)展具有重要的意義。本文提出了一種基于鄰居規(guī)則分類算法的聚焦爬蟲,相對與標準聚焦爬蟲,能更好地搜索主題相關(guān)網(wǎng)頁。目前,鏈接優(yōu)先級評估器只是采用離線訓練數(shù)據(jù),如果將下載下來的頁面中的鏈接處理得到分類結(jié)果后反饋給鏈接優(yōu)先級評估器,在線更新其訓練數(shù)據(jù),可以增強評估器的分類性能和準確性,這是下一步要做的工作。

猜你喜歡
信息檢索
基于同態(tài)加密支持模糊查詢的高效隱私信息檢索協(xié)議
基于信息檢索課的大學生信息檢索行為調(diào)查研究
高職院校圖書館開設(shè)信息檢索課的必要性探討
基于MOOC理念的“翻轉(zhuǎn)課堂”教學改革探索——以海南大學《文獻信息檢索與利用》課程為例
網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索發(fā)展
山西青年(2018年5期)2018-01-25 16:53:40
醫(yī)學期刊編輯中文獻信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網(wǎng)絡(luò)環(huán)境下高職院校開設(shè)信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
地理信息檢索中空間相似性度量的一種模糊方法
教學型大學《信息檢索》公選課的設(shè)計與實施
河南科技(2014年11期)2014-02-27 14:10:19
和平县| 沂水县| 明溪县| 苗栗县| 年辖:市辖区| 康马县| 周口市| 赤峰市| 三原县| 石门县| 榆树市| 金堂县| 镇远县| 康乐县| 北川| 古交市| 伊春市| 漯河市| 新蔡县| 宣化县| 大厂| 湘潭市| 贵阳市| 普宁市| 会东县| 华宁县| 岑溪市| 吉林市| 汝城县| 松桃| 鱼台县| 文水县| 遂溪县| 合水县| 崇明县| 偃师市| 鄂尔多斯市| 高州市| 南丹县| 阳谷县| 十堰市|