左薇 張熹 董紅娟 于夢君
摘 要:隨著人們對信息資源的個性化需求不斷加大,主題網(wǎng)絡(luò)爬蟲應時而生。闡述主題網(wǎng)絡(luò)爬蟲定義及工作原理;介紹了主題網(wǎng)絡(luò)爬蟲研究進展,對主題網(wǎng)絡(luò)爬蟲爬行策略、網(wǎng)頁抓取優(yōu)先級以及系統(tǒng)設(shè)計實現(xiàn)進行闡述;總結(jié)當前研究的不足,對未來研究方向進行了展望。
關(guān)鍵詞:主題網(wǎng)絡(luò)爬蟲;主題爬蟲;搜索引擎
DOI:10. 11907/rjdk. 191351 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)002-0278-04
英標:Overview of Research on Topic-focused Web Crawler
英作:ZUO Wei1, ZHANG Xi2, DONG Hong-juan1, YU Meng-jun1
英單:(1. School of Professional and Continuing Education, Yunnan University;2. School of Information, Yunnan University, Kunming 650000,China)
Abstract: With the increase of peoples personalized demand for information resources, topic-focused web crawler emerged at the right time. The topic-focused web crawler and its working principle are stated. The research progress of theme web crawler is systematically analyzed, and three fields of topic-focused web crawler crawling strategy, web page crawling priority and design and implementation oftopic-focused web crawler system are expounded. The deficiencies of current research are summarized and the future research direction is prospected.
Key Words: topic-focused web crawler; topic-focused crawler; search engine
0 引言
Internet的飛速發(fā)展加快了網(wǎng)絡(luò)信息量增長。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》 [1]顯示,“截止2018年6月,我國網(wǎng)民高達8.02億,互聯(lián)網(wǎng)普及率為57.7%”。在互聯(lián)網(wǎng)這個龐大的資源庫中,網(wǎng)頁搜索引擎是人們獲取外界信息的主要工具。為了提高檢索質(zhì)量,達到更好的檢索體驗,通用搜索引擎應運而生。通用搜索引擎利用爬蟲程序?qū)W(wǎng)站進行檢索,如谷歌、百度等面向所有用戶的大型搜索引擎,把種子頁面作為搜索起點,力圖遍歷整個網(wǎng)絡(luò),盡可能全面搜索到人們所需的信息。然而,針對某一特定主題,通用搜索引擎存在信息冗余大、內(nèi)存占用高、消耗系統(tǒng)資源、查準率低和個性化需求弱等問題[2],為解決這些問題,出現(xiàn)了抓取特定領(lǐng)域信息資源的主題網(wǎng)絡(luò)爬蟲(Topical Web Crawler)技術(shù)。主題網(wǎng)絡(luò)爬蟲又稱主題爬蟲(Topical Crawler)和聚焦爬蟲(Focused Crawling),是網(wǎng)絡(luò)爬蟲的一個重要分支[3]。主題網(wǎng)絡(luò)爬蟲指盡可能爬行和收集用戶所需的網(wǎng)頁,與通用網(wǎng)絡(luò)爬蟲有較大差異,它只抓取用戶特定的、與主題相關(guān)的網(wǎng)頁,忽略與主題無關(guān)的網(wǎng)頁,具有準確性、深入性和專業(yè)性等特點。
近年來,國內(nèi)外專家學者對主題網(wǎng)絡(luò)爬蟲技術(shù)研究取得了顯著成果,但鮮有文獻對主題網(wǎng)絡(luò)爬蟲研究發(fā)展狀況進行分析和系統(tǒng)梳理。因此,對近年來主題網(wǎng)絡(luò)爬蟲進行綜述顯得至關(guān)重要。本文從主題網(wǎng)絡(luò)爬蟲的定義及工作原理、國內(nèi)外研究進展、研究中存在的問題、未來研究方向展望4個部分進行闡述,以期為今后主題網(wǎng)絡(luò)爬蟲研究與實踐方向提供借鑒與參考。
1 主題網(wǎng)絡(luò)爬蟲定義與工作原理
1.1 主題網(wǎng)絡(luò)爬蟲定義
網(wǎng)絡(luò)爬蟲(Web Crawler)是依照一定規(guī)則主動抓取網(wǎng)頁的程序,是搜索引擎獲得信息的渠道之一。通常根據(jù)給定URL種子爬取網(wǎng)頁,得到新的URL存放至待爬行URL中,當滿足一定條件時停止爬行。網(wǎng)絡(luò)爬蟲一般分為通用網(wǎng)絡(luò)爬蟲、深度網(wǎng)絡(luò)爬蟲和主題網(wǎng)絡(luò)爬蟲3類。
主題網(wǎng)絡(luò)爬蟲通常給定URL種子集,依照預先規(guī)定的主題,由特定的分析算法算出爬行網(wǎng)頁的主題相關(guān)度,并過濾與主題無關(guān)的網(wǎng)頁,優(yōu)先抓取相關(guān)度高的網(wǎng)頁,當滿足一定條件時停止。主題網(wǎng)絡(luò)爬蟲根據(jù)主題對Web進行分塊采集并整合采集結(jié)果,從而提高Web頁面利用率。
1.2 主題網(wǎng)絡(luò)爬蟲工作原理
主題網(wǎng)絡(luò)爬蟲與通用爬蟲差異如下:
主題相關(guān)性預測。主題爬蟲對提取的URL會采用一定策略預測其主題相關(guān)性,給出量化評價,而通用爬蟲通常不需要對URL進行相關(guān)性預測。
主題相關(guān)度判斷。當一篇網(wǎng)頁下載后,主題網(wǎng)絡(luò)爬蟲自動分析頁面相關(guān)度,丟棄與主題無關(guān)的頁面,存儲相關(guān)頁面。通用爬蟲通常直接存儲下載的頁面。
URL抓取排序。主題網(wǎng)絡(luò)爬蟲依據(jù)一定的規(guī)則將待抓取的URL排序并明確抓取順序,通常先抓取評分較高的URL,而通用爬蟲采用先進先出原則。
主題網(wǎng)絡(luò)爬蟲工作流程如圖 1 所示。
2 主題網(wǎng)絡(luò)爬蟲研究現(xiàn)狀
2.1 國外研究現(xiàn)狀
國外主題爬蟲研究始于上世紀 90 年代,提出一些獲取特定內(nèi)容的爬行策略,只是當時還沒有提出主題網(wǎng)絡(luò)爬蟲概念。1994年,DeBra[4]設(shè)計了Fish-search算法用來指導爬蟲抓取方向,在特定的范圍內(nèi)爬取網(wǎng)頁。若抓取到相關(guān)網(wǎng)頁,則繼續(xù)游動,反之則停止。由于Fish不能估算出頁面和主題的相關(guān)程度,Michael Hersovici[5]基于Fish-Search算法于1998年提出了Shark-Search算法,該算法通過0~1的區(qū)間值表示候選URL的優(yōu)先級。直到1999年,Chakrabarti等[6]提出主題網(wǎng)絡(luò)爬蟲概念,主要用于描述超鏈接資源發(fā)現(xiàn)系統(tǒng),這一系統(tǒng)主要包括分類器和過濾器。分類器用來評估文本內(nèi)容和主題相關(guān)度,過濾器用來過濾無關(guān)鏈接網(wǎng)頁,是早期主題網(wǎng)絡(luò)爬蟲較典型的研究之一。2001年,Junghoo Cho提出了best-first-search搜索策略。上述3類主題網(wǎng)絡(luò)爬蟲的設(shè)計思想主要涉及網(wǎng)頁上的文本和內(nèi)容,根據(jù)文本和內(nèi)容選擇下載頁面及將要訪問的URL?;阪溄咏Y(jié)構(gòu)評價這一爬取策略主要有PageRank算法和HITS算法。Larry Page[7]提出的PageRank算法,主要根據(jù)是否被權(quán)威網(wǎng)站指向及鏈接指向判斷網(wǎng)頁的關(guān)聯(lián)程度。1998年,Kleinberg[8]提出HITS算法,該算法通過權(quán)威和樞紐兩個維度衡量頁面的價值。若只使用網(wǎng)絡(luò)鏈接關(guān)系判斷網(wǎng)頁的關(guān)鍵性而不去判斷文本內(nèi)容,可能導致爬行結(jié)果與主題無關(guān),所以一般不單獨使用基于鏈接的爬取策略。
Hati等[9]采用VIPS 算法把網(wǎng)頁劃為不同區(qū)塊,用區(qū)塊的相關(guān)度評分衡量頁面的主題相關(guān)度評分;Wenxian Wang等[10]利用TF-IDF特征并結(jié)合樸素貝葉斯方法判斷文本內(nèi)容的主題相關(guān)性;Taylan等[11]也依據(jù)樸素貝葉斯分類器將網(wǎng)頁鏈接分類,同時使用簡單的鏈接分值優(yōu)化系統(tǒng)性能;Yohanes等[12]認為局部搜索算法有缺陷,于是運用遺傳算法指導爬行,精確率較Best-First-Search算法有很大提高;álvarez等[13]構(gòu)建了DeepBot[14]主題網(wǎng)絡(luò)爬蟲,獲得了較高的召回率和精確率;Singh等[15]采用提取關(guān)鍵詞擴展主題詞權(quán)重表、移除重復鏈接等方式提高精確率;Diligenti等[16]構(gòu)建了一種名為 Context Focused Crawler的主題爬蟲,該系統(tǒng)通過分析頁面的層次結(jié)構(gòu)指導爬行,獲得了較高的爬行效率;Stamatakis等[17]構(gòu)建了包括3個不同版本的CROSSMARC 爬蟲系統(tǒng),針對不同的版本提供不同的起點,從而獲得較高的收獲比;Seyfi等[18]將基于內(nèi)容和基于鏈接的方法相結(jié)合構(gòu)建了Treasure-Crawler爬蟲系統(tǒng),用來發(fā)現(xiàn)與主題有關(guān)的頁面,并建立T-Graph 結(jié)構(gòu)協(xié)助URL評分;Sougata Mukherjea[19]構(gòu)建了一種網(wǎng)頁主題管理系統(tǒng)(WTMS),用戶能采集和分析特定主題頁面。
2.2 國內(nèi)研究現(xiàn)狀
相比于國外,我國對主題網(wǎng)絡(luò)爬蟲的研究起步雖晚于國外,但也取得了不少成果。
蕭婧婕等[20]設(shè)計出基于灰狼算法,旨在解決爬蟲在全局爬取中的優(yōu)先級問題,從而提高爬取的查全率和查準率,能爬取更多網(wǎng)頁;蔣宗禮等[21]把SVM、語義分析技術(shù)及貝葉斯結(jié)合,提高了主題相關(guān)度判斷;陳千[22]提出了一種改進的best-first策略,該方法將VSM模型和貝葉斯分類器結(jié)合,能夠預測待爬行鏈接,從而提高網(wǎng)頁收獲率。為提高爬取性能,胡萍瑞[23]依據(jù)URL的特征和站點特點,設(shè)計了基于URL模式集的主題爬蟲。實驗證明,該爬蟲能快速判斷爬取頁面的相關(guān)度,保證了爬取的召回率和準確率。劉林等[24]認為并不是網(wǎng)頁的所有URL都與主題有關(guān),因而有必要先通過鏈接分析過濾掉無關(guān)鏈接,實驗表明該方法極大提高了爬行速度;孟竹[25]借助點對互信息(PMI)與詞向量模型,判斷新的網(wǎng)頁鏈接與主題相關(guān)度;熊忠陽等[26]提出基于信息自增益的主題爬蟲,該策略在爬行過程中自動更新;白鶴[27]基于數(shù)據(jù)抽取器構(gòu)建了一個分布式主題爬蟲系統(tǒng),該系統(tǒng)使用分類標注方法克服了多個主題的兼容問題。針對主題詞匯不夠細化、未考慮語義詞意義延伸等問題,孫紅光等[28]采用LDA(Latent Dirichlet Allocation,LDA)模型,基于語義相似度計算模型,引入語義信息的相似度計算模型(SVSM)設(shè)計了語義聚焦爬蟲(ESVSM)。實驗證明,該算法相關(guān)網(wǎng)頁數(shù)量和平均相關(guān)度都高于其它算法,抓取精度高達85%;方啟明等[29]通過在配置文件里定義目標網(wǎng)站的范圍和類型,實現(xiàn)可定制主題爬蟲。網(wǎng)頁鏈接權(quán)威評估方法主要采用PageRank算法、Hits算法以及基于它們的改進算法,Hits主要應用于特定領(lǐng)域排序,PageRank算法則用于全局排序[30]。
3 存在的主要問題
近年有關(guān)主題網(wǎng)絡(luò)爬蟲研究和探索取得了一定成果,但在文本信息抽取、主題相關(guān)度判別、搜索策略等方面還存在問題,具體如下:
主題網(wǎng)絡(luò)爬蟲的爬行先在初始頁獲取源代碼,然后分析和處理源代碼以獲取網(wǎng)頁標題、文本及鏈接等信息,文本信息提取準確率有待進一步提高。
主題網(wǎng)絡(luò)爬蟲一般會判別網(wǎng)頁的主題相關(guān)度,同時將自動保存相關(guān)度高的網(wǎng)頁,當前在主題判斷效率和準確率兩方面有待提升。
主題網(wǎng)絡(luò)爬蟲的搜索策略研究主要是鏈接結(jié)構(gòu)的價值評價問題,其對爬蟲進一步爬行的搜索路徑、搜索結(jié)果和搜索效率有重要意義。目前,搜索策略存在主題偏離、效率不佳等問題。
4 研究趨勢
主題網(wǎng)絡(luò)爬蟲研究主要集中在搜索策略、網(wǎng)頁抓取優(yōu)先級設(shè)計、主題爬蟲系統(tǒng)設(shè)計3大領(lǐng)域。目前主題網(wǎng)絡(luò)爬蟲研究不斷進步,但有待深入研究的問題如下:
(1)當前,基于網(wǎng)頁內(nèi)容的主題網(wǎng)絡(luò)爬蟲搜索策略研究方向是使用成熟的文本分類法對網(wǎng)頁中的文本進行分類,忽略了網(wǎng)頁結(jié)構(gòu)影響主題相關(guān)度等問題,同時,網(wǎng)頁是否進行去噪處理直接影響到主題的判斷精度,因此對網(wǎng)頁去噪研究有待提升。此外,該策略未考慮到互聯(lián)網(wǎng)信息隨時發(fā)生變化的情況,因網(wǎng)頁未及時更新導致抓取到的信息可能已經(jīng)過時。
(2)站點的質(zhì)量越高,URL就越規(guī)范,則基于鏈接的主題網(wǎng)絡(luò)爬蟲的主題判斷精確度越高;當網(wǎng)站的URL路徑不規(guī)范時,基于鏈接的主題網(wǎng)絡(luò)爬蟲判斷精確度就會降低。
(3)現(xiàn)階段,主要的網(wǎng)頁鏈接分析是PageRank和Hits算法[34],有些使用了SALSA和Hilltop算法,在鏈接分析方面有良好效果。目前,搜索引擎查詢首要采用鏈接分析算法,假如將鏈接分析算法用于主題網(wǎng)絡(luò)爬蟲搜索策略以確定網(wǎng)頁抓取優(yōu)先級,則會大大提高主題網(wǎng)絡(luò)爬蟲的信息提取和網(wǎng)頁搜索性能。
5 結(jié)語
隨著人們的個性化信息需求不斷加大,主題網(wǎng)絡(luò)爬蟲成為搜索引擎領(lǐng)域研究熱點。其中,主題網(wǎng)絡(luò)爬蟲研究重點是網(wǎng)頁抓取優(yōu)先級、爬行策略以及設(shè)計實現(xiàn)主題網(wǎng)絡(luò)爬蟲系統(tǒng)3大領(lǐng)域。本文先給出主題網(wǎng)絡(luò)爬蟲的定義和基本原理, 然后對國內(nèi)外主題網(wǎng)絡(luò)爬蟲研究發(fā)展狀況進行分析和系統(tǒng)梳理,給出了目前研究中存在的問題以及進一步研究的方向。希望有更多學者關(guān)注、加入到主題網(wǎng)絡(luò)爬蟲研究實踐中,共同推動主題網(wǎng)絡(luò)爬蟲研究健康快速發(fā)展。
參考文獻:
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心. 中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[EB/OL]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201808/t20180 820_70488.htm
[2] 張環(huán). 垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲算法研究[D]. 濟南:山東師范大學,2016.
[3] VIEIRA K, BARBOSA L, SILVA A S D, et al.Finding seeds to bootstrap focused crawlers[J]. World Wide Web,2016, 19(3):449-474
[4] BRA P D,POST R D J. Information retrieval in the world-wide web: making client-based searching feasible[J].? Computer Networks and ISDN Systems, 1994, 27(2):183-192.
[5] HERSOVICI M,JACOVI M,MAAREK Y S,et al. The shark-search algorithm. an application: tailored web site mapping[C].? International Conference on World Wide Web. Elsevier Science Publishers B. V. 1998.
[6] CHAKRABARTI S,VAN DEN BERG M,DOM B. Focused crawling: a new approach to topic-specific? web? resource? discovery[J]. Computer Networks, May 1999, 31(11-16):1623-1640.
[7] PAGE.L.The pagerank citation ranking:bringing order to the web[J]. Online manuscript,1998,9(1):1-14.
[8] JON M. KLEINBERG. Authoritative sources in a hyperlinked environment[C]. Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms,1998:668-677.
[9] HATI D, KUMAR A. Improved focused crawling approach for retrieving relevant pages based on block partitioning[C]. International Conference on Education Technology and Computer. IEEE,2010:269-273.
[10] WANG W,CHEN X,ZOU Y,et al. A focused crawler based on naive bayes classifier[C].? Third International Symposium on Intelligent Information Technology & Security Informatics, IEEE Computer Society, 2010.
[11] TAYLAN D,POYRAZ M,AKYOKU? S,et al. Intelligent focused crawler: learning which links to crawl[C]. International Symposium on Innovations in Intelligent Systems and Applications. IEEE, 2011:504-508.
[12] YOHANES B W, HANDOKO H, WARDANA H K. Focused crawler optimization using genetic algorithm[J]. Telkomnika (Telecommunication Computing Electronics and Control),2013,9(3):403-410.
[13] áLVAREZ M, RAPOSO J, PAN A,et al. Deepbot: a focused crawler for accessing hidden web content[C]. Proceedings of the 3rd international workshop on Data engineering issues in E-commerce and services: In conjunction with ACM Conference on Electronic Commerce (EC'07).? ACM, 2007:18-25.
[14] BERGMAN M K. White paper: the deep web: surfacing hidden value[J].? Journal of electronic publishing, 2001, 7(1):597-600.
[15] SINGH B, GUPTA D K, SINGH R M. Improved architecture of focused crawler on the basis of content and link analysis[J]. International Journal of Modern Education and Computer Science, 2017, 9(11):33-39.
[16] DILIGENTI? M, COETZEE F, LAWRENCE S, et al. Focused crawling using context graphs[C]. International Conference on Very Large Data Bases. Morgan? Kaufmann PublishersInc, 2000:527-534.
[17] STAMATAKIS K, KARKALETSIS V, PALIOURAS G, et al. Domain-specific web site identification: the crossmarc focused web crawler[C]. Proceedings of the 2nd International Workshop on Web Document Analysis (WDA2003), Edinburgh, UK, 2003:75-78.
[18] SEYFI A, PATEL A. A? focused crawler combinatory link? and content model based on t-graph? principles[J].? Computer Standards & Interfaces, 2016(43):1-11.
[19] MUKHERJEA S. WTMS: a system for collecting and analyzing topic-specific web information[J].? Computer Networks, 2000, 33(1):457-471.
[20] 蕭婧婕,陳志云. 基于灰狼算法的主題爬蟲[J]. 計算機科學,2018,45(S2):156-158,176.
[21] 蔣宗禮,田曉燕,趙旭. 一種基于語義分析的主題爬蟲算法[J]. 計算機工程與科學,2010, 32(9):145-147.
[22] 陳千. 主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)的研究與應用[D]. 北京:北京理工大學,2015.
[23] 胡萍瑞,李石君. 基于URL模式集的主題爬蟲[J]. 計算機應用研究,2018,35(3):694-699.
[24] 劉林,汪濤,樊孝忠. 主題爬蟲的解決方案[J]. 華南理工大學學報:自然科學版,2004,32(z1):137-141.
[25] 孟竹. 詞向量語義模型研究及在主題爬蟲系統(tǒng)中的應用[D]. 北京:中國地質(zhì)大學(北京),2017.
[26] 熊忠陽,史艷,張玉芳. 基于信息增益的自適應主題爬行策略[J]. 計算機應用研究,2012,29(2):501-504.
[27] 白鶴,湯迪斌,王勁林. 分布式多主題網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[J]. 計算機工程, 2009,35(19):13-16.
[25] 閔鈺麟,黃永峰. 用戶定制主題聚焦爬蟲的設(shè)計與實現(xiàn)[J]. 計算機工程與設(shè)計,2015,36(1):17-21.
[26] 袁浩,黃煙波. 網(wǎng)頁標題分析對主題爬蟲的改進[J]. 計算機技術(shù)與發(fā)展, 2009, 19(6):22-24.
[28] 孫紅光,藏潤強,姬傳德,等. 基于語義的聚焦爬蟲算法研究[J]. 東北師大學報:自然科學版,2018, 50(2):56-62.
[29] 方啟明,楊廣文,武永衛(wèi),等. 面向P2P搜索的可定制聚焦網(wǎng)絡(luò)爬蟲[J]. 華中科技大學學報:自然科學版, 2007, 35(s2):148-152.
[30] 蘇成,潘云濤,袁軍鵬,等. 基于優(yōu)化PageRank、HITS和SALSA算法的期刊評價研究[J]. 編輯學報,2015,27(4):330-333.
[31] 何曉陽,吳強,吳治蓉. HITS算法與PageRank算法比較分析[J]. 情報雜志,2004,23(2):85-86.
(責任編輯:杜能鋼)