国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

引入主題鏈接塊因子的候選鏈接搜索策略研究?

2018-05-29 03:10劉乃文
關(guān)鍵詞:分塊爬蟲(chóng)網(wǎng)頁(yè)

周 雪 劉乃文

(1.山東師范大學(xué)信息科學(xué)與工程學(xué)院 濟(jì)南 250014)(2.山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室 濟(jì)南 250014)

1 引言

隨著Internet的迅速發(fā)展,Web上的信息量也呈直線上升,如何高效地從龐大信息中獲取有用資源,成為數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題。主題爬蟲(chóng)[1]是一種動(dòng)態(tài)的網(wǎng)頁(yè)采集技術(shù),可在用戶提交查詢時(shí)根據(jù)指定主題即時(shí)、定向地爬取網(wǎng)頁(yè)。與傳統(tǒng)爬蟲(chóng)不同,主題爬蟲(chóng)追求的不是全面搜索,而是將預(yù)設(shè)主題視為爬取目標(biāo),忽視與主題無(wú)關(guān)的頁(yè)面。

主題爬蟲(chóng)搜索策略的設(shè)計(jì)中常用的鏈接評(píng)價(jià)算法[2]有pagerank算法、HITS算法、Shark-search算法,這些搜索策略通常是以整張網(wǎng)頁(yè)作為處理單位,容易受到噪音信息的干擾。除了以上經(jīng)典爬行算法外,越來(lái)越多的新技術(shù)結(jié)合到爬蟲(chóng)研究中。Ester[3]提出的基于“隧道”問(wèn)題的主題爬行算法,隨著搜索范圍的不斷擴(kuò)大,爬蟲(chóng)濾過(guò)不相關(guān)網(wǎng)頁(yè),尋找正確爬行路線。Johnson[4]根據(jù)二類分類模型,提出基于支持向量機(jī)搜索算法。Menczer[5]提出的基于遺傳算法和增強(qiáng)學(xué)習(xí)程序的Infospider主題爬行器等都在提高爬行效率方面取得了很好的效果。文獻(xiàn)[6]中結(jié)合了網(wǎng)頁(yè)內(nèi)容與網(wǎng)頁(yè)鏈接的相似度對(duì)shark-search算法進(jìn)行改進(jìn),在計(jì)算網(wǎng)頁(yè)內(nèi)容相似度時(shí),借助塊標(biāo)題與主題的相似度來(lái)計(jì)算候選鏈接權(quán)重,通過(guò)調(diào)查可知,一般除了正文,其他分塊的標(biāo)題信息很少有有價(jià)值的信息,一般以“相關(guān)鏈接”,“相關(guān)報(bào)道”等為標(biāo)題,這些信息并不能準(zhǔn)確地描述該塊的主題相關(guān)性。

本文在文獻(xiàn)[6]的改進(jìn)Shark-search算法[6]的基礎(chǔ)上做進(jìn)一步研究,先使用分塊技術(shù)抽取出頁(yè)面中與主題相關(guān)的鏈接塊,然后利用相關(guān)塊中所有鏈接錨文本的主題相關(guān)度為輔助因子,引入相關(guān)鏈接塊權(quán)重的概念,提出基于相關(guān)鏈接塊的改進(jìn)搜索策略對(duì)網(wǎng)頁(yè)中的url進(jìn)行優(yōu)先級(jí)預(yù)測(cè)。實(shí)現(xiàn)了一個(gè)在頁(yè)面搜索準(zhǔn)確率和查全率方面有很大程度提高的搜索策略。

2 Shark-search算法

2.1 Shark-search算法介紹

Shark-search算法是 Hersovici,M 等在Fish-search算法基礎(chǔ)上提出的改進(jìn)算法,Shark-Search[7]中引入了相似度度量方法,采用基于連續(xù)值的相關(guān)度函數(shù)預(yù)測(cè)鏈接價(jià)值,對(duì)網(wǎng)頁(yè)與主題的相關(guān)性進(jìn)行模糊評(píng)分,且取值在0~1之間;在計(jì)算URL的potential_score上,充分利用了錨文本,鏈接上下文以及對(duì)父網(wǎng)頁(yè)相關(guān)性的繼承對(duì)候選鏈接主題相關(guān)度的影響。

2.2 Shark-search算法存在的問(wèn)題

Shark-search算法將鏈接上下文、錨文本以及父頁(yè)面繼承作為待訪問(wèn)鏈接主題相關(guān)度的評(píng)價(jià)因素。但存在以下問(wèn)題[8]:

1)未考慮鏈接結(jié)構(gòu)對(duì)鏈接優(yōu)先級(jí)的影響,容易產(chǎn)生主題漂移問(wèn)題。

2)WEB頁(yè)面中包含大量的噪音鏈接,而鏈接的錨文本比較短小,在同一網(wǎng)頁(yè)中可能會(huì)存在大量權(quán)重相同的網(wǎng)頁(yè),以致不能準(zhǔn)確地描述鏈接指向頁(yè)面的主題相關(guān)性。

3)在 shark-search算法中,當(dāng)錨文本anchor_score大于0時(shí),鏈接上下文anchor_context_score設(shè)為1。而在實(shí)際情況中,兩個(gè)錨文本相同的鏈接出現(xiàn)在同一個(gè)網(wǎng)頁(yè)中的不同鏈接塊,應(yīng)該具有不同的相關(guān)性。

3 相關(guān)鏈接塊的提取

3.1 相關(guān)鏈接塊特征

該模塊的目標(biāo)是從一個(gè)網(wǎng)頁(yè)的鏈接塊集合中識(shí)別出所有相關(guān)鏈接塊,從而過(guò)濾掉噪音鏈接。通過(guò)訓(xùn)練集的研究與分析,總結(jié)出網(wǎng)頁(yè)中的相關(guān)鏈接塊一般具有以下特征:

1)相關(guān)鏈接塊中的鏈接錨文本長(zhǎng)度一般占20~30字節(jié),而導(dǎo)航欄中的錨文本較短,一般不到10字節(jié)。

2)絕大部分導(dǎo)航欄中的錨文本會(huì)出現(xiàn)“首頁(yè)”等詞,而相關(guān)鏈接的錨文本中不會(huì)出現(xiàn)這些詞。因此可以用相關(guān)鏈接塊中很少或不會(huì)出現(xiàn)的詞建立一個(gè)相關(guān)鏈接停用詞表[9]。

3)相關(guān)鏈接的鏈接地址一般是站內(nèi)地址[10],并且格式通常比較整齊,而廣告鏈接的鏈接地址通常為站外鏈接,我們將廣告商服務(wù)器地址集合起來(lái)建立一個(gè)地址表成為相關(guān)鏈接停用地址表。

4)相關(guān)鏈接塊中的錨文本和主題文本具有相似性。

5)通常一些網(wǎng)頁(yè)會(huì)在相關(guān)鏈接出現(xiàn)之前使用特殊詞進(jìn)行提示,比如:相關(guān)鏈接,相關(guān)主題,更多信息等。

3.2 提取規(guī)則

針對(duì)以上相關(guān)鏈接塊的特征,本文使用以下規(guī)則從鏈接塊集合中識(shí)別出主題相關(guān)鏈接塊:將每條鏈接的特征所對(duì)應(yīng)的屬性值表示為四元組形式(TextLen,StopWord,StopAddress,TextSim),其中TextLen表示該條鏈接的錨文本長(zhǎng)度;StopWord表示在對(duì)該鏈接的鏈接文本分詞后,判斷相關(guān)鏈接停用詞詞表中是否含有該鏈接的特征詞,返回結(jié)果為布爾型,若存在則取值為真,否則為假;Specialwords同stopword的含義正好相反,是一個(gè)統(tǒng)計(jì)特殊詞的詞表,若鏈接特征詞出現(xiàn)在詞表中,則取值為真,否則為假;TextSim表示該鏈接的錨文本與其所在頁(yè)面標(biāo)題之間的文本相似度,大于閾值則為真,小于則為假。表示其中相關(guān)鏈接停用詞表及相關(guān)鏈接停用地址表,是通過(guò)人工采集大量不同網(wǎng)站鏈接信息分析得到的。相關(guān)鏈接塊的提取其實(shí)就是噪音塊的過(guò)濾,通過(guò)過(guò)濾噪音塊來(lái)提取相關(guān)鏈接塊,更符合實(shí)際應(yīng)用以及更易于算法的實(shí)現(xiàn)。

3.3 相關(guān)鏈接塊提取步驟

當(dāng)網(wǎng)頁(yè)被采集下來(lái)后,還需要提取網(wǎng)頁(yè)正文以及網(wǎng)頁(yè)中的子鏈接。該部分的提取精度對(duì)下一模塊主題相關(guān)度的計(jì)算有直接影響。本文采用基于標(biāo)簽信息和視覺(jué)信息的分塊方法針對(duì)主題型頁(yè)面進(jìn)行分塊處理。最后基于相關(guān)鏈接塊設(shè)計(jì)頁(yè)面搜索策略。分塊流程如下:

1)網(wǎng)頁(yè)預(yù)處理:首先是網(wǎng)頁(yè)規(guī)范化,使用HTML Tidy工具來(lái)修正html文件中錯(cuò)誤;然后構(gòu)造當(dāng)前訪問(wèn)網(wǎng)頁(yè)的HTML DOM樹(shù);第三部分為噪音的處理,主要針對(duì)無(wú)用標(biāo)簽及多余屬性,導(dǎo)航欄、分類欄及廣告信息。

2)判斷網(wǎng)頁(yè)類型:Web上的網(wǎng)頁(yè)一般分為[11]主題型網(wǎng)頁(yè)和鏈接型網(wǎng)頁(yè),鏈接型網(wǎng)頁(yè)主要體現(xiàn)為鏈接集合,主題網(wǎng)頁(yè)主要以文本為主體,可以根據(jù)網(wǎng)頁(yè)中錨文本文字?jǐn)?shù)與非錨文本文字?jǐn)?shù)的比值β來(lái)判斷。首先通過(guò)訓(xùn)練集得到閾值μ,若β>μ,則認(rèn)為該網(wǎng)頁(yè)為鏈接型網(wǎng)頁(yè),否則為主題型網(wǎng)頁(yè)。

3)如果該網(wǎng)頁(yè)為主題網(wǎng)頁(yè),使用視覺(jué)信息與標(biāo)簽信息結(jié)合方法進(jìn)行網(wǎng)頁(yè)分塊處理。網(wǎng)頁(yè)制作者一般會(huì)使用[12]Table標(biāo)簽或Div標(biāo)簽對(duì)劃分網(wǎng)頁(yè)內(nèi)容,并且用一些特殊標(biāo)簽構(gòu)造布局以便于用戶瀏覽。如果一個(gè)Table或者Div標(biāo)簽中嵌套了另一個(gè)Table或Div標(biāo)簽,一般認(rèn)為這兩個(gè)標(biāo)簽中的內(nèi)容主題不一致,若無(wú)嵌套,就可以利用視覺(jué)信息作進(jìn)一步討論;如果整個(gè)標(biāo)簽內(nèi)的視覺(jué)信息一致,則認(rèn)為該部分內(nèi)容主題單一,不一致則按照視覺(jué)信息的不同進(jìn)行進(jìn)一步分塊處理。除了這兩種標(biāo)簽,網(wǎng)頁(yè)中也包含用于頁(yè)面布局的frame標(biāo)簽,一般認(rèn)為frame標(biāo)簽的存在是為了分離那些關(guān)系并不緊密的塊。所以用frame布局的頁(yè)面直接進(jìn)行分塊,不管視覺(jué)信息是否一致。將以上三種標(biāo)簽構(gòu)成的標(biāo)簽集{<table>,<div>,<frame>}來(lái)對(duì)頁(yè)面進(jìn)行迭代分塊。

4)調(diào)用主題文本識(shí)別算法獲得主題文本內(nèi)容:在內(nèi)容塊集合中查找文本信息量最大且寬度大于網(wǎng)頁(yè)寬度三分之一的塊放入集合T(T為網(wǎng)頁(yè)的主題文本),將該塊作為主題評(píng)價(jià)基準(zhǔn)。然后在剩余塊集合中查找具有與文本信息量最大塊寬度相等的塊,與T進(jìn)行相關(guān)度計(jì)算S。若S大于給定的閾值,則認(rèn)為該塊為主題相關(guān)塊,將其合并到T;否則視為噪音塊放棄。

5)識(shí)別主題相關(guān)鏈接。

圖1 網(wǎng)頁(yè)分塊流程圖

4 引入主題鏈接塊因子的改進(jìn)Shark-seach算法

獲取內(nèi)容塊后,將內(nèi)容塊集合分類,得到文本塊集和鏈接塊集,文本塊與鏈接塊中候選鏈接的優(yōu)先級(jí)計(jì)算采用不同方法,本文重點(diǎn)研究鏈接塊中候選鏈接的優(yōu)先級(jí)預(yù)測(cè)方法,基于主題相關(guān)鏈接塊對(duì)Shark-search算法進(jìn)行改進(jìn),針對(duì)塊標(biāo)題不能準(zhǔn)確描述塊以及錨文本短小不能充分體現(xiàn)主題[13]的缺點(diǎn),引入主題鏈接塊的相關(guān)性得分增加主題預(yù)測(cè)的正確率。并且借鑒文獻(xiàn)[2]中對(duì)改進(jìn)Shark-search的算法思想,引入鏈接結(jié)構(gòu)信息對(duì)網(wǎng)頁(yè)價(jià)值的影響,降低主題偏移現(xiàn)象的發(fā)生率。以下公式表示候選URL的優(yōu)先級(jí)得分:

其中,。n′指的是通過(guò)url爬取到i的與主題相關(guān)的鏈接數(shù)量,n指通過(guò)urli爬取到所有子鏈接的數(shù)量。θ為歸一化因子,通常取0.5。為動(dòng)態(tài)因子,表示父塊對(duì)子鏈接的影響程度(將鏈接所在鏈接塊成為父塊)。由式(2)計(jì)算所得,表示繼承自父塊的主體相關(guān)度和已經(jīng)被爬行過(guò)的兄弟鏈接的平均鏈接相關(guān)度。我們將處于同一鏈接塊中的鏈接成為兄弟鏈接,兄弟鏈接之間具有資源相鄰性,即主體相同。

LB(urli)表示鏈接塊的主題相關(guān)度,urlk表示基于urli爬取到的子鏈接,N為urli已爬行子鏈接的數(shù)量,所在部分表示鏈接urli所在父塊已經(jīng)爬取到的子鏈接的平均相關(guān)度得分。γ為平衡因子,用來(lái)平衡由繼承自父塊的影響價(jià)值和兄弟結(jié)構(gòu)影響價(jià)值所占的權(quán)重。

以下為父塊相關(guān)度得分計(jì)算公式:

其中anchor_score(urli)指該鏈接塊中每個(gè)鏈接錨文本的相關(guān)度得分,B_url_num指該鏈接塊中包含的鏈接數(shù)量總和。由公式可以看出,鏈接塊的相關(guān)度得分受兩方面因素的影響:塊中所有鏈接的錨文本總和與主題詞的相似度以及塊中所包含的鏈接總數(shù)。由于使用向量空間模型來(lái)計(jì)算主題相似度,結(jié)果受主題詞詞頻影響較大,因此鏈接較多的塊可能獲得的評(píng)分較高,為了避免偏向于鏈接較多的塊,引入B_url_num作為調(diào)節(jié)因子,以此平衡鏈接數(shù)量對(duì)評(píng)分的影響。

5 實(shí)驗(yàn)結(jié)果及對(duì)比分析

5.1 實(shí)驗(yàn)環(huán)境及評(píng)價(jià)指標(biāo)

本系統(tǒng)的實(shí)驗(yàn)環(huán)境為Win7旗艦版64位操作系統(tǒng),Intel(R)Core(TM)i5-4570 CPU,4G 內(nèi)存,Eclipse(4.0版本)平臺(tái),開(kāi)發(fā)語(yǔ)言為Java,在IDEA工具中搭建webmagic爬蟲(chóng)框架進(jìn)行功能定制。實(shí)驗(yàn)中將本算法與Shark-search算法、HITS算法進(jìn)行了比較。使用Srinivasan[14]提出的的查全率與抓準(zhǔn)率作為評(píng)價(jià)指標(biāo),查準(zhǔn)率(harvest-rate)指在用戶查詢返回結(jié)果中,主題相關(guān)性頁(yè)面relevant_pages與提取到的全部頁(yè)面pages_downloaded在數(shù)量上的比值,計(jì)算如式(5);查全率(R(t))是指返回結(jié)果中所抓取到的主題相關(guān)性頁(yè)面和web上所有與查詢主題相關(guān)的頁(yè)面在數(shù)量上的比值。兩個(gè)指標(biāo)之間是相互制約的關(guān)系,計(jì)算如式(6):

由于Internet存在巨大的信息量,很難精確計(jì)算主題搜索的覆蓋范圍,查全率的獲得顯然十分困難,因此在實(shí)驗(yàn)中以查準(zhǔn)率為主要評(píng)價(jià)指標(biāo)。

5.2 實(shí)驗(yàn)結(jié)果對(duì)比

將“旅游”作為搜索主題,首先,確定該領(lǐng)域的主題詞,從Google上以主題詞為關(guān)鍵詞輸入查詢請(qǐng)求,從返回結(jié)果中挑選5個(gè)相關(guān)度高的頁(yè)面作為初始種子。系統(tǒng)開(kāi)啟3個(gè)線程,在運(yùn)行5小時(shí)后得到以下結(jié)果:

表1 5小時(shí)后頁(yè)面采集結(jié)果

從表1中可以看出,由于受到主題搜索算法復(fù)雜度以及網(wǎng)絡(luò)帶寬等因素的影響,新算法在頁(yè)面下載速度上的表現(xiàn)并不突出,但是主題爬蟲(chóng)的目的是有效地抓取網(wǎng)絡(luò)上與主題相關(guān)的頁(yè)面,而新算法所抓取的主題頁(yè)面數(shù)量相較與HITS算法以及Shark-search算法有很大的優(yōu)勢(shì)。另外在系統(tǒng)爬行過(guò)程中每隔500個(gè)頁(yè)面記錄下該時(shí)刻主題相關(guān)頁(yè)面的數(shù)量,并計(jì)算準(zhǔn)確率,結(jié)果如圖2所示。

圖2 查準(zhǔn)率比較

從圖2中可以看出,HITS算法隨著網(wǎng)頁(yè)下載數(shù)量的增加,查準(zhǔn)率反而處于下降趨勢(shì),這是因?yàn)樵撍惴ǖ闹黝}漂移現(xiàn)象隨著抓取頁(yè)面數(shù)量的增加越來(lái)越明顯。Shark-search算法在整個(gè)抓取過(guò)程中的表現(xiàn)趨于穩(wěn)定,但由于[15]大量噪音鏈接的存在同時(shí)未考慮全局性等缺陷,查準(zhǔn)率并不太理想,而新算法經(jīng)過(guò)網(wǎng)頁(yè)分塊過(guò)濾掉噪音后,新算法經(jīng)過(guò)網(wǎng)頁(yè)分塊過(guò)濾掉噪音后,引入了內(nèi)容塊權(quán)重,隨著下載網(wǎng)頁(yè)的增加保持穩(wěn)定狀態(tài)的同時(shí)查準(zhǔn)率也高于前兩種算法。實(shí)驗(yàn)證明,使用新算法的網(wǎng)絡(luò)爬蟲(chóng)性能上有了很大的提高。

另外,為了驗(yàn)證改進(jìn)算法在很大程度上緩和了“主題漂移“問(wèn)題,另外做了兩組實(shí)驗(yàn),分別以”股票“、”體育“、”手機(jī)“為查詢主題詞,在實(shí)驗(yàn)中,用抓取到的無(wú)關(guān)頁(yè)面與頁(yè)面總數(shù)的比值來(lái)衡量主題漂移率,實(shí)驗(yàn)進(jìn)行5h后的結(jié)果如圖3所示,從圖中可以看出,“手機(jī)”關(guān)鍵詞語(yǔ)義比較明確,不易出現(xiàn)主題漂移問(wèn)題,而對(duì)于“股票”、“體育”這類有歧義的關(guān)鍵詞,較易出現(xiàn)主題漂移問(wèn)題,由于改進(jìn)算法綜合考慮了鏈接結(jié)構(gòu)和語(yǔ)義信息以及鏈接聚集成塊的特點(diǎn),相對(duì)于其他兩種算法,主題漂移率明顯降低。

圖3 主體漂移率比較

6 結(jié)語(yǔ)

分析了Shark-search算法在計(jì)算候選鏈接主題相關(guān)度時(shí)的局限性,提出了基于鏈接塊的改進(jìn)Shark-search算法。在計(jì)算候選鏈接優(yōu)先級(jí)時(shí),除了依據(jù)網(wǎng)頁(yè)內(nèi)容、錨文本,引入了鏈接塊相關(guān)性和鏈接結(jié)構(gòu)特性,既彌補(bǔ)了僅僅使用文本內(nèi)容而缺乏Web全局性的不足,又消除了使用鏈接結(jié)構(gòu)容易產(chǎn)生主題漂移的問(wèn)題。實(shí)驗(yàn)證明改進(jìn)算法的確使主題爬蟲(chóng)的搜索效率有了很大提高,但本文的研究工作還有待進(jìn)一步的深入和擴(kuò)展,比如鏈接的上下文很可能出現(xiàn)在網(wǎng)頁(yè)的不同區(qū)塊,當(dāng)一個(gè)相關(guān)度很高的鏈接出現(xiàn)在網(wǎng)頁(yè)正文的頂部或底部時(shí),很容易導(dǎo)致邊框部分的鏈接的倒部分上下文權(quán)重,因此如何準(zhǔn)確地判斷鏈接上下文對(duì)分塊處理的鏈接的相關(guān)度影響是需要進(jìn)一步研究的工作。

[1]郭華.基于錨文本上下文和鏈接分析的主題爬取算法[D].杭州:浙江大學(xué),2014.GUO Hua.Theme crawl algorithm based on the anchor text context and crawl the theme[D].Hangshou:zhejiang university,2014.

[2]Ester M,Grob M,Kriegel H.Focused Web Crawling:A Generic Framework for Specifying the User Interest and for Adaptive Crawling Strategies[C]//Proceedings of the 26thInternational Conference on Very Large Database(VLDB’01),2001:527-534.

[3]J.Johnson,K.Tsioutsiouliklis,C.L.Giles.Evolving strategies for focused web crawling[C]//Proceedings of the 20thInternational Conference on Machine Learning,2003:298-305.

[4]Menczer F,Belew R K.Adaptive retrieval agents:Internalizing local context and scaling up to the Web[J].Machine Learing,2000,39(2):203-242.

[5]李軍,陳君,王玲芳.一種垂直頁(yè)面分割與信息提取方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30(3):844-852.LI Jun,CHEN Jun,WANG Lingfang.A research on vertical page segmentation and information extraction method[J].Computer application research,2013,30(3):844-852.

[6]黃仁,王良偉.基于主題相關(guān)概念和網(wǎng)頁(yè)分塊的主題爬蟲(chóng)研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2377-2380.HUANG Ren,WANG Liangwei.Research on topic crawler based on the concept of and page partitioned[J].Computer application research,2013,30(8):2377-2380.

[7]張文躍.基于改進(jìn)shark-search算法的主題爬蟲(chóng)的研究與實(shí)現(xiàn)[D].呼和浩特:內(nèi)蒙古大學(xué),2015.ZHANG Wenyue.The research and implementation Based on the improved shark-topic crawler search algorithm[D].Hohhot:Inner Mongolia university,2015.

[8]羅林波,陳綺,吳清秀.基于Shark-search和HITS算法的主題爬蟲(chóng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(11):76-79.LUO Linpo,CHEN Qi,WU Qingxiu.The Shark-Search algorithm based on web block[J].Journal of shandong university(science edition),2007,42(9):62-66.

[9]陳軍,陳竹敏.基于網(wǎng)頁(yè)分塊的Shark-Search算法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2007,42(9):62-66.CHEN Jun,CHEN Zhumin.The Shark-Search algorithm based on web block[J].Journal of shandong university(science edition),2007,42(9):62-66.

[10]常紅要,朱征宇,陳燁.基于HTML標(biāo)記用途分析的網(wǎng)頁(yè)正文提取技術(shù)[J].計(jì)算機(jī)工程與設(shè)計(jì).2010.31(24):5187-5175.CHANG Hongyao,ZHU Zhengyu,CHEN Ye.Based on the analysis of the HTML tag USES web text extraction technology[J].Computer engineering and design.2010,31(24):5187-5175.

[11]雷軍程,黃同成,柳小文.一種基于權(quán)重的文本特征選擇方法[J].計(jì)算機(jī)科學(xué),2012(7):45-50.LEI Juncheng,HUANG Tongcheng,LIU Xiaowen.A kind of text feature selection method based on weighted[J].Journal of computer science,2012(7):45-50.

[12]熊忠陽(yáng),藺顯強(qiáng),張玉芳.結(jié)合網(wǎng)頁(yè)結(jié)構(gòu)與文本特征的征文提取方法[J].計(jì)算機(jī)工程,2013,39(12):200-203.XIONG Zhongyang,LIN Xianqiang,ZHANG Yufang.Combined with the feature of structure and text page essay extraction method[J].Computer engineering,2013,39(12):200-203.

[13]羅林波,陳綺,吳清秀.基于Shark-search和HITS算法的主題爬蟲(chóng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展.2010,20(11):76-79.LUO Linbo,CHEN Qi,WU Qingxiu.Topic crawler based on Shark-search and HITS algorithm study[J].Computer technology and development,2010,20(11):76-79.

[14]Du YaJun,Hai YuFeng,Xie ChunZhi,et al.An approach for selecting seed URLs of focused crawler based on user-interest ontology[J].Applied Soft Computing,2014,14(1):663-676.

[15] Punam Bedi,Anjali Thukral,Hema Banati.Focused crawling of tagged web resources using ontology[J].Computers and Electrical Engineering,2013,39(2):613-628.

猜你喜歡
分塊爬蟲(chóng)網(wǎng)頁(yè)
利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
面向量化分塊壓縮感知的區(qū)域?qū)哟位A(yù)測(cè)編碼
鋼結(jié)構(gòu)工程分塊滑移安裝施工方法探討
基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
基于HTML5與CSS3的網(wǎng)頁(yè)設(shè)計(jì)技術(shù)研究
一種面向不等尺寸分塊海量數(shù)據(jù)集的并行體繪制算法
目前互聯(lián)網(wǎng)中的網(wǎng)絡(luò)爬蟲(chóng)的原理和影響
分塊矩陣初等變換的妙用
基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
基于HTML5靜態(tài)網(wǎng)頁(yè)設(shè)計(jì)