基于版權(quán)信息的新聞網(wǎng)頁去重策略研究

2012-04-29 00:44:03葛曉玢劉杰崔健

電腦知識與技術(shù) 2012年26期

葛曉玢劉杰崔健

摘要：隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大，人們能夠獲得的新聞信息資源也日益豐富。應(yīng)用搜索引擎進(jìn)行檢索，經(jīng)常會得到內(nèi)容相同或相近的新聞網(wǎng)頁，它們不但浪費(fèi)了存儲資源，而且加重了用戶檢索和閱讀的負(fù)擔(dān)。網(wǎng)頁去重處理是提高搜索引擎的關(guān)鍵技術(shù)之一，因此，發(fā)現(xiàn)并去除重復(fù)網(wǎng)頁信息的研究工作具有重要意義。文中提出了一種基于版權(quán)信息的新聞網(wǎng)頁去重算法，其主要思想是：應(yīng)用轉(zhuǎn)載的新聞網(wǎng)頁大多會標(biāo)出其來源這一特征，并結(jié)合網(wǎng)頁文本內(nèi)容進(jìn)行新聞網(wǎng)頁去重。實(shí)驗(yàn)結(jié)果表明：該方法有效，對新聞網(wǎng)頁實(shí)現(xiàn)較好的去重，能夠得到較高的正確率及召回率，具有很好的應(yīng)用價值。

關(guān)鍵詞：網(wǎng)頁去重；搜索引擎；版權(quán)；新聞網(wǎng)頁；模糊匹配

中圖分類號：TP311文獻(xiàn)標(biāo)識碼：A文章編號：1009-3044(2012)26-6211-04

Detection and Elimination of Duplicated News Webpages Based on Copyright

GE Xiao-bin, LIU Jie, CUI Jian

(Department of Information,Tongling Vocational College, Tongling 244000, China)

Abstract: As the World Wide Web grows rapidly to become the largest and the most popular source of readily available informa? tion, it is increasingly abundant to access to information sources.Application of search engines, users often get the redundant news webpages with same content or similar news webpages, they will not only be a waste of storage resources, and increase users to re? trieve and read the burden. Weeding out duplicated news webpages is one of the key technologies of search engine, Consequent? ly,to detect and eliminate those pages in facsimile is of great significance. In this paper, a method based on copyright information is proposed to detect and eliminate the duplicated news webpages, This method basic thought is: reprint of most of the news web? pages will be the source of its marked characteristics, combined with the text content of the page to re-page news. The experi? mental result indicates that,this method can complete in view of the news content duplicated news webpages,and can be a high accuracy rate and the rate of recall.

Key words: duplicated webpages; search engine; copyright; news webpages; fuzzy matching

隨著互聯(lián)網(wǎng)技術(shù)和規(guī)模的空前發(fā)展，應(yīng)用搜索引擎已經(jīng)成為人們從互聯(lián)網(wǎng)上獲取信息的主要渠道之一。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對信息進(jìn)行理解、提取、組織及處理，并為用戶提供檢索服務(wù)，從而起到信息導(dǎo)航目的[1]。但是，由于互聯(lián)網(wǎng)上的信息經(jīng)常被相互轉(zhuǎn)載，因此檢索出的網(wǎng)頁大多是具有相同信息的重復(fù)網(wǎng)頁。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心2005年7月發(fā)布的統(tǒng)計(jì)報(bào)告顯示，用戶在回答“檢索信息時遇到的最大問題”這一提問時，選擇“重復(fù)信息太多”選項(xiàng)的占44.6 %，排名第1位；據(jù)統(tǒng)計(jì)，目前Inte rnet近似鏡像網(wǎng)頁數(shù)的比例約占全部頁面的30%~45%[2]；清華大學(xué)IT可用性實(shí)驗(yàn)室對Google、Baidu等中文搜索引擎的研究表明，重復(fù)網(wǎng)頁占全部網(wǎng)頁的比率，Google約占3.4%，Baidu約占2.1%[7]。國際上對轉(zhuǎn)載文檔去重方法的研究最初主要是針對大型文件系統(tǒng)，1993年，Arizona大學(xué)的Manber提出了一個SIF工具，用基于字符串匹配的方法來度量文件之間的相似性，用于在大規(guī)模文件系統(tǒng)中尋找內(nèi)容相似的文件[8-9]。網(wǎng)頁之間的大量轉(zhuǎn)載使得網(wǎng)頁冗余非常嚴(yán)重，大量重復(fù)網(wǎng)頁的存在一方面加重了用戶檢索和閱讀的負(fù)擔(dān)；另一方面，也浪費(fèi)了大量的存儲資源，降低了索引效率，影響了準(zhǔn)確率和召回率[3-7]。因此，準(zhǔn)確、快速的發(fā)現(xiàn)并去除重復(fù)網(wǎng)頁將是一項(xiàng)具有實(shí)際意義的工作。隨著文本信息處理技術(shù)的發(fā)展，人們判斷和處理近似網(wǎng)頁的方法也日益豐富，如文本分類、聚類技術(shù)、特征碼檢索技術(shù)、特征串模糊匹配技術(shù)等等。

本文以新聞網(wǎng)頁為研究對象，提出了基于版權(quán)信息的新聞網(wǎng)頁去重策略，該方法應(yīng)用轉(zhuǎn)載的新聞網(wǎng)頁大多會標(biāo)出其來源這一特征，并結(jié)合網(wǎng)頁文本內(nèi)容進(jìn)行新聞網(wǎng)頁去重，提取主題信息。

篇部分重復(fù)新聞網(wǎng)頁，在PC機(jī)器CPU為T5750，2.00GHz，內(nèi)存為1024M，操作系統(tǒng)為Windows XP的實(shí)驗(yàn)環(huán)境下進(jìn)行實(shí)驗(yàn)，應(yīng)用正確率及召回率對算法進(jìn)行評價，實(shí)驗(yàn)結(jié)果如表1所示：

表1實(shí)驗(yàn)結(jié)果圖4文本修改率與去重召回率的關(guān)系

根據(jù)圖3，基于版權(quán)信息去重算法，其去重正確率稍低于基于特征碼去重算法，究其原因分析，有部分新聞網(wǎng)頁在轉(zhuǎn)載時，沒有尊重版權(quán)，缺少版權(quán)信息的文字描述；根據(jù)圖4，當(dāng)新聞網(wǎng)頁部分內(nèi)容修改時，基于版權(quán)信息的去重算法明顯優(yōu)于基于特征碼的去重算法，究其原因分析，主要是因?yàn)榛谔卣鞔a的去重算法對文本修改非常敏感，微小的文本內(nèi)容修改均有可能導(dǎo)致新聞網(wǎng)頁特征碼的變化。

法具有速度快，檢測率高，算法容易實(shí)現(xiàn)等特點(diǎn)，能夠有效地去除檢索結(jié)果集合中內(nèi)容相同或相近的新聞網(wǎng)頁，能夠在網(wǎng)頁發(fā)生修改時兼顧查全率和查準(zhǔn)率，更適合網(wǎng)頁的去重。文中對新聞網(wǎng)頁的結(jié)構(gòu)特征進(jìn)行了深入分析，但結(jié)構(gòu)特征的選擇具有一定局限性。下一步研究的重點(diǎn)是對文中提出的算法進(jìn)一步進(jìn)行完善，使得聚集的結(jié)果更合理，更符合網(wǎng)頁本身的特征，提高檢索質(zhì)量，指導(dǎo)工程實(shí)踐。

[1]李曉明,閆宏飛.搜索引擎原理、技術(shù)與系統(tǒng)[M].北京:科學(xué)出版社,2004.

[2]高凱,王永成,肖君.網(wǎng)頁去重策略[J].上海交通大學(xué)學(xué)報(bào),2006,40(5):775-777.

[3]陳基漓,牛秦洲.基于特征碼的網(wǎng)頁去重[J].微計(jì)算機(jī)信息,2006,22(3-3):113-115.

[4]羅永蓮,羅永秀,張永奎.突發(fā)事件新聞網(wǎng)頁的去重方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2008,25(8):24-26.

[5]魏麗霞,鄭家恒.基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重[J].計(jì)算機(jī)應(yīng)用,2007,27(11):2854:2856.

[6]王建勇,謝正茂,雷鳴，等.近似鏡像網(wǎng)頁檢測算法的研究與評價[J].電子學(xué)報(bào),2000,28(11):130-132.

[7]閻亞杰.網(wǎng)頁去重方法研究[J].電腦開發(fā)與應(yīng)用,2008,21(8):60-62.

[8] Cho J H,Shivakumar N,Garcia-Molina H.Finding ACM International Conference on Management of the Data[M]. USA:ACM Press,2000(2):355-366.

[9] Liu C J, Wechsler H. A shape and texture based en- hanced Fisher classifier for face recognition[J]. IEEE Transactions on Image Processing, 2001,10(4):598-608.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于版權(quán)信息的新聞網(wǎng)頁去重策略研究