国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Web Spam技術(shù)的發(fā)展與防御

2011-11-11 07:00楊望
中國(guó)教育網(wǎng)絡(luò) 2011年7期
關(guān)鍵詞:域名搜索引擎網(wǎng)頁

文/楊望

Web Spam技術(shù)的發(fā)展與防御

文/楊望

隨著Web技術(shù)的發(fā)展,Spam不再是Email領(lǐng)域的專利,萬維網(wǎng)垃圾(Web Spam)成為一種新的危害,垃圾網(wǎng)頁(Spam page)開始日益充斥著互聯(lián)網(wǎng)。在今年USENIX舉辦的LEET 2011,業(yè)界對(duì)Web Spam的危害、發(fā)展以及控制進(jìn)行了討論,本文將通過對(duì)大會(huì)上幾篇論文的分析對(duì)Web Spam進(jìn)行一個(gè)概要的介紹。

Complex Search of Web Spam

來自微軟公司的Sasi Parthasarathy在大會(huì)上作了題為“Complex Search of Web Spam”的演講。在演講中,Parthasarathy對(duì)垃圾網(wǎng)頁和搜索引擎的關(guān)聯(lián)做了詳細(xì)的介紹。在他看來,一個(gè)垃圾網(wǎng)頁是一個(gè)使用垃圾技術(shù)來提升其在搜索結(jié)果的排名,但實(shí)際對(duì)用戶沒有任何使用價(jià)值的網(wǎng)頁。用戶不會(huì)主動(dòng)地去瀏覽這些垃圾網(wǎng)頁,所以垃圾網(wǎng)頁必須通過搜索引擎才能欺騙用戶并創(chuàng)造收入。要達(dá)到這樣效果,垃圾網(wǎng)頁就必須了解搜索引擎對(duì)頁面排名的方法。目前通用的頁面排名依賴于兩方面的數(shù)據(jù):網(wǎng)頁內(nèi)容數(shù)據(jù)和網(wǎng)頁鏈接數(shù)據(jù)。垃圾網(wǎng)頁也從這兩方面實(shí)施對(duì)搜索引擎的欺騙。在頁面方面,常見的欺騙技術(shù)包括:

堆砌(Keyword Stuffing)

域名停放 (Parked Domain)

內(nèi)容隱藏(Hidden Content)

機(jī)器自動(dòng)生成內(nèi)容 (Machine GeneratedContent)

社交媒體網(wǎng)站欺騙(Social Media Spam)這些欺騙技術(shù)有著不同的實(shí)現(xiàn)方法,但總體來說都是生成大量對(duì)用戶沒有意義甚至不可閱讀的內(nèi)容,但這些內(nèi)容包含大量關(guān)鍵字,可以被搜索引擎發(fā)現(xiàn)并評(píng)估。例如內(nèi)容隱藏技術(shù)可以生成如圖1的一段HTML代碼,這段代碼在頁面上不可見,但羅列并重復(fù)大量的搜索引擎敏感的關(guān)鍵字。當(dāng)相應(yīng)的關(guān)鍵字被搜索時(shí),該頁面會(huì)被排列在靠前的搜索結(jié)果中,但當(dāng)用戶點(diǎn)擊該頁面時(shí),可能無法得到任何想要的與關(guān)鍵字相關(guān)的信息。

除了基于頁面內(nèi)容的欺騙,垃圾網(wǎng)頁還采用基于鏈接的欺騙方式,主要形式包括:

鏈接農(nóng)場(chǎng)(Link Farms)

鏈接交換(Link Exchange)

這兩種方式都是企圖通過對(duì)垃圾網(wǎng)頁建立大量的鏈接,從而提高搜索引擎對(duì)垃圾網(wǎng)頁的排名。

Parthasarathy針對(duì)這些欺騙技術(shù)指出,目前各家搜索引擎也在試圖通過相關(guān)性判定等技術(shù)手段進(jìn)行自動(dòng)或人工的垃圾網(wǎng)頁識(shí)別技術(shù),但目前的效果很不理想。一方面一些合法的提升網(wǎng)站排名技術(shù)(例如一些大網(wǎng)站會(huì)購買付費(fèi)鏈接)和欺騙技術(shù)的效果相似,搜索引擎難以判定哪一個(gè)是合法,哪一個(gè)是非法;另一方面如何判定內(nèi)容的意義也是一個(gè)難題。

圖1

The Nuts and Bolts of a Forum Spam Automator

來自印第安納大學(xué)的Youngsang Shin等人發(fā)表的《The Nuts and Bolts of a Forum Spam Automator》通過對(duì)流行的垃圾網(wǎng)頁工具XRumer的分析揭示了目前為何垃圾網(wǎng)頁能如此盛行。XRumer這一類工具通過在各類論壇上自動(dòng)發(fā)布包含執(zhí)行垃圾網(wǎng)頁鏈接的帖子來提高垃圾網(wǎng)頁在搜索引擎對(duì)鏈接層次分析上的排名。盡管現(xiàn)在的論壇通過用戶注冊(cè)、CAPTCHA、用戶信譽(yù)識(shí)別等技術(shù)來盡量避免這類自動(dòng)發(fā)帖工具對(duì)論壇的污染,但在經(jīng)濟(jì)利益的驅(qū)動(dòng)下,這類工具的開發(fā)者逐個(gè)擊破了論壇管理員設(shè)立的各類防護(hù)手段。

Shin通過對(duì)XRumer軟件的功能分析,發(fā)現(xiàn)XRumer可以通過模板自動(dòng)注冊(cè)帳號(hào),并具有學(xué)習(xí)功能,對(duì)于沒有見過的注冊(cè)界面,可以將其關(guān)鍵字段采集并交由用戶進(jìn)行配置。對(duì)于大多數(shù)論壇需要的郵件認(rèn)證,XRumer可以依賴用戶配置的郵箱或者自動(dòng)注冊(cè)免費(fèi)郵箱來完成認(rèn)證過程。雖然很多論壇使用CAPTCHA技術(shù)來識(shí)別人和程序,阻礙程序的自動(dòng)注冊(cè)過程,XRumer可以自己破解簡(jiǎn)單的基于文本和問題的CAPTCHA,并提供接口識(shí)別那些基于圖片的CAPTCHA技術(shù),黑客的經(jīng)濟(jì)生態(tài)圈已經(jīng)發(fā)展得很完善,存在一些第三方的CAPTCHA破解服務(wù)提供者,提供每1000個(gè)問題1美元的低廉價(jià)格服務(wù)。

很多論壇會(huì)對(duì)用戶的行為進(jìn)行統(tǒng)計(jì),只有良好信譽(yù)的用戶才能發(fā)帖并避免自己的帖子被刪除。XRumer也提供了用戶行為的模擬功能,例如設(shè)置不同的帳號(hào)互相提問和回答一些正常的問題來偽裝正常用戶。同時(shí)XRumer還會(huì)根據(jù)在論壇搜索關(guān)鍵字的結(jié)果,調(diào)整發(fā)帖的內(nèi)容,并采用隨機(jī)生成文本的方式,來避免基于黑名單過濾的監(jiān)控方式。

簡(jiǎn)而言之,在這樣強(qiáng)大的工具面前,為了將這些垃圾網(wǎng)頁相關(guān)的發(fā)帖清除,論壇管理員將面對(duì)一場(chǎng)艱苦的斗爭(zhēng)。

On the Effects of Registrar-level Intervention

垃圾網(wǎng)頁的清除是一項(xiàng)系統(tǒng)的工作,從搜索引擎和論壇管理員的角度,都無法最終有效地控制垃圾網(wǎng)頁,而域名是垃圾網(wǎng)頁的基礎(chǔ)設(shè)施之一,如果能控制垃圾網(wǎng)頁存在的域名,就能在一定程度上直接削弱垃圾網(wǎng)頁的存在。來自加州圣迭戈分校的He Liu介紹了如何從域名上對(duì)垃圾網(wǎng)頁進(jìn)行控制。He Liu介紹了CNNIC(中國(guó)互聯(lián)網(wǎng)信息中心)和LegalScript兩個(gè)不同組織的不同手段。CNNIC是.cn域名的注冊(cè)服務(wù)商,.cn域名曾經(jīng)是垃圾網(wǎng)頁的重災(zāi)區(qū)。

目前CNNIC采用的方式是提高域名注冊(cè)和持有的成本,垃圾網(wǎng)頁的控制者對(duì)經(jīng)濟(jì)因素非常敏感,.cn域名成本的升高成功地讓中國(guó)的垃圾網(wǎng)頁開始大量地向俄羅斯的.ru域名轉(zhuǎn)移。LegalScript則采用域名認(rèn)證的方式,對(duì)某些領(lǐng)域的網(wǎng)頁進(jìn)行審查,一旦判定該網(wǎng)頁為垃圾網(wǎng)頁,則和對(duì)應(yīng)的域名服務(wù)商聯(lián)系,采用ClientHold的方式,即中止用戶對(duì)該域名的使用,同時(shí)繼續(xù)保留該域名的使用權(quán),防止有人試圖在其他服務(wù)商那里繼續(xù)注冊(cè)和使用相同的域名,這一類域名主要針對(duì)使用.com等頂級(jí)域名的垃圾網(wǎng)頁。

(作者單位為東南大學(xué)計(jì)算機(jī)學(xué)院)

網(wǎng)康科技連續(xù)三年入圍中央政府采購系統(tǒng)

2011年6月1日,中央國(guó)家機(jī)關(guān)2011年度計(jì)算機(jī)等產(chǎn)品政府集中采購協(xié)議供貨項(xiàng)目(總第18期)第三批開標(biāo),網(wǎng)康科技作為業(yè)內(nèi)領(lǐng)先的網(wǎng)絡(luò)應(yīng)用管理設(shè)備提供商,憑借全球頂尖的網(wǎng)絡(luò)應(yīng)用管理技術(shù)、產(chǎn)品和解決方案,連續(xù)3年成功入圍中央政府采購系統(tǒng)。

中央國(guó)家機(jī)關(guān)采購協(xié)議供貨項(xiàng)目是我國(guó)目前級(jí)別最高的政府采購項(xiàng)目。網(wǎng)康科技作為國(guó)內(nèi)成長(zhǎng)最快、高端用戶最多的網(wǎng)絡(luò)應(yīng)用管理廠商之一,在2011年持續(xù)發(fā)力,此次采購項(xiàng)目中,上網(wǎng)行為管理9款產(chǎn)品以及流量分析10款產(chǎn)品實(shí)現(xiàn)入圍。同去年相比,產(chǎn)品數(shù)量有大幅度地提升。

在本次開標(biāo)結(jié)果中,網(wǎng)康科技上網(wǎng)行為管理以及流量分析兩大系列產(chǎn)品是同類入圍產(chǎn)品數(shù)量最多的廠商,證明了網(wǎng)康科技在該領(lǐng)域的耕耘頗深。此外,網(wǎng)康的拳頭產(chǎn)品上網(wǎng)行為管理系列產(chǎn)品在中央政府采購系統(tǒng)中,與同類廠商相比,采購量長(zhǎng)期排名前三。

目前,網(wǎng)康科技的產(chǎn)品已經(jīng)被廣泛應(yīng)用于政府、金融、能源、教育、通信、制造等眾多行業(yè),擁有超過一萬家企業(yè)級(jí)客戶。

首屆互聯(lián)網(wǎng)電視產(chǎn)業(yè)論壇在京舉行

6月8日,由南方廣播影視傳媒集團(tuán)、創(chuàng)維集團(tuán)和北京優(yōu)朋普樂聯(lián)合主辦的2011年首屆中國(guó)互聯(lián)網(wǎng)電視產(chǎn)業(yè)鏈高峰論壇在北京舉行。在本次研討會(huì)上,由南方傳媒、創(chuàng)維集團(tuán)、優(yōu)朋普樂以及索尼影視等產(chǎn)業(yè)實(shí)踐者聯(lián)合組建的互聯(lián)網(wǎng)電視產(chǎn)業(yè)鏈第一次正式完整展現(xiàn)。

據(jù)DisplaySearch預(yù)測(cè),全球互聯(lián)網(wǎng)電視市場(chǎng)在2012年則可望達(dá)8,700萬部,市場(chǎng)占有率約38%, 2014年全球互聯(lián)網(wǎng)電視出貨量將達(dá)到1.2億臺(tái)。在這種形勢(shì)下,產(chǎn)業(yè)鏈合作模式將為互聯(lián)網(wǎng)電視產(chǎn)業(yè)運(yùn)營(yíng)服務(wù)打造出新標(biāo)桿,成為服務(wù)提供的事實(shí)標(biāo)準(zhǔn),對(duì)推動(dòng)中國(guó)互聯(lián)網(wǎng)電視產(chǎn)業(yè)的發(fā)展將會(huì)產(chǎn)生重大影響。通過產(chǎn)業(yè)鏈合作,廣電牌照方、內(nèi)容商、電信運(yùn)營(yíng)商、電視機(jī)廠商等多個(gè)企業(yè)都將有序參與到未來的互聯(lián)網(wǎng)視頻內(nèi)容服務(wù)產(chǎn)業(yè)中。

猜你喜歡
域名搜索引擎網(wǎng)頁
基于HTML5與CSS3的網(wǎng)頁設(shè)計(jì)技術(shù)研究
世界表情符號(hào)日
Combosquatting域名搶注的測(cè)量研究
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
基于HTML5靜態(tài)網(wǎng)頁設(shè)計(jì)
如何購買WordPress網(wǎng)站域名及綁定域名
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Lucene搜索引擎的研究
頂級(jí)域名爭(zhēng)奪戰(zhàn):ICANN放出1930個(gè)通用頂級(jí)域名,申請(qǐng)者有上千家