李馳+李林
摘要:介紹了常見的垃圾網(wǎng)頁作弊方式。并對垃圾網(wǎng)頁的識別方式進行了詳細分析,包括基于網(wǎng)頁內容的垃圾網(wǎng)頁識別技術、基于鏈接結構來識別垃圾網(wǎng)頁的TrustRank算法以及目前比較流行的用于垃圾頁面識別的機器學習分類法。其中采用TrustRank算法與機器學習分類法來識別垃圾網(wǎng)頁具有一定的通用性且具有與作弊方式無關的特性。最后提出了一些基于用戶行為模式來識別垃圾網(wǎng)頁的新思路。
關鍵詞:搜索引擎;垃圾網(wǎng)頁;網(wǎng)頁作弊方式;垃圾網(wǎng)頁識別
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)26-0020-03
Research on the Technology of the Search Engine to Deal with the Web Spam
LI Chi,LI Lin
(Department of Computer Science and Software Engineering of Jincheng College, Sichuan University,Chengdu 611731, China)
Abstract: Introduces the common cheating mode in the web spam. And the identification methods of web spam are analyzed in detail, including the identification method of web spam based on web content, TrustRank algorithm based on link structure to identify web spam and the more popular machine learning classification method used in web spam identification. The TrustRank algorithm and the machine learning classification method used in web spam identification have a certain commonality and have the character that has nothing to do with cheating mode. Finally put forward some new idea based on user behavior model to identify web spam.
Key words: search engine; web spam; web page cheating mode; web spam identification
通常我們找到一個網(wǎng)站的方式除了少量知名網(wǎng)站可以直接在瀏覽器地址欄中直接書寫URL之外,還有一部分可能是通過導航網(wǎng)址或者收藏夾來訪問,剩下的大部分網(wǎng)站實際上是通過搜索引擎找到的。另外,根據(jù)2006年所發(fā)布的《搜索引擎用戶行為報告》[1]可知,大約88%的搜索引擎使用者只會瀏覽搜索引擎結果頁面( SearchEngine ResultsPage,SERP) 的前三頁。所以,對于網(wǎng)站的所有者來說,如何讓自己的網(wǎng)站被搜索引擎搜到,并且排名前幾頁,從而帶來大量的商機是需要極力力爭的事情。原本網(wǎng)頁內容質量越好,越受網(wǎng)民歡迎的頁面就越應該排在搜索引擎結果頁面的前面,但是有些網(wǎng)站則通過一些不道德的方式來手動或自動地制造一些網(wǎng)頁,這些網(wǎng)頁沒有提供給用戶任何有效的信息,僅僅是針對搜索引擎進行欺騙,就在搜索結果中獲得了較高的排名,這種網(wǎng)頁被稱為垃圾網(wǎng)頁[2]。
垃圾網(wǎng)頁的存在對用戶、合法網(wǎng)站以及搜索引擎都會帶來傷害。對用戶來說需要找到其想要的有用資源,但是垃圾網(wǎng)頁提供的是亂七八糟的內容,從而造成了嚴重的干擾,帶來了極差的用戶體驗。對合法網(wǎng)站來說垃圾網(wǎng)頁的內容質量比自己的差,而搜索排名反而在自己前面,這是極其不公平的。對搜索引擎來說,一方面垃圾網(wǎng)頁帶來的極差的用戶體驗會使其丟失一部分用戶,另一方面垃圾網(wǎng)頁會給搜索引擎公司造成資源浪費,因為網(wǎng)絡爬蟲在存儲、判斷、過濾和處理垃圾網(wǎng)頁時會消耗大量的CPU、帶寬、內存和磁盤資源[3]。所以,對垃圾網(wǎng)頁的研究一直都是搜索引擎所要重點關注的問題。
1 垃圾網(wǎng)頁的作弊方式
由于決定搜索引擎搜索排名的主要的兩個因素是查詢關鍵詞與網(wǎng)頁的相關度以及網(wǎng)頁本身的重要程度。而前者由網(wǎng)頁的內容決定,后者由網(wǎng)頁的鏈接結構決定。所以我們可以將垃圾網(wǎng)頁分為基于內容作弊的垃圾網(wǎng)頁和基于鏈接作弊的垃圾網(wǎng)頁兩類。
1.1 基于內容作弊的垃圾網(wǎng)頁
查詢關鍵詞與網(wǎng)頁相關度主要與查詢詞詞頻和查詢詞對應文檔數(shù)量的倒數(shù)成正比,所以作弊者往往針對這兩個因素入手制造垃圾網(wǎng)頁。他們往往會挑選一些很熱門的詞匯以吸引用戶的注意力,同時這些詞匯對應的資源往往又是正規(guī)網(wǎng)站稀缺的,以保證查詢詞對應文檔數(shù)量較少,例如“WIN10免費下載”、“速度與激情7免費觀看”等,將這些詞匯在頁面主體、標題和HTML頭重復的堆砌,以保證查詢詞詞頻較大。這種作弊方式被稱為關鍵詞堆砌,不過現(xiàn)在主流的搜索引擎幾乎都能識別單一使用這種方式制造的垃圾網(wǎng)頁了。
還有一些垃圾網(wǎng)頁制作者利用一些自動化工具將搜索引擎搜索返回結果中的摘要信息抓取出來組成垃圾網(wǎng)頁的內容,使得其在內容上與關鍵詞有極高的相關度,達到欺騙的目的。不過隨著多數(shù)搜索引擎禁用了被抓取功能后,這種作弊方式也不多見了。
另外一種作弊方式就是垃圾網(wǎng)頁制作者找一頁具有正常內容的網(wǎng)頁,將要作弊的關鍵詞稀稀拉拉相對均勻的混入夾雜其中,這種方式相對簡單的關鍵詞堆砌具有較大的迷惑性,如果網(wǎng)民不仔細閱讀或者搜索引擎沒有語義識別功能就很難識別出來。
上面幾種作弊方式對于騙取廣告點擊,騙取訪問流量比較有用,但是對于一些本身以內容欺詐為目的的垃圾網(wǎng)頁還不能完全達到目的,因為網(wǎng)民在被騙進來之后很快就會關閉或者離開網(wǎng)頁。于是一種稱為偽裝型垃圾網(wǎng)頁的技術應運而生。它是指垃圾網(wǎng)頁的制造者通過技術手段分別為搜索引擎和用戶訪問的瀏覽器準備一個網(wǎng)頁的兩個版本。早期采取的技術包括利用CSS將堆砌的關鍵詞字號縮小、字體顏色透明或者與背景顏色一致等加以隱藏。而現(xiàn)在主要通過內容替換、重定向跳轉、 JavaScript腳本等技術進行偽裝。
1.2基于鏈接作弊的垃圾網(wǎng)頁
網(wǎng)頁在搜索結果中的排名除了依賴于內容外,還取決于其鏈接結構??紤]鏈接結構時有一個很重要的PageRank算法,此算法表明如果鏈向該網(wǎng)頁的網(wǎng)頁質量越高,鏈接數(shù)量越多則該網(wǎng)頁的質量就越高。垃圾頁面的制作者希望高質量網(wǎng)站的網(wǎng)頁鏈向他們制作的垃圾網(wǎng)頁一般是很困難的,不過很多具有交互性WEB2.0特性的知名博客、論壇及評論留言網(wǎng)站允許用戶加入自己的信息。這樣的網(wǎng)站如果過濾不嚴格,就有可能被利用來加入垃圾網(wǎng)頁的鏈接地址,為他人做嫁衣。
垃圾網(wǎng)頁制作者利用其能控制的網(wǎng)站,提供高質量的吸引用戶關注的正常網(wǎng)頁,然后再讓這些大量的自己能控制的正常網(wǎng)頁指向垃圾網(wǎng)頁,從而提高垃圾網(wǎng)頁的鏈接質量,這被稱為蜜罐技術。
還有一種叫做鏈接農(nóng)場的作弊技術。它是指垃圾網(wǎng)頁制作者將制作的大量的垃圾網(wǎng)頁進行相互鏈接,以提高垃圾網(wǎng)頁對應的PageRank值,從而提高排名。這種垃圾網(wǎng)頁整頁充斥著鏈接,沒有任何具體的實質性內容。
2 垃圾網(wǎng)頁的識別方式
2.1 基于網(wǎng)頁內容的專用識別方式
由于基于網(wǎng)頁內容的作弊方式種類繁多,很難找到一種通用的識別方式,所以一般是針對某種作弊方式設計某種專用的識別方法。
針對關鍵詞堆砌和搜索結果摘要抄襲類型垃圾網(wǎng)頁,可以考慮其與正常網(wǎng)頁在某些內容特征上的不同,例如最為明顯的是內容可視比例和內容壓縮比例。通常垃圾網(wǎng)頁的內容可視比例和內容壓縮比例比正常網(wǎng)頁都要高很多。除此之外,超鏈接的比例、標點符號的比例、助詞的詞頻等這些指標也可以作為識別垃圾網(wǎng)頁的特征。
針對關鍵詞混入類型的垃圾網(wǎng)頁,可以考慮使用語言模型。假設組成網(wǎng)頁內容的字符串S={w1, w2, w3,…, wn},在簡化的二元語言模型下,頁面出現(xiàn)字符串S的概率為:
設定一個域值,當
針對偽裝型垃圾網(wǎng)頁可以采用多次頁面抓取。文獻[4]指出對于每個網(wǎng)頁分別模擬搜索引擎和瀏覽器抓取兩個副本,比較兩者是否有明顯差異來識別此類型的垃圾網(wǎng)頁。文獻[5]介紹了一種采用樸素貝葉斯分類算法對偽裝型垃圾網(wǎng)頁的識別,取得了較好的效果。
2.2 基于網(wǎng)頁鏈接的通用識別方式
前面介紹的垃圾網(wǎng)頁識別技術并不具有通用性,而且非常被動,總是等到出現(xiàn)一種作弊方式后才針對性的采用一種相應的補救措施,有些事后諸葛亮的做法。而下面要介紹的基于鏈接結構以及稍后介紹的機器學習分類法與作弊方式均無關,具有很強的通用性。
TrustRank算法是一種基于鏈接結構的用來識別垃圾網(wǎng)頁的經(jīng)典算法[6]。這個算法的假設條件是頁面A鏈接到頁面B則意味著頁面A推薦頁面B的內容,因此頁面A的 TrustRank值可以傳遞分配一部分給頁面B。也就是說質量高的網(wǎng)頁通常只會被質量更高的網(wǎng)頁鏈接指向。于是可以先構建一定數(shù)量的具備較高權威內容或者較多出鏈接的知名網(wǎng)頁作為起點種子網(wǎng)頁,然后將它們的TrustRank值按照出鏈接數(shù)量比例傳遞分配到第二層頁面,按照同樣的方法將TrustRank值傳遞分配到第三、四層,以此類推。這樣,通常越遠離第一層種子網(wǎng)頁的TrustRank值越小,越有可能是垃圾網(wǎng)頁。于是可以設定一個閾值,當?shù)陀谶@個值時將其判斷為垃圾頁面。
2.3 基于機器學習的通用識別方式
近年來隨著機器學習算法的興起,很多文獻提出將相關算法用到垃圾頁面識別并已經(jīng)取得了很好的效果。由于從本質上來說垃圾頁面識別是一個二值分類問題,而機器學習中有很多相應的算法可以被利用。這些算法的共同點通常都是先將網(wǎng)頁數(shù)據(jù)集分為訓練集和測試集,然后對網(wǎng)頁數(shù)據(jù)進行預處理,去除數(shù)據(jù)中的無用信息包括HTML標簽、JavaScript腳本代碼、大量存在的圖片等等,然后對網(wǎng)頁內容特征(網(wǎng)頁字數(shù)、標題字數(shù)、熱門關鍵詞、網(wǎng)頁壓縮率等)和鏈接結構特征(入鏈數(shù)、出鏈數(shù)、入鏈出鏈比例、PageRank值等)進行提取作為訓練集的輸入得出輸入輸出的映射關系,最后將這種映射關系用測試集進行驗證。例如文獻[7]采用支持向量機對垃圾網(wǎng)頁與正常網(wǎng)頁分類。支持向量機是一種非常適合小樣本二值分類的算法,它可以使得分開的兩類之間的距離最大化。文獻[8]采用樸素貝葉斯法與決策樹法相結合的算法實現(xiàn)了垃圾網(wǎng)頁的分類。文獻[9]受生物學啟發(fā),利用人工免疫系統(tǒng)的自學習及自適應能力提出了一種基于免疫克隆選擇算法來檢測利用新作弊技術的垃圾網(wǎng)頁。文獻[10]將網(wǎng)頁的鏈接特征和內容特征輸入多層感知神經(jīng)網(wǎng)絡,利用其靈活的結構和非線性變換等特點能有效地檢測垃圾網(wǎng)頁。
3垃圾網(wǎng)頁識別技術的評價
對垃圾網(wǎng)頁識別的技術實現(xiàn)效果好不好需要有評價指標,常見的評價指標通常有準確率、召回率和F1測度這3種。準確率被定義為實際正確被判斷為垃圾頁面的數(shù)量與被判斷為垃圾頁面總數(shù)之比,它反映了一個誤判的比例。召回率被定義為實際正確被判斷為垃圾頁面的數(shù)量與實際存在的垃圾頁面總數(shù)之比,它反映的是否查找全面。而F1測度為準確率和召回率的加權調和平均的一個綜合指標[11],它的公式為:F1=2*準確率*召回率/(準確率+召回率)。
4 總結與展望
在對垃圾網(wǎng)頁識別過濾的時候需要與一個很類似的技術SEO(Search Engine Otimization)搜索引擎優(yōu)化相區(qū)別。它們兩者的相同點就是都是為了提高網(wǎng)站的排名,不同點在于,SEO是通過技術手段將由于搜索引擎技術限制而把本該排在靠前位置的高質量網(wǎng)頁排在靠后位置這種錯誤進行糾正重新排名靠前,而垃圾網(wǎng)頁是欺騙搜索引擎將本該排在靠后位置的低質量網(wǎng)頁排在了靠前的位置。對兩者正確區(qū)分之后,才不會因為進行垃圾頁面過濾的時候對正常的SEO技術造成誤傷。
前面提到的那些主流的垃圾網(wǎng)頁識別技術其實都忽略了網(wǎng)民的力量。其實網(wǎng)民的數(shù)量這么龐大,如果能充分發(fā)揮他們的力量,對其行為進行分析記錄往往可以加以利用。近年來有部分文獻研究嘗試利用用戶行為來識別垃圾網(wǎng)頁,不過多數(shù)集中在被動行為上。被動行為主要是基于用戶在訪問正常網(wǎng)頁與垃圾網(wǎng)頁時不自覺的表現(xiàn)出來的訪問行為上的差異,例如用戶在頁面上停留的時間、點擊網(wǎng)頁上鏈接的數(shù)量、與頁面的交互次數(shù)等。文獻[12]就是通過分析網(wǎng)絡日志來對垃圾網(wǎng)頁進行識別。
本文受手機騷擾電話攔截啟發(fā),目前很多手機APP例如360手機衛(wèi)士、電話邦、搜狗號碼通都提供對用戶舉報的騷擾電話的提醒和攔截,提出基于用戶主動行為的垃圾頁面識別思路。搜索引擎可以接受廣大網(wǎng)民的舉報,當多數(shù)用戶對同一個網(wǎng)頁進行了垃圾標記并滿足某種條件之后就對其進行標記或者過濾封殺。當然這只是一個思路,具體實現(xiàn)還需要考慮很多算法細節(jié),例如超過多大的閾值數(shù)量為多數(shù)用戶,為防止用戶惡意標注是否要考慮獨立IP,標記的可信度有多大,垃圾網(wǎng)頁與對應網(wǎng)站的關系、何時只是警告標記何時直接封殺等都需要進一步細化。
參考文獻:
[1] CNNIC.搜索引擎用戶行為報告[EB/OL][2012-12-03].http://labs.Chinamobile.com/report/23447 ?fdlayenxoaencysxyant.
[2] 賈志洋,李偉偉,張海燕. 基于內容的搜索引擎垃圾網(wǎng)頁檢測[J]. 計算機應用與軟件,2009,11(26):165-167.
[3] 賈志洋,崔博文,王勇剛,等. 搜索引擎垃圾網(wǎng)頁技術分析[J]. 情報探索,2011,7:94-96.
[4] CHELLAPILLA K,CHICKERING D M.Improving cloaking detection using search query popularity and monetizability[C]// Proceedings of the 2nd International Workshop on Adversarial Information Retrieval on the Web.Seattle: [s.n.],2006: 17-23.
[5] 王莉麗,朱焱,馬永強. 基于樸素貝葉斯的偽裝型垃圾網(wǎng)頁檢測[J]. 計算機應用,2013,33(S1):102-103,106.
[6] 劉奕群,馬少平,洪濤,等. 搜索引擎技術基礎[M]. 北京清華大學出版社,2010:193-234.
[7] 賈志洋,李偉偉,高煒,等. 基于支持向量機的搜索引擎垃圾網(wǎng)頁檢測研究[J]. 云南民族大學學報(自然科學版), 2011,20(3):173-176.
[8] 張曉宇,吳向前,張平洋. 農(nóng)業(yè)網(wǎng)站中垃圾網(wǎng)頁過濾方法的研究[J]. 網(wǎng)絡安全技術與應用,2011,1:55-57.
[9] 楊凡,朱焱,唐壽洪. 基于免疫克隆選擇算法的垃圾網(wǎng)頁檢測[J]. 計算機應用與軟件,2015,32(6):20-29.
[10] Goh K L,Singh A K,Lim K H. Multilayer perceptrons neural network based Web spam detection application[C]/ /Signal and Information Processing(ChinaSIP) ,2013 IEEE China Summit & International Conference on.IEEE,2013:636-640.
[11] 李永可,吳悠,張?zhí)t,等. 維文垃圾網(wǎng)頁多元線性回歸識別研究[J]. 新疆大學學報(自然科學版),2012,29(2):218-222.
[12] 岑榮偉,劉奕群,張敏,等. 基于日志挖掘的搜索引擎用戶行為分析[J].中文信息學報,2010,24(3):49-54.