王慶福+王興國
摘要:互聯(lián)網(wǎng)時(shí)代人們檢索信息的方式主要通過搜索引擎完成。不管是通用的全文搜索引擎還是分類別的垂直搜索引擎都需要面臨的問題是作弊行為,網(wǎng)站站長會通過多種作弊行為來提高在搜索引擎上的排名,作弊行為的方式也千差萬別。搜索引擎需要通過不斷優(yōu)化和完善內(nèi)部的排序算法來杜絕作弊行為。
關(guān)鍵詞:搜索引擎;內(nèi)容排序;作弊和反作弊
中圖分類號: TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)15-0202-02
Abstract: In the Internet age, the way of searching information is mainly through the search engine. Whether it is general full text search engine or classification other vertical search engine in the face of problems is cheating, webmaster will through a variety of cheating in the search engine ranking increases, the cheating behavior in different ways. Search engines need to constantly optimize and improve the internal sorting algorithm to eliminate cheating.
Key words: search engine; content ranking; cheating and anti cheating
搜索引擎通過提取網(wǎng)頁中主要信息進(jìn)行索引構(gòu)建,用戶的檢索請求提交給搜索引擎后,搜索引擎通過索引系統(tǒng)篩選出符合條件的待選集,然后根據(jù)內(nèi)部的排序算法對待選集進(jìn)行排序輸出。網(wǎng)站的盈利模式主要通過流量,網(wǎng)站流量越大意味著網(wǎng)站可以拉到更到廣告投放從而實(shí)現(xiàn)大面積盈利。因此存在一些網(wǎng)站站長為了提高自身網(wǎng)站的流量進(jìn)行作弊,通過非正常的手段來提升自身網(wǎng)站搜索引擎內(nèi)部的排名,搜索引擎出于公平性的考慮保證排名的合理性需要對網(wǎng)站站長這些作弊行為進(jìn)行檢測并極大程度上降低因作弊行為而導(dǎo)致的排名不正確性。
搜索引擎的排名的依據(jù)很大程度上依賴于用戶的輸入字符串和網(wǎng)站內(nèi)容的匹配程度,網(wǎng)站站長在自身網(wǎng)站上堆砌大量的關(guān)鍵詞從而期望提高網(wǎng)站的排名,實(shí)際諸如此類的關(guān)鍵詞堆砌沒有實(shí)際的含義,甚至和網(wǎng)站內(nèi)容無任何關(guān)聯(lián),這極大的拉低了網(wǎng)站本身的質(zhì)量,搜索引擎在內(nèi)容識別時(shí)需要識別當(dāng)前是否存在無關(guān)關(guān)鍵詞的大量無關(guān)使用,對此類作弊行為需要打壓查詢字符串和網(wǎng)站本身內(nèi)容之間的相似度。另外還有如鏈接作弊等,本文主要就網(wǎng)站作弊中常用手段進(jìn)行分析,闡釋搜索引擎反作弊中常用手段。
1 搜索引擎排序策略
搜索引擎排序中常用的做法是LTR(learning to rank) 算法,LTR算法是一種機(jī)器學(xué)習(xí)算法,它在傳統(tǒng)相似度算法的基礎(chǔ)上融合多種排序時(shí)的相關(guān)特征進(jìn)行排序?qū)W習(xí),LTR算法如圖1所示。LTR是一種基于有規(guī)則性的學(xué)習(xí)監(jiān)督(supervised learning)排序方法。LTR已經(jīng)在諸多領(lǐng)域有著大量的應(yīng)用,以文本挖掘領(lǐng)域?yàn)槔阉饕娴姆祷亟Y(jié)果排序、IR中召回文檔的排序、推薦系統(tǒng)中對候選商品的選擇以及機(jī)器翻譯中文字的順序等。
早期的信息檢索系統(tǒng)在排序時(shí)方法比較單一,通常按照用戶檢索字符串和網(wǎng)頁內(nèi)容的匹配度來排序,這樣在很大程度上只能采用單一的相似度計(jì)算方式,實(shí)際上有多種因素會影響排序的效果,如經(jīng)典的 TF-IDF, DL等,VSM和布爾模型都可以完成這些功能,這些傳統(tǒng)的排序方式是無法融入多種排序因素,假設(shè)用向量空間模型來表征對象,向量空間模型中各個(gè)維度以TF-IDF來計(jì)算權(quán)值,相應(yīng)的無法再利用其他額外的信息了,如果模型參數(shù)過多對模型本身的參數(shù)調(diào)節(jié)也是一個(gè)很大的挑戰(zhàn),參數(shù)過多也會導(dǎo)致過擬合和現(xiàn)象。則自然地聯(lián)想到采用機(jī)器學(xué)習(xí)的手段來解決上述的問題,于是就產(chǎn)生了LTR(learning to rank)。機(jī)器學(xué)習(xí)很容易擬合多種特征來進(jìn)行模型訓(xùn)練,而且具有非常豐厚的理論基礎(chǔ),有著成熟的理論和技術(shù)來解決稀疏和過擬合的問題。
模型訓(xùn)練的過程實(shí)際上一個(gè)參數(shù)學(xué)習(xí)的過程,選定合理的真實(shí)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集合,對于特定的模型,選擇合適的損失函數(shù),通過對損失函數(shù)進(jìn)行優(yōu)化可以得到當(dāng)前模型下最優(yōu)的參數(shù),這即是模型訓(xùn)練的過程,預(yù)測的過程即將需要預(yù)測的數(shù)據(jù)作為輸入數(shù)據(jù)傳入到模型得到模型預(yù)測分,利用該結(jié)果分即可進(jìn)行相關(guān)的排序分析。
LTR一般說來有三類方法:單文檔方法(Pointwise),文檔對方法(Pairwise),文檔列表方法(Listwise)。
2 網(wǎng)站作弊行為
網(wǎng)站站長通過排序作弊的方式來提高自身網(wǎng)站的排名,作弊的方式主要有以下幾類:
· 增加目標(biāo)作弊詞詞頻來影響排名;
· 增加主題無關(guān)內(nèi)容或者熱門查詢吸引流量;
· 關(guān)鍵位置插入目標(biāo)作弊詞影響排名;
詳細(xì)來說,可以分為如下幾種方式:
2.1關(guān)鍵詞重復(fù)
關(guān)鍵詞重復(fù)是作弊中常用的手段,通過設(shè)置大量的關(guān)鍵詞在網(wǎng)站中。關(guān)鍵詞的詞頻信息是排序時(shí)重要的排序因子,關(guān)鍵詞重復(fù)的本質(zhì)就是通過關(guān)鍵詞的詞頻來影響網(wǎng)站在展現(xiàn)時(shí)的排列順序。
2.2無關(guān)查詢詞作弊
為了提高網(wǎng)站在搜索時(shí)的展現(xiàn)次數(shù),盡可能多的通過增加關(guān)鍵詞來提高和用戶搜索時(shí)的匹配度,作弊時(shí)增加很多和當(dāng)前網(wǎng)站頁面主題無關(guān)的關(guān)鍵詞也是一種詞頻作弊,即將原來詞頻為0的單詞詞頻增加為詞頻大于等于1,通過提高來搜索時(shí)的匹配度來吸引流量。
有些網(wǎng)站站長則會在網(wǎng)頁的末尾處以隱藏的方式加入一些關(guān)鍵詞表,也有一些作弊者在正文內(nèi)容中插入一些熱搜詞。更有甚者,有些網(wǎng)站頁面的內(nèi)容完全是采用機(jī)器的方式生成毫無閱讀性可言。
2.3圖片alt標(biāo)簽文本作弊
alt標(biāo)簽作為圖片的描述信息,通常不會在用戶瀏覽網(wǎng)頁時(shí)展示,當(dāng)用戶鼠標(biāo)點(diǎn)選獲得焦點(diǎn)時(shí)才會展示,搜索引擎會利用這一信息進(jìn)行分析,因此部分網(wǎng)站作弊人員會利用這一信息用關(guān)鍵詞進(jìn)行填充,從而達(dá)到吸引流量的目的。
2.4網(wǎng)頁標(biāo)題作弊
網(wǎng)頁本身的標(biāo)題信息作為網(wǎng)站內(nèi)容的重要的組成部分,對于判斷一個(gè)網(wǎng)頁的主題具有非常重要的意義,搜索引擎在計(jì)算相似度時(shí)增大這一部分的比例,作弊作者會利用這一特點(diǎn),將與網(wǎng)站無關(guān)的關(guān)鍵詞堆砌在網(wǎng)站標(biāo)題處達(dá)到作弊的行為。
3 反作弊研究
搜索引擎作弊手段五花八門,層出不窮,但是從最根本的作弊技術(shù)進(jìn)行分析,還有能夠發(fā)現(xiàn)一些共通的內(nèi)容。從基本的思路角度,可以將反作弊手段大致劃分為以下三種:“信任傳播模型”、“不信任傳播模型”和“異常發(fā)現(xiàn)模型”。其中前兩種技術(shù)模型可以進(jìn)一步抽象歸納為“鏈接分析”中“子集傳播模型”。
“信任傳播模型”就是在海量的數(shù)據(jù)集合中通過一定的技術(shù)手段和半人工的方式篩選出能夠完全信任的網(wǎng)頁,可以理解為這些網(wǎng)頁是完全不會作弊,可以稱這些網(wǎng)頁為白名單網(wǎng)頁,搜索算法以這些白名單網(wǎng)頁為起點(diǎn),賦予白名單網(wǎng)頁的鏈向網(wǎng)頁以較高的權(quán)值,在搜索過程中判斷其他網(wǎng)頁是否存在作弊行為要看其和白名單內(nèi)網(wǎng)頁的鏈接關(guān)系來確定。白名單內(nèi)的網(wǎng)頁通過鏈接關(guān)系將信任度向外散播,如果中間的某個(gè)網(wǎng)頁信任度低于給定的閾值,則認(rèn)為該網(wǎng)頁存在作弊行為。
“不信任傳播模型”從整體的技術(shù)程度上來說和“信任傳播模型”是類似的,區(qū)別在于“信任傳播模型”起始點(diǎn)是信任節(jié)點(diǎn),“不信任傳播模型”起始點(diǎn)是不信任節(jié)點(diǎn),即確定的作弊行為的節(jié)點(diǎn),可以理解為是黑名單網(wǎng)頁集合。賦予黑名單的各個(gè)網(wǎng)頁節(jié)點(diǎn)一定的不信任度,通過網(wǎng)頁之間的鏈接關(guān)系將不信任度向外傳播,如果最后鏈向的頁面節(jié)點(diǎn)的不信任閾值大于給定的值,則認(rèn)為該頁面節(jié)點(diǎn)存在作弊行為??傮w來說,“信任傳播模型”和“不信任傳播模型”都可以認(rèn)為是基于鏈接分析的方式來實(shí)現(xiàn),都是通過對鏈接傳播的擴(kuò)散性來評判搜索頁面是否存在作弊行為。
“異常發(fā)現(xiàn)模型”是區(qū)別于“信任傳播模型”和“不信任傳播模型”的鏈接分析模型,其主要基于一種假設(shè):作弊網(wǎng)頁必然存在某些特征有別于正常網(wǎng)頁,這些特征可能是內(nèi)容上,也可能是鏈接上的,通常先抓取一些作弊網(wǎng)頁的集合,分析這些作弊網(wǎng)頁存在的異常特征,然后利用這些異常特征來識別作弊網(wǎng)頁。
4總結(jié)
本文主要分析了當(dāng)前人們在信息檢索時(shí)的主要方式,搜索引擎通過提取網(wǎng)站信息進(jìn)行索引分析,將最匹配用戶的網(wǎng)頁推薦給用戶。網(wǎng)站站長為了提高自身網(wǎng)站在搜索時(shí)的排名會采用多種作弊行為來干預(yù)排序,通過關(guān)鍵詞堆砌和鏈接作弊等方式來惡性破壞公平性,本文試圖從技術(shù)的角度分析各種作弊的行為的技術(shù)實(shí)現(xiàn),并從實(shí)際出發(fā)來遏制此類作弊行為。
參考文獻(xiàn):
[1] 李智超,余慧佳,劉奕群,馬少平. 網(wǎng)頁作弊與反作弊技術(shù)綜述[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版),2011(5):1-8.
[2] 肖卓磊. 搜索引擎作弊及反作弊技術(shù)探究[J]. 阜陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2011(4):74-78.
[3] 王利剛,趙政文,趙鑫鑫. 搜索引擎中的反SEO作弊研究[J]. 計(jì)算機(jī)應(yīng)用研究,2009(6):2035-2037.
[4] 趙靜. 搜索引擎優(yōu)化的作弊與防范[J]. 辦公自動(dòng)化,2010(22):8+19.
[5] 申華. 一種對抗社交網(wǎng)絡(luò)鏈接作弊的算法[J]. 計(jì)算機(jī)與現(xiàn)代化,2015(7):1-4.