淺析網(wǎng)頁搜索引擎的PageRank排序算法

2016-11-02 18:06:11歐賢

科教導(dǎo)刊·電子版 2016年22期

關(guān)鍵詞：排序

歐賢

摘要隨著Internet 技術(shù)的快速普及和迅猛發(fā)展，Web 上信息總量日益膨脹。用戶如何從網(wǎng)頁信息中快速獲取所需信息變得日益重要。本文對(duì)Web結(jié)構(gòu)挖掘算法PageRank 算法進(jìn)行研究學(xué)習(xí)，分析了其兩種算法的基本思想和技術(shù)特點(diǎn)。

關(guān)鍵詞排序 PageRank算法隨機(jī)游走

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A

1 PageRank算法概述

PageRank（網(wǎng)頁級(jí)別），2001年9月被授予美國專利，專利人是Google創(chuàng)始人之一拉里·佩奇[1]。它是Google排名運(yùn)算法則（排名公式）的一部分，是Google用于用來標(biāo)識(shí)網(wǎng)頁的等級(jí)/重要性的一種方法，是Google用來衡量一個(gè)網(wǎng)站的好壞的唯一標(biāo)準(zhǔn)。在揉合了諸如Title標(biāo)識(shí)和Keywords標(biāo)識(shí)等所有其它因素之后，Google通過PageRank來調(diào)整結(jié)果，使那些更具“等級(jí)/重要性”的網(wǎng)頁在搜索結(jié)果中另網(wǎng)站排名獲得提升，從而提高搜索結(jié)果的相關(guān)性和質(zhì)量。級(jí)別從0到10級(jí)，10級(jí)為滿分。

2 PageRank算法過程分析

PageRank算法所建立的用戶瀏覽模型被稱為“隨機(jī)游走”（random walk）模型。用戶使用一個(gè)特殊的瀏覽器來瀏覽網(wǎng)頁，這個(gè)瀏覽器沒有地址欄、后退按鈕，即只能順著網(wǎng)頁鏈接瀏覽。同時(shí)提供一個(gè)“隨便逛逛”的功能，可以通過點(diǎn)此按鈕隨機(jī)打開萬維網(wǎng)上的一個(gè)網(wǎng)頁開始瀏覽。那么，網(wǎng)頁A被訪問的概率可以用如下公式計(jì)算得到：

上式右半部分是使用“隨便逛逛”功能訪問到頁面A的概率，而后半部分則是使用超鏈接訪問到頁面A的概率，兩者相加即為訪問到頁面A的總概率大小?？芍?，如果給定參數(shù) ，頁面A的PageRank值事實(shí)上是由鏈接到它的各個(gè)頁面的PageRank值決定的。

3 PageRank算法

PageRank算法要求G中不存在沒有超鏈接的“死胡同”網(wǎng)頁，為解決這一問題，可以采用如下算法：

（4）當(dāng)結(jié)果向量收斂時(shí)，返回（3）繼續(xù)循環(huán)；當(dāng)收斂時(shí)，算法結(jié)束，輸出所計(jì)算出的G中每一個(gè)節(jié)點(diǎn)n的PR（n）的結(jié)果。

4.總結(jié)

可以看出，與第一種算法相比，第二種算法考慮到?jīng)]有超鏈接網(wǎng)頁的情況，對(duì)這部分網(wǎng)頁，“隨機(jī)游走”的瀏覽方式則只能點(diǎn)擊“隨便逛逛”功能進(jìn)行跳轉(zhuǎn)，而任何G中的網(wǎng)頁都可能成為跳轉(zhuǎn)目標(biāo)。事實(shí)上，這相當(dāng)于先在“死胡同”網(wǎng)頁和G中的所有網(wǎng)頁兩兩之間添加了一條虛擬的超鏈接，之后，再在這個(gè)經(jīng)過修改的鏈接關(guān)系圖上進(jìn)行簡(jiǎn)化算法。

參考文獻(xiàn)

[1] 黃德才，戚華春，錢能.基于主題相似度模型的TS2PageRank算法[J].小型微型計(jì)算機(jī)系統(tǒng)，2007（03）.

[2] 盧開澄.計(jì)算機(jī)密碼學(xué)——計(jì)算機(jī)網(wǎng)絡(luò)中的數(shù)據(jù)保密與安全（第3版）[M].清化大學(xué)出版社，2002.

[3] 李凱，赫楓齡，左萬利.PageRank2Pro一種改進(jìn)的網(wǎng)頁排序算法[J].吉林大學(xué)學(xué)報(bào)，2003（4）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

淺析網(wǎng)頁搜索引擎的PageRank排序算法