国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樸素貝葉斯網(wǎng)頁分類的用戶行為推衍*

2018-01-08 06:28:43曹天杰
關(guān)鍵詞:行為特征

秦 鵬,曹天杰

(1.六盤水師范學(xué)院 計算機(jī)科學(xué)與信息技術(shù)系,貴州 六盤水 553004;2.中國礦業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)

基于樸素貝葉斯網(wǎng)頁分類的用戶行為推衍*

秦 鵬1,曹天杰2

(1.六盤水師范學(xué)院 計算機(jī)科學(xué)與信息技術(shù)系,貴州 六盤水 553004;2.中國礦業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)

針對傳統(tǒng)網(wǎng)頁分類中存在的準(zhǔn)確率和查全率不高、分類效率低的情況,提出一種基于樸素貝葉斯分類的網(wǎng)頁預(yù)分類算法.算法根據(jù)用戶的網(wǎng)上活動情況提取相關(guān)網(wǎng)址,分析網(wǎng)頁內(nèi)容和網(wǎng)頁關(guān)鍵詞,利用樸素貝葉斯分類算法進(jìn)行分類,根據(jù)用戶對各類網(wǎng)頁的瀏覽情況分析用戶的行為特征.采用改進(jìn)的文本權(quán)值計算方法,并引進(jìn)網(wǎng)址預(yù)分類機(jī)制,提高數(shù)據(jù)的處理效率以及分類的準(zhǔn)確率.結(jié)果表明,網(wǎng)址分類算法準(zhǔn)確,能夠充分發(fā)掘用戶的興趣喜好,可以作為用戶行為分析的數(shù)據(jù)算法進(jìn)行商業(yè)推廣和司法取證.

網(wǎng)頁關(guān)鍵詞;樸素貝葉斯;網(wǎng)頁分類;行為特征;權(quán)值計算方法;網(wǎng)址預(yù)分類;商業(yè)推廣;司法取證

信息化時代網(wǎng)絡(luò)產(chǎn)生海量數(shù)據(jù),針對用戶網(wǎng)上行為數(shù)據(jù)挖掘成為數(shù)據(jù)分析的一大熱點話題.對于公司,可以通過發(fā)掘用戶行為習(xí)慣,推出相應(yīng)產(chǎn)品;對于社會,通過分析用戶數(shù)據(jù),可以發(fā)現(xiàn)潛在的社會問題,完善相關(guān)機(jī)制,打擊網(wǎng)絡(luò)犯罪;對于高校,可以分析學(xué)生的行為特征,提供個性化網(wǎng)站服務(wù).

國內(nèi)外眾多學(xué)者對網(wǎng)頁分類進(jìn)行了積極的探究,金一寧等[1]提出一種基于VSM模型的KNN分類算法,分別對基于標(biāo)題、正文、正文和鏈接結(jié)合及標(biāo)題和鏈接結(jié)合的分類結(jié)果進(jìn)行比較;許世明等[2]提出通過預(yù)置關(guān)鍵詞表進(jìn)行預(yù)分類的方法,極大地提高了分類的速度;江國薦等[3]基于網(wǎng)頁半結(jié)構(gòu)化特點,提出了一種基于稀疏自動編碼和LBP神經(jīng)網(wǎng)絡(luò)的分類器,降低了文本訓(xùn)練時間,網(wǎng)址分類正確率得到了極大提高;代寬[4]等結(jié)合網(wǎng)頁半結(jié)構(gòu)化特征改進(jìn)TF-IDF算法,提高了網(wǎng)頁的召回率和準(zhǔn)確率;國外學(xué)者Lee等[5]提出一種簡化群優(yōu)化SSO訓(xùn)練權(quán)重的方法,并采用Taguchi方法設(shè)置參數(shù),充分發(fā)揮單詞權(quán)重的更新性;Hernndez等[6]提出一種基于URL自動化網(wǎng)頁分類方案,根據(jù)URL模式區(qū)分網(wǎng)頁類別.

本文針對中文網(wǎng)頁結(jié)構(gòu)和URL特點,改進(jìn)TF-IDF權(quán)值計算方法,并基于樸素貝葉斯分類算法,引進(jìn)網(wǎng)址預(yù)分類機(jī)制,提出一種基于樸素貝葉斯的中文網(wǎng)頁預(yù)分類算法,根據(jù)分類結(jié)果分析用戶的興趣愛好.

1 分類一般過程

網(wǎng)頁分類一般包括網(wǎng)頁文本提取、構(gòu)建文本特征及文本分類三個過程.

1.1 網(wǎng)頁文本提取

要對網(wǎng)頁進(jìn)行分類,首先需要提取網(wǎng)頁文本,對網(wǎng)頁文本進(jìn)行預(yù)處理,提取body標(biāo)記中的文本數(shù)據(jù)、錨文本、Title標(biāo)記、Meta標(biāo)記、H1、H2等標(biāo)記內(nèi)容[7-8],去除注釋標(biāo)記內(nèi)容和網(wǎng)頁通用內(nèi)容.

對處理后的文本進(jìn)行文本分詞,得到具有獨立信息的載體.文本分詞是網(wǎng)頁關(guān)鍵詞提取和文本分類的基礎(chǔ),本文采用的文本分詞算法是在.NET環(huán)境中集成中科院的分詞技術(shù)ICTCLAS,該算法的優(yōu)點是支持用戶詞典接口擴(kuò)展以及分詞粒度可調(diào)[9].

文本表示方法主要有布爾模型、向量空間模型和統(tǒng)計語言模型,本文主采用向量空間模型VSM來表示具體的頁面,向量形式為(ti1,wi1,ti2,wi2,…,tij,wij),其中,tij為頁面i的第j個特征詞,wij為頁面i的第j個特征詞的權(quán)值[10].

1.2 構(gòu)建文本特征項

在網(wǎng)頁文本分詞后,為了減少文本空間的向量維數(shù),需要進(jìn)行關(guān)鍵詞提取,找出能夠代表整篇網(wǎng)頁主要內(nèi)容的詞語,構(gòu)建每個網(wǎng)頁的文本特征庫.

1.2.1 計算詞條權(quán)重

傳統(tǒng)的TF-IDF單詞權(quán)重計算方法表示為

W=UTFfIDF

(1)

式中:UTF為詞頻,指單詞出現(xiàn)在給定文檔中的次數(shù);fIDF為逆向文檔頻率,是反映單詞在文檔集中頻繁度的重要指標(biāo),其計算公式為

fIDF=log2(N/n)

(2)

式中:N為總文檔數(shù);n為包含詞條的文檔數(shù).

在HTML半結(jié)構(gòu)化網(wǎng)頁中,不同標(biāo)記中文本的重要程度不同,傳統(tǒng)TF-IDF算法不適用于網(wǎng)頁文本權(quán)重計算.HTML中存在很多不同的域,比如標(biāo)題Title、元數(shù)據(jù)Meta、正文Body,正文中又可分為段標(biāo)記數(shù)據(jù)、H標(biāo)記數(shù)據(jù)、錨文本數(shù)據(jù)等.如果詞條出現(xiàn)在頁面title中,其重要程度最大,因為一篇網(wǎng)頁的標(biāo)題基本上反映其描述的內(nèi)容,可以為其賦予較高的權(quán)值[11].表1中顯示了不同標(biāo)記在文本中的重要程度.

表1 標(biāo)記在頁面中的重要性Tab.1 Importance of sign in page

根據(jù)網(wǎng)頁特點,本文將網(wǎng)頁文本分為body內(nèi)容文本和關(guān)鍵特征文本(kff),關(guān)鍵特征詞包括標(biāo)題Title標(biāo)簽,Meta標(biāo)簽中名為keywords和description的元數(shù)據(jù),鏈接文本,H1、H2標(biāo)記段落文本以及其他一些重要的Html標(biāo)簽域中的文本[12-13],因此詞條改進(jìn)后的權(quán)重計算公式為

Wid=?Wbody+(1-?)Wkff

(3)

式中,?為協(xié)調(diào)因子,0

Wbody=UTFf

(4)

f=log2(Nm/n)

(5)

(6)

式中:m為某一類Ci中包含詞條的文檔數(shù);fik為Wkff在文檔中特征域上出現(xiàn)的次數(shù);Wik為Wkff在頁面中的重要程度.

1.2.2 選取關(guān)鍵詞

計算完詞語的權(quán)重后,通常可以采取兩種方式確定網(wǎng)頁的關(guān)鍵詞,一種是通過設(shè)定關(guān)鍵詞權(quán)重閥值,權(quán)重超過該閥值的即可認(rèn)為是關(guān)鍵詞;另外一種是將詞語按照詞權(quán)重大小逆序排列,選取權(quán)重排名靠前的幾個詞語作為網(wǎng)頁關(guān)鍵詞[14],本文選擇權(quán)值靠前的詞語作為網(wǎng)頁關(guān)鍵詞.

1.3 文本分類

網(wǎng)頁分類即是對網(wǎng)頁中的文本進(jìn)行分類,常用的分類方法有基于統(tǒng)計的Bayes分類、KNN、支持向量機(jī)、決策樹及回歸模型等.本文基于樸素貝葉斯分類算法,提出一種改進(jìn)的預(yù)分類算法以提高分類效率.文本分類首先要提取待分類文本的特征項,根據(jù)訓(xùn)練文本集構(gòu)建文本分類器,然后將特征項在分類器中進(jìn)行分類,輸出分類結(jié)果[15-16].網(wǎng)頁分類系統(tǒng)的一般模型如圖1所示.

圖1 網(wǎng)頁分類系統(tǒng)的一般模型Fig.1 General model for web page classification system

2 經(jīng)典網(wǎng)址分類算法

2.1 貝葉斯理論

貝葉斯理論是基于統(tǒng)計推斷的過程,需要計算一般信息和先驗信息,得到后驗信息.它的主要特點是利用概率來表示所有不確定的形式,并且利用概率規(guī)則來實現(xiàn)學(xué)習(xí)和推理,通過計算過去某段時間發(fā)生的概率來估計將來發(fā)生的概率.

貝葉斯分類器是一個簡單的基于應(yīng)用貝葉斯獨立假設(shè)理論的概率分類器.貝葉斯定理中條件概率和反條件概率之間的關(guān)系可表示為

(7)

式中:P(Y)為Y的先驗概率或是邊沿概率,即不將X的任何信息考慮在內(nèi)的概率;P(Y|X)為給定X后,Y的條件概率,它的值來自或是取決于X的值.構(gòu)建后驗概率時,很多情況下需要給定一個數(shù)據(jù)D,并找到在數(shù)據(jù)集E中的條件概率P(E|D).假設(shè)最大值e包含于E,任何最大可能性的假設(shè)均稱作最大后驗假設(shè),標(biāo)記為EMAP,即

EMAP=argmaxe∈EP(E|D)=

(8)

2.2 樸素貝葉斯分類

樸素貝葉斯分類的實現(xiàn)過程主要包括以下步驟:

1) 計算類的先驗概率.數(shù)據(jù)樣本用一個n維的特征向量X表示,用于描述屬性對樣本的度量,系統(tǒng)中的屬性值即為特征詞,接著計算每個分類Ci的先驗概率P(Ci),即

P(Ci)=Nci/N

(9)

式中,Nci為總樣本中屬于類Ci的樣本數(shù).

2) 計算每個類的條件概率.樸素貝葉斯算法使用獨立假設(shè)檢驗,認(rèn)為屬性值相互條件獨立,Ci類條件概率為

(10)

式中:Nxc為Ci類中包含屬性x的樣本數(shù),系統(tǒng)中Nxc即為在Ci類中包含詞條x的樣本數(shù);V為樣本中總的類別數(shù),即類別C的總數(shù).為了避免極端零值的情況出現(xiàn),此處對Nxc的值進(jìn)行加1處理.

3) 計算類后驗概率.根據(jù)貝葉斯分類理論,將數(shù)據(jù)樣本劃分給后驗概率較大的類,因此在計算完后驗概率后,即可知道網(wǎng)頁的分類情況.后驗概率計算表達(dá)式為

(11)

對于每一個數(shù)據(jù)樣本,P(X)均一樣,因此式(11)可簡化為

P(Ci|X)=aP(Ci)P(X|Ci)

(12)

在分析過程中,為了避免計算值較小情況的出現(xiàn),可以對后驗概率進(jìn)行放大處理,這樣方便分類的處理.在此只需要對后驗概率值乘以一個整數(shù)M即可,最終的后驗概率表達(dá)式為

P(Ci|X)=aP(Ci)P(X|Ci)M

(13)

完整的基于樸素貝葉斯網(wǎng)頁分類流程如圖2所示.

3 改進(jìn)網(wǎng)址分類算法

在數(shù)據(jù)計算過程中,為了在較短時間內(nèi)獲取足夠多的信息,需要提高計算效率.由于用戶瀏覽的網(wǎng)址較多,緩存文件也很大,如果通過傳統(tǒng)的分析方法很難在短時間內(nèi)獲取有效信息.為了提高分類速度,統(tǒng)計用戶對每種類別網(wǎng)頁的瀏覽情況,本文針對網(wǎng)頁獨有的特點,提出一種網(wǎng)頁預(yù)分類方法.

在網(wǎng)頁開發(fā)的過程中,網(wǎng)頁開發(fā)者首先設(shè)計的是其首頁,然后根據(jù)相關(guān)功能建立相應(yīng)的子類網(wǎng)址.一個典型的域名通常包括傳輸協(xié)議、主機(jī)類型、主機(jī)名、二級域名和頂級域名.其中頂級域名是一個國家獨有的,比如中國的頂級域名為cn.二級域名中使用最多的主要有5個,分別是com、org、net、mail、edu,其中com適用于商業(yè)公司,org用于非盈利機(jī)構(gòu),net用于大型網(wǎng)絡(luò)中心,mail用于軍事機(jī)構(gòu),edu用于教育網(wǎng)站.以學(xué)校網(wǎng)址http://www.lpssy.edu.cn為例,其主機(jī)名為lpssy,二級域名為edu,頂級域名為cn.

假設(shè)網(wǎng)頁不受黑客入侵,其網(wǎng)址對應(yīng)的網(wǎng)頁類別是不變的,如上所述,可以先根據(jù)頂級域名進(jìn)行初次劃分,再對不同的類別進(jìn)行判斷.如果每次都進(jìn)行分類則要耗費大量時間,故可以為已經(jīng)正確分類的網(wǎng)址建立一個哈希表.在對獲取的網(wǎng)址進(jìn)行分類時,首先將獲取的網(wǎng)址和已經(jīng)進(jìn)行正確分類的網(wǎng)址進(jìn)行對比,如果該網(wǎng)址與已經(jīng)存在的網(wǎng)址相同,則直接輸出分類結(jié)果.如果該網(wǎng)址的主機(jī)名存在于已經(jīng)正確分類的網(wǎng)址中,則直接輸出分類結(jié)果.如果該網(wǎng)址不存在已經(jīng)建立的哈希表中,根據(jù)頂級域名進(jìn)行分類,如果分類成功,則直接輸出分類結(jié)果;否則再根據(jù)樸素貝葉斯算法進(jìn)行具體分類,輸出分類結(jié)果,其流程圖如圖3所示.

圖3 預(yù)分類的網(wǎng)頁分類流程圖Fig.3 Flow chart of web page pre-classification

4 實驗數(shù)據(jù)分析

4.1 評估標(biāo)準(zhǔn)

在文本分類中,常用于評估參數(shù)的指標(biāo)有3種,分別是分類查全率r、準(zhǔn)確率p和F1測試值.其中查全率和準(zhǔn)確率可以通過分類混合矩陣來描述,分類混合矩陣中包含了真實的情況和分類器的預(yù)測結(jié)果.

準(zhǔn)確率p和查全率r反映的是分類質(zhì)量的兩個方面,理論上是不相干的,然而實際情況中高準(zhǔn)確率通常是在犧牲查全率的情況下獲得的,因此,引入評估指標(biāo)F1測試值,其定義為

(14)

4.2 測試數(shù)據(jù)集

系統(tǒng)中采用的訓(xùn)練文本集數(shù)據(jù)為SouGou提供的網(wǎng)頁文本集,總類別為10個,分別是文化、郵箱、IT、體育、教育、軍事、色情、黑客、音樂及財經(jīng).測試數(shù)據(jù)集為用戶瀏覽網(wǎng)址下載的相關(guān)網(wǎng)頁文本.

4.3 分類結(jié)果

訓(xùn)練集中每一類別的數(shù)據(jù)采用2 000篇網(wǎng)頁文本作為訓(xùn)練集,總的訓(xùn)練集數(shù)據(jù)為20 000篇網(wǎng)頁文本.測試時,每個類別的網(wǎng)頁分別采用100篇網(wǎng)址進(jìn)行測試,總網(wǎng)址為1 000條URL網(wǎng)址.測試效果如表2所示.

由表2可知,本文采用的網(wǎng)頁預(yù)分類算法具有很高的準(zhǔn)確性,幾種類別的F1值均超過了0.85,郵箱、色情、體育、軍事、黑客及音樂類F1值都在0.9以上,可以滿足分類要求,算法準(zhǔn)確率較高,且分類時間較短.

從表2中還可以看出,文化、教育、IT及財經(jīng)類的分類效果不是很理想,分析其原因可以歸結(jié)為以下幾個方面:

1) 文化、教育類網(wǎng)頁題材內(nèi)容部分重疊,網(wǎng)頁關(guān)鍵詞代表性不夠,導(dǎo)致分類效果不佳;

2) IT類和黑客類區(qū)分度不大,黑客類網(wǎng)站中包含很多IT類知識介紹,內(nèi)容容易混淆,難以區(qū)分;

3) 財經(jīng)類網(wǎng)站特點不明顯,內(nèi)容涉及范圍較廣,因此分類容易出錯.

4.4 用戶行為分析

通過對用戶瀏覽的網(wǎng)址進(jìn)行分類,統(tǒng)計各類網(wǎng)站的瀏覽情況,可以分析出用戶的行為習(xí)慣,如圖4所示.從圖4中可以看出,目標(biāo)用戶網(wǎng)上活動分布較廣,各種頁面內(nèi)容均有涉及,其中對IT和文化類網(wǎng)站瀏覽數(shù)量較多,黑客及色情網(wǎng)站也存在部分瀏覽量.

5 結(jié) 論

本文通過用戶的網(wǎng)頁瀏覽記錄獲取網(wǎng)址內(nèi)容,進(jìn)行網(wǎng)頁分類,挖掘用戶的行為特征.主要創(chuàng)新之處在于:根據(jù)網(wǎng)頁結(jié)構(gòu)特征提出改進(jìn)的單詞權(quán)值計算方法,根據(jù)URL特點提出網(wǎng)頁預(yù)分類算法,二者有機(jī)結(jié)合在一起,可以快速進(jìn)行網(wǎng)址分類.該分類算法可以幫助相關(guān)法證部門分析犯罪分子心理;也可作為商業(yè)服務(wù)為用戶提供喜歡的網(wǎng)站;還可以在高校中為學(xué)生提供個性化服務(wù),具有很強的實用性.

圖4 用戶行為分析Fig.4 Behavior analysis of user

[1] 金一寧,王華兵,王德峰.基于KNN及相關(guān)鏈接的中文網(wǎng)頁分類研究 [J].哈爾濱商業(yè)大學(xué)學(xué)報,2011,27(2):203-206.

(JIN Yi-ning,WANG Hua-bing,WANG De-feng.Research on chinese webpages classification based on k-nearest neighbour algorithm and relative hyperlinks [J].Journal of Harbin University of Commerce,2011,27(2):203-206.)

[2] 許世明,武波,馬翠,等.一種基于預(yù)分類的高效SVM中文網(wǎng)頁分類器 [J].計算機(jī)工程與應(yīng)用,2010,46(1):125-128.

(XU Shi-ming,WU Bo,MA Cui,et al.Efficient SVM chinese web page classifier based on pre-classification [J].Computer Engineering and Applications,2010,46(1):125-128.)

[3] 江國薦,顧乃杰,張旭,等.基于SAE-LBP的網(wǎng)頁分類研究 [J].小型微型計算機(jī)系統(tǒng),2016(4):738-742.

(JIANG Guo-jian,GU Nai-jie,ZHANG Xu,et al.Research on webpage classification based on sparse auto-encoder and layer-wise back propagation [J].Journal of Chinese Computer Systems,2016(4):738-742.)

[4] 代寬,趙輝,韓冬,等.基于向量空間模型的中文網(wǎng)頁主題特征項抽取 [J].吉林大學(xué)學(xué)報(信息科學(xué)版),2014,32(1):88-94.

(DAI Kuan,ZHAO Hui,HAN Dong,et al.Theme feature extraction of chinese webpage based on vector space model [J].Journal of Jilin University (Information Science Edition),2014,32(1):88-94.)

[5] Lee J H,Yeh W C,Chuang M C.Web page classification based on a simplified swarm optimization [J].Applied Mathematics & Computation,2015,270(3):13-24.

[7] 袁津生,毛新武.基于組合特征的中文新聞網(wǎng)頁關(guān)鍵詞提取方法 [J].計算機(jī)工程與應(yīng)用,2014,50(19):222-226.

(YUAN Jin-sheng,MAO Xin-wu.Keyword extraction from chinese news Web pages based on multi-features [J].Computer Engineering and Applications,2014,50(19):222-226.)

[8] 孟海東,肖銀龍,宋宇辰.基于Hadoop的Dirichlet樸素貝葉斯文本分類算法[J].現(xiàn)代電子技術(shù),2016,39(4):29-33.

(MENG Hai-dong,XIAO Yin-long,SONG Yu-chen.Classification algorithm for Dirichlet Naive Bayes text based on Hadoop[J].Modern Electronics Technique,2016,39(4):29-33.)

[9] 潘志文,柏灼,謝政.基于Lucene的Web信息檢索系統(tǒng)設(shè)計與實現(xiàn) [J].軟件導(dǎo)刊,2014(10):88-90.

(PAN Zhi-wen,BAI Zhuo,XIE Zheng.Design and implementation of web information retrieval system based on lucene [J] Software Guide,2014(10):88-90.)

[10]羅芳,李春花,周可,等.基于多屬性的海量Web數(shù)據(jù)關(guān)聯(lián)存儲及檢索系統(tǒng) [J].計算機(jī)工程與科學(xué),2014,36(3):404-410.

(LUO Fang,LI Chun-hua,ZHOU Ke,et al.An associated storage and retrieval system of massive web data based on multi-attributes [J].Computer Engineering & Science,2014,36(3):404-410.)

[11]Zhu J,Xie Q,Wong W H,et al.Exploiting link structure for web page genre identification [J].Data Mining & Knowledge Discovery,2016,30(3):550-575.

[12]周煒,牛連強,王斌.面向社交網(wǎng)絡(luò)的認(rèn)證模型 [J].沈陽工業(yè)大學(xué)學(xué)報,2016,38(5):545-550.

(ZHOU Wei,NIU Lian-qiang,WANG Bin.Authentication models faced on social networks [J].Journal of Shenyang University of Technology,2016,38(5):545-550.)

[13]俞浩亮,王秋森,馮旭鵬,等.基于特征加權(quán)的網(wǎng)絡(luò)不良內(nèi)容識別方法[J].現(xiàn)代電子技術(shù),2016,39(3):76-79.

(YU Hao-liang,WANG Qiu-sen,F(xiàn)ENG Xu-peng,et al.Feature weighting based identification method for network undesirable content[J].Modern Electronics Technique,2016,39(3):76-79.)

[14]Jiang L,Li C,Wang S,et al.Deep feature weighting for naive Bayes and its application to text classification [J].Engineering Applications of Artificial Intelligence,2016,52(3):26-39.

[15]夏莘媛,戴靜,潘用科,等.基于貝葉斯證據(jù)框架下SVM的油層識別模型研究 [J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2016,28(2):260-264.

(XIA Xin-yuan,DAI Jing,PAN Yong-ke,et al.Oil layer recognition model based on SVM within Bayesian evidence framework [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2016,28(2):260-264.)

BehaviorderivationofusersbasedonNaiveBayeswebpageclassification

QIN Peng1, CAO Tian-jie2

(1.Department of Computer Science and Information Technology, Liupanshui Normal University, Liupanshui 553004, China; 2.School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

Aiming at the situation that the accuracy and recall rate of traditional web page classification are not high and the classification efficiency is low, a web page pre-classification algorithm based on Naive Bayes classification was proposed.According to the online activity situation of users, the relevant websites were extracted, the contents and keywords of web pages were analyzed, and the classification was performed with the Naive Bayes algorithm.According to the browse situation of users on various web pages, the behavior characteristics of users were analyzed.The improved web text weight calculation method was adopted, the web site pre-classification mechanism was introduced, and the processing efficiency of data and classification accuracy were improved.The results show that the web site classification algorithm is accurate, can fully explore the interest and preference of users, and can be applied in both the commercial popularization and forensic evidence as the data algorithm for the behavior analysis of users.

web page keyword; Naive Bayes; web page classification; behavior characteristic; weight calculation method; website pre-classification; business promotion; forensic evidence

2017-03-29.

貴州省科學(xué)技術(shù)基金計劃資助項目(20157606);貴州省教育廳青年科技人才成長資助項目(2016267).

秦 鵬(1986-),男,貴州六枝人,講師,碩士,主要從事計算機(jī)人工智能及信息安全等方面的研究.

* 本文已于2017-12-21 14∶47在中國知網(wǎng)優(yōu)先數(shù)字出版.網(wǎng)絡(luò)出版地址:http://kns.cnki.net/kcms/detail/21.1189.T.20171220.1758.010.html

10.7688/j.issn.1000-1646.2018.01.15

TP 181

A

1000-1646(2018)01-0082-06

景 勇 英文審校:尹淑英)

猜你喜歡
行為特征
論使用假幣罪的行為特征
基于老年人游憩行為的城市公園適老化設(shè)計研究
一種基于時間變化的用戶出行和特征的可視化方法研究
消費者社交購物行為特征研究及營銷策略
基于行為分析的木馬檢測系統(tǒng)設(shè)計與實現(xiàn)
基于用戶特征的政府信息主動服務(wù)模式研究
居民休閑度假行為特征及影響因素分析
商(2016年11期)2016-05-04 01:38:02
淺談對自閉癥兒童實施“行為療法”的干預(yù)策略
校企合作中企業(yè)培訓(xùn)的行為特征探析
移動互聯(lián)網(wǎng)技術(shù)下高職學(xué)生思想道德建設(shè)現(xiàn)狀調(diào)查與對策思考
堆龙德庆县| 漳浦县| 青河县| 红桥区| 蓬安县| 林甸县| 仁布县| 九江县| 巴青县| 拜泉县| 临澧县| 东乡| 宜丰县| 三穗县| 泾阳县| 伊春市| 黑龙江省| 绥江县| 名山县| 阿鲁科尔沁旗| 台前县| 连州市| 项城市| 繁昌县| 龙江县| 东丽区| 镇原县| 白玉县| 武平县| 巨鹿县| 南岸区| 西丰县| 乐都县| 红河县| 双鸭山市| 格尔木市| 栾川县| 丽江市| 三穗县| 舟曲县| 乌什县|