介紹了中文網(wǎng)頁(yè)分類(lèi)的概念和過(guò)程,分析比較了中文網(wǎng)頁(yè)分類(lèi)的主要方法和關(guān)鍵技術(shù),簡(jiǎn)述了實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)方法,并討論了網(wǎng)頁(yè)分類(lèi)研究存在的問(wèn)題和未來(lái)的研究方向.
網(wǎng)頁(yè)分類(lèi)可以幫助用戶從海量的網(wǎng)頁(yè)中迅速、準(zhǔn)確的找出所需要的信息,是有較大實(shí)用價(jià)值的關(guān)鍵技術(shù).網(wǎng)頁(yè)分類(lèi)是在文本分類(lèi)方法的基礎(chǔ)上,充分考慮網(wǎng)頁(yè)自身的一些特點(diǎn)進(jìn)行的,在分類(lèi)時(shí)除了網(wǎng)頁(yè)文本內(nèi)容外,網(wǎng)頁(yè)中所包含的如HTML標(biāo)簽(tag)、主題及超鏈接等半結(jié)構(gòu)化信息都將被考慮利用.而且如何利用網(wǎng)頁(yè)自身的特點(diǎn)來(lái)提高分類(lèi)精度也成為近年來(lái)網(wǎng)頁(yè)分類(lèi)領(lǐng)域研究熱點(diǎn).目前對(duì)于網(wǎng)頁(yè)分類(lèi)有很多研究,本文對(duì)網(wǎng)頁(yè)分類(lèi)的相關(guān)研究做了一個(gè)概述,以便更好地進(jìn)行深入研究.本文將對(duì)網(wǎng)頁(yè)分類(lèi)的過(guò)程、網(wǎng)頁(yè)分類(lèi)的主要方法、網(wǎng)頁(yè)分類(lèi)的關(guān)鍵技術(shù)、網(wǎng)頁(yè)分類(lèi)的實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)方法進(jìn)行概述,并討論了網(wǎng)頁(yè)分類(lèi)研究存在的問(wèn)題和未來(lái)的研究方向.
網(wǎng)頁(yè)分類(lèi)就是根據(jù)預(yù)先定義的類(lèi)別標(biāo)簽,為待分類(lèi)網(wǎng)頁(yè)集合中的每一個(gè)網(wǎng)頁(yè)確定一個(gè)類(lèi)別[1].
網(wǎng)頁(yè)分類(lèi)過(guò)程一般如下:首先通過(guò)訓(xùn)練一定的網(wǎng)頁(yè)集合得到類(lèi)別與未知網(wǎng)頁(yè)的映射規(guī)則,即計(jì)算出網(wǎng)頁(yè)與類(lèi)別的相關(guān)度,再采取一定的閾值策略決定網(wǎng)頁(yè)的類(lèi)別歸屬.分類(lèi)過(guò)程可以分成訓(xùn)練階段和分類(lèi)階段.訓(xùn)練階段首先為預(yù)先確定的分類(lèi)體系中的每個(gè)類(lèi)別人工挑選一定量的樣本,用來(lái)最大程度地體現(xiàn)每個(gè)類(lèi)的特征并區(qū)別不同類(lèi)之間的特征.然后將所有樣本都表示成向量形式,運(yùn)用分類(lèi)算法,建立分類(lèi)器.在分類(lèi)階段中,一個(gè)待分類(lèi)的中文網(wǎng)頁(yè)經(jīng)過(guò)中文分詞并表示成向量后,利用訓(xùn)練階段得到的分類(lèi)器將新網(wǎng)頁(yè)歸到某一個(gè)或幾個(gè)最有可能的類(lèi)別.
國(guó)內(nèi)對(duì)自動(dòng)文本分類(lèi)領(lǐng)域的研究是從九十年代中期開(kāi)始的[2-4],研究也比較成熟,有很多成熟的分類(lèi)算法應(yīng)用于分類(lèi).不過(guò)國(guó)內(nèi)對(duì)于網(wǎng)頁(yè)分類(lèi)的研究就比較薄弱了,北京大學(xué)和清華大學(xué)是較早開(kāi)始研究網(wǎng)頁(yè)分類(lèi)技術(shù)的機(jī)構(gòu),它們各自將網(wǎng)頁(yè)分類(lèi)技術(shù)應(yīng)用在搜索引擎“天網(wǎng)”和“網(wǎng)絡(luò)指南針”上.從2004年6月起,北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室和北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所建立并維護(hù)的信息檢索研究論壇(CWIRF),對(duì)中文網(wǎng)頁(yè)分類(lèi)的研究起了很大推動(dòng)作用[5].目前,研究者們針對(duì)中文網(wǎng)頁(yè)分類(lèi)提出了一些解決方法,一種方法是在網(wǎng)頁(yè)分類(lèi)前,先對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,即將網(wǎng)頁(yè)中所包含的如HTML標(biāo)簽、主題及超鏈接等結(jié)構(gòu)信息去除,然后利用文本分類(lèi)方法對(duì)內(nèi)容信息進(jìn)行分類(lèi)[6].這種分類(lèi)方法的分類(lèi)精度取決于網(wǎng)頁(yè)去噪技術(shù)的優(yōu)劣[7],而且缺陷是:一個(gè)網(wǎng)頁(yè)具體被分到哪一類(lèi),取決于該網(wǎng)頁(yè)中包含了哪些反映自身主題的信息,這樣,當(dāng)網(wǎng)頁(yè)中沒(méi)有包含能說(shuō)明自身主題的關(guān)鍵詞時(shí),如鏈接型網(wǎng)頁(yè),就很難對(duì)其進(jìn)行正確分類(lèi)了.另一種方法是分類(lèi)時(shí)不光考慮純文本信息,還考慮其他半結(jié)構(gòu)化信息,如標(biāo)題、頁(yè)面描述、關(guān)鍵詞和超鏈接等.因?yàn)檫@些半結(jié)構(gòu)化信息中出現(xiàn)的關(guān)鍵詞包含了網(wǎng)頁(yè)的重要信息,對(duì)分類(lèi)有較大的作用,所以可以充分利用這些半結(jié)構(gòu)化信息,通過(guò)調(diào)節(jié)這些關(guān)鍵詞的權(quán)重來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行自動(dòng)分類(lèi).一些研究也驗(yàn)證了這種方法的有效性,Lin Shian Hua等人將網(wǎng)頁(yè)中的信息按照
標(biāo)簽劃分為不同的信息塊,通過(guò)信息熵的計(jì)算將其劃分為有用的或冗余的信息塊,對(duì)冗余信息塊中的特征項(xiàng)賦予較低的權(quán)值,減小它對(duì)分類(lèi)結(jié)果的影響[8].同樣網(wǎng)頁(yè)間的鏈接對(duì)于網(wǎng)頁(yè)分類(lèi)來(lái)說(shuō)蘊(yùn)含著重要的信息,因?yàn)榫W(wǎng)頁(yè)編輯時(shí),這個(gè)網(wǎng)頁(yè)中的鏈接或多或少體現(xiàn)了編輯者對(duì)鏈接頁(yè)面的認(rèn)同,反映了網(wǎng)頁(yè)與鏈接頁(yè)面之間的某種相關(guān)性,大量研究也證明了利用相關(guān)網(wǎng)頁(yè)調(diào)整分類(lèi)結(jié)果可以有效提高分類(lèi)精度.任玉、樊勇等根據(jù)網(wǎng)頁(yè)文本信息的結(jié)構(gòu)和內(nèi)容特征,提出一種網(wǎng)頁(yè)主題文本信息的抽取策略,將網(wǎng)頁(yè)文檔表示為DOM標(biāo)簽樹(shù)的形式,然后根據(jù)Web頁(yè)面的結(jié)構(gòu)特征進(jìn)行內(nèi)容塊的分割,以網(wǎng)頁(yè)的文本內(nèi)容特征為依據(jù)識(shí)別鏈接型和主題型內(nèi)容塊,并提取主題型網(wǎng)頁(yè)的文本信息塊,有效地實(shí)現(xiàn)了鏈接型和主題型網(wǎng)頁(yè)的分類(lèi)[9];Yang Y、Glover EJ、Furnkranz J、Kan MY[10-13]等人在各自研究中利用超鏈接中的錨詞(anchor word)或其周?chē)脑~語(yǔ)(擴(kuò)展錨詞)作為特征來(lái)表達(dá)超鏈接所指向的文本;郭淼霞、吳揚(yáng)揚(yáng)提出基于Web超鏈接結(jié)構(gòu)信息的網(wǎng)頁(yè)分類(lèi)方法,充分利用WEB結(jié)構(gòu)信息,提高分類(lèi)精度[14].也有研究者認(rèn)為網(wǎng)頁(yè)是包含噪音信息的半結(jié)構(gòu)化文本,所以可以將網(wǎng)頁(yè)分類(lèi)看成是噪音環(huán)境下的文本分類(lèi),研究[1]通過(guò)對(duì)比實(shí)驗(yàn),找到了一種抗噪音的網(wǎng)頁(yè)分類(lèi)算法.目前,在分類(lèi)時(shí),如何恰當(dāng)?shù)乇硎揪W(wǎng)頁(yè)的結(jié)構(gòu)化信息,是一個(gè)仍需繼續(xù)研究的問(wèn)題,而且.人們對(duì)網(wǎng)頁(yè)分類(lèi)的研究也從傳統(tǒng)的基于網(wǎng)頁(yè)內(nèi)容轉(zhuǎn)向利用網(wǎng)頁(yè)的內(nèi)部結(jié)構(gòu)及外部鏈接關(guān)系.3 網(wǎng)頁(yè)分類(lèi)關(guān)鍵技術(shù)
3.1 預(yù)處理技術(shù)
在網(wǎng)頁(yè)分類(lèi)研究中,網(wǎng)頁(yè)預(yù)處理是一個(gè)很重要的步驟,對(duì)網(wǎng)頁(yè)的預(yù)處理過(guò)程主要涉及噪音去除和主題相關(guān)信息提取等技術(shù).Lan Yi將網(wǎng)頁(yè)噪音分為全局噪音和局部噪音[15].一般分類(lèi)研究只涉及局部噪音的去除.網(wǎng)頁(yè)去噪的方法主要有:基于啟發(fā)式方法、基于機(jī)器學(xué)習(xí)方法以及在機(jī)器學(xué)習(xí)方法中采用啟發(fā)式規(guī)則輔助的方法[16].基于啟發(fā)式方法是通過(guò)一些啟發(fā)式的規(guī)則判斷網(wǎng)頁(yè)中哪些是有用信息,哪些是噪音信息[7],不過(guò)因?yàn)榫W(wǎng)頁(yè)格式的多樣性,基于啟發(fā)式方法通用性不強(qiáng),效果往往不能令人滿意.目前,研究者大多使用在機(jī)器學(xué)習(xí)方法中采用啟發(fā)式規(guī)則輔助的方法進(jìn)行去噪.王建冬提出一種基于內(nèi)容規(guī)則的網(wǎng)頁(yè)凈化算法.先通過(guò)迭代的方式對(duì)于網(wǎng)頁(yè)中的噪聲內(nèi)容進(jìn)行剝離,又提出一種基于修正的編輯距離的計(jì)算錨文本的主題相似性的算法,該方法在一定程度上考慮了網(wǎng)頁(yè)的語(yǔ)義因素[17].Yi Lan將同一個(gè)網(wǎng)站上各網(wǎng)頁(yè)的DOM樹(shù)進(jìn)行合并壓縮,形成CST(Compressed Structure Tree),用以發(fā)現(xiàn)和去除網(wǎng)頁(yè)中的噪聲,并根據(jù)CSS樹(shù)對(duì)處于不同位置的特征賦予不同的權(quán)值,以提高分類(lèi)的精度[18].萬(wàn)樂(lè)等提出提出了一種基于主題的網(wǎng)頁(yè)噪音去除算法,通過(guò)構(gòu)造網(wǎng)頁(yè)DOM樹(shù)的一個(gè)變種,即內(nèi)容塊樹(shù),利用分類(lèi)器判斷網(wǎng)頁(yè)的噪音塊,該方法噪音去除精度是87%[19].Ji Xiang-wen等提出了一種基于樹(shù)相似度的模板生成方法,并將生成模板用于頁(yè)面結(jié)構(gòu)信息的提取,其模板生成較為復(fù)雜,在提取簡(jiǎn)單頁(yè)面信息時(shí)代價(jià)過(guò)大[20].
對(duì)于主題相關(guān)信息的提取,一般和去噪同時(shí)進(jìn)行,任玉、樊勇等提出一種網(wǎng)頁(yè)主題文本信息的抽取策略,以網(wǎng)頁(yè)的文本內(nèi)容特征為依據(jù)識(shí)別鏈接型和主題型內(nèi)容塊,能準(zhǔn)確地完成主題型網(wǎng)頁(yè)的文本信息塊的抽取任務(wù)[9].文獻(xiàn)[14]在去噪的同時(shí)提取文本信息和超鏈接信息,所提取信息對(duì)分類(lèi)精度的提高,均在分類(lèi)試驗(yàn)中得到驗(yàn)證.
3.2 文本模型
向量空間模型(VSM)是基于統(tǒng)計(jì)的網(wǎng)頁(yè)分類(lèi)系統(tǒng)中廣泛采用的文本計(jì)算模型.向量空間模型可以將給定的文本轉(zhuǎn)換成一個(gè)維數(shù)很高的向量.向量空間模型最突出的特點(diǎn)是可以方便的計(jì)算出兩個(gè)向量的相似度,即向量所對(duì)應(yīng)的文本的相似性.目前VSM仍是文本表示的主要方法,也有研究者進(jìn)行新的嘗試.曾致遠(yuǎn)、張莉提出一種新的文本表示算法,應(yīng)用在網(wǎng)頁(yè)文本過(guò)濾系統(tǒng)中.比起傳統(tǒng)的向量空間模型,這種建立在其上的改進(jìn)算法有更快的過(guò)濾速度和更高的過(guò)濾精度.該算法直接從過(guò)濾模板的特征集中取出詞條,只在網(wǎng)頁(yè)文本出現(xiàn)該詞的地方進(jìn)行精確處理.根據(jù)特征項(xiàng)所在的網(wǎng)頁(yè)標(biāo)簽,賦予不同的權(quán)值系數(shù),以準(zhǔn)確定義特征詞在文中的重要程度,最后建立該網(wǎng)頁(yè)的文本表示模型[21].目前為止,非VSM的表示在理論上的合理性及面對(duì)實(shí)際應(yīng)用的可擴(kuò)展性還需要深入驗(yàn)證,適合它們的分類(lèi)方法比較單一,而且未得到廣泛的應(yīng)用.
3.3 特征選擇
特征選擇是網(wǎng)頁(yè)分類(lèi)過(guò)程中的關(guān)鍵技術(shù).特征選擇的主要方法是利用數(shù)學(xué)工具降低模式維數(shù),尋找最有效的特征構(gòu)成較低維數(shù)的模式向量.中文文本分類(lèi)的特征空間所采取的特征選擇算法一般是構(gòu)造一個(gè)評(píng)價(jià)函數(shù),對(duì)特征集中的每個(gè)特征進(jìn)行獨(dú)立的評(píng)估.這樣每個(gè)特征都獲得一個(gè)評(píng)估分,然后對(duì)所有的特征按照其評(píng)估分的大小進(jìn)行排序,選取預(yù)定數(shù)目的最佳特征作為結(jié)果的特征子集.所以,選取多少個(gè)最佳特性以及采用什么評(píng)價(jià)函數(shù),都需要針對(duì)某一個(gè)具體的問(wèn)題通過(guò)試驗(yàn)來(lái)決定.常用的評(píng)估函數(shù)有:特征頻度(Term Frequency)、文檔頻度(DocumentFrequency)、特征熵(Term Entropy)、互信息(Multi Information)、信息增益(Information Gain)、X2統(tǒng)計(jì)量(Chi square)、特征權(quán)(Term Strength)、期望交叉熵(Expected Cross Entropy)、文本證據(jù)權(quán)(Weight of Evidence for Text)、幾率比(Odds Ratio)等.這些評(píng)估函數(shù)從不同的角度度量特征對(duì)分類(lèi)所起的作用,以上方法各有利弊,沒(méi)有哪種方法對(duì)分類(lèi)效果有絕對(duì)優(yōu)勢(shì),這是因?yàn)槲谋痉诸?lèi)本身涉及到訓(xùn)練數(shù)據(jù)集合本身的特點(diǎn),同時(shí)不同的分類(lèi)器對(duì)文本分類(lèi)的效果也不盡相同.
在網(wǎng)頁(yè)分類(lèi)研究中,研究者們往往根據(jù)網(wǎng)頁(yè)特點(diǎn),對(duì)傳統(tǒng)特征提取算法做相應(yīng)改進(jìn),以適應(yīng)網(wǎng)頁(yè)分類(lèi)需要.谷峰提出了一種基于序列數(shù)據(jù)挖掘的中文網(wǎng)頁(yè)候選特征的選擇方法,該方法運(yùn)用改進(jìn)的 PAT樹(shù)結(jié)構(gòu)挖掘頻繁出現(xiàn)在同一類(lèi)中文網(wǎng)頁(yè)中的字符串,通過(guò)凈頻率計(jì)算,挖掘出中文網(wǎng)頁(yè)中頻繁出現(xiàn)的有意義的詞、短語(yǔ)、英文單詞等,該算法不僅能挖掘出傳統(tǒng)方法所選擇出的絕大部分特征,還能挖掘出一些有意義的、切詞系統(tǒng)詞庫(kù)中沒(méi)有的、能反映分類(lèi)特點(diǎn)的人名,地名,新詞、常用語(yǔ)、外文單詞等[6].李會(huì)、王立峰提出了一種特征選擇方法:首先計(jì)算文本的特征值,每個(gè)特征值被賦予一個(gè)權(quán)重值,權(quán)重值的大小表示文本特征的重要程度,權(quán)重值最大的特征為決定性特征,決定性特征能代表某一類(lèi);然后通過(guò)構(gòu)造樹(shù)結(jié)構(gòu)模型來(lái)消除噪音文本,同時(shí)還可以降低計(jì)算復(fù)雜度;最后改進(jìn)該算法,動(dòng)態(tài)的檢測(cè)相對(duì)于當(dāng)前節(jié)點(diǎn)的最佳節(jié)點(diǎn)更有利于進(jìn)行特征選擇.實(shí)驗(yàn)結(jié)果表明,該方法具有較高的分類(lèi)精度,且計(jì)算成本較低,符合規(guī)模Web自動(dòng)分類(lèi)的需要[22].目前對(duì)于特征選擇方法的研究要針對(duì)于中文網(wǎng)頁(yè)的特點(diǎn),結(jié)合特定的分類(lèi)算法進(jìn)行.
3.4 網(wǎng)頁(yè)分類(lèi)算法
網(wǎng)頁(yè)分類(lèi)算法大都來(lái)自文本分類(lèi)算法,常用的網(wǎng)頁(yè)分類(lèi)算法有以下幾種:kNN 算法、NB(Na觙ve Bayes)算法、基于SVM的分類(lèi)算法、遺傳算法(GA)、Rocchio算法等.這些算法在文本分類(lèi)中都有較好分類(lèi)效果,但是直接應(yīng)用于網(wǎng)頁(yè)分類(lèi)時(shí),效果就差強(qiáng)人意了,這是因?yàn)榫W(wǎng)頁(yè)是包含噪音信息的半結(jié)構(gòu)化文本.有研究者嘗試尋找能抗噪音的分類(lèi)算法,王小冷、王斌把在傳統(tǒng)文本分類(lèi)中性能基本相當(dāng)?shù)幕贜-gram模型的貝葉斯(NGBayes)、基于分詞的樸素貝葉斯(Nbayes)和基于分詞的k近鄰kNN 分類(lèi)方法應(yīng)用到網(wǎng)頁(yè)分類(lèi)領(lǐng)域,通過(guò)實(shí)驗(yàn)證明NGBayes的分類(lèi)性能遠(yuǎn)高于其他兩種算法,是一種抗噪音的中文網(wǎng)頁(yè)分類(lèi)方法[1].但是更多的研究者則是充分利用各種分類(lèi)算法的特點(diǎn),結(jié)合多種分類(lèi)算法進(jìn)行分類(lèi),以提高分類(lèi)精度.劉曉勇將遺傳算法(GA)和支撐向量機(jī)(SVM)結(jié)合起來(lái),利用遺傳算法良好的尋優(yōu)能力優(yōu)化SVM的分類(lèi)性能,實(shí)驗(yàn)表明,新算法的分類(lèi)正確率較SVM有顯著提高[23].
4 網(wǎng)頁(yè)分類(lèi)實(shí)驗(yàn)與方法
4.1 采用的實(shí)驗(yàn)數(shù)據(jù)集
目前,由于沒(méi)有統(tǒng)一的數(shù)據(jù)集,大多研究者在研究中均采用自己建立的數(shù)據(jù)集做實(shí)驗(yàn)和研究基礎(chǔ),郭淼霞等從互聯(lián)網(wǎng)上收集組成了實(shí)驗(yàn)數(shù)據(jù)集,包括126個(gè)財(cái)經(jīng)類(lèi)網(wǎng)頁(yè)、114個(gè)旅游類(lèi)網(wǎng)頁(yè)、101個(gè)中醫(yī)類(lèi)網(wǎng)頁(yè),共3個(gè)類(lèi)別,341個(gè)網(wǎng)頁(yè),以及從www.yahoo.com.cn搜索引擎上下載的它們的鄰居網(wǎng)頁(yè),共1705個(gè)網(wǎng)頁(yè).從而在這個(gè)數(shù)據(jù)集上作相關(guān)的實(shí)驗(yàn)[14].不過(guò),幸運(yùn)的是,目前已有一些研究機(jī)構(gòu)開(kāi)始建立數(shù)據(jù)集,供研究者使用.從2004年開(kāi)始,北京大學(xué)中文WEB信息檢索論壇提供數(shù)據(jù)集CCT2006和CCT2002-V1.1供研究者進(jìn)行分類(lèi)實(shí)驗(yàn),已有很多研究[1,6,7]采用該數(shù)據(jù)集做實(shí)驗(yàn)和研究基礎(chǔ).也有相關(guān)研究[19]以sogou labs提供的語(yǔ)料庫(kù)為研究基礎(chǔ).不過(guò)由于目前還沒(méi)有形成統(tǒng)一、標(biāo)準(zhǔn)的數(shù)據(jù)集,所以各研究的實(shí)驗(yàn)結(jié)果沒(méi)有可比性和可重復(fù)性,不便于交流與提高.
4.2 采用試驗(yàn)方法
網(wǎng)頁(yè)分類(lèi)中評(píng)估分類(lèi)效果常用的評(píng)估指標(biāo)[24]有:準(zhǔn)確率、查全率和F1測(cè)試值,另外還有微平均,宏平均評(píng)估指標(biāo).準(zhǔn)確率和查全率反映了分類(lèi)質(zhì)量的兩個(gè)不同方面,結(jié)合兩者提出一些綜合評(píng)估指標(biāo),像F1測(cè)試值.微平均指計(jì)算每一類(lèi)的準(zhǔn)確率、查全率和F1值.宏平均指計(jì)算全部類(lèi)的準(zhǔn)確率、查全率和F1值.
網(wǎng)頁(yè)分類(lèi)研究大多數(shù)都采用這些指標(biāo)評(píng)估分類(lèi)效果,研究[1]利用MacroF1評(píng)估分類(lèi)效果,研究[14]采用準(zhǔn)確率、查全率和F1值評(píng)估分類(lèi)效果,研究[22]利用正確率對(duì)分類(lèi)效果進(jìn)行評(píng)估.
5 存在問(wèn)題和研究展望
中文網(wǎng)頁(yè)分類(lèi)是實(shí)用的關(guān)鍵技術(shù),可以幫助用戶避開(kāi)互聯(lián)網(wǎng)上繁雜的信息,準(zhǔn)確找到所需要的信息.由于中文網(wǎng)頁(yè)的特點(diǎn)所限,目前中文網(wǎng)頁(yè)分類(lèi)技術(shù)的研究還很薄弱,需要解決的問(wèn)題還有很多,首先由于沒(méi)有統(tǒng)一、標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)集,導(dǎo)致實(shí)驗(yàn)結(jié)果沒(méi)有可比性和交流不便.所以建立統(tǒng)一、標(biāo)準(zhǔn)的數(shù)據(jù)集勢(shì)必會(huì)促進(jìn)中文網(wǎng)頁(yè)分類(lèi)的研究.其次特征選擇要針對(duì)于中文網(wǎng)頁(yè)的特點(diǎn),結(jié)合特定的分類(lèi)算法進(jìn)行更深入的研究.最后,如何有效地利用Web頁(yè)面的鏈接結(jié)構(gòu)信息對(duì)文檔進(jìn)行表示和分類(lèi)也是需繼續(xù)研究的課題.
6 結(jié)束語(yǔ)
本文對(duì)網(wǎng)頁(yè)分類(lèi)的過(guò)程、主要方法、關(guān)鍵技術(shù)、實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)方法進(jìn)行了概述,討論了網(wǎng)頁(yè)分類(lèi)研究存在的問(wèn)題和未來(lái)的研究方向.
〔1〕王小冷,王斌.一種抗噪音的中文網(wǎng)頁(yè)分類(lèi)方法[J].中文信息學(xué)報(bào),2007,21(4):48-54.
〔2〕吳軍,王作英,等.漢語(yǔ)語(yǔ)料的自動(dòng)分類(lèi)[J].中文信息學(xué)報(bào),1995,9(4):27-32.
〔3〕黃萱菁,吳立德.基于向量空間模型的文檔分類(lèi)系統(tǒng)[J].模式識(shí)別與人工智能,1998,11(2):147-153.
〔4〕鄒濤,王繼成,黃源.中文文檔自動(dòng)分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),1999,13(3):26-32.
〔5〕HTTP://www.cw irf.org/.
〔6〕谷峰,劉晨曦,吳揚(yáng)揚(yáng).基于序列數(shù)據(jù)挖掘的中文網(wǎng)頁(yè)特征選擇方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2006,41(3):95-98.
〔7〕劉晨曦,吳揚(yáng)揚(yáng).一種基于塊分析的網(wǎng)頁(yè)去噪音方法[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2007,25(2):61-63.
〔8〕Lin Shian-Hua,Ho Jan-M ing.Discovering Informative Content Blocks from W eb Documents[A].Proceedings of theeighth ACM SIGKDD International Conference on Know led geDiscovery&Data M ining[C].New York,USA:[s.n.],2002.588-593.
〔9〕任玉,樊勇,鄭家恒.基于分塊的網(wǎng)頁(yè)主題文本抽取[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2009,27(1):141-144.
〔10〕Yang Y,Slattery S,Ghani R.A study of approaches to hypertext categorization.Journal of Intelligent Information Systems,2002,18(2-3):219-241.
〔11〕Glover EJ,Tsioutsiouliklis K,Law rence S,Pennock DM,Flake GW.Using web structure for classifying and describing Web pages.In:Proc.of the Int’l Conf.on the W orld W ide W eb(WWW-2002).Honolulu:ACMPress,2002.562-569.
〔12〕Furnkranz J.Exploiting structural information for text classification on the WWW.In:Hand DJ,Kok JN,Berthold MR,eds.Proc.of the Advances in Intelligent Data Analysis.Springer-Verlag,1999.487-497.
〔13〕Kan MY,Thi HON.Fast Webpage classification using URL features.In:O tthein H,Hans JS,Norbert F,Abdur C,W ilfried T,eds.Proc.of the 14th ACM Conf.on Information and Know ledge Management(CIKM-05).Bremen:ACM Press,2005.325-326.
〔14〕郭淼霞,吳揚(yáng)揚(yáng).基于W eb超鏈接結(jié)構(gòu)信息的網(wǎng)頁(yè)分類(lèi)技術(shù)研究[J].泉州師范學(xué)院學(xué)報(bào),2008,26(4):25-29.
〔15〕Lan Yi,Bing Liu,Xiaoli Li.Eliminating noisy information in W eb Pages for data mining[C]//Proc of the 9th ACM SIGKDD Int Conf on Know ledge Discovery and Data M ining.New York:ACM,2003:296-305.
〔16〕毛先領(lǐng),何靖,閆宏飛.網(wǎng)頁(yè)去噪:研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2010,47(12):2025,2036.
〔17〕王建冬,王繼民,田飛佳.一種基于內(nèi)容規(guī)則的網(wǎng)頁(yè)去噪算法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008,162(3):51-54.
〔18〕Yi Lan,Liu Bing.W eb Page Cleaning for W eb M ining throughFeature W eighting[A].Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence( IJCAI-03 [C].Acapulco,Mexico:[s.n.],2003.654-656.
〔19〕萬(wàn)樂(lè),左萬(wàn)利,高金.基于主題的網(wǎng)頁(yè)噪音去除機(jī)制[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(8):2072-2084.
〔20〕JIXiang-wen,ZENGJian-ping,ZHANG Shi-yong,et al.Tag tree template for Web information and schema extraction [J].Expert Systems w ith Applications,2010,3(12):8492-8498.
〔21〕曾致遠(yuǎn),張莉.基于向量空間模型的網(wǎng)頁(yè)文本表示改進(jìn)算法[J].計(jì)算機(jī)工程,2006,32(3):134-139.
〔22〕李會(huì),王立峰.W eb網(wǎng)頁(yè)文本特征選擇方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(16):3724-3727.
〔23〕劉曉勇.基于GA與SVM融合的網(wǎng)頁(yè)分類(lèi)算法[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,29(5):953-955.
〔24〕Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization.KDD-2000 Sixth ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Boston,MA,UA,2000.
TP391.1
A
1673-260X(2011)12-0051-03
库车县|
南阳市|
岗巴县|
长阳|
康马县|
台山市|
文水县|
怀化市|
瑞昌市|
西充县|
松桃|
康平县|
色达县|
金沙县|
江达县|
高雄市|
阳高县|
苏尼特右旗|
萨迦县|
叶城县|
阳泉市|
岢岚县|
万源市|
古田县|
平乡县|
石棉县|
壶关县|
麻栗坡县|
宁远县|
河西区|
沂水县|
永善县|
手游|
无为县|
鹤庆县|
阳高县|
罗田县|
定西市|
青铜峡市|
玛曲县|
罗甸县|