薛永大
摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上豐富的網(wǎng)頁(yè)數(shù)據(jù)為各種應(yīng)用研究提供了海量信息,網(wǎng)頁(yè)分類是信息組織管理和信息檢索的重要技術(shù)。隨著最近幾年的不斷研究,網(wǎng)頁(yè)分類技術(shù)又有了新發(fā)展,文章首先對(duì)網(wǎng)頁(yè)預(yù)處理、特征選擇與提取、網(wǎng)頁(yè)表示模型、分類算法和評(píng)價(jià)指標(biāo)等基礎(chǔ)技術(shù)的研究動(dòng)態(tài)進(jìn)行了歸納和總結(jié);其次,對(duì)近年來(lái)網(wǎng)頁(yè)分類方法的新進(jìn)展綜述分析;最后,文章對(duì)研究中面臨的主要挑戰(zhàn)和發(fā)展趨勢(shì)進(jìn)行了討論和展望。
關(guān)鍵詞:網(wǎng)頁(yè)分類;網(wǎng)頁(yè)模型;特征提??;分類算法;評(píng)估指標(biāo)