傅向華 馮博琴 馬兆豐 何 明
摘要:將Web爬行看作執(zhí)行序列動(dòng)作的過程,結(jié)合改進(jìn)的快速Q(mào)學(xué)習(xí)和半監(jiān)督貝葉斯分類器,提出一種新的具有在線增量自學(xué)習(xí)能力的聚焦爬行方法.該方法從獲取的頁面中抽取特征文本,根據(jù)特征文本評(píng)估頁面的主題相關(guān)性,預(yù)測鏈接的Q值,然后基于Q值過濾無關(guān)鏈接.當(dāng)?shù)玫街黝}相關(guān)頁面時(shí)產(chǎn)生回報(bào),將回報(bào)沿鏈接鏈路反饋,更新鏈路上所有鏈接的Q值,并選擇相應(yīng)的特征文本作為訓(xùn)練樣本,增量地改善主題評(píng)估器和Q值預(yù)測器.實(shí)驗(yàn)結(jié)果表明,該方法具有很快的自學(xué)習(xí)能力,獲取的頁面數(shù)目和精度均優(yōu)于離線聚焦爬行方法,更符合Web資源發(fā)現(xiàn)的要求.關(guān)鍵詞:資源發(fā)現(xiàn);聚焦爬行;在線學(xué)習(xí);半監(jiān)督學(xué)習(xí)中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0253—987X(2004)06—0599—04