李盈潤
摘 要:在對大量Web郵件頁面模式分析的基礎(chǔ)上,對頁面進行分塊,并根據(jù)信息塊的結(jié)構(gòu)與內(nèi)容屬性,實現(xiàn)主題信息塊和主題相關(guān)信息信息塊的析取,對郵件信息的自動獲取和郵件下載系統(tǒng)的設(shè)計與開發(fā)具有重要意義。
關(guān)鍵詞:多策略;頁面分塊;信息提取;郵件下載系統(tǒng)
Web郵件信息析取主要包括頁面、信息塊和郵件詳細信息的提取。本文主要介紹郵件信息塊提取的方法。
1 基于多策略的頁面分塊方法
基于多策略的頁面分塊方法是Web郵件信息自動析取技術(shù)研究的重要組成部分,它的主要工作是根據(jù)Web頁面排版的不同模式實現(xiàn)Web郵件網(wǎng)站的導(dǎo)航頁面,列表頁面及內(nèi)容頁面的信息合理劃分,為主題信息塊的提取做好準備。
基于多策略的頁面分塊方法的關(guān)鍵思想描述如下:
策略1:不同頁面排版類型采用不同的劃分方法。
Web郵件頁面的排版模式主要分為混合型和框架型。對于框架型頁面進行分塊的關(guān)鍵在于框架的識別和主題框架的提取,在此基礎(chǔ)上根據(jù)提取的主題框架URL提交訪問請求并獲取框架內(nèi)的文檔進行下一輪頁面分塊??蚣芡ㄊ褂?/p>