摘要:使用STU-DOM這種網(wǎng)頁提取技術(shù),在實際操作過程中,在對不含超級鏈接的網(wǎng)頁噪音進行判斷時,準確性較低,同時,這種技術(shù)也不能有效處理DIV、TABLE標簽中的正文信息。這是一種效果比較差的網(wǎng)頁去噪技術(shù)。本文針對STU-DOM樹在提取網(wǎng)頁過程中出現(xiàn)的相關(guān)問題,比較分析當前幾種常見的技術(shù)方法,在此基礎(chǔ)上使用合適的技術(shù)升級擴展STU-DOM樹,通過計算網(wǎng)頁標題與結(jié)點詞共現(xiàn)頻率,然后分析文本間的相似度,得到標題與文本距離,實現(xiàn)網(wǎng)頁正文提取。實驗結(jié)果證明,該去噪方法能夠有效去除網(wǎng)頁噪音。
關(guān)鍵詞:網(wǎng)頁去噪 STU-DOM 詞共現(xiàn)
0 引言
隨著計算機技術(shù)的迅猛發(fā)展及計算機廣泛應(yīng)用于社會生活的各個領(lǐng)域,我們正步入一個信息化的時代。目前學(xué)界對網(wǎng)頁數(shù)據(jù)的應(yīng)用研究很多,例如WEB數(shù)據(jù)的深度挖掘、不同的搜索引擎等。從技術(shù)上來看網(wǎng)頁數(shù)據(jù)包含各種內(nèi)容,如廣告、導(dǎo)航等,然而對于不同的研究,沒必要包含所有的內(nèi)容,本文將通過計算標題與文本距離來實現(xiàn)網(wǎng)頁去噪。
1 相關(guān)基本概念解析
STU結(jié)點:
該結(jié)點從基本理論上來說,只是一種語義文本單元。在具體應(yīng)用過程中,STU結(jié)點和塊之間是一一對應(yīng)的。
STU-DOM樹:
STU-DOM樹是由經(jīng)過添加描述語義的DOM樹而生成的。
塊:
在HTML網(wǎng)頁中,根據(jù)網(wǎng)頁不同特點而劃分出的不同區(qū)域,這些不同的區(qū)域,就稱之為塊。
解析:
將HTML文檔轉(zhuǎn)化為DOM樹的過程稱之為解析。
局部閾值:
由塊內(nèi)鏈接和內(nèi)容決定,其計算公式
LocalCorrelativity(STUi)= (1)
LinkCount(STUi)=LinkCount(STUcij) (2)
ContentLength(STUi)=ContentLength(STUi)(3)
其中,STUcij表示STUi的第j棵子樹,LinkCount(STUi)是STUi的linkcount屬性值。
詞共現(xiàn):簡單來說,它指的是在不同的兩個網(wǎng)頁文本中,相同的詞匯共同出現(xiàn),通??梢杂眠@個相同詞匯出現(xiàn)的頻率來分析文本相似度的高低。
2 算法描述
在本論文使用的網(wǎng)頁正文信息提取系統(tǒng)中,共計包含如下五個步驟:HTML解析、HTML分塊、語義分析器、剪枝器、正文提取器。
第一步:HTML解析。在這個過程中,主要是找到HTML與DOM樹的映射關(guān)系,并在這種映射關(guān)系確定的前提下,按照正確的方法,STU樹與DOM樹之間的精確結(jié)合。在這個過程中,需要使用解析器(Html Parser),解析器在這一步的主要功能是解析HTML文檔,在順利將HTML文檔解析后,才可以將其轉(zhuǎn)化為DOM樹。
第二步:HTML分塊。與第一步不同的是,在這一步的主要過程中,要使用到分塊器,通過分塊器來實現(xiàn)對語義分析器的調(diào)用,然后再向節(jié)點添加語義的基本屬性,同時還需要把DOM樹轉(zhuǎn)化為STU-DOM樹,讓添加語義的節(jié)點作為STU結(jié)點。這一基本過程,在分塊后給節(jié)點添加的語義信息模式如下圖1所示。
第三步:語義分析器。這一步要對語義信息塊中的非鏈接文字總數(shù)和鏈接總數(shù)進行精確計算,在此基礎(chǔ)上,在STU-DOM中對應(yīng)子樹中的非鏈接文字總數(shù)和鏈接總數(shù),分別用contentlength和linkcount屬性表示。
第四步:剪枝器。這一步用到的是遞歸算法思想,依照這種算法思想,進行粗剪枝。
局部閾值為Lcm,如果LocalCorrelativity(STUi)>Lcm (取值為>0.03),則對其進行剪枝。
圖2 網(wǎng)頁提取算法流程
第五步:正文提取器。算法思想:用遞歸方法提取TABLE或DIV標簽下的文本結(jié)點的內(nèi)容,通過計算標題與結(jié)點詞共現(xiàn)頻率及文本間相似度實現(xiàn)正文內(nèi)容的提取。
設(shè)文本一中所包含的詞語為{t1,t2,…,ti…,tn}。則文本一可用一個n維向量W={W1,W2,…,Wi…,Wn}表示。
3 實驗結(jié)果
為了有效測試本方法的性能,設(shè)置兩組測試。
第一組實驗:利用上述方法對網(wǎng)頁(圖3)進行有效信息的抽取,結(jié)果如圖4所示。
圖3 網(wǎng)頁實例
第二組實驗:本組實驗的實驗對象,是YQ-CCT-2006-
03的部分語料,在該實驗中,局部閾值取值為0.03,文本相似度取值為0.1。這是經(jīng)過實驗評估后,獲得較好的效果。
提取結(jié)果如下:
圖4 網(wǎng)頁提取結(jié)果圖
準確率=正確提取的網(wǎng)頁數(shù)/總網(wǎng)頁數(shù)
表1 網(wǎng)頁提取實驗結(jié)果
從以上的實驗結(jié)果可以得知,這種基于標題與結(jié)點詞共現(xiàn)頻率及文本間相似度的網(wǎng)頁去噪方法,能夠很高效的提取網(wǎng)頁正文內(nèi)容。其還具有完整的保存網(wǎng)頁主題內(nèi)容這一優(yōu)點,在進行的實驗中平均準確率達到了94.9%,平均處理速度達到了14.8s/網(wǎng)頁。
4 結(jié)束語
隨著Web的迅速發(fā)展,許多研究如信息檢索、數(shù)據(jù)挖掘等由傳統(tǒng)領(lǐng)域轉(zhuǎn)到了Web上。面對充滿了噪音的網(wǎng)頁,如何去除網(wǎng)頁上的噪音對于提高信息檢索、網(wǎng)頁分類的研究效果至關(guān)重要。實驗結(jié)果顯示,本文提出的方法,有效去除網(wǎng)頁噪音,保留了正文內(nèi)容。
參考文獻:
[1]S Gupta,G Kaiser,D Neistadt. DOM-based content extraction of HTML documents.In:Proc of the 12th International World Wide Web Conf.New York:ACM Press,2003.207-214.
[2]王琦,唐世渭,楊冬青,王騰蛟.基于DOM的網(wǎng)頁主體信息自動提取[J].計算機研究與發(fā)展,2004,42(10):1786-1792.
[3]趙欣欣,索紅光,劉玉樹.基于標記窗的網(wǎng)頁正文信息提取方法[J].計算機應(yīng)用研究,2007,24(3):143-145.
[4]丁寶瓊,謝遠平,吳瓊.基于改進DOM樹的網(wǎng)頁去噪聲方法[J].計算機應(yīng)用,2009,29(6):175-177.
作者簡介:
蘇秀芝(1981-),女,山東日照人,助教,碩士,研究方向:數(shù)據(jù)挖掘。endprint
摘要:使用STU-DOM這種網(wǎng)頁提取技術(shù),在實際操作過程中,在對不含超級鏈接的網(wǎng)頁噪音進行判斷時,準確性較低,同時,這種技術(shù)也不能有效處理DIV、TABLE標簽中的正文信息。這是一種效果比較差的網(wǎng)頁去噪技術(shù)。本文針對STU-DOM樹在提取網(wǎng)頁過程中出現(xiàn)的相關(guān)問題,比較分析當前幾種常見的技術(shù)方法,在此基礎(chǔ)上使用合適的技術(shù)升級擴展STU-DOM樹,通過計算網(wǎng)頁標題與結(jié)點詞共現(xiàn)頻率,然后分析文本間的相似度,得到標題與文本距離,實現(xiàn)網(wǎng)頁正文提取。實驗結(jié)果證明,該去噪方法能夠有效去除網(wǎng)頁噪音。
關(guān)鍵詞:網(wǎng)頁去噪 STU-DOM 詞共現(xiàn)
0 引言
隨著計算機技術(shù)的迅猛發(fā)展及計算機廣泛應(yīng)用于社會生活的各個領(lǐng)域,我們正步入一個信息化的時代。目前學(xué)界對網(wǎng)頁數(shù)據(jù)的應(yīng)用研究很多,例如WEB數(shù)據(jù)的深度挖掘、不同的搜索引擎等。從技術(shù)上來看網(wǎng)頁數(shù)據(jù)包含各種內(nèi)容,如廣告、導(dǎo)航等,然而對于不同的研究,沒必要包含所有的內(nèi)容,本文將通過計算標題與文本距離來實現(xiàn)網(wǎng)頁去噪。
1 相關(guān)基本概念解析
STU結(jié)點:
該結(jié)點從基本理論上來說,只是一種語義文本單元。在具體應(yīng)用過程中,STU結(jié)點和塊之間是一一對應(yīng)的。
STU-DOM樹:
STU-DOM樹是由經(jīng)過添加描述語義的DOM樹而生成的。
塊:
在HTML網(wǎng)頁中,根據(jù)網(wǎng)頁不同特點而劃分出的不同區(qū)域,這些不同的區(qū)域,就稱之為塊。
解析:
將HTML文檔轉(zhuǎn)化為DOM樹的過程稱之為解析。
局部閾值:
由塊內(nèi)鏈接和內(nèi)容決定,其計算公式
LocalCorrelativity(STUi)= (1)
LinkCount(STUi)=LinkCount(STUcij) (2)
ContentLength(STUi)=ContentLength(STUi)(3)
其中,STUcij表示STUi的第j棵子樹,LinkCount(STUi)是STUi的linkcount屬性值。
詞共現(xiàn):簡單來說,它指的是在不同的兩個網(wǎng)頁文本中,相同的詞匯共同出現(xiàn),通??梢杂眠@個相同詞匯出現(xiàn)的頻率來分析文本相似度的高低。
2 算法描述
在本論文使用的網(wǎng)頁正文信息提取系統(tǒng)中,共計包含如下五個步驟:HTML解析、HTML分塊、語義分析器、剪枝器、正文提取器。
第一步:HTML解析。在這個過程中,主要是找到HTML與DOM樹的映射關(guān)系,并在這種映射關(guān)系確定的前提下,按照正確的方法,STU樹與DOM樹之間的精確結(jié)合。在這個過程中,需要使用解析器(Html Parser),解析器在這一步的主要功能是解析HTML文檔,在順利將HTML文檔解析后,才可以將其轉(zhuǎn)化為DOM樹。
第二步:HTML分塊。與第一步不同的是,在這一步的主要過程中,要使用到分塊器,通過分塊器來實現(xiàn)對語義分析器的調(diào)用,然后再向節(jié)點添加語義的基本屬性,同時還需要把DOM樹轉(zhuǎn)化為STU-DOM樹,讓添加語義的節(jié)點作為STU結(jié)點。這一基本過程,在分塊后給節(jié)點添加的語義信息模式如下圖1所示。
第三步:語義分析器。這一步要對語義信息塊中的非鏈接文字總數(shù)和鏈接總數(shù)進行精確計算,在此基礎(chǔ)上,在STU-DOM中對應(yīng)子樹中的非鏈接文字總數(shù)和鏈接總數(shù),分別用contentlength和linkcount屬性表示。
第四步:剪枝器。這一步用到的是遞歸算法思想,依照這種算法思想,進行粗剪枝。
局部閾值為Lcm,如果LocalCorrelativity(STUi)>Lcm (取值為>0.03),則對其進行剪枝。
圖2 網(wǎng)頁提取算法流程
第五步:正文提取器。算法思想:用遞歸方法提取TABLE或DIV標簽下的文本結(jié)點的內(nèi)容,通過計算標題與結(jié)點詞共現(xiàn)頻率及文本間相似度實現(xiàn)正文內(nèi)容的提取。
設(shè)文本一中所包含的詞語為{t1,t2,…,ti…,tn}。則文本一可用一個n維向量W={W1,W2,…,Wi…,Wn}表示。
3 實驗結(jié)果
為了有效測試本方法的性能,設(shè)置兩組測試。
第一組實驗:利用上述方法對網(wǎng)頁(圖3)進行有效信息的抽取,結(jié)果如圖4所示。
圖3 網(wǎng)頁實例
第二組實驗:本組實驗的實驗對象,是YQ-CCT-2006-
03的部分語料,在該實驗中,局部閾值取值為0.03,文本相似度取值為0.1。這是經(jīng)過實驗評估后,獲得較好的效果。
提取結(jié)果如下:
圖4 網(wǎng)頁提取結(jié)果圖
準確率=正確提取的網(wǎng)頁數(shù)/總網(wǎng)頁數(shù)
表1 網(wǎng)頁提取實驗結(jié)果
從以上的實驗結(jié)果可以得知,這種基于標題與結(jié)點詞共現(xiàn)頻率及文本間相似度的網(wǎng)頁去噪方法,能夠很高效的提取網(wǎng)頁正文內(nèi)容。其還具有完整的保存網(wǎng)頁主題內(nèi)容這一優(yōu)點,在進行的實驗中平均準確率達到了94.9%,平均處理速度達到了14.8s/網(wǎng)頁。
4 結(jié)束語
隨著Web的迅速發(fā)展,許多研究如信息檢索、數(shù)據(jù)挖掘等由傳統(tǒng)領(lǐng)域轉(zhuǎn)到了Web上。面對充滿了噪音的網(wǎng)頁,如何去除網(wǎng)頁上的噪音對于提高信息檢索、網(wǎng)頁分類的研究效果至關(guān)重要。實驗結(jié)果顯示,本文提出的方法,有效去除網(wǎng)頁噪音,保留了正文內(nèi)容。
參考文獻:
[1]S Gupta,G Kaiser,D Neistadt. DOM-based content extraction of HTML documents.In:Proc of the 12th International World Wide Web Conf.New York:ACM Press,2003.207-214.
[2]王琦,唐世渭,楊冬青,王騰蛟.基于DOM的網(wǎng)頁主體信息自動提取[J].計算機研究與發(fā)展,2004,42(10):1786-1792.
[3]趙欣欣,索紅光,劉玉樹.基于標記窗的網(wǎng)頁正文信息提取方法[J].計算機應(yīng)用研究,2007,24(3):143-145.
[4]丁寶瓊,謝遠平,吳瓊.基于改進DOM樹的網(wǎng)頁去噪聲方法[J].計算機應(yīng)用,2009,29(6):175-177.
作者簡介:
蘇秀芝(1981-),女,山東日照人,助教,碩士,研究方向:數(shù)據(jù)挖掘。endprint
摘要:使用STU-DOM這種網(wǎng)頁提取技術(shù),在實際操作過程中,在對不含超級鏈接的網(wǎng)頁噪音進行判斷時,準確性較低,同時,這種技術(shù)也不能有效處理DIV、TABLE標簽中的正文信息。這是一種效果比較差的網(wǎng)頁去噪技術(shù)。本文針對STU-DOM樹在提取網(wǎng)頁過程中出現(xiàn)的相關(guān)問題,比較分析當前幾種常見的技術(shù)方法,在此基礎(chǔ)上使用合適的技術(shù)升級擴展STU-DOM樹,通過計算網(wǎng)頁標題與結(jié)點詞共現(xiàn)頻率,然后分析文本間的相似度,得到標題與文本距離,實現(xiàn)網(wǎng)頁正文提取。實驗結(jié)果證明,該去噪方法能夠有效去除網(wǎng)頁噪音。
關(guān)鍵詞:網(wǎng)頁去噪 STU-DOM 詞共現(xiàn)
0 引言
隨著計算機技術(shù)的迅猛發(fā)展及計算機廣泛應(yīng)用于社會生活的各個領(lǐng)域,我們正步入一個信息化的時代。目前學(xué)界對網(wǎng)頁數(shù)據(jù)的應(yīng)用研究很多,例如WEB數(shù)據(jù)的深度挖掘、不同的搜索引擎等。從技術(shù)上來看網(wǎng)頁數(shù)據(jù)包含各種內(nèi)容,如廣告、導(dǎo)航等,然而對于不同的研究,沒必要包含所有的內(nèi)容,本文將通過計算標題與文本距離來實現(xiàn)網(wǎng)頁去噪。
1 相關(guān)基本概念解析
STU結(jié)點:
該結(jié)點從基本理論上來說,只是一種語義文本單元。在具體應(yīng)用過程中,STU結(jié)點和塊之間是一一對應(yīng)的。
STU-DOM樹:
STU-DOM樹是由經(jīng)過添加描述語義的DOM樹而生成的。
塊:
在HTML網(wǎng)頁中,根據(jù)網(wǎng)頁不同特點而劃分出的不同區(qū)域,這些不同的區(qū)域,就稱之為塊。
解析:
將HTML文檔轉(zhuǎn)化為DOM樹的過程稱之為解析。
局部閾值:
由塊內(nèi)鏈接和內(nèi)容決定,其計算公式
LocalCorrelativity(STUi)= (1)
LinkCount(STUi)=LinkCount(STUcij) (2)
ContentLength(STUi)=ContentLength(STUi)(3)
其中,STUcij表示STUi的第j棵子樹,LinkCount(STUi)是STUi的linkcount屬性值。
詞共現(xiàn):簡單來說,它指的是在不同的兩個網(wǎng)頁文本中,相同的詞匯共同出現(xiàn),通??梢杂眠@個相同詞匯出現(xiàn)的頻率來分析文本相似度的高低。
2 算法描述
在本論文使用的網(wǎng)頁正文信息提取系統(tǒng)中,共計包含如下五個步驟:HTML解析、HTML分塊、語義分析器、剪枝器、正文提取器。
第一步:HTML解析。在這個過程中,主要是找到HTML與DOM樹的映射關(guān)系,并在這種映射關(guān)系確定的前提下,按照正確的方法,STU樹與DOM樹之間的精確結(jié)合。在這個過程中,需要使用解析器(Html Parser),解析器在這一步的主要功能是解析HTML文檔,在順利將HTML文檔解析后,才可以將其轉(zhuǎn)化為DOM樹。
第二步:HTML分塊。與第一步不同的是,在這一步的主要過程中,要使用到分塊器,通過分塊器來實現(xiàn)對語義分析器的調(diào)用,然后再向節(jié)點添加語義的基本屬性,同時還需要把DOM樹轉(zhuǎn)化為STU-DOM樹,讓添加語義的節(jié)點作為STU結(jié)點。這一基本過程,在分塊后給節(jié)點添加的語義信息模式如下圖1所示。
第三步:語義分析器。這一步要對語義信息塊中的非鏈接文字總數(shù)和鏈接總數(shù)進行精確計算,在此基礎(chǔ)上,在STU-DOM中對應(yīng)子樹中的非鏈接文字總數(shù)和鏈接總數(shù),分別用contentlength和linkcount屬性表示。
第四步:剪枝器。這一步用到的是遞歸算法思想,依照這種算法思想,進行粗剪枝。
局部閾值為Lcm,如果LocalCorrelativity(STUi)>Lcm (取值為>0.03),則對其進行剪枝。
圖2 網(wǎng)頁提取算法流程
第五步:正文提取器。算法思想:用遞歸方法提取TABLE或DIV標簽下的文本結(jié)點的內(nèi)容,通過計算標題與結(jié)點詞共現(xiàn)頻率及文本間相似度實現(xiàn)正文內(nèi)容的提取。
設(shè)文本一中所包含的詞語為{t1,t2,…,ti…,tn}。則文本一可用一個n維向量W={W1,W2,…,Wi…,Wn}表示。
3 實驗結(jié)果
為了有效測試本方法的性能,設(shè)置兩組測試。
第一組實驗:利用上述方法對網(wǎng)頁(圖3)進行有效信息的抽取,結(jié)果如圖4所示。
圖3 網(wǎng)頁實例
第二組實驗:本組實驗的實驗對象,是YQ-CCT-2006-
03的部分語料,在該實驗中,局部閾值取值為0.03,文本相似度取值為0.1。這是經(jīng)過實驗評估后,獲得較好的效果。
提取結(jié)果如下:
圖4 網(wǎng)頁提取結(jié)果圖
準確率=正確提取的網(wǎng)頁數(shù)/總網(wǎng)頁數(shù)
表1 網(wǎng)頁提取實驗結(jié)果
從以上的實驗結(jié)果可以得知,這種基于標題與結(jié)點詞共現(xiàn)頻率及文本間相似度的網(wǎng)頁去噪方法,能夠很高效的提取網(wǎng)頁正文內(nèi)容。其還具有完整的保存網(wǎng)頁主題內(nèi)容這一優(yōu)點,在進行的實驗中平均準確率達到了94.9%,平均處理速度達到了14.8s/網(wǎng)頁。
4 結(jié)束語
隨著Web的迅速發(fā)展,許多研究如信息檢索、數(shù)據(jù)挖掘等由傳統(tǒng)領(lǐng)域轉(zhuǎn)到了Web上。面對充滿了噪音的網(wǎng)頁,如何去除網(wǎng)頁上的噪音對于提高信息檢索、網(wǎng)頁分類的研究效果至關(guān)重要。實驗結(jié)果顯示,本文提出的方法,有效去除網(wǎng)頁噪音,保留了正文內(nèi)容。
參考文獻:
[1]S Gupta,G Kaiser,D Neistadt. DOM-based content extraction of HTML documents.In:Proc of the 12th International World Wide Web Conf.New York:ACM Press,2003.207-214.
[2]王琦,唐世渭,楊冬青,王騰蛟.基于DOM的網(wǎng)頁主體信息自動提取[J].計算機研究與發(fā)展,2004,42(10):1786-1792.
[3]趙欣欣,索紅光,劉玉樹.基于標記窗的網(wǎng)頁正文信息提取方法[J].計算機應(yīng)用研究,2007,24(3):143-145.
[4]丁寶瓊,謝遠平,吳瓊.基于改進DOM樹的網(wǎng)頁去噪聲方法[J].計算機應(yīng)用,2009,29(6):175-177.
作者簡介:
蘇秀芝(1981-),女,山東日照人,助教,碩士,研究方向:數(shù)據(jù)挖掘。endprint