湯佳杰 曹永忠 顧浩
摘 ?要: 為了簡化網(wǎng)頁正文抽取操作與提高網(wǎng)頁正文抽取的準確性,提出了一種基于文本標點密度連續(xù)和的抽取方法(TPDS)。TPDS基于網(wǎng)頁中文本標點分布的密度并計算密度的連續(xù)和,選取所有文本塊中連續(xù)和最大的文本塊,將其確定為網(wǎng)頁最佳文本塊并抽取正文內(nèi)容。從不同的門戶網(wǎng)站隨機選取的網(wǎng)頁作為測試數(shù)據(jù)集,實驗結(jié)果表明,TPDS可有效過濾網(wǎng)頁噪聲信息得到正文內(nèi)容。該方法在不同網(wǎng)頁上具有很好的適用性,抽取性能優(yōu)于CETR、CETD、CEPR和CETD-TPC算法。
關鍵詞: 正文抽取; 文本密度; 標點分布; 標簽樹
中圖分類號:TP391 ? ? ? ? ?文獻標識碼:A ? ? 文章編號:1006-8228(2020)01-69-04
Abstract: In order to simplify the extraction process of web page text and improve the accuracy of web page text extraction, a method based on text punctuation density continuous sum extraction (TPDS) is proposed. TPDS is based on the density of text punctuation distribution in web pages and calculates the continuous sum of density. The continuous and largest text blocks in all text blocks are selected, which are determined as the best text block of the web page and the body content is extracted. The webpage randomly selected from different portals is used as the test data set. The experimental results show that TPDS can effectively filter the webpage noise information to obtain the body content, and the method has good applicability on different webpage, and the extraction performance is better than CETR, CETD , CEPR and CETD-TPC algorithms.
Key words: content extraction; text density; punctuation distribution; tag tree
0 引言
Web技術快速發(fā)展,Web網(wǎng)頁成為信息發(fā)布的主要載體。中國互聯(lián)網(wǎng)絡中心發(fā)布第43次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[1]指出,我國網(wǎng)民規(guī)模達8.29億,互聯(lián)網(wǎng)普及率達到59.6%;網(wǎng)站數(shù)量為523萬個,網(wǎng)頁數(shù)量為2816億個。Web網(wǎng)頁數(shù)量如此龐大,顯然無法依靠人工抽取所有網(wǎng)頁主體信息,而需要通過計算機來輔助完成網(wǎng)頁信息抽取。但是Web網(wǎng)頁中除了主體信息外,還包括大量的噪聲信息[2],如商家廣告、興趣內(nèi)容推薦、網(wǎng)頁導航欄目等。
大量的網(wǎng)頁噪聲數(shù)據(jù)會導致在檢索網(wǎng)頁主體信息時的操作變得困難和復雜,不利于后期的管理與分析。因此在對網(wǎng)頁進行爬取時,需要對噪聲信息進行過濾,以保證能夠得到正確的網(wǎng)頁主體信息。
隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,CSS、JavaScript技術的廣泛應用,不同的網(wǎng)頁結(jié)構(gòu)呈現(xiàn)出多樣化與個性化特點,這使得Web信息抽取工作難上加難。通過研究發(fā)現(xiàn),Web網(wǎng)頁結(jié)構(gòu)中的文本布局具有如下的表現(xiàn):
⑴ Web網(wǎng)頁中正文部分集中在網(wǎng)頁的三分之一到三分之二處,這段內(nèi)網(wǎng)頁的某些標簽將會反復出現(xiàn),且其中文本內(nèi)容較長,文本塊較多,含有的標點符號也相應增加;
⑵ Web網(wǎng)頁中噪聲部分一般處于網(wǎng)頁的邊緣地區(qū),多為短文本、圖片以及大量的超鏈接,噪聲塊的文本標點密度連續(xù)小;
⑶ Web網(wǎng)頁中正文內(nèi)容多分布在相同類型的標簽中,其主要內(nèi)容節(jié)點之間是連續(xù)的,連續(xù)內(nèi)容節(jié)點共享同一個父節(jié)點。
1 相關工作
Web信息抽取主要是將網(wǎng)頁中半結(jié)構(gòu)化的文本數(shù)據(jù)抽取出來,轉(zhuǎn)換為結(jié)構(gòu)化信息,使之能夠為其他系統(tǒng)所利用。近年來,隨著人們對Web網(wǎng)頁正文信息提取需求的不斷增加,國內(nèi)外眾多研究人員提出許多解決方案。
基于包裝器的方法是首先由人工制定好抽取規(guī)則,然后使用程序依據(jù)規(guī)則返回規(guī)定格式的數(shù)據(jù)完成信息抽取。手工構(gòu)建包裝器可以解決特定網(wǎng)站的信息抽取問題,但是無法適應不同的網(wǎng)頁結(jié)構(gòu),不同網(wǎng)站都需要依據(jù)其網(wǎng)頁結(jié)構(gòu)重新構(gòu)造包裝器規(guī)則,費時費力。
為了解決人工構(gòu)建的包裝器的不足,人們提出了基于模式匹配的方法。姬鑫等[3]人實現(xiàn)了基于模板頁的相同噪音塊清洗方法和基于class 屬性的同類噪音塊和特殊噪音塊清洗方法,在此基礎上提出基于起始塊和終止塊的新聞內(nèi)容抽取方法,但未實現(xiàn)對分頁新聞內(nèi)容的抽取。Hassan A.Sleiman等[4]人實現(xiàn)了模式匹配的抽取算法,該算法不依賴于提取規(guī)則,無監(jiān)督地進行信息抽取。
李偉男等[5]人基于視覺的網(wǎng)頁分割算法VIPS提出了使用模擬退火算法改進的二階隱馬爾可夫模型得到最優(yōu)模型參數(shù),結(jié)合改進的Viterbi算法獲取最佳狀態(tài)序列的Web信息抽取方法。劉利等[6]人設計的WIEHF方法利用DOM樹計算出容器標簽的PSD、TSD、SD,對元素進行篩選,根據(jù)元素在內(nèi)容里的出現(xiàn)頻率與標點符號找出網(wǎng)頁正文。
針對上述問題,本文設計的TPDS算法利用DOM樹將網(wǎng)頁分割成多個不同的塊區(qū)域,通過計算不同塊的文本標點分布密度連續(xù)和,選取最大連續(xù)和對應的文本塊為最佳文本塊,實現(xiàn)了一種簡單、有效的抽取方式。該方法不需要進行訓練且無須人工參與,可以適用于不同的網(wǎng)頁結(jié)構(gòu),通過在不同的數(shù)據(jù)集上的測試,驗證了算法具有良好的抽取性能。
2 基于文本標點密度連續(xù)和的抽取算法
基于文本標點密度連續(xù)和的網(wǎng)頁正文抽取算法的主要流程如圖1所示。主要分為網(wǎng)頁預處理、算法特征值計算和信息抽取三個步驟。
2.1 預處理
在網(wǎng)頁DOM結(jié)構(gòu)中,網(wǎng)頁被表示為一組標簽并且標簽之間具有層次關系。根據(jù)標簽的不同功能,將html標簽分為如下四類[7]:交互標簽、樣式標簽、網(wǎng)頁描述標簽、容器標簽。
在進行網(wǎng)頁特征計算之前,需要對目標網(wǎng)頁的標簽進行過濾,在網(wǎng)頁正文內(nèi)容的抽取過程中,一般只需要操作容器標簽,其他類型的標簽(如交互標簽,樣式標簽,網(wǎng)頁描述標簽)將被過濾掉。
2.2 文本標點密度連續(xù)和特征
定義1 DOM塊:DB(v)是以節(jié)點v為根節(jié)點的子樹,其中v為非文本節(jié)點,若DB(v)不為空時,則稱子樹DB(v)為DOM塊。
從網(wǎng)頁中選取兩個DOM塊,圖2是文本塊,可以發(fā)現(xiàn)在文本塊中,文本標點信息更加集中,具有更少的超鏈接文本。而在圖3噪聲塊中,超鏈接文本信息較多,文本標點信息之間相對分散。
其中,[SE]是由算法抽取的Web網(wǎng)頁結(jié)果構(gòu)成的正文集合,[SM]是由人工從Web網(wǎng)頁中抽取的正文內(nèi)容集合,[SE∩SM]是算法實際抽取的正確正文內(nèi)容。精度P是衡量提取的文本與實際文本相關程度的指標,召回率R表示應該抽取結(jié)果中被正確抽取的正文內(nèi)容的比例,F(xiàn)值則是衡量抽取性能的一個綜合指標。
根據(jù)這些評價指標分析不用的抽取算法,并將其與本文提出的算法進行比較。表1給出了CETR、CETD、CEPR、CETD-TPC與TPDS算法在不同數(shù)據(jù)集上測試的結(jié)果。
從表1的對比實驗結(jié)果可以發(fā)現(xiàn),TPDS方法在大部分情況下都表現(xiàn)出良好的抽取性能。TPDS在部分網(wǎng)頁上的抽取結(jié)果相比其他算法有點欠缺,但是綜合考慮抽取結(jié)果的平均情況,都優(yōu)于其他的抽取算法,所以,TPDS算法在不同網(wǎng)頁中的適用性更強,抽取的性能更高。
4 結(jié)束語
本文提出了一種基于文本標點密度連續(xù)和的抽取算法,TPDS算法操作簡單,無需訓練和人工干預,可用于多源、異構(gòu)、海量的網(wǎng)頁正文內(nèi)容抽取,在不同的數(shù)據(jù)集上的測試結(jié)果表明。與其他算法相比,抽取性能更高、適用性更強。
然而,基于文本標點密度連續(xù)和的抽取算法仍有較大的提升空間。本文中設計的算法僅是基于文本標點密度,連續(xù)標簽與連續(xù)文本塊的特征來選取最佳文本塊。是否可以與網(wǎng)頁中其他的特征進行融合,進一步提高抽取的性能、準確性以及實用性,是進一步研究的重點。
參考文獻(References):
[1] CNNIC.第43次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R]. 北京:中國互聯(lián)網(wǎng)中心,2019.
[2] 劉鵬程,胡駿,吳共慶.基于文本塊密度和標簽覆蓋率的網(wǎng)頁正文抽取[J].計算機應用研究,2018.35(6):1645-1650.
[3] 姬鑫,鐘誠.基于分塊的新聞網(wǎng)頁信息抽取算法[J].計算機應用與軟件,2015.32(4):317-322.
[4] Hassan A.Sleiman,Rafael Corchuelo. TEX: An efficient and effective unsupervised Web information extractor[J]. Knowledge-Based System,2013.39:109-123
[5] 李偉男,李書琴,景旭,等.基于模擬退火算法和二階HMM的Web信息抽取[J].計算機工程與設計,2014.35(4):1264-1268
[6] 劉利,戴齊,尹紅風,賈真,胡萬亭.基于多特征融合的網(wǎng)頁正文信息抽取[J].計算機應用與軟件,2014.31(7):47-49+77
[7] Liu Qingtang,Shao Mingbo,Wu Lingjing,et al.Main Content Exraction from Web Pages Based on Node Characteristics[J].Journal of Computing Science and Engineering,2017.11:39-48
[8] Carey H J,Manic M.HTML web content extraction using paragraph tags[C]//IEEE, International Symposium on Industrial Electronics.IEEE,2016:1099-1105