郗家貞,郭 巖,黎 強(qiáng),趙 嶺,劉 悅,俞曉明,程學(xué)旗
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué), 北京 100080)
一種短正文網(wǎng)頁(yè)的正文自動(dòng)化抽取方法
郗家貞1,2,郭 巖1,黎 強(qiáng)1,2,趙 嶺1,劉 悅1,俞曉明1,程學(xué)旗1
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué), 北京 100080)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)頁(yè)形式日趨多變。短正文網(wǎng)頁(yè)日益增多,傳統(tǒng)的網(wǎng)頁(yè)正文自動(dòng)化抽取方式對(duì)短正文網(wǎng)頁(yè)抽取效果較差。針對(duì)以上問(wèn)題,該文提出一種單記錄(新聞、博客等)、短正文網(wǎng)頁(yè)的正文自動(dòng)化抽取方法,在該方法中,首先利用短正文網(wǎng)頁(yè)分類算法對(duì)網(wǎng)頁(yè)進(jìn)行分類,然后針對(duì)短正文網(wǎng)頁(yè),使用基于頁(yè)面深度以及文本密度的正文抽取算法抽取正文。
短正文;正文抽取
1.1 自動(dòng)化的短正文網(wǎng)頁(yè)正文抽取
面對(duì)層出不窮的信息來(lái)源,數(shù)量呈指數(shù)級(jí)增長(zhǎng)的網(wǎng)絡(luò)頁(yè)面,網(wǎng)頁(yè)正文抽取技術(shù)越來(lái)越受到學(xué)術(shù)界和工業(yè)界的重視,Microsoft、Google 、百度、騰迅等公司均在相關(guān)方向進(jìn)行了研究。網(wǎng)頁(yè)內(nèi)容抽取技術(shù)被廣泛應(yīng)用在互聯(lián)網(wǎng)服務(wù)和應(yīng)用中,例如,信息檢索、文本自動(dòng)分類、話題跟蹤、機(jī)器翻譯、自動(dòng)摘要等。從網(wǎng)頁(yè)中抽取出高質(zhì)量的正文對(duì)于這些應(yīng)用來(lái)說(shuō)非常關(guān)鍵。例如,對(duì)于信息檢索,正文抽取的質(zhì)量會(huì)直接影響檢索的準(zhǔn)確率。在這些應(yīng)用中,網(wǎng)頁(yè)正文抽取作為必不可少的一個(gè)步驟,為后面的分析、挖掘提供了最基礎(chǔ)的數(shù)據(jù)。因此,近年來(lái)網(wǎng)頁(yè)正文抽取吸引了很多的研究者從事相關(guān)研究。
通常研究者關(guān)注的網(wǎng)頁(yè)內(nèi)容是比較常規(guī)的(正文文本量較多,文字較為集中),已有的內(nèi)容抽取方法的假設(shè)基礎(chǔ)也都普遍基于常規(guī)網(wǎng)頁(yè)的特點(diǎn)。但隨著網(wǎng)絡(luò)的迅猛發(fā)展及其應(yīng)用的日益豐富,大量的非常規(guī)網(wǎng)頁(yè)涌現(xiàn)出來(lái)。多媒體技術(shù)的廣泛應(yīng)用使得網(wǎng)頁(yè)的內(nèi)容不再拘泥于文本,而是變成了包含文字、圖形、圖像、動(dòng)畫、聲音和視頻等各種媒體的信息綜合體。大量的娛樂新聞網(wǎng)頁(yè)中的新聞可能只由一張圖片和一句話組成。這就引入了一類新的網(wǎng)頁(yè),它們的共同點(diǎn)是正文內(nèi)容短,本文將此類網(wǎng)頁(yè)稱為“短正文網(wǎng)頁(yè)”。這類網(wǎng)頁(yè)通常是新聞網(wǎng)頁(yè)或博文網(wǎng)頁(yè)。研究人員在設(shè)計(jì)正文抽取算法時(shí),通?;跇?biāo)簽密度、文本鏈接比等特征做假設(shè),而短正文網(wǎng)頁(yè)的特點(diǎn)明顯不符合這些常規(guī)意義上的假設(shè),短正文網(wǎng)頁(yè)的文本量較少,甚至少于版權(quán)聲明以及網(wǎng)頁(yè)中其他噪音文本,導(dǎo)致一些常規(guī)的正文抽取方法對(duì)其無(wú)能為力。
目前網(wǎng)頁(yè)正文抽取的主流技術(shù)大致可以歸為兩大類: 基于模板的抽取以及完全自動(dòng)化的抽取。基于模板的抽取又可以分為自動(dòng)生成模板以及人工配置模板兩種。自動(dòng)生成模板的方式需要我們預(yù)先對(duì)輸入網(wǎng)頁(yè)進(jìn)行篩選,選擇結(jié)構(gòu)相近或者同一模板生成的網(wǎng)頁(yè)作為輸入的訓(xùn)練網(wǎng)頁(yè),生成這一類網(wǎng)頁(yè)的公共模板,用來(lái)抽取結(jié)構(gòu)相近的網(wǎng)頁(yè)中的信息。其優(yōu)點(diǎn)是當(dāng)模板質(zhì)量較高,且待處理頁(yè)面的結(jié)構(gòu)與訓(xùn)練網(wǎng)頁(yè)足夠相似時(shí),抽取效果較好,且抽取速度快;缺點(diǎn)是生成模板的正確性嚴(yán)重依賴于訓(xùn)練網(wǎng)頁(yè)之間的相似程度。另外,每一個(gè)信息源的網(wǎng)頁(yè)都需要此類網(wǎng)頁(yè)對(duì)應(yīng)的、個(gè)性化的模板,一旦新網(wǎng)頁(yè)的結(jié)構(gòu)發(fā)生改變,模板就會(huì)失效,需要重新生成模板。人工配置模板的抽取準(zhǔn)確率高這一優(yōu)點(diǎn)很明顯,但需要大量的人工操作這一缺點(diǎn)也同樣突兀,而且也如同自動(dòng)化生成模板一樣,當(dāng)此類網(wǎng)頁(yè)結(jié)構(gòu)發(fā)生改變時(shí),需要重新配置模板。因此,雖然基于模板的抽取方式可以解決短正文網(wǎng)頁(yè)的正文抽取問(wèn)題(人工配置或者通過(guò)網(wǎng)頁(yè)間相似性確定正文),但是該抽取方式需要為不同的網(wǎng)頁(yè)配置大量的模板,模板的生成、維護(hù)成本非常高,而且還要求輸入網(wǎng)頁(yè)必須符合模板要求的相關(guān)特征。
在對(duì)抽取結(jié)果的準(zhǔn)確性沒有嚴(yán)格要求的情況下,自動(dòng)化的信息抽取方式便派上用場(chǎng)。隨著網(wǎng)頁(yè)規(guī)模的快速增長(zhǎng),正文抽取的研究熱點(diǎn)已經(jīng)轉(zhuǎn)向自動(dòng)化抽取方法的研究。自動(dòng)化信息抽取不依賴于模板,僅根據(jù)網(wǎng)頁(yè)自身的相關(guān)特征對(duì)網(wǎng)頁(yè)進(jìn)行抽取。常見的方式有: 基于文本密度(標(biāo)簽密度的倒數(shù))、基于文本鏈接比例、基于視覺信息以及基于自然語(yǔ)言處理等方式。自動(dòng)化信息抽取的優(yōu)點(diǎn)是使用便捷、通用性強(qiáng)等。缺點(diǎn)是抽取效果不是非常準(zhǔn)確,尤其是在正文比較短的情況下,通常的算法出錯(cuò)率很高?;谝曈X信息的抽取雖然可以在一定程度上解決短正文網(wǎng)頁(yè)的抽取問(wèn)題,但是需要對(duì)網(wǎng)頁(yè)進(jìn)行深度解析以獲得相關(guān)的視覺信息,因此抽取效率較低,不能滿足實(shí)際工程對(duì)效率的要求。
1.2 研究?jī)?nèi)容
在實(shí)際工程應(yīng)用中,我們發(fā)現(xiàn)常規(guī)的正文抽取算法對(duì)網(wǎng)頁(yè)的抽取效果已經(jīng)比較好,但是當(dāng)我們深入研究時(shí)會(huì)發(fā)現(xiàn),抽取錯(cuò)誤的網(wǎng)頁(yè)中正文長(zhǎng)度較短的網(wǎng)頁(yè)占有很大比例,錯(cuò)誤率遠(yuǎn)遠(yuǎn)超過(guò)了文本長(zhǎng)度較長(zhǎng)的網(wǎng)頁(yè)的抽取錯(cuò)誤率。針對(duì)以上問(wèn)題,我們采用了分而治之的方式來(lái)提升網(wǎng)頁(yè)的正文抽取效果,如圖1所示,先對(duì)網(wǎng)頁(yè)進(jìn)行分類,通過(guò)我們的分類算法將網(wǎng)頁(yè)分為長(zhǎng)正文網(wǎng)頁(yè)和短正文網(wǎng)頁(yè);對(duì)長(zhǎng)正文網(wǎng)頁(yè)采用傳統(tǒng)的抽取方式(本文采用的是基于文本密度的方式)進(jìn)行處理,對(duì)短正文網(wǎng)頁(yè)采用新的抽取算法進(jìn)行處理。因此,本文的主要研究?jī)?nèi)容有兩部分: 1)對(duì)短正文網(wǎng)頁(yè)的分類;2)設(shè)計(jì)短正文網(wǎng)頁(yè)正文抽取算法SCEDD(Short Content Extraction via Depth of DOM tree)。
圖1 一種短正文網(wǎng)頁(yè)的正文自動(dòng)化抽取方法流程示意圖
1.3 相關(guān)工作
正文抽取一詞由Rahman 等人在 2001年提出[1]。目前,根據(jù)我們的調(diào)研,并沒有研究人員對(duì)短正文網(wǎng)頁(yè)的正文抽取做專門的研究,一般都是將待抽取的網(wǎng)頁(yè)看作是通常的網(wǎng)頁(yè)(正文文本量大、標(biāo)簽少、鏈接少、行塊密度大等),或者對(duì)輸入網(wǎng)頁(yè)類型不做限制[2]。
基于包裝器的歸納方法(Wrapper Induction)是Web信息抽取中的常用方法。 Hammer 等研究者在 TSIMMIS[3]中首次提出這個(gè)方法,文獻(xiàn)[4-6]對(duì)該方法作了全面而透徹的綜述。經(jīng)典方法例如,基于監(jiān)督學(xué)習(xí)的方法 STALKER[7],基于半監(jiān)督學(xué)習(xí)的方法 OLERA[8],以及無(wú)監(jiān)督方法 RoadRunner[9]。此類方法可以解決短正文網(wǎng)頁(yè)抽取問(wèn)題,但如前面所述,由于網(wǎng)頁(yè)的異構(gòu)性,通常對(duì)每一個(gè)信息源都需要生成至少一個(gè)包裝器,模板生成、維護(hù)成本較高。
自動(dòng)化抽取方法是當(dāng)前Web信息抽取領(lǐng)域的研究熱點(diǎn)。文獻(xiàn)[10]中采用基于標(biāo)簽密度的正文抽取方式,但是當(dāng)正文較短,甚至與版權(quán)聲明等噪音信息相當(dāng)時(shí),由于版權(quán)聲明等噪音中標(biāo)簽很少,因此容易導(dǎo)致正文抽取錯(cuò)誤。文獻(xiàn)[11]采用了文本鏈接比的特征,但對(duì)短正文網(wǎng)頁(yè)的處理效果同樣不好,因?yàn)榘鏅?quán)聲明類噪音不包含超鏈接,因此無(wú)法準(zhǔn)確判別正文位置。文獻(xiàn)[12]中采用視覺信息對(duì)網(wǎng)頁(yè)進(jìn)行分割,從而可以獲取網(wǎng)頁(yè)正文,但需要計(jì)算視覺信息,開銷大,無(wú)法滿足實(shí)際應(yīng)用需求。
一些研究者把自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù)引入內(nèi)容抽取中。文獻(xiàn)[11]把網(wǎng)頁(yè)內(nèi)容的識(shí)別問(wèn)題看成一個(gè)標(biāo)注問(wèn)題,這是機(jī)器學(xué)習(xí)和自然語(yǔ)言理解領(lǐng)域中的一個(gè)經(jīng)典問(wèn)題。文獻(xiàn)[13]引入決策樹進(jìn)行新聞網(wǎng)頁(yè)的正文抽取。這樣做的優(yōu)點(diǎn)是能夠提高抽取準(zhǔn)確率;缺點(diǎn)是多多少少都需要人工參與,且開銷較大,不適合在實(shí)際應(yīng)用中處理大規(guī)模的網(wǎng)頁(yè)抽取問(wèn)題。
目前關(guān)于短正文、短文本的研究集中在分類、聚類問(wèn)題上,而非如何獲取短正文、短文本。例如,文獻(xiàn)[14]關(guān)注的是短文本聚類問(wèn)題,文獻(xiàn)[15]關(guān)注了短文本分類問(wèn)題。
2.1 基本思路
我們首先要解決的關(guān)鍵問(wèn)題是短正文網(wǎng)頁(yè)的分類問(wèn)題。
何為短正文網(wǎng)頁(yè),目前尚未有一個(gè)嚴(yán)格的定義,直觀意義上來(lái)講,就是正文比較短、在自動(dòng)化抽取中容易與噪音信息混合,導(dǎo)致抽取結(jié)果錯(cuò)誤的網(wǎng)頁(yè)。以下是兩種定義方式: (1)根據(jù)網(wǎng)頁(yè)正確的正文信息長(zhǎng)短來(lái)定義,這需要我們事先對(duì)網(wǎng)頁(yè)進(jìn)行標(biāo)注,從而根據(jù)正文長(zhǎng)短對(duì)網(wǎng)頁(yè)進(jìn)行分類;(2)結(jié)合網(wǎng)頁(yè)特征并基于經(jīng)驗(yàn)假設(shè),設(shè)計(jì)一種分類算法,簡(jiǎn)單來(lái)說(shuō),就是一個(gè)粗略的正文抽取算法,根據(jù)抽取結(jié)果的長(zhǎng)度對(duì)網(wǎng)頁(yè)進(jìn)行分類。第一種定義方式明顯更符合我們的常識(shí),但是在工程應(yīng)用中,我們并不能預(yù)先得知網(wǎng)頁(yè)正文的準(zhǔn)確長(zhǎng)度(如果知道了,那就是標(biāo)注過(guò)的樣本網(wǎng)頁(yè),也就是說(shuō)正文已經(jīng)正確抽取,也就不需要我們對(duì)其進(jìn)行處理了),因此,我們采用第二種定義方式,對(duì)網(wǎng)頁(yè)進(jìn)行特征提取之后,對(duì)其分類。
經(jīng)過(guò)分析,可以發(fā)現(xiàn)網(wǎng)頁(yè)的原始大小、網(wǎng)頁(yè)內(nèi)部全部標(biāo)簽的數(shù)量都與分類關(guān)系不大,因?yàn)橥粋€(gè)模板生成的網(wǎng)頁(yè),我們假設(shè)為A和B,A是長(zhǎng)正文網(wǎng)頁(yè),B為短正文網(wǎng)頁(yè),A與B僅在正文以及標(biāo)題、作者等方面具有明顯差異, 而其他方面(網(wǎng)頁(yè)的大小、標(biāo)簽數(shù)量)基本一致,而很明顯他們屬于不同類別。假設(shè)我們定義文本長(zhǎng)度小于閾值thres的網(wǎng)頁(yè)屬于短正文網(wǎng)頁(yè),而文本密度最大的標(biāo)簽所對(duì)應(yīng)的文本長(zhǎng)度與網(wǎng)頁(yè)是否是短正文息息相關(guān): 如果此文本正是網(wǎng)頁(yè)的正文,那么當(dāng)它的長(zhǎng)度L小于閾值thres,則恰好滿足我們對(duì)短正文的定義;如果該文本不是網(wǎng)頁(yè)的正文,而是網(wǎng)頁(yè)的噪音信息,那么一般來(lái)說(shuō)網(wǎng)頁(yè)正文長(zhǎng)度Content_L<文本長(zhǎng)度L<閾值thres,也同樣滿足短正文的定義?;谝陨戏治?,我們提出了短正文網(wǎng)頁(yè)分類算法。
2.2 短正文網(wǎng)頁(yè)分類算法
我們?cè)O(shè)計(jì)此分類算法的目的是為了將使用傳統(tǒng)的自動(dòng)化正文抽取算法處理的網(wǎng)頁(yè)中效果較差的短文本網(wǎng)頁(yè)與其他網(wǎng)頁(yè)區(qū)分開來(lái),對(duì)分類得到的短正文網(wǎng)頁(yè)進(jìn)行單獨(dú)處理,以提高整體的抽取效果。
圖2是我們提出的短正文網(wǎng)頁(yè)分類算法流程圖。該算法的輸入是待分類網(wǎng)頁(yè)源碼,輸出是正在處理的網(wǎng)頁(yè)的類型: 短正文網(wǎng)頁(yè)或長(zhǎng)正文網(wǎng)頁(yè)。
圖2 短正文網(wǎng)頁(yè)分類算法流程圖
在短正文網(wǎng)頁(yè)分類算法中,需要設(shè)定粗抽取文本長(zhǎng)度閾值。如圖2所示,粗抽取結(jié)果中文本長(zhǎng)度大于該閾值的網(wǎng)頁(yè)定義為長(zhǎng)正文網(wǎng)頁(yè),否則為短正文網(wǎng)頁(yè)。為了找到合理的閾值, 準(zhǔn)確地定義短正文網(wǎng)頁(yè),我們做了統(tǒng)計(jì)實(shí)驗(yàn),實(shí)驗(yàn)細(xì)節(jié)參見第四節(jié)。通過(guò)統(tǒng)計(jì)分析,我們定義粗抽取結(jié)果中,文本長(zhǎng)度小于450字節(jié)的網(wǎng)頁(yè)為短正文網(wǎng)頁(yè)。
時(shí)間復(fù)雜度為O(n*k),n為輸入網(wǎng)頁(yè)的數(shù)目,k為網(wǎng)頁(yè)中標(biāo)簽的數(shù)目。
3.1 基本思路
通過(guò)上述分類算法區(qū)分出短正文網(wǎng)頁(yè)后,需要解決的關(guān)鍵問(wèn)題就是如何從網(wǎng)頁(yè)中自動(dòng)抽取出正文。
對(duì)短正文網(wǎng)頁(yè)進(jìn)行分析后,發(fā)現(xiàn)短正文有以下幾個(gè)特點(diǎn):
1) 由于文本較短,正文節(jié)點(diǎn)經(jīng)常位于一個(gè)單一的、文本密度較高的標(biāo)簽之下,也就是說(shuō)它的兄弟節(jié)點(diǎn)雖然可能文本密度很高,導(dǎo)致他們的父節(jié)點(diǎn)的文本密度和很高,但是我們只取文本密度最大的節(jié)點(diǎn),而不是文本密度和最大的節(jié)點(diǎn);
2) 短正文抽取錯(cuò)誤的結(jié)果中相當(dāng)一部分是因?yàn)槌槿〉降氖蔷W(wǎng)頁(yè)末尾的版權(quán)聲明模塊;
3) 短正文抽取中,當(dāng)標(biāo)記的正文節(jié)點(diǎn)過(guò)于靠前時(shí),一般是出現(xiàn)了將正文定位到了正文之前的噪音上面的情況。
針對(duì)以上觀察到的三種情況,我們提出如下應(yīng)對(duì)措施:
1) 對(duì)于短正文網(wǎng)頁(yè),我們采取尋找最大文本密度的節(jié)點(diǎn)來(lái)代替尋找最大文本密度和的方式來(lái)作為正文的統(tǒng)領(lǐng)節(jié)點(diǎn)(也就是說(shuō)以該節(jié)點(diǎn)為根的子樹上面的文本即為正文);
2) 我們對(duì)每個(gè)標(biāo)簽大致在網(wǎng)頁(yè)中出現(xiàn)的高度值進(jìn)行統(tǒng)計(jì),將非??亢蟮囊伤普墓?jié)點(diǎn)舍棄,下一次遍歷的時(shí)候只遍歷此節(jié)點(diǎn)之前的所有節(jié)點(diǎn)。然后繼續(xù)從DOM樹根節(jié)點(diǎn)進(jìn)行遍歷,直到找到位置合法(偏網(wǎng)頁(yè)中上位置)且擁有最大文本密度的節(jié)點(diǎn)作為正文節(jié)點(diǎn);
3) 與第2)步相反,是將最前面的節(jié)點(diǎn)(超出合法位置的疑似正文節(jié)點(diǎn))刪除,在其后尋找位置合法(偏網(wǎng)頁(yè)中上位置)且擁有最大文本密度的節(jié)點(diǎn)作為正文節(jié)點(diǎn)。
基于以上思路,我們提出了短正文網(wǎng)頁(yè)抽取算法SCEDD。
3.2 SCEDD算法
SCEDD算法的流程如下:
輸入: 待抽取的短正文網(wǎng)頁(yè)
輸出: 抽取結(jié)果文件。
操作步驟:
1) 讀入文件,建立DOM樹,并為每個(gè)節(jié)點(diǎn)設(shè)置密度的權(quán)值(鏈接等標(biāo)簽權(quán)值較小);
2) 清理form標(biāo)簽(input、noembed、noscript等等);
3) 遍歷DOM樹。根據(jù)塊級(jí)標(biāo)簽的個(gè)數(shù)求出各標(biāo)簽大致所在的行數(shù);
4) 抽取標(biāo)題。清除標(biāo)題之前的全部?jī)?nèi)容,然后清理副標(biāo)題;
5) 計(jì)算文本數(shù),計(jì)算標(biāo)簽數(shù),計(jì)算各個(gè)節(jié)點(diǎn)的標(biāo)簽密度;
6) 設(shè)記錄當(dāng)前文本密度最大節(jié)點(diǎn)的變量為A,記錄當(dāng)前文本密度最大節(jié)點(diǎn)行數(shù)的變量為line,網(wǎng)頁(yè)一共有l(wèi)ine_sum行,top_coef代表正文節(jié)點(diǎn)所能出現(xiàn)的最上方的位置所對(duì)應(yīng)的系數(shù)(也就是說(shuō)當(dāng)正文節(jié)點(diǎn)所在的行數(shù)小于line_sum*top_coef,則認(rèn)為抽取位置不對(duì),需要繼續(xù)往下查找擁有最大文本密度的節(jié)點(diǎn)),bottom_coef代表正文節(jié)點(diǎn)所能出現(xiàn)的最下方的位置所對(duì)應(yīng)的系數(shù)。最多重復(fù)查找五次便停止,以防止空頁(yè)面導(dǎo)致算法進(jìn)入死循環(huán)。細(xì)節(jié)如圖3所示。
圖3 SCEDD算法中基于DOM樹深度的正文節(jié)點(diǎn)定位代碼示例
7) 取上一步中最終得到的變量A作為正文的統(tǒng)領(lǐng)節(jié)點(diǎn),并對(duì)其進(jìn)行回溯,一直回溯到祖先節(jié)點(diǎn)(html標(biāo)簽),將回溯過(guò)程中遇到的所有祖先節(jié)點(diǎn)中文本密度的最小值作為閾值;
8) 標(biāo)記正文節(jié)點(diǎn),獲取相應(yīng)節(jié)點(diǎn)上面的文本,組成正文。
3.3 SCEDD算法時(shí)間復(fù)雜度
由于只需要對(duì)網(wǎng)頁(yè)的標(biāo)簽節(jié)點(diǎn)進(jìn)行常數(shù)次的遍歷,所以,時(shí)間復(fù)雜度為O(n*k),n代表待抽取網(wǎng)頁(yè)的個(gè)數(shù),k代表單個(gè)網(wǎng)頁(yè)內(nèi)部的標(biāo)簽數(shù)目。
4.1 實(shí)驗(yàn)數(shù)據(jù)集
我們構(gòu)建了兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集:
(1) 數(shù)據(jù)集1中有2 823個(gè)新聞?lì)惥W(wǎng)頁(yè),這些網(wǎng)頁(yè)的來(lái)源覆蓋各種類型的新聞網(wǎng)站;
(2) 根據(jù)我們提出的短正文網(wǎng)頁(yè)分類算法,區(qū)別出144個(gè)短正文網(wǎng)頁(yè),這些網(wǎng)頁(yè)構(gòu)成數(shù)據(jù)集2。
4.2 短正文網(wǎng)頁(yè)分類算法的閾值設(shè)定
在短正文網(wǎng)頁(yè)分類算法中,需要設(shè)定粗抽取文本長(zhǎng)度閾值。我們使用數(shù)據(jù)集1中的2 823個(gè)新聞?lì)惥W(wǎng)頁(yè)作為統(tǒng)計(jì)語(yǔ)料。首先按照第2.2節(jié)的分類算法,獲取各個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的粗抽取結(jié)果。然后,按照粗抽取結(jié)果的文本長(zhǎng)度分區(qū)間進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表1所示。我們做了兩種統(tǒng)計(jì):
(1) 計(jì)算相應(yīng)區(qū)間的頁(yè)面總數(shù)、抽取錯(cuò)誤頁(yè)面數(shù)、抽取錯(cuò)誤率(表1中“錯(cuò)誤率1”所示);
(2) 累加各區(qū)間的總頁(yè)面數(shù)、抽取錯(cuò)誤頁(yè)面數(shù),計(jì)算抽取錯(cuò)誤率(表1中“錯(cuò)誤率2”所示)。
續(xù)表
根據(jù)表1列出的結(jié)果,我們發(fā)現(xiàn)當(dāng)文本長(zhǎng)度小于450字節(jié)時(shí),總體的抽取錯(cuò)誤率為72/144,即50%,抽取錯(cuò)誤率較高,而且錯(cuò)誤頁(yè)面數(shù)(即72)占所有抽取頁(yè)面錯(cuò)誤數(shù)(190)的比例(即召回比,72/190=37.89%)也比較高,因此,我們定義經(jīng)分類算法處理之后,得到的結(jié)果中文本長(zhǎng)度小于450字節(jié)的網(wǎng)頁(yè)為短正文網(wǎng)頁(yè)。
4.3 短正文網(wǎng)頁(yè)的正文抽取算法
在短正文網(wǎng)頁(yè)抽取算法實(shí)驗(yàn)中,我們使用數(shù)據(jù)集2,即144個(gè)短正文網(wǎng)頁(yè)。
4.3.1 參數(shù)選擇
短正文網(wǎng)頁(yè)抽取算法中需要設(shè)定兩個(gè)參數(shù)bottom_coef和top_coef。
圖4和圖5代表的是bottom_coef和top_coef兩個(gè)參數(shù)的值所對(duì)應(yīng)的抽取錯(cuò)誤頁(yè)面數(shù)。由于兩個(gè)參數(shù)所對(duì)應(yīng)的處理流程中不存在相交的情況出現(xiàn),所以,我們對(duì)參數(shù)分別進(jìn)行訓(xùn)練。
圖4 參數(shù)bottom_coef對(duì)應(yīng)的抽取錯(cuò)誤頁(yè)面數(shù)
根據(jù)圖4,我們選擇bottom_coef = 0.95,因?yàn)樽?.95之后錯(cuò)誤頁(yè)面數(shù)開始穩(wěn)步上升。
圖5 參數(shù)top_coef對(duì)應(yīng)的抽取錯(cuò)誤頁(yè)面數(shù)
根據(jù)圖5,我們選擇top_coef = 0.05,因?yàn)榇藭r(shí)的抽取錯(cuò)誤頁(yè)面數(shù)最少而且位于穩(wěn)定區(qū)間的中位數(shù)附近。
4.3.2 正文抽取實(shí)驗(yàn)
我們選擇了三個(gè)抽取算法與本文提出的SCEDD算法做比較: CETD,Constor,ConstorV2.0。CETD是文獻(xiàn)[2]中提及的算法,采用文本鏈接比與標(biāo)簽密度相結(jié)合的方式進(jìn)行正文抽?。籆onstor是本實(shí)驗(yàn)室在工程項(xiàng)目中使用的正文抽取算法,該算法是對(duì)文獻(xiàn)[16]中CoreEx算法的改進(jìn)版,在實(shí)際應(yīng)用中表現(xiàn)出色;ConstorV2.0是本實(shí)驗(yàn)室針對(duì)CETD算法做的改進(jìn)版抽取算法,整體抽取效果出色。由于基于文本鏈接比或標(biāo)簽密度的方式在正文抽取中表現(xiàn)出色,因此,作者選擇了以上三種抽取算法來(lái)與本文提及的短正文抽取算法進(jìn)行對(duì)比。
我們使用以下指標(biāo)評(píng)價(jià)四種算法的抽取效果:
其中,P是抽取錯(cuò)誤率,Precise_length為抽取結(jié)果與標(biāo)注結(jié)果(人工標(biāo)注的結(jié)果,認(rèn)為是準(zhǔn)確的正文)的最長(zhǎng)公共子序列長(zhǎng)度,Result_length為抽取結(jié)果長(zhǎng)度。
由于短正文網(wǎng)頁(yè)的抽取結(jié)果容易受到一些疑似噪音信息(主要是指正文開頭、結(jié)尾的來(lái)源、作者信息,嚴(yán)格意義上并不屬于噪音信息)的影響,因此,我們將錯(cuò)誤率的閾值提高到20%,即錯(cuò)誤率大于20%的抽取結(jié)果,我們認(rèn)定為是錯(cuò)誤的。
圖6 錯(cuò)誤頁(yè)面的DOM樹結(jié)構(gòu)示意圖
圖7 不同算法對(duì)應(yīng)的短正文網(wǎng)頁(yè)正文抽取正確率
圖7為四種算法對(duì)短正文網(wǎng)頁(yè)的抽取結(jié)果。可以看出,相比較而言,SCEDD算法表現(xiàn)出色。這是因?yàn)槠渌齻€(gè)算法所基于的假設(shè)條件(正文文本長(zhǎng)度大,含標(biāo)簽少,含鏈接少)不能很好地適用于短正文網(wǎng)頁(yè),SCEDD中加入了節(jié)點(diǎn)在DOM樹中的深度作為考量,有效地去除了網(wǎng)頁(yè)開頭、結(jié)尾處的噪音信息,因此表現(xiàn)良好。另外,可以看到,仍有近20%的短正文網(wǎng)頁(yè)的正文抽取效果不好,這是因?yàn)橛幸恍┚W(wǎng)頁(yè)的噪音信息同樣位于合法位置(總行數(shù)的5%到95%之間)而且文本密度要大于正文的文本密度,導(dǎo)致正文定位出錯(cuò)。例如,圖6所示網(wǎng)頁(yè),“網(wǎng)友發(fā)言…”與正文都位于合法位置(總行數(shù)的5%到95%之間),但是噪音信息(“網(wǎng)友發(fā)言…”)的文本密度大于正文所在節(jié)點(diǎn)的文本密度,導(dǎo)致抽取結(jié)果出錯(cuò)(將“網(wǎng)友發(fā)言…”誤當(dāng)作正文抽取出來(lái))。
本文針對(duì)目前日益增多的短正文網(wǎng)頁(yè)設(shè)計(jì)了一種正文抽取方法,通過(guò)分類算法先對(duì)輸入網(wǎng)頁(yè)進(jìn)行分類,然后根據(jù)分類結(jié)果對(duì)短正文網(wǎng)頁(yè)使用基于DOM樹深度以及文本密度的正文抽取算法進(jìn)行抽取。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的正文抽取算法在處理短正文網(wǎng)頁(yè)時(shí),與常規(guī)的自動(dòng)化正文抽取算法相比有明顯優(yōu)勢(shì)。
未來(lái),我們考慮將DOM樹中疑似正文節(jié)點(diǎn)與網(wǎng)頁(yè)中的一些標(biāo)志性節(jié)點(diǎn)(title body等)之間的相對(duì)位置作為考量的一部分加入到短正文網(wǎng)頁(yè)的正文抽取算法中,并考慮將節(jié)點(diǎn)深度與節(jié)點(diǎn)的文本密度做加權(quán),以獲取更好的正文抽取效果。
[1] A F R Rahman, H Alam, R Hartono. Content Extraction from HTML Documents[C]//Proceedings of 1st International Workshop on Web Document Analysis (WDA2001), 2001.
[2] F Sun, D Song, L Liao. Dom based content extraction via text density[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information, ACM, 2011:245-254.
[3] Hammer J, McHugh J. Semi-structured Data: The TSIMMIS Experience[C]//Proceedings of the First East-European Symposium on Advance in Databases And Information Systems,1997:1-8.
[4] Line Eikvil. Information extraction from world wide web-a survey [M].Norway: Norweigan Computing Center,1999:8-9.
[5] Alberto H F Laender, et al. A brief survey of web data extraction tools[A]. ACM Sigmod Record, New York, NY, USA. ACM,2002,31:84-93.
[6] Chia-Hui Chang, et al. A survey of web information extraction systems[J]. Knowledge and Data Engineering, IEEE Transactions on, 2006, 18(10):1411-1428.
[7] Ion Muslea, et al. A hierarchical approach to wrapper induction[C]//Proceedings of AGENTS ’99, New York, NY, USA. ACM, 1999: 190-197.
[8] Chia-Hui Chang, Shih-Chien Kuo. Olera: semisupervised web-data extraction with visual support[J]. Intelligent Systems, IEEE, 2004,19(6):56-64.
[9] Valter Crescenzi, et al. Roadrunner: Towards automatic data extraction from large web sites[C]//Proceedings of VLDB ’01, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc.2001: 109-118.
[10] T Weninger, W H Hsu, J Han. CETR-content extraction via tag ratios[C]//Proceedings of WWW ’10, New York, NY, USA, 2010:971-980.
[11] Gibson John, Wellner Ben, Lubar Susan. Adaptive web-page content identification[C]//Proceedings of the 9th annual ACM international workshop on Web information and data management, ACM New York, NY, USA.2007: 105-112.
[12] D Cai, S Yu, J Wen, et al. Extracting content structure for web pages based on visual representation[C]//Proceedings of APWeb’03, 2003: 406-417.
[13] 黃文蓓, 楊靜, 顧君忠. 基于分塊的網(wǎng)頁(yè)正文信息提取算法研究[J]. 計(jì)算機(jī)應(yīng)用, 2007,27(51):24-26.
[14] 彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學(xué)報(bào), 2011,25(1):54-59.
[15] 寧亞輝, 樊興華, 吳渝. 基于領(lǐng)域詞語(yǔ)本體的短文本分類[J].計(jì)算機(jī)科學(xué), 2009, 36(3): 142-145.
A Content Extraction Method for Short Web Pages
XI Jiazhen1,2,GUO Yan1,LI Qiang1,2,ZHAO Ling1,LIU Yue1,YU Xiaoming1,CHENG Xueqi1
(1. CAS Key Laboratory of Network Data Science & Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China; 2. University of Chinese Academy of Sciences, Beijing 100080,China)
To deal with the ever-growing short content web pages, this paper puts forward to first classify the web pages into two types: short content pages and long content pages. Then, an algorithm for content extraction from short content web pages is designed by combining DOM tree depth and text density.
short content; content extraction
郗家貞(1990—),碩士,主要研究領(lǐng)域?yàn)樾畔⒆ト?、抽取,新聞去重、垃圾新聞識(shí)別、質(zhì)量識(shí)別等預(yù)處理工作。E?mail:jiayu1990@gmail.com郭巖(1974—),博士,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)信息處理。E?mail:guoy@ict.a(chǎn)c.cn黎強(qiáng)(1989—),碩士,主要研究領(lǐng)域?yàn)榫W(wǎng)頁(yè)信息抽取、眾包、機(jī)器學(xué)習(xí)。E?mail:liqiang@software.ict.a(chǎn)c.cn
1003-0077(2016)01-0008-08
2013-08-10 定稿日期: 2014-04-10
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2014CB340401,2013CB329602);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61232010);國(guó)家科技支撐專項(xiàng)(2012BAH39B04)
TP391
A