基于時間頻率加權(quán)DOM的Web信息抽取方法

2011-02-10 01:56馬瑞民東北石油大學(xué)計算機與信息技術(shù)學(xué)院黑龍江大慶163318

長江大學(xué)學(xué)報(自科版) 2011年1期

馬瑞民,錢浩 (東北石油大學(xué)計算機與信息技術(shù)學(xué)院,黑龍江大慶163318)

當(dāng)前,Web已經(jīng)成為人們獲取信息的主要渠道。怎樣對Web上大量的數(shù)據(jù)信息進行抽取成了現(xiàn)今數(shù)據(jù)挖掘研究的熱點。Web信息抽取是從網(wǎng)絡(luò)中獲得用戶需要的信息的過程[1],目前已有的技術(shù)有基于歸納學(xué)習(xí)的信息抽取、基于DOM的信息抽取、基于Web查詢的信息抽取、基于自然語言處理的信息抽取、基于模型的信息抽取和基于本體的信息抽取[1]等。其中基于DOM的Web信息抽取的特點是,將Web文檔轉(zhuǎn)換成反映HTML/XML文件層次結(jié)構(gòu)的DOM樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則。

以上的方法在技術(shù)方面都比較成熟,但均沒有考慮到時間因素。為此,筆者結(jié)合DOM的Web信息抽取加上時間因素,提出了一種基于TFW-DOM的Web信息抽取方法。該方法考到多次抽取的情況,通過對頁面DOM樹加權(quán),利用公式計算每次的抽取時間,結(jié)合基于DOM的抽取方法完成每次的信息抽取。

1 基本定義

圖1 DOM樹

定義1(抽取項) 抽取項即用戶想在頁面中抽取的文本內(nèi)容[2]。

定義2(抽取規(guī)則) 抽取規(guī)則是對抽取項在整個文檔中的定位,表現(xiàn)在DOM樹上就是由根節(jié)點到抽取項路過的節(jié)點序列所表示的路徑信息。假設(shè)DOM樹中的節(jié)點用element(i)(i=0,1,2,…)表示,抽取項的路徑信息就是一組element(i)(j)序列 (其中i≠j,i＜j)。如圖 1所示,如果要定位Text:“My link”節(jié)點,它的路徑就應(yīng)該是element(0)element(2)element(4)。

定義3(T加權(quán)) T加權(quán)是對DOM樹中每個元素添加時間屬性的過程,這2個屬性分別是最近一次(假設(shè)是第n次)抽取該節(jié)點信息的時間e-time和第n次抽取與第n-1次抽取的時間間隔et-interval。

定義4(F加權(quán)) F加權(quán)是對DOM樹中每個元素添加頻率的過程,表示調(diào)用信息抽取模塊用到該屬性的頻率。

圖2 TFW-DOM抽取流程

定義5(TFW-DOM) 經(jīng)過了T、F加權(quán)后得到的DOM樹。TFW-DOM樹的每個元素至少有3個屬性:e-time、et-interval、frequcency。

2 TFW-DOM抽取算法

基于 TFW-DOM的 Web信息抽取方法(簡稱 TFW-DOM抽取)考慮的是多次抽取的情況,用戶無需手動抽取,系統(tǒng)通過抽取時間計算公式計算出每次的抽取時間,然后按照基于DOM的抽取方法進行抽取。該方法適用于多級管理層,每級管理層對數(shù)據(jù)的實時性要求不一,在時間上具有很大的靈活性?；赥FW-DOM的Web信息抽取方法的處理流程如圖2所示。

首先根據(jù)用戶的需求,獲得相關(guān)Web頁面URL,通過頁面清理把不規(guī)則的源代碼變?yōu)榉蟇3C標(biāo)準的 HTML/XML文檔;對于規(guī)則庫中沒有現(xiàn)成規(guī)則的URL,進入DOM樹加權(quán),然后在基于DOM的Web信息抽取方法[3]的基礎(chǔ)上,通過抽取時間計算得到抽取規(guī)則,將生成的抽取規(guī)則分別輸入規(guī)則庫和抽取的執(zhí)行模塊,下次再遇到類似的抽取任務(wù)就可以直接從規(guī)則庫中調(diào)取抽取規(guī)則;根據(jù)抽取規(guī)則在執(zhí)行模塊完成抽取后,結(jié)果進入數(shù)據(jù)處理部分,最后生成結(jié)構(gòu)化數(shù)據(jù)。生成的數(shù)據(jù)結(jié)構(gòu)可根據(jù)用戶的實際需要選擇,具有很大的靈活性。

1)頁面清理模塊在頁面清理模塊中,利用Tidy庫提供的功能對Web頁面進行標(biāo)準化處理,得到符合W3C的HTML/XML文檔,部分糾錯過濾代碼如下:

2)計算抽取時間算法在這個模塊主要使用一個循環(huán)利用2個計算公式,完成抽取時間的計算,算法步驟如下:

其中,frequency是原頻率;frequency是新產(chǎn)生的頻率;time為系統(tǒng)當(dāng)前時間。

3 試驗

選取中國石油化工股份有限公司企業(yè)網(wǎng)站對其化工產(chǎn)品進行實驗,對于抽取方法主要從抽取速度、時間準確性、召回率和準確率4方面來檢驗,試驗數(shù)據(jù)比較結(jié)果如表1。

因為針對專門的領(lǐng)域,所以TFW-DOM抽取法有很好的準確率和召回率;同時試驗結(jié)果表明TFW-DOM抽取法對多次抽取的效率明顯高于文獻 [4]的方法;因為受抽取時間計算公式中各計算因子影響,在抽取時間準確率上不能達到100%,但基本能夠滿足用戶各管理級的時間要求。

表1 試驗比較結(jié)果

4 結(jié) 語

筆者提出的抽取方法在初次抽取后得到的抽取規(guī)則存入規(guī)則庫中,可重復(fù)使用,避免了抽取規(guī)則的重用,在整個抽取過程中不需要人工參與,在提高效率的同時也減輕了用戶的操作負擔(dān)?；赥FWDOM的Web信息抽取方法通過抽取規(guī)則文件得到抽取任務(wù)的相關(guān)信息和執(zhí)行抽取的條件,因此,用戶只需改變輸入的頁面URL,完成初次抽取時的抽取規(guī)則文件生成,即可完成全新的抽取任務(wù),并且最終得到的數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)上有相應(yīng)的靈活性,這些使得基于TFW-DOM的Web信息抽取方法具備良好的可用性、易用性和通用性。

[1]色菲,王佳,潘超.基于XML描述的WEB信息抽取技術(shù)研究[J].計算機與信息技術(shù),2007,34(2):403,380.

[2]陳曉鋒,張凌,董守斌.基XPath比較Web數(shù)據(jù)抽取方法[J].鄭州大學(xué)學(xué)報,2007,39(2):161-166.

[3]李效東,顧毓清.基于DOM的Web信息提取 [J].計算機學(xué)報,2002,25(5):526-533.

[4]于靜,李森.基于信息抽取的主動服務(wù)技術(shù)研究[J].計算機系統(tǒng)應(yīng)用,2008,(1):54-56,60.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于時間頻率加權(quán)DOM的Web信息抽取方法

1 基本定義

2 TFW-DOM抽取算法

3 試 驗

4 結(jié) 語

3 試驗