常麗君
摘要:隨著網(wǎng)絡(luò)上信息的飛速增長,網(wǎng)絡(luò)已發(fā)展成為一個巨大的數(shù)據(jù)庫,人們對快速準(zhǔn)確地獲取網(wǎng)頁數(shù)據(jù)提出了更多的需求。目前,自然語言處理領(lǐng)域已經(jīng)將網(wǎng)頁信息抽取技術(shù)的研究作為一個重點。首先該文介紹了關(guān)于本體的一些基礎(chǔ)知識,在此基礎(chǔ)上提出并實現(xiàn)了一種基于領(lǐng)域本體的網(wǎng)頁數(shù)據(jù)抽取方法。在該文中,利用領(lǐng)域本體的關(guān)鍵詞、概念及關(guān)系來生成抽取規(guī)則,采用語法分析模塊對輸入的文檔進(jìn)行預(yù)處理,最后根據(jù)語法分析的機(jī)構(gòu)和生成的抽取規(guī)則來對文檔實現(xiàn)數(shù)據(jù)抽取。實驗證明,該方法具有良好的性能。
關(guān)鍵詞: 本體;網(wǎng)頁數(shù)據(jù)抽?。话b器
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)16-3726-03
Abstract: With the rapid growth of information on the network, the network has developed into a huge database, people are more desirable to get pages of data quickly. Currently, the field of natural language processing has focused the web information extraction. First this pager introduces the basic knowledge of ontology. Based on this, this pager presents a new approach to extracting information from normal document based on ontology. This paper first introduces some basic knowledege about the ontology, then proposed and implemented a web data extraction method. In this pager, it used domain ontology words, concepts and relationships to generate extraction rules, used the syntax analysis module for pre-processing the input document. At last, it achieve the data according to extraction rules and documents generated by parsing. The experiment has shown that the approch got a very good performance.
Key words: ontology; web information extraction; wrapper
1 相關(guān)背景
隨著網(wǎng)絡(luò)的快速發(fā)展以及計算機(jī)在各個領(lǐng)域的廣泛應(yīng)用,網(wǎng)絡(luò)已發(fā)展成為一個巨大的數(shù)據(jù)庫。針對這些挑戰(zhàn),人們對在海量WEB信息中快速準(zhǔn)確地找到所需的數(shù)據(jù)提出了更高的要求。為了解決這個問題,Web信息抽取開始逐步得到研究。目前Web信息抽取技術(shù)存在的主要問題有:(1)人工干預(yù)較多,大部分技術(shù)中都需要大量的樣本訓(xùn)練集,給用戶帶來比較大的負(fù)擔(dān)。(2)適應(yīng)性差,根據(jù)具體信息源生成的包裝器程序只能用于某種具體的網(wǎng)頁結(jié)構(gòu)。針對目前Web信息抽取技術(shù)存在的一些問題,通過研究已有的信息抽取技術(shù),該文提出了一種基于本體[1]的信息抽取方法,HTML源文件作為本系統(tǒng)的輸入?yún)?shù),輸出的結(jié)果是包含主、謂、賓三種成分的三元組,可以將結(jié)果存入數(shù)據(jù)庫。
2 基于本體的數(shù)據(jù)抽取的過程
本文在研究了已經(jīng)存在的網(wǎng)頁信息抽取相關(guān)技術(shù)之后,設(shè)計了一個新的基于領(lǐng)域本體的網(wǎng)頁數(shù)據(jù)抽取系統(tǒng)。抽取的主要過程分為以下幾個步驟:
1) 信息抽取規(guī)則的生成。首先本體解析器對領(lǐng)域本體進(jìn)行解析,再根據(jù)得到的結(jié)果自動生成數(shù)據(jù)抽取規(guī)則。
2) 對HTML文檔進(jìn)行預(yù)處理。對于實驗所用的文件,經(jīng)過預(yù)處理之后,語法分析過程再采用分詞處理模塊和句法分析模塊對文本處理。
3) 數(shù)據(jù)抽取。根據(jù)前面的抽取規(guī)則,數(shù)據(jù)抽取過程采用它抽取規(guī)則對預(yù)處理后的文本實現(xiàn)數(shù)據(jù)抽取。
2.1 信息抽取規(guī)則的生成
首先介紹一下本體的基本知識。本體是關(guān)于某一領(lǐng)域的概念、關(guān)系等的描述?;陬I(lǐng)域本體的網(wǎng)頁數(shù)據(jù)抽取技術(shù)是針對某一具體領(lǐng)域的。該文使用的本體是OWL本體。本系統(tǒng)采用protege工具建立本體。本系統(tǒng)建立了一個手機(jī)領(lǐng)域的本體,如圖1所示。
定義了手機(jī)的本體之后,接下來的工作是本體解析器的設(shè)計。經(jīng)過對多種本體的數(shù)據(jù)庫存儲模式的觀察與分析,該文提出一種新的存儲模式來存儲OWL本體。設(shè)計的表主要包括class表,property表和restriction表。通過對本體的解析,將得到抽取數(shù)據(jù)的抽取規(guī)則。對于本系統(tǒng)中的手機(jī)本體,得到的抽取規(guī)則[4]見圖2:
2.2 對HTML文檔的預(yù)處理
首先將HTML網(wǎng)頁轉(zhuǎn)化為對應(yīng)的非格式化的文本文件,然后采用已有的漢語詞法分析系統(tǒng)ICTCLAS對文本文件進(jìn)行處理。得到了分詞結(jié)果之后,接下來的工作是采用句法分析模塊對分詞結(jié)果進(jìn)行分析。本系統(tǒng)的句法分析模算法是對已有的自然語言句法分析器的改進(jìn)。系統(tǒng)通過加入結(jié)構(gòu)上下文相關(guān)條件,提高了分析結(jié)果的準(zhǔn)確率。
通過對句子的句法分析之后,接下來的工作是抽出它的名詞短語以及動詞短語結(jié)構(gòu)。主要包含以下4個步驟:
1) 通過句法分析之后,對于np()結(jié)構(gòu),抽取出句子里的n()(名詞)成分和v()(動詞)成分,“/nn”表示名詞,”/v”表示動詞。endprint
2) 對于vp()結(jié)構(gòu),抽取出句子里的n()(名詞)成分和v()(動詞)成分,“/vn”表示名詞,”/v”表示動詞。
3) 當(dāng)np()里面還存在vp()或者np()時,繼續(xù)采用前面兩個步驟進(jìn)行處理。
4) 同樣當(dāng)vp()里面還存在vp()或者np()時,也繼續(xù)采用前面兩個步驟進(jìn)行處理。
實驗結(jié)果表明,通過語法分析之后,輸入的句子被轉(zhuǎn)換成了包含對應(yīng)的主語、謂語以及賓語等成分的詞語串。
3 信息抽取模塊的實現(xiàn)
首先形成一個關(guān)于可以匹配的詞的關(guān)系鏈表,接下來的工作是匹配得到的關(guān)系鏈表,完成該功能的方法是Match(),包含下面四個步驟:
1)對于三元組里的主語,我們在鏈表里查詢是否存在標(biāo)識為“/nn”(代表句子里的主語)的成分。
2) 當(dāng)前面第一步成功了,對于三元組里的謂語,我們在鏈表里查詢是否存在標(biāo)識為“/v”(代表句子里的謂語)的成分。
3) 當(dāng)前面第二步成功了,對于三元組里的賓語,我們在鏈表里查詢是否存在標(biāo)識為“/vn”(代表句子里的賓語)的成分。
4)當(dāng)前面三步都成功之后,一個三元組就從句子中抽取出來了,實驗成功。
4 實驗和結(jié)果
本系統(tǒng)使用JAVA語言實現(xiàn),抽取到的結(jié)果如圖3所示,圖3為數(shù)據(jù)抽取得到的一個三元組表,第一列id是實驗所用的網(wǎng)頁URL的序號,第二列是三元組的序號,也就是本次實驗抽取到的結(jié)果,第三列http是實驗所用的網(wǎng)頁的url,最后一列sentence表示從該句子中抽取數(shù)據(jù)。
下面具體分析本文所實現(xiàn)的基于領(lǐng)域本體的Web數(shù)據(jù)抽取系統(tǒng)的性能:
一般采用正確率和召回率兩個指標(biāo)來評價數(shù)據(jù)抽取系統(tǒng)的性能,通過對實驗所用的網(wǎng)頁的統(tǒng)計,網(wǎng)頁中宗的正確數(shù)據(jù)有93個,本系統(tǒng)一共抽取到80個數(shù)據(jù),其中有61個正確的,召回率=(61/93)*100%=66.3%,準(zhǔn)確率=(80/93)*100%=86.1%??梢?,本系統(tǒng)取得了良好的性能。
5 小結(jié)
本文論述了基于本體的網(wǎng)頁數(shù)據(jù)抽取系統(tǒng)。在數(shù)據(jù)抽取過程中加入了語法處理,將HTML網(wǎng)頁轉(zhuǎn)換為對應(yīng)的非格式化的文本文件,然后對得到的文本文件進(jìn)行分詞處理和句法分析。實驗證明,該方法具有良好的性能,但是目前由于對中文信息的語法處理的研究還不夠,分詞和處理和句法分析本身的正確率不是很高,因此,今后的方向?qū)⑹轻槍@些問題作進(jìn)一步的研究。
參考文獻(xiàn):
[1] 鄧志鴻,唐世渭.Ontology研究綜述[J].北京大學(xué)學(xué)報:自然科學(xué)版, 2002,38(5).
[2] The Protege project,http://protege.stanford.edu,2008.
[3] Sealable Web Data Extraction for Online Market Intelligence.B.Robert,G.Georg and H.Marcus. Proceedings of VLDB , 2010.
[4] 趙波,陶躍華.ontology論及ontology論在計算機(jī)科學(xué)技術(shù)中的應(yīng)用[J].云南師范大學(xué)學(xué)報,2002(6).
[5] 陳蘭.基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學(xué),2004.
[6] 胡思康,曹元大.Web網(wǎng)頁知識獲取技術(shù)[J].北京理工大學(xué)學(xué)報,2006,25:12.endprint
2) 對于vp()結(jié)構(gòu),抽取出句子里的n()(名詞)成分和v()(動詞)成分,“/vn”表示名詞,”/v”表示動詞。
3) 當(dāng)np()里面還存在vp()或者np()時,繼續(xù)采用前面兩個步驟進(jìn)行處理。
4) 同樣當(dāng)vp()里面還存在vp()或者np()時,也繼續(xù)采用前面兩個步驟進(jìn)行處理。
實驗結(jié)果表明,通過語法分析之后,輸入的句子被轉(zhuǎn)換成了包含對應(yīng)的主語、謂語以及賓語等成分的詞語串。
3 信息抽取模塊的實現(xiàn)
首先形成一個關(guān)于可以匹配的詞的關(guān)系鏈表,接下來的工作是匹配得到的關(guān)系鏈表,完成該功能的方法是Match(),包含下面四個步驟:
1)對于三元組里的主語,我們在鏈表里查詢是否存在標(biāo)識為“/nn”(代表句子里的主語)的成分。
2) 當(dāng)前面第一步成功了,對于三元組里的謂語,我們在鏈表里查詢是否存在標(biāo)識為“/v”(代表句子里的謂語)的成分。
3) 當(dāng)前面第二步成功了,對于三元組里的賓語,我們在鏈表里查詢是否存在標(biāo)識為“/vn”(代表句子里的賓語)的成分。
4)當(dāng)前面三步都成功之后,一個三元組就從句子中抽取出來了,實驗成功。
4 實驗和結(jié)果
本系統(tǒng)使用JAVA語言實現(xiàn),抽取到的結(jié)果如圖3所示,圖3為數(shù)據(jù)抽取得到的一個三元組表,第一列id是實驗所用的網(wǎng)頁URL的序號,第二列是三元組的序號,也就是本次實驗抽取到的結(jié)果,第三列http是實驗所用的網(wǎng)頁的url,最后一列sentence表示從該句子中抽取數(shù)據(jù)。
下面具體分析本文所實現(xiàn)的基于領(lǐng)域本體的Web數(shù)據(jù)抽取系統(tǒng)的性能:
一般采用正確率和召回率兩個指標(biāo)來評價數(shù)據(jù)抽取系統(tǒng)的性能,通過對實驗所用的網(wǎng)頁的統(tǒng)計,網(wǎng)頁中宗的正確數(shù)據(jù)有93個,本系統(tǒng)一共抽取到80個數(shù)據(jù),其中有61個正確的,召回率=(61/93)*100%=66.3%,準(zhǔn)確率=(80/93)*100%=86.1%??梢姡鞠到y(tǒng)取得了良好的性能。
5 小結(jié)
本文論述了基于本體的網(wǎng)頁數(shù)據(jù)抽取系統(tǒng)。在數(shù)據(jù)抽取過程中加入了語法處理,將HTML網(wǎng)頁轉(zhuǎn)換為對應(yīng)的非格式化的文本文件,然后對得到的文本文件進(jìn)行分詞處理和句法分析。實驗證明,該方法具有良好的性能,但是目前由于對中文信息的語法處理的研究還不夠,分詞和處理和句法分析本身的正確率不是很高,因此,今后的方向?qū)⑹轻槍@些問題作進(jìn)一步的研究。
參考文獻(xiàn):
[1] 鄧志鴻,唐世渭.Ontology研究綜述[J].北京大學(xué)學(xué)報:自然科學(xué)版, 2002,38(5).
[2] The Protege project,http://protege.stanford.edu,2008.
[3] Sealable Web Data Extraction for Online Market Intelligence.B.Robert,G.Georg and H.Marcus. Proceedings of VLDB , 2010.
[4] 趙波,陶躍華.ontology論及ontology論在計算機(jī)科學(xué)技術(shù)中的應(yīng)用[J].云南師范大學(xué)學(xué)報,2002(6).
[5] 陳蘭.基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學(xué),2004.
[6] 胡思康,曹元大.Web網(wǎng)頁知識獲取技術(shù)[J].北京理工大學(xué)學(xué)報,2006,25:12.endprint
2) 對于vp()結(jié)構(gòu),抽取出句子里的n()(名詞)成分和v()(動詞)成分,“/vn”表示名詞,”/v”表示動詞。
3) 當(dāng)np()里面還存在vp()或者np()時,繼續(xù)采用前面兩個步驟進(jìn)行處理。
4) 同樣當(dāng)vp()里面還存在vp()或者np()時,也繼續(xù)采用前面兩個步驟進(jìn)行處理。
實驗結(jié)果表明,通過語法分析之后,輸入的句子被轉(zhuǎn)換成了包含對應(yīng)的主語、謂語以及賓語等成分的詞語串。
3 信息抽取模塊的實現(xiàn)
首先形成一個關(guān)于可以匹配的詞的關(guān)系鏈表,接下來的工作是匹配得到的關(guān)系鏈表,完成該功能的方法是Match(),包含下面四個步驟:
1)對于三元組里的主語,我們在鏈表里查詢是否存在標(biāo)識為“/nn”(代表句子里的主語)的成分。
2) 當(dāng)前面第一步成功了,對于三元組里的謂語,我們在鏈表里查詢是否存在標(biāo)識為“/v”(代表句子里的謂語)的成分。
3) 當(dāng)前面第二步成功了,對于三元組里的賓語,我們在鏈表里查詢是否存在標(biāo)識為“/vn”(代表句子里的賓語)的成分。
4)當(dāng)前面三步都成功之后,一個三元組就從句子中抽取出來了,實驗成功。
4 實驗和結(jié)果
本系統(tǒng)使用JAVA語言實現(xiàn),抽取到的結(jié)果如圖3所示,圖3為數(shù)據(jù)抽取得到的一個三元組表,第一列id是實驗所用的網(wǎng)頁URL的序號,第二列是三元組的序號,也就是本次實驗抽取到的結(jié)果,第三列http是實驗所用的網(wǎng)頁的url,最后一列sentence表示從該句子中抽取數(shù)據(jù)。
下面具體分析本文所實現(xiàn)的基于領(lǐng)域本體的Web數(shù)據(jù)抽取系統(tǒng)的性能:
一般采用正確率和召回率兩個指標(biāo)來評價數(shù)據(jù)抽取系統(tǒng)的性能,通過對實驗所用的網(wǎng)頁的統(tǒng)計,網(wǎng)頁中宗的正確數(shù)據(jù)有93個,本系統(tǒng)一共抽取到80個數(shù)據(jù),其中有61個正確的,召回率=(61/93)*100%=66.3%,準(zhǔn)確率=(80/93)*100%=86.1%??梢姡鞠到y(tǒng)取得了良好的性能。
5 小結(jié)
本文論述了基于本體的網(wǎng)頁數(shù)據(jù)抽取系統(tǒng)。在數(shù)據(jù)抽取過程中加入了語法處理,將HTML網(wǎng)頁轉(zhuǎn)換為對應(yīng)的非格式化的文本文件,然后對得到的文本文件進(jìn)行分詞處理和句法分析。實驗證明,該方法具有良好的性能,但是目前由于對中文信息的語法處理的研究還不夠,分詞和處理和句法分析本身的正確率不是很高,因此,今后的方向?qū)⑹轻槍@些問題作進(jìn)一步的研究。
參考文獻(xiàn):
[1] 鄧志鴻,唐世渭.Ontology研究綜述[J].北京大學(xué)學(xué)報:自然科學(xué)版, 2002,38(5).
[2] The Protege project,http://protege.stanford.edu,2008.
[3] Sealable Web Data Extraction for Online Market Intelligence.B.Robert,G.Georg and H.Marcus. Proceedings of VLDB , 2010.
[4] 趙波,陶躍華.ontology論及ontology論在計算機(jī)科學(xué)技術(shù)中的應(yīng)用[J].云南師范大學(xué)學(xué)報,2002(6).
[5] 陳蘭.基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學(xué),2004.
[6] 胡思康,曹元大.Web網(wǎng)頁知識獲取技術(shù)[J].北京理工大學(xué)學(xué)報,2006,25:12.endprint