国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于正則抽取的竹種數(shù)據(jù)結(jié)構(gòu)化方法研究

2018-06-20 07:51:14李紹穩(wěn)許高建林建彬
關(guān)鍵詞:竹類竹種準(zhǔn)確率

李 欣,李紹穩(wěn),許高建,林建彬

(安徽農(nóng)業(yè)大學(xué) 信息與計(jì)算機(jī)學(xué)院,安徽 合肥 230036)

0 引 言

中國(guó)是世界竹林大國(guó),在竹亞科植物的分類及種質(zhì)資源保存上已經(jīng)取得了舉世矚目的成績(jī)?!吨袊?guó)植物志》、《中國(guó)竹類植物圖志》和各地地方植物志文獻(xiàn)的公開出版及《竹類研究會(huì)刊》等領(lǐng)域重點(diǎn)期刊集中報(bào)道了大量的竹類研究論文和著作,此外竹類植物相關(guān)的專業(yè)性網(wǎng)站也陸續(xù)上線,如中國(guó)竹網(wǎng)、中國(guó)竹子網(wǎng)等。這些文獻(xiàn)及電子資源都極大地豐富了竹類研究領(lǐng)域的信息交流。然而隨著數(shù)字化技術(shù)的發(fā)展,如何有效管理這些龐大的文獻(xiàn)資源,將竹類種質(zhì)資源的基礎(chǔ)信息完整、準(zhǔn)確、高效地保存下來,并實(shí)現(xiàn)在專業(yè)領(lǐng)域內(nèi)的共享、交流和利用,成為竹亞科研究領(lǐng)域急需解決的問題。數(shù)據(jù)庫(kù)是實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)和共享的有效方式,構(gòu)建竹類種質(zhì)資源基礎(chǔ)數(shù)據(jù)庫(kù)勢(shì)在必行。

目前竹類研究的文獻(xiàn)及電子信息資源大都是沒有結(jié)構(gòu)的文本文檔、半結(jié)構(gòu)化數(shù)據(jù)或Web數(shù)據(jù),而竹類植物的基礎(chǔ)數(shù)據(jù)庫(kù)字段設(shè)計(jì)復(fù)雜、屬性維度高、數(shù)據(jù)采集量大,純手工錄入效率低[1]。信息抽取(information extraction)技術(shù)致力于從自然語言文本中獲取結(jié)構(gòu)化信息,已經(jīng)成功地應(yīng)用于情報(bào)檢索、自動(dòng)文摘、文本分類等多個(gè)領(lǐng)域。

信息抽取是指依據(jù)一定的規(guī)則實(shí)現(xiàn)從文本中抽取特定的內(nèi)容(如實(shí)體、關(guān)系和事例等)得到結(jié)構(gòu)化的數(shù)據(jù),將抽取結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中或結(jié)構(gòu)化文件中形成一個(gè)數(shù)據(jù)集,為后續(xù)的數(shù)據(jù)挖掘、信息檢索和知識(shí)發(fā)現(xiàn)服務(wù)提供數(shù)據(jù)支撐[2]。著名的信息抽取會(huì)議(message understanding conferences,MUC)對(duì)信息抽取進(jìn)行了嚴(yán)格的定義,指出信息抽取就是從一堆數(shù)據(jù)中提取特定內(nèi)容填充給定的數(shù)據(jù)表結(jié)構(gòu)模版的屬性值[3]。一直以來,信息抽取技術(shù)就是文本挖掘和自然語言處理研究的熱點(diǎn)問題,并有效解決了從海量知識(shí)中快速提取關(guān)鍵信息,從自由文檔或半結(jié)構(gòu)化文檔中提取結(jié)構(gòu)化數(shù)據(jù)的問題[4]?;谝陨涎芯?,文中提出一種基于信息抽取技術(shù)的竹種數(shù)據(jù)結(jié)構(gòu)化方法,構(gòu)建正則抽取模型,實(shí)現(xiàn)竹種基礎(chǔ)數(shù)據(jù)庫(kù)的快速構(gòu)建。

1 方 法

1.1 信息抽取系統(tǒng)

信息抽取系統(tǒng)的任務(wù)是從指定文本中按照一定的規(guī)則提取特定的事實(shí)(命名實(shí)體、關(guān)系、屬性值等)填充到預(yù)定義的數(shù)據(jù)庫(kù)模板中[5]。抽取規(guī)則構(gòu)建即抽取模式的獲得,是構(gòu)建信息抽取系統(tǒng)最重要的一個(gè)環(huán)節(jié)。依據(jù)抽取模式獲取方法的不同,信息抽取方法可以分為兩類:基于機(jī)器學(xué)習(xí)的方法和基于規(guī)則的方法[6]。機(jī)器學(xué)習(xí)方法的一般思路是先利用訓(xùn)練數(shù)據(jù)構(gòu)建一個(gè)抽取模型,選擇一種機(jī)器學(xué)習(xí)算法作用于訓(xùn)練數(shù)據(jù)得到模型的參數(shù)并完善模型,再用這個(gè)構(gòu)建好的抽取模型實(shí)現(xiàn)對(duì)未標(biāo)注語料的抽取任務(wù);該方法的優(yōu)點(diǎn)在于自動(dòng)學(xué)習(xí)規(guī)則,自動(dòng)構(gòu)建模型,領(lǐng)域移植性強(qiáng),缺點(diǎn)是需要大量的訓(xùn)練語料才能保證模型的準(zhǔn)確率[7]?;谝?guī)則的方法又叫基于知識(shí)工程的方法,其一般思路是先根據(jù)信息抽取對(duì)象的特定領(lǐng)域構(gòu)建規(guī)則集(最初通常是手工構(gòu)建),再根據(jù)抽取規(guī)則對(duì)目標(biāo)文檔執(zhí)行抽取操作;該方法的優(yōu)點(diǎn)是基于領(lǐng)域知識(shí)編寫規(guī)則,大幅提高了信息抽取的準(zhǔn)確率,缺點(diǎn)就在于對(duì)領(lǐng)域知識(shí)的依賴性強(qiáng),且手工構(gòu)建規(guī)則成為該方法的技術(shù)瓶頸[8-9]。其后,越來越多的學(xué)者將兩者相結(jié)合,采用機(jī)器學(xué)習(xí)算法進(jìn)行知識(shí)的自動(dòng)學(xué)習(xí)和處理,手工編寫規(guī)則與基于語料庫(kù)自動(dòng)學(xué)習(xí)規(guī)則相結(jié)合,再根據(jù)抽取結(jié)果輔以手動(dòng)修正規(guī)則[10]。

文中研究的竹類種質(zhì)資源屬于特定學(xué)科領(lǐng)域,數(shù)據(jù)集小,更宜采用基于規(guī)則的信息抽取方法。研究根據(jù)竹類植物數(shù)據(jù)的特點(diǎn),將正則表達(dá)式用于信息抽取系統(tǒng)中的模式匹配和規(guī)則構(gòu)建,提出一種正則抽取模型,以確保抽取結(jié)果的準(zhǔn)確率。

1.2 正則表達(dá)式

正則表達(dá)式(regular expression,RE)是用于描述字符匹配規(guī)則的一種工具,或者說是一種記錄文本規(guī)則的代碼,功能在于可以用單個(gè)字符串來描述、匹配一系列符合某個(gè)句法規(guī)則的字符串[11]。正則表達(dá)式是軟件開發(fā)中處理字符串的利器。簡(jiǎn)單的說,正則表達(dá)式在字符串處理中有三大作用:一是匹配作用,檢測(cè)預(yù)定的字符串和正則表達(dá)式的過濾邏輯是否匹配,如數(shù)據(jù)包檢測(cè)過濾、賬號(hào)密碼驗(yàn)證、郵箱地址驗(yàn)證等;二是查找作用,在能正確匹配的基礎(chǔ)上,將所需要的字符查找出來,如信息抽取、自動(dòng)文摘等;三是替換作用,在正確查找的基礎(chǔ)上,將查找結(jié)果進(jìn)行替換[12]。正則表達(dá)式已經(jīng)廣泛應(yīng)用于信息抽取和信息檢索領(lǐng)域[13-14]。

正則表達(dá)式的構(gòu)建:一個(gè)正則表達(dá)式是由一些基本字符(元字符、限定符及特殊字符等)組合成的文字模式,描述了待搜索字符串的匹配模式[12]。元字符用來規(guī)定其前導(dǎo)字符在目標(biāo)對(duì)象中的出現(xiàn)模式,限定字符是指定數(shù)量的代碼,常見的元字符和限定字符如表1所示[12]。在構(gòu)建正則表達(dá)式時(shí),只需將希望查找匹配對(duì)象的模式內(nèi)容放進(jìn)定界符“/”中間,如匹配HTML標(biāo)記的正則表達(dá)式:/<(.*)>.*|<(.*) />/。

表1 正則表達(dá)式中常用元字符和限定符

為了說明正則表達(dá)式的用法,下面給出一個(gè)正則表達(dá)式的例子(Linux的防火墻體系下用于檢測(cè)網(wǎng)絡(luò)協(xié)議的正則表達(dá)式):

^(get[x09-x0d-~]*Accpet:application/x-rtsp-tunnelled|http/(0.9|1.0|1.1)[1-5][0-9][0-9][x09-x0d-~]*a=control:rstp://)

其中的主要正則語句描述如下:

^(get…|http…) 匹配以get…或http…為開頭的字符串[x09-x0d-~]匹配任意個(gè)可打印的字符,范圍從x09到x0d及從空格到~http/(0.9|1.0|1.1)匹配http/0.9或http/1.0或http/1.1[1-5][0-9][0-9]匹配一個(gè)三位數(shù),范圍從100到599

1.3 方法實(shí)現(xiàn)

(1)抽取模式。

竹種基礎(chǔ)數(shù)據(jù)庫(kù)的表結(jié)構(gòu)即竹種信息抽取系統(tǒng)的抽取模板,根據(jù)竹種外在形態(tài)結(jié)合生殖器官和營(yíng)養(yǎng)器官,從地下莖、竹竿、竹籜、竹葉、花果形態(tài)五個(gè)維度共設(shè)計(jì)字段57個(gè),下面給出部分字段設(shè)計(jì),見表2。以數(shù)據(jù)表的屬性名稱為規(guī)則觸發(fā)詞,構(gòu)建完整的觸發(fā)詞集。

表2 竹種基礎(chǔ)數(shù)據(jù)庫(kù)屬性(部分)

(2)抽取規(guī)則構(gòu)造。

對(duì)竹種信息的抽取分為兩部分:網(wǎng)頁解析和字段抽取。

網(wǎng)頁解析是為了實(shí)現(xiàn)對(duì)網(wǎng)頁中文本信息的抓取,通過定位詞找到關(guān)鍵信息,通過構(gòu)造正則表達(dá)式,過濾標(biāo)簽提取純文本信息,網(wǎng)頁解析的正則表達(dá)式構(gòu)造如:“<*b*>*(.*?)<*/*b*>*

”,通過模式匹配捕獲組抓取自由文本信息。

字段抽取是從純文本描述中,依據(jù)正則表達(dá)式的模糊匹配功能找到字段的屬性值,填入對(duì)應(yīng)的數(shù)據(jù)庫(kù)模板中。對(duì)字段抽取的規(guī)則構(gòu)造加以舉例說明,如表3所示。

(3)正則抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。

文中提出基于正則表達(dá)式的竹種信息抽取模型,采用Java語言編程開發(fā)竹種信息抽取系統(tǒng),主要包括數(shù)據(jù)采集與預(yù)處理模塊、抽取模式生成模塊和信息抽取執(zhí)行模塊。系統(tǒng)中采用的分詞工具為中科院的ICTCLAS分詞系統(tǒng)2014,該工具能對(duì)漢語文本進(jìn)行切分并標(biāo)注詞性。系統(tǒng)結(jié)構(gòu)如圖1所示。

表3 字段抽取示例

圖1 竹種信息抽取系統(tǒng)結(jié)構(gòu)

1.4 抽取效果評(píng)價(jià)與指標(biāo)

常用的信息抽取模型的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Pr)、召回率(Re)和F-測(cè)度(F-Measure),計(jì)算公式分別見式1~3[15]。準(zhǔn)確率顯示了模型的正確率,召回率顯示了模型的性能,F(xiàn)-測(cè)度是準(zhǔn)確率和召回率的綜合性能評(píng)價(jià)方法。

(1)

(2)

(3)

F-測(cè)度當(dāng)β取1時(shí),就是F1-測(cè)度。文中采用上述的Pr、Re和F-測(cè)度作為對(duì)正則抽取模型及竹種信息抽取系統(tǒng)的性能評(píng)測(cè)指標(biāo)。測(cè)試的目標(biāo)是希望得到最大的F值。

2 實(shí) 驗(yàn)

2.1 數(shù)據(jù)采集與預(yù)處理

文中采取網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)目標(biāo)源數(shù)據(jù)的網(wǎng)頁采集工作。以竹種信息采集為例,具體做法是用爬蟲算法進(jìn)行竹子信息網(wǎng)頁的自動(dòng)采集和下載,通過預(yù)處理簡(jiǎn)化源HTML文檔,只留下與抽取模式匹配的HTML代碼,再去除HTML標(biāo)簽讀取文本信息,將文本信息存儲(chǔ)為待抽取文檔。

以中國(guó)植物志在線版為抽取對(duì)象,進(jìn)行抽取實(shí)驗(yàn)。從網(wǎng)頁上截取一小段竹種描述信息:“地下莖為單軸或復(fù)軸型。稈散生,直立;節(jié)間在有分枝一側(cè)的基部乃至中、上部扁平或具縱溝槽?!睂?duì)語料進(jìn)行如下分析:

特點(diǎn)1:句子與句子之間的區(qū)分界限很明顯,即對(duì)竹子的不同部位的描述在不同的句子里。

特點(diǎn)2:每個(gè)句子的第一個(gè)詞是句子的關(guān)鍵詞,如前述語料的的關(guān)鍵詞分別是地下莖、竿、節(jié)間。

特點(diǎn)3:在句子內(nèi)部,屬性與屬性之間的分隔界限也很明顯,如“竿散生,直立”。

特點(diǎn)4:待抽取屬性名稱,如地下莖類型、竿高度、節(jié)間長(zhǎng)度,這三個(gè)短語的關(guān)鍵詞也是地下莖、竿、節(jié)間。

根據(jù)以上分析,在進(jìn)行抽取時(shí)第一步將文本信息以“;”或者“?!鼻蟹殖删渥蛹?,然后根據(jù)觸發(fā)詞定位到關(guān)鍵句,再對(duì)單個(gè)句子進(jìn)行分析;第二步將單個(gè)句子用“,”切分成短語集,利用抽取規(guī)則對(duì)短語集進(jìn)行遍歷匹配,進(jìn)而抽取出對(duì)應(yīng)的屬性值。由此得出抽取算法的一般過程為:

輸入:一段自由文本

輸出:字段的屬性值

(1)以“;”或“?!睂⑽谋厩蟹殖删渥蛹?;

(2)取出屬性名稱與上述句子集的每個(gè)句子的關(guān)鍵詞進(jìn)行比對(duì);

(3)通過步驟2的比較定位到關(guān)鍵句;

(4)定位到關(guān)鍵句后,對(duì)該關(guān)鍵句用“,”切分成短語集;

(5)取出屬性的抽取規(guī)則的正則表達(dá)式與步驟4中的短語集進(jìn)行遍歷匹配;

(6)如果匹配成功,則抽取出屬性值的信息,并返回;

(7)如果匹配失敗,賦空值,并返回。

2.2 抽取結(jié)果及評(píng)價(jià)

抽取執(zhí)行過程及結(jié)果如圖2所示。

圖2 竹種信息抽取過程

對(duì)竹種數(shù)據(jù)庫(kù)中數(shù)據(jù)表的前八個(gè)字段的抽取結(jié)果進(jìn)行統(tǒng)計(jì)分析,選取簕竹屬、牡竹屬、剛竹屬和玉山竹屬下46個(gè)竹種作為樣本點(diǎn),統(tǒng)計(jì)Pr、Re和F-Measure,如表4所示。

表4 竹種抽取系統(tǒng)實(shí)驗(yàn)結(jié)果

對(duì)取樣結(jié)果進(jìn)行分析表明,提出的正則抽取模型準(zhǔn)確率較高,能夠有效地從竹類植物電子文獻(xiàn)或Web網(wǎng)頁上自動(dòng)采集抽取到相應(yīng)的竹種信息。研究開發(fā)的竹種信息抽取系統(tǒng)是可行有效的。

3 結(jié)束語

基于正則表達(dá)式能快速匹配文本和基于規(guī)則的抽取準(zhǔn)確率較高的優(yōu)勢(shì),提出了基于正則抽取模型的竹種數(shù)據(jù)結(jié)構(gòu)化方法。該方法以竹種數(shù)據(jù)庫(kù)屬性為抽取模式,利用正則表達(dá)式構(gòu)建抽取規(guī)則,設(shè)計(jì)實(shí)現(xiàn)了竹種信息抽取系統(tǒng),以中國(guó)植物志在線版為抽取對(duì)象,實(shí)例驗(yàn)證了系統(tǒng)的抽取準(zhǔn)確率。而抽取規(guī)則的構(gòu)建需要竹亞科領(lǐng)域?qū)<业膮⑴c,領(lǐng)域依賴性較高,這導(dǎo)致系統(tǒng)不具備很好的移植性。下一步的研究中將考慮借助本體的知識(shí)工程方法來提高信息抽取模型的精確匹配,利用竹亞科本體中包含的領(lǐng)域知識(shí)及語義信息來指導(dǎo)信息抽取的整個(gè)過程。

參考文獻(xiàn):

[1] 邢新婷.竹類種質(zhì)資源的收集、保存及其數(shù)據(jù)庫(kù)構(gòu)建[D].北京:中國(guó)林業(yè)科學(xué)研究院,2006.

[2] NéDELLEC C, NAZARENKO A,BOSSY R.Information extraction[M]//Verification plans.USA:Springer,2002:737.

[3] SODERLAND S. Learning information extraction rules for semi-structured and free text[J].Machine Learning,1999,34(1):233-272.

[4] SEKI K,MOSTAFA J.A hybrid approach to protein name identification in biomedical texts[J].Information Processing & Management,2005,41(4):723-743.

[5] 張素香.信息抽取中關(guān)鍵技術(shù)的研究[D].北京:北京郵電大學(xué),2007.

[6] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(10):1-5.

[7] 金 莉.基于機(jī)器學(xué)習(xí)的Web信息提取技術(shù)的研究[D].武漢:華中科技大學(xué),2003.

[8] 石 倩,陳 榮,魯明羽.基于規(guī)則歸納的信息抽取系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(21):166-170.

[9] KLUEGL P,TOEPFER M,BECK P D,et al.UIMA Ruta:rapid development of rule-based information extraction applications[J].Natural Language Engineering,2016,22(1):1-40.

[10] 胡軍偉,秦奕青,張 偉.正則表達(dá)式在Web信息抽取中的應(yīng)用[J].北京信息科技大學(xué)學(xué)報(bào):自然科學(xué)版,2011,26(6):86-89.

[11] 楊 楨,趙燕平,朱東華.基于正則表達(dá)式的信息抽取系統(tǒng)在國(guó)防技術(shù)監(jiān)測(cè)中的應(yīng)用[J].北京理工大學(xué)學(xué)報(bào),2006,26:74-78.

[12] 弗里德爾.精通正則表達(dá)式[M].北京:電子工業(yè)出版社,2012.

[13] 向菁菁,耿光剛,李曉東.一種新聞網(wǎng)頁關(guān)鍵信息的提取算法[J].計(jì)算機(jī)應(yīng)用,2016,36(8):2082-2086.

[14] 朱文琰,鄭肖雄.基于正則表達(dá)式構(gòu)建學(xué)習(xí)的網(wǎng)頁信息抽取方法[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(2):14-19.

[15] 趙 軍,劉 康,周光有,等.開放式文本信息抽取[J].中文信息學(xué)報(bào),2011,25(6):98-110.

猜你喜歡
竹類竹種準(zhǔn)確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
中國(guó)竹類資源與分布
河南淅川竹博園竹種引種試驗(yàn)初報(bào)
牡竹屬3個(gè)竹種地上部分生物量及特性研究
竹類植物分類研究進(jìn)展
河南科技(2014年5期)2014-02-27 14:08:46
中國(guó)竹類研究成果分析
緬甸竹種的物理機(jī)械性能
高唐县| 加查县| 赤峰市| 沈丘县| 招远市| 玉田县| 额敏县| 溧阳市| 启东市| 修文县| 浑源县| 巴中市| 青海省| 永修县| 武宁县| 鄂州市| 松潘县| 保亭| 佛教| 当雄县| 瑞丽市| 建水县| 临湘市| 巩义市| 宝坻区| 日喀则市| 定安县| 莱芜市| 伊宁县| 仙居县| 凤庆县| 康平县| 大荔县| 探索| 九江县| 南雄市| 洛浦县| 金山区| 宁波市| 五大连池市| 富顺县|