国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文獻(xiàn)的地質(zhì)實(shí)體關(guān)系抽取方法研究

2017-11-01 06:12:32呂鵬飛王春寧朱月琴
中國礦業(yè) 2017年10期
關(guān)鍵詞:三元組語料實(shí)體

呂鵬飛,王春寧,朱月琴

(1.中國地質(zhì)圖書館,北京 100083;2.中國科學(xué)院大學(xué),北京 100049;3.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;4.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037)

基于文獻(xiàn)的地質(zhì)實(shí)體關(guān)系抽取方法研究

呂鵬飛1,2,王春寧1,朱月琴3,4

(1.中國地質(zhì)圖書館,北京100083;2.中國科學(xué)院大學(xué),北京100049;3.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京100037;4.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京100037)

實(shí)體關(guān)系抽取是信息抽取的一項(xiàng)重要內(nèi)容,通過實(shí)體關(guān)系的抽取能夠發(fā)現(xiàn)文本中的有價值信息。本文在分析和比較了有監(jiān)督、無監(jiān)督、弱監(jiān)督以及開放式等關(guān)系抽取方法的原理和特點(diǎn)的基礎(chǔ)上,建立了基于文獻(xiàn)的地質(zhì)實(shí)體關(guān)系抽取模型:采用統(tǒng)計(jì)語言模型作為關(guān)系抽取方式、采用Bootstrapping算法作為關(guān)系擴(kuò)展方式。最后據(jù)此進(jìn)行了關(guān)聯(lián)關(guān)系發(fā)現(xiàn)和關(guān)系擴(kuò)展發(fā)現(xiàn)實(shí)驗(yàn)。

文獻(xiàn);關(guān)系抽??;統(tǒng)計(jì)語言模型;Bootstrapping

進(jìn)入大數(shù)據(jù)時代,隨著獲取數(shù)據(jù)的規(guī)模、范圍和深度在不斷寬展和延伸,人們關(guān)注的重點(diǎn)開始從起初數(shù)據(jù)的積累,向挖掘數(shù)據(jù)的深層次價值、實(shí)現(xiàn)數(shù)據(jù)的“增值”轉(zhuǎn)變。在成礦預(yù)測領(lǐng)域,同樣面臨這樣的問題,地質(zhì)調(diào)查工作的成果基本上是信息性的成果,地質(zhì)調(diào)查工作者在百年的工作實(shí)踐中,積累了海量的成果報告、勘查資料、文獻(xiàn)等數(shù)據(jù)資源,這些數(shù)據(jù)資源中蘊(yùn)含著豐富的地質(zhì)信息,如何在成礦規(guī)律和預(yù)測的研究過程中充分利用這些數(shù)據(jù)?如何將數(shù)據(jù)轉(zhuǎn)化為新的認(rèn)識或知識,為地質(zhì)找礦實(shí)踐提供積極的數(shù)據(jù)支撐。本文論述了一套基于文獻(xiàn)的地質(zhì)實(shí)體關(guān)系抽取模型的研究方法,嘗試通過建立地質(zhì)實(shí)體的關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)實(shí)現(xiàn)發(fā)現(xiàn)潛在知識的目的。

1 關(guān)系抽取綜述

為了解決從文本數(shù)據(jù)中獲取有價值的信息,信息抽取技術(shù)應(yīng)運(yùn)而生。信息抽取被定義為從非結(jié)構(gòu)化信息中獲取結(jié)構(gòu)化數(shù)據(jù)的過程[1]。信息抽取一般包含兩個任務(wù):實(shí)體識別和關(guān)系抽取。實(shí)體識別是通過自然語言處理技術(shù)從文本中提取實(shí)體要素,而關(guān)系抽取是在實(shí)體識別的基礎(chǔ)上結(jié)合語義環(huán)境提取出實(shí)體之間的關(guān)系[2]。Etzioni認(rèn)為關(guān)系抽取是分析檢查文本中的實(shí)體對,并判斷它們之間是否存在關(guān)系[3]。通過實(shí)體識別獲得的一個個離散的實(shí)體要素對于理解文本語義、發(fā)現(xiàn)有價值的知識點(diǎn)毫無幫助。有價值的信息往往是通過實(shí)體間的關(guān)系來體現(xiàn)的,比如在成礦預(yù)測研究中礦種和特定生物的關(guān)聯(lián)關(guān)系、和巖石的伴生關(guān)系等。此外,關(guān)系抽取在很多領(lǐng)域具有應(yīng)用價值。例如在檢索系統(tǒng)中,傳統(tǒng)的檢索方式是基于關(guān)鍵詞的匹配檢索,而關(guān)系抽取技術(shù)則可以實(shí)現(xiàn)智能語義檢索。比如輸入“石墨烯”不光可以得到關(guān)鍵詞里含有石墨烯的文本資料,還可以得到類似“前沿技術(shù)”、“知名學(xué)者”、“研究機(jī)構(gòu)”等結(jié)果。此外,實(shí)體關(guān)系抽取在自動問答、自動標(biāo)引、機(jī)器翻譯方面具有重要的研究意義。

關(guān)系抽取技術(shù)路線經(jīng)歷了從模式、詞典等簡單方法到機(jī)器學(xué)習(xí)、基于本體的關(guān)系抽取等復(fù)雜方法,從基于分詞、句法等匹配的淺表分析到基于語義的深層分析的發(fā)展過程[4]?;谀J胶驮~典的方式準(zhǔn)確率較高,但要求前期制定細(xì)致的規(guī)則和語料,而且跨領(lǐng)域移植很困難;本體是對信息資源進(jìn)行語義化和有序化,理想化的本體包含實(shí)體及其關(guān)系,但由于本體構(gòu)建需要投入巨大的工作量,目前仍然沒有較為成熟的體系和應(yīng)用。機(jī)器學(xué)習(xí)采用自然語言處理中的統(tǒng)計(jì)語言模型作為基礎(chǔ),實(shí)質(zhì)上是一個源于數(shù)據(jù)的模型訓(xùn)練過程。機(jī)器學(xué)習(xí)的關(guān)系抽取方式是通過對大量文本數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和模型化處理,從中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測,從中提取出有助于關(guān)聯(lián)分析的關(guān)鍵性數(shù)據(jù)。它的優(yōu)勢是入手簡易、效率較高。采用機(jī)器學(xué)習(xí)的關(guān)系抽取方法按照對人工干預(yù)標(biāo)注數(shù)據(jù)的依賴的程度可以分為:有監(jiān)督關(guān)系抽取、遠(yuǎn)距離監(jiān)督關(guān)系抽取、半監(jiān)督關(guān)系抽取[5]。此外,近來隨著大數(shù)據(jù)的理念和落地應(yīng)用日趨成熟,開放式關(guān)系抽取方式開始興起,下面分別做介紹。

1.1 有監(jiān)督關(guān)系抽取

有監(jiān)督的關(guān)系抽取方法是最基本的機(jī)器學(xué)習(xí)方法,思路是在已標(biāo)注的語料上建立機(jī)器學(xué)習(xí)模型,然后使用模型在目標(biāo)文本里進(jìn)關(guān)系識別。有監(jiān)督的學(xué)習(xí)效率較高,但前期需要大量的工作量投入人工標(biāo)注語料。這種方法的問題在于適用于訓(xùn)練語料豐富的領(lǐng)域,所以跨領(lǐng)域移植性較弱。其典型算法諸如決策樹、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等算法,已廣泛用于機(jī)器學(xué)習(xí)及模式識別、人工智能等領(lǐng)域中[6]。

1.2 遠(yuǎn)距離監(jiān)督關(guān)系抽取

遠(yuǎn)距離監(jiān)督又叫弱監(jiān)督或無監(jiān)督,它不需要建立人工標(biāo)注的關(guān)系模型,是以預(yù)先定義關(guān)系模式和關(guān)系實(shí)例作為種子,通過機(jī)器學(xué)習(xí),發(fā)現(xiàn)新的關(guān)系模板和實(shí)例。實(shí)現(xiàn)過程首先根據(jù)實(shí)體對出現(xiàn)的上下文將相似度高的實(shí)體對聚為一類,然后選擇具有代表性的詞語來標(biāo)記這種關(guān)系[7]。遠(yuǎn)距離監(jiān)督關(guān)系抽取一般基于統(tǒng)計(jì)語言模型的關(guān)系抽取思想。遠(yuǎn)距離監(jiān)督關(guān)系抽取方法克服了費(fèi)時費(fèi)力的人工語料標(biāo)注環(huán)節(jié),不需要或需要很少預(yù)先處理的語料支撐,能自動地提取文本中包含的實(shí)體關(guān)系。而且由于不依賴于特定的訓(xùn)練語料,該方法對各領(lǐng)域的適應(yīng)性很高。相較于有監(jiān)督的關(guān)系抽取方法,遠(yuǎn)距離監(jiān)督關(guān)系抽取方法的缺點(diǎn)是準(zhǔn)確率較低。

1.3 半監(jiān)督關(guān)系抽取

顧名思義,人工干預(yù)標(biāo)注程度基于有監(jiān)督和無監(jiān)督之間的方法我們稱之為半監(jiān)督的關(guān)系抽取方法,半監(jiān)督實(shí)體關(guān)系抽取無需大規(guī)模標(biāo)注語料,只需人工標(biāo)注少量關(guān)系實(shí)例,適用于缺乏標(biāo)注語料的實(shí)體關(guān)系抽取。最典型的實(shí)例是Bootstrapping算法。Bootstrapping源于“重抽樣”的統(tǒng)計(jì)思想,即通過現(xiàn)有模式不斷擴(kuò)展出新的模式,屬于啟發(fā)式的方法[8]。

1.4 開放式關(guān)系抽取

傳統(tǒng)的關(guān)系抽取方式是有“限定”作為先決條件的,限定的范圍包括:目標(biāo)數(shù)據(jù)的范圍、實(shí)體的類型、限特點(diǎn)定的關(guān)系等。而在網(wǎng)絡(luò)時代,我們面對的是大量的無規(guī)則、開放的數(shù)據(jù),因而有學(xué)者提出了開放式關(guān)系抽取的思想,主要基于以下特點(diǎn):目標(biāo)數(shù)據(jù)開放,不再限定數(shù)據(jù)的領(lǐng)域范圍和數(shù)量;抽取類型開放,不在限定抽取的實(shí)體、關(guān)系類型。自動識別、分析、抽取語義類型[9]。開放式關(guān)系抽取方法是順應(yīng)大數(shù)據(jù)時代要求的產(chǎn)物,一經(jīng)提出引起了廣泛的關(guān)注,但至今成熟應(yīng)用的案例還不多。

1.5 關(guān)系抽取方法比較

以上的關(guān)系抽取方法各有優(yōu)缺點(diǎn),關(guān)系抽取方法的選擇需要結(jié)合語料準(zhǔn)備和應(yīng)用需要具體問題具體分析,通過比較分析得出以下結(jié)論。

1) 由于地質(zhì)領(lǐng)域缺乏較為齊整的人工標(biāo)注的地質(zhì)信息本體,因此排除有監(jiān)督關(guān)系抽取的方法。

2) 傳統(tǒng)開放域抽取的方法基本上都是基于語法分析,而中文的短語結(jié)構(gòu)分析和依存關(guān)系分析的水平還未能達(dá)到應(yīng)用的水平。故本項(xiàng)目考慮改進(jìn)傳統(tǒng)的開放域抽取方法,引入統(tǒng)計(jì)語言方法代替語法規(guī)則的方法。故采用基于統(tǒng)計(jì)語言模型的關(guān)系抽取方式。

3) 基于Bootstrapping的方法可以很好的結(jié)合人的先驗(yàn)知識和龐大語料帶來的統(tǒng)計(jì)效果,而且便于人去使用和修改,此外結(jié)合領(lǐng)域當(dāng)中的關(guān)系專業(yè)性較強(qiáng)的特點(diǎn),借助Bootstrapping方法可以利用龐大的語料對于人為規(guī)定的實(shí)體關(guān)系進(jìn)行擴(kuò)展,從而快速實(shí)現(xiàn)信息的同種關(guān)系抽取。因此,選擇基于Bootstrapping的方法進(jìn)行關(guān)系擴(kuò)展。

2 實(shí)體關(guān)系抽取模型研究

2.1 統(tǒng)計(jì)語言模型算法

2.1.1 統(tǒng)計(jì)語言模型算法研究

統(tǒng)計(jì)語言模型最早是由賈里尼克提出,他認(rèn)為一個句子是否合理,就看它的可能性大小,這個可能性就是概率[10]。簡單來說,統(tǒng)計(jì)語言模型就是可能出現(xiàn)的句子或其他語言學(xué)單位的一個概率分布。統(tǒng)計(jì)語言模型可以形式化統(tǒng)一表示為式(1)。

p(S)=p(w1,w2,…,wn)=

p(S)就是用來計(jì)算句子S概率的模型。那么,如何計(jì)算p(wi|w1,w2,…,wi-1),最簡單的辦法就是采用極大似然估計(jì)(Maximum Likelihood Estimate,MLE),見式(2)。

p(wi|w1,w2,…,wi-1)=

(2)

其中,count(w1,w2,…wi)表示詞序(w1,w2,…,wi)在語料庫中出現(xiàn)的頻率。但由于數(shù)據(jù)稀疏和參數(shù)空間過大,導(dǎo)致實(shí)際中無法得到應(yīng)用。所以,實(shí)際中通常采用N元語法模型(N-Gram),它采用馬爾科夫假設(shè):語言中每個單詞只與其前面N-1的上下文有關(guān)。假設(shè)下一個詞的出現(xiàn)只依賴它前面的一個詞,即二元語法模型(BiGram),則有式(3)。

p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…

p(wn|w1,w2,…,wn-1)=

(3)

理論上講,N值越大計(jì)算出來的值精確度越高。但是隨著N值的增大,模型的復(fù)雜度也越大[7]。具體來說計(jì)算p(w1)、p(w2)很容易,但是當(dāng)N=3時,計(jì)算p(w3|w1,w2)已經(jīng)有些困難了,當(dāng)N>3時,計(jì)算量將變的非常大。所以對于N的選擇:理論上越大越好;經(jīng)驗(yàn)上Trigram(三元模型)用的最多;原則上能有Bigram解決的,就不用Trigram。

2.1.2 構(gòu)建基于統(tǒng)計(jì)語言模型的關(guān)系抽取模型

在實(shí)驗(yàn)中采用三元語法模型,滿足二元馬爾科夫假設(shè)。具體操作步驟如下所示。

1) 分詞,對每個句子進(jìn)行分詞;過濾出名詞、動詞和介詞。

2) 對關(guān)系詞進(jìn)行過濾,過濾出不及物動詞(例如,奔跑)以及以人為主語的詞(例如,看見)。

3) 獲得關(guān)系三元組可能集合:句子中所有n-v/p-n結(jié)構(gòu)的三元組,不考慮相鄰關(guān)系。

并計(jì)算獲得的所有三元組的聯(lián)合概率作為該三元組的得分(用二元語法模型);獲得關(guān)系三元組的候選集合:找出得分最高的n-v/p-n三元組作為候選的關(guān)系三元組。

4) 確定關(guān)系三元組:通過規(guī)則,對關(guān)系三元組的候選集合進(jìn)行過濾,得到關(guān)系三元組,目前主要通過兩條規(guī)則進(jìn)行過濾:對于抽取出來的n1-(v/p)-n2結(jié)構(gòu),如果n1和n2之間距離超過5,我們認(rèn)為這個關(guān)系較弱而舍棄;對于抽取出來的n1-(v/p)-n2結(jié)果,如果n2后面是一個動詞,我們認(rèn)為這個關(guān)系抽取的不完整故舍棄。例如:“我對他說,明天放假”,會抽取出來“我-對-他”的關(guān)系三元組,而這個關(guān)系不完整。

5) 關(guān)系三元組置信度計(jì)算:加入評分函數(shù),計(jì)算抽取的關(guān)系三元組的置信度。評分函數(shù)利用統(tǒng)計(jì)語言模型統(tǒng)計(jì)關(guān)系對出現(xiàn)的次數(shù),并參與聯(lián)合概率計(jì)算:如式(3)所示,語言中每個單詞只與其前面n-1的上下文有關(guān)。接下來的關(guān)鍵問題就是如何計(jì)算Pp(wn|wn-1)。現(xiàn)在有了大量機(jī)讀文本后,這個問題變得很簡單,只要數(shù)計(jì)算(wn,wn-1)在統(tǒng)計(jì)的文本中出現(xiàn)了多少次,以及wn-1本身在同樣的文本中前后相鄰出現(xiàn)了多少次,然后用兩個數(shù)相除就可以了p(wn|wn-1)=p(wn,wn-1)/p(wn-1)。

關(guān)系抽取流程如圖1所示。

圖1 基于統(tǒng)計(jì)語言模型的關(guān)系抽取模型流程圖

2.2 Bootstrapping算法

2.2.1 Bootstrapping算法研究

統(tǒng)計(jì)語言模型解決的是關(guān)系抽取的問題,而Bootstrapping解決的是關(guān)系擴(kuò)展的問題。Bootstrapping首先利用少量已標(biāo)記樣本的特征及其結(jié)果度量建立初始學(xué)習(xí)模型,主要的思路是通過人工指定幾個初始的種子,隨后系統(tǒng)會尋找滿足人工提供種子的句式模板,利用得到的模板找到新的種子不斷的迭代下去,最終達(dá)到舉一反三的目的。該方法的缺點(diǎn)是對初始關(guān)系種子的質(zhì)量要求較高。比如我們現(xiàn)在知道“中國-北京”,“美國-華盛頓”兩個國家-首都的關(guān)系,但是還想知道所有其他的國家-首都關(guān)系,那么就可以用Bootstrapping方法,以“中國-北京”,“美國-華盛頓”為基礎(chǔ),可以找到語料中幾乎所有的國家-首都關(guān)系。

2.2.2 構(gòu)建基于Bootstrapping算法的關(guān)系擴(kuò)展模型

依據(jù)Bootstrapping算法的基本思想,設(shè)計(jì)算法流程共分為以下幾個步驟:上下文構(gòu)建階段、模板抽取階段、候選種子抽取階段和候選種子評分階段。

1) 上下文構(gòu)建階段。上下文構(gòu)建階段主要是利用一種前綴字典樹的數(shù)據(jù)結(jié)構(gòu)來存儲種子的前后的文字,在抽取上下文的時候,只選擇在同一個分句當(dāng)中的內(nèi)容即任何標(biāo)點(diǎn)符號都作為邊界處理。前綴字典樹是一種壓縮存儲的數(shù)據(jù)結(jié)構(gòu),他的特征在于父節(jié)點(diǎn)是子節(jié)點(diǎn)的前綴。構(gòu)造兩個字典樹,分別存儲種子之前的文字和之后的文字。

2) 模板抽取階段。模板抽取階段主要是利用上下文構(gòu)建得到的兩個字典樹,找到滿足所有種子的最長的句式模板。

3) 候選種子抽取階段。候選種子抽取階段主要是利用找到的句式模板,在整個語料中找到滿足句式句子并利用句式抽出去對應(yīng)位置的種子,作為候選種子。

4) 候選種子評分階段。候選種子評分階段主要是利用隨機(jī)游走的方法從圖中進(jìn)行迭代直到到達(dá)圖中的任何一點(diǎn)的概率收斂。在這里的圖的結(jié)構(gòu)如下:共有三種類型的節(jié)點(diǎn),分別為文檔、句式和候選種子,文檔和句式之間的關(guān)系是包含,句式和種子之間的關(guān)系是抽取,文檔和種子的關(guān)系是含有。具體如圖2所示。

在具體算法的實(shí)施過程中,首先由人工給出2~3個種子,每次迭代的過程中,從已有的種子集合中抽取三個種子并加上上一次迭代得到的分?jǐn)?shù)最高的種子作為本次迭代的初始種子,利用上述的四個階段提取種子,每次僅選取最高的一個加入到種子集合當(dāng)中。具體抽取流程如圖3所示。

圖2 種子評分所采用的隨機(jī)游走方法結(jié)構(gòu)圖

圖3 基于Bootstrapping算法的關(guān)系擴(kuò)展模型流程圖

3 關(guān)系抽取實(shí)驗(yàn)

實(shí)驗(yàn)的目的是從文獻(xiàn)數(shù)據(jù)中發(fā)現(xiàn)潛在的關(guān)聯(lián)關(guān)系,建立實(shí)體間的關(guān)聯(lián)網(wǎng)絡(luò),為成礦預(yù)測工作提供未被發(fā)現(xiàn)的、有價值的新知識點(diǎn)。根據(jù)前期需求調(diào)研,本次實(shí)驗(yàn)將圍繞發(fā)現(xiàn)并驗(yàn)證“金礦”和“生物”兩個領(lǐng)域間的關(guān)系展開。

3.1 數(shù)據(jù)源準(zhǔn)備

目標(biāo)數(shù)據(jù)源主要有兩類:第一類為生物和金礦會議文獻(xiàn),生物會議文獻(xiàn)約44 640篇,金礦會議文獻(xiàn)約1 647篇,大小共約457 M;第二類為生物和金礦期刊文獻(xiàn),生物期刊文獻(xiàn)約387 660篇,金礦期刊文獻(xiàn)約28 740篇,大小共約9.54 G。文獻(xiàn)類型為txt類型。

3.2 實(shí)驗(yàn)環(huán)境

1) 服務(wù)器配置:CPU:Intel Xeon E5-2609 V3,內(nèi)存:24 GB。

2) 操作系統(tǒng):RedHat 4.4.7-4(Linux內(nèi)核版本2.6.32) 64位。

3) 數(shù)據(jù)庫:MySQL 5.6。

4) 分布式搜索引擎:ElasticSearch2.3.4。

5) 開發(fā)環(huán)境:MyEclipse 2015、Java版本:1.8.0.131。

3.3 關(guān)聯(lián)關(guān)系發(fā)現(xiàn)實(shí)驗(yàn)

3.3.1 實(shí)驗(yàn)描述

發(fā)現(xiàn)“金礦”與“微生物”領(lǐng)域關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系。

3.3.2 實(shí)驗(yàn)步驟

1) 獲得候選關(guān)系對集合,在詞典里提取金礦和微生物詞表,并進(jìn)行兩兩配對。

2) 獲得可能關(guān)系對集合,挑選出語料中關(guān)系對至少同現(xiàn)10次的關(guān)系對和所有同現(xiàn)的語句。

3) 確定關(guān)系,采用統(tǒng)計(jì)語言模型的方法在關(guān)系對同現(xiàn)的語句中抽取關(guān)系詞,用來表達(dá)關(guān)系對的關(guān)系。每個同現(xiàn)語句至多抽取一個關(guān)系,每個關(guān)系對可能有多個關(guān)系詞,這些詞統(tǒng)統(tǒng)保留(因?yàn)槭顷P(guān)系發(fā)現(xiàn),沒有足夠的證據(jù)表明哪個關(guān)系詞是錯誤的)。

4) 關(guān)系過濾,對于句子中關(guān)系對距離過遠(yuǎn)的關(guān)系丟棄。

3.3.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果如圖4、圖5所示。

圖4 “金礦”與“微生物”關(guān)聯(lián)關(guān)系發(fā)現(xiàn)結(jié)果

圖5 “金礦”與“微生物”關(guān)聯(lián)關(guān)系發(fā)現(xiàn)結(jié)果改進(jìn)

在隨后的實(shí)驗(yàn)中,考慮到此次研究的目的是新知識發(fā)現(xiàn),限定關(guān)系對至少出現(xiàn)10次以上并不能很好的發(fā)現(xiàn)新知識(出現(xiàn)頻次高的一般不是新知識),故在實(shí)驗(yàn)中取消了至少出現(xiàn)10詞的過濾規(guī)則。

3.3.4 實(shí)驗(yàn)分析

本次實(shí)驗(yàn)的目的是發(fā)現(xiàn)分析“金礦”和“微生物”間的關(guān)系,驗(yàn)證并完善基于統(tǒng)計(jì)語言模型的關(guān)系抽取模型。下一步改進(jìn)方向包括以下兩方面。

1) 無用關(guān)系去除??梢酝ㄟ^不斷完善停用詞表來實(shí)現(xiàn)。

2) 關(guān)系的歸類分析。在目前的統(tǒng)計(jì)語言模型中沒有考慮關(guān)系的歸類,遍歷出的關(guān)系維度很大,考慮引入基于業(yè)務(wù)專家指導(dǎo)的關(guān)系聚類技術(shù),提高模型的實(shí)用性。

3.4 關(guān)系擴(kuò)展發(fā)現(xiàn)實(shí)驗(yàn)

3.4.1 實(shí)驗(yàn)描述

驗(yàn)證基于Bootstrapping算法的關(guān)系擴(kuò)展模型,主思路如下:提供兩對關(guān)系對(種子),模型將會自動擴(kuò)展這兩對關(guān)系對,并根據(jù)提交的關(guān)系對(種子)進(jìn)行搜索,查詢到由此生成的句式模板和候選集合(候選關(guān)系)。根據(jù)篩選得到的候選集合(候選關(guān)系)進(jìn)行判定。

3.4.2 實(shí)驗(yàn)步驟

1) 關(guān)系對(種子)提交。人工提交一個關(guān)系對(種子),模型自動識別判斷交的關(guān)系對(種子)關(guān)系。

2) 定義抽取模板。根據(jù)關(guān)系對(種子)抽取一個模板,再根據(jù)這個模板抽取其對應(yīng)的候選關(guān)系,如發(fā)現(xiàn)新關(guān)系在進(jìn)行種子提交和定義新抽取模板,如此循環(huán),直到再也無法抽取出模板為止。

3) 句式模板抽取。根據(jù)模板中的兩個關(guān)系實(shí)體通過Elastic Search(IK分詞器的Elastic Search搜索引擎,下同)來搜索文獻(xiàn)中包含這兩個實(shí)體的句子。只要輸入的關(guān)系實(shí)體之間有相關(guān)關(guān)系,則這兩個關(guān)系實(shí)體可以抽出至少一個模板。當(dāng)兩對關(guān)系都被抽取過模板之后,需要對模板集合中的對應(yīng)字段進(jìn)行檢索,僅保留對應(yīng)于兩個種子的模板。最后利用得到的模板進(jìn)行候選集合(候選關(guān)系)的抽取工作

4) 候選關(guān)系對抽取。根據(jù)待抽取模板在Elastic Search中查找包含該模板的句子。再利用模板的類型和內(nèi)容決定需要過濾的部分,過濾掉多余的字符串,只保留生成的關(guān)系。

5) 關(guān)系判定。然后對生成的關(guān)系進(jìn)行清理,除去不完整的關(guān)系對(如關(guān)系實(shí)體殘缺、關(guān)系實(shí)體有標(biāo)點(diǎn))。

3.4.3 實(shí)驗(yàn)結(jié)果

輸入“礦石-黃鐵礦”、“礦石-黃銅礦”關(guān)系對作為種子。實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 輸入關(guān)系對(種子)表的關(guān)系對

3.4.4 實(shí)驗(yàn)分析

1) 實(shí)驗(yàn)驗(yàn)證了在給定的關(guān)系對(種子)在適當(dāng)?shù)年P(guān)系條件下,可以根據(jù)其定義抽取模板,進(jìn)而抽取新的候選關(guān)系對的過程。抽取的關(guān)系和模板保存在數(shù)據(jù)庫中的“cgl_seed_relation”表中, rel_template字段記錄了抽取出的關(guān)系,而rel_ent1和rel_ent1分別對應(yīng)了關(guān)系中的arg0和arg1。

2) 候選集合(候選關(guān)系對)中某個關(guān)系對出現(xiàn)的頻率遠(yuǎn)高于其它的關(guān)系對,這種高頻結(jié)果可能是前人已經(jīng)總結(jié)過的成果,可以直接利用起來。相應(yīng)的如果某個關(guān)系對在一些高頻模板中出現(xiàn)的頻率很低,這樣的關(guān)系對可能還沒有被挖掘出價值,因此可以作為新的研究的重點(diǎn)。

3) 在實(shí)驗(yàn)中我們發(fā)現(xiàn)抽取出的模板和候選關(guān)系對有一些在語義上不連貫。產(chǎn)生該情況的原因一部分是中文亂碼,另一部分是由于生成的模板中只有虛詞(模板中只有介詞的情況多見)。在下一階段中我們需要進(jìn)一步使用NLP相關(guān)算法對生成的結(jié)果加以限制。

4 結(jié) 論

地質(zhì)文獻(xiàn)是地質(zhì)調(diào)查工作的成果的重要載體和呈現(xiàn)方式,很多研究發(fā)現(xiàn)都是通過對地質(zhì)文獻(xiàn)研究分析而誕生的。本文通過建立地質(zhì)實(shí)體關(guān)系抽取模型的方式自動發(fā)現(xiàn)分析地質(zhì)文獻(xiàn)中實(shí)體間的關(guān)系并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。關(guān)系抽取模型包括了關(guān)系抽取模型和關(guān)系擴(kuò)展模型兩部分:關(guān)系抽取模型采用了極大似然估計(jì)的三元統(tǒng)計(jì)語言模型收取出候選關(guān)系集合,并通過制定過濾規(guī)則和評分函數(shù)進(jìn)行關(guān)系的過濾和排序;關(guān)系擴(kuò)展模型采用了Bootstrapping算法,在試驗(yàn)中將人工定義的種子模板通過檢索Elastic Search來發(fā)現(xiàn)擴(kuò)展新的關(guān)系模板。在后續(xù)的工作中,需要加入不同領(lǐng)域、體裁、規(guī)模的文本擴(kuò)充試驗(yàn),以驗(yàn)證方法的可移植性和實(shí)用性;同時需要進(jìn)一步優(yōu)化算法模型,研究關(guān)系分析過濾以及關(guān)系歸類算法,提升實(shí)驗(yàn)精度。最終的目的是通過統(tǒng)計(jì)語言模型發(fā)現(xiàn)成礦預(yù)測領(lǐng)域有價值的關(guān)系,再通過關(guān)系擴(kuò)展模型進(jìn)行關(guān)系擴(kuò)展,實(shí)現(xiàn)發(fā)現(xiàn)新知識,為成礦預(yù)測提供積極數(shù)據(jù)支持的目的。

[1] Jurafsky D,Martin J H.Speech and Language Processing.An Introduction to Natural Language Processing,Computational Linguistics and Speech Recognition (Draft)[C]∥Prentice Hall PTR.1999:638-641.

[2] 馮志偉.當(dāng)前自然語言處理發(fā)展的幾個特點(diǎn)[J].華文教學(xué)與研究,2006(1):34-40.

[3] A Culotta,A McCallum,J Betz.Integrating probabilistic extraction models and data mining to discover relations and patterns in text[C]∥In:Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics,Association for Computational Linguistics,New York.2006.

[4] 徐健,張智雄.典型關(guān)系抽取系統(tǒng)的技術(shù)方法解析[J].數(shù)字圖書館論壇,2008(9):13-18.

[5] 劉方馳,鐘志農(nóng),雷霖,吳燁.基于機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法[J].兵工自動化,2013,32(9):57-62.

[6] Natalia K.Review of Relation Extraction Methods:What is New Out There?[J].Communications in Computer & Information Science,2014,436(1):15-28.

[7] 王晶.無監(jiān)督的中文實(shí)體關(guān)系抽取研究[D].上海:華東師范大學(xué),2012.

[8] 劉珍,王若愚,劉瓊.基于Bootstrapping的因特網(wǎng)流量分類方法[J].北京郵電大學(xué)學(xué)報,2014(5):66-70.

[9] 秦兵,劉安安,劉挺.無指導(dǎo)的中文開放式實(shí)體關(guān)系抽取[J].計(jì)算機(jī)研究與發(fā)展,2015(5):1029-1035.

[10] 吳軍.數(shù)學(xué)之美[M].北京:人民郵電出版社,2015:28.

Studyongeologicentityrelationextractionmethodbasedonliterature

LYU Pengfei1,2,WANG Chunning1,ZHU Yueqin3,4

(1.National Geological Library of China,Beijing 100083,China;2.University of Chinese Academy of Sciences,Beijing 100049,China;3.Development and Research Center,China Geological Survey,Beijing 100037,China;4.Key Laboratory of Geological Information Technology of Ministry of Land and Resources,Beijing 100037,China)

Relation extraction is an important section of information extraction,which play an crucial role in valuable information discovering.On the ground of analyzing and comparing,including supervised methods,unsupervised methods,self-supervise methods and open information extraction methods,this essay has built a Geologic Entity Relation Extraction Model,using statistical language models for relation extraction and bootstrapping models for relation extension.Finally,according to the above analysis,the experiment of incidence relation discovery and relation extension discovery were carried out.

literature;relation extraction;metallogenic prognosis;statistical language model;bootstrapping model

P208

A

1004-4051(2017)10-0167-06

2017-06-27責(zé)任編輯趙奎濤

國土資源部公益性行業(yè)科研專項(xiàng)項(xiàng)目資助(編號:201511079);國家重點(diǎn)研發(fā)計(jì)劃“基于‘地質(zhì)云’平臺的深部找礦知識挖掘”資助(編號:2016YFC0600510)

呂鵬飛(1978-),男,碩士研究生,高級工程師,主要從事地質(zhì)文獻(xiàn)數(shù)據(jù)分析與挖掘方面的研究工作,E-mail:23690271@qq.com。

朱月琴(1975-),女,博士,高級工程師,主要從事地質(zhì)大數(shù)據(jù)、地圖綜合與可視化研究工作,E-mail:yueqinzhu@163.com。

猜你喜歡
三元組語料實(shí)體
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
特征標(biāo)三元組的本原誘導(dǎo)子
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
關(guān)于余撓三元組的periodic-模
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
深州市| 鹤峰县| 志丹县| 清原| 竹北市| 察哈| 甘孜县| 调兵山市| 北川| 三门县| 蒲城县| 南开区| 广德县| 龙山县| 拉萨市| 神池县| 广丰县| 阳高县| 迁安市| 鄯善县| 镇沅| 乌审旗| 廊坊市| 凤庆县| 渭南市| 白朗县| 岑溪市| 仁化县| 淮南市| 牙克石市| 襄汾县| 哈巴河县| 广安市| 鹰潭市| 贞丰县| 来安县| 玉树县| 张北县| 阿荣旗| 晋城| 城步|