国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文獻(xiàn)的知識發(fā)現(xiàn)在成礦預(yù)測領(lǐng)域的應(yīng)用研究

2017-09-18 02:44呂鵬飛王春寧朱月琴
中國礦業(yè) 2017年9期
關(guān)鍵詞:內(nèi)容提要金礦

呂鵬飛,王春寧,周 峰,朱月琴

(1.中國地質(zhì)圖書館,北京 100083;2.中國科學(xué)院大學(xué),北京 100049;3.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037;4.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037)

基于文獻(xiàn)的知識發(fā)現(xiàn)在成礦預(yù)測領(lǐng)域的應(yīng)用研究

呂鵬飛1,2,3,王春寧1,周 峰1,朱月琴3,4

(1.中國地質(zhì)圖書館,北京 100083;2.中國科學(xué)院大學(xué),北京 100049;3.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037;4.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037)

基于文獻(xiàn)的分析挖掘是發(fā)現(xiàn)未知新知識的有效途徑,本文提出了基于文獻(xiàn)的知識發(fā)現(xiàn)應(yīng)用于成礦預(yù)測領(lǐng)域的研究思路,構(gòu)建了基于文獻(xiàn)的知識發(fā)現(xiàn)模型,主要包括地質(zhì)實(shí)體識別、實(shí)體關(guān)系識別兩個部分。

文獻(xiàn)的知識發(fā)現(xiàn);成礦預(yù)測;中文分詞;關(guān)系提取

成礦預(yù)測是基于已有的成礦理論、成礦條件、成礦信息以及成礦規(guī)律,運(yùn)用成礦預(yù)測方法,對未發(fā)現(xiàn)礦體、礦床做出推斷、評價的學(xué)科[1]。成礦預(yù)測目的是利用現(xiàn)有成礦研究成果的指導(dǎo),提高找礦的效益和效率。成礦預(yù)測的發(fā)展大體經(jīng)歷了三個階段:20世紀(jì)70年代以前主要是在確立典型區(qū)域成礦條件下,使用經(jīng)驗(yàn)類比法在未知區(qū)域發(fā)現(xiàn)成礦目標(biāo);20世紀(jì)70年代至80年代初,統(tǒng)計方法和計算機(jī)技術(shù)開始廣泛應(yīng)用與成礦預(yù)測,其標(biāo)志是1976年在挪威的洛恩舉行的國際地質(zhì)對比計劃98項(xiàng)專題提出了區(qū)域價值估計、體積估計、豐度估計、德爾菲估計法、礦床模擬法和綜合方法六種資源預(yù)測的標(biāo)準(zhǔn)方法[2];進(jìn)入20世紀(jì)80年代后期,GIS開始進(jìn)入礦產(chǎn)預(yù)測領(lǐng)域,產(chǎn)生了一批成功應(yīng)用的典范。如美國地質(zhì)調(diào)查局實(shí)施的國土資源評價計劃(CUSMAP),其對柵格、矢量和表格式數(shù)據(jù)進(jìn)行處理并通過定制接口在GIS內(nèi)建立應(yīng)用模型及表示評價結(jié)果[3];進(jìn)入新世紀(jì),面對信息大爆炸的時代(即“大數(shù)據(jù)”時代),成礦預(yù)測也應(yīng)運(yùn)進(jìn)入“大數(shù)據(jù)”時代。如何充分利用地質(zhì)工作數(shù)十年積累的海量數(shù)據(jù),將已有數(shù)據(jù)轉(zhuǎn)化為新的認(rèn)識或知識,并運(yùn)到成礦預(yù)測的實(shí)踐中,成為地質(zhì)工作者當(dāng)下必須面對與思考的問題。趙鵬大院士認(rèn)為數(shù)字找礦是數(shù)據(jù)科學(xué)在礦產(chǎn)勘查中的應(yīng)用,是用數(shù)據(jù)分析理論和方法解決礦床勘查中的實(shí)際問題[4]。王登紅認(rèn)為可以從地質(zhì)大數(shù)據(jù)中充分挖掘有用信息及其規(guī)律,通過成礦理論的系統(tǒng)分析,揭示其內(nèi)在規(guī)律并轉(zhuǎn)化為新的認(rèn)識或知識,指導(dǎo)未來的地質(zhì)礦產(chǎn)工作[5]。地學(xué)文獻(xiàn)是地質(zhì)大數(shù)據(jù)的重要組成部分,也是地質(zhì)科學(xué)研究成果的重要表現(xiàn)形式,本文旨在通過開展基于地學(xué)文獻(xiàn)的知識發(fā)現(xiàn)研究,嘗試發(fā)現(xiàn)在成礦預(yù)測領(lǐng)域從未發(fā)現(xiàn)過或驗(yàn)證過的新知識、新關(guān)聯(lián),為地質(zhì)找礦決策服務(wù)提供文獻(xiàn)信息服務(wù)。

1 基于文獻(xiàn)的知識發(fā)現(xiàn)

知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),從字面可以理解為“基于數(shù)據(jù)的知識發(fā)現(xiàn)”,即從原始數(shù)據(jù)中提煉出有潛在的、有價值的知識。實(shí)際上和“數(shù)據(jù)挖掘”和“數(shù)據(jù)分析”一脈相承?;谖墨I(xiàn)的知識發(fā)現(xiàn)就是對目標(biāo)科學(xué)文獻(xiàn)的內(nèi)容(包括元數(shù)據(jù)和全文)為對象進(jìn)行全分析,挖掘、發(fā)現(xiàn)文獻(xiàn)關(guān)聯(lián)獲知新知識的過程,也即對在內(nèi)容上有關(guān)聯(lián)的文獻(xiàn)進(jìn)行比較和分析的基礎(chǔ)上從中識別和抽取有價值的信息的過程[6]。20世紀(jì)80年代,芝加哥大學(xué)的DR Swanson教授第一次提出了基于文獻(xiàn)的知識發(fā)現(xiàn)(Literature-Based Discovery)的概念,引起了學(xué)界的關(guān)注[7]。歷經(jīng)數(shù)十年的發(fā)展,基于文獻(xiàn)的知識發(fā)現(xiàn)研究逐漸成熟,研究方法從傳統(tǒng)的計量統(tǒng)計方法發(fā)展到人工智能、機(jī)器學(xué)習(xí),應(yīng)用領(lǐng)域從最初的醫(yī)學(xué)、生物學(xué)擴(kuò)展到情報學(xué)、工程學(xué)。總體來說從知識發(fā)現(xiàn)的方式上大致分為兩個方向:傳統(tǒng)的相關(guān)文獻(xiàn)知識發(fā)現(xiàn)和新進(jìn)興起的非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)。

1.1相關(guān)文獻(xiàn)知識發(fā)現(xiàn)

相關(guān)文獻(xiàn)知識發(fā)現(xiàn)顧名思義,就是文獻(xiàn)之間存在某種關(guān)聯(lián),從文獻(xiàn)的結(jié)構(gòu)上分有文獻(xiàn)元數(shù)據(jù)(標(biāo)題、作者、單位、關(guān)鍵詞等)相關(guān)和文獻(xiàn)內(nèi)容(全文)相關(guān)。基于相關(guān)文獻(xiàn)的知識發(fā)現(xiàn)研究就是對有直接關(guān)聯(lián)的文獻(xiàn)進(jìn)行聚類、比較和分析并從中識別和抽取有價值的信息[8]。主要的分析方法包括共詞分析法和共引分析法等。共詞分析的原理主要是統(tǒng)計同一篇文獻(xiàn)中詞語出現(xiàn)的次數(shù),在此基礎(chǔ)上對這些詞進(jìn)行分層聚類,揭示出這些詞之間的關(guān)系[9]。共引分析是將一組具有同引關(guān)系的文獻(xiàn)作為分析對象,綜合利用數(shù)學(xué)、統(tǒng)計學(xué)和邏輯分析方法,通過基于共引關(guān)系所形成的文獻(xiàn)共引網(wǎng)絡(luò)將學(xué)科之間的關(guān)聯(lián)與親疏直觀的呈現(xiàn)出來[10]。

1.2非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)

相較于相關(guān)文獻(xiàn),非相關(guān)文獻(xiàn)可以理解為文獻(xiàn)之間從外部特征(包括內(nèi)容和元數(shù)據(jù))不存在關(guān)聯(lián)關(guān)系。可是客觀世界是普遍聯(lián)系的,在海量的科學(xué)文獻(xiàn)之間存在著各式各樣的聯(lián)系,這些聯(lián)系有相當(dāng)一部分僅通過常規(guī)的查詢與閱讀是不能得到的。非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)也是由D R Swanson教授首先提出的,他認(rèn)為兩組看起來沒有任何關(guān)聯(lián)的文獻(xiàn)(一般理解兩篇文獻(xiàn)不存在關(guān)鍵詞同現(xiàn)和共引關(guān)系即為非相關(guān)文獻(xiàn))可能存在隱含的關(guān)聯(lián),而這種關(guān)聯(lián)是單獨(dú)閱讀任何一組文獻(xiàn)都發(fā)現(xiàn)不了的。經(jīng)過不斷的深入研究,D R Swanson教授提出了“ABC理論”:R(A,B)+R(B,C)->R(A,C),R(A,B)表示實(shí)體A與實(shí)體B有某種關(guān)系R。即,如果A和B有關(guān)系,且B和C有關(guān)系,則A和C也有關(guān)系,當(dāng)然我們要確定關(guān)鍵詞A和關(guān)鍵詞C之間是沒有任何關(guān)聯(lián)關(guān)系的。D R Swanson教授依據(jù)該理論發(fā)現(xiàn)了食用魚油和雷諾氏病、偏頭痛和鎂缺乏之間的關(guān)聯(lián)關(guān)系并在臨床中得到了應(yīng)用支持[11]。2001年,Weer等在總結(jié)和分析前人研究的基礎(chǔ)上提出了“‘兩步法’的基于非相關(guān)文獻(xiàn)的發(fā)現(xiàn)模式”,認(rèn)為基于非相關(guān)文獻(xiàn)的發(fā)現(xiàn)應(yīng)該包含兩個獨(dú)立的過程:構(gòu)建假設(shè)的過程和驗(yàn)證假設(shè)的過程[12]。2012年,Kostoff在提出了關(guān)聯(lián)文獻(xiàn)知識發(fā)現(xiàn)與創(chuàng)新(Literature-Related Discovery and Innovation,LRDI),強(qiáng)調(diào)將知識發(fā)現(xiàn)和創(chuàng)新結(jié)合。此為關(guān)于D R Swanson 1986年研究的最新完整表述[13]。國內(nèi)的非相關(guān)知識發(fā)現(xiàn)研究起步于2000年以后,由于起步較晚目前研究主要集中于相關(guān)理論的研究分析和Swanson算法的實(shí)現(xiàn)上。

1.3基于文獻(xiàn)的知識發(fā)現(xiàn)的研究意義

科學(xué)文獻(xiàn)被認(rèn)為是是科學(xué)研究成果的重要表現(xiàn)形式,也是開展科研、獲取知識的重要基礎(chǔ)媒介。越來越多的研究人員開始認(rèn)為基于文獻(xiàn)的知識發(fā)現(xiàn)是發(fā)現(xiàn)未知的新知識的有效途徑,主要是有幾方面的原因。①科學(xué)文獻(xiàn)是專家學(xué)者將科研成果或經(jīng)驗(yàn)用規(guī)范化的科學(xué)語言精確表述,并且大多經(jīng)過實(shí)驗(yàn)驗(yàn)證,由于其專業(yè)性和規(guī)范性具有較高的學(xué)術(shù)價值,為新知識發(fā)現(xiàn)提供了可能性。②隨著信息技術(shù)的不斷滲透,學(xué)科交叉、領(lǐng)域交迭現(xiàn)象日益明顯,在某一領(lǐng)域、專注于一個方向的科學(xué)文獻(xiàn)可能隱含著對不同領(lǐng)域、不同研究方向有學(xué)術(shù)價值的知識點(diǎn)。D R Swanson教授通過對文獻(xiàn)的分析發(fā)現(xiàn)了食用魚油和雷諾氏病、偏頭痛和鎂缺乏這兩組概念之間的關(guān)聯(lián),而這是之前任何研究從未觸及的。這就為我們發(fā)現(xiàn)新的知識點(diǎn)以及現(xiàn)有知識點(diǎn)之間新的關(guān)聯(lián)佐證了可行性和正確性。③科學(xué)文獻(xiàn)是研究人員獲取知識的重要途徑。進(jìn)入大數(shù)據(jù)時代,迎來了科學(xué)事業(yè)蓬勃發(fā)展的時期,科學(xué)文獻(xiàn)的數(shù)量呈幾何量級的增長。面對海量文獻(xiàn)數(shù)據(jù),研究人員有了新的需求:一方面不只希望對文獻(xiàn)的研究利用僅僅停留在簡單的信息積累、加工和傳遞的低層次上,而是轉(zhuǎn)向了高層次的知識開發(fā)與利用。人們越來越注重對數(shù)據(jù)的分析挖掘,對于文獻(xiàn)的需求也從單一文獻(xiàn)信息向多元綜合信息、從簡單文獻(xiàn)資源發(fā)現(xiàn)向細(xì)粒度知識單元以及知識發(fā)現(xiàn)演變[14]。

2 基于地學(xué)文獻(xiàn)的知識發(fā)現(xiàn)模型

地學(xué)文獻(xiàn)知識發(fā)現(xiàn)研究的目的是通過開展對地質(zhì)文獻(xiàn)大數(shù)據(jù)的特征和組織方式進(jìn)行研究,構(gòu)建基于地學(xué)文獻(xiàn)的知識發(fā)現(xiàn)模型。通過對地質(zhì)專業(yè)文獻(xiàn)數(shù)據(jù)的挖掘,結(jié)合對中文分詞、關(guān)系抽取和擴(kuò)展、知識圖譜構(gòu)建等關(guān)鍵技術(shù)的研究,分析專業(yè)關(guān)鍵詞并建立實(shí)體之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)新知識發(fā)現(xiàn)的目標(biāo),面向成礦資源預(yù)測這個應(yīng)用試點(diǎn)專題開展實(shí)際應(yīng)用。模型主要包括地質(zhì)實(shí)體識別、實(shí)體關(guān)系抽和關(guān)系圖譜可視化等,結(jié)構(gòu)如圖1所示。

圖1 知識發(fā)現(xiàn)模型

2.1地質(zhì)實(shí)體識別

地質(zhì)實(shí)體識別是指采用自然語言處理技術(shù)從地學(xué)文獻(xiàn)中自動識別出成礦預(yù)測領(lǐng)域相關(guān)的實(shí)體要素,是下一步發(fā)現(xiàn)實(shí)體間的關(guān)聯(lián)關(guān)系的基礎(chǔ)。主要包括以下工作。

2.1.1 數(shù)據(jù)準(zhǔn)備

1)按照資源儲備和項(xiàng)目需求確定文獻(xiàn)數(shù)據(jù)的范圍以及文獻(xiàn)全文數(shù)據(jù)的提取。

2)對已有詞表資源進(jìn)行梳理。

3)文獻(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)碼。

2.1.2 中文分詞

分詞是將句子由連續(xù)的字序列按照一定的規(guī)范切分重新組合成詞序列的過程[15]。中文表達(dá)不像英文那樣有明顯的詞語分隔符,只有句子之間有明顯的符號劃分,可是詞是最基本的語義表達(dá)符,所以分詞是中文自然語言處理的基礎(chǔ)。目前分詞工具方法較為成熟,主要有以下幾種:基于詞典的字符匹配法、基于統(tǒng)計語言模型以及以上二者的結(jié)合。分詞工具方法各有優(yōu)缺點(diǎn),分詞工具方法的選擇需要統(tǒng)籌考慮語料基礎(chǔ)以及項(xiàng)目對分詞效果、效率的要求。由于分詞的結(jié)果對后續(xù)關(guān)系抽取效果有巨大影響,我們對應(yīng)用范圍較廣的主流分詞工具進(jìn)行了進(jìn)行選型評估。結(jié)合本項(xiàng)目實(shí)際,綜合考慮詞典基礎(chǔ)、分詞結(jié)果需求(準(zhǔn)確性、效率、詞性標(biāo)注等)選擇了最大逆向匹配分詞算法的中科院分詞器的作為本項(xiàng)目的分詞工具。

2.1.3 實(shí)體識別

在分詞的基礎(chǔ)上,采用自定義字典user Define進(jìn)行標(biāo)注進(jìn)行實(shí)體識別。即基于已有詞典資源構(gòu)建地質(zhì)類實(shí)體詞典,作為關(guān)系抽取中的實(shí)體。

2.2實(shí)體關(guān)系抽取模型

實(shí)體關(guān)系抽取也屬于自然語言處理的一項(xiàng)基礎(chǔ)工作,是在實(shí)體識別的基礎(chǔ)上結(jié)合語義環(huán)境提取出實(shí)體之間的關(guān)系[16]。通過自然語言處理我們得到了一個個獨(dú)立的實(shí)體知識點(diǎn),可有價值的信息往往是通過實(shí)體間的關(guān)系來體現(xiàn)的,比如在基于文獻(xiàn)的成礦預(yù)測研究中,研究的目的是發(fā)現(xiàn)礦種和土壤、巖石、生物等實(shí)體間的關(guān)聯(lián)關(guān)系,從而為成礦預(yù)測決策提供科學(xué)數(shù)據(jù)支持。關(guān)系抽取技術(shù)路線經(jīng)歷了從模式、詞典等簡單方法到機(jī)器學(xué)習(xí)等復(fù)雜方法的演變[17],目前基于統(tǒng)計語言模型的機(jī)器學(xué)習(xí)關(guān)系抽取方法憑借其入手易、效率高成為研究人員的主要選擇。本項(xiàng)目選擇了基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法:采用統(tǒng)計語言模型的關(guān)系抽取方法和Bootstrapping的關(guān)系擴(kuò)展方法。

2.2.1 基于統(tǒng)計語言模型的關(guān)系抽取模型

2.2.1.1 統(tǒng)計語言模型研究

統(tǒng)計語言模型可以形式化統(tǒng)一表示為式(1)。

p(S)=p(w1,w2,…,wn)=

(1)

p(S)就是語言模型,即用來計算一個句子S概率的模型。那么如何計算p(wi|w1,w2,…,wi-1),最簡單的辦法就是采用極大似然估計(Maximum Likelihood Estimate,MLE),見式(2)。

p(wi|w1,w2,…,wi-1)=fraccount(w1,w2,…,

wi-1,wi)count(w1,w2,…,wi-1)

(2)

式中,count(w1,w2,…wi)表示詞序(w1,w2,…,wi)在語料庫中出現(xiàn)的頻率。但由于數(shù)據(jù)稀疏和參數(shù)空間過大,導(dǎo)致實(shí)際中無法得到應(yīng)用。

所以,實(shí)際中通常采用N元語法模型(N-Gram),它采用馬爾科夫假設(shè):語言中每個單詞只與其前面N-1的上下文有關(guān)。

假設(shè)下一個詞的出現(xiàn)只依賴它前面的一個詞,即二元語法模型(BiGram),則有式(3)。

p(S)=p(w1)p(w2|w1)p(w3|w1,w2)

…p(wn|w1,w2,…,wn-1)

=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1)

(3)

對于N的選擇:理論上,越大越好;經(jīng)驗(yàn)上,TriGram用的最多。原則上,能有BiGram解決的,就不用TriGram。

2.2.1.2 構(gòu)建基于統(tǒng)計語言模型的關(guān)系抽取模型

關(guān)系抽取中采用二元語法模型,及每個詞只和它前一個詞有關(guān),滿足一元馬爾科夫假設(shè)。操作步驟如下。

1)分詞。對每個句子進(jìn)行分詞,過濾出名詞、動詞和介詞。

2)關(guān)系詞過濾。對關(guān)系詞進(jìn)行過濾,過濾出不及物動詞(例如奔跑)以及以人為主語的詞(例如,看見)。

3)獲得關(guān)系三元組集合。找出句子中所有n-v/p-n結(jié)構(gòu)的三元組(不考慮相鄰關(guān)系)。并計算獲得的所有三元組的聯(lián)合概率作為該三元組的得分(用二元語法模型);找出得分最高的三元組作為候選的關(guān)系三元組。

4)確定關(guān)系三元組。通過規(guī)則,對關(guān)系三元組的候選集合進(jìn)行過濾,得到關(guān)系三元組,目前主要通過兩條規(guī)則進(jìn)行過濾:對于抽取出來的n1-(v/p)-n2結(jié)構(gòu),如果n1和n2之間距離超過5,我們認(rèn)為這個關(guān)系較弱而舍棄;對于抽取出來的n1-(v/p)-n2結(jié)果,如果n2后面是一個動詞,我們認(rèn)為這個關(guān)系抽取的不完整故舍棄。

5)關(guān)系三元組置信度計算。加入評分函數(shù)計算抽取的關(guān)系三元組的置信度。評分函數(shù)為關(guān)系三元組在語料中出現(xiàn)的頻率。

2.2.2 構(gòu)建基于Bootstrapping算法的關(guān)系擴(kuò)展模型2.2.2.1 Bootstrapping算法研究

統(tǒng)計語言模型解決的是關(guān)系抽取的問題,而Bootstrapping解決的是關(guān)系擴(kuò)展的問題。Bootstrapping的方法主要的思路是通過人工指定幾個初始種子,隨后系統(tǒng)會尋找滿足人工提供種子的句式模板,利用得到的模板找到新的種子不斷的迭代下去,最終達(dá)到舉一反三的目的。該方法的缺點(diǎn)是對初始關(guān)系種子的質(zhì)量要求較高。比如我們現(xiàn)在知道“中國-北京”,“美國-華盛頓”兩個國家-首都的關(guān)系,但是還想知道所有其他的國家-首都關(guān)系,那么就可以用Bootstrapping方法,以“中國-北京”,“美國-華盛頓”為基礎(chǔ),可以找到語料中幾乎所有的國家-首都關(guān)系。

Bootstrapping算法基本思想是:構(gòu)建初始種子集;依據(jù)上下文語義環(huán)境,構(gòu)建候選模式集;采用種子集訓(xùn)練初始分類器,并對未標(biāo)注數(shù)據(jù)集進(jìn)分類;把分類結(jié)果中具有高置信度的樣本加入種子集中,重新訓(xùn)練分類器,直到?jīng)]有新數(shù)據(jù)加入種子集為止;最后用訓(xùn)練好的分類模型對測試集進(jìn)行評估,輸出識別的最終結(jié)果。

2.2.2.2 基于Bootstrapping算法的關(guān)系擴(kuò)展模型

依據(jù)Bootstrapping算法的基本思想,設(shè)計算法流程共分為以下幾個步驟:上下文構(gòu)建階段、模板抽取階段、候選種子抽取階段和候選種子評分階段。

1)上下文構(gòu)建階段。上下文構(gòu)建階段主要是利用一種前綴字典樹的數(shù)據(jù)結(jié)構(gòu)來存儲種子的前后的文字,在抽取上下文的時候只選擇在同一個分句當(dāng)中的內(nèi)容即任何標(biāo)點(diǎn)符號都作為邊界處理。前綴字典樹是一種壓縮存儲的數(shù)據(jù)結(jié)構(gòu),他的特征在于父節(jié)點(diǎn)是子節(jié)點(diǎn)的前綴。

2)模板抽取階段。模板抽取階段主要是利用上下文構(gòu)建得到的兩個字典樹,找到滿足所有種子的最長的句式模板。

3)候選種子抽取階段。候選種子抽取階段主要是利用找到的句式模板,在整個語料中找到滿足句式句子并利用句式抽出去對應(yīng)位置的種子,作為候選種子。

4)候選種子評分階段。候選種子評分階段主要是利用隨機(jī)游走的方法從圖中進(jìn)行迭代直到到達(dá)圖中的任何一點(diǎn)的概率收斂。

3 文獻(xiàn)知識發(fā)現(xiàn)實(shí)驗(yàn)

結(jié)合項(xiàng)目開展實(shí)際,經(jīng)過前期充分的咨詢調(diào)研,確定探索挖掘“金礦”領(lǐng)域知識關(guān)聯(lián)圖譜為試點(diǎn),在目標(biāo)文獻(xiàn)中自動發(fā)現(xiàn)構(gòu)建“金礦”的關(guān)聯(lián)關(guān)系網(wǎng)絡(luò),實(shí)現(xiàn)為“金礦”成礦預(yù)測提供有價值的新知識、新關(guān)聯(lián)的目標(biāo)。

3.1數(shù)據(jù)準(zhǔn)備

3.1.1 數(shù)據(jù)源確定

在文獻(xiàn)數(shù)據(jù)準(zhǔn)備階段我們提取了CNKI2016年以前“金礦”相關(guān)文獻(xiàn)的全文數(shù)據(jù),提取標(biāo)準(zhǔn)為:在基礎(chǔ)科學(xué)大類中選擇地質(zhì),這些文獻(xiàn)的元數(shù)據(jù)(題目、關(guān)鍵詞、內(nèi)容提要)中必須包含有“金礦”一詞;在工程科技大類中選擇礦業(yè)工程學(xué)文獻(xiàn),其文獻(xiàn)的元數(shù)據(jù)(題目、關(guān)鍵詞、內(nèi)容提要)中也必須包含有“金礦”一詞。

最終共提取金礦會議文獻(xiàn)約1 647篇,大小約457 M;金礦期刊文獻(xiàn)約28 740篇,大小約9.54 G。其中,元數(shù)據(jù)為XML格式,文獻(xiàn)全文為TXT格式。

3.1.2 詞表收集整理

收集整理用于自然語言處理的中文詞表和其他相關(guān)規(guī)范、標(biāo)準(zhǔn)等文件。經(jīng)收集整理可利用的詞表及其文件格式如下:1)地質(zhì)分類法(xls,doc);2)敘詞表(pdf);3)2003~2014年度地質(zhì)文摘庫自由詞(xls);4)地球科學(xué)百科全書(pdf);5)地球科學(xué)大辭典(xls);6)地球物質(zhì)科學(xué)術(shù)語匯編(pdf);7)地質(zhì)大辭典(pdf);8)地質(zhì)圖書分類法(pdf)。

3.1.3 專業(yè)詞匯提取

在已有的文獻(xiàn)數(shù)據(jù)中提取了“金礦”相關(guān)專業(yè)詞匯,包括:從金礦會議文獻(xiàn)中提取關(guān)鍵詞2 668個,從金礦期刊文獻(xiàn)中提取關(guān)鍵詞26 794個、常用字典詞匯677 844個,最終收錄詞典詞目數(shù)717 819個。

3.2利用統(tǒng)計語言模型構(gòu)建金礦領(lǐng)域知識圖譜

3.2.1 第一輪實(shí)驗(yàn)

圖2 統(tǒng)計語言模型構(gòu)建知識圖譜第一輪實(shí)驗(yàn)結(jié)果

3.2.2 第二輪實(shí)驗(yàn)

根據(jù)第一輪實(shí)驗(yàn)結(jié)果,進(jìn)行了關(guān)系詞(關(guān)系三元組中間的詞)去除,關(guān)系詞的問題有如下三類:第一類:關(guān)系詞包含意義模糊,表意不清。例如“有”、“受”、“使”、“添加”、“進(jìn)行”、“采”等;第二類:關(guān)系詞是不及物動詞,沒法接賓語。例如“作業(yè)”、“發(fā)生”、“精選”、“進(jìn)行”、“加壓”等;第三類:關(guān)系詞的主語為人,而項(xiàng)目抽取關(guān)系的主語為物。例如“建造”、“實(shí)驗(yàn)”等。

針對這三類關(guān)系詞,分別做出如下處理。第一類關(guān)系詞包含意義模糊,采用停用詞表的方式在關(guān)系抽取的時候?qū)⑦@類詞過濾出去。實(shí)驗(yàn)中發(fā)先這類詞比較少(由于文獻(xiàn)的格式用語比較規(guī)范統(tǒng)一),所以只構(gòu)建了擁有三百多個詞的停用詞表就達(dá)到了很好的過濾效果,人工干預(yù)工作量并不大,且為一次性工作。第二類關(guān)系詞是不及物動詞,在詞性標(biāo)注的時候?qū)⒉患拔飫釉~單獨(dú)標(biāo)注出來,在關(guān)系抽取過程中可以直接過濾掉,過程完全自動化。第三類關(guān)系詞的主語為人,這類詞語和第二類不及物動詞有很大的重合,所以在過濾第二類詞的時候已經(jīng)過濾了大量的第三類詞,剩下少量的詞通過停用詞表來過濾,人工干預(yù)工作量小,且為一次性干預(yù),而效果極其顯著(圖3)。

3.2.3 第三輪實(shí)驗(yàn)

在這一輪實(shí)驗(yàn)中主要對評分函數(shù)進(jìn)行了完善:在實(shí)驗(yàn)中,發(fā)現(xiàn)評分函數(shù)存在缺陷:評分函數(shù)使用兩個二元組的聯(lián)合概率之和,這樣的評分函數(shù)放大了關(guān)系詞在抽取的關(guān)系三元組中的比重關(guān)系詞對關(guān)系三元組影響占比為50%(關(guān)系詞計算了兩次),然而關(guān)系詞的抽取在關(guān)系抽取中又是最不穩(wěn)定的,所以導(dǎo)致抽取結(jié)果準(zhǔn)確度較低。據(jù)此,對評分函數(shù)進(jìn)行了改進(jìn):將原始計算兩個二元組聯(lián)合概率之和改成直接計算三元組的聯(lián)合概率,使得兩個實(shí)體詞和關(guān)系詞對關(guān)系三元組的占比都是1/3,達(dá)到平衡(圖4)。

圖3 統(tǒng)計語言模型構(gòu)建知識圖譜第二輪實(shí)驗(yàn)結(jié)果

圖4 統(tǒng)計語言模型構(gòu)建知識圖譜第三輪實(shí)驗(yàn)結(jié)果

3.3利用Bootstrapping構(gòu)建金礦領(lǐng)域知識圖譜

3.3.1 第一輪實(shí)驗(yàn)

1)實(shí)驗(yàn)種子設(shè)置:金礦-黃金。

2)關(guān)系抽取模板,如圖5所示。

3)實(shí)驗(yàn)結(jié)果,如圖6所示。

4)結(jié)果分析。僅發(fā)現(xiàn)一個有效種子,經(jīng)分析主要原因如下:文獻(xiàn)數(shù)量不夠、文獻(xiàn)種子分布不均衡、漢語表達(dá)的多樣性、模板太過具體、臟數(shù)據(jù)過多等。

3.3.2 第二輪實(shí)驗(yàn)

依據(jù)第一輪實(shí)驗(yàn)發(fā)現(xiàn)的問題進(jìn)行改進(jìn),效果比較明顯。

1)種子設(shè)置:礦石-磁鐵礦、礦石-黃鐵礦。

2)關(guān)系抽取模板,如圖7所示。

3)實(shí)驗(yàn)結(jié)果,如圖8所標(biāo)。

3.4領(lǐng)域圖譜可視化

在關(guān)系抽取實(shí)驗(yàn)基礎(chǔ)上,將抽取關(guān)系對采用可視化技術(shù),獲得關(guān)金礦領(lǐng)域關(guān)系圖譜如圖9所示。

圖5 Bootstrapping第一輪二元關(guān)系抽取模板

圖6 Bootstrapping第一輪二元關(guān)系實(shí)驗(yàn)結(jié)果

圖7 Bootstrapping第二輪關(guān)系抽取模板

圖8 Bootstrapping第二輪二元關(guān)系實(shí)驗(yàn)結(jié)果

4 結(jié) 論

科學(xué)文獻(xiàn)是記錄、傳播知識的重要的載體,在學(xué)科領(lǐng)域交叉日益深入的今天,越來越多的科研工作者認(rèn)識到科學(xué)文獻(xiàn)的挖掘分析是發(fā)現(xiàn)新知識的一個有效方式。本文通過對地質(zhì)專業(yè)文獻(xiàn)數(shù)據(jù)的挖掘,結(jié)合自然語言處理、機(jī)器學(xué)習(xí)等方法,驗(yàn)證了一套基于文獻(xiàn)數(shù)據(jù)的知識發(fā)現(xiàn)解決方案,包括數(shù)據(jù)處理、分詞/詞性標(biāo)注、關(guān)系抽取算法與模型研發(fā)(關(guān)系發(fā)現(xiàn)、關(guān)系擴(kuò)展)等環(huán)節(jié)。下一步研究將在不斷完善關(guān)系抽取模型的基礎(chǔ)上構(gòu)建可視化圖譜,并進(jìn)一步深入擴(kuò)展圖譜的應(yīng)用,實(shí)現(xiàn)例如基于知識圖譜的熱點(diǎn)、趨勢發(fā)現(xiàn)等功能,從而使地質(zhì)文獻(xiàn)資源內(nèi)容展示的程度進(jìn)一步加深、資源之間的內(nèi)部聯(lián)系更加一目了然,為成礦預(yù)測決策和科研提供快捷的知識獲取服務(wù)。

圖9 金礦領(lǐng)域知識圖譜

[1] 劉石年.成礦預(yù)測學(xué)[M].長沙:中南工業(yè)大學(xué)出版社,1993.

[2] 薛順榮,胡光道,丁俊.成礦預(yù)測研究現(xiàn)狀及發(fā)展趨[J].云南地質(zhì),2001,20(4):411-416.

[3] 劉林,芮會超.成礦預(yù)測的發(fā)展現(xiàn)狀及趨勢[J].地質(zhì)力學(xué)學(xué)報,2016,22(2):223-231.

[4] 趙鵬大.找礦理念:從定性到定量[J].地質(zhì)通報,2011,30(5):625-629.

[5] 王登紅,劉新星,劉麗君.地質(zhì)大數(shù)據(jù)的特點(diǎn)及其在成礦規(guī)律、成礦系列研究中的應(yīng)用[J].礦床地質(zhì),34(6):1143-1154.

[6] 張樹良,冷伏海.基于文獻(xiàn)的知識發(fā)現(xiàn)的應(yīng)用進(jìn)展研究[J].情報學(xué)報,2006(6):700-712.

[7] Swanson D R.Online Search for Logically Related Non—interactive Medical Literatures:a Systematic Trial and Error Strategy[J].Journal of American Society for Information Science,1989,40(5):356-358.

[8] 黃水清.非相關(guān)知識發(fā)現(xiàn)方法及在農(nóng)業(yè)經(jīng)濟(jì)學(xué)中的應(yīng)用[D].南京:南京農(nóng)業(yè)大學(xué),2010.

[9] 馮璐,冷伏海.共詞分析方法理論進(jìn)展[J].中國圖書館學(xué)報,2006,32(2):88-92.

[10] 王建芳,冷伏海.共引分析理論與實(shí)踐進(jìn)展[J].中國圖書館學(xué)報,2006,32(1):85-88.

[11] Swanson D R,Smalheiser N R.Aninteractivesystemforfinding complementary literatures:a Stimulus to scientific discovery[J].Artificial Intelligence,1997,91:183-203.

[12] Weeber M,Klein H,Lolkjc T W,et a1.Using Concepts in Literature-Based Discovery:Simulating Swanson’S Baynaud-Fish Oil and Migraine-Magnesium Discoveries[J].Journal of the American Society for Information Science and Technology,2001,52(7):548-557.

[13] 田瑞強(qiáng),姚長青,潘云濤.關(guān)聯(lián)文獻(xiàn)的知識發(fā)現(xiàn)與創(chuàng)新研究進(jìn)展[J].情報理論與實(shí)踐,2013(8):117-123.

[14] 趙瑞雪,鮮國建,寇遠(yuǎn)濤,等.大數(shù)據(jù)環(huán)境下的農(nóng)業(yè)知識發(fā)現(xiàn)服務(wù)探索[J].數(shù)字圖書館論壇,2016(9):28-33.

[15] 劉遷,賈惠波.中文信息處理中自動分詞技術(shù)的研究與展望.計算機(jī)工程與應(yīng)用[J],2006(3):175-182.

[16] 馮志偉.當(dāng)前自然語言處理發(fā)展的幾個特點(diǎn)[J].暨南大學(xué)華文學(xué)院學(xué)報,2006(1):34-40.

[17] 徐健,張智雄.典型關(guān)系抽取系統(tǒng)的技術(shù)方法解析[J].數(shù)字圖書館論壇,2008(9):13-18.

Theapplicationstudyonmetallogenicprognosisofliterature-basedknowledgediscovery

LYU Pengfei1,2,3,WANG Chunning1,ZHOU Feng1,ZHU Yueqin3,4

(1.National Geological Library of China,Beijing100083,China;2.University of Chinese Academy of Sciences,Beijing100049,China;3.Key Laboratory of Geological Information Technology of Ministry of Land and Resources,Beijing100037,China;4.Development and Research Center,China Geological Survey,Beijing100037,China)

The analysis and data mining of literature is an effective way to find unknown knowledge.This essay put forward research ideas of literature-based knowledge discovery applied in metallogenic prognosis,and building model of Literature-based Knowledge Discovery consisted of geological entity recognition,entity relation recognition and extraction.

literature-based knowledge discovery;metallogenic prognosis;Chinese segmentation;entity relation recognition and extraction

2017-06-27責(zé)任編輯:趙奎濤

國土資源部公益性行業(yè)科研專項(xiàng)項(xiàng)目資助(編號:201511079)

呂鵬飛(1978-),男,碩士研究生,高級工程師,主要從事地質(zhì)文獻(xiàn)數(shù)據(jù)分析與挖掘方面的研究工作,E-mail:23690271@qq.com。

朱月琴(1975-),女,博士,高級工程師,主要從事地質(zhì)大數(shù)據(jù)、地圖綜合與可視化研究工作,E-mail:yueqinzhu@163.com。

P208

:A

:1004-4051(2017)09-0085-07

猜你喜歡
內(nèi)容提要金礦
英文內(nèi)容提要
英文內(nèi)容提要
無人化智能裝備在大尹格莊金礦的應(yīng)用
英文內(nèi)容提要
中國十大金礦排名
加納Amanforom礦區(qū)Ⅲ號隱伏金礦帶的發(fā)現(xiàn)與評價
Premier金礦公司簡介
加納Amanforom礦區(qū)Ⅲ號隱伏金礦帶的發(fā)現(xiàn)與評價
西嶺金礦——中國最大單體金礦
學(xué)術(shù)研究建言
青田县| 雅安市| 江西省| 五指山市| 安溪县| 邯郸市| 桂林市| 建德市| 卓尼县| 讷河市| 绥宁县| 墨竹工卡县| 天峨县| 金秀| 五峰| 旌德县| 城口县| 平陆县| 乐清市| 依安县| 屯留县| 三都| 宁乡县| 洞口县| 沈丘县| 依安县| 唐海县| 江川县| 随州市| 突泉县| 泾川县| 湘潭市| 石柱| 乐安县| 乌鲁木齐市| 大同县| 平江县| 吉木萨尔县| 仙游县| 邵武市| 高碑店市|