王彬彬 周可法 王金林 汪瑋 李超 程寅益
摘? ?要:地球科學的研究成果通常記錄在技術報告、期刊論文、書籍等文獻中,但許多詳細的地球科學報告未被使用,這為信息提取提供了機遇。為此,我們提出了一種名為GMNER(Geological Minerals named entity recognize,MNER)的深度神經(jīng)網(wǎng)絡模型,用于識別和提取礦物類型、地質(zhì)構造、巖石與地質(zhì)時間等關鍵信息。與傳統(tǒng)方法不同,本次采用了大規(guī)模預訓練模型BERT(Bidirectional Encoder Representations from Transformers,BERT)和深度神經(jīng)網(wǎng)絡來捕捉上下文信息,并結合條件隨機場(Conditional random field,CRF)以獲得準確結果。實驗結果表明,MNER模型在中文地質(zhì)文獻中表現(xiàn)出色,平均精確度為0.898 4,平均召回率0.922 7,平均F1分數(shù)0.910 4。研究不僅為自動礦物信息提取提供了新途徑,也有望促進礦產(chǎn)資源管理和可持續(xù)利用。
關鍵詞:礦物信息提取;深度神經(jīng)網(wǎng)絡;礦物文獻;命名實體識別
地球科學的研究成果通常記錄在技術報告、期刊論文、書籍等文獻中。近年來,開放數(shù)據(jù)倡議促使政府機構和科研機構將數(shù)據(jù)在線發(fā)布以供再利用[1-3]。許多國家地質(zhì)調(diào)查機構(如USGS和CGS)已將地質(zhì)調(diào)查成果在線發(fā)布。地球科學文獻作為開放數(shù)據(jù)的重要組成部分,為地質(zhì)礦物信息提取研究提供了巨大機遇。
從地質(zhì)科學文本數(shù)據(jù)中提取結構化信息、發(fā)現(xiàn)知識的研究在數(shù)字地球科學領域尚未深入探討。特別是在處理中文地質(zhì)科學文獻時更為困難,因為中文單詞之間無空格,計算機難以識別有意義的詞匯或短語的邊界[4-5]?;谏疃葘W習的命名礦產(chǎn)實體識別是實現(xiàn)礦產(chǎn)信息自動提取的重要方法,也是構建礦產(chǎn)領域知識圖的前提條件。
目前,地質(zhì)礦物命名實體識別領域的研究相對較少,在地質(zhì)命名實體識別方面,一些學者已將深度學習應用于該領域,并取得一定成果。Zhang等 針對地質(zhì)文獻特點[6],設計了一種基于深度信念網(wǎng)絡的地質(zhì)命名實體識別模型。Qiu等提出了一種將雙向長短時記憶網(wǎng)絡(Bi-directional Long Short-Term Memory,BiLSTM)與CRF相結合的模型[7],該模型利用注意機制捕捉單詞之間的關聯(lián)信息,并從地質(zhì)報告中提取地質(zhì)實體,如地質(zhì)歷史和地質(zhì)結構。Li等構建了一種基于地質(zhì)領域本體的中文分詞算法[8],并輔以自循環(huán)方法,以更好地分割地質(zhì)領域文本。礦物信息的提取有以下3個難點:①礦物信息來源廣泛,包括文獻、專利、報告、新聞等多種類型的文本[9];②礦物信息的命名規(guī)范不統(tǒng)一,不同地區(qū)、不同領域、不同時間的命名方式可能存在差異,需進行多樣化命名實體識別;③礦物信息的語言表達復雜,包括詞匯多樣、語法復雜、語義模糊等問題。
為解決這些挑戰(zhàn),我們提出了一種基于深度神經(jīng)網(wǎng)絡的地質(zhì)礦物命名實體識別模型,基于5份區(qū)域礦產(chǎn)領域報告,據(jù)礦產(chǎn)文本的特點,提取了礦產(chǎn)類型、地質(zhì)構造、巖石和地質(zhì)時間、成礦區(qū)域等信息。與前人所采用的方法相比,結合大規(guī)模預訓練模型BERT和深度神經(jīng)網(wǎng)絡來學習上下文信息,使用條件隨機場來獲取最優(yōu)全局標簽序列[10],最終實現(xiàn)地質(zhì)礦物命名實體識別。
1? 方法
本文采用的大規(guī)模預訓練模型BERT和深度神經(jīng)網(wǎng)絡的總體結構如圖1。整個模型分為BERT層、BiLSTM層、全連接層和CRF層。首先,BERT預訓練層在大規(guī)模無標注地質(zhì)礦物數(shù)據(jù)集上進行無監(jiān)督訓練,提取豐富的語法和語義特征,得到詞向量表示;然后將訓練好的詞向量輸入長短期記憶網(wǎng)絡進行特征提取,并將兩個神經(jīng)網(wǎng)絡的輸出特征進行融合;最后,通過一個全連接層進行降維并將輸出的特征輸入到CRF層進行校正。
1.1? BERT
Devlin等提出了BERT模型[11],與OpenAI GPT中的從左到右Transformer和ELMo中的拼接雙向LSTM不同[12-13],BERT使用雙向Transformer模型架構[14](圖2)。“Trm”代表Transformer塊。該模型使用注意力機制將任意位置的兩個單詞之間的距離轉換為1,使模型能夠充分考慮更長距離的上下文語義,有效解決了NLP中單詞和句子的長期依賴問題,并更全面地捕捉語句中的雙向關系。[]
該模型的輸入層是詞嵌入、位置嵌入和分段嵌入的組合。Transformer Block是基于注意力機制的編碼結構(圖3),是BERT的重要組成部分。在Transformer編碼單元中使用自注意力機制的工作原理主要是計算文本序列中單詞之間的相關性。其主要功能是引導神經(jīng)網(wǎng)絡將注意力集中在能夠更好地影響輸出的特征上,并區(qū)分輸入對輸出的不同部分的影響。其中,編碼器由6個相同模塊堆疊而成。計算輸出公式(1)和公式(2)所示。
outputAtt=LayerNorm(x+Attention(x)) (1)
outputFnn=LayerNorm(outputAtt+FNN(outputAtt))…(2)
解碼器同樣堆疊有6個相同模塊。與編碼器模塊不同,在底層注意力層中添加了遮蔽,其目的是防止模型接觸未來時刻點上信息而影響訓練。單個頭的縮放點注意力計算公式如下:
其中,[xt]為當前的輸入,[ht-1]為上一步的隱藏狀態(tài),[ft]為遺忘門,[it]為輸入門,[Ot]為輸出門,b為偏置,[Ct]為神經(jīng)元在時間t記憶的信息,[Ct]為當前神經(jīng)元要存儲的信息,[ht]為最終LSTM單元的輸出。
在將BiLSTM應用于命名實體識別時,將BERT獲得的地質(zhì)礦物文本中每個單詞的向量表示作為輸入。通過使用LSTM,網(wǎng)絡可自動學習上下文特征,然后計算當前時間步的最佳分類結果。雖然仍為一個分類模型,但該網(wǎng)絡能夠獲取更好的上下文特征表示。
1.3? CRF
盡管BiLSTM和IDCNN神經(jīng)網(wǎng)絡結構能捕捉上下文信息,但忽略了實體標簽之間的順序和關聯(lián)。在命名實體識別中,根據(jù)標注規(guī)則,如果某些標簽連續(xù)出現(xiàn),則可能不符合語言邏輯。CRF可考慮標簽之間的邏輯關系,以獲得全局最優(yōu)的標簽序列,因此在模型最后一層使用它來修改識別結果。其原理如下:
定義[Pij]為第i個符合第j個標簽的概率,輸入的句子序列[x={x1,x2,x3,…,xn}]與其預測序列[y=][{y1,y2,y3,…,yn}]得分計算公式如下:
公式(15)-(17)中,[y*]表示正確標簽的對數(shù)概率,[y]表示所有可能標記的集合,最優(yōu)序列分類通過[K(x,y)]函數(shù)完成。
2? 實體識別實驗
2.1? 數(shù)據(jù)集
本研究使用的標注語料庫來自不同地區(qū)的5份中國區(qū)域調(diào)查報告,共計約50萬字。由于原始文本中有諸多干擾信息,如標題號、圖片和表格,這將使文本識別變得困難,因此首先對文本進行預處理,主要檢查文本格式和內(nèi)容,去除圖片和表格,將連續(xù)的文本劃分為只包含單詞、標點符號、數(shù)字和空格的標記,且無地質(zhì)礦物實體信息的句子已被刪除,最終得到了8 000個有效句子。對這些有效數(shù)據(jù),本文按隨機選擇方法,按8∶1∶1的比例劃分為訓練集、驗證集和測試集。
2.2? 標注策略和評價指標
文本標注是指對文本中的實體和非實體進行標記。我們采用了“BIO”(Beginning、Inside、Outside)標注策略,其中“B”表示實體詞匯的第一個字符,“I”表示實體詞匯的所有中間字符,“O”表示非實體詞匯。我們共標注18 783個實體,包括礦產(chǎn)資源的6個主要特征:礦產(chǎn)地、巖石、地層、礦物類型、地質(zhì)構造、地質(zhì)時間(表1)。對于復雜實體,我們分別標注多個實體,例如“巖(B-LOC)金(I-LOC)礦(I-LOC)山(I-LOC)潛(B-ROC)火(I-ROC)山(I-ROC)巖(I-ROC)白(B-SG)山(I-SG)組(I-SG)”,“巖金礦山”、“潛火山巖”和“白山組”分別被標記為礦產(chǎn)地、巖石和地層。在實驗中,復雜實體也被單獨匹配。
命名實體識別的評價指標包括:精確率(P)、召回率(R)和F值。具體的定義如下:Tp表示模型正確識別的實體數(shù)量,F(xiàn)p表示模型誤識別的實體數(shù)量,F(xiàn)n表示模型漏掉的實體數(shù)量,即模型未能正確標識的實際存在的實體數(shù)量。這3個指標在NER評價標準中被廣泛使用[17-18]。
2.3? 實驗參數(shù)設置
實驗環(huán)境和參數(shù)設置模型在Python 3.7.3和TensorFlow 1.14.1中進行訓練和測試。實驗使用BERT-Base模型進行,該模型包含12個轉換層、768個維隱藏層和12頭注意機制。BiLSTM網(wǎng)絡有一個128維的隱藏層。注意機制層被設置為50維,且最大序列長度被設置為256,所有模型均在4×RTX 2080 Ti GPU上進行訓練(表2)。
2.4? 實驗和分析
在進行深度學習模型訓練前,合理設置超參數(shù)至關重要。學習率作為深度學習模型中的一個關鍵參數(shù),對于目標函數(shù)的收斂速度及是否能夠收斂到局部最小值均有顯著影響。針對BERT-LSTM-CRF模型進行了學習率調(diào)整實驗。從實驗結果可以明顯看出(表3),將學習率設置為4e-5時獲得了最優(yōu)的性能表現(xiàn)。
另一個在BERT模型中常用的正則化技術是dropout。該技術會隨機地將部分神經(jīng)元輸出設為零,有助于降低模型過擬合風險。在BERT-LSTM-CRF模型中,我們對dropout率進行調(diào)整實驗。結果表明(表4),在實驗中將dropout設置為0.1時,能夠獲得最佳性能效果。
實驗結果進一步強調(diào)了超參數(shù)選擇的重要性,凸顯了在BERT-LSTM-CRF模型中的學習率和dropout率對模型性能影響的關鍵性。這些參數(shù)的優(yōu)化可在一定程度上提高模型性能和泛化能力。實驗的命名實體識別模型結果見表5。
所有考慮的模型中,BERT-LSTM-CRF表現(xiàn)最佳,其精確度、召回率和F1值分別達0.898 4、0.992 7和0.910 4。在使用BERT與CRF結合的情況下,精確度、召回率和F1值分別為0.880 7、0.902 9和0.891 7。在引入雙向LSTM網(wǎng)絡后,F(xiàn)1值出現(xiàn)下降,可能是因為BERT已具良好的詞向量表示,而引入BiLSTM后導致過擬合現(xiàn)象。
當使用RoBERTa預訓練模型時,識別效果普遍下降。盡管RoBERTa和BERT均基于Transformer架構的預訓練語言模型,但在預訓練細節(jié)、超參數(shù)等方面可能存在差異。BERT的架構和超參數(shù)設置更適合地質(zhì)礦物領域的命名實體識別任務。值得注意的是,在中文文本中,巖石和礦物類型相對容易辨別,且其標簽數(shù)量在所有實體中占比超過50%,因此,所有模型均表現(xiàn)出對“巖石”和“礦物類型”實體的良好識別效果,F(xiàn)1得分均超過90%。此外,表現(xiàn)較好的另外兩種實體類型是“地層”和“地質(zhì)時間”,且它們對應的標簽數(shù)量也相對較多。
上述結果表明,在礦物實體識別任務中,BERT-LSTM-CRF模型的表現(xiàn)最佳,而RoBERTa預訓練模型表現(xiàn)一般。不同類型的礦物實體在各模型的識別效果也呈現(xiàn)出一定差異。
3? 結論和展望
本研究主要致力于運用深度學習構建命名實體識別模型,即從大量地質(zhì)礦物相關文檔中提取命名實體。該工作為構建地質(zhì)礦物知識圖譜提供了重要數(shù)據(jù)支持?;贐ERT-LSTM-CRF模型,筆者團隊從地質(zhì)礦物文獻中提取出6種類型實體,實現(xiàn)了平均精確度0.898 4,平均召回率0.922 7,平均F1分數(shù)0.910 4。從實驗結果中得出以下結論:
(1) 在命名實體識別任務中,BERT-LSTM-CRF模型表現(xiàn)最佳,但引入BiLSTM會導致過擬合,從而降低模型性能。
(2) 當中文實體的語義區(qū)別明確且標簽充足時,實體識別效果更好。
(3) 在地質(zhì)礦物領域命名實體識別任務中,RoBERTa不如BERT表現(xiàn)出色。BERT的架構和超參數(shù)設置更適合地質(zhì)礦物領域命名實體識別任務。
盡管本研究在礦物命名實體識別方面取得了良好效果,仍有待進一步改進的空間:
(1) 針對標注較少的實體類型,有進一步提升其識別性能的空間。我們計劃通過擴充數(shù)據(jù)集中的礦物實體數(shù)量來解決此問題。
(2) 未來將針對地質(zhì)礦物領域的特點進行模型調(diào)整和優(yōu)化,以提高模型的領域適應性。
(3) 根據(jù)從地質(zhì)礦物文本中所提取的信息構建地質(zhì)礦物相關的領域知識圖譜。
參考文獻
[1] Ali S H,Giurco D,Arndt N,et al.Mineral supply for sustainable development requires resource governance[J].Nature,2017,543(7645):367-372.
[2] Cernuzzi L,Pane J.Toward open government in Paraguay[J].It Professional,2014,16(5):62-64.
[3] Ma X.Linked Geoscience Data in practice:Where W3C standards meet domain knowledge,data visualization and OGC standards[J].Earth Science Informatics,2017,10(4):429-441.
[4] Gao J,Li M,Huang C N,et al.Chinese word segmentation and named entity recognition:A pragmatic approach[J].Computational Linguistics,2005,31(4):531-574.
[5] Huang L,Du Y,Chen G.GeoSegmenter:A statistically learned Chinese word segmenter for the geoscience domain[J].Computers & geosciences,2015,76:11-17.
[6] Zhang X,F(xiàn)an D,Xu J,et al.Sedimentary laminae in muddy inner continental shelf sediments of the East China Sea:Formation and implications for geochronology[J].Quaternary International,2018,464:343-351.
[7] Qiu Q,Xie Z,Wu L,et al.BiLSTM-CRF for geological named entity recognition from the geoscience literature[J].Earth Science Informatics,2019,12:565-579.
[8] Li W,Ma K,Qiu Q,et al.Chinese Word Segmentation Based on Self-Learning Model and Geological Knowledge for the Geoscience Domain[J].Earth and Space Science,2021,8(6):1673.
[9] Wang B,Ma K,Wu L,et al.Visual analytics and information extraction of geological content for text-based mineral exploration reports[J].Ore Geology Reviews,2022,144:104818.
[10] Sobhana N,Mitra P,Ghosh S K.Conditional random field based named entity recognition in geological text[J].International Journal of Computer Applications,2010,1(3):143-147.
[11] Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:2018,1810.
[12] Radford A,Narasimhan K,Salimans T,et al.Improving language understanding by generative pre-training[J].2018.
[13] Peters M E,Neumann M,Iyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv,2018,1802.
[14] Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in neural information processing systems,2017,30.
[15] Bengio Y,Simard P,F(xiàn)rasconi P.Learning long-term dependencies with gradient descent is difficult[J].IEEE transactions on neural networks,1994,5(2):157-166.
[16] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.
[17] 莊云行,季鐸,馬堯,等.基于Bi-LSTM的涉恐類案件法律文書的命名實體識別研究[J].網(wǎng)絡安全技術與應用,2023 (7):36-39.
[18] 邱芹軍,田苗,馬凱,等.區(qū)域地質(zhì)調(diào)查文本中文命名實體識別[J].地質(zhì)論評,2023,69(04):1423-1433.
Geological Mineral Attribute Recognition Method Based on
Large-Scale Pre-Trained Model and Its Application
Wang Binbin1,2,4, Zhou Kefa2,3,5, Wang Jinlin1,2,3,4, Wang Wei1,2,3,4, Li Chao5, Cheng Yinyi2
(1.Xinjiang Research Center for Mineral Resources,Xinjiang Institute of Ecology and Geography,Chinese Academy
of Sciences,Urumqi,Xinjiang,830011,China;2.University of Chinese Academy of Sciences,Beijing,100049,China;
3.Technology and Engineering Center for Space Utilization, Chinese Academy of Sciences,Beijing,100094,China;
4.Xinjiang Key Laboratory of Mineral Resources and Digital Geology,Urumqi,Xinjiang,830011,China;
5.Institute of Geological Survey,China University of Geosciences,Wuhan,Hubei,430074,China)
Abstract: Geoscience research results are usually documented in technical reports, journal papers, books, and other literature; however, many detailed geoscience reports are unused, which provides challenges and opportunities for information extraction. To this end, we propose a deep neural network model called GMNER (Geological Minerals named entity recognize, MNER) for recognizing and extracting key information such as mineral types, geological formations, rocks, and geological time. Unlike traditional methods, we employ a large-scale pre-trained model BERT (Bidirectional Encoder Representations from Transformers, BERT) and deep neural network to capture contextual information and combine it with a conditional random field (CRF) to obtain more accurate and accurate information. The experimental results show that the MNER model performs well in Chinese geological literature, achieving an average precision of 0.8984, an average recall of 0.9227, and an average F1 score of 0.9104. This study not only provides a new way for automated mineral information extraction but also is expected to promote the progress of mineral resource management and sustainable utilization.
Key words: Mineral information extraction; Deep neural network; Mineral documentation; Named entity recognition
項目資助:新疆維吾爾自治區(qū)重大科技專項(2021A03001-3)、新疆科學考察項目(2022xjkk1306)、深空大數(shù)據(jù)智能建設(292022000059)聯(lián)合資助
收稿日期:2023-09-18;修訂日期:2024-01-09
第一作者簡介:王彬彬(1998-),男,陜西咸陽人,中國科學院大學地球探測與信息技術專業(yè)在讀碩士,研究方向為地質(zhì)大數(shù)據(jù);
E-mail: wangbinbin21@mails.ucas.ac.cn