劉瀟瀟 孟小艷 李東亞 魏建新 阿依謝姆古麗·阿卜杜艾尼 付鈺 朱彥菲
摘? ?要:為進(jìn)一步提升新疆自然資源檔案館地質(zhì)資料信息集成利用率,打破目前查借閱檔案僅限于目錄查找方式的現(xiàn)狀,引入知識圖譜對新疆館藏地質(zhì)資料進(jìn)行優(yōu)化管理。以3 108檔館藏地質(zhì)資料為數(shù)據(jù)源,通過本體構(gòu)建確定實(shí)體和關(guān)系;基于BIO序列標(biāo)注對新疆館藏地質(zhì)資料數(shù)據(jù)進(jìn)行人工標(biāo)注;采用BERT-BiLSTM-CRF模型完成知識抽取,并選用圖數(shù)據(jù)庫Neo4j存儲新疆館藏地質(zhì)資料知識,完成新疆館藏地質(zhì)資料知識圖譜的構(gòu)建。實(shí)驗(yàn)結(jié)果表明,BERT-BiLSTM-CRF模型的準(zhǔn)確率為98.177 7%、F1值為97.892 1%,能準(zhǔn)確識別出新疆館藏地質(zhì)資料中的地質(zhì)實(shí)體。新疆館藏地質(zhì)資料知識圖譜的構(gòu)建為新疆自然資源檔案館的“數(shù)字檔案館”建設(shè)及新疆地質(zhì)資料大數(shù)據(jù)社會化服務(wù)水平的提升奠定基礎(chǔ)。
關(guān)鍵詞:知識圖譜;地質(zhì)資料;知識抽??;圖數(shù)據(jù)庫
地質(zhì)資料是由地質(zhì)部門收集、整理和保存的各種地質(zhì)工作業(yè)務(wù)成果的記錄[1,2],為地質(zhì)工作者提供有關(guān)地質(zhì)構(gòu)造、礦產(chǎn)資源等方面的信息,對我國發(fā)展具有重要的支撐作用。隨著科技的發(fā)展,地質(zhì)領(lǐng)域也逐漸進(jìn)入大數(shù)據(jù)時代,地質(zhì)資料數(shù)量龐大,數(shù)據(jù)挖掘效率低下等問題亟待解決。
知識圖譜的概念最早由Google公司提出[3],是將客觀世界中的實(shí)體及實(shí)體之間的關(guān)系通過圖的形式進(jìn)行表達(dá)的知識庫[4]。在地質(zhì)學(xué)領(lǐng)域中,引入知識圖譜能夠?yàn)橘Y源勘探、自然災(zāi)害預(yù)測等方面提供支持[5]。地質(zhì)領(lǐng)域知識圖譜構(gòu)建的基礎(chǔ)是命名實(shí)體識別[6],即在未處理的地質(zhì)領(lǐng)域文本中識別特定類別的專有名詞實(shí)體,其準(zhǔn)確性直接影響地質(zhì)領(lǐng)域多種自然語言處理技術(shù)的結(jié)果。張春菊在BiLSTM-CRF深度學(xué)習(xí)模型的基礎(chǔ)上[7],融合了BERT預(yù)訓(xùn)練模型,對地質(zhì)文本進(jìn)行實(shí)體抽取,在提高命名實(shí)體識別準(zhǔn)確率方面取得一定成效。Qiu等人針對從地質(zhì)文獻(xiàn)中獲取地質(zhì)實(shí)體的問題[8],提出Attention-BiLSTM-CRF模型,模型中使用的雙向LSTM能夠更好的獲取地質(zhì)實(shí)體上下文的語義特征,但對長實(shí)體的識別準(zhǔn)確率較低。
上述研究者均采用深度學(xué)習(xí)的方法對中文地質(zhì)領(lǐng)域進(jìn)行命名實(shí)體識別,但多數(shù)以地質(zhì)相關(guān)文獻(xiàn)為數(shù)據(jù)源進(jìn)行實(shí)體抽取,目前尚無針對新疆地質(zhì)檔案知識圖譜構(gòu)建技術(shù)的研究。本文將知識圖譜引入新疆館藏地質(zhì)資料的信息化管理中,選用知識抽取模型BERT-BiLSTM-CRF及圖數(shù)據(jù)庫Neo4j完成新疆館藏地質(zhì)資料知識圖譜的構(gòu)建(圖1)。
1? 新疆館藏地質(zhì)資料知識圖譜構(gòu)建
本文從本體構(gòu)建、數(shù)據(jù)預(yù)處理、知識抽取、知識存儲4個方面完成新疆館藏地質(zhì)資料知識圖譜的構(gòu)建,主要步驟如下:首先對新疆館藏地質(zhì)資料進(jìn)行分析,設(shè)計(jì)概念層次,確定實(shí)體和關(guān)系類型,完成本體構(gòu)建。通過新疆自然資源檔案館的資料服務(wù)系統(tǒng)獲取地質(zhì)檔案數(shù)據(jù)并進(jìn)行預(yù)處理,知識抽取使用模型BERT-BiLSTM-CRF完成,并選用圖數(shù)據(jù)庫Neo4j存儲新疆館藏地質(zhì)資料知識,完成新疆館藏地質(zhì)資料知識圖譜的構(gòu)建。
1.1? 本體構(gòu)建
本體構(gòu)建主要完成知識圖譜概念層次的設(shè)計(jì),包括關(guān)系設(shè)計(jì)和實(shí)體類型設(shè)計(jì)(表1,2)。經(jīng)過相關(guān)領(lǐng)域?qū)<壹皩I(yè)文獻(xiàn)書籍,確定了11種實(shí)體類型和20種關(guān)系類型,不同實(shí)體類型示例見表3,不同關(guān)系類型示例見表1。據(jù)實(shí)體和關(guān)系類型設(shè)計(jì)合適的三元組模式,可很好地將地質(zhì)檔案數(shù)據(jù)進(jìn)行結(jié)構(gòu)化表示,便于后續(xù)的知識應(yīng)用。
1.2? 數(shù)據(jù)預(yù)處理
新疆自然資源檔案館的部分館藏地質(zhì)資料作為數(shù)據(jù)的主要來源,主要包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。為方便后續(xù)知識圖譜的構(gòu)建,將結(jié)構(gòu)化數(shù)據(jù)進(jìn)行篩選、去重,并將多余數(shù)據(jù)和空值刪除。對于非結(jié)構(gòu)化數(shù)據(jù),采用BIO序列標(biāo)注法,通過精靈標(biāo)注助手將需要抽取的實(shí)體標(biāo)注為“B-X”、“I-X”或者“O”格式(圖2)。
1.3? 命名實(shí)體識別模型
BERT-BiLSTM-CRF模型是命名實(shí)體識別中的經(jīng)典序列標(biāo)注模型之一[9]。輸入的文本序列經(jīng)BERT模型轉(zhuǎn)化為上下文相關(guān)的詞向量,作為BiLSTM的輸入;BiLSTM對序列進(jìn)行雙向時序建模,進(jìn)行深度學(xué)習(xí)全文特征信息;最后結(jié)合CRF算法和BIO標(biāo)注的文本特征,進(jìn)行序列級別的標(biāo)簽推斷,獲得最優(yōu)標(biāo)簽序列。
1.3.1? BERT預(yù)訓(xùn)練模型
BERT預(yù)訓(xùn)練模型(BidirectionalEncoder Representations from Transformer,BERT)運(yùn)用雙向Transformer編碼器,可更深層次地獲取上下文語義信息,挖掘中文實(shí)體元素中嵌入的潛在語義[10]。輸入的文本序列[E=(E1,E2,…,En)]經(jīng)過雙向Transformer編碼器Trm進(jìn)行特征提取,輸出具有特定信息的字符級向量[T=(T1,T2,…,Tn)](圖4)。
1.3.2? BiLSTM層
長短記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)可處理具有向后和向前依賴性的數(shù)據(jù)[11](圖5),因此常被應(yīng)用在文本數(shù)據(jù)處理工作中。但其無法將信息從后向前進(jìn)行編碼。雙向長短記憶網(wǎng)絡(luò)BiLSTM在LSTM的基礎(chǔ)上增加了一個后向LSTM,一個正向處理輸入序列,另一個反向處理輸入序列,從而達(dá)到捕獲雙向特征的效果。
1.3.3? CRF層
條件隨機(jī)場(Conditional Random Field,CRF)是一種通過輸入序列計(jì)算得出輸出序列的判別式模型[12]。設(shè)[M=(m1,m2,…,mn)]和[N=(n1,n2,…,nn)]分別為兩組隨機(jī)變量的輸出序列和狀態(tài)序列,線性鏈?zhǔn)綏l件隨機(jī)場定義如下:
在CRF層中加入約束,可降低輸出錯誤標(biāo)簽的概率,保證最后輸出的預(yù)測結(jié)果是有效的。計(jì)算公式如下:
P——從BiLSTM層得到的發(fā)射分?jǐn)?shù)矩陣;
A——CRF層學(xué)習(xí)得到的轉(zhuǎn)移矩陣;
[Pi,ni]——第[i]個字符被預(yù)測為第[ni]個標(biāo)簽的分? ? ? ? ? ? ? ? ? ? ? ? ?數(shù)值;
[Ani,ni+1]——第[ni]個標(biāo)簽轉(zhuǎn)移到第[ni+1]個標(biāo)簽的? ? ? ? ? ? ? ? ? ? ? ? ? ? 分?jǐn)?shù)值。
CRF通過相鄰標(biāo)簽之間的關(guān)系獲得一個最優(yōu)的預(yù)測序列,如:“B-大地構(gòu)造”后面無法接“B-成礦帶”,彌補(bǔ)了BiLSTM只能預(yù)測文本序列與標(biāo)簽的關(guān)系,而不能預(yù)測標(biāo)簽與標(biāo)簽之間關(guān)系的缺點(diǎn)。
1.4? 知識存儲
將包含三元組信息的CSV文件使用Neo4j-import方法導(dǎo)入圖數(shù)據(jù)庫Neo4j中進(jìn)行知識存儲,完成新疆館藏地質(zhì)資料知識圖譜構(gòu)建。作為經(jīng)典開源圖數(shù)據(jù)庫之一的Neo4j[13],以圖的形式存儲實(shí)體、關(guān)系和屬性信息,并通過Cypher查詢語言實(shí)現(xiàn)高效的圖查詢和搜索功能,更適合新疆館藏地質(zhì)資料知識圖譜的使用場景。因此選用圖數(shù)據(jù)庫Neo4j對新疆館藏地質(zhì)資料知識圖譜進(jìn)行存儲。
2? 實(shí)驗(yàn)分析
2.1? 實(shí)驗(yàn)環(huán)境及評價指標(biāo)
實(shí)驗(yàn)在64位Windows操作系統(tǒng)上進(jìn)行,實(shí)驗(yàn)環(huán)境配置為AMD Ryzen7 6 800H CPU、NVIDIA GeForce RTX 3 060(6G)GPU、16G內(nèi)存,使用Python3.8和PyTorch1.7+cu110版本算法框架進(jìn)行實(shí)驗(yàn)?zāi)P陀?xùn)練。
實(shí)驗(yàn)評價指標(biāo)使用精確率(Precision,P)、召回率(Recall,R)、F1值(F1 Score),公式如下:
TP——真實(shí)體并預(yù)測為真的實(shí)體數(shù)量;
FP——假實(shí)體但預(yù)測為真的實(shí)體數(shù)量;
FN——真實(shí)體但預(yù)測為假的實(shí)體數(shù)量;
TN——假實(shí)體并預(yù)測為假的實(shí)體數(shù)量。
2.2? 模型對比實(shí)驗(yàn)
實(shí)驗(yàn)中使用的數(shù)據(jù)集為使用精靈標(biāo)注助手軟件進(jìn)行人工標(biāo)注的館藏地質(zhì)資料語料。為保證BERT-BiLSTM-CRF模型對新疆館藏地質(zhì)檔案命名實(shí)體識別的有效性,選擇以下幾種命名實(shí)體識別任務(wù)中的主流模型在相同的數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn):BERT-CRF、BERT-IDCNN-CRF、BERT-BiGRU-CRF。針對BERT-CRF模型是為了對比模型中有無全文特征提取層BiLSTM對命名實(shí)體識別結(jié)果的影響。針對BERT-IDCNN-CRF和BERT-BiGRU-CRF對比觀察BiLSTM、BiGRU、IDCNN 3種循環(huán)神經(jīng)網(wǎng)絡(luò)特征提取的差異性對最終結(jié)果的影響。從圖6可看出,4種模型訓(xùn)練期間精確率變化。
BERT-BiLSTM-CRF模型在新疆館藏實(shí)體的識別效果上要優(yōu)于另外3種模型(表3),說明提取文本前后向特征的BiLSTM更適合新疆館藏地質(zhì)資料中地質(zhì)實(shí)體提取。
3? 新疆館藏地質(zhì)資料知識圖譜的應(yīng)用
3.1? 知識圖譜可視化
為更直觀地展示新疆館藏地質(zhì)資料知識圖譜,使用不同顏色區(qū)分不同實(shí)體類型,即每種顏色代表一種實(shí)體類型。實(shí)體之間有向箭頭表示關(guān)系,構(gòu)成“圓-線-圓”的知識圖譜三元組模式。通過可視化的方式展示知識圖譜,可幫助用戶更直觀地理解和應(yīng)用知識圖譜中的信息(圖7)。
3.2? 實(shí)體屬性及關(guān)系查詢
根據(jù)關(guān)鍵詞查找與某關(guān)鍵詞有所屬關(guān)系的地質(zhì)資料數(shù)據(jù),如:查找含有資金來源為“中央財政”的案卷號(圖8),執(zhí)行語句如下:
MATCH (a:案卷號)-[:資金來源]->(b:資金來源 {資金來源:‘中央財政}) RETURN a,b LIMIT 25
4? 結(jié)論
本文將知識圖譜構(gòu)建技術(shù)與新疆自然資源檔案館的海量館藏地質(zhì)資料相結(jié)合,采用自頂向下的方式,根據(jù)地質(zhì)資料的特點(diǎn)構(gòu)建新疆館藏地質(zhì)資料知識本體;結(jié)合深度學(xué)習(xí)的方法完成知識抽取,通過對4種命名實(shí)體識別主流模型進(jìn)行對比實(shí)驗(yàn),得出BiLSTM循環(huán)神經(jīng)網(wǎng)絡(luò)更適用于新疆館藏地質(zhì)資料檔案的地質(zhì)實(shí)體抽取。選用圖數(shù)據(jù)庫Neo4j進(jìn)行地質(zhì)知識存儲,完成新疆館藏地質(zhì)資料知識圖譜構(gòu)建?;谛陆^藏地質(zhì)資料知識圖譜實(shí)現(xiàn)新疆館藏地質(zhì)資料檔案信息可視化與查詢,為新疆自然資源檔案館的“數(shù)字檔案館”建設(shè)及新疆地質(zhì)檔案知識挖掘和利用提供參考。
參考文獻(xiàn)
[1] 邱芹軍,王斌,徐德馨,等.地質(zhì)領(lǐng)域文本實(shí)體關(guān)系聯(lián)合抽取方法[J].高校地質(zhì)學(xué)報,2023,29(3):419.
[2] 張曄.地質(zhì)專業(yè)檔案領(lǐng)域知識圖譜的構(gòu)建和應(yīng)用[J].浙江檔案,2021(10):44-47.
[3] Wang P,Jiang H,Xu J,et al.Knowledge Graph Construction and Applications for Web Search and Beyond[J].Data Intelligence,2019,1(4):333-349.
[4] 黃恒琪,于娟,廖曉,等.知識圖譜研究綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用, 2019,28(6):1-12.
[5] 王劉坤,李功權(quán).基于GeoERNIE-BiLSTM-Attention-CRF模型的地質(zhì)命名實(shí)體識別[J].地質(zhì)科學(xué),2023,58(3):1164-1177.
[6] Ma X,Ma C,Wang C.A new structure for representing and tracking version information in a deep time knowledge graph[J].Computers & Geosciences,2020,145:10462
[7] 張春菊,張磊,陳玉冰,等.基于BERT的交互式地質(zhì)實(shí)體標(biāo)注語料庫構(gòu)建方法[J].地理與地理信息科學(xué),2022,38(4):7-12.
[8] Qiu Q,Xie Z,Wu L,et al.BiLSTM-CRF for geological named entity recognition from the geoscience literature[J].Earth Science Informatics,2019,12:565-579.
[9] 湯潔儀,李大軍,劉波.基于BERT-BiLSTM-CRF模型的地理實(shí)體命名實(shí)體識別[J].北京測繪,2023,37(2):143-147.
[10] Huang C,Wang Y,Yu Y,等.Chinese Named Entity Recognition of Geological News Based on BERT Model[J].Applied Sciences, Multidisciplinary Digital Publishing Institute,2022,12(15):7708.
[11] Jin Y,Xie J,Guo W,et al.LSTM-CRF neural network with gated self attention for Chinese NER[J].IEEE Access,2019,7:136694-136703.
[12] 余本功,范招娣.面向自然語言處理的條件隨機(jī)場模型研究綜述[J].信息資源管理學(xué)報,2020,10(5):96-111.
[13] 杭婷婷,馮鈞,陸佳民.知識圖譜構(gòu)建技術(shù):分類、調(diào)查和未來方向[J].計(jì)算機(jī)科學(xué),2021,48(2):175-189.
Construction of Knowledge Graph for Geological Data in Xinjiang Collection
Liu Xiaoxiao1,2,3, Meng Xiaoyan1, Li Dongya1, Wei Jianxin2,3, Ayxiem Gul·Abduani2, Fu Yu4, Zhu Yanfei5
(1.College of Computer and Information Engineering,Xinjiang Agricultural University,Urumqi,Xinjiang,830052,China;2.Xinjiang Uygur Autonomous Region Natural Resources Information Center (Xinjiang Uyghur Autonomous Region Natural Resources Archives),Urumqi,Xinjiang,830002,China;3.Xinjiang Laser Radar Application Engineering Technology Research Center,Urumqi,Xinjiang,830002,China;4.School of Information Science and Technology,
Qingdao University of Science and Technology,Qingdao,Shandong,266061,China;5.Xinjiang Uyghur
Autonomous Region Geological Survey Institute,Urumqi,Xinjiang,830000,China)
Abstract: To further enhance the integrated utilization of geological data information in the Xinjiang Natural Resources Archives and break the current limitation of archival retrieval only through catalog search, a knowledge graph is introduced to optimize the management of geological materials in the Xinjiang Archives. Partial geological materials in the archives are used as the data source, and entities and relationships are determined through ontology construction. The Xinjiang geological materials data is manually annotated using a BIO sequence labeling method. The BERT-BiLSTM-CRF model is employed for knowledge extraction, and the Neo4j graph database is used to store the knowledge of Xinjiang geological materials, completing the construction of the Xinjiang Geological Materials Knowledge Graph. Experimental results show that the BERT-BiLSTM-CRF model achieves an accuracy rate of 98.1777% and an F1 score of 97.8921%, significantly outperforming the BERT-CRF, BERT-IDCNN-CRF, and BERT-BiGRU-CRF models. The construction of the Xinjiang Geological Materials Knowledge Graph can provide a foundation for the development of a "Digital Archives" in the Xinjiang Natural Resources Archives and enhance the socialization of Xinjiang geological data big data services.
Key words: Knowledge graph; Geological information; Knowledge extraction; Graph database.
項(xiàng)目資助:新疆維吾爾自治區(qū)地質(zhì)資料智能服務(wù)系統(tǒng)項(xiàng)目資助
收稿日期:2023-09-21;修訂日期:2024-01-02
第一作者簡介:劉瀟瀟(1998-),女,山東濟(jì)寧人,2021級新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)技術(shù)專業(yè)在讀碩士,研究方向?yàn)橹R圖譜;
E-mail:2958566734@qq.com
通訊作者:孟小艷(1978-),女,博士,副教授,研究方向?yàn)橹R圖譜,人工智能;E-mail: 11360883@qq.com