国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聯(lián)合編碼的煤礦綜采設(shè)備知識圖譜構(gòu)建

2024-05-27 01:24:48韓一搏董立紅葉鷗
工礦自動化 2024年4期
關(guān)鍵詞:知識圖譜

韓一搏 董立紅 葉鷗

文章編號:1671?251X(2024)04?0084?10 ?DOI:10.13272/j.issn.1671-251x.2023100009

摘要:利用知識圖譜技術(shù)進行數(shù)據(jù)管理可實現(xiàn)對煤礦綜采設(shè)備的有效表示,以便獲取具有深度挖掘價值的信息。煤礦綜采設(shè)備數(shù)據(jù)不均衡、某些類別設(shè)備實體較少等問題影響實體識別精度。針對上述問題,提出了一種基于聯(lián)合編碼的煤礦綜采設(shè)備知識圖譜構(gòu)建方法。首先構(gòu)建綜采設(shè)備本體模型,確定概念及關(guān)系。然后設(shè)計實體識別模型:利用 Token Embedding、Position Embedding、Sentence Embedding 和 Task Embedding 4層 Embedding 結(jié)構(gòu)與 Transformer?Encoder 進行煤礦綜采設(shè)備數(shù)據(jù)編碼,提取詞語間的依賴關(guān)系及上下文信息特征;引入中文漢字字庫,利用?Word2vec 模型進行編碼,提取字形間的語義規(guī)則,解決煤礦綜采設(shè)備數(shù)據(jù)中生僻字問題;使用?GRU 模型對綜采設(shè)備數(shù)據(jù)和字庫編碼后的字符向量進行聯(lián)合編碼,融合向量特征;利用?Lattice?LSTM 模型進行字符解碼,獲取實體識別結(jié)果。最后利用圖數(shù)據(jù)庫技術(shù),將抽取的知識以圖譜的形式進行存儲和組織,完成知識圖譜構(gòu)建。在煤礦綜采設(shè)備數(shù)據(jù)集上進行實驗驗證,結(jié)果表明該方法對綜采設(shè)備實體的識別準(zhǔn)確率較現(xiàn)有方法提高了1.26%以上,在一定程度上緩解了在少量樣本情況下構(gòu)建煤礦綜采設(shè)備知識圖譜時因數(shù)據(jù)較少導(dǎo)致的精度不足問題。

關(guān)鍵詞:煤礦綜采設(shè)備;知識圖譜;本體模型;聯(lián)合編碼;實體識別

中圖分類號:TD67 ?文獻標(biāo)志碼:A

Construction of knowledge graph for fully mechanized coal mining equipment based on joint coding

HAN Yibo, DONG Lihong, YE Ou

(College of Computer Science and Technology, Xi'an University of Science and Technology, Xi'an 710054, China)

Abstract: Using knowledge graph technology for data management can achieve effective representation of fully mechanized coal mining equipment. The information with deep mining value can be obtained. The imbalanced data of fully mechanized coal mining equipment and the limited number of entities in certain categories of equipment affect the precision of entity recognition models. In order to solve the above problems, a knowledge graph construction method for fully mechanized coal mining equipment based on joint coding is proposed. Firstly, the fully mechanized coal mining equipment ontology model is constructed, determining the concepts and relationships. Secondly, the entity recognition model is designed. The model uses Token Embedding, Position Embedding, Sentence Embedding, and Task Embedding 4-layer Embedding structures and Transformer Encoder to encode fully mechanized coal mining equipment data, extract dependency relationships and contextual information features between words. The model introduces a Chinese character library, using the Word2vec model for encoding, extracting semantic rules between characters, and solving the problem of rare characters in fully mechanized coal mining equipment data. The model uses the GRU model to jointly encode the data of fully mechanized coal mining equipment and the character vectors encoded in the font library, and fuse vector features. The model uses the Lattice-LSTM model for character decoding to obtain entity recognitionresults. Finally, the model uses graph database technology to store and organize extracted knowledge in the form of graphs, completing the construction of knowledge graphs. Experimental verification is conducted on the dataset of fully mechanized coal mining equipment. The results show that the method improves the recognition accuracy of fully mechanized coal mining equipment entities by more than 1.26% compared to existing methods, which to some extent alleviates the low accuracy problem caused by insufficient data when constructing a knowledge graph of fully mechanized coal mining equipment in a small sample situation.

Key words: fully mechanized coal mining equipment; knowledge graph; ontology model; joint coding;entity recognition

0引言

我國煤礦行業(yè)正處于從自動化向信息化、智能化的轉(zhuǎn)型升級階段[1]。隨著煤礦信息化程度不斷提高,機電設(shè)備數(shù)量不斷增加,設(shè)備之間的關(guān)系變得愈加復(fù)雜。由于沒有相對完整的煤礦綜采設(shè)備知識管理體系,用戶無法在短時間內(nèi)了解和整理有效的煤礦綜采設(shè)備知識,導(dǎo)致大量具有深度挖掘價值的知識難以得到有效利用。因此,煤礦綜采設(shè)備知識整合及知識管理成為煤礦數(shù)據(jù)挖掘與分析領(lǐng)域的重點和熱點研究內(nèi)容。

目前,國內(nèi)外學(xué)者針對煤礦領(lǐng)域知識管理問題的研究主要分為2類:①基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)管理。曹現(xiàn)剛等[2]搭建了基于 Hadoop 的煤礦企業(yè)大數(shù)據(jù)管理平臺,實現(xiàn)了數(shù)據(jù)采集、多元數(shù)據(jù)融合、分布式存儲、大數(shù)據(jù)挖掘分析等一體化,提高了煤礦機電設(shè)備運行狀態(tài)數(shù)據(jù)的管理能力。高晶等[3]通過搭建適合 BP 數(shù)據(jù)集的 Hadoop 大數(shù)據(jù)框架,對企業(yè)內(nèi)部已有多系統(tǒng)信息資源進行整理、清洗、分析、歸納,從不同角度挖掘信息之間的規(guī)律、模式等隱含知識。 QiaoWanguan 等[4]從特征分析的角度研究煤礦安全大數(shù)據(jù)模型,設(shè)計了 CMSBD(Coal Mine Safety Big Data,煤礦安全大數(shù)據(jù))的研究范式和技術(shù)框架,以更好地管理煤礦安全數(shù)據(jù)。該類方法解決了煤礦數(shù)據(jù)管理效率低的問題,但缺少對煤礦知識的有效表示,難以獲取具有深度挖掘價值的信息。②基于知識圖譜的數(shù)據(jù)整合及挖掘分析。吳雪峰等[5]通過定義概念、關(guān)系等構(gòu)建知識本體,并基于深度學(xué)習(xí)模型識別實體,在煤礦領(lǐng)域知識圖譜構(gòu)建方面進行了初步嘗試。劉鵬等[6]構(gòu)建了煤礦安全知識圖譜,并引入基于 Spark 的并行樸素貝葉斯算法的智能查詢方法,首次利用知識圖譜進行場景應(yīng)用。李哲等[7]通過定義四元組本體模型,并基于?BiLSTM (Bidirectional Long?Short Term Memory,雙向長短期記憶)+CRF(Conditional Random Field,條件隨機場)模型進行知識抽取,構(gòu)建了煤礦機電設(shè)備事故知識圖譜。Zhang Guozhen 等[8]通過分析煤礦設(shè)備維修知識體系的特點,構(gòu)建了煤礦設(shè)備維修本體模型,并提出了?BERT(Bidirectional Encoder Representations from Transformers,雙向編碼器表示)?BiLSTM?CRF 實體識別模型,提高了實體識別精度,為知識抽取引入新的研究思路。?I. Osipova 等[9]通過分析地質(zhì)、水文、地球物理和采礦等知識,提出了關(guān)于煤與瓦斯突出過程的知識結(jié)構(gòu),通過構(gòu)建本體較好地解決了煤礦安全生產(chǎn)中的瓦斯閃爆問題。該類方法可以實現(xiàn)對信息的深度挖掘,但由于煤礦綜采設(shè)備類型繁雜,缺乏對綜采設(shè)備維護知識的表示能力,較難形成相對完整的綜采設(shè)備維護知識管理體系,不利于綜采設(shè)備維護知識的關(guān)聯(lián)和挖掘,導(dǎo)致煤礦綜采設(shè)備維護知識較難充分利用。

針對上述問題,同時考慮煤礦綜采設(shè)備數(shù)據(jù)不均衡、某些類別設(shè)備實體較少等問題,引入中文漢字字庫,將其與綜采設(shè)備數(shù)據(jù)進行特征融合,設(shè)計了一種基于聯(lián)合編碼的煤礦綜采設(shè)備知識圖譜構(gòu)建方法,并通過煤礦綜采設(shè)備數(shù)據(jù)集驗證了該方法的有效性。

1煤礦綜采設(shè)備知識圖譜構(gòu)建總體思路

2012年 Google 首次提出“知識圖譜”概念,旨在通過利用“實體、關(guān)系和屬性”闡述客觀世界的概念、實體、事件[10]。其目的是建立一個龐大的結(jié)構(gòu)化知識庫,以幫助計算機系統(tǒng)更好地理解和處理自然語言,并提供更智能、精確的搜索結(jié)果。知識圖譜中實體(如煤礦綜采設(shè)備、使用地點等)被表示為節(jié)點,而實體間的關(guān)系被表示為邊。每個實體可具有多個屬性來描述實體的特征。構(gòu)建煤礦綜采設(shè)備知識圖譜需要對知識進行分析、歸納和標(biāo)準(zhǔn)化。本體[11]作為一種形式化的知識表示方法,用于定義領(lǐng)域中的概念、類別、屬性及關(guān)系,為知識圖譜提供語義框架。

本文將煤礦綜采設(shè)備核心概念分為綜采設(shè)備整機、綜采設(shè)備部件、傳感器、通信協(xié)議、設(shè)備維護、設(shè)備維修、工種、相關(guān)資料等八大類,并分析本體間的復(fù)雜關(guān)系。采用三元組本體模型Ω=來構(gòu)建本體模型。其中:Ω為綜采設(shè)備本體模型;C 為綜采設(shè)備概念,如設(shè)備整機、設(shè)備部件、設(shè)備維護等;G 為概念間關(guān)系,如組成、使用、維護等;A 為概念具有的屬性,如型號、生產(chǎn)廠家、生產(chǎn)編號等。煤礦綜采設(shè)備本體模型如圖1所示。

采用自頂向下和自下向上的混合方式[12]構(gòu)建綜采設(shè)備知識圖譜,具體流程如圖2所示。①構(gòu)建綜采設(shè)備本體模型,確定概念及關(guān)系。②基于聯(lián)合編碼識別命名實體。將收集的綜采設(shè)備數(shù)據(jù)通過 Token Embedding, Position Embedding, Sentence Embedding, Task Embedding 結(jié)構(gòu)由文本轉(zhuǎn)換為連續(xù)的向量表示,并捕捉詞語之間的語義關(guān)系、位置信息、整體句子信息和任務(wù)特定信息,之后經(jīng)過24層疊加的 Transformer?Encoder 捕捉詞語間的依賴關(guān)系及上下文信息。由于少量樣本訓(xùn)練數(shù)據(jù)難以充分訓(xùn)練模型,出現(xiàn)模型欠擬合問題,所以引入中文漢字字庫進行樣本擴充。考慮直接合并2份數(shù)據(jù)極易出現(xiàn)模型過多關(guān)注樣本中的噪聲與細(xì)節(jié)而導(dǎo)致模型過擬合的問題,對綜采設(shè)備數(shù)據(jù)集與字庫分別進行編碼。由于編碼生成的2種字符向量具有不同的特征分布,所以對2種字符向量進行標(biāo)準(zhǔn)化,將不同特征映射到同一尺度,并使用?GRU(Gated Recurrent Unit,門控循環(huán)單元)模型進行向量定長處理,通過橫向拼接后再次使用?GRU 模型進行特征融合。之后將融合特征向量輸入?Lattice?LSTM 進行字符解碼,完成綜采設(shè)備實體提取。③使用 Neo4j 圖數(shù)據(jù)庫進行知識存儲,實現(xiàn)煤礦綜采設(shè)備知識圖譜構(gòu)建。

2煤礦綜采設(shè)備知識圖譜構(gòu)建關(guān)鍵技術(shù)

2.1煤礦綜采設(shè)備數(shù)據(jù)預(yù)處理

盡管目前在煤礦設(shè)備管理和生產(chǎn)監(jiān)控等系統(tǒng)中已存儲大量的綜采設(shè)備信息,但多源異構(gòu)的綜采設(shè)備數(shù)據(jù)來源給綜采設(shè)備知識管理帶來了一定的阻礙。為了構(gòu)建煤礦綜采設(shè)備知識圖譜,需在獲取綜采設(shè)備原始數(shù)據(jù)后,按照數(shù)據(jù)特性和結(jié)構(gòu)化要求對數(shù)據(jù)進行預(yù)處理,步驟如下。

1)數(shù)據(jù)清洗。使用正則表達式去除煤礦綜采設(shè)備原始數(shù)據(jù)中的特殊字符和標(biāo)點符號,例如:相關(guān)資料文本中“《煤礦安全規(guī)程》明確規(guī)定,井下人員必須隨身攜帶自救器”清洗為“煤礦安全規(guī)程明確規(guī)定井下人員必須隨身攜帶自救器”;檢測并去除設(shè)備維護文本中“井下電纜的連接要求如下”與“井下電纜的連接,必須符合下列要求”清洗為“井下電纜的連接要求如下”。

2)中文分詞。煤礦環(huán)境中設(shè)備數(shù)據(jù)通常呈現(xiàn)復(fù)雜多樣的特征,而中文語言的特別之處在于其缺乏明確的單詞邊界,使得詞與詞之間沒有空格或其他明顯的分隔符,對理解《煤礦采掘機械與設(shè)備》等非結(jié)構(gòu)化文本數(shù)據(jù)的語義特征提出了更高的要求。對此,需通過分詞將連續(xù)的綜采設(shè)備數(shù)據(jù)文本語料切分成離散的詞語,從而使模型能更好理解句子的語義特征。本文采用 jieba 中文分詞組件對綜采設(shè)備數(shù)據(jù)文本語料進行分詞。通過對綜采設(shè)備數(shù)據(jù)文本語料進行細(xì)致分析,可以更好地把握設(shè)備功能、運行狀態(tài)、維護需求及可能存在的潛在風(fēng)險。《煤礦采掘機械與設(shè)備》中截取的部分語料分詞效果見表1。

3)語料標(biāo)注。煤礦領(lǐng)域目前尚缺乏公開或標(biāo)準(zhǔn)的可用于訓(xùn)練的已標(biāo)注數(shù)據(jù)集??紤]到煤礦環(huán)境中設(shè)備整機等數(shù)據(jù)往往具有復(fù)雜性和多樣性,為了確保訓(xùn)練模型的有效性和泛化性,需通過人工標(biāo)注方式為這些數(shù)據(jù)添加語義標(biāo)簽。常見的標(biāo)注標(biāo)簽一般分為 BIO[12]和 BIOES[13]2種,本文依照 BIOES 五元標(biāo)注法構(gòu)建標(biāo)簽表 D ={B; I; E; S ; O}。其中 B為實體起始字;I為實體中間字;E為實體結(jié)尾字;S 為單個字所構(gòu)成的實體;O為除實體以外的字。從《綜采技術(shù)手冊(上下)》截選的部分語料標(biāo)注結(jié)果見表2。

通過上述預(yù)處理操作,為煤礦綜采設(shè)備本體庫構(gòu)建奠定了堅實的基礎(chǔ),并為綜采設(shè)備知識存儲關(guān)聯(lián)映射提供了可靠的數(shù)據(jù)支持。

2.2基于聯(lián)合編碼的字符編碼器設(shè)計

2.2.1煤礦綜采設(shè)備數(shù)據(jù)編碼

Embedding 是一種常用的自然語言處理技術(shù),用于將離散的符號(如詞語、句子、段落)映射為連續(xù)的向量表示。它通過將符號與向量空間中的點相對應(yīng),將離散的符號轉(zhuǎn)換為實數(shù)值向量。其目標(biāo)是將符號的語義信息編碼到向量表示中,使得具有相似語義的符號在向量空間中更加靠近,從而為計算機模型提供更好的語義理解能力。通過 Embedding 技術(shù)可將文本數(shù)據(jù)轉(zhuǎn)換為計算機可以處理的形式,從而應(yīng)用于各種自然語言處理任務(wù)。

本文使用4層 Embedding 從不同層面對煤礦綜采設(shè)備數(shù)據(jù)文本語料進行編碼。其中 Token Embedding 主要用于將煤礦綜采設(shè)備語料中的離散詞語轉(zhuǎn)換為連續(xù)的向量空間,捕捉詞語之間的語義相似性,并為每個詞提供一個基礎(chǔ)表示。Position Embedding 用于編碼詞語在句子或文本中的位置信息,使模型可以區(qū)分不同位置上的詞語,并捕捉詞語之間的相對距離。 Sentence Embedding 通過將詞嵌入或詞級別的表示進行組合,捕捉句子的語義和上下文信息。 Task Embedding 用于引入任務(wù)相關(guān)的嵌入向量,將模型的注意力和重點放在當(dāng)前任務(wù)上,使模型學(xué)習(xí)任務(wù)特定的信息和模式。

Transformer?Encoder [14]是一種基于自注意力機制的神經(jīng)網(wǎng)絡(luò)模型,主要將輸入序列中的每個元素映射為其向量表示,同時保留元素之間的語義和位置信息。?Transformer?Encoder 單元結(jié)構(gòu)如圖3所示。通過多層?Transformer?Encoder 堆疊,模型可以提取輸入序列中的語義和結(jié)構(gòu)信息,生成更豐富的向量表示。本文采用24層?Encoder,每層中有1個?Attention,頭數(shù)為12,詞向量維度為768。

煤礦綜采設(shè)備數(shù)據(jù)編碼過程如下。

1)Token Embedding。設(shè)煤礦綜采設(shè)備文本序列為x ={x1; x2;···; xn },其中n為輸入序列長度,xi 為序列中第 i個字,i=1, 2, ···, n 。通過 Token Embedding 將 xi 映射為實數(shù)向量ei 。

ei = Qtoken one_hot(xi ) ?(1)

式中:Qtoken 為固定大小的詞嵌入矩陣;one_hot(·)為?one?hot 編碼函數(shù)。

2)Position Embedding。通過 Position Embedding 為每個字 xi 的位置編碼固定大小的向量表示 pi。

式中:k為維度索引;l 為字符嵌入的維度。

3)Sentence Embedding。通過 Sentence Embedding 對 Token Embedding 和 Position Embedding 輸出進行加權(quán)平均計算,得到整個句子的向量表示 s。

式中:W1,W2分別為 Token Embedding,Position Embedding 的權(quán)重矩陣。

4)Transformer?Encoder 編碼。通過梯度下降學(xué)習(xí)到?Task Embedding 并輸入?Transformer?Encoder 中,計算輸入序列與其他位置的注意力分?jǐn)?shù)αi。

式中:d 為注意力機制的維度;qi 為經(jīng)過線性變換后得到的查詢向量。

對αi 進行加權(quán)平均,計算相應(yīng)位置的輸入向量 zi。

式中:u 為詞向量個數(shù);vj 為第j個詞向量線性變換結(jié)果。5)全連接計算。通過前饋神經(jīng)網(wǎng)絡(luò)對每個位置的輸出向量 zi 進行全連接,得到最終向量維度為768的輸出向量 Ti。

式中:ReLU(·)為激活函數(shù);w1; w2為訓(xùn)練權(quán)重;b1, b2為偏置。

2.2.2基于 Word2vec模型的字庫編碼

由于煤礦數(shù)據(jù)零散,獲取相關(guān)研究數(shù)據(jù)較為困難。本文引入字庫數(shù)據(jù)以擴充數(shù)據(jù)量,使實體識別模型得到充分訓(xùn)練。將原數(shù)據(jù)與字庫數(shù)據(jù)融合訓(xùn)練易出現(xiàn)模型過多關(guān)注樣本中噪聲與細(xì)節(jié)而導(dǎo)致模型過擬合的問題,因此,將原數(shù)據(jù)與字庫數(shù)據(jù)分開編碼,最后對2種字符向量進行聯(lián)合編碼,達到最佳編碼效果。

Word2vec 模型是由輸入層、隱藏層和輸出層組成的神經(jīng)網(wǎng)絡(luò)[16],能夠得到表示語義的詞向量。按照預(yù)測對象的不同,Word2vec 一般可以使用2種模型訓(xùn)練向量:①以中心詞來預(yù)測上下文的?Skip? Gram 模型。②以上下文預(yù)測中心詞的?Continues Bag of Words模型。本文采用?Skip?Gram 模型,其由前饋神經(jīng)網(wǎng)絡(luò)模型改進而來,結(jié)構(gòu)如圖4所示。

本文采用的字庫輸入層 X與隱藏層 H之間的權(quán)重矩陣WVXN是需要通過訓(xùn)練學(xué)習(xí)的參數(shù),V為詞匯表大小,N為隱藏層神經(jīng)元數(shù)。輸出的詞向量為 N X V維WN(、)XV 。

隱藏層節(jié)點輸入由輸入層加權(quán)求和計算得到。由于輸入為?one?hot 向量,所以只有輸入向量中的非0元素才能在計算后產(chǎn)生隱藏層的輸入。對隱藏層的對應(yīng)節(jié)點加權(quán)求和,得到輸出層的輸出。最終得到向量維度為300的字庫字符向量。

2.2.3基于 GRU 的聯(lián)合編碼

因 Encoder模塊和 Word2vec模型訓(xùn)練出的2個字符向量具有不同的維度和表示方式,進行后續(xù)解碼任務(wù)時需合并2種不同的向量,作為解碼任務(wù)的輸入。在進行拼接時需要確保2個向量的維度一致。本文基于 GRU 結(jié)構(gòu)進行聯(lián)合編碼,使向量維度統(tǒng)一,以獲取2種編碼的字符表示。由于2種字符向量具有不同的特征分布,在進行聯(lián)合編碼前需進行特征規(guī)范化。歸一化和標(biāo)準(zhǔn)化是常用的特征規(guī)范化方式,其中歸一化會將特征縮放到一個較小范圍內(nèi)而導(dǎo)致信息損失,因此選用標(biāo)準(zhǔn)化方式進行特征規(guī)范化。

根據(jù)下式將2種字符向量的特征值縮放到均值為0、標(biāo)準(zhǔn)差為1的正態(tài)分布中。

式中:Z'為標(biāo)準(zhǔn)化的字符向量特征值;Z為字符向量特征值;?為特征值的均值;ξ為特征值的標(biāo)準(zhǔn)差。

標(biāo)準(zhǔn)化的優(yōu)點是可以處理不同特征的取值范圍不同的情況,同時可將特征值映射到同一尺度上,使不同特征對模型的貢獻權(quán)重更加平衡。本文將字庫的字符向量維度映射至768,與煤礦綜采設(shè)備原始數(shù)據(jù)字符向量維度保持一致。

GRU 是一種改進的 RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))單元,可以解決傳統(tǒng) RNN 中的梯度消失和梯度爆炸問題,并具有較強的記憶能力[17]。GRU 引入門控機制,通過門控單元來控制信息的流動。其具有更新門和重置門2個門控單元。

當(dāng)輸入序列為{y1;y2;···;yT }(T 為當(dāng)前時刻),隱藏狀態(tài)為{h1; h2;···; hT }時,計算 GRU 的重置門:

式中:σ(·)為?sigmoid 激活函數(shù);Wr 為重置門的權(quán)重矩陣;[hT?1;yT ]表示將前一時刻隱藏狀態(tài)?hT?1和當(dāng)前時刻的輸入yT 進行拼接。

更新門為

式中Wz 為更新門的權(quán)重矩陣。

候選隱藏狀態(tài)為

式中:W為候選隱藏狀態(tài)的權(quán)重矩陣;⊙為矩陣元素相乘符號。

則更新的隱藏狀態(tài)為

在聯(lián)合編碼時,先用 GRU 對標(biāo)準(zhǔn)化的向量進行

定長處理并進行橫向拼接,再通過 GRU 對序列數(shù)據(jù)進行處理,融合關(guān)鍵特征并生成聯(lián)合編碼表示,為后續(xù)任務(wù)提供更豐富的特征表示。

2.3 Lattice?LSTM 解碼器設(shè)計

Lattice?LSTM 模型能夠充分利用單詞和詞序信息,在字的基礎(chǔ)上融入詞語的編碼信息[17]。其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。?Lattice?LSTM 模型主干仍是?LSTM?CRF。與傳統(tǒng)?LSTM 模型不同,Lattice?LSTM 模型根據(jù)事先構(gòu)造的詞庫表選取所需的前向詞匯信息融入字符信息中。

將?GRU 模型輸出的字符序列作為?Lattice?LSTM 模型輸入序列{φ1;φ2;···;φM },M 為字符數(shù)。句中第?J(J=1,2,…?, M)個字向量為

式中L(·)為字向量映射函數(shù)。

T 時刻 LSTM 模型隱藏狀態(tài)為

式中:Λ為 LSTM 模型訓(xùn)練過程中學(xué)習(xí)到的參數(shù);θ為 LSTM 模型的超參數(shù)。

在hT(L)STM 上使用 CRF,得到標(biāo)簽序列 o 的概率為

式中:K為 CRF 模型特有參數(shù);γ為 CRF 模型偏差。

2.4知識圖譜存儲及可視化

在知識圖譜中,常用關(guān)系型數(shù)據(jù)庫、RDF 三元組和圖數(shù)據(jù)庫存儲知識[18]。與前2種方法相比,圖數(shù)據(jù)庫只需插入節(jié)點和邊即可實現(xiàn)數(shù)據(jù)的高效存儲和查詢,因此采用圖數(shù)據(jù)庫 Neo4j 實現(xiàn)煤礦綜采設(shè)備維護知識的存儲。在 Neo4j 中,使用標(biāo)簽來表示綜采設(shè)備維護知識的概念,節(jié)點和節(jié)點屬性用于表示實體及其屬性,邊和邊屬性用于表示實體之間的關(guān)系和關(guān)系屬性。基于 Neo4j 的知識存儲映射方案見表3。

利用 Cypher 語言對煤礦綜采設(shè)備知識進行存儲、查詢、更新及刪除操作。使用 CREATE 語句創(chuàng)建煤礦設(shè)備實體節(jié)點;使用 MATCH查詢實體節(jié)點或關(guān)系;使用 WHERE 進行條件設(shè)置。存儲部分結(jié)果如圖6所示。

3實驗及結(jié)果分析

3.1數(shù)據(jù)集建立

為了驗證本文模型在少量樣本命名識別任務(wù)中的有效性,對收集的《煤礦機電設(shè)備(第3版)》《煤礦采掘機械與設(shè)備》《綜采技術(shù)手冊》和百科網(wǎng)站中相關(guān)數(shù)據(jù)及字庫進行預(yù)處理,經(jīng)過數(shù)據(jù)清洗、中文分詞和語料標(biāo)注后,得到煤礦綜采設(shè)備領(lǐng)域數(shù)據(jù)集。數(shù)據(jù)集規(guī)模見表4。該數(shù)據(jù)集共有8種不同的實體類別,包含設(shè)備整機(EQU)、部件(PART)、通信協(xié)議(COM)等。字庫采用中國國家標(biāo)準(zhǔn)簡體中文字符集,共包含6620個簡體漢字、148個漢字偏旁部首。

3.2實驗設(shè)置

實驗在 CentOS7操作系統(tǒng)、Intel(R)Xeon(R) Silver 4210 CPU@2.20 GHz 處理器、NVIDIA GeForce PTX 2080Ti(11 GiB)GPU 處理器、python3.8環(huán)境下進行。在該實驗環(huán)境下,Word2vec 模型使用默認(rèn)參數(shù)訓(xùn)練,其余各模型參數(shù)設(shè)置見表5。

3.3評價指標(biāo)

采用準(zhǔn)確率 P、召回率 R 及 F1值作為評價指標(biāo)。 P 衡量模型的精確性,R 衡量模型的覆蓋能力,F(xiàn)1分?jǐn)?shù)為 P 與 R 的調(diào)和平均數(shù),衡量模型的性能。

式中:λc 為預(yù)測正確的實體數(shù);λt 為實體總數(shù);λd 為數(shù)據(jù)集實體數(shù)。

3.4模型實驗

分別進行消融實驗及對比實驗。消融實驗中設(shè)計4種實驗方式:①將本文模型作為基準(zhǔn)模型。②將煤礦綜采設(shè)備原始數(shù)據(jù)與字庫合并利用?Embedding 和?Transformer?Encoder 編碼(Encoder? Lattice?LSTM 模型)。③將編碼器?Lattice?LSTM 模型替換為?BiLSTM 模型(Encoder?Word2vec?GRU? BiLSTM 模型)。④將煤礦綜采設(shè)備原始數(shù)據(jù)與字

合并利用?Word2vec模型進行編碼(Word2vec? Lattice?LSTM 模型)。模型訓(xùn)練結(jié)果如圖7—圖9所示??煽闯鲈谙趯嶒炛斜疚哪P驮谟?xùn)練中精度更高,且收斂效果優(yōu)于對比模型。

消融實驗結(jié)果見表6??煽闯霰疚哪P偷臏?zhǔn)確率分別較?Encoder?Lattice?LSTM 模型、Encoder? Word2vec?GRU?BiLSTM 模型、Word2vec?Lattice? LSTM 模型高0.92%,4.93%,8.02%。主要原因:①合并數(shù)據(jù)會造成模型過多關(guān)注噪聲,進而影響模型精度。本文模型通過對煤礦綜采設(shè)備數(shù)據(jù)與中文漢字字庫分別編碼,減少噪聲影響。②?BiLSTM 未充分引入字形信息。本文模型采用?Lattice?LSTM 進行字形特征表示,從而提升識別精度。

為了更好地驗證本文模型的可行性及準(zhǔn)確性,在所建數(shù)據(jù)集上對本文模型與?ALBERT?BIGRU? CRF 小樣本命名實體識別模型[19]、BERT?BiLSTM? CRF+BERT?CRF 分詞的聯(lián)合訓(xùn)練模型[20]、傳統(tǒng)Lattice?LSTM 模型、BiLSTM?CRF [21]模型進行對比實驗,結(jié)果如圖10—圖12所示。可看出本文模型在前期的收斂速度較其他模型快,且最終收斂效果優(yōu)于其他模型。

對比實驗結(jié)果見表7??煽闯霰疚哪P蜏?zhǔn)確率較?ALBERT?BIGRU?CRF 模型、BERT?BiLSTM? CRF+BERT?CRF 模型、Lattice?LSTM 模型、BiLSTM? CRF 模型分別提高了1.26%,5.32%,11.88%,14.86%。主要原因:①?ALBERT?BIGRU?CRF 模型未考慮模型對于生僻字學(xué)習(xí)不充分的問題。本文模型通過引入中文漢字字庫,可充分學(xué)習(xí)生僻字,提高了命名實體識別精度。②?BERT?BiLSTM?CRF+BERT?CRF 模型未考慮在聯(lián)合訓(xùn)練過程中易出現(xiàn)過度關(guān)注樣本噪聲與細(xì)節(jié)而導(dǎo)致模型過擬合的問題。本文模型通過對煤礦綜采設(shè)備數(shù)據(jù)與中文漢字字庫分別編碼,降低了對噪聲的關(guān)注度。③?Lattice?LSTM 模型與?BiLSTM?CRF 模型未考慮少樣本情況。本文模型利用聯(lián)合編碼技術(shù),擴充模型訓(xùn)練語料,提高了識別精度。

4結(jié)論

1)構(gòu)建了煤礦綜采設(shè)備知識圖譜:通過定義概念、屬性和關(guān)系,建立了一個本體模型,用于表示煤礦綜采設(shè)備領(lǐng)域的語義關(guān)系;設(shè)計實體識別模型,對文本數(shù)據(jù)進行處理,從中提取出設(shè)備名稱、傳感器、通信協(xié)議等重要信息;利用圖數(shù)據(jù)庫技術(shù),將抽取到的知識以圖譜的形式進行存儲和組織,完成知識圖譜構(gòu)建。

2)引入字庫以擴充煤礦原始數(shù)據(jù),設(shè)計聯(lián)合編碼器,融合原始數(shù)據(jù)和字庫的特征信息,解決了少量數(shù)據(jù)集實體識別中模型難以理解和區(qū)分生僻字的問題,提高了煤礦綜采設(shè)備實體識別精度。

3)實驗表明,本文模型對煤礦綜采設(shè)備實體識別準(zhǔn)確率較現(xiàn)有模型提高了1.26%以上,提升了煤礦綜采設(shè)備知識圖譜構(gòu)建的完整性。

4)針對煤礦少樣本知識圖譜構(gòu)建問題,未來重點研究2個方面的內(nèi)容:①少量樣本關(guān)系抽??;②利用知識推理進行少量樣本知識圖譜的知識補全。

參考文獻(References):

[1]王國法,任懷偉,馬宏偉,等.煤礦智能化基礎(chǔ)理論體系研究[J].智能礦山,2023,4(2):2-8.

WANG Guofa,REN Huaiwei,MA Hongwei,et al. Research on the basic theoretical system of coal mine inteliigence[J]. Journal of Intelligent Mine,2023,4(2):2-8.

[2]曹現(xiàn)剛,羅璇,張鑫媛,等.煤礦機電設(shè)備運行狀態(tài)大數(shù)據(jù)管理平臺設(shè)計[J].煤炭工程,2020,52(2):22-26.

CAO Xiangang,LUO Xuan,ZHANG Xinyuan,et al. Design of big data management platform for operation status of coal mine electromechanical equipment[J].Coal Engineering,2020,52(2):22-26.

[3]高晶,趙良君,呂旭陽.基于數(shù)據(jù)挖掘的煤礦安全管理大數(shù)據(jù)平臺[J].煤礦安全,2022,53(6):121-125.

GAO Jing,ZHAO Liangjun,LYU Xuyang. Coal mine safety management big data platform based on data mining[J]. Safety in Coal Mines,2022,53(6):121-125.

[4] QIAO ?Wanguan, CHEN ?Xue. Connotation, characteristics and framework of coal mine safety big data[J]. Heliyon,2022,8(11). DOI:10.1016/j. heliyon.2022.e11834.

[5]吳雪峰,趙志凱,王莉,等.煤礦巷道支護領(lǐng)域知識圖譜構(gòu)建[J].工礦自動化,2019,45(6):42-46.

WU Xuefeng, ZHAO Zhikai, WANG Li, et al. Construction of knowledge graph of coal mine roadway support field[J]. Industry and Mine Automation,2019,45(6):42-46.

[6]劉鵬,葉帥,舒雅,等.煤礦安全知識圖譜構(gòu)建及智能查詢方法研究[J].中文信息學(xué)報,2020,34(11):49-59.

LIU Peng,YE Shuai,SHU Ya,et al. Coalmine safety: knowledge graph construction and its QA approach[J]. Journal of Chinese Information Processing,2020,34(11):49-59.

[7]李哲,周斌,李文慧,等.煤礦機電設(shè)備事故知識圖譜構(gòu)建及應(yīng)用[J].工礦自動化,2022,48(1):109-112.

LI Zhe,ZHOU Bin,LI Wenhui,et al. Construction and application of mine electromechanical equipment accident knowledge graph[J]. Industry and Mine Automation,2022,48(1):109-112.

[8] ZHANG ?Guozhen, CAO ?Xiangang, ZHANG Mengyuan. A knowledge graph system for the maintenance of coal mine equipment[J]. Mathematical Problems in Engineering,2021,2021:1-13.

[9] OSIPOVA I,GOSPODINOVA V. Representation of the process of sudden outbursts of coal and gas using a knowledge graph[C]. E3S Web of Conferences,2020. DOI:10.1051/e3sconf/202019204022.

[10] ETZIONI O,BANKO M,SODERLAND S,et al. Open information extraction from the web[J]. Communications of the ACM,2008,51(12):68-74.

[11]施昭,曾鵬,于海斌.基于本體的制造知識建模方法及其應(yīng)用[J].計算機集成制造系統(tǒng),2018,24(11):2653-2664.

SHI Zhao,ZENG Peng,YU Haibin. Ontology-based modeling method for manufacturing knowledge and its application[J]. Computer Integrated Manufacturing Systems,2018,24(11):2653-2664.

[12]封紅旗,孫楊,楊森,等.基于 BERT 的中文電子病歷命名實體識別[J].計算機工程與設(shè)計,2023,44(4):1220-1227.

FENG Hongqi,SUN Yang,YANG Sen,et al. Chinese electronic medical record named entity recognition based on BERT methods[J]. Computer Engineering and Design,2023,44(4):1220-1227.

[13]蔡安江,張妍,任志剛.煤礦綜采設(shè)備故障知識圖譜構(gòu)建[J].工礦自動化,2023,49(5):46-51.

CAI Anjiang, ZHANG Yan, REN Zhigang. Fault knowledge graph construction for coal mine fully mechanized mining equipment[J]. Journal of Mine Automation,2023,49(5):46-51.

[14] COLLARANA D,GALKIN M,TRAVERSO-RIBóN I, et al. Semantic data integration for knowledge graph construction at query time[C]. IEEE 11th International Conference on Semantic Computing,San Diego,2017:109-116.

[15] SUN Yu,WANG Shuohuan,LI Yukun,et al. Ernie 2.0: a continual pre-training framework for language understanding[C]. The AAAI Conference on Artificial Intelligence, New York,2019. DOI:10.1609/aaai. v34i05.6428.

[16] CHURCH K W. Word2Vec[J]. Natural Language Engineering,2017,23(1):155-162.

[17]丁辰暉,夏鴻斌,劉淵.融合知識圖譜與注意力機制的短文本分類模型[J].計算機工程,2021,47(1):94-100.

DING Chenhui,XIA Hongbin,LIU Yuan. Short text classification model combining knowledge graph and attention mechanism[J]. Computer Engineering,2021,47(1):94-100.

[18] ZHANG Yue,YANG Jie. Chinese NER using lattice LSTM[Z/OL].[2023-09-10]. https://doi.org/10.48550/ arXiv.1805.02023.

[19]宮法明,李翛然.基于 Neo4j 的海量石油領(lǐng)域本體數(shù)據(jù)存儲研究[J].計算機科學(xué),2018,45(增刊1):549-554.

GONG Faming,LI Xiaoran. Research on ontology data storage of massive oil field based on Neo4j[J]. Computer Science,2018,45(S1):549-554.

[20]馬良荔,李陶圓,劉愛軍,等.基于遷移學(xué)習(xí)的小數(shù)據(jù)集命名實體識別研究[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2022,50(2):118-123.

MA Liangli,LI Taoyuan,LIU Aijun,et al. Research on named entity recognition method based on transfer learning for small data sets [J]. Journal of Huazhong University of Science and Technology(Natural Science Edition),2022,50(2):118-123.

[21]秦健,侯建新,謝怡寧,等.醫(yī)療文本的小樣本命名實體識別[J].哈爾濱理工大學(xué)學(xué)報,2021,26(4):94-101.

QIN Jian,HOU Jianxin,XIE Yining,et al. Few-shot named entity recognition for medical text [J]. Journal of Harbin University of Science and Technology,2021,26(4):94-101.

[22]于韜,張英,擁措.基于小樣本學(xué)習(xí)的藏文命名實體識別[J].計算機與現(xiàn)代化,2023(5):13-19.

YU Tao,ZHANG Ying,YONG T. Tibetan named entity recognition based on ?small sample learning[J]. Computer and Modernization,2023(5):13-19.

猜你喜歡
知識圖譜
國內(nèi)外智庫研究態(tài)勢知識圖譜對比分析
國內(nèi)信息素養(yǎng)研究的知識圖譜分析
國內(nèi)圖書館嵌入式服務(wù)研究主題分析
國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
近十五年我國小學(xué)英語教學(xué)研究的熱點、問題及對策
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
智富時代(2016年12期)2016-12-01 16:28:41
基于知識圖譜的智慧教育研究熱點與趨勢分析
國內(nèi)酒店品牌管理研究進展的可視化分析
從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
專家知識圖譜構(gòu)建研究
宝山区| 阳泉市| 伊春市| 鹤山市| 孙吴县| 大同市| 凯里市| 天气| 江西省| 高阳县| 嘉定区| 沭阳县| 隆子县| 巴楚县| 体育| 黑龙江省| 曲靖市| 陈巴尔虎旗| 定边县| 宾川县| 德钦县| 中方县| 上蔡县| 龙江县| 若羌县| 雅安市| 体育| 宜城市| 长汀县| 独山县| 博野县| 荥阳市| 股票| 舞阳县| 玉龙| 繁昌县| 岐山县| 杭锦旗| 青河县| 积石山| 台东县|