張 春 菊,張 磊,陳 玉 冰,劉 文 聰,薄 嘉 晨,肖 鴻 飛
(1.合肥工業(yè)大學(xué)土木與水利工程學(xué)院,安徽 合肥 230009;2.深圳市規(guī)劃和自然資源局,廣東 深圳 518034;3.烽火天地通信科技股份有限公司,江蘇 南京 210019)
地質(zhì)實(shí)體(包括巖石、地質(zhì)構(gòu)造、地層等)[1]是地質(zhì)信息表達(dá)中的關(guān)鍵和核心要素,如何準(zhǔn)確識(shí)別文本中的地質(zhì)實(shí)體以有效抽取地質(zhì)信息、獲取地質(zhì)知識(shí),成為地質(zhì)大數(shù)據(jù)建模和礦產(chǎn)資源知識(shí)圖譜構(gòu)建的基礎(chǔ)性和關(guān)鍵性工作。地質(zhì)大數(shù)據(jù)[2]中的地質(zhì)文獻(xiàn)和調(diào)查報(bào)告等地質(zhì)文本數(shù)據(jù)多為非結(jié)構(gòu)化數(shù)據(jù)[3,4],需將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)以便進(jìn)一步挖掘利用。命名實(shí)體識(shí)別作為信息抽取的重要任務(wù)[5],其目的是識(shí)別出文本中具有明確意義的實(shí)體成分,對(duì)于文本數(shù)據(jù)的結(jié)構(gòu)化處理至關(guān)重要。命名實(shí)體識(shí)別方法可分為:1)基于規(guī)則的方法,通過(guò)制定規(guī)則和模板,輔以實(shí)體詞典實(shí)現(xiàn)命名實(shí)體識(shí)別[6],該方法無(wú)需標(biāo)注語(yǔ)料、準(zhǔn)確率較高,但依賴領(lǐng)域?qū)<抑贫ㄒ?guī)則和模板,受領(lǐng)域知識(shí)差異、語(yǔ)言結(jié)構(gòu)不同的限制,存在耗時(shí)耗力、難以移植等問(wèn)題;2)基于半監(jiān)督學(xué)習(xí)的方法,通過(guò)使用少量標(biāo)注數(shù)據(jù)和大量無(wú)標(biāo)注文本對(duì)模型進(jìn)行訓(xùn)練,取得較好結(jié)果[7];3)基于監(jiān)督學(xué)習(xí)的方法,主要采用支持向量機(jī)(SVM)[8]、條件隨機(jī)場(chǎng)(CRF)[9]、深度神經(jīng)網(wǎng)絡(luò)(DNN)[10,11]等模型,通過(guò)學(xué)習(xí)訓(xùn)練大量的標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別,取得理想效果[12,13]。除地質(zhì)實(shí)體外,地質(zhì)時(shí)間信息的高效抽取有助于描述地質(zhì)實(shí)體的狀態(tài)和演變信息[14]。因此,基于監(jiān)督學(xué)習(xí)的方法需要高質(zhì)、高效地構(gòu)建地質(zhì)語(yǔ)料庫(kù),將其作為標(biāo)準(zhǔn)的訓(xùn)練和測(cè)試數(shù)據(jù)。
命名實(shí)體標(biāo)注語(yǔ)料庫(kù)構(gòu)建方法主要包括人工標(biāo)注和自動(dòng)標(biāo)注兩種方式:前者準(zhǔn)確性高,但標(biāo)注效率低、耗時(shí)耗力、規(guī)模有限,同時(shí)存在主觀性,很難保證標(biāo)注結(jié)果的一致性;后者效率高、應(yīng)用領(lǐng)域廣,但存在明顯的錯(cuò)標(biāo)、漏標(biāo)等現(xiàn)象。常用的中文命名實(shí)體語(yǔ)料庫(kù)有針對(duì)通用領(lǐng)域的1998人民日?qǐng)?bào)語(yǔ)料庫(kù)[15]、MSRA語(yǔ)料庫(kù)[16]以及地理學(xué)領(lǐng)域的中國(guó)大百科(地理版)語(yǔ)料庫(kù)[17]等,但地質(zhì)實(shí)體特有的描述特征使得上述標(biāo)注語(yǔ)料庫(kù)無(wú)法直接、有效地應(yīng)用于地質(zhì)實(shí)體識(shí)別領(lǐng)域。目前,地質(zhì)實(shí)體語(yǔ)料庫(kù)主要基于地質(zhì)報(bào)告、地質(zhì)文獻(xiàn)等數(shù)據(jù)源,采用人工標(biāo)注方式進(jìn)行構(gòu)建,其規(guī)模少則數(shù)萬(wàn)字,多則幾十萬(wàn)字,尚沒(méi)有統(tǒng)一的語(yǔ)料庫(kù)構(gòu)建方法[13,18];隨著深度學(xué)習(xí)的發(fā)展,基于遠(yuǎn)程監(jiān)督的方式逐漸應(yīng)用于構(gòu)建地質(zhì)實(shí)體語(yǔ)料,但精度較低[19]。當(dāng)前語(yǔ)料庫(kù)的常見(jiàn)標(biāo)注格式為BIO、BIOES,部分使用XML格式保存[10,13,14,18]。
BERT(Bidirectional Encoder Representations from Transformers)是基于雙向Transformer的神經(jīng)網(wǎng)絡(luò)模型[20],能極大地增加詞向量模型的泛化能力,充分提取字符級(jí)、詞級(jí)、句級(jí)甚至句間關(guān)系特征,相較于Word2vec[21]、Glove[22]語(yǔ)言模型,能充分利用詞的上下文信息,得到更好的詞分布式表示;長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)模型[23]很好地解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的長(zhǎng)距離依賴問(wèn)題,但只能獲取文本的單向信息,因此,Graves等[24]提出了雙向長(zhǎng)短期記憶(Bi-directional Long Short-Term Memory,BiLSTM)模型,將單向LSTM網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)變?yōu)殡p向結(jié)構(gòu),能有效提取上下文信息,成為命名實(shí)體識(shí)別等任務(wù)中最常用的模型;CRF[25]多用于序列標(biāo)注任務(wù)中,可對(duì)BiLSTM的輸出添加約束,以保證輸出預(yù)測(cè)標(biāo)簽的順序正確,因此將CRF層作為模型的輸出層進(jìn)行解碼,在命名實(shí)體識(shí)別任務(wù)中表現(xiàn)較好[26]。鑒于此,本文通過(guò)BERT-BiLSTM-CRF模型自動(dòng)標(biāo)注文本中的地質(zhì)實(shí)體并結(jié)合人機(jī)交互方式校正,同時(shí)利用標(biāo)注的語(yǔ)料優(yōu)化地質(zhì)實(shí)體識(shí)別模型的性能,最終實(shí)現(xiàn)大規(guī)模、高質(zhì)量地質(zhì)實(shí)體標(biāo)注語(yǔ)料庫(kù)的構(gòu)建。
本文技術(shù)路線(圖1)為:首先收集發(fā)表在學(xué)術(shù)期刊上的地質(zhì)文章,歸納總結(jié)地質(zhì)實(shí)體的特征,制定地質(zhì)實(shí)體的標(biāo)注規(guī)范,利用自主開(kāi)發(fā)的標(biāo)注軟件人工構(gòu)建初始的地質(zhì)實(shí)體語(yǔ)料;其次利用標(biāo)注的語(yǔ)料對(duì)BERT-BiLSTM-CRF地質(zhì)實(shí)體識(shí)別模型進(jìn)行訓(xùn)練,保存訓(xùn)練好的模型;然后將其嵌入人機(jī)交互式地質(zhì)實(shí)體標(biāo)注軟件中,用于識(shí)別文獻(xiàn)中地質(zhì)實(shí)體;最后對(duì)模型識(shí)別錯(cuò)誤的地質(zhì)實(shí)體進(jìn)行人工校驗(yàn),保存改正后的地質(zhì)實(shí)體語(yǔ)料。當(dāng)新增的地質(zhì)實(shí)體語(yǔ)料達(dá)到一定規(guī)模時(shí),標(biāo)注軟件將使用包含新語(yǔ)料的地質(zhì)實(shí)體語(yǔ)料庫(kù)對(duì)地質(zhì)實(shí)體識(shí)別模型進(jìn)行重新訓(xùn)練,對(duì)比訓(xùn)練前后兩個(gè)模型的識(shí)別效果,保留效果較好的地質(zhì)實(shí)體識(shí)別模型。
圖1 交互式地質(zhì)實(shí)體標(biāo)注方法技術(shù)路線Fig.1 Technical route of interactive geological entity annotation method
地質(zhì)領(lǐng)域缺少公開(kāi)的標(biāo)注數(shù)據(jù)集或語(yǔ)料庫(kù),而地質(zhì)期刊文獻(xiàn)是地質(zhì)工作者優(yōu)質(zhì)科研成果表達(dá)的重要載體,其內(nèi)容表述比較規(guī)范,包含的知識(shí)密集、豐富。因此,本文將發(fā)表在《地質(zhì)學(xué)報(bào)》《巖石學(xué)報(bào)》《地質(zhì)通報(bào)》等期刊上的300篇地質(zhì)文獻(xiàn)作為數(shù)據(jù)源,去除圖表、參考文獻(xiàn)等無(wú)關(guān)內(nèi)容,將清洗后的內(nèi)容保存為txt格式。
對(duì)于地質(zhì)實(shí)體的分類,Qiu等[10]將地質(zhì)實(shí)體信息分為地質(zhì)構(gòu)造、巖石、地質(zhì)年代、地層、地名5類;張雪英等[18]將地質(zhì)實(shí)體信息總結(jié)為基本類型、空間分布、屬性信息及相互關(guān)系4種要素分類體系;馬凱[27]將銅礦床實(shí)體分為大地構(gòu)造單元、成礦時(shí)代、礦體特征、礦石特征、礦區(qū)地質(zhì)、礦床類型和其他;謝雪景等[28]將地質(zhì)實(shí)體分為地質(zhì)年代、地質(zhì)構(gòu)造、地層、巖石、礦物與地點(diǎn)6類。本文總結(jié)地質(zhì)實(shí)體分類體系,以金礦地質(zhì)實(shí)體為研究對(duì)象,參考《黃金礦業(yè)術(shù)語(yǔ)》(GB/T 34167-20173)、《巖金礦地質(zhì)勘查規(guī)范》(DZ/T 0205-2002)、《金礦石》(GB/T 32840-2016)等行業(yè)規(guī)范以及《中國(guó)礦床模式》等書籍,按照構(gòu)造尺度、埋藏范圍、埋藏規(guī)模將金礦地質(zhì)實(shí)體分為礦區(qū)(KQ)、礦床(KC)、礦段(KD)、礦體(KT)4類。
對(duì)于保存的地質(zhì)文獻(xiàn)數(shù)據(jù),利用交互式地質(zhì)實(shí)體標(biāo)注軟件的人工標(biāo)注功能進(jìn)行標(biāo)注,語(yǔ)料的標(biāo)注格式采用BIO格式(“B”代表地質(zhì)實(shí)體的開(kāi)始部分,“I”代表地質(zhì)實(shí)體的中間或結(jié)尾部分,“O”代表非實(shí)體部分),標(biāo)注樣例如圖2所示。為保證語(yǔ)料的質(zhì)量和權(quán)威性,本文首先參考地質(zhì)領(lǐng)域已有研究成果中的實(shí)體分類體系并與地質(zhì)學(xué)專家進(jìn)行探討,制定標(biāo)注規(guī)范。在標(biāo)注前對(duì)標(biāo)注人員進(jìn)行培訓(xùn),使其對(duì)地質(zhì)實(shí)體標(biāo)注規(guī)范有足夠的知識(shí)儲(chǔ)備。在遇到模糊的標(biāo)注實(shí)體或多人標(biāo)注出現(xiàn)異議的實(shí)體時(shí),需集中討論并請(qǐng)教地質(zhì)學(xué)專家。經(jīng)過(guò)多人交叉檢查校驗(yàn),不斷對(duì)標(biāo)注規(guī)范進(jìn)行修正,以減少主觀因素導(dǎo)致的錯(cuò)標(biāo)、漏標(biāo)問(wèn)題,最終得出統(tǒng)一的標(biāo)注結(jié)果。經(jīng)過(guò)多次核定,獲得50萬(wàn)余字的初始地質(zhì)實(shí)體標(biāo)注語(yǔ)料,作為地質(zhì)實(shí)體識(shí)別模型標(biāo)準(zhǔn)化訓(xùn)練和測(cè)試數(shù)據(jù)。
圖2 語(yǔ)料標(biāo)注樣例Fig.2 Corpus annotation examples
本文采用BERT-BiLSTM-CRF模型框架(圖3)進(jìn)行地質(zhì)實(shí)體識(shí)別。首先利用BERT預(yù)訓(xùn)練語(yǔ)言模型獲取地質(zhì)實(shí)體描述特征,將輸入的字符轉(zhuǎn)化為含有字符向量、句級(jí)向量和位置向量的拼接向量;然后通過(guò)BiLSTM模型提取BERT輸出的向量特征,充分學(xué)習(xí)上下文信息;最后根據(jù)CRF模型計(jì)算標(biāo)注序列的概率分布,從而確定描述文本所包含的地質(zhì)實(shí)體信息。
圖3 BERT-BiLSTM-CRF模型框架Fig.3 Framework of BERT-BiLSTM-CRF model
基于構(gòu)建的地質(zhì)實(shí)體標(biāo)注語(yǔ)料庫(kù)和識(shí)別模型,利用Python的Tkinter模塊開(kāi)發(fā)人機(jī)交互式地質(zhì)實(shí)體標(biāo)注軟件,主要包括地質(zhì)實(shí)體人工標(biāo)注、基于識(shí)別模型的地質(zhì)實(shí)體自動(dòng)識(shí)別和地質(zhì)實(shí)體人工校正三大功能(圖4)。人工標(biāo)注功能選定地質(zhì)文本中的地質(zhì)實(shí)體進(jìn)行標(biāo)注,構(gòu)成地質(zhì)實(shí)體識(shí)別的初始語(yǔ)料庫(kù);自動(dòng)識(shí)別功能對(duì)待處理的地質(zhì)文本數(shù)據(jù)應(yīng)用訓(xùn)練好的模型進(jìn)行識(shí)別,對(duì)識(shí)別結(jié)果的人工檢查與校正構(gòu)成地質(zhì)實(shí)體校正模塊。首先,通過(guò)“打開(kāi)文件”按鈕或直接復(fù)制粘貼將待處理文本輸入標(biāo)注軟件,可選擇模型識(shí)別或人工標(biāo)注方式對(duì)待處理文本中的地質(zhì)實(shí)體進(jìn)行識(shí)別,用不同顏色表示不同地質(zhì)實(shí)體類別;而后對(duì)于識(shí)別錯(cuò)誤的地質(zhì)實(shí)體可通過(guò)鼠標(biāo)選中后右擊選擇“取消設(shè)置實(shí)體”功能進(jìn)行校正,對(duì)于未能識(shí)別出的地質(zhì)實(shí)體可選擇“設(shè)置地質(zhì)實(shí)體”功能標(biāo)定為地質(zhì)實(shí)體,同時(shí)通過(guò)點(diǎn)擊“改正后實(shí)體結(jié)果對(duì)比”按鈕直觀顯示人工修訂前后的結(jié)果;最后,點(diǎn)擊“保存結(jié)果”按鈕將修訂好的語(yǔ)料保存為txt格式文件,其內(nèi)容與圖2的示例語(yǔ)料格式一致。
圖4 交互式地質(zhì)實(shí)體標(biāo)注軟件Fig.4 Software interface for interactive geological entity annotation
為提高地質(zhì)實(shí)體識(shí)別模型的效果和最大化利用已標(biāo)注地質(zhì)實(shí)體語(yǔ)料的價(jià)值,本文設(shè)計(jì)了基于迭代式學(xué)習(xí)的BERT-BiLISTM-CRF地質(zhì)實(shí)體識(shí)別模塊。
將新增標(biāo)注語(yǔ)料與已有地質(zhì)實(shí)體語(yǔ)料融合,經(jīng)過(guò)混合、清洗等操作后,將標(biāo)注語(yǔ)料輸入地質(zhì)實(shí)體識(shí)別模型中再次訓(xùn)練(滿足閾值要求時(shí)),并將新增語(yǔ)料加入地質(zhì)實(shí)體標(biāo)注語(yǔ)料庫(kù);迭代循環(huán)上述步驟直至所構(gòu)建語(yǔ)料庫(kù)滿足要求。鑒于初始地質(zhì)實(shí)體語(yǔ)料庫(kù)已達(dá)50萬(wàn)余字,為保證新增語(yǔ)料庫(kù)規(guī)模足夠大及模型參數(shù)重新訓(xùn)練的頻率,本文將閾值設(shè)定為初始語(yǔ)料庫(kù)的20%,隨著語(yǔ)料規(guī)模增加,可重新設(shè)定閾值。
為驗(yàn)證模型的效果,使用標(biāo)注好的地質(zhì)實(shí)體語(yǔ)料進(jìn)行模型性能判斷。本文采用BERT全詞遮蔽語(yǔ)言模型(BERT-wwm),該模型是哈工大訊飛聯(lián)合實(shí)驗(yàn)室對(duì)Google發(fā)布的原始(origin,ori)BERT模型通過(guò)全詞遮蔽方式再訓(xùn)練[29]生成的,一定程度上能解決中文分詞錯(cuò)誤問(wèn)題,同時(shí)使用地質(zhì)標(biāo)注數(shù)據(jù)對(duì)BERT進(jìn)行微調(diào),使BERT能更好地表征地質(zhì)領(lǐng)域的特征。該模型包含12層Transformer結(jié)構(gòu),隱層為768維,使用多頭(12頭)注意力機(jī)制,共110 M參數(shù),訓(xùn)練過(guò)程中,BERT-BiLSTM-CRF模型的最大序列長(zhǎng)度為128,批處理參數(shù)為8,學(xué)習(xí)率為2×10-5,Dropout為0.5。本文實(shí)驗(yàn)配置為Intel Core i7-9750H CPU、64 GB內(nèi)存、Window 10操作系統(tǒng)、Python 3.6編程語(yǔ)言、PyCharm編輯器。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)訓(xùn)練集、驗(yàn)證集、測(cè)試集的數(shù)量比例為3∶1∶1時(shí),模型識(shí)別效果最好,因此,后續(xù)實(shí)驗(yàn)以該比例下的識(shí)別結(jié)果為基準(zhǔn)進(jìn)行對(duì)比。本文采用自然語(yǔ)言處理領(lǐng)域中常用的3個(gè)評(píng)測(cè)指標(biāo)(準(zhǔn)確率P、召回率R、F1值)對(duì)地質(zhì)實(shí)體識(shí)別結(jié)果進(jìn)行評(píng)測(cè),計(jì)算公式為:
P=正確識(shí)別實(shí)體個(gè)數(shù)/識(shí)別出的實(shí)體個(gè)數(shù)
(1)
R=正確識(shí)別實(shí)體個(gè)數(shù)/文本中的實(shí)體個(gè)數(shù)
(2)
F1=2×P×R/(P+R)
(3)
選取CRF、Word2vec-BiLSTM-CRF、Lattice-LSTM-CRF[30]3種常用的命名實(shí)體識(shí)別模型進(jìn)行對(duì)比分析(表1),其中,CRF使用CRF++0.58工具,Word2ve-BiLSTM-CRF使用預(yù)訓(xùn)練Word2vec詞向量(基于維基百科數(shù)據(jù)庫(kù)訓(xùn)練得到)。由表1可知,本文BERT-BiLSTM-CRF模型識(shí)別結(jié)果優(yōu)于上述3種常用模型,尤其是比CRF模型的P、R、F1值分別提升了8.30%、23.03%、16.10%。分析其原因,CRF通過(guò)設(shè)置特征模板獲取特征,對(duì)于未登錄詞的識(shí)別效果差,而本文模型基于BERT能結(jié)合上下文語(yǔ)境自動(dòng)提取詞級(jí)特征,可有效識(shí)別未登錄詞,特征提取能力更強(qiáng),能更好地表征不同語(yǔ)境中的詞法和語(yǔ)義信息,提高了地質(zhì)實(shí)體的識(shí)別效果。
表1 不同模型識(shí)別結(jié)果Table 1 Recognition results of different models
由部分地質(zhì)實(shí)體識(shí)別結(jié)果示例(表2)可知:例一中,地質(zhì)實(shí)體識(shí)別模型能準(zhǔn)確識(shí)別出“望鄉(xiāng)臺(tái)礦段”“大寶山礦區(qū)”等地質(zhì)實(shí)體信息;例二中,能準(zhǔn)確識(shí)別文本中出現(xiàn)的“Ⅰ”“Ⅱ”等數(shù)字;例三中,人工標(biāo)注出現(xiàn)錯(cuò)誤,但模型仍能正確識(shí)別出地質(zhì)實(shí)體,具有校正語(yǔ)料的功能;例四中,對(duì)于連續(xù)出現(xiàn)的地質(zhì)實(shí)體,模型的識(shí)別效果較好。
表2 地質(zhì)實(shí)體信息識(shí)別結(jié)果示例Table 2 Examples of geological entity information recognition results
為進(jìn)一步測(cè)試本文構(gòu)建的金礦地質(zhì)實(shí)體語(yǔ)料庫(kù)的完備性,對(duì)構(gòu)建的地質(zhì)實(shí)體語(yǔ)料庫(kù)進(jìn)行分析。考慮到地質(zhì)實(shí)體的類型較多,選擇部分實(shí)體進(jìn)行測(cè)試。其中構(gòu)建的測(cè)試集中含有礦區(qū)實(shí)體141個(gè)、礦床實(shí)體702個(gè)、礦段實(shí)體81個(gè)、礦體實(shí)體168個(gè)。利用訓(xùn)練后的BERT-BiLSTM-CRF地質(zhì)實(shí)體識(shí)別模型對(duì)測(cè)試集進(jìn)行識(shí)別,結(jié)果如表3所示??梢钥闯?,在測(cè)試集上識(shí)別出的地質(zhì)實(shí)體與人工標(biāo)注的地質(zhì)實(shí)體數(shù)量較一致,且對(duì)不同類別的地質(zhì)實(shí)體識(shí)別效果均較好,驗(yàn)證了地質(zhì)實(shí)體分類的合理性和地質(zhì)實(shí)體語(yǔ)料庫(kù)構(gòu)建的可行性。
表3 基于BERT-BiLSTM-CRF模型的金礦實(shí)體識(shí)別結(jié)果Table 3 Gold entity recognition results based on BERT-BiLSTM-CRF model
為驗(yàn)證語(yǔ)料庫(kù)規(guī)模對(duì)地質(zhì)實(shí)體識(shí)別模型的影響,本文利用該標(biāo)注軟件對(duì)地質(zhì)文本數(shù)據(jù)進(jìn)行人機(jī)交互式標(biāo)注和訓(xùn)練模型的迭代式學(xué)習(xí),以擴(kuò)大語(yǔ)料規(guī)模和提升地質(zhì)實(shí)體識(shí)別模型的性能。在原始訓(xùn)練集的基礎(chǔ)上,當(dāng)新增的語(yǔ)料規(guī)模達(dá)到設(shè)定閾值20%時(shí),標(biāo)注軟件將重新訓(xùn)練BERT-BiLSTM-CRF地質(zhì)識(shí)別模型,并評(píng)價(jià)新訓(xùn)練模型的性能。如表4所示,在保證驗(yàn)證集和測(cè)試集不變的情況下,通過(guò)交互式標(biāo)注語(yǔ)料擴(kuò)大訓(xùn)練集規(guī)模,模型的準(zhǔn)確率P、召回率R和F1值均有提升,說(shuō)明擴(kuò)大語(yǔ)料的規(guī)模對(duì)模型精度有提升作用。
表4 BERT-BiLSTM-CRF模型在增加訓(xùn)練集規(guī)模前后的金礦實(shí)體識(shí)別結(jié)果Table 4 Gold entity recognition results based on BERT-BiLSTM-CRF model before and after increasing the scale of training set
應(yīng)用本文交互式地質(zhì)實(shí)體語(yǔ)料庫(kù)構(gòu)建方法對(duì)地質(zhì)文本進(jìn)行標(biāo)注,最終獲得63萬(wàn)余字的地質(zhì)實(shí)體語(yǔ)料庫(kù),包含句子11 039句,實(shí)體6 657個(gè),其中礦區(qū)、礦床、礦段和礦體實(shí)體數(shù)量分別為765個(gè)、4 358個(gè)、468個(gè)和1 066個(gè)。語(yǔ)料庫(kù)中地質(zhì)實(shí)體呈以下特點(diǎn):1)礦區(qū)實(shí)體名稱通常由“地名”+“礦區(qū)”或“地名”+“類型”+“礦區(qū)”構(gòu)成,如“埠南礦區(qū)”“文峪金礦區(qū)”等,且礦區(qū)實(shí)體的命名具有多樣性,如“文峪金礦區(qū)”“文峪Au礦區(qū)”等多種描述均表示同一礦區(qū)實(shí)體;同時(shí)文本中的礦區(qū)描述會(huì)出現(xiàn)省略情況,如“金山、石塢礦區(qū)”,省略了“金山”后的“礦區(qū)”,在標(biāo)注與識(shí)別時(shí)需要與表示地名實(shí)體的描述信息區(qū)分。2)礦床實(shí)體的名稱描述與礦區(qū)實(shí)體相似,“類型”描述多采用“大型”“中型”“小型”等詞語(yǔ)刻畫礦床的規(guī)模特征。3)礦段多用于描述礦區(qū)或礦床中的具體部分,因此礦段實(shí)體名稱多為“地名”+“礦段”形式,而且在文本描述中,常與表示礦區(qū)或礦床的信息一同出現(xiàn)。4)礦體為礦床的基本組成單位,一個(gè)礦床中往往包括多個(gè)礦體,因此其命名多用排序的方式表示,如“Ⅰ-1、Ⅱ-1、Ⅲ-1號(hào)礦體”。
BERT-BiLSTM-CRF地質(zhì)識(shí)別模型對(duì)地質(zhì)文本自動(dòng)標(biāo)注時(shí),若地質(zhì)實(shí)體名稱過(guò)長(zhǎng),該模型往往不能對(duì)其正確識(shí)別,需借助人工校正。通過(guò)對(duì)語(yǔ)料庫(kù)中不同類型的地質(zhì)實(shí)體名稱長(zhǎng)度(漢字、數(shù)字、英文字母、特殊符號(hào)等的字符數(shù)均設(shè)為1)進(jìn)行統(tǒng)計(jì)(表5)可知:地質(zhì)實(shí)體名稱長(zhǎng)度多為2~4個(gè)字符,模型對(duì)于此類實(shí)體名稱識(shí)別效果較好;長(zhǎng)度小于2個(gè)字符多為實(shí)體的省略情況,如“Ⅰ、Ⅱ號(hào)礦體”中,礦體實(shí)體“Ⅰ”省略了礦體信息;長(zhǎng)度大于6個(gè)字符的地質(zhì)實(shí)體多為漢字、數(shù)字、英文字母、特殊符號(hào)等組合形式,如“S8201-③號(hào)礦體”“蔡家營(yíng)Pb-Zn礦區(qū)”等,在識(shí)別時(shí)會(huì)出現(xiàn)分詞錯(cuò)誤導(dǎo)致地質(zhì)實(shí)體名稱邊界錯(cuò)誤。
表5 語(yǔ)料庫(kù)中地質(zhì)實(shí)體名稱長(zhǎng)度統(tǒng)計(jì)Table 5 Length of geological entity names in corpus
針對(duì)目前中文地質(zhì)實(shí)體識(shí)別中公開(kāi)的標(biāo)注語(yǔ)料較少且人工標(biāo)注語(yǔ)料難度大、成本高的難題,本文提出基于BERT的交互式中文地質(zhì)實(shí)體標(biāo)注方法。該方法集成高性能的BERT-BiLSTM-CRF中文地質(zhì)實(shí)體識(shí)別模型、人機(jī)交互標(biāo)注模塊和標(biāo)注語(yǔ)料庫(kù)智能優(yōu)化模塊,通過(guò)交互式迭代學(xué)習(xí)的BERT-BiLSTM-CRF中文地質(zhì)實(shí)體識(shí)別模型,以金礦實(shí)體為例,實(shí)現(xiàn)大規(guī)模地質(zhì)實(shí)體標(biāo)注語(yǔ)料庫(kù)的構(gòu)建。實(shí)驗(yàn)結(jié)果表明:本文BERT-BiLSTM-CRF中文地質(zhì)實(shí)體識(shí)別模型比CRF、Word2vec-BiLSTM-CRF、Lattice-LSTM-CRF 3種常用模型的識(shí)別效果好,在初始語(yǔ)料庫(kù)上F1值達(dá)91.47%,通過(guò)人機(jī)交互模塊增加語(yǔ)料規(guī)模后,模型識(shí)別效果提升了1.36%,既增加了地質(zhì)實(shí)體標(biāo)注語(yǔ)料庫(kù)的規(guī)模,又提升了識(shí)別模型的性能。但本研究未涉及地質(zhì)實(shí)體的屬性、關(guān)系等相關(guān)信息的標(biāo)注,后續(xù)將開(kāi)展此方面的研究。