国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)增強(qiáng)的MRC水利領(lǐng)域命名實(shí)體識(shí)別模型研究

2024-09-23 00:00:00朱永明邢丹艷
人民黃河 2024年9期

關(guān)鍵詞:水利領(lǐng)域;命名實(shí)體識(shí)別;數(shù)據(jù)增強(qiáng);機(jī)器閱讀理解

中圖分類號(hào):TP391.1;TV21 文獻(xiàn)標(biāo)志碼:A doi:10.3969/ j.issn.1000-1379.2024.09.023

引用格式:朱永明,邢丹艷.基于數(shù)據(jù)增強(qiáng)的MRC 水利領(lǐng)域命名實(shí)體識(shí)別模型研究[J].人民黃河,2024,46(9):156-160.

隨著我國(guó)水利信息技術(shù)的發(fā)展,水利行業(yè)積累了大量數(shù)據(jù),然而這些數(shù)據(jù)沒有被有效利用。水利知識(shí)涵蓋范圍廣,涉及河流、湖泊、水庫等多種管理對(duì)象,以及水旱災(zāi)害防御、水資源管理、水土保持等多種業(yè)務(wù),知識(shí)來源有結(jié)構(gòu)、半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)[1] 。自然語言處理技術(shù)具有強(qiáng)大的語義處理能力,可以將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),充分發(fā)掘數(shù)據(jù)的價(jià)值,實(shí)現(xiàn)水利信息資源的高效利用。命名實(shí)體識(shí)別是信息處理的基礎(chǔ),通過命名實(shí)體識(shí)別技術(shù)可以充分利用文本中的寶貴信息。水利領(lǐng)域命名實(shí)體識(shí)別是指識(shí)別水利文本中具有特定意義的實(shí)體,包括河流(RIV)、湖泊(LAK)、水庫(RES)、水電站(HYD)、大壩(DAM)等??蒲腥藛T利用命名實(shí)體識(shí)別技術(shù)識(shí)別出重要信息,這些信息可以服務(wù)于水利智能問答系統(tǒng)構(gòu)建[2] 、水利知識(shí)圖譜構(gòu)建[3] 等。

神經(jīng)網(wǎng)絡(luò)具有自動(dòng)提取特征、能夠找到更深層次和更加抽象的特征的優(yōu)點(diǎn),因此基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別在各個(gè)領(lǐng)域逐漸得到廣泛應(yīng)用。劉雪梅等[4] 基于水利工程巡檢文本,利用BERT-BiLSTMCRF模型智能識(shí)別巡檢文本中的風(fēng)險(xiǎn)事件、工程等實(shí)體。顧干暉等[5] 利用BERT 預(yù)訓(xùn)練語言模型對(duì)自建水利文本語料進(jìn)行訓(xùn)練,并引入FreeLB 增強(qiáng)訓(xùn)練模型的泛化能力,最后通過條件隨機(jī)場(chǎng)(CRF)識(shí)別水利實(shí)體。段浩等[1] 在2021 年提出了水利綜合知識(shí)體系的描述方法,使用BiLSTM-CRF 模型識(shí)別非結(jié)構(gòu)化和半結(jié)構(gòu)化實(shí)體。伴隨著ChatGPT、文心一言、訊飛星火等大模型的出現(xiàn),學(xué)者們陸續(xù)把研究重心放到大模型上。清華大學(xué)開源了一個(gè)具有62 億參數(shù)的支持中英雙語對(duì)話的語言模型ChatGLM - 6B。百川智能公司基于Transformer 結(jié)構(gòu)在大約1.2 萬億tokens 上訓(xùn)練了一個(gè)具有70 億參數(shù)的大規(guī)模預(yù)訓(xùn)練語言模型baichuan-7B。學(xué)者們針對(duì)各個(gè)領(lǐng)域任務(wù)微調(diào)這些大模型,取得了不錯(cuò)的效果。然而,已有方法在預(yù)測(cè)精度和適應(yīng)性上還有提升空間,沒有充分利用水利文本中一些潛在特征信息,比如詞匯特征信息和實(shí)體類型標(biāo)簽特征信息。本文以MRC 模型為主架構(gòu),結(jié)合數(shù)據(jù)增強(qiáng)技術(shù),提出MRC-WLE 命名實(shí)體識(shí)別模型,基于水利文本數(shù)據(jù)集驗(yàn)證MRC-WLE 模型的有效性,以期更好地服務(wù)于水利智能問答系統(tǒng)、水利知識(shí)圖譜構(gòu)建等。

1相關(guān)理論介紹

1.1機(jī)器閱讀理解(MRC)

MRC 是一種自然語言處理技術(shù),讓機(jī)器能夠理解文本內(nèi)容并回答問題,針對(duì)某一問題在文本中提取答案所在片段,即預(yù)測(cè)答案所在片段的開始位置和結(jié)束位置。

MRC 步驟如下:1)將傳統(tǒng)的命名實(shí)體識(shí)別數(shù)據(jù)集的標(biāo)注格式轉(zhuǎn)換為三元組格式( Query, Answer,Context)。對(duì)于每種實(shí)體類型都用一個(gè)自然語言問題進(jìn)行描述,將Context(文本)與Query(實(shí)體類型描述)進(jìn)行拼接,若有m 種實(shí)體類型,則構(gòu)造m 種實(shí)體類型描述,從而生成m 條新文本。2)用預(yù)訓(xùn)練模型對(duì)生成的文本進(jìn)行編碼。3)通過2 個(gè)全連接層識(shí)別每條文本中實(shí)體的頭和尾,譯碼匹配采用就近原則,頭位置索引找離它最近的尾位置索引,從而構(gòu)造出一個(gè)實(shí)體。

1.2長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)

LSTM[6-8] 對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)行了一定改進(jìn),主要用來解決長(zhǎng)距離依賴問題。LSTM 在RNN 的基礎(chǔ)上增加了門控機(jī)制和一個(gè)單元狀態(tài)(cell state),用來獲得長(zhǎng)期的序列狀態(tài),其結(jié)構(gòu)見圖1。

1.3BERT模型

傳統(tǒng)的word2vec 無法處理一詞多義問題。BERT(Bidirectional Encoder Representation from Transform?ers)[9] 模型采用捕捉語義能力更強(qiáng)的雙向編碼器Transformer 進(jìn)行訓(xùn)練,可以獲得每一層文本雙向特征信息,有效解決一詞多義問題。Transformer 是一種新的序列建模方法,采用self-attention 機(jī)制替代傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)或RNN,這種機(jī)制能夠更好地捕捉序列中的依賴關(guān)系。Transformer 具有可并行計(jì)算、長(zhǎng)距離依賴建模等性能,目前被廣泛應(yīng)用于自然語言處理的各個(gè)下游任務(wù),并取得較好的效果。

BERT模型的輸入根據(jù)下游任務(wù)確定,模型結(jié)構(gòu)見圖2,其可將中文字符用向量表示。

圖2 中以“[CLS]小浪底水庫庫區(qū)[SEP]”為例,[CLS]用于標(biāo)記文本的開頭,[SEP]表示文本結(jié)尾,E表示字符的向量表示,T 表示Transformer。

3MRC-WLE模型性能測(cè)試及評(píng)價(jià)

3.1測(cè)試數(shù)據(jù)

采用中國(guó)水利水電科學(xué)研究院在中國(guó)工程科技知識(shí)中心水利專業(yè)知識(shí)服務(wù)系統(tǒng)開放的水利標(biāo)注數(shù)據(jù)測(cè)試MRC-WLE 模型的性能,其中:水利文本數(shù)據(jù)共4 919條,命名實(shí)體類型共10 類。10 類命名實(shí)體概況見表1。水利領(lǐng)域命名實(shí)體識(shí)別實(shí)驗(yàn)中使用隨機(jī)分層抽樣的方式將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,三者數(shù)據(jù)量比例為8∶1∶1。

3.2設(shè)置訓(xùn)練參數(shù)及評(píng)價(jià)指標(biāo)

水利領(lǐng)域命名實(shí)體識(shí)別實(shí)驗(yàn)使用的編程語言為Python,深度學(xué)習(xí)框架為Pytorch、Transformers,批數(shù)據(jù)量為8,訓(xùn)練次數(shù)為10 次,學(xué)習(xí)率為2×10-5,損失函數(shù)采用交叉熵?fù)p失函數(shù)。評(píng)價(jià)模型時(shí)選用微平均F1 值作為主要評(píng)價(jià)指標(biāo),以精準(zhǔn)度(Precision) 和召回率(Recall)作為輔助評(píng)價(jià)指標(biāo)。

3.3模型測(cè)試和評(píng)價(jià)結(jié)果

為更好地評(píng)價(jià)模型的性能,引入BERT -CRF、BERT - CRF - Word、BERT - BiLSTM - CRF、BERT -BiLSTM- CRF - Word、BERT - Cascade、ChatGLM - P -Tuning 模型作為對(duì)照。模型的評(píng)價(jià)指標(biāo)對(duì)比見表2,可以看出,MRC-WLE 模型的評(píng)價(jià)指標(biāo)值整體高于其他模型的。

各模型的優(yōu)缺點(diǎn)如下:BERT-CRF 和BERT-BiL?STM-CRF 模型不能很好地利用文本信息,識(shí)別實(shí)體的時(shí)候會(huì)出現(xiàn)實(shí)體斷鏈現(xiàn)象。BERT-Cascade 模型是基于多任務(wù)學(xué)習(xí)方法的命名實(shí)體識(shí)別模型,其任務(wù)是抽取實(shí)體和判斷實(shí)體類型,該模型雖縮減了標(biāo)簽詞表規(guī)模,但是先抽取實(shí)體會(huì)出現(xiàn)實(shí)體傳播錯(cuò)誤問題,導(dǎo)致后續(xù)判斷實(shí)體類型錯(cuò)誤。BERT-CRF-Word 和BERTBiLSTM-CRF-Word 模型雖然同時(shí)對(duì)字符和詞匯進(jìn)行編碼,有效地利用字符級(jí)信息和詞匯級(jí)信息,但是分詞工具不能完全適用于水利領(lǐng)域,因此會(huì)造成實(shí)體詞匯錯(cuò)誤傳播,進(jìn)而容易造成識(shí)別錯(cuò)誤。ChatGLM -P -Tuning 模型是對(duì)ChatGLM-6B 基座大模型進(jìn)行領(lǐng)域微調(diào),具有強(qiáng)大的對(duì)話能力,因此ChatGLM-P-Tuning 模型能根據(jù)指令從文本中抽取出完整的實(shí)體。MRCWLE模型針對(duì)每種實(shí)體類型都生成一條新文本,在每一條文本中只識(shí)別Query 對(duì)應(yīng)的實(shí)體,并且該模型能夠利用實(shí)體類型的先驗(yàn)知識(shí),很好地解決實(shí)體易混淆問題。此外,MRC-WLE 模型同時(shí)對(duì)字符和詞匯進(jìn)行編碼,提高了模型識(shí)別實(shí)體邊界的準(zhǔn)確率,召回更多的實(shí)體。

不同模型識(shí)別不同實(shí)體的微平均F1 值見圖5。相較于其他模型,MRC-WLE 模型識(shí)別湖泊、人名、機(jī)構(gòu)、大壩、水利術(shù)語、水庫實(shí)體類型的F1 值最高。原因是這些實(shí)體內(nèi)部都有一定的構(gòu)成規(guī)則,比如湖泊類型的實(shí)體大部分以湖結(jié)尾,MRC-WLE 模型引入實(shí)體類型嵌入,輸入一定的指令,能較好地將實(shí)體識(shí)別出來。此外,所有模型識(shí)別OTH 的F1 值都為0%,這可能與該類型實(shí)體數(shù)量較少且構(gòu)成規(guī)律比較復(fù)雜有關(guān)。

為研究詞匯特征信息和實(shí)體類型標(biāo)簽特征信息對(duì)模型的影響,基于數(shù)據(jù)集對(duì)MRC-WLE 模型進(jìn)行消融實(shí)驗(yàn),評(píng)價(jià)指標(biāo)見表3。與MRC-WLE 模型相比,去掉詞嵌入模塊( - Word)、實(shí)體類型標(biāo)簽嵌入模塊(-Lable)后微平均F1 值都有所降低,去掉詞嵌入模塊(-Word) 的降幅較大。與MRC 模型相比,MRCWLE模型的微平均F1 值提高了0.85%。

4結(jié)論

本文針對(duì)水利領(lǐng)域命名實(shí)體識(shí)別提出了一種基于數(shù)據(jù)增強(qiáng)的MRC 模型,在編碼層引入詞匯特征信息和實(shí)體類型標(biāo)簽特征信息,通過學(xué)習(xí)字符與字符、詞匯與詞匯、詞匯與實(shí)體類型標(biāo)簽之間的內(nèi)在相關(guān)性,獲得文本語義特征信息,提高了水利領(lǐng)域命名實(shí)體邊界和類型識(shí)別的準(zhǔn)確性?;跈C(jī)器閱讀理解的方法可以較好地引入知識(shí)信息,今后將引入部首、字形、拼音等多粒度語言學(xué)特征信息,將多任務(wù)學(xué)習(xí)納入機(jī)器閱讀理解框架,以提升模型識(shí)別長(zhǎng)實(shí)體的能力。

芦山县| 凌云县| 大连市| 东台市| 霍山县| 昌图县| 河北省| 会理县| 古田县| 宽城| 从化市| 房产| 潜江市| 子洲县| 天镇县| 鹤岗市| 定陶县| 昌乐县| 松溪县| 黄梅县| 襄城县| 泸州市| 旬邑县| 荣昌县| 双城市| 临潭县| 兴业县| 永吉县| 华坪县| 巫山县| 特克斯县| 广汉市| 太仓市| 望谟县| 宽城| 金湖县| 仁化县| 威远县| 会泽县| 临泽县| 辽中县|