基于深度學習的中文命名實體邊界識別算法

2024-05-21 00:00:00張子豪李文敬李雙

南寧師范大學學報(自然科學版) 2024年1期

DOI：10.16601/j.cnki.issn2096-7330.2024.01.011"文章編號：2096-7330（2024）01-0082-06

摘"要：為了解決中文命名實體邊界識別產生歧義和識別不準確的問題，提出了基于深度學習的中文命名實體邊界識別算法。對以“字”和“詞”的中文實體邊界識別方法存在的缺陷進行分析，根據(jù)句子中命名實體的位置編碼原理，對每個命名實體的首尾位置添加標簽，以劃分每個實體的邊界，同時用標簽表示命名實體之間的關系，提出了基于位置標注的中文命名實體識別的詞匯信息融合方法，并引入注意力機制對詞匯信息融合模塊進行改進。利用深度學習的優(yōu)勢，將深度學習與詞匯信息融合相結合，構建基于深度學習的中文命名實體詞匯信息融合模型和基于深度學習的中文命名實體邊界識別算法。該算法在Resume等數(shù)據(jù)集上進行對比實驗和消融實驗，查準率為95.94%，查全率為96.46%，F(xiàn)1值為96.58%。實驗結果表明，該算法與Lattice等算法相比，準確率、查準率、F1值分別提高了1.13%、2.35%、2.12%。該算法在解決目前中文命名實體識別存在的邊界識別不準確和存在歧義的問題上更優(yōu)。

關鍵詞：深度學習；中文命名實體；詞匯信息融合；邊界識別算法

中圖分類號：TP18;TP391.1""文獻標志碼：A

0引言

命名實體識別是計算機進行自然語言處理的一項基礎性關鍵任務，它的作用是識別語料中人名、地名、組織機構名等命名實體，在所有自然語言處理的人工智能項目中，命名實體識別都是一個必須首要攻克的任務。目前，命名實體識別的應用有很多，比如機器翻譯、問答系統(tǒng)、搜索引擎等等。在金融領域和生物醫(yī)學領域也同樣重要，它最廣泛的應用就是信息抽取，通過分析文本，提取當中的關鍵信息。在金融領域和生物醫(yī)學領域，基于大數(shù)據(jù)、基于統(tǒng)計的方法獲取概率知識總趕不上人類專業(yè)知識的可靠性。而在信息抽取方面存在標注語料老舊、覆蓋不全、命名實體歧義嚴重、消歧困難等問題。這些問題不解決，將對后續(xù)知識圖譜構建以及上游工作產生嚴重的負面影響。因此，將深度學習、注意力機制和圖神經網絡相融合，對中文命名實體邊界識別算法進行研究，具有重要的科學意義和應用。

1相關工作

1.1詞匯信息融合的命名實體識別研究現(xiàn)狀KH*2

FLAT模型[1]：FLAT模型是復旦邱錫鵬的研究成果，發(fā)表于2020年，它引入了外部知識，利用Transformer[2]長距離依賴的優(yōu)勢，以及預訓練模型的優(yōu)勢，提升NER的性能，為lattice結構設計了一個巧妙的位置編碼，使用相對位置編碼，并具有出色的并行化能力。但當出現(xiàn)較長的文本時，這種方法會匹配更多的單詞，會顯著增加自注意力模塊的內存和計算成本。

NFLAT模型[4]：該模型是由江南大學吳爽于2021年發(fā)表于IEEE，F(xiàn)LAT在中文NER方面取得了巨大成功，但是，在處理較長的文本時，這種方法可能會匹配更多的單詞，從而導致較長的輸入序列。因此，它大大增加了self-attention模塊的內存使用和計算成本。為了解決這個問題，提出了一種新的非平面格結構的InterFormer網絡，它聯(lián)合建模不同長度的字符和單詞序列。以InterFormer為主體，本研究進一步為中文NER開發(fā)了一種非平面格詞匯增強方法，即NFLAT。它具有一定的通用性，可以擴展到任何需要對兩個信息序列進行聯(lián)合建模的任務。

W2NER模型[5]：W2NER模型將NER任務轉換預測word-word（中文是字CD*2字）的關系類別，通過使用下一個相鄰詞（NNW）和尾頭詞（THW）關系對實體詞之間的相鄰關系進行有效建模，構造一個 2D 的詞詞關系網格，然后使用多粒度 2D 卷積，以更好地細化網格表示。最后，使用一個共同預測器來推理詞詞關系。

1.2問題的提出

中文命名實體識別是一個具有挑戰(zhàn)性的研究領域，國內外研究者都在積極地探索更加高效、準確的解決方案。在上述提到的模型中，都能解決大部分命名實體識別問題，但毫無疑問，也都存在著許多問題。比如語境上下文考慮不充分，數(shù)據(jù)規(guī)模較小，分詞多樣導致影響實體邊界劃分等。為了解決這些問題，首先使用了BERT[6]和雙向LSTM[7]來捕捉長句子的信息，針對數(shù)據(jù)規(guī)模小的問題，使用了數(shù)據(jù)增強的方法，使用了掩碼語言建模（Masked Language Modeling）的方式，將通過MLM模型預測的替換Mask的詞語的句子作為新的數(shù)據(jù)集以此起到數(shù)據(jù)增強的作用。最后在分詞方面，使用了外部詞典，它不僅易于構建和維護，更適合文本分類的應用場景。進行知識引入后，一方面能顯著提升模型的召回能力，減少業(yè)務漏判，另一方面，可以在不更新模型的前提下讓應用系統(tǒng)適應外部語言環(huán)境的變化發(fā)展。最后對歧義等問題，通過深度學習，根據(jù)改進的相對位置信息來對每個實體之間的關系進行分類建模，使計算機能夠學到每個實體之間的知識（關系），從而讓計算機找到相關規(guī)律，盡量正確的劃分每個句子中實體的邊界，減少歧義。綜上所述，本研究通過使用信息融合模塊與深度學習相結合，根據(jù)實體分類來劃分詞語邊界，提出了一種基于詞匯信息融合的中文命名實體邊界的方法。

2基于深度學習的詞匯信息融合模型的構建

2.1中文實體詞匯信息融合分析

2.1.1中文實體詞匯信息融合的基本原理

基于字和基于詞的中文命名實體識別都有部分缺陷，提出基于位置標注的中文命名實體識別詞匯信息融合的方法，原理如下：

要做到詞匯信息融合，先要將字轉化為向量，用到的是Word2Vec方法，Word2Vec是google在2013年推出的一個 NLP 工具，它的特點是將所有的詞向量化，這樣詞與詞之間就可以定量地去度量他們之間的關系，挖掘詞之間的聯(lián)系。然后在字嵌入模型中添加詞匯信息，通過使用到的詞典，查詢每個詞語所對應到的向量信息。

并對Transformer encoder進行一定的改進，將字序列作為query的輸入，詞序列作為key和value的輸入。對于相對位置，采用了正余弦函數(shù)，用式（1）和（2）計算了輸入文本中第一個和最后一個字的位置號和單詞的頭部和尾部偏移量。TP張子豪1，+45mm。64.5mm，YTS（圖1信息融合模塊TS）

P2kspan=sin（SX（span100002k/dmodelSX））（1）

P（2k+1）span=cos（SX（span100002k/dmodelSX））（2）

根據(jù)此原理，構建了詞匯信息融合模塊，如圖1所示。在圖1中，輸入為詞嵌入和字嵌入，對字符和單詞序列進行聯(lián)合建模，讓每個字符對應一個相應實體，從而使字符序列能夠融合單詞邊界和語義信息。詞匯信息融合模塊包含一個多頭注意力和一個前饋神經網絡，可以同時對字和詞兩個不同長度的序列進行建模，使他們交互，從而獲得融合了字邊界的語義信息的詞語的表征。

多頭注意力模塊，在實驗中，發(fā)現(xiàn)多頭相互注意可以更有效地融合詞匯信息，并且不同頭部的信息具有互補作用，通過不同的頭部注意力，可以捕獲到更多有用的信息。多頭相互注意計算式為：

Heads=InterAtt（XC，（s），XW，（s））（3）

MultiHead（XC，XW）=［Head1，…，Headl］（4）

其中，l是相互注意頭部的數(shù)量，Head（s）是第s個相互注意頭部在字符和詞向量子空間上的輸出結果。XC，（s）和XW，（s）是字符和單詞在其子空間中的向量表示。

之后是前饋神經網絡模塊，使用了兩個全連接層：

FFN（x）=max（0，xW1+b1）W2+b2（5）

最后，使用殘差連接和歸一化來加快網絡訓練的收斂速度，防止梯度消失的問題。

Output1=LayerNorm（XC+MultiHead（XC，XW））（6）

Output2=LayerNorm（Output1+FFN（Output1））（7）

通過這兩個輸出，獲得了融合了詞邊界和語義信息的字表征，也就是詞匯信息融合后的信息。

2.1.2信息融合模塊的改進與說明

注意力是將所有輸入進行了關注，而詞匯信息融合，需要同時關注到字的信息和詞的信息，那么就進行“字CD*2詞”級別的注意力關注。

因此，對注意力機制要做出的改進為：注意力機制中的Q、K、V不再同源，也不用到自注意力機制而是多頭注意力機制。和通常的 NLP 任務一樣，先使用詞嵌入算法（Embedding）將每個詞轉換為一個詞向量。其中字序列作為query的輸入，詞序列作為key和value的輸入。通過character序列的embedding XC={XC1，XC2，XC3…XCn}和word序列的embeddingXW={XW1，XW2，XW3，…，XWn}，word序列可以通過詞典匹配來獲得，之后通過字符和單詞的特征嵌入的線性變換得到Q、K、V表征，［Q，K，V］=［XCWQ，XWWK，XWWV］每個W都是一個可學習參數(shù)。改進后的注意力計算式為：

InterAtt（A，V）=softmax（mask（A））VJY，2（8）

Aij=（Qi+u）Tkj+（Qi+v）TR*ijJY，2（9）

式中u和v是可學習的參數(shù)，mask（）是字符和單詞的注意力間得分掩碼，通過這種注意力機制，就能得到融合了字信息和詞信息的注意力，對于單個批次為2維，對于多批次為3維。其中R*ij的計算式為：

Rij=RELU（Wr（Phci-hwjPtci-twj））JY，2（10）

式中Wr是可學習的參數(shù)，h和t是單詞在輸入文本中的第一個和最后一個字符的位置號，上標c和w分別表示字符和單詞。hci-hwj表示第i個字符和第j個單詞的頭部位置偏移，tci-twj表示第i個字符和第一個單詞的尾部位置偏移，即相對位置。位置編碼P由式（11）和（12）生成：

P2kspan=sin（SX（span100002k/dmodelSX））JY，2（11）P（2k+1）span=cos（SX（span100002k/dmodelSX））JY，2（12）

式中，span表示hci-hwj和，tci-twj，k是第k個維度，dmodel是隱藏大小。

2.2模型架構

模型的4個模塊分別是信息融合、編碼器層、卷積層和共同預測層，總架構如圖2所示。

圖2中的信息融合模塊及其改進已在上文做了討論。余下的編碼器層、卷積層和共同預測層3個模塊。

2.2.1編碼器層

編碼器層也就是encoder layer，這一層的作用是，得到字與字的融合信息，將得到的表征再次輸入到BERT中，因為它已被證明是NER和關系分類中表征學習的最先進模型之一。通過編碼器層，可以得到后續(xù)要使用到的多個數(shù)據(jù)，一個是BERT輸出的字詞表示，一個對每個輸入句子所構建的矩陣，一個是兩個字之間的距離轉化為絕對距離的矩陣，以及兩個字之間的對應關系的標簽。

2.2.2卷積層

卷積層的作用是，通過將編碼器層和信息融合層得到的信息轉化為字與詞或者是字與字的二維表格，再通過多粒度卷積，得到最終的網格表示。詳細的步驟為，將從編碼器輸出的單詞表示輸入到CLN層，從而得到了字詞對的嵌入，再通過之前的BERT風格形式所構建的兩種矩陣，來獲得字詞對的三角區(qū)域嵌入和距離信息嵌入。將這三種嵌入在最后一個維度拼接起來組成卷積層的輸入，最后輸入卷積層經過一個1×1的常規(guī)卷積和多層核為3×3的空洞卷積，所得到的結果將輸入到最后的預測層。

2.2.3共同預測層

共同預測層，目的是得到最終得分，根據(jù)得分來進行分類，劃分詞語邊界。在卷積層之后，獲得了單詞對網格表示Q，用于使用MLP預測每對單詞之間的關系。然后，使用biaffine分類器計算一對主語詞和賓語詞之間的關系得分，基于單詞對網格表示Q，采用MLP計算單詞對的關系得分，最終關系概率通過結合biaffine和MLP預測因子的得分來計算。

3基于深度學習的中文命名實體邊界識別算法

模型架構可以分成5個模塊，分別是：詞匯信息融合模塊、編碼器模塊、卷積模塊、共同預測模塊和解碼器模塊。其中將具體描述詞匯信息融合算法、卷積層算法和共同預測層算法，最后將用一個總算法來概括整個模型。

算法1：詞匯信息融合算法

輸入：字嵌入序列XC，詞嵌入序列XW

輸出：全連接層Output1，Output2

超參數(shù)：Wr

步驟1：根據(jù)詞序列計算span：span← hci-hwj;span←tci-twj

步驟2：根據(jù)算法（14）、（15）計算相對位置編碼

步驟3：根據(jù)相對位置編碼和算法（13）計算掩碼：Rij

步驟4：根據(jù)XC，XW計算QKV：［Q，K，V］←［XCWQ，XWWK，XWWV］

步驟5：根據(jù)算法（11）、（12）計算后的注意力矩陣：Aij、InterAtt（A，V）

步驟6：根據(jù)注意力矩陣算法（3）和（4）計算多頭注意力：Heads、MultiHead（XC，XW）

步驟7：根據(jù)算法（6）和（7）計算Output1，Output2：Output1、Output2

算法2：卷積層算法

輸入：字嵌入序列XC，詞嵌入序列XW，BERT樣式網格Ed，相對位置信息，張量Et

輸出：字對網格表示Q

步驟1：根據(jù)算法（17）計算元素的平均值μ

步驟2：根據(jù)算法（18）計算元素的標準偏差σ

步驟3：根據(jù)算法（16）計算單詞對表征矩陣V

步驟4：根據(jù)算法（19）將三種嵌入連接起來得到網格C

步驟5：進行多粒度卷積，根據(jù)算法（20）得到網格Ql

步驟6：得到最終的網格表示Q：Q←[Q1，Q2，Q3]∈RN×N×3dc

算法3：共同預測層算法

輸入：字-字融合信息；字-詞融合信息；最終網格表示Q

輸出：最終概率得分

步驟1：根據(jù)算法（21）、（22）先計算兩個實體之間的單詞表示：

主語為Si，賓語為OJ

步驟2：根據(jù)算法（23）計算biaffine關系得分：y'ij

步驟3：根據(jù)算法（24）計算MLP關系得分：y''ij

步驟4：根據(jù)算法（25）計算最終關系得分：yij

基于深度學習的中文命名實體邊界識別算法

步驟1：準備數(shù)據(jù)，對輸入數(shù)據(jù)進行處理，添加標簽

步驟2：根據(jù)詞典將數(shù)據(jù)轉換為字、詞向量輸入

步驟3：在詞匯信息融合模塊進行算法1的運算

步驟4：再將得到的信息輸入編碼器層

步驟5：將編碼器層的輸出，輸入卷積層進行算法2的運算

步驟6：最后根據(jù)算法1和算法2的輸出，輸入共同預測層，獲得最終得分

步驟7：訓練模型并得到最終模型

4實驗結果與分析

4.1實驗環(huán)境

實驗硬件是：顯卡NVIDIA GeForce RTX 3060；處理器為13th Gen Intle（R） Croe（TM） i5-13490F;內存為32G。使用的軟件為集成編譯工具pycharm，使用python語言。

4.2實驗設置

4.2.1實驗數(shù)據(jù)

實驗數(shù)據(jù)集：使用4個主流的中文NER的數(shù)據(jù)集，其中3個公開可用的數(shù)據(jù)集，即微博數(shù)據(jù)集[8]，簡歷數(shù)據(jù)集和MSRA[9]，還有一個授權數(shù)據(jù)集ontonotes 4.0[10]。以微博數(shù)據(jù)集為例，見表1。

使用了YJ[11]、LS[12]和TX[13]詞典進行實驗，以此來評估模型在不同大小的詞典上的性能。以TX為例，TX是騰訊AI實驗室訓練的詞向量產物，不管是在詞匯維度和詞匯量大小上，它都有較好的成果。

4.2.2實驗一

對比實驗：模型對比了其他的NER結果，分別對比不同的幾種中文NER模型，包括WC-LSTM[14]，LR-CNN[15]，SoftLexicon[16]等對于不同的數(shù)據(jù)集也進行了對比實驗。

4.2.3實驗二

消融實驗：分別在3個不同數(shù)據(jù)集上對本研究的模型部分進行消融實驗，按模塊對模型進行刪減，以此來觀察部分模塊對實驗結果的具體影響。

4.3實驗結果

4.3.1實驗一結果

模型在OntoNotes4.0數(shù)據(jù)集上的查準率為82.43%，查全率為83.14%，F(xiàn)1值為82.96%。在MSRA數(shù)據(jù)集上的查準率為96.38%，查全率為95.49%，F(xiàn)1值為96.20%。在簡歷數(shù)據(jù)集上的查準率為95.94%，查全率為96.46%，F(xiàn)1值為96.58%。在微博數(shù)據(jù)集上的查準率為69.75%，查全率為74.12%，F(xiàn)1值為72.49%。

4.3.2實驗二結果

實驗二結果見表2。

4.3.3實驗結果分析

（1）在4個中文數(shù)據(jù)集上對比了多個中文NER模型。從表1和表2可以看出，在中文數(shù)據(jù)集上，表現(xiàn)較好的模型為W2NER模型和本研究的模型，與W2NER相比，這里的模型在部分數(shù)據(jù)集上表現(xiàn)要好，部分數(shù)據(jù)上又不如W2NER。但對比前5個基礎中文NER模型，實驗結果又遙遙領先。因為本研究的模型是以W2NER為基線，在它的基礎上添加了基于詞匯邊界信息融合的模塊，所以對比W2NER模型，本實驗數(shù)據(jù)有好有壞，因此進行了下述的消融實驗。

（2）在沒有區(qū)域和距離嵌入的情況下，觀察到3個數(shù)據(jù)集的性能略有下降。通過去除所有卷積，性能也明顯下降，這驗證了多粒度擴張卷積的有用性。

（3）在去除具有不同膨脹率的卷積之后，性能也下降，尤其是對于膨脹率為2的卷積。比較共同預測層中的biaffine和MLP，發(fā)現(xiàn)盡管MLP起著主導作用，但Biaffinne最多也能帶來0.5%的增益。沒有MLP會對實驗結果產生較大的影響。

6結語

使用新的信息融合模塊，建立一種新的基于中文NER的架構信息融合模塊+W2NER。該模型仍有可以優(yōu)化的地方，比如說信息融合模塊的位置編碼和多頭注意力機制，其中位置編碼的方法是否還能繼續(xù)優(yōu)化、卷積層里的多粒度卷積里的三個模塊是否還可以繼續(xù)添加卷積以實現(xiàn)更好的性能，分類器是否還可以用多個分類器進行殘差連接最后再進行融合等等。

參考文獻：

[1]"Li X，Yan H，Qiu X，et al. FLAT：Chinese NER using Flat-Lattice transformer[J].Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics，2020：6836-6842.

[2]"Vaswani A，Shazeer N，Parmar N，et al. Attention is all you need[J].Advances in Neural Information Robustness of Named Entity Reco，2017：5998-6008.

[3]"Zhang Y，Yang J. Chinese NER using lattice LSTM[J].In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics，2018，1： 1554-1564.

[4]"Wu S，Song X，F(xiàn)eng Z，et al. NFLAT：Non-Flat-Lattice Transformer for Chinese Named Entity Recognition[J].Institute of Electrical and Electronics Engineers，2021：594-607.

[5]"Li J，F(xiàn)ei H，Liu J，et al. Unified Named Entity Recognition as Word-Word Relation Classification[J/OL].Proceedings of the AAAI Conference on Artificial Intelligence，2022，36（10）：10965-10973.

[6]"Devlin J，Chang M，Lee K，et al. BERT： Pre-training of deep bidirectional transformers for language understanding[C].In Proceedings of the NAACLHLT，2019：4171-4186.

[7]"Hochreiter S，Schmidhuber J. Long short-term memory[J/OL].Neural Computation，1997，9（8）：1735-1780.

[8]"He H，Sun X. F-score driven max margin neural network for named entity recognition in Chinese social media[M/OL].in Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics，Short Papers，2017，2：713-718.

[9]"Levow G-A. The third international Chinese language processing bakeoff：Word segmentation and named entity recognition[C/OL].in Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing，2006：108-117.

[10] Weischedel R，Pradhan S，Ramshaw L，et al. Ontonotes release 4.0[M/OL]. LDC2011T03，Philadelphia，Penn：Linguistic Data Consortium，2011.

[11]Yang J，Zhang Y，Dong F，et al. Neural word segmentation with rich pretraining[M/OL]. in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics，2017：839-849.

[12]Li S，Zhao Z，Hu R.Analogical reasoning on Chinese morphological and semantic relations[M/OL].In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics，2018，2：138-143.

[13]Song Y，Shi S，Li J，et al. Directional skip-gram：Explicitly distinguishing left and right context for word embeddings[C/OL].In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies，2018，2：175-180.

[14]Liu W，Xu T，Xu Q，et al. An encoding strategy based word-character LSTM for Chinese NER[C/OL].in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies，2019，1：2379-2389.

[15]Gui T，Ma R，Zhang Q，et al. Cnn-based chinese ner with lexicon rethinking[J].in Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence，2019：4982-4988.

[16]Ma R，Peng M，Zhang Q，et al. Simplify the usage of lexicon in Chinese NER[M/OL].In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics，2020：5951-5960.

[責任編輯：黃天放]

收稿日期：2023-10-20

基金項目：（國家自然科學基金項目（32260062）;廣西人機交互與智能決策重點實驗室開放基金項目“三值光學計算機處理器位分配與任務處理關鍵技術研究”（GXHIID2209）

通信作者簡介：ZK（李文敬（1964—），男，南寧師范大學教授，研究方向：智能計算與并行處理（liwj@nnnu.edu.cn）。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學習的中文命名實體邊界識別算法