国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分層區(qū)域窮舉的中文嵌套命名實體識別方法

2022-09-16 07:16:50余詩媛郭淑明黃瑞陽張建朋
計算機技術(shù)與發(fā)展 2022年9期
關(guān)鍵詞:窮舉嵌套命名

余詩媛,郭淑明,黃瑞陽,張建朋,胡 楠

(1.鄭州大學 軟件學院,河南 鄭州 450001;2.國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)

0 引 言

命名實體識別(Name Entity Recognition,NER)是信息抽取的標準任務之一,其主要目的是抽取出自然語言文本中具有特定含義的命名實體,例如:組織名、地名、人名等。命名實體識別往往被視為一個序列標注任務,即對于指定字符序列,命名實體識別模型需要預測每個字符對應的命名實體標簽。嵌套命名實體是一類特殊形式的命名實體,其內(nèi)部包含一個或者多個命名實體,最外層的命名實體稱為外部命名實體,嵌套在其內(nèi)部的實體稱為內(nèi)部命名實體。由于單個詞條可能擁有兩個及以上的標簽,傳統(tǒng)的命名實體識別模型無法完整地識別出具有嵌套結(jié)構(gòu)的內(nèi)部命名實體,從而難以精確捕捉文本中存在的細粒度語義信息及結(jié)構(gòu)信息。

當前,只有少數(shù)研究針對英文嵌套命名實體識別。Ju等人[1]提出Layered-BiLSTM-CRF模型,該模型動態(tài)堆疊平面NER層以識別內(nèi)部命名實體,并運用充分的內(nèi)部命名實體編碼信息識別外部命名實體,最終在ACE 2005、GENIA數(shù)據(jù)集上分別獲得了72.2%、74.7%的F1值。但該方法存在層與層之間的錯誤傳播,若無法識別外部命名實體,則無法檢測到內(nèi)部命名實體。Sohrab等人[2]提出了神經(jīng)窮舉模型,其關(guān)鍵思想是列舉所有可能的區(qū)域或跨度作為潛在的實體提及,并用深層神經(jīng)網(wǎng)絡對它們進行分類,該方法簡單有效,但是外部命名實體信息和內(nèi)部命名實體信息完全沒有交互。中文嵌套命名實體識別任務目前缺少被廣泛認可的數(shù)據(jù)集,《人民日報》數(shù)據(jù)集雖然含有部分嵌套命名實體的標注信息,但是這些命名實體信息不完整且存在錯標漏標現(xiàn)象,如“[中共中央/nt 顧問/n 委員會/n]nt”轉(zhuǎn)化為“[中共中央]nt”及“[中共中央顧問委員會]nt”,漏標了“[中共]nt”。

結(jié)合自動生成及手工標注方法,首先,基于《人民日報》數(shù)據(jù)集構(gòu)建了新的中文嵌套命名實體識別數(shù)據(jù)集NEPD(Nested Entity of the People’s Daily);其次,提出了一種結(jié)合動態(tài)堆疊平面及神經(jīng)窮舉的嵌套命名實體識別方法,即根據(jù)實體長度分層枚舉所有可能的區(qū)域或組合,使用卷積神經(jīng)網(wǎng)絡將短組合實體的詞嵌入與相鄰字符的詞嵌入聚合形成長組合實體的詞嵌入;然后,利用BiLSTM預測出每一個組合的標簽;最后,在中文嵌套命名實體識別數(shù)據(jù)集上對該方法進行實驗驗證。

1 相關(guān)工作

嵌套命名實體具有結(jié)構(gòu)復雜多變,嵌套顆粒度與嵌套層數(shù)缺乏規(guī)律性等特點,例如,“中共北京市委宣傳部”的外部命名實體“[[[中共]nt[北京]ns市委]nt宣傳部]nt”包含“[中共]nt”、“[北京]ns”和“[中共北京市委]nt”三個內(nèi)部命名實體。

當前,嵌套命名實體識別研究工作主要基于英文基準數(shù)據(jù)集(ACE語料[3-4]、GENIA語料[5]、NNE數(shù)據(jù)集[6]、KBP2015語料庫等)。ACE語料用于自動內(nèi)容提取技術(shù)評估,標注了包含7種主要的命名實體類型:地理命名實體(GPE)、組織(ORG)、人(PER)、地點(LOC)、車輛(VEH)、設施(FAC)和武器(WEA);GENIA語料是最早標注的生物醫(yī)學文獻集合,主要有五種命名實體類型:DNA、RNA、蛋白質(zhì)、細胞系和細胞類型;NNE數(shù)據(jù)集標注了華爾街日報的細粒度、嵌套命名實體,包含114種實體類型,嵌套深度高達6層。

針對英文嵌套命名實體識別,文獻[1]充分運用內(nèi)部命名實體編碼信息識別外部命名實體,提出了一種動態(tài)堆疊平面NER層以識別嵌套命名實體的模型,若檢測到命名實體,該模型的平面NER層首先獲取LSTM層的上下文表示,其次將該表示作為輸入傳遞到新的平面NER層,最后將上下文表示提供給CRF層進行標簽預測,當沒有檢測到命名實體時,模型停止堆疊,直至完成命名實體識別;文獻[2]提出了神經(jīng)窮舉模型,首先從參數(shù)共享的BiLSTM中獲取區(qū)域表示,將每個區(qū)域表示輸入到修正線性單元中作為激活函數(shù),并把激活層的輸出傳遞到softmax輸出層,以識別該區(qū)域是否為特定的命名實體類型或非命名實體;文獻[7]提出了一種基于超圖表示的模型,稱為提及超圖(Mention Hypergraph,MH),該模型首先使用節(jié)點和有向超邊共同對命名實體及其組合進行表示,緊湊地將一個句子中不同類型且無限長度的嵌套命名實體表示出來,以解決嵌套命名實體檢測難的問題,在ACE 04和ACE 05數(shù)據(jù)集上的F1值達到62.8%及62.5%;文獻[8]提出了一種利用邊界預測命名實體分類標簽的邊界感知模型。該模型將嵌套命名實體識別分為了兩個任務,首先用序列標注模型來發(fā)現(xiàn)命名實體的位置;其次,用基于跨度的模型對序列標注發(fā)現(xiàn)的候選命名實體跨度進行實體類型的分類;最后采用了多任務損失算法同時訓練兩個任務,以獲取邊界檢測模塊和命名實體分類預測模塊的底層依賴關(guān)系;文獻[9]提出了一種基于機器閱讀理解(Machine Reading Comprehension,MRC)的方法統(tǒng)一解決非嵌套和嵌套命名實體識別問題,在ACE04和MSRA等8個中英數(shù)據(jù)集上均取得了顯著的識別成果。

由于缺乏規(guī)范統(tǒng)一的語料庫,當前中文嵌套命名實體識別工作缺乏橫向比較的基準。文獻[10]引入實體語素概念,基于機器學習方法構(gòu)建漢語命名實體的雙層模型,很大程度上解決了嵌套命名實體邊界識別錯誤問題;文獻[11]提出并設計了一種聯(lián)合模型對嵌套命名實體進行識別,可聯(lián)合處理分詞問題、命名實體的邊界確定問題、類別確定問題。

2 中文嵌套命名實體識別數(shù)據(jù)集構(gòu)建

2.1 數(shù)據(jù)集構(gòu)建

《人民日報》語料庫是對一九九八年一月至六月出版的人民日報純文本語料進行分詞和詞性標注后制作而成,該文分析了語料庫中嵌套命名實體統(tǒng)計分布規(guī)律,該語料中共106 430個名詞,主要包含人名實體、地名實體以及組織機構(gòu)名實體;其中,嵌套命名實體總數(shù)為7 993,占所有命名實體總數(shù)的18.5%。

為了減少標注工作復雜度,該文自動抽取語料中已經(jīng)標注的部分嵌套命名實體,然后人工標注漏標的命名實體,并修訂標注錯誤的命名實體,保證原始數(shù)據(jù)的清潔與專業(yè)性,主要步驟如下:

(1)自動抽?。簭摹度嗣袢請蟆氛Z料庫中抽取出命名實體,保留原有的命名實體標注,例如:“[中共/j 上海/ns 市委/n]nt”提取后變成“[中共[上海]ns市委]nt”;

(2)人工調(diào)整:基于自動抽取的結(jié)果,人工增添未標注命名實體,并對部分錯誤標注命名實體進行調(diào)整,例如:“[中共[上海]ns市委]nt”經(jīng)人工調(diào)整后為“[[中共]nt[上海]ns市委]nt”;

(3)一致性驗證:使用一致性分數(shù)衡量標注的一致性,一致性分數(shù)通過標注一致的標簽除以標簽總數(shù)得到;

(4)人工驗證:人工對標注數(shù)據(jù)復查,核查數(shù)據(jù)一致性與準確性。

2.2 數(shù)據(jù)集統(tǒng)計

表1、表2分別列出了修訂后的《人民日報》嵌套命名實體數(shù)據(jù)集的層次結(jié)構(gòu)統(tǒng)計及實體比例分布情況,表中括號內(nèi)為原數(shù)據(jù)集的實體比例分布。由表1、表2可知,調(diào)整后的數(shù)據(jù)集包含19 980個人名實體、23 937個地名實體、12 445個組織機構(gòu)名實體;其中,嵌套命名實體總數(shù)為11 757,占所有命名實體總數(shù)的20.9%,最深層次達到四層,如:“[[[[長沙市]ns 公安局]nt交警支隊]nt 黨委]nt”。由于人名中含嵌套命名實體的數(shù)量非常少,可以忽略不計,所以含有嵌套結(jié)構(gòu)的命名實體主要存在于地名、機構(gòu)名之中,結(jié)構(gòu)多為地名+地名+其他+后綴詞、組織名+組織名+其他+后綴詞,如:“[[中國]ns駐[南非]ns大使館]nt”、“[[中共]nt中央]nt 統(tǒng)戰(zhàn)部]nt”。

表1 嵌套命名實體層次結(jié)構(gòu)統(tǒng)計

表2 嵌套命名實體比例分布情況

3 中文嵌套命名實體識別方法

針對現(xiàn)有的嵌套命名實體識別方法忽略嵌套實體內(nèi)部信息關(guān)聯(lián)關(guān)系而導致準確性下降的問題,提出了分層區(qū)域窮舉模型(Layered Regional Exhaustive Model,LREM),分層區(qū)域窮舉模型利用神經(jīng)網(wǎng)絡詳盡地列舉了句子中所有的區(qū)域或組合。該模型建立在多層內(nèi)部編碼層以及解碼層之上,編碼層由卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)構(gòu)成,解碼層由雙向長短時記憶網(wǎng)絡(Bi-directional Long Short Term Memory Network,BiLSTM)構(gòu)成,本節(jié)將詳細描述LREM的體系結(jié)構(gòu),如圖1所示。

圖1 LREM的體系結(jié)構(gòu)

3.1 詞嵌入

給定輸入的句子序列X={x1,x2,…,xn},其中xi為第i個字符,n為句子序列中的字符數(shù)。該文參考文獻[12]中的方法,使用Word2Vec[13]在自動分詞的Chinese Giga-Word數(shù)據(jù)集上對詞嵌入進行預訓練,并使用預訓練后的詞嵌入初始化輸入句子序列的詞嵌入W={w1,w2,…,wn},其中wi為第i個字符的詞嵌入。

3.2 編碼層

分層區(qū)域窮舉模型的編碼層由n層內(nèi)部編碼層構(gòu)成,每一層內(nèi)部編碼層由卷積神經(jīng)網(wǎng)絡構(gòu)成,用于構(gòu)建固定長度的區(qū)域表示,即第L層編碼層用于構(gòu)建字符長度為L的組合實體的區(qū)域表示,1≤L≤n。首先,利用卷積神經(jīng)網(wǎng)絡聚合兩個相鄰的區(qū)域表示及詞嵌入,將聚合得到的區(qū)域表示傳遞給相應長度的解碼層;同時,將聚合得到的區(qū)域表示與鄰接詞嵌入拼接得到新的嵌入序列,將該序列傳遞至更高編碼層。通過卷積神經(jīng)網(wǎng)絡,分層區(qū)域窮舉模型可以遍歷文本中所有的組合實體,獲取低層編碼層的詞嵌入信息融入高層編碼層,使鄰接編碼層之間實現(xiàn)信息交換。

設Hi,i+l為以i為起點且長度為l的組合實體的區(qū)域表示,則其計算如公式(1)所示。

Hi,i+l=conv1(Hi,i+l-1,wi+l)

(1)

3.3 解碼層

傳統(tǒng)的層疊模型[14-16]在嵌套命名實體識別過程中容易產(chǎn)生層迷失問題,即模型在錯誤的嵌套層輸出嵌套命名實體,例如:從第一層識別出嵌套命名實體“[[中共]nt中央]nt[臺灣]ns工作辦公室]nt”。雖然命名實體邊界與類別均正確,但這會導致模型趨向于不預測內(nèi)部的嵌套命名實體,從而影響召回率。分層區(qū)域窮舉模型通過使用多層解碼層,使長度為L的命名實體僅在第L層預測來防止層迷失現(xiàn)象以及層與層之間的錯誤傳播現(xiàn)象產(chǎn)生。將經(jīng)過編碼層獲得的詞向量輸入到BiLSTM中進行進一步處理,得到其預測標注序列。

遺忘門將細胞狀態(tài)中的信息選擇性遺忘,其計算過程如公式(2)所示。

ft=σ(Wf·[ht-1,xt]+bf)

(2)

其中,ht-1表示t-1時刻的隱層狀態(tài),xt表示當前時刻t的輸入詞,σ表示sigmod函數(shù)。

記憶門決定將在細胞狀態(tài)中存儲的新信息范疇,首先使用記憶門的sigmod層決定需要更新的信息,然后利用tanh層創(chuàng)建包含新候選值的向量,最后,將這兩部分聯(lián)合更新細胞狀態(tài),其計算過程如公式(3)、(4)、(5)所示。

it=σ(Wi·[ht-1,xt]+bi)

(3)

(4)

(5)

輸出門將基于細胞狀態(tài)決定輸出值,首先使用sigmod層確定是否將細胞狀態(tài)的某個部分輸出,然后,將細胞狀態(tài)通過tanh進行處理并將其與sigmod的輸出相乘,從而僅輸出決定輸出的部分,其計算過程如公式(6)、(7)所示。

ot=σ(Wo[ht-1,xt]+bo)

(6)

ht=ot·tanh(Ct)

(7)

BiLSTM由前向LSTM與后向LSTM構(gòu)成,能夠更好地學習雙向的語義依賴。BiLSTM網(wǎng)絡結(jié)構(gòu)如圖2所示。向前隱含層計算并保存輸入序列中t時刻以及之前時刻的信息,向后隱含層計算并保存輸入序列中t時刻以及之后時刻的信息,最后將每個時刻向前隱含層和向后隱含層輸出的結(jié)果向量經(jīng)過連接、相加或平均值等方式處理得到最終的隱層表示。

圖2 BiLSTM網(wǎng)絡結(jié)構(gòu)

4 實驗結(jié)果與分析

4.1 實驗環(huán)境配置

實驗基于Tensorflow平臺搭建,實驗硬件環(huán)境配有Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz的浪潮服務器,同時裝載8塊型號為NVIDIA Corporation GP102的GPU。軟件環(huán)境為Debian 10操作系統(tǒng)、Cuda10.2、Python3.6.5以及Teansorflow Keras 2.2.5版本。

4.2 實驗參數(shù)設置

根據(jù)以往命名實體識別相關(guān)研究[17]以及參數(shù)調(diào)優(yōu)過程,具體的參數(shù)值如下:詞向量維度大小設置為50;卷積核尺寸為2;Dropout設置為0.5,學習率采用warmup與余弦退火策略動態(tài)調(diào)整,采用隨機下降梯度(SGD)進行模型參數(shù)優(yōu)化,設置初始學習率為5e-4。

4.3 實驗結(jié)果

4.3.1 嵌套命名實體識別效果

該文采用準確率(Precision)、召回率(Recall)、F1值(F1-Measure)三項基本測評指標來評估嵌套命名實體識別的效果。將修訂后的《人民日報》數(shù)據(jù)集的70%作為訓練集,30%作為測試集,對嵌套命名實體的識別結(jié)果如表3所示。實驗結(jié)果顯示:LREM模型對嵌套組織機構(gòu)名的識別召回率比較低,導致整體組織機構(gòu)名F值下降,而對地名的識別效果在準確率和召回率均保持穩(wěn)定的效果,最后地名、組織機構(gòu)名的F值分別是89.05%、77.82%,LREM模型在沒有外部知識資源的情況下,全部嵌套命名實體識別的F1值達到87.19%。

表3 嵌套命名實體識別結(jié)果

4.3.2 層數(shù)分析

表4顯示了不同層數(shù)L對不同長度命名實體識別結(jié)果的影響。由統(tǒng)計結(jié)果可知,2-3字符長度的命名實體數(shù)量占全部命名實體的79.91%,這些命名實體的識別結(jié)果對整體命名實體識別的效果有較大的影響。隨著L的增長,模型識別效果逐漸增強,當L大于5時,出現(xiàn)過擬合現(xiàn)象,導致模型識別效果有所下降,但總體上依然優(yōu)于普通命名實體識別效果。

表4 不同層數(shù)對不同長度命名實體的識別結(jié)果 %

表5顯示了在不同層數(shù)L下的推理速率。實驗結(jié)果顯示:推理速率隨層數(shù)的增加而下降。這是因為LREM模型的時間復雜度為O(mn),其中m為字符數(shù)量,n為層數(shù)。當需要識別出長字符的命名實體時,意味著需要進行更多層次的堆疊,這需要更多的計算成本。

表5 不同層數(shù)L的推理速率對比

4.3.3 消融實驗

為了證明利用短組合實體構(gòu)建長組合實體表示方法的有效性,該文設置了消融實驗,結(jié)果如表6所示。實驗證明,利用低層編碼層的詞嵌入信息,使鄰接編碼層之間實現(xiàn)信息交換的有交互卷積方法優(yōu)于直接將鄰接字符卷積的無交互卷積方法。

表6 消融實驗結(jié)果

4.3.4 非嵌套命名實體識別效果

為了對文中模型做出更客觀的評價,在通用的《人民日報》數(shù)據(jù)集上進行實驗,該數(shù)據(jù)集不包括嵌套命名實體,采用LSTM-CRF、BiLSTM、BiLSTM+CRF和LREM模型進行性能分析,實驗結(jié)果如圖3所示。

圖3 非嵌套命名實體識別結(jié)果

實驗結(jié)果顯示:BiLSTM+CRF識別結(jié)果的F1值比LSTM-CRF高出3.09%,這是因為BiLSTM能夠利用雙向結(jié)構(gòu)獲取上下文的語義信息,所以BiLSTM+CRF優(yōu)于LSTM-CRF的識別效果;通過比較BiLSTM與BiLSTM-CRF的實驗結(jié)果,增加CRF模塊后,F(xiàn)1值提高了5.04%,這歸因于CRF能夠充分考慮標簽間的聯(lián)系,避免不準確標簽的出現(xiàn),例如:預測的標簽序列為“B-Organization I-Person”,由于LREM模型考慮的是片段標簽,無需考慮標簽間的聯(lián)系,所以無需增加CRF模塊進行實驗比較;與以上方法相比,該文提出的分層區(qū)域窮舉模型的非嵌套命名實體識別也取得較好的效果,準確率、F值分別比BiLSTM-CRF提升了2.28%、1.18%。

5 結(jié)束語

基于《人民日報》數(shù)據(jù)集構(gòu)建了新的嵌套命名實體數(shù)據(jù)集,提出了一種分層區(qū)域窮舉模型,該模型利用多層內(nèi)部解碼層遍歷文本中所有長度的組合實體,結(jié)合短組合實體的詞嵌入信息構(gòu)建長組合實體的區(qū)域表示,實現(xiàn)了鄰接編碼層的交互;使用多層解碼層分別預測長度為L的命名實體防止層迷失現(xiàn)象發(fā)生。最后,利用分層區(qū)域窮舉模型在嵌套命名實體識別數(shù)據(jù)集上進行識別。實驗表明,該模型能夠從所有可能的區(qū)域中識別出嵌套命名實體,且對于非嵌套命名實體識別也取得了較好的效果。

對于未來的工作有兩方面考慮:(1)考慮使用字詞融合信息來提高嵌套命名實體識別性能;(2)考慮嵌套命名實體與關(guān)系聯(lián)合抽取,利用嵌套命名實體中存在的額外信息作為輔助特征以增強關(guān)系抽取的效果。

猜你喜歡
窮舉嵌套命名
例析“立幾”與“解幾”的嵌套問題
基于嵌套Logit模型的競爭性選址問題研究
命名——助力有機化學的學習
強調(diào)舉例,提高學生數(shù)學思維的深刻性
淺談初中代數(shù)式最值的求解技巧
有一種男人以“暖”命名
東方女性(2018年3期)2018-04-16 15:30:02
為一條河命名——在白河源
散文詩(2017年17期)2018-01-31 02:34:08
分布式系統(tǒng)中的一種特殊規(guī)格字符集分片算法
數(shù)獨問題的一種簡單解法
一種基于區(qū)分服務的嵌套隊列調(diào)度算法
計算機工程(2014年6期)2014-02-28 01:25:29
丰宁| 万宁市| 浙江省| 张家港市| 永泰县| 白城市| 墨脱县| 大石桥市| 奉节县| 连云港市| 荥经县| 油尖旺区| 杭锦旗| 广东省| 红河县| 天水市| 长子县| 滕州市| 云安县| 封丘县| 江西省| 丹江口市| 耒阳市| 颍上县| 霍州市| 泸西县| 江西省| 东城区| 万盛区| 宁城县| 萨嘎县| 瓦房店市| 施甸县| 清流县| 区。| 鄢陵县| 长顺县| 台南市| 乐亭县| 呼图壁县| 九台市|