王宗澤, 張吳波
(湖北汽車工業(yè)學(xué)院電子信息系,湖北 十堰 442002)
命名實(shí)體是從眾多的信息數(shù)據(jù)中選取固定的實(shí)體以方便自然語(yǔ)言應(yīng)用機(jī)器識(shí)別出某些實(shí)體名稱,進(jìn)而生成具有關(guān)鍵詞性的信息結(jié)果,避免信息冗雜影響人們對(duì)數(shù)據(jù)信息提取的準(zhǔn)確性[1-2]。中文信息數(shù)據(jù)的提取與英語(yǔ)相比,缺少相應(yīng)的詞性邊界來實(shí)現(xiàn)斷句和達(dá)意,且市面上常見的翻譯軟件和編碼器難以對(duì)中文信息實(shí)現(xiàn)較好的提取效果,如傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)以固定的卷積核對(duì)信息進(jìn)行提取,對(duì)詞語(yǔ)的分界、詞性嵌套以及字詞歧義等問題的區(qū)分上還存在一定的不足,其精準(zhǔn)性和可靠性難以保證[3-4]。采用完全自注意力融合多元卷積的模型方式可以有效避免傳統(tǒng)模型對(duì)中文命名實(shí)體識(shí)別存在的缺陷,自注意力機(jī)制通過比較當(dāng)前解碼器在對(duì)單個(gè)字詞占長(zhǎng)度序列中的權(quán)重,并在解碼器中使得每次生成的詞語(yǔ)具有獨(dú)一性,大大提高了解碼器對(duì)信息提取的順暢性和突出性[5]。將完全自注意力與多元卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,有助于提高中文命名實(shí)體識(shí)別的準(zhǔn)確性,避免了詞性和用語(yǔ)習(xí)慣對(duì)不同人群實(shí)現(xiàn)信息提取的干擾。
目前常見的命名實(shí)體模型多依托于循環(huán)神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)編碼,實(shí)現(xiàn)了信息的提取,符合人固定的閱讀順序習(xí)慣,但對(duì)相同主要主語(yǔ)所指代的不同意思難以進(jìn)行區(qū)分和辨別,如相同的語(yǔ)句長(zhǎng)度中不同主語(yǔ)所對(duì)應(yīng)的動(dòng)作形式和含義的往往不受句子長(zhǎng)短的影響,而與實(shí)體動(dòng)作的發(fā)出對(duì)象有關(guān),傳統(tǒng)的編碼器難以提取到相同詞語(yǔ)在不同的信息數(shù)據(jù)中的含義和特征差異[6]。完全自注意力模型通過在對(duì)中文命名實(shí)體進(jìn)行信息特征提取的時(shí)候,根據(jù)信息傳遞的特征進(jìn)行選擇性的信息傳遞,而較少受到句子中字詞間距離的影響,直接驅(qū)動(dòng)硬件,實(shí)現(xiàn)運(yùn)算任務(wù)的執(zhí)行,能夠較大程度上提高編碼模型的運(yùn)算效率和針對(duì)性[7]。其運(yùn)行機(jī)制如圖1所示。
圖1中,編碼器將任務(wù)信息輸入,通過對(duì)句式中的信息和內(nèi)容進(jìn)行評(píng)分,得到各個(gè)字詞在句子中的重要程度權(quán)重占比,然后通過評(píng)分結(jié)果將機(jī)器的“注意力”集中在某些字詞上,并根據(jù)權(quán)重值較大的字詞與其相鄰字詞之間的關(guān)聯(lián)程度來確定其是在句子中的含義,借以避免陷入因一詞多義的干擾而使得信息的提取出現(xiàn)誤差。自注意力機(jī)制跳出了將信息和單詞雜糅成一個(gè)具體目標(biāo)向量的局限,而將編碼的注意力分配到句子中的實(shí)詞上,生成查詢、鍵入和值三個(gè)向量,并以此為參考依據(jù)得到每個(gè)部分特定詞的自注意向量,進(jìn)而將主要的信息傳遞給解碼器,即完成了對(duì)長(zhǎng)時(shí)序信息的關(guān)鍵部分提取[8]。該運(yùn)行機(jī)制中的主要公式及含義如式(1)所示。
A(P)=softmax(PNc(PNj)T)PNs
(1)
式(1)中,A(P)為輸出矩陣,P為輸入值,c,j,s為查詢向量、鍵入向量和數(shù)值向量,Nc,Nj,Ns為對(duì)應(yīng)的查詢向量矩陣,鍵入向量矩陣和數(shù)值向量矩陣,Softmax為函數(shù),T為標(biāo)簽數(shù)量。輸入數(shù)據(jù)信息中的每個(gè)字詞的評(píng)分由信息碼和內(nèi)容碼組成,通過對(duì)不同字詞之間是否存在前后信息的連貫性可以判斷該主語(yǔ)的意思及其他相同主語(yǔ)意思之間的區(qū)別[9]。
利用多元卷積解碼框架可以對(duì)中文命名實(shí)體信息中的詞性嵌套問題進(jìn)行識(shí)別,同時(shí)不以固定的卷積核作為目標(biāo)向量,而是通過關(guān)聯(lián)前后字詞的語(yǔ)法和詞意來實(shí)現(xiàn)單獨(dú)標(biāo)簽種類的解碼,實(shí)現(xiàn)對(duì)提取信息的優(yōu)化準(zhǔn)確,即在融合完全自注意力機(jī)制下,對(duì)中文命名實(shí)體任務(wù)的提取著重點(diǎn)于關(guān)注相鄰詞語(yǔ)之間的關(guān)系,并進(jìn)行建模[10-11]。其運(yùn)行機(jī)制的結(jié)構(gòu)圖如圖2所示。
圖2模型結(jié)構(gòu)圖展示出,通過對(duì)輸入映射層的句子信息判斷其字詞占整個(gè)句子中的權(quán)重評(píng)分,并對(duì)其在原始位置上進(jìn)行位置向量的增加,隨后對(duì)每個(gè)位置向量進(jìn)行卷積矩陣操作,即可得到精確性較高的輸出數(shù)據(jù)。機(jī)制的數(shù)學(xué)公式如式(2)所示。
(2)
式(2)中,bi為自注意力向量,i為自注意力的個(gè)數(shù),Bi為自注意向量拼接成的矩陣,r為過濾器,Concat(Conv[B1,B2,...,Bn]為Bi通過卷積生產(chǎn)得到的矩陣,MLP為多層感機(jī),tanh為非線性化激活函數(shù)。借助多層感知機(jī)和函數(shù)對(duì)卷積生成的具有識(shí)別任務(wù)的卷積核進(jìn)行信息特征的抓取以區(qū)別不同字詞所代表標(biāo)簽數(shù)的強(qiáng)弱關(guān)系,其意義在于避免操作過程的冗余,對(duì)前后數(shù)據(jù)信息的關(guān)聯(lián)卷積可以保證信息的順暢性,進(jìn)而更好判斷出標(biāo)簽種類,發(fā)現(xiàn)隱藏向量與關(guān)聯(lián)字詞之間的特征關(guān)系,提高信息提取的準(zhǔn)確性[12]。式(3)為矩陣運(yùn)行公式。
(3)
式(3)中,o為關(guān)聯(lián)的單詞數(shù)量,C.k表示模型的卷積核,n為過濾器的個(gè)數(shù),M(s,v)為卷積核經(jīng)過卷積后的結(jié)果,Concate為連接首尾向量的結(jié)果,Di為第i個(gè)標(biāo)簽的矩陣,融合自注意力和多元卷積的模型機(jī)制可以實(shí)現(xiàn)對(duì)信息序列進(jìn)行標(biāo)簽化分類和卷積操作,進(jìn)而實(shí)現(xiàn)對(duì)信息特征的提取。
對(duì)于中文命名實(shí)體中的判斷識(shí)別需要運(yùn)用評(píng)價(jià)指標(biāo)對(duì)其進(jìn)行定量分析,包括準(zhǔn)確率、召回率和F值,F(xiàn)值的計(jì)算公式如式(4)所示。
(4)
式(4)中,P,R分別代表準(zhǔn)確率和召回率。
為了驗(yàn)證采取的模型對(duì)中文命名實(shí)體關(guān)系提取的有效性,分別將其與卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network, CNN)、雙向遞歸神經(jīng)網(wǎng)絡(luò) (Bi-directional recurrent Neural Net-work,BRVV)、雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型(Bi-directional Longshort-term Memory,BiLSTM)進(jìn)行對(duì)比實(shí)驗(yàn)方法,皆采用同樣的詞向量和位置向量作為模型的輸入,以PR曲線(Rrecision-Recall曲線)對(duì)不同模型在處理中文命名實(shí)體的效果進(jìn)行分析[13-14]。PR曲線能夠綜合考慮模型的準(zhǔn)確率和召回率,可以反映出模型在對(duì)中文信息的特征提取時(shí)的精準(zhǔn)變化[15]。結(jié)果如圖3所示。
圖3(a)中,混合模型和BLSTM模型的PR曲線相較于BRNN模型和CNN模型更靠近右下角,而從數(shù)值來看的話,BRNN模型、BLSTM模型和CNN模型的準(zhǔn)確率分別為86.12%,87.54%和79.14%,混合模型的PR曲線在對(duì)數(shù)據(jù)信息的提取上的準(zhǔn)確率為93.67%,有效減少了中文詞意中的一詞多義帶來的信息提取困難。圖3(b)對(duì)任務(wù)的訓(xùn)練機(jī)制是通過辨別中文命名信息的關(guān)鍵部分,持續(xù)迭代,直到其能夠?qū)崿F(xiàn)對(duì)信息的正確提取。數(shù)據(jù)表明混合模型在訓(xùn)練樣本達(dá)到50次時(shí),其運(yùn)行的狀態(tài)已經(jīng)趨于平穩(wěn),變化幅度較之其他模型在次數(shù)為50次則波動(dòng)較小,且混合模型在數(shù)據(jù)集中的F值為84.23。上述結(jié)果表明自注意力機(jī)制能夠較好考慮到句子序列中字詞之間的關(guān)聯(lián)性,穩(wěn)定性較好,也有效避免了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中固定卷積核對(duì)句子序列中信息提取的限制問題。
表1中,混合模式在進(jìn)行實(shí)詞替換后和偏旁部首干擾后,對(duì)數(shù)據(jù)信息提取的準(zhǔn)確率和召回來都有所提高,即對(duì)主語(yǔ)、賓語(yǔ)進(jìn)行替換后對(duì)其在分詞、斷句和釋意方面的F1 值達(dá)到了86.56,89.28和90.36。而偏旁部首的干擾也使得融合模式提取信息時(shí)的分詞、斷句的漲幅達(dá)到了12.3%,22.4%。偏旁部首的加入能夠擴(kuò)大對(duì)數(shù)據(jù)信息檢索的范圍,對(duì)于部分缺少數(shù)據(jù)集的語(yǔ)料庫(kù)具有較好的豐富和補(bǔ)充作用,為提取地名、人名等信息的識(shí)別準(zhǔn)確率和召回率具有一定的優(yōu)勢(shì)。在加入位置后的多元卷積與原有的卷積神經(jīng)網(wǎng)絡(luò)相比,其準(zhǔn)確率和召回率都有所上升,表明其對(duì)于每個(gè)實(shí)詞和虛詞在整個(gè)句子中權(quán)重值能有較好的評(píng)估。
表1 不同模型對(duì)句子信息的提取能力比較
中文命名實(shí)體的識(shí)別常會(huì)受到詞性的嵌入以及自注意力層數(shù)的影響,進(jìn)而對(duì)模型在提取信息的準(zhǔn)確率方面造成干擾,其結(jié)果如圖4所示。
圖4(a)中,隨著自注意力層數(shù)的增加,混合模型對(duì)信息的提取精確率都呈現(xiàn)出上漲的趨勢(shì),而在層數(shù)達(dá)到第六層時(shí),模型的準(zhǔn)確率和召回率都逐漸趨于平穩(wěn)態(tài)勢(shì),表明自注意力編碼的層數(shù)對(duì)提取特征信息能力具有較好的積極影響效果。圖4(b)中,鍵入和查詢的向量為192維度時(shí),嵌入字的維度為由64維增加至256維時(shí),模型對(duì)信息提取的準(zhǔn)確率增幅達(dá)到了12.13%,召回率也有明顯的提升。但當(dāng)鍵入和查詢向量的增加1/2時(shí),其嵌入維度的變化對(duì)模型的檢測(cè)結(jié)果沒有較為明顯的影響,即對(duì)每個(gè)字的注意力分值沒有明顯的波動(dòng),表明模型在維度為192維時(shí),對(duì)信息的提取已經(jīng)具有較好的效果。同時(shí)對(duì)融合模型下不同測(cè)試集下的應(yīng)用效果進(jìn)行分析,結(jié)果如表2所示。
表2 混合模型下不同測(cè)試集所對(duì)應(yīng)的F值變化
由表2可知,數(shù)據(jù)集的變化使得模型在識(shí)別任務(wù)中F值也隨之變化,加入字詞嵌入和編碼拼接后的模型在F值變化數(shù)據(jù)較快,且在后期的收斂速度更快。拼接模型在數(shù)據(jù)集為13個(gè)時(shí),F(xiàn)值達(dá)到了85.83,但其抖動(dòng)程度較為明顯,在模型收斂時(shí)具有較大的起伏。字詞嵌入的模型在數(shù)據(jù)集為20個(gè)之后基本趨于平穩(wěn),且其F1值始終維持在85.52左右,與未經(jīng)過聯(lián)合學(xué)習(xí)的模型相似,表明中文分詞的聯(lián)合學(xué)習(xí)更大可能作用在字編碼階段。
探究融合完全自注意力和多元卷積網(wǎng)絡(luò)下的中文命名實(shí)體識(shí)別模型對(duì)信息提取的準(zhǔn)確率和結(jié)構(gòu)化方面具有重要的影響。結(jié)果表明,混合模型的準(zhǔn)確率(93.67%)都明顯優(yōu)于BRNN模型(86.12%),kBLSTM模型(87.54%)和CNN模型(79.14%)的準(zhǔn)確率,且其在訓(xùn)練樣本數(shù)量增加后,混合模型的整體運(yùn)行狀態(tài)較為平穩(wěn),其F值達(dá)到了84.23,受實(shí)詞替換和偏旁部首干擾的影響較小,在對(duì)分詞信息的提取上實(shí)現(xiàn)了12.3%的漲幅。相同詞性的不同主語(yǔ)進(jìn)行替換之后,混合模型對(duì)分解語(yǔ)段和掌握語(yǔ)意方面的準(zhǔn)確率達(dá)到了90.78和91.77。當(dāng)嵌入字的維度達(dá)到了192維時(shí),模型已經(jīng)能夠?qū)π畔⒌奶崛【哂休^好的應(yīng)用效果,準(zhǔn)確率提高了12.13%。
佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年5期