国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合深度學(xué)習(xí)與規(guī)則的民族工藝品領(lǐng)域命名實(shí)體識(shí)別*

2020-04-09 07:52王海寧周菊香徐天偉
關(guān)鍵詞:工藝品域名實(shí)體

王海寧, 周菊香, 徐天偉

(云南師范大學(xué) 民族教育信息化教育部重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

1 引 言

通過研究一個(gè)民族的工藝品,可以快速了解該民族的生活習(xí)慣、民族風(fēng)情等;許多特色民族工藝品還可以增加當(dāng)?shù)厝说氖杖?、提高人們的生活質(zhì)量.隨著社會(huì)現(xiàn)代化的快速進(jìn)行,許多民族工藝品失去了原有的應(yīng)用價(jià)值,逐漸淡出人們的視線,但其所蘊(yùn)含的文化與歷史價(jià)值獨(dú)一無二,依然需要人們的保護(hù)和傳承.

隨著網(wǎng)絡(luò)信息化的發(fā)展,與民族相關(guān)的網(wǎng)站逐漸增多,此類網(wǎng)站一般都有介紹民族工藝品的專欄,將以前隱藏于民間的民族工藝品展現(xiàn)于網(wǎng)絡(luò),但由于網(wǎng)頁呈現(xiàn)的文本類資源結(jié)構(gòu)化低,可利用和傳播性較差,構(gòu)建民族文化資源知識(shí)圖譜是有效保存和傳播民族文化的有效手段.在知識(shí)圖譜的構(gòu)建過程中,從大量不同來源的非結(jié)構(gòu)化網(wǎng)絡(luò)文本資源中自動(dòng)提取民族相關(guān)實(shí)體是最為重要的基礎(chǔ)工作之一.

命名實(shí)體識(shí)別[1](Named Entity Recognition,NER)是信息抽取的任務(wù)之一,旨在識(shí)別并自動(dòng)標(biāo)記文本中特定實(shí)體,在知識(shí)圖譜、智能問答等領(lǐng)域發(fā)揮重要作用.目前基于神經(jīng)網(wǎng)絡(luò)的民族工藝品實(shí)體識(shí)別研究尚處在起步階段,研究面臨的主要問題有:(1)當(dāng)前暫無公開的民族工藝品數(shù)據(jù)集,數(shù)據(jù)集的規(guī)模及實(shí)體標(biāo)注的質(zhì)量會(huì)影響命名實(shí)體識(shí)別的效果.(2)由于一些少數(shù)民族使用不同民族語言,對于同一工藝品,可能有不同的名稱.如“哈達(dá)”,藏族稱為“卡達(dá)爾”,蒙古族稱為“哈達(dá)噶”.民族工藝品名稱的復(fù)雜性帶來大量未登錄詞,難以構(gòu)建一個(gè)全面和完善的詞庫.(3)傳統(tǒng)詞向量無法解決多義詞問題,比如民族工藝品中佤族的“牛頭”與常識(shí)中“牛頭”代表不同的實(shí)體,而傳統(tǒng)詞向量會(huì)將不同的“牛頭”映射為同一向量,與客觀事實(shí)不符.(4)大量民族工藝品實(shí)體由不同類別實(shí)體嵌套組成,系統(tǒng)容易預(yù)測出錯(cuò).

目前,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法逐漸取代基于詞典和規(guī)則、基于傳統(tǒng)機(jī)器學(xué)習(xí)算法等方法,多以RNN-CRF序列標(biāo)注模型為基礎(chǔ)的改進(jìn),并在不同領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中取得了更好的效果.Huang等人[2]首次將手工拼寫特征和詞向量的拼接向量輸入到BiLSTM-CRF模型,在CON-LL2003數(shù)據(jù)集F1值為90.10%.Rei等人[3]加入注意力機(jī)制將字符向量和詞向量加權(quán)求和作為輸入特征.Zhang等人[4]將提出Lattice LSTM代替?zhèn)鹘y(tǒng)的LSTM,將詞信息加入基于字向量的模型中,在MSRA中文數(shù)據(jù)集的F1值為93.18%.以上命名實(shí)體識(shí)別方法為基于固定的詞向量的輸入特征,無法解決多義詞問題.為了解決多義詞問題,Jacob 等人使用BERT(Bidirectional Encoder Representations from Transformers)[5]預(yù)訓(xùn)練語言模型在命名實(shí)體識(shí)別任務(wù)取得了最好的效果,其將CON-LL2003數(shù)據(jù)集F1值提升至96.6%,極大地提高了在此數(shù)據(jù)集上的成績.楊飄等人[6]使用BERT預(yù)訓(xùn)練語言模型增強(qiáng)字的語義表示,將動(dòng)態(tài)生成的字向量序列輸入到BiGRU-CRF模型,用以提高中文命名實(shí)體的識(shí)別效果,在MSRA中文數(shù)據(jù)集上F1值為95.43%.上述方法證明加入BERT預(yù)訓(xùn)練語言模型代替?zhèn)鹘y(tǒng)詞向量可以顯著提升命名實(shí)體識(shí)別效果.在特定領(lǐng)域方面,張應(yīng)成等人[7]提出使用BiLSTM-CRF深度學(xué)習(xí)模型提取招標(biāo)人、招標(biāo)代理和招標(biāo)編號(hào)三個(gè)實(shí)體,并證明效果優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型.禤鎮(zhèn)宇等人[8]提出把多特征(字向量、邊界向量、用字向量)輸入到BiLSTM-CRF模型,提取影評之中的人名.何陽宇等人[9]針對老撾語的軍事領(lǐng)域命名實(shí)體識(shí)別任務(wù),提出用CRF(Conditional Random Fields)與規(guī)則相結(jié)合的方法,實(shí)驗(yàn)證明加入領(lǐng)域規(guī)則后可以顯著的提升軍事領(lǐng)域?qū)嶓w識(shí)別效果.

綜合以上相關(guān)工作,本文針對民族工藝品領(lǐng)域?qū)嶓w提取任務(wù),在傳統(tǒng)的BiLSTM-CRF模型的基礎(chǔ)上加入BERT預(yù)訓(xùn)練語言模型,構(gòu)建BERT-BiLSTM-CRF模型,保證實(shí)體識(shí)別取得較好的效果,同時(shí)又避免構(gòu)造復(fù)雜的特征工程.另外針對民族工藝品領(lǐng)域特點(diǎn)制定了相應(yīng)的規(guī)則,對模型的輸出結(jié)果進(jìn)行優(yōu)化調(diào)整,使預(yù)測效果進(jìn)一步提升.

2 BERT-BiLSTM-CRF模型

BERT-BiLSTM-CRF模型整體結(jié)構(gòu)如圖1所示,主要由三部分組成:BERT預(yù)訓(xùn)練語言模型層、BiLSTM層和CRF層.其訓(xùn)練過程主要如下:(1)將文本預(yù)處理后輸入到BERT預(yù)訓(xùn)練語言模型中獲取字向量序列.(2)將字向量序列輸入到BiLSTM模型進(jìn)一步提取語義特征.(3)加入CRF層中預(yù)測概率值最大的標(biāo)簽序列.

圖1 BERT-BiLSTM-CRF模型

2.1 BERT預(yù)訓(xùn)練語言模型

BERT訓(xùn)練包括兩個(gè)部分:Pre-training和Fine-tuning.Pre-training為雙向語言特征提取模型的訓(xùn)練.Fine-tuning為根據(jù)不同的自然語言處理任務(wù)對模型微調(diào)訓(xùn)練.BERT的預(yù)訓(xùn)練語言模型結(jié)構(gòu)如圖2所示.

圖2 BERT預(yù)訓(xùn)練語言模型

Pre-training部分采用了以下兩個(gè)無監(jiān)督訓(xùn)練任務(wù).(1)為了訓(xùn)練深度雙向語言表示向量,采用了“Masked LM”方法.即隨機(jī)掩蓋句子中15%的單詞,然后訓(xùn)練模型預(yù)測這些單詞.(2)為了使模型獲得理解句子關(guān)系的能力,提出了“預(yù)測下一個(gè)句子”的訓(xùn)練任務(wù).在為每個(gè)訓(xùn)練樣本選擇句子A和B時(shí),50%的訓(xùn)練樣本中句子B是語料庫中句子A之后的句子,另外50%訓(xùn)練樣本中句子B是語料庫中隨機(jī)的句子,然后訓(xùn)練模型預(yù)測句子B是否為句子A的下一句.

BERT使用雙向Transformer[10]提取自然語言特征.Transformer使用Attention機(jī)制實(shí)現(xiàn)不同層級(jí)間的信息傳遞,并行處理,提高運(yùn)行速度和準(zhǔn)確度.Transformer的編碼單元如圖3所示.

圖3 Transformer編碼單元

Transformer每個(gè)編碼器由自注意力層和前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成.一個(gè)編碼器接受向量表作為輸入,將向量表中的向量傳遞到自注意力層處理后遞到前饋神經(jīng)網(wǎng)絡(luò)處理,然后傳遞給下一個(gè)編碼器.其中自注意力層如公式(1)所示.其中Q為查詢矩陣,K為鍵矩陣,V為值矩陣,dk為輸入向量的維數(shù).

(1)

Transformer使用“多頭”注意力機(jī)制完善注意力機(jī)制,擴(kuò)展了模型專注于不同位置的能力,使注意力層有多個(gè)“表示子空間”,如公式(2)、(3)所示:

MultiHead(Q,K,V)=Concat(head1,...,headh)

(2)

(3)

前饋神經(jīng)網(wǎng)絡(luò)如公式(4)所示:

FFN(x)=max(0,xW1+b1)W2+b2

(4)

2.2 BiLSTM

循環(huán)神經(jīng)網(wǎng)絡(luò)[11](Recurrent Neural Network,RNN)模型常用于解決序列標(biāo)注問題,能夠?qū)㈤L時(shí)間的歷史信息作為預(yù)測當(dāng)前信息的指標(biāo),但可能伴隨著梯度消失與梯度爆炸的問題.長短期記憶網(wǎng)絡(luò)(Long Short-Term Meory,LSTM)為RNN的一個(gè)變種模型,有效地解決了這個(gè)問題.LSTM通過遺忘門、輸入門、輸出門等結(jié)構(gòu),遺忘次要的信息,保留重要的信息,記憶新的信息,從而使信息有效的傳遞.LSTM如公式(5)-(10)所示.

ft=σ(Wf.[ht-1,xt]+bf)

(5)

it=σ(Wi.[ht-1,xt]+bi)

(6)

(7)

(8)

ot=σ(Wo.[ht-1,xt]+bo)

(9)

ht=ot?tanh(ct)

(10)

由于LSTM只能獲取歷史信息,而判斷一個(gè)字的標(biāo)簽,不僅要依據(jù)上文還要關(guān)聯(lián)下文,所以使用雙向長短期記憶網(wǎng)絡(luò)[12](Bi-directional Long Short-Term Memory,BiLSTM)模型代替LSTM模型.BiLSTM模型由前向LSTM與后向LSTM構(gòu)成,輸出由兩者的輸出向量拼接而成,能充分利用上下文信息,自動(dòng)提取句子特征.

2.3 CRF

條件隨機(jī)場是給定一組隨機(jī)變量條件下另一組輸出隨機(jī)變量的條件概率分布模型[13].傳統(tǒng)序列標(biāo)注模型常使用softmax函數(shù)預(yù)測標(biāo)簽,預(yù)測的標(biāo)簽之間相互獨(dú)立,不能利用上下文信息,而實(shí)際預(yù)測時(shí)需要處理標(biāo)簽的上下文關(guān)系,如“I-CRA”標(biāo)簽前不能為“B-LOC”.CRF能夠考慮標(biāo)簽之間的關(guān)系來獲取全局最優(yōu)標(biāo)簽序列,充分利用句子級(jí)別的標(biāo)簽信息,使實(shí)體抽取結(jié)果更加準(zhǔn)確.

CRF對x=(x1,x2,…,xn)序列和其對應(yīng)的標(biāo)簽序列y=(y1,y2,…,yn)的評估分?jǐn)?shù)如公式(11)所示:

(11)

其中M為狀態(tài)轉(zhuǎn)移矩陣,Mi,j表示每個(gè)元素從i變化到j(luò)的概率.Pi,yi表示第i個(gè)字符對應(yīng)第yi標(biāo)簽的分?jǐn)?shù).

x序列的標(biāo)注序列為y的概率如公式(12)所示:

(12)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

通用領(lǐng)域的命名實(shí)體識(shí)別一般指識(shí)別人名、地名和機(jī)構(gòu)名等三類名詞.經(jīng)過篩選查閱來自網(wǎng)絡(luò)、書籍的介紹民族工藝品的文章幾乎都包含三類實(shí)體:民族工藝品名、民族名、地域名,所以本文將主要識(shí)別這三類實(shí)體.本文的所識(shí)別民族工藝品主要指具有民族特色的陶器、青銅器、工藝、生活用具、傳統(tǒng)技藝等名稱.地域名所指民族工藝品的主要分布地區(qū),如省、市、縣、鎮(zhèn)、村、寨、地區(qū)等,另外因某些珍貴民族工藝品保存在博物館中,所以將博物館名也歸到地域名.民族名指民族工藝品所屬的民族名,包括五十六個(gè)民族名、民族自稱、民族史稱等.

本文所用獲取的語料主要來自民族網(wǎng)、云南民族網(wǎng)等網(wǎng)站以及《少數(shù)民族大辭典》[14]系列書籍.經(jīng)過去重、去無意義字符等文本預(yù)處理,共獲得有效句子6 428條,約30萬字符.采用BIO標(biāo)注方式對數(shù)據(jù)中的民族工藝品名稱、民族名、地域名三類實(shí)體標(biāo)注.具體為:“O”標(biāo)注非實(shí)體;“B-CRA”“I-CRA”標(biāo)注民族工藝品名的首字和非首字;“B-NAT”“I-NAT”標(biāo)注民族名的首字和非首字、“B-LOC”“I-LOC”標(biāo)注地域名的首字和非首字.標(biāo)注樣本如表1所示.

表1民族工藝品數(shù)據(jù)集標(biāo)注樣本

Table1Labelsamplesofethnichandicraftdataset

白族傳統(tǒng)扎染B-NATI-NATOOB-CRAI-CRA成為了周城村OOOB-LOCI-LOCI-LOC的產(chǎn)業(yè)優(yōu)勢.OOOOOO

將標(biāo)注完成的數(shù)據(jù)集按照7.5∶1∶1.5的比例分為訓(xùn)練集、驗(yàn)證集和測試集.每個(gè)數(shù)據(jù)集的詳細(xì)信息如表2所示,其中測試集括號(hào)中的數(shù)字為對應(yīng)實(shí)體的未登錄詞(未在訓(xùn)練集中出現(xiàn)的詞)的數(shù)量,總未登錄詞數(shù)量約為測試集總標(biāo)注詞的35%.

表2 民族工藝品數(shù)據(jù)集信息

另外,為了驗(yàn)證BERT-BiLSTM-CRF模型的可移植性,本文選用MSRA公開中文命名數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn),MSRA數(shù)據(jù)集包括人名、地名、機(jī)構(gòu)名等三類通用實(shí)體,同樣為BIO標(biāo)注模式.

3.2 評測指標(biāo)

預(yù)測結(jié)果中每個(gè)實(shí)體的首字與非首字與測試集的對應(yīng)實(shí)體的標(biāo)注完全正確匹配則判定該實(shí)體識(shí)別正確.實(shí)驗(yàn)采用的評價(jià)指標(biāo)為準(zhǔn)確率(P)、召回率(R)和F1值.如公式(13)-(15)所示.其中Np表示模型識(shí)別的正確實(shí)體個(gè)數(shù),NF表示模型識(shí)別的實(shí)體總個(gè)數(shù),NA表示測試集中所有的實(shí)體個(gè)數(shù).

(13)

(14)

(15)

3.3 實(shí)驗(yàn)設(shè)置

通過實(shí)驗(yàn)證明,在民族工藝品數(shù)據(jù)集上,不同模型取得其最高F1值所設(shè)置的參數(shù)都有所不同.其中BERT-BiLSTM-CRF模型取得最高F1值時(shí)的參數(shù)配置如下:lstm_size為128,max_seq_length為128,batch_size為32, learning_rate為5e-5,dropout_rate為0.5,clip為0.5,warmup_proportion為0.1,num_train_epoch為12.

所有實(shí)驗(yàn)環(huán)境如表3所示.

表3 實(shí)驗(yàn)環(huán)境

3.4 實(shí)驗(yàn)結(jié)果

本文首先在MSRA中文通用命名實(shí)體識(shí)別數(shù)據(jù)集上實(shí)驗(yàn),將BERT-BiLSTM-CRF模型與其他相關(guān)模型進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表4所示.

表4MSRA數(shù)據(jù)集的各模型結(jié)果

Table4ResultsofeachmodeloftheMSRAdataset

模型P/%R/%F1/%BiLSTM-CRF89.4587.5288.47Lattice-LSTM-CRF93.5792.7993.18BERT-BiGRU-CRF95.3195.5495.43BERT-BiLSTM-CRF95.7395.3495.53

在MSRA數(shù)據(jù)集上,BERT-BiLSTM-CRF模型取得最高的F1值95.53%,比基于傳統(tǒng)詞向量的BiLSTM-CRF模型F1值提高7.06%,比Lattic-LSTM-CRF模型相比F1值提高2.35%.說明使用BERT預(yù)訓(xùn)練語言模型比傳統(tǒng)的詞向量或字詞融合特征更好地提取語義特征.與BERT-BiGRU-CRF模型相比,主要區(qū)別將GRU[15](Gated Recurrent Unit)模型使用LSTM代替.GRU與LSTM比較,結(jié)構(gòu)簡單、參數(shù)少,需要根據(jù)具體任務(wù)在二者中進(jìn)行選擇效果更優(yōu)者,在此數(shù)據(jù)集二模型結(jié)果相近.通過此實(shí)驗(yàn)說明了BERT-BiLSTM-CRF模型在公共數(shù)據(jù)集上可取得較高的成績,證明模型具有較好的可移植性.

在民族工藝品數(shù)據(jù)集上,使用基于BERT預(yù)訓(xùn)練語言模型的各模型識(shí)別結(jié)果如表5所示.

表5民族工藝品數(shù)據(jù)集各模型的結(jié)果

Table5Resultsofeachmodeloftheethniccraftsdataset

模型P/%R/%F1/%BiLSTM-CRF88.2078.0182.79BERT-CRF92.1588.2090.13BERT-BiGRU-CRF91.4289.8290.61BERT-BiLSTM-CRF92.9889.3991.15

其中BERT-BiLSTM-CRF模型在民族工藝品數(shù)據(jù)集上取得了最高的F1值91.31%,比傳統(tǒng)基于詞向量的BiLSTM-CRF模型提高了8.52%,證明了加入BERT預(yù)訓(xùn)練語言模型能夠顯著提升在此數(shù)據(jù)集的識(shí)別效果,如在測試集中“熱貢唐卡藝術(shù)聲名鵲起”,BERT-BiLSTM-CRF模型能夠正確識(shí)別民族工藝品名稱“熱貢唐卡”,而BiLSTM-CRF將其錯(cuò)誤識(shí)別為“貢唐卡”.與BERT-CRF模型、BERT-BiGRU-CRF模型對比F1值略高.此模型詳細(xì)的民族工藝品名、民族名、地域名三類實(shí)體的準(zhǔn)確率、召回率、F1值如表6所示.

表6BERT-BiLSTM-CRF模型實(shí)體識(shí)別結(jié)果

Table6BERT-BiLSTM-CRFmodelentityrecognitionresults

實(shí)體類別P/%R/%F1/%民族工藝品名91.3587.7389.50民族名97.5194.7696.11地域名93.2389.2191.18

其中民族工藝品名的F1值偏低,分析原因?yàn)槊褡骞に嚻访写嬖谳^多地域名、民族名嵌套,如“大姚彝繡”,系統(tǒng)將其判斷為地域名“大姚”和工藝品名“彝繡”兩個(gè)實(shí)體 ,此類嵌套實(shí)體預(yù)測錯(cuò)誤會(huì)相應(yīng)地影響民族名、地域名的識(shí)別效果.另外對于三類實(shí)體錯(cuò)誤主要集中在未登錄詞,尤其民族工藝品測試集中未登錄詞的比例較高,約為40%,由于訓(xùn)練集的規(guī)模較小,如果沒有完善的上下文信息則不能推斷出部分未登錄詞.

3.5 加入規(guī)則改進(jìn)預(yù)測結(jié)果

為了優(yōu)化民族工藝品領(lǐng)域?qū)嶓w識(shí)別效果,針對民族語料的特點(diǎn)定制相應(yīng)規(guī)則對BERT-BiLSTM-CRF模型的初步預(yù)測結(jié)果進(jìn)行調(diào)整.具體調(diào)整規(guī)則如下:

(1)對民族工藝品名稱:大量民族工藝品名稱由不同實(shí)體嵌套組合而成.設(shè)定規(guī)則當(dāng)預(yù)測結(jié)果中的民族工藝品名前緊鄰出現(xiàn)地域名或民族名時(shí),則將其共同判為一個(gè)民族工藝品實(shí)體.另外利用某些標(biāo)點(diǎn)符號(hào)對民族工藝品名邊界進(jìn)行劃分,如在引號(hào)中出現(xiàn)民族工藝實(shí)體,則符號(hào)內(nèi)所有字符判斷為一個(gè)民族工藝品實(shí)體.

(2)對地域名:民族語料中存在大量多級(jí)地名,如“呂江七叉鎮(zhèn)機(jī)構(gòu)村”.模型將其預(yù)測為“B-LOC I-LOC|B-LOC I-LOC I-LOC|O O O”,漏掉了“機(jī)構(gòu)村”.按照我國行政區(qū)劃級(jí)別設(shè)定規(guī)則,如“省市縣鄉(xiāng)鎮(zhèn)村”,當(dāng)檢測地名則在相鄰文本向前匹配高級(jí)別地名或向后匹配低級(jí)別地名.

(3)對民族名:民族名后常跟“族、胞、家、文、語、女”等文字.如“漢字”“瑤女”“藏文”等,因此可以在這些關(guān)鍵字相鄰文本中向前匹配是否存在民族名.

另外對所有的BERT-BiLSTM-CRF模型預(yù)測結(jié)果調(diào)整,如去除對標(biāo)點(diǎn)符號(hào)的預(yù)測、“I”標(biāo)記開頭的錯(cuò)誤預(yù)測等.

將各模型加入規(guī)則后識(shí)別結(jié)果如表7所示,其中效果最佳的BERT-BiLSTM-CRF 的詳細(xì)結(jié)果如表8所示.

表7各模型加入規(guī)則后實(shí)體識(shí)別結(jié)果

Table7Entityrecognitionresultsafteraddingrulestoeachmodel

實(shí)體類別P/%R/%F1/%BiLSTM-CRF89.6879.2484.14BERT-CRF93.5788.7791.11BERT-BiGRU-CRF92.8690.3291.57BERT-BiLSTM-CRF95.4390.8893.10

表7中可以看出,加入領(lǐng)域規(guī)則后,不同模型的F1值都有提升,其中BERT-BiLSTM-CRF模型加入規(guī)則后依然取得最好效果,其詳細(xì)結(jié)果如表8所示.

表8BERT-BiLSTM-CRF模型加入規(guī)則后的實(shí)體識(shí)別結(jié)果

Table8EntityrecognitionresultsafteraddingrulestotheBERT-BiLSTM-CRFmodel

實(shí)體類別P/%R/%F1/%民族工藝品名95.2689.6392.36民族名97.9395.5696.73地域名94.2290.3692.25

由表8可以看出對BERT-BiLSTM-CRF模型的預(yù)測結(jié)果加入規(guī)則處理后三類實(shí)體的識(shí)別效果都有不同程度的提升.其中民族工藝品名最明顯,F(xiàn)1值提高約為3%.由此證明了加入規(guī)則在一定程度上可以對BERT-BiLSTM-CRF模型的預(yù)測結(jié)果進(jìn)行優(yōu)化,可以糾正模型初步預(yù)測的部分錯(cuò)例.

4 結(jié)束語

對構(gòu)建民族文化資源知識(shí)圖譜工作做出初步探索,選取民族工藝品命名實(shí)體識(shí)別任務(wù),提出融合BERT-BiLSTM-CRF模型與規(guī)則的工藝品命名實(shí)體識(shí)別方法,實(shí)驗(yàn)證明該方法可以有效提取民族文本中的民族工藝品相關(guān)實(shí)體.

猜你喜歡
工藝品域名實(shí)體
藝術(shù)工藝品欣賞
3D掃描和3D打印技術(shù)在工藝品開發(fā)中的應(yīng)用
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
華安玉工藝品雕刻
Combosquatting域名搶注的測量研究
如何購買WordPress網(wǎng)站域名及綁定域名
木雕工藝品如何保養(yǎng)
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
广河县| 墨脱县| 桃园市| 清河县| 蓝山县| 塔河县| 名山县| 师宗县| 汉沽区| 大冶市| 隆安县| 深水埗区| 陈巴尔虎旗| 简阳市| 务川| 宣汉县| 台东县| 广河县| 庄浪县| 九寨沟县| 江永县| 鞍山市| 共和县| 珠海市| 远安县| 山东| 福安市| 榕江县| 乌拉特前旗| 宜宾县| 大宁县| 通山县| 台南县| 崇明县| 钦州市| 柯坪县| 永吉县| 鄂托克旗| 通州市| 兰西县| 皮山县|