韓玉民,郝曉燕
基于子詞嵌入和相對(duì)注意力的材料實(shí)體識(shí)別
韓玉民,郝曉燕*
(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,太原 030600)(*通信作者電子郵箱haoxiaoyan@tyut.edu.cn)
準(zhǔn)確識(shí)別命名實(shí)體有助于構(gòu)建專業(yè)知識(shí)圖譜、問答系統(tǒng)等。基于深度學(xué)習(xí)的命名實(shí)體識(shí)別(NER)技術(shù)已廣泛應(yīng)用于多種專業(yè)領(lǐng)域,然而面向材料領(lǐng)域的NER研究相對(duì)較少。針對(duì)材料領(lǐng)域NER中可用于監(jiān)督學(xué)習(xí)的數(shù)據(jù)集規(guī)模小、實(shí)體詞復(fù)雜度高等問題,使用大規(guī)模非結(jié)構(gòu)化的材料領(lǐng)域文獻(xiàn)數(shù)據(jù)來訓(xùn)練基于一元語言模型(ULM)的子詞嵌入分詞模型,并充分利用單詞結(jié)構(gòu)蘊(yùn)含的信息來增強(qiáng)模型魯棒性;提出以BiLSTM-CRF模型(雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)結(jié)合的模型)為基礎(chǔ)并結(jié)合能夠感知方向和距離的相對(duì)多頭注意力機(jī)制(RMHA)的實(shí)體識(shí)別模型,以提高對(duì)關(guān)鍵詞的敏感程度。得到的BiLSTM-RMHA-CRF模型結(jié)合ULM子詞嵌入方法,相比BiLSTM-CNNs-CRF和SciBERT等模型,在固體氧化物燃料電池(SOFC)NER數(shù)據(jù)集上的宏平均F1值(Macro F1值)提高了2~4個(gè)百分點(diǎn),在SOFC細(xì)粒度實(shí)體識(shí)別數(shù)據(jù)集上的Macro F1值提高了3~8個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,基于子詞嵌入和相對(duì)注意力的識(shí)別模型能夠有效提高材料領(lǐng)域?qū)嶓w的識(shí)別準(zhǔn)確率。
命名實(shí)體識(shí)別;子詞嵌入;相對(duì)注意力;深度學(xué)習(xí);材料領(lǐng)域
命名實(shí)體識(shí)別(Named Entity Recognition, NER)的目標(biāo)是在非結(jié)構(gòu)化的文本中按照預(yù)先定義的類別信息,提取并分類出具有特定意義的命名實(shí)體信息,如人名、機(jī)構(gòu)、地點(diǎn)等。NER技術(shù)可以用于如知識(shí)圖譜構(gòu)建、問答系統(tǒng)、機(jī)器翻譯等自然語言處理(Natural Language Processing , NLP)任務(wù)。專業(yè)領(lǐng)域的NER對(duì)于機(jī)器閱讀理解專業(yè)領(lǐng)域文獻(xiàn)和構(gòu)建專業(yè)知識(shí)圖譜具有重要作用,精準(zhǔn)地進(jìn)行專業(yè)領(lǐng)域的命名實(shí)體識(shí)別有助于減少科研工作量,提高查閱效率,并能夠輔助提高專業(yè)領(lǐng)域機(jī)器翻譯、自動(dòng)問答等上游NLP系統(tǒng)的水平。
近幾年對(duì)于命名實(shí)體識(shí)別的研究大多基于深度學(xué)習(xí),目前適用于命名實(shí)體識(shí)別的常用深度學(xué)習(xí)模型與方法有條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)[1]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[2]、長(zhǎng)短期記憶(Long-Short Term Memory, LSTM)神經(jīng)網(wǎng)絡(luò)[3]、門控循環(huán)單元(Gate Recurrent Unit, GRU)[4]以及自注意力機(jī)制[5]等。Ma等[6]結(jié)合雙向長(zhǎng)短期記憶(Bi-directional Long-Short Term Memory, BiLSTM)神經(jīng)網(wǎng)絡(luò)、CNN與CRF提出了端到端的序列標(biāo)注模型BiLSTM-CNNs-CRF,在CoNLL-2003數(shù)據(jù)集上取得了91.21%的F1值;Chiu等[7]提出使用BiLSTM和CNN編碼層進(jìn)行命名實(shí)體識(shí)別,在CoNLL-2003和OntoNotes數(shù)據(jù)集上的F1值分別達(dá)到了91.62%和86.28%;Liu等[8]提出使用LM-LSTM-CRF(Language Model+LSTM+CRF)模型將CoNLL-2003數(shù)據(jù)集的F1值提高到了91.71%;Dhrisya等[9]使用雙向GRU結(jié)合自注意力機(jī)制在OntoNotes細(xì)粒度實(shí)體識(shí)別任務(wù)上也取得了較好的結(jié)果。
通用領(lǐng)域命名實(shí)體識(shí)別的準(zhǔn)確率已達(dá)到較高水準(zhǔn),目前命名實(shí)體識(shí)別方向的研究大多基于專業(yè)領(lǐng)域。楊維等[10]提出基于CRF的命名實(shí)體識(shí)別算法,在電力服務(wù)數(shù)據(jù)集上具有較高準(zhǔn)確率;李博等[11]采用Transformer-CRF、張華麗等[12]采用BiLSTM-CRF模型對(duì)中文電子病歷進(jìn)行實(shí)體識(shí)別,能夠準(zhǔn)確識(shí)別癥狀、治療等五類實(shí)體;張心怡等[13]提出了聯(lián)合深度注意力網(wǎng)絡(luò),在煤礦領(lǐng)域命名實(shí)體識(shí)別精準(zhǔn)度和識(shí)別效率都有較大的提升;許力等[14]結(jié)合CNN、BiLSTM、圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolution Neural Network, GCNN),并融合詞向量和依存句法分析特征進(jìn)行生物醫(yī)學(xué)實(shí)體識(shí)別,在多個(gè)數(shù)據(jù)集上表現(xiàn)出色。
材料領(lǐng)域的自然語言處理研究相對(duì)貧乏,其中與本文研究相關(guān)的有:Mysore等[15-16]提出了自動(dòng)提取材料科學(xué)文獻(xiàn)結(jié)構(gòu)化信息的系統(tǒng),并且發(fā)布了大規(guī)模材料領(lǐng)域語料庫(kù); Mrdjenovich等[17]構(gòu)建了材料科學(xué)領(lǐng)域的知識(shí)圖譜propnet;Friedrich等[18]發(fā)布了固體氧化物燃料電池(Solid Oxide Fuel Cell, SOFC)命名實(shí)體識(shí)別數(shù)據(jù)集,并使用SciBERT(Scientific BERT)模型取得了81.5%的Macro F1值(宏平均F1值)。
識(shí)別未登錄詞(Out-Of-Vocabulary, OOV)是命名實(shí)體識(shí)別任務(wù)的關(guān)鍵,字符嵌入一般用于解決傳統(tǒng)詞嵌入,如word2vec,存在的OOV問題,同時(shí)還能反映出單詞字符序列蘊(yùn)含的形態(tài)學(xué)信息。Gajendran等[19]將詞表示和字符表示作為輸入,使用三重BiLSTM-DRNN模型進(jìn)行命名實(shí)體識(shí)別。Cho等[20]同時(shí)使用BiLSTM和CNN對(duì)單詞字符進(jìn)行編碼,得到字符嵌入并與詞嵌入向量結(jié)合作為模型輸入,在生物醫(yī)學(xué)命名實(shí)體識(shí)別中達(dá)到了較高水平。字符嵌入能夠有效提高命名實(shí)體識(shí)別模型的識(shí)別準(zhǔn)度,但缺點(diǎn)也較為明顯:1)需要額外的字符級(jí)編碼層;2)使用CNN作為編碼層時(shí)對(duì)相鄰字符的感受野相對(duì)固定,而使用BiLSTM編碼層又不能充分挖掘單詞詞綴之間的關(guān)聯(lián)信息。因此,本文考慮采用子詞嵌入代替字符嵌入,同時(shí)使用大規(guī)模材料領(lǐng)域數(shù)據(jù),對(duì)子詞劃分模型進(jìn)行預(yù)訓(xùn)練,將得到的子詞分詞結(jié)果再進(jìn)行詞向量訓(xùn)練,同word2vec結(jié)合作為命名實(shí)體識(shí)別模型的輸入。
自注意力機(jī)制常用于多種NLP任務(wù),命名實(shí)體識(shí)別中加入自注意力機(jī)制能夠提高模型的特征提取能力和上下文信息的關(guān)注程度;但Transformer結(jié)構(gòu)由于在注意力計(jì)算時(shí)使用了歸一化處理,且其位置編碼不具備方向性,在命名實(shí)體識(shí)別任務(wù)上的表現(xiàn)不佳[21]。本文采用相對(duì)多頭注意力機(jī)制代替?zhèn)鹘y(tǒng)的自注意力機(jī)制,作為命名實(shí)體識(shí)別模型的編碼層。
本文的主要工作包括:
1)使用大量非結(jié)構(gòu)化材料領(lǐng)域文獻(xiàn)數(shù)據(jù),訓(xùn)練基于一元語言模型(Unigram Language Model, ULM)的分詞模型,并進(jìn)一步訓(xùn)練出適用于材料領(lǐng)域數(shù)據(jù)的子詞嵌入用于材料領(lǐng)域命名實(shí)體識(shí)別任務(wù)。
2)在BiLSTM-CRF模型的基礎(chǔ)上,使用能夠感知單詞方向和距離的相對(duì)多頭注意力機(jī)制(Relative Multi-Head Attention, RMHA),以增強(qiáng)模型對(duì)關(guān)鍵詞的感知能力。
3)在SOFC數(shù)據(jù)集的命名實(shí)體識(shí)別和細(xì)粒度實(shí)體識(shí)別任務(wù)中,使用常用模型與BiLSTM-RMHA-CRF模型進(jìn)行多組對(duì)比實(shí)驗(yàn),驗(yàn)證ULM子詞嵌入和基于RMHA的深度學(xué)習(xí)模型有助于提高材料領(lǐng)域命名實(shí)體識(shí)別的精準(zhǔn)度。
使用BiLSTM-CRF模型結(jié)合RMHA對(duì)材料領(lǐng)域數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別,同時(shí)使用預(yù)訓(xùn)練詞嵌入和子詞嵌入提高模型對(duì)于未登錄詞問題的辨識(shí)能力,完整模型結(jié)構(gòu)見圖1。
圖1 BiLSTM-RMHA-CRF模型結(jié)構(gòu)
BiLSTM后接CRF解碼層是序列標(biāo)注任務(wù)的常用模型:BiLSTM通過整合前向和后向傳遞的信息,保證每個(gè)隱層都接收到來自其他隱層的信息;CRF解碼層可以通過狀態(tài)轉(zhuǎn)移矩陣來實(shí)現(xiàn)相鄰標(biāo)簽的約束。本文使用BiLSTM-CRF模型為基本實(shí)驗(yàn)?zāi)P?,在其基礎(chǔ)上加入U(xiǎn)LM子詞嵌入作為輸入,并進(jìn)一步使用基于相對(duì)位置編碼的相對(duì)多頭注意力機(jī)制作為材料領(lǐng)域命名實(shí)體識(shí)別模型的編碼層,以提高模型對(duì)于關(guān)鍵詞和相關(guān)實(shí)體的關(guān)注程度。
1.2.1 字符嵌入和子詞嵌入
材料領(lǐng)域數(shù)據(jù)集中存在大量單頻詞和低頻詞,傳統(tǒng)的詞向量表示方法,如word2vec[22],無法很好地處理專業(yè)名詞、化學(xué)式等未知或者罕見詞匯,導(dǎo)致其命名實(shí)體識(shí)別難度較高。目前常用CNN編碼層獲得單詞的字符級(jí)表示后,將其與預(yù)訓(xùn)練好的詞嵌入進(jìn)行組合參與訓(xùn)練。
子詞嵌入把單詞劃分為長(zhǎng)度不一的字符串后對(duì)其進(jìn)行向量表示,相較于字符表示蘊(yùn)含了更加豐富的形態(tài)信息,并可以使用大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練詞向量。BPEmb[23]利用字節(jié)對(duì)編碼(Byte Pair Encoding, BPE)數(shù)據(jù)壓縮算法構(gòu)建子詞詞表,使分詞粒度在單詞和字符之間,從而更高效率地解決未登錄問題。BPEmb劃分的子詞只能是單一結(jié)果,而且對(duì)于子詞序列的劃分結(jié)果沒有量化的評(píng)判標(biāo)準(zhǔn)[24]。
1.2.2 ULM子詞嵌入
相比BPEmb只能生成固定的子詞序列,ULM可以依據(jù)概率生成多種不同的分詞結(jié)果,同時(shí)還提出使用不同的分詞結(jié)果作為噪聲輸入,有利于提高模型魯棒性,ULM子詞嵌入詞表建立流程見圖2。
圖2 ULM子詞嵌入詞表建立流程
Fig. 2 Word list construction flow of ULM subword embedding
本文從網(wǎng)絡(luò)收集大量材料領(lǐng)域文獻(xiàn)數(shù)據(jù)用于ULM子詞分詞模型訓(xùn)練及詞向量訓(xùn)練。首先使用ULM模型分詞方法建立詞表,并對(duì)所有數(shù)據(jù)進(jìn)行分詞處理,使用概率最大的分詞結(jié)果訓(xùn)練詞向量。在后續(xù)命名實(shí)體識(shí)別的訓(xùn)練中,使用ULM子詞嵌入對(duì)訓(xùn)練數(shù)據(jù),取前3個(gè)分詞結(jié)果對(duì)輸入數(shù)據(jù)進(jìn)行向量表示,而對(duì)測(cè)試數(shù)據(jù)仍取概率最大的分詞結(jié)果。數(shù)據(jù)處理流程見圖3。
圖3 數(shù)據(jù)處理流程
1.3.1 自注意力
自注意力機(jī)制能夠有效提高模型對(duì)于關(guān)鍵詞的識(shí)別能力,基于多頭自注意力機(jī)制的Transformer編碼器已廣泛應(yīng)用于多種NLP任務(wù),其多頭注意力計(jì)算見式(5)~(7)。
1.3.2 相對(duì)多頭注意力
相對(duì)多頭注意力在多頭自注意力機(jī)制基礎(chǔ)上做出改進(jìn),使其能夠感知方向和距離特征,其注意力與相對(duì)位置編碼計(jì)算見式(10)~(13)。
同時(shí)多頭自注意力中的歸一化參數(shù)會(huì)導(dǎo)致模型注意力分布過于平滑,不利于命名實(shí)體識(shí)別任務(wù),因此相對(duì)多頭注意力還取消了歸一化因子,使注意力分布更加尖銳,更具區(qū)分度。
ULM子詞嵌入概率分詞模型和預(yù)訓(xùn)練子詞向量使用網(wǎng)絡(luò)采集的14萬條原始材料領(lǐng)域文獻(xiàn)數(shù)據(jù);命名實(shí)體識(shí)別實(shí)驗(yàn)采用SOFC命名實(shí)體識(shí)別數(shù)據(jù)集(以下簡(jiǎn)記為SOFC)和SOFC細(xì)粒度實(shí)體識(shí)別數(shù)據(jù)集(以下簡(jiǎn)記為SOFC Fine-grained),示例見圖4[18]。
SOFC包含MATERIAL、VALUE、DEVICE和EXPERIMENT四種類型的實(shí)體標(biāo)簽,采用BIO標(biāo)注方式。其中MATERIAL類除了材料名外還包括諸如“La0.75Sr0.25Cr0.5Mn0.5O3”的化學(xué)式;VALUE類包括實(shí)驗(yàn)參數(shù)的數(shù)值和范圍符號(hào),另外還包含描述程度的副詞,如“above 750℃”,進(jìn)一步提高了識(shí)別命名實(shí)體的復(fù)雜度;EXPERIMENT類為標(biāo)志實(shí)驗(yàn)行為的動(dòng)詞,數(shù)據(jù)集標(biāo)簽分布及標(biāo)簽樣例見表1。SOFC細(xì)粒度實(shí)體識(shí)別數(shù)據(jù)集將四類實(shí)體進(jìn)一步細(xì)分為19個(gè)子類別。具體實(shí)體類別見表2。
圖4 SOFC命名實(shí)體識(shí)別數(shù)據(jù)集樣例
該數(shù)據(jù)集相較于通用領(lǐng)域數(shù)據(jù)集,未登錄詞、單頻詞和低頻詞較多,實(shí)體形態(tài)復(fù)雜多樣;且不同于通用領(lǐng)域命名實(shí)體識(shí)別數(shù)據(jù)集中人名、地名、組織名等本身蘊(yùn)含的形態(tài)學(xué)信息較少,實(shí)體詞之間的關(guān)系模糊,材料領(lǐng)域數(shù)據(jù)集中的實(shí)體間存在較大的形態(tài)學(xué)關(guān)聯(lián)性,如化學(xué)式之間的關(guān)聯(lián)信息。
表1 SOFC命名實(shí)體識(shí)別數(shù)據(jù)集標(biāo)簽分布
表2 SOFC細(xì)粒度實(shí)體識(shí)別標(biāo)簽類別
本文使用基于正則模板的數(shù)據(jù)增強(qiáng)[25],將大量正則模板應(yīng)用于模型訓(xùn)練,旨在讓模型學(xué)習(xí)到更多上下文信息和模糊實(shí)體對(duì)于特定上下文的依賴關(guān)系,達(dá)到提高識(shí)別未登錄詞和低頻詞的精準(zhǔn)度的目的。本文涉及的所有實(shí)驗(yàn)均采用正則模板的數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行預(yù)處理后作為輸入。正則模板數(shù)據(jù)增強(qiáng)見圖5。
實(shí)驗(yàn)均采用300維word2vec預(yù)訓(xùn)練詞向量作為基本輸入。字符嵌入對(duì)字符向量隨機(jī)初始化后,使用CNN模型進(jìn)行特征編碼得到300維詞向量,并參與命名實(shí)體識(shí)別訓(xùn)練;BPEmb子詞嵌入和ULM子詞嵌入均使用非結(jié)構(gòu)的大規(guī)模材料領(lǐng)域數(shù)據(jù)進(jìn)行分詞模型的訓(xùn)練,并進(jìn)一步得到300維預(yù)訓(xùn)練詞向量作為模型輸入。
圖5 基于正則模板的數(shù)據(jù)增強(qiáng)
BiLSTM-RMHA-CRF命名實(shí)體識(shí)別模型使用Adam優(yōu)化算法對(duì)模型進(jìn)行參數(shù)調(diào)整,最大迭代次數(shù)為1 440,實(shí)驗(yàn)結(jié)果選取其中最優(yōu)結(jié)果。本文實(shí)驗(yàn)均于PyTorch-1.6.0及GPU環(huán)境下完成,詳細(xì)模型參數(shù)設(shè)置見表3。
表3 模型參數(shù)設(shè)置
采用F1值作為模型性能的評(píng)價(jià)指標(biāo),計(jì)算平均F1值時(shí)采用基于樣本分類加權(quán)的微平均F1值(Micro F1值)和宏平均F1值(Macro F1),其中Macro F1對(duì)于不均衡樣本的評(píng)估更加敏感,具體計(jì)算過程見式(15)~(19):
實(shí)驗(yàn)使用加入U(xiǎn)LM子詞嵌入的BiLSTM-RMHA-CRF模型與現(xiàn)有模型在SOFC與SOFC Fine-grained上進(jìn)行對(duì)比,對(duì)比模型包括BiLSTM-CNNs-CRF模型[6]、LM-LSTM-CRF模型[8]、BiGRU-SelfAttn模型[9]、SciBERT模型[18]、Char-Level CNN-LSTM模型[20],實(shí)驗(yàn)結(jié)果見表4。由表4可以看出,相較于其他模型,基于相對(duì)多頭注意力機(jī)制和ULM子詞嵌入的模型能夠提高對(duì)命名實(shí)體的辨別能力。
表4 SOFC命名實(shí)體識(shí)別數(shù)據(jù)集上不同模型的實(shí)驗(yàn)結(jié)果 單位: %
BiLSTM-CNNs-CRF模型使用字符級(jí)CNN對(duì)輸入進(jìn)行編碼,得到字符嵌入,再將其輸入BiLSTM-CRF模型進(jìn)行序列標(biāo)注,其卷積操作在一定程度上相當(dāng)于能夠提取固定寬度的子詞信息。LM-LSTM-CRF模型使用字符級(jí)LSTM作為字符嵌入模型,將字符序列編碼為詞向量用于命名實(shí)體識(shí)別訓(xùn)練。Char-Level CNN-LSTM模型結(jié)合了上述兩個(gè)模型的字符嵌入方法?;谧址度氲脑~嵌入算法在SOFC與SOFC Fine-grained表現(xiàn)尚佳,但由于字符嵌入詞表規(guī)模過小且蘊(yùn)含信息有限,無法進(jìn)行預(yù)訓(xùn)練,對(duì)于不同的單詞輸入,即使擁有相同的子詞特征也不能保證得到相近的向量表示;而預(yù)訓(xùn)練子詞嵌入可以確保具有相同子詞特征的單詞,其詞嵌入獲得的信息量相同。BiGRU-SelfAttn模型使用了結(jié)構(gòu)更加簡(jiǎn)單的GRU作為特征編碼層,并結(jié)合自注意力機(jī)制作為命名實(shí)體識(shí)別模型,并直接將單詞作為輸入進(jìn)行訓(xùn)練,其效果相對(duì)于其他模型表現(xiàn)有限。SciBERT模型使用了大規(guī)模科學(xué)領(lǐng)域文獻(xiàn)預(yù)訓(xùn)練的BERT模型作為編碼層,并結(jié)合BPEmb子詞嵌入作為輸入,但使用預(yù)訓(xùn)練模型進(jìn)行微調(diào),并不能充分利用子詞嵌入提供的輔助信息。模型對(duì)比實(shí)驗(yàn)結(jié)果表明,基于ULM預(yù)訓(xùn)練子詞嵌入和相對(duì)多頭注意力的命名實(shí)體識(shí)別模型相較于其他模型,在材料領(lǐng)域命名實(shí)體識(shí)別任務(wù)中表現(xiàn)更加出色。
本文針對(duì)BiLSTM-RMHA-CRF模型中的RMHA特征編碼層以及ULM詞嵌入特征進(jìn)行消融實(shí)驗(yàn),以度量ULM詞嵌入方法以及相對(duì)多頭注意力機(jī)制對(duì)于材料領(lǐng)域命名實(shí)體識(shí)別準(zhǔn)度的提升作用,實(shí)驗(yàn)結(jié)果見表5??梢钥闯鯞iLSTM-RMHA-CRF模型中,相對(duì)多頭注意力機(jī)制和ULM子詞嵌入對(duì)材料領(lǐng)域命名實(shí)體識(shí)別都有不同程度的提升作用。
表5 消融實(shí)驗(yàn)結(jié)果 單位: %
在僅使用BiLSTM-CRF模型時(shí),由于其模型特征編碼性能有限,且從詞嵌入獲取到的信息較少,而材料領(lǐng)域文獻(xiàn)中的未登錄詞較多,導(dǎo)致模型的識(shí)別性能不佳;加入相對(duì)多頭注意力機(jī)制后,提高了模型對(duì)于關(guān)鍵詞的關(guān)注度,命名實(shí)體識(shí)別性能有一定程度的提升;加入U(xiǎn)LM子詞嵌入,使模型能夠獲取到單詞的形態(tài)學(xué)信息,并能夠辨別單詞之間的關(guān)聯(lián)作用,其性能有較大提升,表明基于概率模型的子詞嵌入確實(shí)能夠有效解決未登錄詞問題,并能提高模型對(duì)于材料領(lǐng)域詞匯間關(guān)聯(lián)關(guān)系的辨識(shí)性能。
為驗(yàn)證使用大規(guī)模材料數(shù)據(jù)預(yù)訓(xùn)練子詞嵌入對(duì)于模型的提升效用,以BiLSTM-RMHA-CRF模型為基本模型,分別使用CNN字符嵌入、BPEmb子詞嵌入和ULM子詞嵌入結(jié)合word2vec作為輸入,實(shí)驗(yàn)結(jié)果見表6??梢钥闯觯褂妙A(yù)訓(xùn)練詞向量的BPEmb和ULM子詞嵌入相對(duì)于字符嵌入,對(duì)于命名實(shí)體識(shí)別的提升較大,表明預(yù)訓(xùn)練詞向量能夠充分利用非結(jié)構(gòu)化的文獻(xiàn)數(shù)據(jù),使模型能夠解析其蘊(yùn)涵的詞綴信息;使用概率模型的ULM子詞嵌入相較于BPEmb有所提升,表明基于概率模型的分詞方式和噪聲輸入確實(shí)有助于提高模型的魯棒性。
表6 詞嵌入實(shí)驗(yàn)結(jié)果 單位: %
統(tǒng)一使用ULM詞嵌入作為輸入,在BiLSTM-CRF模型基礎(chǔ)上加入命名實(shí)體識(shí)別常用的卷積神經(jīng)網(wǎng)絡(luò)、自注意力機(jī)制(Self-Attention, SA)、多頭注意力機(jī)制(Multi-Head Attention, MHA)和相對(duì)多頭注意力機(jī)制(RMHA),用以驗(yàn)證相對(duì)多頭注意力機(jī)制對(duì)于模型的提升效用,實(shí)驗(yàn)結(jié)果見表7。可以看出,相對(duì)于其他特征編碼模型,相對(duì)多頭注意力機(jī)制能更有效地提升模型對(duì)于實(shí)體與實(shí)體、實(shí)體與上下文關(guān)系的辨別能力,提高注意力的銳化程度,從而提高模型的識(shí)別水平。
表7 特征編碼器實(shí)驗(yàn)結(jié)果 單位: %
本文針對(duì)材料領(lǐng)域命名實(shí)體識(shí)別數(shù)據(jù)規(guī)模小、識(shí)別難度高等問題,提出了BiLSTM-RMHA-CRF模型方法,同時(shí)使用基于概率模型的ULM子詞嵌入作為模型輸入,以提高模型對(duì)于材料領(lǐng)域命名實(shí)體的辨別能力。通過在多種適用于命名實(shí)體識(shí)別的模型上進(jìn)行對(duì)比實(shí)驗(yàn),證明該方法可以有效提高模型的普適性和魯棒性,在Micro F1、Macro F1兩種評(píng)價(jià)指標(biāo)上都有較大的提高。通過特征編碼層對(duì)照和詞嵌入對(duì)照實(shí)驗(yàn),驗(yàn)證了相對(duì)多頭注意力機(jī)制和預(yù)訓(xùn)練ULM子詞嵌入對(duì)于命名實(shí)體識(shí)別模型的提高效用,表明相對(duì)多頭注意力機(jī)制和ULM子詞嵌入對(duì)于材料領(lǐng)域命名實(shí)體識(shí)別確有較大的提升作用。但本文算法并沒有解決樣本分布不均帶來的模型偏側(cè)性問題,不同類別的實(shí)體,其識(shí)別準(zhǔn)度差異較大,檢測(cè)能力也有待提升,可以將其作為進(jìn)一步的研究方向。
[1] LAFFERTY J D, McCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2001: 282-289.
[2] KIM Y. Convolutional neural networks for sentence classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1746 - 1751.
[3] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.
[4] CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. (2014-12-11)[2021-02-13]. https://arxiv.org/pdf/1412.3555.pdf.
[5] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[6] MA X Z, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2016: 1064-1074.
[7] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 357-370.
[8] LIU L Y, SHANG J B, Ren x, et al. Empower sequence labeling with task-aware neural language model[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 5253-5260.
[9] DHRISYA K, REMYA G, MOHAN A. Fine-grained entity type classification using GRU with self-attention[J]. International Journal of Information Technology, 2020, 12(3): 869-878.
[10] 楊維,孫德艷,張曉慧,等. 面向電力智能問答系統(tǒng)的命名實(shí)體識(shí)別算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2019, 40(12): 3625-3630.(YANG W, SUN D Y, ZHANG X H, et al. Named entity recognition for intelligent answer system in power service[J]. Computer Engineering and Design, 2019, 40(12): 3625-3630.)
[11] 李博,康曉東,張華麗,等. 采用Transformer-CRF的中文電子病歷命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(5):153-159.(LI B, KANG X D, ZHANG H L, et al. Named entity recognition in Chinese electronic medical records using Transformer-CRF[J]. Computer Engineering and Applications, 2020, 56(5):153-159.)
[12] 張華麗,康曉東,李博,等. 結(jié)合注意力機(jī)制的Bi-LSTM-CRF中文電子病歷命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(S1):98-102.(ZHANG H L, KANG X D, LI B, et al. Medical name entity recognition based on Bi-LSTM-CRF and attention mechanism[J]. Journal of Computer Applications, 2020, 40(S1):98-102.)
[13] 張心怡,馮仕民,丁恩杰. 面向煤礦的實(shí)體識(shí)別與關(guān)系抽取模型[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(8):2182-2188.(ZHANG X Y, FENG S M, DING E J. Entity recognition and relation extraction model for coal mine[J]. Journal of Computer Applications, 2020, 40(8):2182-2188.)
[14] 許力,李建華. 基于句法依存分析的圖網(wǎng)絡(luò)生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(2):357-362.(XU L, LI J H. Biomedical named entity recognition with graph network based on syntactic dependency parsing[J]. Journal of Computer Applications, 2021, 41(2):357-362.)
[15] MYSORE S, KIM E, STRUBELL E, et al. Automatically extracting action graphs from materials science synthesis procedures[EB/OL]. (2017-11-28)[2021-02-13].https://arxiv.org/pdf/1711.06872.pdf.
[16] MYSORE S, JENSEN Z, KIM E, et al. The materials science procedural text corpus: annotating materials synthesis procedures with shallow semantic structures[C]// Proceedings of the 13th Linguistic Annotation Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2019: 56-64.
[17] MRDJENOVICH D, HORTON M K, MONTOYA J H, et al. propnet: a knowledge graph for materials science[J]. Matter, 2020, 2(2): 464-480.
[18] FRIEDRICH A, ADEL H, TOMAZIC F, et al. The SOFC-Exp corpus and neural approaches to information extraction in the materials science domain[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 1255-1268.
[19] GAJENDRAN S, MANJULA D, SUGUMARAN V. Character level and word level embedding with bidirectional LSTM - dynamic recurrent neural network for biomedical named entity recognition from literature[J]. Journal of Biomedical Informatics, 2020, 112: No.103609.
[20] CHO M, HA J, PARK C, et al. Combinatorial feature embedding based on CNN and LSTM for biomedical named entity recognition[J]. Journal of Biomedical Informatics, 2020, 103: No.103381.
[21] YAN H, DENG B C, LI X N, et al. TENER: adapting transformer encoder for named entity recognition[EB/OL]. (2019-12-10)[2021-02-13].https://arxiv.org/pdf/1911.04474.pdf.
[22] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07)[2021-02-13].https://arxiv.org/pdf/1301.3781.pdf.
[23] HEINZERLING B, STRUBE M. BPEmb: tokenization-free pre-trained subword embeddings in 275 languages[C]// Proceedings of the 11th International Conference on Language Resources and Evaluation . Stroudsburg, PA: Association for Computational Linguistics, 2018: 2989-2993.
[24] KUDO T. Subword regularization: improving neural network translation models with multiple subword candidates[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 66-75.
[25] LIU Z H, WINATA G I, XU P, et al. Coach: a coarse-to-fine approach for cross-domain slot filling[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 19-25.)
Material entity recognition based on subword embedding and relative attention
HAN Yumin, HAO Xiaoyan*
(,,030600,)
Accurately identifying named entities is helpful to construct professional knowledge graphs and question answering systems. Named Entity Recognition (NER) technology based on deep learning has been widely used in a variety of professional fields. However, there are relatively few researches on NER in the field of materials. Concerning the problem of small scale of datasets and high complexity of entity words for supervised learning in NER of materials field, the large-scale unstructured materials field literature data were used to train the subword embedding word segmentation model based on Unigram Language Model (ULM), and the information contained in the word structure was fully utilized to enhance the robustness of the model. At the same time, the entity recognition model with BiLSTM-CRF (Bi-directional Long-Short Term Memory-Conditional Random Field) model as the basis and combined with the Relative Multi-Head Attention(RMHA)capable of perceiving direction and distance of words was proposed to improve the sensitivity of the model to keywords. Compared with BiLSTM-CNNs-CRF, SciBERT (Scientific BERT) and other models, the obtained BiLSTM-RMHA-CRF model combining with the ULM subword embedding method increased the value of Macro F1 by 2-4 percentage points on Solid Oxide Fuel Cell (SOFC) NER dataset, and 3-8 percentage points on SOFC fine-grained entity recognition dataset. Experimental results show that the recognition model based on subword embedding and relative attention can effectively improve the recognition accuracy of entities in the materials field.
named entity recognition; subword embedding; relative attention; deep learning; material field
This work is partially supported by Soft Science Research Program of Shanxi Province (2019041055-1), Scientific Research and Technology Project of Peking University (203290929-J).
HAN Yumin, born in 1995, M. S. His research interests include natural language processing.
HAO Xiaoyan,born in 1970, Ph. D., associate professor. Her research interests include natural language processing, computer linguistics, artificial intelligence.
TP391
A
1001-9081(2022)06-1862-07
10.11772/j.issn.1001-9081.2021040582
2021?04?15;
2021?07?09;
2021?07?15。
山西省軟科學(xué)研究計(jì)劃項(xiàng)目(2019041055-1);京大學(xué)科研技術(shù)項(xiàng)目(203290929-J)。
韓玉民(1995—),男,山西臨汾人,碩士,主要研究方向:自然語言處理;郝曉燕(1970—),女,山西太原人,副教授,博士,主要研究方向:自然語言處理、計(jì)算機(jī)語言學(xué)、人工智能。