帥亞琦 李燕 陳月月 徐麗娜 鐘昕妤
摘? 要:隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,人類社會(huì)開(kāi)始進(jìn)入大數(shù)據(jù)時(shí)代,如何高效快捷地從海量的中醫(yī)醫(yī)案文本數(shù)據(jù)中挖掘出我們所需要的信息,從而更好地應(yīng)用于臨床工作,是目前亟待解決的問(wèn)題。通過(guò)實(shí)驗(yàn)對(duì)慢性支氣管炎中醫(yī)醫(yī)案進(jìn)行研究,分析BERT、BILSTM、BILSTM-CRF和BERT-BILSTM-CRF四種模型的實(shí)體識(shí)別效果,結(jié)果表明,相比于其他模型,采用BERT-BILSTM-CRF模型可以更加準(zhǔn)確有效地識(shí)別出慢性支氣管炎中醫(yī)醫(yī)案的實(shí)體類別,其F1、Precision和Recall均優(yōu)于其他模型。
關(guān)鍵詞:數(shù)據(jù)挖掘;命名實(shí)體識(shí)別;中醫(yī)醫(yī)案;循環(huán)神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391.1;R2-03 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2023)05-0145-05
Entity Recognition of Traditional Chinese Medical Cases of Chronic Bronchitis
Based on BERT-BILSTM-CRF
SHUAI Yaqi, LI Yan, CHEN Yueyue, XU Lina, ZHONG Xinyu
(School of Information Engineering, Gansu University of Chinese Medicine, Lanzhou 730000, China)
Abstract: With the rapid development of modern information technology, human society has begun to enter the era of big data. How to efficiently and quickly mine the information we need from the massive text data of traditional Chinese medicalcases, so as to better apply them to clinical work, which is an urgent problem to be solved at present. Based on the experimental study of traditional Chinese medicalcases of chronic bronchitis, the entity recognition effects of four models, BERT, BILSTM, BILSTM-CRF and BERT-BILSTM-CRF, are analyzed. The results show that compared with other models, the BERT-BILSTM-CRF model can more accurately and effectively identify the entity categories of traditional Chinese medicalcases of chronic bronchitis, and its F1, Precision and Recall are all better than that of other models.
Keywords: data mining; named entity recognition; traditional Chinese medical case; cyclic neural network
0? 引? 言
中醫(yī)醫(yī)案最早起源于周代,在明清時(shí)期,個(gè)人醫(yī)案專著大量增加,中醫(yī)醫(yī)案的撰寫(xiě)量也達(dá)到了頂峰。中醫(yī)醫(yī)案的價(jià)值和意義不僅僅局限于現(xiàn)代西醫(yī)藥研究方法意義上的科學(xué),它也是祖國(guó)醫(yī)學(xué)上臨床傳承的重要形式。如何從海量的醫(yī)案信息中快速準(zhǔn)確地獲取用戶感興趣的知識(shí)已經(jīng)成為亟待解決的問(wèn)題。本文所使用的技術(shù)手段稱為命名實(shí)體識(shí)別技術(shù),命名實(shí)體識(shí)別一直以來(lái)都是信息抽取、自然語(yǔ)言處理等領(lǐng)域中重要的研究任務(wù),本文通過(guò)命名實(shí)體識(shí)別技術(shù)識(shí)別出慢性支氣管炎中醫(yī)醫(yī)案中表示實(shí)體的成分,并對(duì)其進(jìn)行分類,從而更好地應(yīng)用于醫(yī)療輔助系統(tǒng)、智能診斷系統(tǒng)中,為中醫(yī)藥的數(shù)字化臨床信息發(fā)展提供技術(shù)支持。
1? 相關(guān)研究
近年來(lái),隨著數(shù)據(jù)挖掘技術(shù)的日益成熟,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于中醫(yī)藥領(lǐng)域成了現(xiàn)代數(shù)據(jù)挖掘技術(shù)研究的熱點(diǎn)話題,在中醫(yī)藥方面的研究也取得了優(yōu)異的成果。面對(duì)海量的中醫(yī)醫(yī)案知識(shí),人的精力和時(shí)間是有限的,因此通過(guò)自然語(yǔ)言處理技術(shù)對(duì)醫(yī)案里的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,可以更加有效的提取出醫(yī)案里的隱性知識(shí),并將其應(yīng)用于知識(shí)圖譜和知識(shí)問(wèn)答等實(shí)際應(yīng)用中。
早期的實(shí)體識(shí)別主要是基于規(guī)則的方法,人工構(gòu)建,再?gòu)奈谋局袑ふ移ヅ溥@些規(guī)則的字符串以達(dá)到實(shí)體識(shí)別的目的[1]。但是規(guī)則的制定是有限的而實(shí)體是變換無(wú)窮的,所以這樣的方法越來(lái)越笨重。統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法需要人工選取詞性、依存句法依賴等可能對(duì)任務(wù)結(jié)構(gòu)有影響的特征作為模型的輸入[2],所以其命名實(shí)體識(shí)別效果也有待提高。研究學(xué)者們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型可以自動(dòng)學(xué)習(xí)句子特征,無(wú)需復(fù)雜的特征工程,并且可以通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)挖掘數(shù)據(jù)的深層次特征進(jìn)行預(yù)測(cè),所以眾多研究學(xué)者們開(kāi)始將最新的深度學(xué)習(xí)技術(shù)應(yīng)用于NER問(wèn)題上。Peters[3]等人在2018年首次提出了ELMo(Embeddings from Language Models)模型,但是該模型無(wú)法并行計(jì)算。在該模型的基礎(chǔ)上,Devlin[4]通過(guò)BERT模使用掩蔽語(yǔ)言模型實(shí)現(xiàn)了基于預(yù)訓(xùn)練的深度雙向表示,通過(guò)使用Transformer架構(gòu)中的Encoder模塊,使得BERT模型擁有了雙向編碼能力和強(qiáng)大的特征提取能力。而隨著目前的實(shí)體識(shí)別研究已經(jīng)將CNN、SVM、BERT等模型應(yīng)用于語(yǔ)言預(yù)處理,并在模型中引用注意力機(jī)制來(lái)提高實(shí)體識(shí)別準(zhǔn)確率[5]。
目前對(duì)于中醫(yī)醫(yī)案癥狀識(shí)別主要使用的是循環(huán)神經(jīng)網(wǎng)絡(luò)技術(shù),高佳奕[6]通過(guò)LSTM-CRF模型,應(yīng)用LSTM層結(jié)合預(yù)訓(xùn)練字向量抽取醫(yī)案的抽象特征,通過(guò)CRF進(jìn)行序列標(biāo)注,識(shí)別的F1值達(dá)到了0.85左右。李明浩[7]通過(guò)LSTM-CRF模型識(shí)別中醫(yī)醫(yī)案癥狀術(shù)語(yǔ),在小規(guī)模訓(xùn)練集上的訓(xùn)練,使得F1值最高達(dá)到了0.78。肖瑞[8]基于BILSTM-CRF對(duì)中醫(yī)藥文本數(shù)據(jù)進(jìn)行挖掘,使得F1值達(dá)到了80.92%。本將BERT模型與BILSTM-CRF模型結(jié)合,利用兩者的優(yōu)勢(shì)對(duì)慢性支氣管炎中醫(yī)醫(yī)案進(jìn)行實(shí)體識(shí)別。
2? 資料與方法
2.1? 數(shù)據(jù)來(lái)源
本文研究的數(shù)據(jù)主要來(lái)源于《岳美中醫(yī)案集》《顏德馨臨床經(jīng)驗(yàn)輯要》《世中聯(lián)名老中醫(yī)典型醫(yī)案》等古今部分名老中醫(yī)的中醫(yī)醫(yī)案著作。其中使用了300多條醫(yī)案數(shù)據(jù)。在選定了這些數(shù)據(jù)后,刪除文本中的特殊字符以及無(wú)效信息。以句號(hào)作為間隔符將原醫(yī)案文本內(nèi)容進(jìn)行切分。
2.2? 序列標(biāo)注
命名實(shí)體識(shí)別是自然語(yǔ)言處理的一項(xiàng)最基本的任務(wù),其主要目的是從文本中識(shí)別出特定命名指向的詞匯。在本文中設(shè)定了6種實(shí)體類型,并將疾病名、癥狀、證候、治則治法、方藥和舌脈信息,依此記為DIS、SYM、SYN、TRE、PRE和DIA,通過(guò)BIO標(biāo)注,將B表示開(kāi)始,I表示內(nèi)部,O表示非實(shí)體。本文對(duì)標(biāo)簽的類別以及特征進(jìn)行了分類,如表1所示。
在序列標(biāo)注建模方法和序列標(biāo)注體系下對(duì)于中文文本的命名實(shí)體識(shí)別模型就是要為序列中的每個(gè)變量預(yù)測(cè)出所屬的標(biāo)簽類別[9]。
3? 模型結(jié)構(gòu)
本文通過(guò)BERT-BILSTM-CRF模型進(jìn)行命名實(shí)體識(shí)別,該模型主要包括三個(gè)部分,首先是BERT預(yù)訓(xùn)練語(yǔ)言模型,慢性支氣管炎中醫(yī)醫(yī)案的非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為向量形式并提取出蘊(yùn)含在中醫(yī)醫(yī)案里的豐富語(yǔ)義特征,再通過(guò)BILSTM模型進(jìn)一步提取出醫(yī)案中的上下文特征,最后通過(guò)CRF添加約束條件,減少錯(cuò)誤序列的產(chǎn)生,并輸出最終的標(biāo)記序列。
3.1? BERT預(yù)訓(xùn)練語(yǔ)言模型
BERT(Bidirectional Encoder Representation from Transformers)模型是一種語(yǔ)言預(yù)訓(xùn)練模型。該模型結(jié)構(gòu)如圖1所示。
本文將原始的醫(yī)案文本數(shù)據(jù)進(jìn)行數(shù)據(jù)篩選與標(biāo)注后,對(duì)標(biāo)注的文本數(shù)據(jù)進(jìn)行切分,然后進(jìn)行向量表示。Transformer結(jié)構(gòu)是BERT的關(guān)鍵部分,是基于注意力機(jī)制的深度網(wǎng)絡(luò),通過(guò)在同一個(gè)句子中計(jì)算每個(gè)詞與其他詞之間的關(guān)聯(lián)程度來(lái)調(diào)整權(quán)重稀疏矩陣,從而獲得詞的特征向量的表達(dá)。本文通過(guò)Transformer的Encoder層獲得具有上下文豐富語(yǔ)義特征的文本序列向量,然后輸出向量,,作為命名實(shí)體識(shí)別模型的Embedding層,輸入到BILSTM模型中。
3.2? BILSTM模型
LSTM(Long-Short Time Memory)模型最早由Hochreiter[10]
提出,是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)中隱藏單元的內(nèi)部結(jié)構(gòu)十分復(fù)雜,通過(guò)引入記憶單元和門(mén)控記憶單元保存歷史信息、長(zhǎng)期狀態(tài),使用門(mén)控來(lái)控制信息的流動(dòng),有效的實(shí)現(xiàn)了上下文信息的存儲(chǔ)和更新,如圖2所示。
每個(gè)LSTM單元都通過(guò)遺忘門(mén)、輸入門(mén)和輸出門(mén)三種結(jié)構(gòu)來(lái)控制信息狀態(tài),LSTM單元內(nèi)部的計(jì)算公式為:
ft =Sigmoid(Wf×[ht-1, xt]+bf)? ? ? ? ? ? ? ? ? ?(1)
it =Sigmoid(Wi×[ht-1, xt]+bi)? ? ? ? ? ? ? ? ? ?(2)
ot =Sigmoid(Wo×[ht-1, xt]+bo)? ? ? ? ? ? ? ? ? (3)
Ct =ft*Ct-1+it*tanh(Wc×[ht-1, xt]+bc)? ? ? ? ? ? ? (4)
ht =ot*tanh(Ct)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (5)
如圖所示,LSTM的輸入有三個(gè),當(dāng)前時(shí)刻輸入xt、上一時(shí)刻LSTM的輸出值ht-1以及上一時(shí)刻的單元狀態(tài)Ct-1;輸出有兩個(gè),當(dāng)前時(shí)刻LSTM的輸出值ht和當(dāng)前時(shí)刻的單元狀態(tài)。LSTM模型通過(guò)三個(gè)門(mén)結(jié)構(gòu)實(shí)現(xiàn)了對(duì)信息狀態(tài)的選擇性輸出。其中,W和b表示權(quán)重和偏置項(xiàng),式(1)為遺忘門(mén)狀態(tài)更新公式,[ht-1, xt]表示把兩個(gè)向量組成的一個(gè)更長(zhǎng)的向量。Sigmoid函數(shù)的作用是將門(mén)的輸出值限制在0到1之間,當(dāng)門(mén)輸出為0時(shí),任何向量與之相乘都會(huì)得到0向量,這就相當(dāng)于什么都不能通過(guò);輸出為1時(shí),任何向量與之相乘都不會(huì)有任何改變,這就相當(dāng)于什么都可以通過(guò)[11]。
式(1)決定上一時(shí)刻的單元狀態(tài)Ct-1有多少保留到當(dāng)前時(shí)刻Ct;式(2)為輸入門(mén)的狀態(tài)更新公式,決定當(dāng)前網(wǎng)絡(luò)的輸出xt有多少保存到狀態(tài)單元Ct。式(3)為當(dāng)前時(shí)刻單元的狀態(tài)計(jì)算公式;式(4)(5)為輸出門(mén)的計(jì)算公式,決定控制單元狀態(tài)Ct有多少輸出到LSTM的當(dāng)前輸出值ht。顯然,當(dāng)前LSTM單元的隱藏狀態(tài)ht依賴于先前的隱藏狀態(tài)ht-1,但與下一個(gè)隱藏狀態(tài)ht+1不相關(guān),即信息僅在單向LSTM中向前流動(dòng)。這使得LSTM模型存在梯度消失或梯度爆炸的現(xiàn)象。
2005年,GRAVES[12]根據(jù)LSTM和雙向RNN模型,提出了BILSTM模型,該模型可以同時(shí)使用時(shí)序數(shù)據(jù)中某個(gè)輸入的歷史和未來(lái)的信息,從而增加循環(huán)神經(jīng)網(wǎng)絡(luò)中可以利用的信息,使得模型具有更加強(qiáng)大的特征提取能力。本文在BERT預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上使用了BILSTM模型,通過(guò)慢性支氣管炎醫(yī)案數(shù)據(jù)中的雙向語(yǔ)義信息即潛在的語(yǔ)義關(guān)系,優(yōu)化了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型的迭代性問(wèn)題,緩解了梯度消失或梯度爆炸的現(xiàn)象,提高了對(duì)序列數(shù)據(jù)的長(zhǎng)期記憶能力。
3.3? CRF模型概述
條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)作為一種條件概率分布模型被用于命名實(shí)體識(shí)別。在命名實(shí)體識(shí)別領(lǐng)域,其最主要的功能上在多種可能的標(biāo)注序列中,挑選出一個(gè)概率最大的標(biāo)注序列作為我們對(duì)這句話的標(biāo)注。雖然BILSTM模型能夠輸出標(biāo)簽取值的概率值,但是直接用BILSTM模型輸出的標(biāo)簽有些并不是合理的,原因是未考慮標(biāo)簽與標(biāo)簽之間的關(guān)聯(lián)性,比如實(shí)體的頭部必不可能是I開(kāi)頭,O標(biāo)簽后的下一個(gè)標(biāo)簽必不可能是I,B-Dis標(biāo)簽后面必為I-Dis等,因此在BILSTM模型后面加入CRF層加入約束機(jī)制,這樣就可以調(diào)整輸出的標(biāo)簽,使得標(biāo)簽的結(jié)果順序更加的合理,從而提高模型的準(zhǔn)確率。在本文任務(wù)中,主要應(yīng)用的是線性鏈條件隨機(jī)場(chǎng),其原理如式(6)為[13]:
(6)
其中,Z(x)表示歸一化因子,Z(x)和s(x, y)的計(jì)算公式為:
(7)
s(x, y)=∑ i Emit(xi, yi)+Trans( yi-1, yi)(8)
其中,Emit(xi, yi)表示LSTM的輸出概率,Trans( yi-1, yi)表示對(duì)應(yīng)的轉(zhuǎn)移概率,也是CRF轉(zhuǎn)移概率對(duì)應(yīng)的數(shù)值。
4? 實(shí)驗(yàn)結(jié)果及分析
4.1? 評(píng)估指標(biāo)
本次命名實(shí)體識(shí)別任務(wù)通過(guò)查準(zhǔn)率(Precision,P)、召回率(Recall,R)和F1值作為飾演的評(píng)價(jià)指標(biāo)。其計(jì)算公式為:
(9)
(10)
(11)
其中,TP為實(shí)際為正被預(yù)測(cè)為正的樣本數(shù)量,表中FP為實(shí)際為負(fù)但被預(yù)測(cè)為正樣本數(shù)量,F(xiàn)N為實(shí)際為正但被預(yù)測(cè)為負(fù)的樣本的數(shù)量[14]。
4.2? 實(shí)驗(yàn)方案
本文首先對(duì)慢性支氣管炎醫(yī)案數(shù)據(jù)進(jìn)行了爬取,然后在眾多的醫(yī)案數(shù)據(jù)中,篩選出慢性支氣管炎中醫(yī)醫(yī)案數(shù)據(jù),刪除掉醫(yī)案中的數(shù)據(jù)來(lái)源等冗余信息,然后對(duì)醫(yī)案數(shù)據(jù)進(jìn)行分詞和BIO標(biāo)注,將標(biāo)注好的醫(yī)案數(shù)據(jù)輸入到命名實(shí)體識(shí)別模型中,進(jìn)行實(shí)體識(shí)別。為驗(yàn)證本文所使用模型在慢性支氣管炎中醫(yī)醫(yī)案的優(yōu)勢(shì),與下列幾種模型進(jìn)行了實(shí)驗(yàn)對(duì)比。
4.2.1? BERT模型
實(shí)驗(yàn)使用的是Googel提供的預(yù)訓(xùn)練好的中文BERT模型,獲取上下文本中的豐富語(yǔ)義信息,采用Transformers進(jìn)行預(yù)訓(xùn)練,以此生成深層的雙向語(yǔ)言表征信息。本文所使用的BERT模型的相關(guān)參數(shù)設(shè)置為:學(xué)習(xí)率為0.001,12個(gè)編碼層,12個(gè)注意力機(jī)制和768個(gè)隱藏單元,預(yù)先迭代100個(gè)epoch測(cè)試,然后根據(jù)結(jié)果調(diào)參。
4.2.2? BILSTM模型
將標(biāo)注好的信息輸入到雙向的BILSTM模型,然后將前向和后向提取的字特征向量拼接到一起作為最終的字向量特征,最后輸入分類層,softmax函數(shù)后得到每個(gè)標(biāo)簽的分值,其中分值最大的就是該字的標(biāo)簽,用交叉熵作為損失,梯度下降方法更新整個(gè)模型參數(shù)。本文BILSTM模型的相關(guān)參數(shù)設(shè)置為:輸入層的batch_size為300,每個(gè)詞用128維的向量表示,隱藏層的維度為256,學(xué)習(xí)率為0.001,也用交叉熵?fù)p失。
4.2.3? BILSTM-CRF模型
雙向的BILSTM模型可以捕捉正向信息和反向信息,使得模型對(duì)文本的利用效果更佳的全面,然后通過(guò)CRF層添加約束條件,使得模型的y預(yù)測(cè)結(jié)果更加的精確減少錯(cuò)誤序列的出現(xiàn)。本文所使用的BILSTM-CRF模型的相關(guān)參數(shù)設(shè)置為:輸入層的單句文本長(zhǎng)度為300,每個(gè)詞用128維的向量表示,隱藏層的維度為256,學(xué)習(xí)率為0.001,也用交叉熵?fù)p失,優(yōu)化器選擇Adam優(yōu)化算法。
4.3? 實(shí)驗(yàn)結(jié)果對(duì)比及分析
本文的所有實(shí)驗(yàn)?zāi)P投际腔赑yTorch框架,使用GPU為GTX1650,為驗(yàn)證模型的效果,本文將BERT-BILSTM-CRF模型與BERT、BILSTM、BILSTM-CRF三種模型進(jìn)行對(duì)比,通過(guò)評(píng)價(jià)指標(biāo)來(lái)驗(yàn)證BERT-BILSTM-CRF模型的效果。實(shí)驗(yàn)對(duì)比結(jié)果如表2所示。
根據(jù)表2可以看出,本文所采用的BERT-BILSTM-CRF模型整體效果優(yōu)于其他模型。表中的所有實(shí)驗(yàn)數(shù)據(jù)是在不同的迭代次數(shù)下所取得最優(yōu)值,通過(guò)比較發(fā)現(xiàn),BERT-BILSTM-CRF模型在各個(gè)測(cè)量指標(biāo)上都能達(dá)到最優(yōu)值。從表中可以看出,BILSTM-CRF模型的效果比BILSTM模型的識(shí)別效果好,這是因?yàn)镃RF層不同于BILSTM模型,CRF計(jì)算序列時(shí)計(jì)算的是聯(lián)合概率,考慮的整個(gè)句子的局部特征的線性加權(quán)組合,優(yōu)化的是整個(gè)序列,而不是僅僅的將每個(gè)時(shí)刻的最優(yōu)拼接起來(lái),因此,CRF層的添加使得BILSTM-CRF模型的整體效果優(yōu)于BILSTM模型。在表中,雖然BERT模型的識(shí)別效果不如BILSTM模型,但是BERT模型的動(dòng)態(tài)詞向量的獲取能力很強(qiáng),在詞向量的表現(xiàn)上優(yōu)于BILSTM-CRF模型的embedding層,借助BERT預(yù)訓(xùn)練模型的優(yōu)點(diǎn),使得BERT-BILSTM-CRF模型的識(shí)別效果整體優(yōu)于BILSTM-CRF模型。BERT-BILSTM-CRF模型的評(píng)價(jià)指標(biāo)變化趨勢(shì)如圖3所示。
從圖中可以看出,該模型在迭代了100次后,三種評(píng)價(jià)指標(biāo)在一定范圍內(nèi)上下波動(dòng),開(kāi)始出現(xiàn)震蕩,表明該模型訓(xùn)練趨于穩(wěn)定,不會(huì)出現(xiàn)大幅度波動(dòng)。該模型的訓(xùn)練集損失函數(shù)和驗(yàn)證集損失函數(shù)如圖4所示。
從圖中可以看出,該模型在從0個(gè)Epoch開(kāi)始,Loss開(kāi)始大幅度下降,當(dāng)?shù)竭_(dá)100個(gè)Epoch后,開(kāi)始趨于穩(wěn)定狀態(tài),也驗(yàn)證了圖三的評(píng)價(jià)指標(biāo)變化趨勢(shì)是在100個(gè)Epoch后模型的評(píng)價(jià)指標(biāo)開(kāi)始在一定范圍內(nèi)上下波動(dòng),評(píng)價(jià)指標(biāo)沒(méi)有出現(xiàn)大幅度上升或下降。從圖四中可以看出,在150個(gè)Epoch后,隨著Epoch的增加,Dev_loss開(kāi)始有上升趨勢(shì),在圖三的同一Epoch上,評(píng)價(jià)也同時(shí)上升,這說(shuō)明開(kāi)始出現(xiàn)過(guò)擬合現(xiàn)象。在模型訓(xùn)練過(guò)程中,模型的狀態(tài)變化為從最開(kāi)始的不擬合狀態(tài),進(jìn)入優(yōu)化擬合狀態(tài),當(dāng)隨著Epoch的增加,當(dāng)?shù)竭_(dá)一定程度時(shí),神經(jīng)網(wǎng)絡(luò)開(kāi)始出現(xiàn)過(guò)擬合現(xiàn)象。所以該模型的Epoch應(yīng)該設(shè)置為100~150次左右。
5? 結(jié)? 論
本文基于BERT-BILSTM-CRF模型對(duì)慢性支氣管炎中醫(yī)醫(yī)案進(jìn)行命名實(shí)體識(shí)別,通過(guò)該模型,實(shí)現(xiàn)了對(duì)慢性支氣管炎中醫(yī)醫(yī)案的實(shí)體識(shí)別并獲得了良好的效果。首先通過(guò)BERT預(yù)訓(xùn)練模型抽取出了豐富的文本特征,然后通過(guò)BILSTM模型提取出實(shí)體所需要的特征信息,最后通過(guò)CRF層計(jì)算出最優(yōu)的序列標(biāo)注,并輸識(shí)別結(jié)果。然后將該模型與BERT、BILSTM和BILSTM-CRF進(jìn)行對(duì)比實(shí)驗(yàn),通過(guò)對(duì)比我們發(fā)現(xiàn)BERT-BILSTM-CRF模型對(duì)慢性支氣管炎中醫(yī)醫(yī)案上的實(shí)體識(shí)別效果最好,其F1值、P值和R值相比于其他模型的都高。命名實(shí)體識(shí)別模型較多,但用于中醫(yī)藥相關(guān)命名實(shí)體識(shí)別模型數(shù)量微乎其微,構(gòu)建中醫(yī)藥相關(guān)命名實(shí)體識(shí)別模型,將更加有效地推動(dòng)中醫(yī)藥文本挖掘發(fā)展。本文提出的方法解決了慢性支氣管炎中醫(yī)醫(yī)案實(shí)體識(shí)別效率一般的問(wèn)題,也為深度挖掘慢性支氣管炎中醫(yī)醫(yī)案里的隱性知識(shí)提供了技術(shù)支撐。
參考文獻(xiàn):
[1] 吳信東,李嬌,周鵬,等.碎片化家譜數(shù)據(jù)的融合技術(shù)[J].軟件學(xué)報(bào),2021,32(9):2816-2836.
[2] 鐘華帥.基于深度學(xué)習(xí)的實(shí)體和關(guān)系聯(lián)合抽取模型研究與應(yīng)用[D].廣州:華南理工大學(xué),2020.
[3] PETERS M E,NEUMANN M,IYYER M,etal. Deep Contextualized Word Representations[J/OL].arXiv:1802.05365[cs.CL].[2022-10-03].https://arxiv.org/abs/1802.05365v1.
[4] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding[J/OL].arXiv:1810.04805 [cs.CL].[2022-10-03].https://arxiv.org/abs/1810.04805.
[5] GAJENDRAN S,MANJULA D,SUGUMARAN V. Character level and word level embedding with bidirectional LSTM–Dynamic recurrent neural network for biomedical named entity recognition from literature[J/OL].Journal of Biomedical Informatics,2020,112[2022-10-02].https://linkinghub.elsevier.com/retrieve/pii/S1532046420302367.
[6] 高佳奕,楊濤,董海艷,等.基于LSTM-CRF的中醫(yī)醫(yī)案癥狀命名實(shí)體抽取研究[J].中國(guó)中醫(yī)藥信息雜志,2021,28(5):20-24.
[7] 李明浩,劉忠,姚遠(yuǎn)哲.基于LSTM-CRF的中醫(yī)醫(yī)案癥狀術(shù)語(yǔ)識(shí)別[J].計(jì)算機(jī)應(yīng)用,2018,38(S2):42-46.
[8] 肖瑞,胡馮菊,裴衛(wèi).基于BiLSTM-CRF的中醫(yī)文本命名實(shí)體識(shí)別[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(7):2504-2510.
[9] 顧溢.基于BiLSTM-CRF的復(fù)雜中文命名實(shí)體識(shí)別研究[D].南京:南京大學(xué),2019.
[10] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J].Neural computation,1997,9(8):1735-1780.
[11] 山夢(mèng)娜.基于深度學(xué)習(xí)的遙測(cè)數(shù)據(jù)異常檢測(cè)[D].西安:西安工業(yè)大學(xué),2020.
[12] GRAVES A,SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures [J].Neural Networks,2005,18(5-6):602-610.
[13] 楊云,宋清漪,云馨雨,等.基于BiLSTM-CRF的玻璃文物知識(shí)點(diǎn)抽取研究[J].陜西科技大學(xué)學(xué)報(bào),2022,40(3):179-184.
[14] 高經(jīng)緯,馬超,姚杰,等.基于機(jī)器學(xué)習(xí)的人體步態(tài)檢測(cè)智能識(shí)別算法研究[J].電子測(cè)量與儀器學(xué)報(bào),2021,35(3):49-55.
作者簡(jiǎn)介:帥亞琦(1998—),男,漢族,山東濰坊人,碩士研究生在讀,主要研究方向:知識(shí)圖譜;通訊作者:李燕(1976—),女,漢族,甘肅蘭州人,教授,碩士研究生,主要研究方向:中醫(yī)藥數(shù)據(jù)挖掘、中醫(yī)藥知識(shí)圖譜;陳月月(1997—),女,漢族,山東濱州人,碩士研究生在讀,主要研究方向:知識(shí)圖譜;徐麗娜(1996—),女,漢族,甘肅定西人,碩士研究生在讀,主要研究方向:數(shù)據(jù)挖掘;鐘昕妤(1996—)女,漢族,浙江嘉興人,碩士研究生在讀,主要研究方向:數(shù)據(jù)挖掘。
收稿日期:2022-10-26