王菁薇 肖 莉 駱嘉偉 晏峻峰
(1.湖南中醫(yī)藥大學信息科學與工程學院 長沙 410208)(2.湖南中醫(yī)藥大學中醫(yī)學院 長沙 410208)(3.湖南大學信息科學與工程學院 長沙 410082)
《傷寒論》是東漢末年張仲景所著漢醫(yī)經(jīng)典著作,是一部闡述外感病治療規(guī)律的專著,其以非結(jié)構(gòu)化形式儲藏著豐富可靠的知識[1]。由于古籍中喜用虛詞、指代詞,相較于現(xiàn)代自然語言處理,中醫(yī)藥古籍的處理更具有挑戰(zhàn)性。中醫(yī)藥古籍命名實體識別是指根據(jù)具體古籍的內(nèi)容,從中識別出關鍵信息的過程,涉及疾病、證候、癥狀、方藥等中醫(yī)類信息。近些年,從最初基于規(guī)則和字典的方法到現(xiàn)在的深度學習方法,命名實體識別技術(shù)在醫(yī)學領域取得了一些進展,但中醫(yī)藥領域相關的命名實體識別模型較少,用于中醫(yī)藥古籍的模型更是微乎其微[2]。高佳奕等[3]對名老中醫(yī)臨床肺癌醫(yī)案進行序列標記,利用條件隨機場構(gòu)建中醫(yī)臨床信息抽取模型,抽取結(jié)果符合中醫(yī)辨證理論,能有效實現(xiàn)中醫(yī)臨床醫(yī)案癥狀命名實體識別。祝錫永等[4]改進并構(gòu)建了用于醫(yī)療領域的中文命名實體識別模型——CTD-BLSTM模型。高佳奕等[5]嘗試使用多種命名實體抽取模型對中醫(yī)肺癌數(shù)據(jù)集上進行實驗。肖瑞等[6]針對部分名老中醫(yī)醫(yī)案著作構(gòu)Bi LSTM-CRF模型,識別的準確率達到97.23%。以上學者的研究證明了構(gòu)建中醫(yī)藥古籍命名實體識別模型的可行性。本研究嘗試將預訓練模型ALBERT應用于中醫(yī)藥古籍,基于《傷寒論》進行實驗,并與BERT模型訓練結(jié)果進行對比,為深度挖掘張仲景《傷寒雜病論》及其他中醫(yī)藥古籍提供參考[7]。
數(shù)據(jù)來自宋版《傷寒論》[8]。
考慮到《傷寒論》條文描述中,包含“太陽病”等疾病特征、“太陽中風”等證候特征、“惡寒”等癥狀特征、“桂枝湯”等處方特征、“桂枝”等藥物特征[9]。本研究根據(jù)以上實體特征,將《傷寒論》中實體劃分為疾病、證候、癥狀、處方、藥物五類不同標簽,與其無關的信息劃分為非命名實體組成部分。疾病、證候、癥狀、處方、藥物分別記作disease、syndrome、symptom、prescription、medicine,非命名實體組成部分記作O。利用BIO標注法進行標注,具體方法見表1。如《傷寒論》條文第十二條可以標注為“太/B-syndrome陽/I-syndrome中/I-syndrome風/I-syndrome,/O陽/B-symptom浮/I-symptom而/O陰/Bsymptom弱/I-symptom,/O陽/B-symptom浮/I-symptom者/O,/O熱/B-symptom自/I-symptom發(fā)/I-symptom;/O陰/B-symptom弱/I-symptom者/O,/O汗/Bsymptom自/I-symptom出/I-symptom,/O嗇/B-symptom嗇/I-symptom惡/I-symptom寒/I-symptom,/O淅/B-symptom淅/I-symptom惡/I-symptom風/Isymptom,翕/B-symptom翕/I-symptom發(fā)/I-symptom熱/I-symptom,/O鼻/B-symptom鳴/I-symptom干/B-symptom嘔/I-symptom者/O,/O桂/B-prescription枝/I-prescription湯/I-prescription主/O之/O”。
表1 命名實體標注方法
常見的命名實體識別模型結(jié)構(gòu),如圖1所示,一般包括將輸入的文字生成向量的Embedding層、捕捉輸入的雙向語義依賴的特征提取層以及給標簽添加一些限制確保結(jié)果有效性的輸出標注層。本研究選取Bi LSTM模型[10]作為特征提取層、CRF模 型[11]作 為 輸 出 標 注 層,分 別 以word2vec、BERT-wwm以及ALBERT作為Embedding層構(gòu)建了BiLSTM-CRF模型、BERT-BiLSTM-CRF模型及ALBERT-BiLSTM-CRF模型。
圖1 命名實體識別模型結(jié)構(gòu)
雙向長短時記憶網(wǎng)絡(Bi-directional Long Short-Term Memory,BiLSTM)由前向長短時記憶網(wǎng)絡(LSTM)和后向長短時記憶網(wǎng)絡(LSTM)組成。對于任一時刻t的輸出,前向LSTM記錄了t時刻以及t時刻之前的信息,后向LSTM記錄了t時刻以及t時刻之后的信息。相較于長短記憶網(wǎng)絡(LSTM)模型,BiLSTM模型結(jié)合了輸入序列前向和后向的信息,在自然語言處理的應用中,考慮到“上文”的同時,考慮到了“下文”的信息。條件隨機場(Conditional Random Fields,CRF)可以考慮到已經(jīng)標注好的數(shù)據(jù)的相鄰標記信息,避免得到不合語法的標簽序列,如在一個句子中,疾病的起始詞后不應接癥狀的中間詞。
BERT[12]是2018年Google提出的預訓練模型,采用了MLM隨機屏蔽掉部分token,然后預測被屏蔽掉的token。2020年Yiming Cui等[13]考慮到傳統(tǒng)NLP中的中文分詞,將全詞Mask應用在中文中,發(fā)布了BERT-wwm(Whole Word Masking)。在BERT的基礎上,ALBERT[14]對詞嵌入?yún)?shù)進行因式分解,成功將嵌入層的參數(shù)縮小為原來的1/8;對隱藏層間參數(shù)進行共享,使隱藏層參數(shù)量變?yōu)樵瓉淼?/12或者1/24;同時提出了一種新的訓練任務——句子間順序預測,給模型兩個句子,讓模型去預測這兩個句子的前后順序,使模型能學到更多句子間的語義關系。
為了驗證ALBERT-BiLSTM-CRF模型的有效性,將其分別與BiLSTM-CRF模型、BERT-Bi LSTM-CRF模型進行了比較。
本研究使用多分類任務中的常用評估指標——精確率(precision,P)、召回率(recall,R)以及精確率和召回率的調(diào)和平均(F1-score),評估各模型在《傷寒論》命名實體識別任務中的性能[15]。此外,為了保證實驗結(jié)果的可靠性,對訓練數(shù)據(jù)進行隨機打亂處理,并采用五折交叉驗證對樣本集進行劃分。每個模型均獨立訓練五次,然后將其平均值作為最終的預測結(jié)果。
為了驗證ALBERT-BiLSTM-CRF模型在中醫(yī)古籍實體識別中的有效性,利用隨機打亂標注好的《傷寒論》對各模型進行性能評估,結(jié)果如圖2~4所示。
圖2 各模型實驗結(jié)果—P
圖3 各模型實驗結(jié)果—R
圖4 各模型實驗結(jié)果—F1-score
從實驗結(jié)果可以看出,結(jié)合BERT、ALBERT等預訓練模型識別效果優(yōu)于BiLSTM-CRF模型,按照F1-score值對各模型的性能進行排序,結(jié)果如下:ALBERT-BILSTM-CRF>BERT-BILSTM-CRF>Bi LSTM-CRF。結(jié)果表明蘊含語義關系得到的嵌入向量有助于使中醫(yī)藥古籍實體識別效果的提升;而ALBERT雖然在BERT的基礎上大大削減了模型參數(shù)量,但其提出了句子間順序預測任務,使得Al-BERT-BiLSTM-CRF模型在實驗中的效果優(yōu)于BERT-BiLSTM-CRF模型。
本研究應用ALBERT-BiLSTM-CRF模型進行中醫(yī)藥古籍命名實體識別,對《傷寒論》進行實驗。結(jié)果顯示,相較于傳統(tǒng)的BiLSTM-CRF模型,預訓練模型對命名實體識別任務的效果有較大的提升;相較BERT模型,優(yōu)化后的ALBERT模型更適用于《傷寒論》的命名實體識別任務。中醫(yī)藥古籍是歷代醫(yī)家在臨床實踐中總結(jié)得到的智慧結(jié)晶,提高命名實體識別技術(shù)在中醫(yī)藥古籍中的識別效果,對傳承中醫(yī)藥古籍具有重大意義。本研究采用的數(shù)據(jù)集較小,各類實體分布不均衡,癥狀實體間存在表達的多樣性,缺乏對古文中指代詞的處理。今后研究將進一步增加數(shù)據(jù)集,結(jié)合實體鏈接、融合對齊以及語義理解等方法,提高模型對中醫(yī)藥古籍中命名實體的識別效果。