崔博文,金 濤,王建民
(清華大學(xué)軟件學(xué)院,北京 100084)
信息抽取是電子病歷后結(jié)構(gòu)化的核心步驟。后結(jié)構(gòu)化是指將以自由文本方式錄入的電子病歷進(jìn)行結(jié)構(gòu)化分析,提取出電子病歷中的非結(jié)構(gòu)化信息,并將其轉(zhuǎn)換為結(jié)構(gòu)化信息的過程。后結(jié)構(gòu)化的分析過程往往會(huì)利用醫(yī)學(xué)本體(Ontology)的相關(guān)知識(shí),使用自然語言處理(Natural Language Processing,NLP)領(lǐng)域的先進(jìn)技術(shù),并且需要嚴(yán)格遵循專業(yè)醫(yī)學(xué)術(shù)語以及病歷格式的相關(guān)規(guī)范。
后結(jié)構(gòu)化過程中的信息抽取可以幫助抽取出自由文本電子病歷中的關(guān)鍵信息,如疾病、檢查、癥狀、治療、疾病診斷分類等。在將這些信息按照專業(yè)的醫(yī)學(xué)邏輯進(jìn)行組織分類之后,最終得到的結(jié)構(gòu)化信息具有非常重要的作用。一方面,結(jié)構(gòu)化的病歷信息可以方便病人和醫(yī)生更加直觀地獲取自己關(guān)心的內(nèi)容;另一方面,結(jié)構(gòu)化的電子病歷還有利于計(jì)算機(jī)的識(shí)別存儲(chǔ),并為后續(xù)的數(shù)據(jù)挖掘、知識(shí)庫(kù)和知識(shí)圖譜構(gòu)建及病歷語義檢索等信息分析處理工作奠定基礎(chǔ)[1]。
自由文本病歷后結(jié)構(gòu)化不僅僅包括信息抽取這一個(gè)階段,而是一個(gè)比較復(fù)雜的過程,經(jīng)過相關(guān)領(lǐng)域多年的研究改進(jìn),常規(guī)的電子病歷后結(jié)構(gòu)化流程如圖1所示。
圖1 自由文本電子病歷后結(jié)構(gòu)化的常規(guī)流程Fig.1 General process of post-structuration of free-text electronic medical records
其中,預(yù)處理包括了對(duì)病歷文本進(jìn)行的各種初步處理,以便于后續(xù)信息提取工作的開展,根據(jù)信息抽取方法和所用數(shù)據(jù)集的不同,預(yù)處理過程可能有很大區(qū)別。模板填充是在信息抽取完成之后的最終步驟,一般采用樹狀結(jié)構(gòu)的結(jié)構(gòu)化病歷模板,該步驟中最常使用的數(shù)據(jù)存儲(chǔ)語言是可擴(kuò)展標(biāo)記語言(eXtensible Markup Language,XML)。將信息抽取環(huán)節(jié)抽取到的結(jié)構(gòu)化信息填充到病歷模板中的對(duì)應(yīng)位置,從而形成最終的結(jié)構(gòu)化電子病歷。而介于文本劃分和模板填充之間的信息抽取環(huán)節(jié)是整個(gè)后結(jié)構(gòu)化過程的核心步驟,也是近年來相關(guān)成果的主要研究方向。
概念(醫(yī)療問題、檢查、治療等實(shí)體)的識(shí)別、醫(yī)療問題的修飾和概念間關(guān)系的抽取是電子病歷信息抽取研究的三個(gè)核心任務(wù)。這三個(gè)核心任務(wù)均圍繞醫(yī)療問題這個(gè)中心展開,分別對(duì)應(yīng)了電子病歷后結(jié)構(gòu)化過程中的三個(gè)關(guān)鍵步驟:命名實(shí)體識(shí)別、實(shí)體修飾識(shí)別和實(shí)體關(guān)系抽取。
本文將針對(duì)自由文本電子病歷信息抽取的這三個(gè)主要任務(wù),分析近十幾年來國(guó)內(nèi)外自由文本病歷信息抽取領(lǐng)域的相關(guān)文獻(xiàn)成果,將其中的核心思路、方法進(jìn)行總結(jié)與橫向?qū)Ρ?,分析出其中的?chuàng)新點(diǎn)和不足之處,進(jìn)而提出接下來可能的研究方向和發(fā)展趨勢(shì)。涉及到的文獻(xiàn)主要來自于BIBM(international conference on BioInformatics and BioMedicine)和EMNLP(conference on Empirical Methods in Natural Language Processing)等國(guó)際知名學(xué)術(shù)會(huì)議,以及JAMIA(Journal of the American Medical Informatics Association)和JBI(Journal of Biomedical Informatics)等著名醫(yī)學(xué)信息學(xué)期刊。
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語言處理的基礎(chǔ)任務(wù)之一,也是信息抽取重要的子任務(wù),目的是定位非結(jié)構(gòu)化自由文本中的命名實(shí)體,并將其分類為預(yù)先定義好的類別。命名實(shí)體識(shí)別可以作為信息抽取過程中的后續(xù)任務(wù)(如實(shí)體關(guān)系抽取等)的鋪墊,具有非常重要的地位。
命名實(shí)體識(shí)別需要在識(shí)別實(shí)體邊界的同時(shí),對(duì)定位出的實(shí)體類別進(jìn)行標(biāo)注。英文文本的實(shí)體識(shí)別往往以單詞為最小單位,而中文文本命名實(shí)體識(shí)別則常以單個(gè)漢字為最小單位,形式及單詞含義上的特點(diǎn)使得中文實(shí)體邊界的識(shí)別難度相對(duì)更高。
對(duì)于中文電子病歷,命名實(shí)體識(shí)別任務(wù)的識(shí)別目標(biāo)主要包括以下幾類實(shí)體:實(shí)驗(yàn)室檢驗(yàn)、影像檢查、手術(shù)(治療手段)、疾病、癥狀、藥物、解剖部位等。
從最早的研究到目前國(guó)內(nèi)外的最新研究成果,超過半數(shù)的研究采用的數(shù)據(jù)集是從各種不同的醫(yī)療機(jī)構(gòu)或者醫(yī)療數(shù)據(jù)資源平臺(tái)收集的電子病歷文本,這些病歷文本會(huì)在經(jīng)過人工標(biāo)注之后作為研究進(jìn)行的語料基礎(chǔ)。除此之外,也有一些較為專業(yè)權(quán)威的數(shù)據(jù)集具有相對(duì)較多的使用量。
在命名實(shí)體識(shí)別研究的早期,專業(yè)的病歷文本數(shù)據(jù)集尚未出現(xiàn),但具有一定相關(guān)性的生物醫(yī)學(xué)語料庫(kù)GENETAG[2]和GENIA[3]已經(jīng)得到了廣泛的使用,所以在本世紀(jì)初期的很多研究是在這兩個(gè)數(shù)據(jù)集上展開的。
在2010 年前后,出現(xiàn)了I2B2(Informatics for Integrating Biology and the Bedside)系列評(píng)測(cè)任務(wù)數(shù)據(jù)集[4],如I2B2 2006、I2B2 2010、I2B2 2014 等,該系列數(shù)據(jù)集是比較專業(yè)的用于自然語言處理的臨床記錄數(shù)據(jù)集,在命名實(shí)體識(shí)別的相關(guān)研究中得到了廣泛的使用。
NCBI-Disease[5]是專門用于疾病實(shí)體識(shí)別的數(shù)據(jù)集,在近幾年的國(guó)外研究中經(jīng)常被使用。國(guó)內(nèi)針對(duì)中文病歷文本的相關(guān)研究展開較晚,前期大多使用取自醫(yī)院并進(jìn)行自標(biāo)注的病歷文本。
從2017 年開始,全國(guó)知識(shí)圖譜與語義計(jì)算大會(huì)(China Conference on Knowledge graph and Semantic computing,CCKS)每年都會(huì)舉辦與中文電子病歷相關(guān)的NLP評(píng)測(cè)任務(wù)比賽,并推出了專門用于命名實(shí)體識(shí)別的電子病歷數(shù)據(jù)集,使得近兩年來國(guó)內(nèi)的研究取得了明顯進(jìn)展。
電子病歷的命名實(shí)體識(shí)別需要同時(shí)確定實(shí)體邊界和實(shí)體類別,因此,只有當(dāng)實(shí)體邊界以及實(shí)體類別的識(shí)別均正確時(shí),才可以認(rèn)為命名實(shí)體識(shí)別的結(jié)果是正確的。
電子病歷命名實(shí)體識(shí)別常用的評(píng)價(jià)指標(biāo)是準(zhǔn)確率(Precision)、召回率(Recall)和F1值。針對(duì)命名實(shí)體識(shí)別任務(wù)的特點(diǎn),用于計(jì)算以上三種評(píng)價(jià)指標(biāo)數(shù)值的TP(True Positive)、FP(False Positive)以及FN(False Negative)也應(yīng)當(dāng)重新進(jìn)行定義。例如:定義TP 為識(shí)別完全正確,定義FP 為實(shí)體識(shí)別正確但類別或邊界判定出現(xiàn)錯(cuò)誤,定義FN為應(yīng)該被識(shí)別但實(shí)際沒有被識(shí)別。
對(duì)于電子病歷的實(shí)體修飾識(shí)別和實(shí)體關(guān)系抽取,常用的評(píng)價(jià)指標(biāo)也是準(zhǔn)確率、召回率和F1值,后文中不再贅述。
電子病歷命名實(shí)體識(shí)別方法的發(fā)展整體上經(jīng)歷了基于規(guī)則與詞典的方法,以條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)CRF 為代表的統(tǒng)計(jì)機(jī)器學(xué)習(xí)和以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、BERT(Bidirectional Encoder Representations from Transformers)為代表的深度學(xué)習(xí)三個(gè)階段。
基于規(guī)則與詞典的方法在20 世紀(jì)末期和21 世紀(jì)初期的早期研究中使用較多。基于詞典和規(guī)則的方法往往依賴于人工制定的規(guī)則模板,即需要命名實(shí)體相關(guān)領(lǐng)域的專家將專業(yè)領(lǐng)域內(nèi)的各類專業(yè)名詞、術(shù)語等進(jìn)行收集、整理,從而構(gòu)建出可以作為識(shí)別依據(jù)的專業(yè)詞典,而對(duì)于詞典中缺少的專有名詞,主要的處理方法則是制定相應(yīng)的規(guī)則。這類命名實(shí)體識(shí)別方法的主要思路是通過對(duì)文本結(jié)構(gòu)特點(diǎn)、語言特點(diǎn)以及上下文特點(diǎn)進(jìn)行分析與研究,來進(jìn)一步構(gòu)建符合這些特點(diǎn)的規(guī)則模型,之后再將需要識(shí)別的文本與構(gòu)建出來的規(guī)則進(jìn)行匹配,從而實(shí)現(xiàn)命名實(shí)體的識(shí)別?;谠~典和規(guī)則的方法主要通過專業(yè)領(lǐng)域詞典、知識(shí)庫(kù)和文本規(guī)則的構(gòu)建來實(shí)現(xiàn)。因此,對(duì)最終的識(shí)別效果起到最為關(guān)鍵作用的,是詞典的專業(yè)性、完備性,以及構(gòu)建出的規(guī)則的質(zhì)量。早期醫(yī)療領(lǐng)域的多種代表性實(shí)體識(shí)別工具都是采用基于詞典的方法實(shí)現(xiàn)的,其中MedLEE(Medical Language Extraction and Encoding)于1994年由Friedman 等[6]研發(fā),利用詞匯及語法的規(guī)則及醫(yī)療實(shí)體詞典對(duì)疾病名稱和修飾成分進(jìn)行識(shí)別;而IBM 的MedKAT(Medical Knowledge Analysis Tool)[7]和Mayo Clinic 的cTAKES(clinical Text Analysis and Knowledge Extraction System)[8]則只利用了詞典進(jìn)行實(shí)體識(shí)別。
隨著機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,各種機(jī)器學(xué)習(xí)算法開始應(yīng)用于命名實(shí)體識(shí)別任務(wù)。統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法利用計(jì)算機(jī)自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分析,并根據(jù)獲取到的內(nèi)在規(guī)律,得到能夠應(yīng)用于實(shí)際研究工作當(dāng)中的模型。由于僅僅使用詞典或規(guī)則無法很好地處理復(fù)雜的語句內(nèi)容,且基于規(guī)則與詞典的方法只適用于特定類型實(shí)體的識(shí)別,泛化能力不足,因此基于詞典和規(guī)則方法目前已經(jīng)不再是主流,而往往作為機(jī)器學(xué)習(xí)方法的補(bǔ)充。與基于詞典和規(guī)則的方法相同,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法也離不開大規(guī)模專業(yè)標(biāo)注語料庫(kù)的支持,為了更好地完成模型的訓(xùn)練,需要對(duì)語料庫(kù)中的數(shù)據(jù)進(jìn)行分詞處理以及詞性標(biāo)注。除此之外,還需要結(jié)合詞典和規(guī)則,構(gòu)建特征模板并用于文本的匹配[9]。
在各種統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法中,使用較早且比較廣泛的是基于支持向量機(jī)(Support Vector Machine,SVM)的多分類模型,基于SVM 分類的方法能夠充分利用醫(yī)療問題的上下文信息,綜合使用病歷文本中的上下文、句法、標(biāo)題等多種特征,從而在效果上優(yōu)于傳統(tǒng)的基于規(guī)則和詞典的方法。
基于隱馬爾可夫模型(Hidden Markov Model,HMM)的方法也是21 世紀(jì)初期醫(yī)療領(lǐng)域命名實(shí)體識(shí)別的常用方法之一。Zhou 等[10]將一個(gè)SVM 分類器和兩個(gè)HMM 分類器進(jìn)行了組合,發(fā)現(xiàn)不同的分類器在數(shù)據(jù)集上的結(jié)果不同且可以相互補(bǔ)充,從而在GENETAG 數(shù)據(jù)集上的F1 值達(dá)到了0.83;de Bruijn等[11]利用HMM 在I2B2 2010 數(shù)據(jù)集上取得了0.85 的F1 值。然而,由于HMM 只依賴于每一個(gè)狀態(tài)和它對(duì)應(yīng)的觀察對(duì)象,這與序列標(biāo)注問題需要考慮序列長(zhǎng)度和單詞上下文的特性并不相符,更適用于對(duì)實(shí)時(shí)性有要求或文本較短的命名實(shí)體識(shí)別,因此在后續(xù)研究中被逐漸淘汰。
基于最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)的方法在2010 年前后得到了比HMM 更為廣泛的使用,F(xiàn)inkel 等[12]、Saha 等[13]的研究成果都利用了基于MEMM 的方法。與HMM 相比,MEMM 能夠捕捉到相鄰狀態(tài)之間的依賴關(guān)系,并且考慮到了整體輸入序列,因此表達(dá)能力更強(qiáng)。
基于CRF 的方法經(jīng)常被用來與基于SVM 的方法進(jìn)行比較,在以Li等[14]、Jiang等[15]為代表的對(duì)比研究中,多數(shù)都得出了基于CRF 的方法效果優(yōu)于基于SVM 的方法的結(jié)論;同時(shí),CRF模型在實(shí)踐和理論上均優(yōu)于HMM,因?yàn)镃RF沒有嚴(yán)格的獨(dú)立性假設(shè)條件,可以靈活地容納上下文信息;而相對(duì)于MEMM,還克服了其標(biāo)記偏置的缺點(diǎn),能夠求得全局的最優(yōu)解,不過,這也導(dǎo)致了CRF 模型復(fù)雜度較高,訓(xùn)練時(shí)間較長(zhǎng)。由于CRF精度上的優(yōu)越性,業(yè)界知名的I2B2在2010年初次發(fā)起針對(duì)自由文本病歷實(shí)體識(shí)別的評(píng)測(cè)任務(wù)時(shí),當(dāng)時(shí)的主流思路就是使用CRF 來構(gòu)建分類器,例如Jonnalagadda 等[16]、Jiang等[15]使用CRF分別在I2B2 2010數(shù)據(jù)集上取得了0.82和0.84的F1 值。而在基于長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的方法流行起來之前,SVM 與CRF 結(jié)合的方法一直是重要的研究方向。
結(jié)構(gòu)化支持向量機(jī)(Structural SVM,SSVM)是對(duì)SVM 模型的改進(jìn),通過修改SVM 的約束條件以及目標(biāo)和核函數(shù),對(duì)SVM進(jìn)行了拓展,使其可以預(yù)測(cè)結(jié)構(gòu)化問題。Lei等[17]使用了基于SSVM 的方法,取得了不錯(cuò)的效果。此外,曲春燕[18]嘗試了SSVM 與CRF 的組合,這種方法作為SVM+CRF 方法的改進(jìn)版本,利用結(jié)構(gòu)化SVM實(shí)現(xiàn)了判別能力的提升。
隨著深度學(xué)習(xí)的逐漸流行,研究者發(fā)現(xiàn)RNN 十分適合用來解決序列標(biāo)注問題,電子病歷命名實(shí)體識(shí)別研究進(jìn)入了新的階段。
在各種RNN 模型中,首先得到廣泛使用的是LSTM。LSTM是典型的序列標(biāo)注模型,由于梯度消失和梯度爆炸等問題,傳統(tǒng)RNN 對(duì)于長(zhǎng)期依賴無法很好地進(jìn)行處理,而基于LSTM的方法可以更好地捕捉到文本中較長(zhǎng)距離的依賴關(guān)系,非常適合用于對(duì)文本數(shù)據(jù)進(jìn)行建模,且在大數(shù)據(jù)量的情況下效果優(yōu)于CRF。LSTM 模型應(yīng)用于醫(yī)療領(lǐng)域命名實(shí)體識(shí)別在2015 年后開始流行,但由于無法編碼從后到前的信息,很快便被基于雙向長(zhǎng)短期記憶(Bi-directional LSTM,BiLSTM)網(wǎng)絡(luò)的方法取代。在那之前,LSTM+CRF 是曾經(jīng)比較流行的模型之一,如Ling 等[19]在LSTM+CRF 的基礎(chǔ)上使用了字符級(jí)別的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和LSTM 來做embedding;Cai 等[20]的研究則加入了注意力(Attention)機(jī)制,在CCKS2018 提供的中文數(shù)據(jù)集中取得了0.80的F1值。
基于BiLSTM 的方法在LSTM 模型的基礎(chǔ)上進(jìn)行了改進(jìn),可以更好地捕捉雙向的語義依賴,因而成為了近幾年醫(yī)療領(lǐng)域命名實(shí)體識(shí)別應(yīng)用最廣泛的方法之一,如李劍風(fēng)[21]、Li等[22]都利用基于BiLSTM 的方法取得了較好的效果。為了更有效地提高模型效果,目前最先進(jìn)的方法往往會(huì)將BiLSTM與其他模型,如CRF 等進(jìn)行結(jié)合。BiLSTM+CRF 是目前最流行的序列標(biāo)注模型之一,主要思路是將前向LSTM 和后向LSTM 的輸出拼接為新的向量作為后層條件隨機(jī)場(chǎng)的輸入,從而彌補(bǔ)了CRF 需要人工提取序列特征的缺點(diǎn)和BiLSTM 無法學(xué)習(xí)標(biāo)注的上下文信息的缺點(diǎn),實(shí)現(xiàn)了精度上的顯著提高。許多研究[23-29]均使用BiLSTM+CRF 取得了較好的結(jié)果。在此基礎(chǔ)上,還出現(xiàn)了許多改進(jìn)版本,如Multitask-BiLSTM-CRF[30]、Attention-BiLSTM-CRF[31]、CNN-BiLSTM-CRF[32]等。其中,Ji等[33]利用兩個(gè)BiLSTM-CRF 模型與一個(gè)CNN 模型配合訓(xùn)練,在CCKS2019中文醫(yī)療命名實(shí)體識(shí)別比賽中奪得冠軍。
以BERT 為代表的預(yù)訓(xùn)練模型也是近幾年的主流方法之一。這類方法的計(jì)算復(fù)雜度較高,但對(duì)于長(zhǎng)距離依賴的捕捉能力比RNN 更強(qiáng),在各種NLP 任務(wù)中經(jīng)常被用來生成詞向量,例如Yu 等[34]利用BERT-BiLSTM-CRF 模型在I2B2 2010 數(shù)據(jù)集上取得了0.871 的F1 值,超過了之前的主流方法。由于BERT 的強(qiáng)大能力,很多研究者認(rèn)為BERT 可以完全替代各種RNN 模型,例如Mao 等[35]僅僅使用BERT-CRF 就在MEDDOCAN(MEDical DOCument ANonymization track)評(píng)測(cè)任務(wù)中取得了0.937 5的F1值。
修飾識(shí)別(Assertion Detection)是自由文本電子病歷信息抽取過程特有的任務(wù),指在給定病歷文本中的疾病、癥狀等特定類別實(shí)體的情況下,從文本中識(shí)別出這些實(shí)體的修飾成分的過程。
修飾識(shí)別任務(wù)能夠用于判斷疾病、癥狀等醫(yī)學(xué)實(shí)體與患者的關(guān)系,即實(shí)體是否在患者身上發(fā)生以及實(shí)體如何在患者身上發(fā)生。早期的許多修飾識(shí)別研究專注于前者,即只判斷修飾成分表達(dá)的含義為肯定或否定。I2B2 2010評(píng)測(cè)[5]提出了6 種修飾成分類型:present(目前患有的)、absent(未患有的)、possible(可能發(fā)生的)、conditional(特定條件下發(fā)生的)、family(非患者本人的)、hypothetically(未來可能發(fā)生的)?,F(xiàn)在常用的修飾識(shí)別標(biāo)簽大多在此基礎(chǔ)上進(jìn)行調(diào)整,比如Zhang 等[36]提出的7種修飾成分類型,詳見表1所示。
表1 常用修飾成分類型Tab.1 Typical assertion types
這些修飾成分在患者病情的分析過程中起到了十分關(guān)鍵的作用。因此,為了確保信息抽取結(jié)果盡可能準(zhǔn)確,自由文本電子病歷的修飾識(shí)別任務(wù)是非常重要的。
目前,I2B2 系列評(píng)測(cè)數(shù)據(jù)是電子病歷實(shí)體修飾識(shí)別最常用的數(shù)據(jù)集。MIMIC(Medical Information Mart for Intensive Care)[37]作為知名的醫(yī)療數(shù)據(jù)集,也在2019 年推出了新的放射報(bào)告數(shù)據(jù)集MIMIC-CXR(Medical Information Mart for Intensive Care,Chest X-Ray)[38]。除此之外,多數(shù)相關(guān)研究都選擇了在自標(biāo)注的電子病歷文本上進(jìn)行實(shí)驗(yàn)。
電子病歷實(shí)體修飾識(shí)別的研究經(jīng)歷了基于規(guī)則的方法、以SVM為代表的統(tǒng)計(jì)機(jī)器學(xué)習(xí)和RNN深度學(xué)習(xí)三個(gè)階段。
基于規(guī)則的方法是早期最流行的方法之一,尤其是基于正則表達(dá)式規(guī)則的方法,在很長(zhǎng)一段時(shí)間內(nèi)都是修飾識(shí)別領(lǐng)域的主流方法,這些方法對(duì)于標(biāo)簽類別較少的情況識(shí)別效果較好,Chapman 等[39]、Harkema 等[40]都提出了基于正則表達(dá)式規(guī)則的經(jīng)典方法,在各類自標(biāo)注的病歷文本上取得了較好的效果。
但是,這類方法往往只能有效區(qū)分修飾成分的含義為肯定或否定,隨著修飾成分類別的逐漸增多,基于規(guī)則的方法對(duì)于后來越來越復(fù)雜的標(biāo)簽類別并不能實(shí)現(xiàn)非常理想的分類效果,因此,在I2B2 提出的6 種修飾成分類型得到推廣之后,這類方法的使用往往只限于標(biāo)簽較少的情況。例如Mehrabi等[41]只利用規(guī)則來識(shí)別肯定和否定,在采集自印第安納大學(xué)的電子病歷數(shù)據(jù)集中取得了高達(dá)0.96 的F1 值;而Sohn 等[42]在I2B2 2010 評(píng)測(cè)數(shù)據(jù)集中使用基于規(guī)則的方法,最終的F1值為0.84,遠(yuǎn)低于當(dāng)時(shí)流行的機(jī)器學(xué)習(xí)方法。
在各種統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法中,最常用的是基于SVM 的多分類方法,這種方法在I2B2 2010 評(píng)測(cè)任務(wù)中大放異彩,成為使用最為廣泛的模型之一。以SVM 為代表的機(jī)器學(xué)習(xí)方法相對(duì)于基于規(guī)則的傳統(tǒng)方法,能夠充分利用病歷文本的上下文信息,而特征的選取對(duì)于這類方法的效果有著非常重要的影響。Grouin 等[43]、Jiang 等[15]、de Bruijn 等[11]采用SVM 分類器分別在I2B2 2010 數(shù)據(jù)集上取得了0.93、0.93、0.94 的F1值。
基于各種RNN 模型的深度學(xué)習(xí)方法是目前比較流行的方法,比較常見的包括BiLSTM、門控循環(huán)單元(Gated Recurrent Unit,GRU)等。這些方法往往首先利用先進(jìn)的RNN模型獲取各種級(jí)別的表征,之后再進(jìn)行分類。同時(shí),這些方法經(jīng)常會(huì)將RNN 與其他模型進(jìn)行結(jié)合,如Zhang 等[36]將CNN 與GRU 進(jìn)行結(jié)合,利用CNN 獲取字符級(jí)別的表征,利用GRU 獲取句子級(jí)別的表征,并結(jié)合Attention 機(jī)制,實(shí)現(xiàn)了較高的精度;Liventsev 等[44]利用加入了Attention 的LSTM 在MIMICCXR數(shù)據(jù)集中取得了0.95的F1值。
實(shí)體關(guān)系抽?。‥ntity Relation Extraction)是命名實(shí)體識(shí)別的后續(xù)任務(wù),指按照預(yù)先定義的模板確定抽取任務(wù)及要求,然后對(duì)文本中實(shí)體間的關(guān)系信息進(jìn)行識(shí)別和抽取。
在自然語言處理問題中,電子病歷中的一些專業(yè)概念,如藥品、治療方法、癥狀等實(shí)體,相互之間存在著語義關(guān)系,這種關(guān)系與實(shí)體以及其對(duì)應(yīng)的上下文有關(guān)[45]。
實(shí)體關(guān)系抽取的主要任務(wù)目標(biāo)不僅僅是抽取文本中的實(shí)體關(guān)系,更重要的是判斷實(shí)體間關(guān)系的類型。電子病歷的信息抽取主要關(guān)注治療、醫(yī)療問題(包括疾病、癥狀等)和檢查之間的關(guān)系,常用的關(guān)系定義來源于I2B2 2010 評(píng)測(cè)[5]提供的8種實(shí)體關(guān)系類型,詳見表2 所示。在此基礎(chǔ)上對(duì)問題進(jìn)行細(xì)分則能夠得到更加復(fù)雜的實(shí)體關(guān)系類型。
表2 I2B2定義的8種實(shí)體關(guān)系類型Tab.2 Eight types of entity relations defined by I2B2
抽取這幾類實(shí)體間的關(guān)系具有非常重要的作用。一方面,可以基于這些關(guān)系構(gòu)造能夠清晰表現(xiàn)患者健康狀況的病歷摘要;另一方面,可以利用這些關(guān)系挖掘潛在的藥物之間的關(guān)聯(lián);進(jìn)一步地,還可以將抽取出的實(shí)體關(guān)系信息圍繞著醫(yī)療問題這個(gè)中心進(jìn)行結(jié)構(gòu)化組織,從而形成囊括了疾病、治療和檢查等常見醫(yī)療概念的系統(tǒng)表示[46]。
I2B2 系列評(píng)測(cè)數(shù)據(jù)在國(guó)外的相關(guān)研究中占據(jù)了重要地位,其中,使用最廣泛的是2010年的評(píng)測(cè)數(shù)據(jù)集。
THYME(Temporal Histories of Your Medical Event)是專注醫(yī)療領(lǐng)域關(guān)系抽取的THYME 項(xiàng)目推出的醫(yī)療關(guān)系抽取標(biāo)注數(shù)據(jù)集,使用了來自梅奧醫(yī)學(xué)中心的數(shù)據(jù)。
與命名實(shí)體識(shí)別類似,國(guó)內(nèi)大多數(shù)電子病歷實(shí)體關(guān)系抽取的研究采用的是經(jīng)過人工標(biāo)注的采集自不同醫(yī)院的自由文本電子病歷。
除此之外,2019 年阿里云天池實(shí)驗(yàn)室公開了中文糖尿病標(biāo)注數(shù)據(jù)集,該數(shù)據(jù)集來源于中文糖尿病領(lǐng)域的權(quán)威期刊,涵蓋了近7 年來糖尿病領(lǐng)域最廣泛的研究?jī)?nèi)容和熱點(diǎn),包括實(shí)體標(biāo)注和關(guān)系標(biāo)注。雖然由于推出時(shí)間較短等原因,暫時(shí)未得到廣泛使用,但仍是具有一定權(quán)威性的中文關(guān)系標(biāo)注開源數(shù)據(jù)集。
電子病歷實(shí)體關(guān)系抽取的方法比較多樣,早期的共現(xiàn)(Co-occurrence)分析[47]基于“實(shí)體與其關(guān)聯(lián)實(shí)體往往更加容易同時(shí)出現(xiàn)”的假設(shè),能夠一定程度上判斷出關(guān)系的存在。機(jī)器學(xué)習(xí)得到廣泛應(yīng)用之后,基于SVM 的多分類模型迅速成為主流方法,如Nikfarjam 等[48]在SVM 的基礎(chǔ)上,加入了基于圖的參考機(jī)制和規(guī)則的使用,在I2B2 2012評(píng)測(cè)任務(wù)中取得了較高的排名;而Kim 等[49]利用parse tree 結(jié)構(gòu)和實(shí)體類型后綴提高了SVM在關(guān)系抽取任務(wù)上的效果。
除此之外,很多其他統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法也曾取得了比較好的效果,如de Bruijn 等[11]利用基于MEMM 的多個(gè)分類器分別抽取不同類型的實(shí)體間關(guān)系;Lv 等[50]在CRF 的基礎(chǔ)上,利用自編碼器對(duì)輸入特征進(jìn)行優(yōu)化,在I2B2 2010評(píng)測(cè)數(shù)據(jù)集上取得了0.8 的F1 值。與命名實(shí)體識(shí)別類似,基于機(jī)器學(xué)習(xí)方法的實(shí)體關(guān)系抽取往往也離不開各種專業(yè)醫(yī)療詞典及規(guī)則的輔助。由于自由文本病歷大多比較簡(jiǎn)短,在進(jìn)行實(shí)體關(guān)系的抽取時(shí),不容易獲取到足夠的上下文特征,這時(shí)就需要從相關(guān)的詞典等外部資源中獲取一部分所需的關(guān)系信息。
進(jìn)入深度學(xué)習(xí)時(shí)代,基于CNN 的方法被用來解決關(guān)系抽取問題。Sahu 等[51]利用卷積神經(jīng)網(wǎng)絡(luò)來減少對(duì)人工特征工程的依賴,并在I2B2 2010評(píng)測(cè)任務(wù)中取得了0.711 6的F1值。后續(xù)的很多工作在CNN 模型的基礎(chǔ)上進(jìn)行改進(jìn),成為常見的思路之一。由于Attention 機(jī)制的引入在最近幾年成為一種流行趨勢(shì)。Zhang 等[52]以ResNet 為基礎(chǔ),在多個(gè)殘差塊后加入Attention 機(jī)制,在自標(biāo)注的中文電子病歷上F1 值達(dá)到了0.778。
基于RNN 的方法是目前的主流方法,如Dligach 等[53]將不同類型的標(biāo)注序列分別輸入CNN 和LSTM,并將二者的輸出結(jié)果進(jìn)行融合,得到的集成分類器在THYME 數(shù)據(jù)集上取得了較好的效果;Christopoulou 等[54]利用添加了Attention 機(jī)制的BiLSTM 和Transformer 分別進(jìn)行句子內(nèi)部和句子之間的實(shí)體關(guān)系抽取,利用多任務(wù)模型在N2C2(National NLP Clinical Challenges)評(píng)測(cè)任務(wù)中取得了較高的排名;Song 等[55]將圖循環(huán)網(wǎng)絡(luò)(Graph Recurrent Network,GRN)與BiLSTM 相結(jié)合,從而提高了BiLSTM 模型的效果;Xue等[56]在BERT的基礎(chǔ)上利用Attention 機(jī)制實(shí)現(xiàn)了命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取的多任務(wù)處理。
自由文本電子病歷信息抽取的核心環(huán)節(jié)——命名實(shí)體識(shí)別、實(shí)體修飾識(shí)別和實(shí)體關(guān)系抽取的相關(guān)研究,在過去的十多年間取得了長(zhǎng)足的進(jìn)步。
在國(guó)外,像I2B2、THYME這類專業(yè)的用于命名實(shí)體識(shí)別、實(shí)體修飾識(shí)別或?qū)嶓w關(guān)系抽取的數(shù)據(jù)集和語料庫(kù)早已出現(xiàn),并且得到了不斷的改良和廣泛的應(yīng)用。
而在國(guó)內(nèi),不但相關(guān)領(lǐng)域的研究開始得比較晚,而且在很長(zhǎng)一段時(shí)間內(nèi),都缺少專業(yè)且全面的病歷文本語料庫(kù)。
在2017 年之前,國(guó)內(nèi)的命名實(shí)體識(shí)別研究一般都會(huì)選擇取自不同醫(yī)院的電子病歷文本,并根據(jù)需要進(jìn)行自標(biāo)注。來源以及標(biāo)注方法的不同使得命名實(shí)體識(shí)別方法的優(yōu)劣無法很好地根據(jù)模型在這些自標(biāo)注病歷文本上的效果來判斷。CCKS 中文電子病歷命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)比賽的出現(xiàn)緩解了這一僵局,CCKS推出的專門用于命名實(shí)體識(shí)別的電子病歷數(shù)據(jù)集,使得近兩年來國(guó)內(nèi)的相關(guān)研究取得了顯著進(jìn)展。
與命名實(shí)體識(shí)別領(lǐng)域的研究類似,國(guó)內(nèi)的中文電子病歷實(shí)體修飾識(shí)別和實(shí)體關(guān)系抽取研究也一直只能依靠自標(biāo)注的病歷文本展開,并且目前尚未出現(xiàn)比較權(quán)威且得到廣泛使用的數(shù)據(jù)集。
隨著深度學(xué)習(xí)的發(fā)展,利用神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行命名實(shí)體識(shí)別、實(shí)體修飾識(shí)別和實(shí)體關(guān)系抽取對(duì)數(shù)據(jù)的要求也變得更高。人工對(duì)數(shù)據(jù)進(jìn)行標(biāo)注能夠確保正確率,但需要耗費(fèi)大量時(shí)間和人力。這使得國(guó)內(nèi)相關(guān)研究所使用的自標(biāo)注數(shù)據(jù)集往往規(guī)模較小。
現(xiàn)有的深度學(xué)習(xí)方法絕大多數(shù)是基于完整標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)。中文醫(yī)療領(lǐng)域語料庫(kù)資源的不完善對(duì)于相關(guān)研究的開展有著顯著的影響。雖然可以通過先在其他大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練,再在小規(guī)模病歷數(shù)據(jù)集上微調(diào)的方法,在一定程度上改善這個(gè)問題,但為了更好地解決這個(gè)問題,主流的方法是將病歷文本與現(xiàn)有的醫(yī)學(xué)領(lǐng)域知識(shí)圖譜進(jìn)行對(duì)齊,利用遠(yuǎn)程監(jiān)督自動(dòng)標(biāo)注大規(guī)模訓(xùn)練數(shù)據(jù)。比如,在實(shí)體關(guān)系抽取任務(wù)的遠(yuǎn)程監(jiān)督中,包含了兩個(gè)在知識(shí)圖譜中被標(biāo)記為某種關(guān)系的實(shí)體的句子,也被視為表達(dá)了這種關(guān)系,因此可以用作這種關(guān)系的訓(xùn)練樣例。這種方法的缺陷是容易產(chǎn)生過多錯(cuò)誤標(biāo)注。近年來,遠(yuǎn)程監(jiān)督的錯(cuò)誤率已經(jīng)得到了明顯降低,但仍無法完全保證標(biāo)注質(zhì)量。
此外,由于現(xiàn)有中文分詞工具,如中國(guó)科學(xué)院的漢語詞法分析系統(tǒng) ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[57]等,在實(shí)際應(yīng)用中具有一定的限制,可能無法正確地識(shí)別用于實(shí)驗(yàn)的語料中的一些實(shí)體名稱和信息;而且實(shí)體關(guān)系抽取中的特征選擇,很大程度上依賴于各種自然語言處理工具,如詞性標(biāo)注(Part-Of-Speech tagging,POS)等,但中文的語義結(jié)構(gòu)相對(duì)來說比較復(fù)雜,在處理過程中出現(xiàn)各種錯(cuò)誤是不可避免的。
另一方面,當(dāng)前流行的各種深度學(xué)習(xí)模型都需要將詞向量作為模型的輸入,而針對(duì)中文電子病歷的詞向量訓(xùn)練模型及詞向量表非常缺乏且大多不夠成熟,這也一定程度上阻礙了研究的發(fā)展。
通過對(duì)現(xiàn)有研究成果的總結(jié)可以看出,目前基于深度學(xué)習(xí)的方法已經(jīng)在這三個(gè)研究領(lǐng)域成為主流。
具體來說,在自由文本電子病歷的命名實(shí)體識(shí)別領(lǐng)域,基于雙向LSTM 與CRF 的組合序列標(biāo)注模型和BERT 等transformer 模型在近兩年的最新成果中占據(jù)了主要地位,這是由于LSTM 能夠更好地獲取到較長(zhǎng)距離的依賴關(guān)系及詞語在句子中的前后順序關(guān)系,而雙向LSTM 則在此基礎(chǔ)上增加了獲取雙向語義依賴的能力,從而使得該模型能夠充分地對(duì)上下文信息進(jìn)行建模;同樣,BERT 的流行也主要源于其極強(qiáng)的長(zhǎng)距離依賴捕捉能力。
病歷文本實(shí)體修飾識(shí)別的相關(guān)研究相對(duì)較少,目前流行的方法多為基于BiLSTM或GRU等RNN模型的混合方法。
而在近幾年的自由文本電子病歷的實(shí)體關(guān)系抽取研究成果中,則出現(xiàn)了多種不同的思路:基于CNN 的方法、基于BiLSTM 的方法、基于BERT 的方法等都實(shí)現(xiàn)了比較不錯(cuò)的效果。
在這些方法的基礎(chǔ)上,很多最新的研究成果將關(guān)注點(diǎn)放在了如何優(yōu)化現(xiàn)有方法上。目前比較流行的優(yōu)化思路包括以下幾種:
通過改進(jìn)模型,使其能夠通過同一輸入得到多個(gè)輸出,同時(shí)實(shí)現(xiàn)多種具有相關(guān)性的目標(biāo)的多任務(wù)模型。多任務(wù)模型能夠在提高效率的同時(shí),利用不同任務(wù)部分的相互補(bǔ)充,使得多種任務(wù)的最終效果都得到提升。這些任務(wù)往往在模型實(shí)現(xiàn)和數(shù)據(jù)來源上具有一定的相似性。
由于命名實(shí)體識(shí)別與實(shí)體關(guān)系抽取具有一定的關(guān)聯(lián),即后者需要依據(jù)前者識(shí)別出的實(shí)體進(jìn)行關(guān)系的抽取,所以傳統(tǒng)的思路大多是將二者按序進(jìn)行的流水線方法。這種方式有很多缺點(diǎn):1)命名實(shí)體識(shí)別部分的錯(cuò)誤會(huì)影響到后續(xù)的實(shí)體關(guān)系抽取,導(dǎo)致最后的結(jié)果錯(cuò)誤率更高;2)在整個(gè)過程中大量信息會(huì)丟失,影響最后的關(guān)系抽取效果;3)對(duì)第一步識(shí)別出來的實(shí)體兩兩配對(duì)后再進(jìn)行關(guān)系分類,沒有關(guān)系的實(shí)體對(duì)會(huì)造成信息的冗余,從而提升錯(cuò)誤率。
聯(lián)合學(xué)習(xí)是一種多任務(wù)方法,在電子病歷信息抽取過程中,聯(lián)合學(xué)習(xí)能夠利用實(shí)體和關(guān)系之間緊密的交互信息,通過命名實(shí)體識(shí)別和關(guān)系分類共享參數(shù)的聯(lián)合模型,直接得到實(shí)體關(guān)系三元組,同時(shí)完成命名實(shí)體識(shí)別和實(shí)體對(duì)分類的任務(wù),從而很好地解決了傳統(tǒng)方法存在的問題[58-59],如Liu等[60]利用self-attention 學(xué)習(xí)句子內(nèi)部的關(guān)系,提高了BiLSTM 的聯(lián)合抽取效果。現(xiàn)有的方法大多只考慮了每個(gè)詞屬于一個(gè)三元組的情況,而且模型相對(duì)來說比較復(fù)雜,在數(shù)據(jù)量較少的情況下效果不夠理想,因此還有很大的提升空間。
在BERT 等預(yù)訓(xùn)練模型流行起來之后,在BERT 基礎(chǔ)上進(jìn)行改良,并利用多任務(wù)模型完成實(shí)體識(shí)別和關(guān)系抽取的方法開始出現(xiàn),如Xue 等[56]利用動(dòng)態(tài)距離Attention 機(jī)制增強(qiáng)了共享參數(shù)部分的特征表達(dá)能力,Eberts 等[61]則利用負(fù)采樣、局部化上下文表征等手段提高了BERT 模型在聯(lián)合抽取任務(wù)上的效果。
同樣,命名實(shí)體識(shí)別與實(shí)體修飾識(shí)別具有較強(qiáng)的關(guān)聯(lián)性,也有研究將二者結(jié)合起來,利用多任務(wù)模型同時(shí)完成這兩項(xiàng)任務(wù),如Bhatia 等[62]對(duì)常見的雙解碼器多任務(wù)模型進(jìn)行了改良,讓兩個(gè)任務(wù)共享解碼器,只對(duì)修飾識(shí)別任務(wù)的輸出層進(jìn)行特殊處理,最終使用I2B2 2010 數(shù)據(jù)集在實(shí)體識(shí)別、修飾識(shí)別任務(wù)中分別取得了0.855和0.905的F1值。
另一種流行的思路是引入Attention 機(jī)制。Attention 機(jī)制能夠從較長(zhǎng)的序列中學(xué)習(xí)到每一個(gè)元素的重要程度,并依靠重要程度對(duì)序列中的元素進(jìn)行合并。這種機(jī)制的引入使得模型能夠選擇性地關(guān)注輸入序列中更具有價(jià)值的部分。事實(shí)證明,Attention 機(jī)制的引入對(duì)于部分命名實(shí)體識(shí)別、實(shí)體修飾識(shí)別和實(shí)體關(guān)系抽取模型具有一定的優(yōu)化效果。
除了上述這些已經(jīng)經(jīng)過多次實(shí)踐檢驗(yàn)的有效改進(jìn)手段之外,還有一些相關(guān)領(lǐng)域的最新嘗試暫時(shí)沒有有效地應(yīng)用在中文電子病歷的實(shí)體識(shí)別、修飾識(shí)別和關(guān)系抽取任務(wù)中。
比如小樣本學(xué)習(xí),這種方法的目標(biāo)是在樣本有限的情況下盡可能地提升分類效果。Han 等[63]首次嘗試將小樣本學(xué)習(xí)引入到關(guān)系抽取任務(wù)中,利用度量學(xué)習(xí)、元學(xué)習(xí)、參數(shù)預(yù)測(cè)、原型網(wǎng)絡(luò)等小樣本學(xué)習(xí)方法分別進(jìn)行嘗試,并在之后利用海量無監(jiān)督數(shù)據(jù)對(duì)BERT 進(jìn)行了預(yù)訓(xùn)練,從而為小樣本學(xué)習(xí)模型提供有效的語義特征,最終實(shí)現(xiàn)了較為理想的效果。
利用關(guān)系之間的依賴關(guān)系來輔助進(jìn)行信息抽取,但這種關(guān)系很難從數(shù)據(jù)集中學(xué)習(xí)到。引入關(guān)系路徑等作為先驗(yàn)信息和利用ranking loss 建立關(guān)系依賴是目前比較常見的思路,但仍有很大研究空間。
除此之外,利用圖神經(jīng)網(wǎng)絡(luò)來進(jìn)行關(guān)系推理是最近的熱門研究方向之一,但在電子病歷信息抽取的研究中暫時(shí)還沒有得到推廣,在未來一段時(shí)間內(nèi)可能成為一個(gè)比較有潛力的發(fā)展趨勢(shì)。
雖然現(xiàn)有的電子病歷信息抽取方法已經(jīng)取得了大量?jī)?yōu)秀的成果,也誕生了許多嶄新的研究思路,但目前仍存在著一些不足和缺陷沒有得到解決。
首先,現(xiàn)有的方法往往只針對(duì)某種類型的封閉式數(shù)據(jù)集。即使是在電子病歷信息抽取這一個(gè)具體的領(lǐng)域,由于病歷文本在不同地區(qū)、不同醫(yī)院沒有統(tǒng)一的書寫規(guī)范,所以采集自不同醫(yī)院的病歷數(shù)據(jù)具有較大的差異性,導(dǎo)致在某個(gè)數(shù)據(jù)集上完成訓(xùn)練并實(shí)現(xiàn)較高精度的模型,經(jīng)常會(huì)在用其他數(shù)據(jù)集進(jìn)行測(cè)試時(shí)無法取得令人滿意的效果。這不僅對(duì)模型的普適性提出了較高要求,同時(shí)也離不開相關(guān)標(biāo)準(zhǔn)規(guī)定的出臺(tái)和落實(shí),是一個(gè)目前難以完全解決的問題。
此外,深度學(xué)習(xí)相較于早期基于規(guī)則和詞典的方法,更容易消除歧義,但也存在著一定的不足,比如在命名實(shí)體識(shí)別任務(wù)中,深度學(xué)習(xí)模型往往在邊界的界定上不夠準(zhǔn)確。引入詞典信息是目前比較常規(guī)的解決方法,即先利用詞典進(jìn)行分詞,然后對(duì)分詞序列進(jìn)行標(biāo)注,然而這種簡(jiǎn)單的方法容易由于誤差傳遞而導(dǎo)致最終的效果更差。針對(duì)這個(gè)問題,有研究提出可以為每個(gè)字符保存所有可能匹配的單詞[64],但缺點(diǎn)是儲(chǔ)存信息太多導(dǎo)致速度過慢。如何在引入詞典信息以提升精度的同時(shí)保證運(yùn)行的效率,應(yīng)當(dāng)成為下一階段的研究重點(diǎn)之一。
自由文本電子病歷信息抽取技術(shù)的發(fā)展,一方面能夠方便醫(yī)院對(duì)歷史病歷記錄和現(xiàn)在乃至未來的結(jié)構(gòu)化病歷記錄進(jìn)行系統(tǒng)性地管理,從而在需要時(shí)提高病歷信息查詢、統(tǒng)計(jì)、分析,各科室協(xié)同合作以及決策實(shí)施和調(diào)控的效率;另一方面也完善了醫(yī)療領(lǐng)域的各種知識(shí)庫(kù),為后續(xù)的研究,如醫(yī)療領(lǐng)域知識(shí)圖譜的完善、臨床路徑的建設(shè)等提供更加專業(yè)且便于使用的數(shù)據(jù)來源。
本文針對(duì)自由文本電子病歷信息抽取最重要的三個(gè)部分——命名實(shí)體識(shí)別、實(shí)體修飾識(shí)別和實(shí)體關(guān)系抽取分別調(diào)研了多篇嚴(yán)格挑選的國(guó)內(nèi)外有創(chuàng)新性的論文,并對(duì)這些論文的主要方法、使用的外部資源、數(shù)據(jù)集、模型效果等進(jìn)行了對(duì)比總結(jié)。
自由文本電子病歷命名實(shí)體識(shí)別的幾個(gè)典型方法包括傳統(tǒng)的基于詞典和規(guī)則的方法、統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型CRF 和深度學(xué)習(xí)模型LSTM?;谠~典和人工制定規(guī)則的方法可以實(shí)現(xiàn)很高的精確度,但由于詞典大小有限,使得召回率較低,從而造成整體的精度受限。CRF 模型融合了MEMM 和HMM 的優(yōu)點(diǎn),能夠?qū)﹄[含狀態(tài)進(jìn)行建模,并學(xué)習(xí)狀態(tài)序列的特征,充分地利用豐富的內(nèi)部和上下文特征信息,但具有需要人工提取序列特征的缺點(diǎn)。LSTM及BiLSTM能夠?qū)W習(xí)到輸入序列之間的依賴關(guān)系。在訓(xùn)練過程中,LSTM能夠根據(jù)目標(biāo)實(shí)體自動(dòng)提取輸入序列的特征,但無法學(xué)習(xí)到輸出狀態(tài)序列(標(biāo)注)之間的關(guān)系。因此,使用LSTM 的優(yōu)點(diǎn)在于可以不必進(jìn)行繁瑣的特征工程,而缺點(diǎn)是無法學(xué)習(xí)到標(biāo)注的上下文信息。而目前流行的BiLSTM-CRF模型則能夠?qū)烧叩膬?yōu)點(diǎn)結(jié)合起來。
自由文本電子病歷實(shí)體修飾識(shí)別的流行方法多為基于各種RNN 模型的混合方法,這些方法在面對(duì)細(xì)致的修飾分類時(shí),相較于基于規(guī)則的傳統(tǒng)方法,更能夠取得比較理想的效果。
自由文本電子病歷實(shí)體關(guān)系抽取的典型方法為深度學(xué)習(xí)模型LSTM 和CNN。CNN 模型相對(duì)于LSTM,無法很好地獲取非連續(xù)詞之間的依賴關(guān)系,但對(duì)特征的提取更加充分,所以二者結(jié)合的CNN-LSTM 模型很好地結(jié)合了兩者的優(yōu)點(diǎn),成為了比較流行的方法之一。
目前,將現(xiàn)有模型進(jìn)行結(jié)合,以及加入其他先進(jìn)的自然語言處理模型(如BERT)在一段時(shí)間內(nèi)仍將是研究的重點(diǎn)。針對(duì)標(biāo)注數(shù)據(jù)代價(jià)較高的問題,可以利用遠(yuǎn)程監(jiān)督來得到較為準(zhǔn)確的訓(xùn)練數(shù)據(jù),從而使得現(xiàn)有模型的效果得到提升,但存在著誤差傳遞會(huì)導(dǎo)致最終的關(guān)系抽取任務(wù)準(zhǔn)確率不夠高的問題。另一方面,電子病歷命名實(shí)體識(shí)別作為修飾識(shí)別和關(guān)系抽取的前置任務(wù),與這兩個(gè)任務(wù)具有很強(qiáng)的關(guān)聯(lián)性和互補(bǔ)性,在現(xiàn)有研究成果中,這三項(xiàng)任務(wù)的主流方法均存在著一定的相似性。因此,將實(shí)體識(shí)別和修飾識(shí)別或關(guān)系抽取結(jié)合起來,進(jìn)行端到端的聯(lián)合抽取,雖然現(xiàn)階段有著模型過于復(fù)雜的缺點(diǎn),但隨著深度學(xué)習(xí)模型的不斷發(fā)展,在解決了數(shù)據(jù)資源不足問題之后,預(yù)計(jì)能夠取得較好的效果。除此之外,小樣本學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)等研究方向尚在初步發(fā)展的階段,具有很大的發(fā)展?jié)摿Α?/p>
中文電子病歷的信息抽取研究起步較晚,各種語料庫(kù)和工具資源相對(duì)短缺,病歷文本的格式缺乏統(tǒng)一的標(biāo)準(zhǔn),并且由于中文和英文的語言特點(diǎn)差異,實(shí)際使用時(shí)的處理方法也不盡相同。以上這些因素在一定程度上限制了中文電子病歷相關(guān)研究的開展。因此,除了嘗試各種新的模型思路,改善這些實(shí)際存在的問題也是當(dāng)務(wù)之急。在良好的規(guī)范與充足的資源的輔助下,自由文本中文電子病歷信息抽取這一研究領(lǐng)域?qū)?huì)得到進(jìn)一步的發(fā)展。
致謝:感謝百度-清華大學(xué)軟件學(xué)院AI 醫(yī)療科研合作項(xiàng)目對(duì)本文提供支持。