融合多粒度全局信息的臨床問診信息抽取模型

2022-04-08 11:23李珊如喬曉輝楊丹青

中國新技術(shù)新產(chǎn)品 2022年2期

李珊如喬曉輝楊丹青劉彥

（1.河北漢光重工有限責(zé)任公司，河北邯鄲 056017；2.河北省雙介質(zhì)動力技術(shù)重點(diǎn)實(shí)驗(yàn)室，河北邯鄲 056017）

0 引言

電子病歷（Electronic Medical Record，EMR）在現(xiàn)代醫(yī)療信息系統(tǒng)中被廣泛應(yīng)用，但醫(yī)生為病人寫電子病歷是一項(xiàng)非常耗費(fèi)精力和時(shí)間的任務(wù)。因此，為了減輕醫(yī)生的沉重負(fù)擔(dān)，將醫(yī)患對話自動轉(zhuǎn)換為電子病歷是近年來自然語言處理領(lǐng)域的新興課題。

為了應(yīng)對上述挑戰(zhàn)，該文提出了一個(gè)新的醫(yī)學(xué)信息抽取模型，該模型充分利用了對話中潛在的相關(guān)上下文，這是因?yàn)楫?dāng)前轉(zhuǎn)折后的對話內(nèi)容可能會改變醫(yī)學(xué)實(shí)體的狀態(tài)。首先，模型從當(dāng)前對話窗口中檢索詞級的相關(guān)信息，并將整個(gè)窗口文本編碼為窗口。其次，該文在整個(gè)對話中合并2種類型的信息：1）細(xì)粒度信息。集成了整個(gè)對話中的所有共現(xiàn)詞特征。2）粗粒度信息。選擇一個(gè)信息最豐富的下方窗口作為該文的全局信息，并與當(dāng)前窗口進(jìn)行融合，從而預(yù)測所有可能的醫(yī)學(xué)標(biāo)簽。

在試驗(yàn)中，該文用公開的研究性數(shù)據(jù)集MIE對該文的模型性能進(jìn)行評估。該文在完成MIE任務(wù)過程中獲得了48.61%的分?jǐn)?shù)（分?jǐn)?shù)為準(zhǔn)確率和召回率的調(diào)和平均數(shù)），該結(jié)果是目前最先進(jìn)的結(jié)果，這也驗(yàn)證了該文所提出的模型的有效性。

1 相關(guān)工作

從醫(yī)學(xué)對話文本中提取信息是一個(gè)新的研究熱點(diǎn)。文獻(xiàn)[3]提出通過一個(gè)管道模型（包括5個(gè)模塊）來生成電子病歷，主要研究基于規(guī)則與監(jiān)督的機(jī)器學(xué)習(xí)相結(jié)合的提取醫(yī)學(xué)知識的方法。文獻(xiàn)[4]旨在提取癥狀及其對應(yīng)的狀態(tài)，在工作中預(yù)先定義了186個(gè)癥狀和3個(gè)狀態(tài)，還提出了一個(gè)跨屬性標(biāo)記模型，該模型預(yù)測所提到的癥狀的文本段，然后使用上下文特性進(jìn)一步預(yù)測癥狀名稱和狀態(tài)。還用BIO（即開端、內(nèi)部或其他）模式注釋了中文在線醫(yī)學(xué)對話。但是，該方法只將癥狀標(biāo)注為實(shí)體類別，而沒有考慮其狀態(tài)，這與實(shí)際場景并不兼容。

最新的工作是執(zhí)行MIE任務(wù)，它有一個(gè)更詳細(xì)的標(biāo)注模式，其包括4個(gè)醫(yī)學(xué)類別、71個(gè)子項(xiàng)和5個(gè)狀態(tài)。研究人員提出的管道模型由4個(gè)子模塊組成，迭代地對整個(gè)標(biāo)簽集進(jìn)行分類預(yù)測。雖然該文的標(biāo)簽與MIE是一致的，但是MIE部署了不合理的狀態(tài)更新機(jī)制，后續(xù)的狀態(tài)會盲目覆蓋之前的狀態(tài)。由該文對MIE數(shù)據(jù)集的分析可知，這種機(jī)制只對一小部分實(shí)體有效，對其他實(shí)體無效。

2 模型

該文所述的模型是一個(gè)端到端的臨床問診醫(yī)學(xué)信息抽取模型。模型的框架如圖1所示，它包括5個(gè)部分：1）窗口編碼層將原始輸入轉(zhuǎn)換為上下文。2）細(xì)粒度文檔感知融合模塊。該模塊利用每個(gè)詞在全局對話中的共現(xiàn)實(shí)體信息。3）標(biāo)簽-句子注意力機(jī)制。采用窗口對標(biāo)簽信息的相關(guān)度進(jìn)行建模。4）粗粒度全局上下文信息融合模塊。該模塊將全局窗口中信息最豐富的窗口融合到當(dāng)前窗口中。5）MIE預(yù)測器模塊。該模塊用1個(gè)二分類器去預(yù)測標(biāo)簽集中的所有候選項(xiàng)。

圖1 模型結(jié)構(gòu)圖

2.1 窗口編碼層

該文將2個(gè)連續(xù)的語句定義為1個(gè)窗口，分別由醫(yī)生和病人所表達(dá)的句子組成。因此，整個(gè)問診文本可以劃分為多個(gè)窗口={，，…，x}，為窗口的個(gè)數(shù)。對于每個(gè)窗口x來說，該文連接醫(yī)患話語，并使用BiLSTM網(wǎng)絡(luò)將其編碼為語境詞，如公式（1）所示。

式中：x為窗口；h為窗口的LSTM隱層。

對每個(gè)候選標(biāo)簽來說，該文也采用公式（1）所表述的方法將其編碼為標(biāo)簽h。該文的模型還設(shè)計(jì)了標(biāo)簽-句子注意機(jī)制，利用該機(jī)制對提取出來的詞級標(biāo)簽相關(guān)信息（）在窗口（）內(nèi)的上下文相關(guān)性進(jìn)行建模。因此，該文將標(biāo)簽h作為注意機(jī)制的一個(gè)詢問，從而計(jì)算窗口的注意力分?jǐn)?shù)，進(jìn)而可以得到特定于標(biāo)簽的窗口c，如公式（2）~公式（4）所示。

式中：a為注意力分?jǐn)?shù)；p為注意力權(quán)重；c為特定于標(biāo)簽的窗口；h為第個(gè)窗口；h為標(biāo)簽。

2.2 細(xì)粒度的文檔感知信息融合

每個(gè)實(shí)體的狀態(tài)與整個(gè)對話中同一實(shí)體的所有實(shí)例有關(guān)。例如，對實(shí)體“冠心病”來說，上文窗口的“冠心病”狀態(tài)信息直接由下文窗口的“冠心病”決定。因此，為了獲得一些上下文知識，模型必須將所有來自其他實(shí)例的整體信息利用到當(dāng)前實(shí)體中。

通過利用MemoryNet，該文引入了每個(gè)實(shí)體的文檔感知。該文定義了1個(gè)內(nèi)存集={，}，{，}，…，{k，v}為每個(gè)詞存儲對話中的所有共現(xiàn)詞的實(shí)例。其中，鍵值k為x的詞嵌入向量；值v為第個(gè)詞的隱藏狀態(tài)；為實(shí)例個(gè)數(shù)。詞嵌入在訓(xùn)練過程中會被微調(diào)，從而更新記憶網(wǎng)絡(luò)的參數(shù)。

對每個(gè)單詞x來說，為了融合其文檔感知，該文用其詞向量k作為注意力的鍵值，計(jì)算記憶集中隱藏狀態(tài)v之間的注意得分，如公式（5）所示。

式中：d為單詞嵌入的維數(shù)；o為注意力得分；k為鍵值v（轉(zhuǎn)置后）的值。

文檔感知如公式（6）~公式（7）所示。

式中：α為注意力分?jǐn)?shù)；d為文檔感知；o為注意力得分；為單詞個(gè)數(shù)；為文檔個(gè)數(shù)。

該文將當(dāng)前詞的隱藏狀態(tài)h與文檔感知d融合，并將其提供給標(biāo)簽-句子注意力模塊，如公式（8）所示。

式中：為超參數(shù)，用于平衡隱藏狀態(tài)h和文檔感知d。

2.3 標(biāo)簽-句子注意力機(jī)制

標(biāo)簽-句子注意力機(jī)制在窗口g中對所提取的詞級標(biāo)簽相關(guān)信息h的上下文相關(guān)性進(jìn)行建模。具體來說，該文將標(biāo)簽h作為注意力機(jī)制中的一個(gè)查詢來計(jì)算窗口的注意力得分，從而該文可以獲得標(biāo)簽特定的窗口c，如公式（9）~公式（11）所示。

式中：α為注意力分?jǐn)?shù)；h為標(biāo)簽；p為注意力權(quán)重；c為標(biāo)簽特定的窗口。

綜上可得，模型可以將當(dāng)前標(biāo)簽的信息融合到當(dāng)前的對話窗口中。

2.4 粗粒度全局上下文信息融合

因?yàn)楫?dāng)前窗口的狀態(tài)不僅由當(dāng)前對話窗口信息決定，而且還由下方窗口的相關(guān)信息決定，所以該文需要考慮窗口之間的交互信息。值得注意的是，由于狀態(tài)更新是基于下方的問診文本，而不是之前的文本，因此該文沒有必要考慮當(dāng)前窗口之前的窗口，即歷史信息。

該文采用了一個(gè)動態(tài)的注意機(jī)制來融合下方窗口信息。具體來說，該文將當(dāng)前窗口c作為注意力機(jī)制的查詢，將下面的窗口{c+1，…，c}作為鍵矩陣和值矩陣。當(dāng)當(dāng)前窗口下降時(shí)，后續(xù)窗口的個(gè)數(shù)減少，最后一個(gè)窗口沒有后續(xù)窗口。

其中，下方窗口中注意力得分最高的窗口c被認(rèn)為是對當(dāng)前窗口信息最充分的下方窗口，該文將采用c作為全局信息，并將其連接到當(dāng)前窗口，以輔助預(yù)測后續(xù)的狀態(tài)。具體步驟如下：給定當(dāng)前窗口c，計(jì)算下方窗口的注意力分?jǐn)?shù)，如公式（12）~公式（13）所示（∈（+ 1，））。將注意力分?jǐn)?shù)最高的窗口c連接到該文當(dāng)前的窗口c，將其作為該文的全局c（如公式（14）所示），表示連接操作，如果當(dāng)前窗口是問診文本中的最后一個(gè)窗口，則c被設(shè)置為0。

2.5 MIE預(yù)測器

將全局-局部上下文聚合模塊c的輸出作為該模塊的輸入。具體來說，該文迭代每個(gè)MIE中的標(biāo)簽項(xiàng)，并采用二分類器來預(yù)測該窗口是否表達(dá)了后續(xù)的MIE標(biāo)簽，如公式（15）~公式（16）所示。

式中：forward為前饋神經(jīng)網(wǎng)絡(luò)；sigmoid為二分類器；c為前饋神經(jīng)網(wǎng)絡(luò)結(jié)果；y為二分類概率。。

3 試驗(yàn)

該文在MIE數(shù)據(jù)集上進(jìn)行試驗(yàn)。首先，該文在3.1節(jié)中詳細(xì)地闡述了模型細(xì)節(jié)、基線和評價(jià)指標(biāo)。其次，在3.2節(jié)中提供了詳細(xì)的試驗(yàn)結(jié)果，也分析了不同模型成分對消融研究的影響。最后，該文提供了1個(gè)案例研究和1個(gè)應(yīng)用場景。

3.1 基線模型與評估指標(biāo)

在試驗(yàn)中，該文對MIE任務(wù)中提出的基線模型進(jìn)行了對比。其中，Plain-Classifier利用1個(gè)基本的類分類器模型，使用1條簡單的策略來完成任務(wù)。MIE-single表示只考慮單個(gè)話語內(nèi)的交互的模型，所獲得的表示相互獨(dú)立。multi能夠捕捉不同話語之間的相互作用。為了獲取其他話語的相關(guān)狀態(tài)信息，它將類別表示作為查詢，獲取對狀態(tài)的注意值，然后獲得該話語的候選表示。

對MIE任務(wù)來說，該文只使用對話級度量，因?yàn)榇翱诩壎攘堪ù罅康臉?biāo)簽冗余，所以每個(gè)標(biāo)簽都可能被多次計(jì)算，從而對其進(jìn)行評估。首先，該文將屬于同一個(gè)臨床問診窗戶的結(jié)果進(jìn)行合并。其次，評估每篇問話文本的結(jié)果。最后，報(bào)告測試集中的微平均值。

對模型參數(shù)和試驗(yàn)設(shè)置來說，為了保證公平，該文基本上與MIE任務(wù)保持一致。該文使用300維Skip-Gram詞嵌入，預(yù)先訓(xùn)練了來自中國在線健康社區(qū)的醫(yī)學(xué)對話，前饋網(wǎng)絡(luò)和Bi-LSTM的隱藏狀態(tài)大小均為400。該文使用Adam優(yōu)化，使用學(xué)習(xí)率衰退和正則化來緩解過擬合問題，并采用根據(jù)驗(yàn)證集的得分進(jìn)行訓(xùn)練的提前停止（Early Stop）。

3.2 結(jié)果與分析

在測試集中，該文分別評估了該文所述模型在類別級（Category Only）和全級（Category and State）中的性能。其中，類別級表示模型只需要關(guān)注醫(yī)學(xué)標(biāo)簽本身，不需要關(guān)注其狀態(tài)；而在全級中，模型只有在醫(yī)學(xué)標(biāo)簽和狀態(tài)都正確的狀態(tài)下才會被認(rèn)為模型預(yù)測是正確的。

該試驗(yàn)結(jié)果見表1和表2。MIE-single和MIE-multi模型所獲得的結(jié)果都比Plain-Classifier模型獲得的結(jié)果好，這表明MIE體系結(jié)構(gòu)比基本的LSTM表示方法更有效。與MIE中的基線模型相比，該文的模型不僅可以捕獲話語和標(biāo)簽之間的交互，還可以整合來自以下窗口的信息。因此，該文提出的CLINER在類別級和全級評價(jià)中分別比這些基線高2.78%和0.58%（分值）。

表1 MIE數(shù)據(jù)上類別級的試驗(yàn)結(jié)果

表2 MIE數(shù)據(jù)上全級的試驗(yàn)結(jié)果

同時(shí)，該文對模型進(jìn)行消融試驗(yàn)，從而評估在MIE數(shù)據(jù)中不同模型組件的有效性。其中，該文所述模型代表了具有最佳性能的所有模塊的完整模型。表3的結(jié)果表明，去除細(xì)粒度的文檔感知將導(dǎo)致值下降1.25%。該文可以推斷模型性能與實(shí)體的所有實(shí)例的信息有直接關(guān)系，這些信息決定了實(shí)體級狀態(tài)的變化。此外，在去掉粗粒度的全局上下文聚合的情況下，模型性能下降了1.70%，它沒有將信息量最大的窗口嵌入下面的文本中（以幫助當(dāng)前窗口捕獲狀態(tài)的變化）。如果忽略標(biāo)簽 - 句子注意力信息，那么模型的值在MIE任務(wù)中降低了1.12%，這表明標(biāo)簽句注意能夠捕捉當(dāng)前候選標(biāo)簽與話語之間的交互信息（會強(qiáng)調(diào)話語中最相關(guān)的單詞）。

表3 不同設(shè)置下的消融試驗(yàn)

為了進(jìn)一步驗(yàn)證該文所述模型的有效性，該文在測試集中挑選了圖2中的實(shí)例，并對對話級和窗口級注意力熱圖進(jìn)行可視化操作。對話級注意可視化表明，該文的模型檢測到與給定類別“心肌梗死”語義相關(guān)的標(biāo)記。該文可以很容易地發(fā)現(xiàn)標(biāo)簽“心肌梗死”與當(dāng)前窗口中權(quán)重最大的文本“心肌梗死”相關(guān)。

圖2 該文所述模型的可視化例子

為了進(jìn)一步確定狀態(tài)，模型計(jì)算當(dāng)前窗口和以下窗口之間的注意分?jǐn)?shù)。該文選擇關(guān)注度最高的窗口2作為該文的全局信息，并將其添加到狀態(tài)預(yù)測中。在熱力圖中，該文注意到標(biāo)記“No”被突出顯示，并進(jìn)一步用作關(guān)鍵參考，以正確預(yù)測當(dāng)前窗口中給定標(biāo)簽的狀態(tài)為“negative”。而傳統(tǒng)的方法如果不考慮窗口2的信息，則無法正確預(yù)測該標(biāo)簽，最終導(dǎo)致該窗口狀態(tài)預(yù)測失敗。

4 結(jié)論

在該文中，該文建立了1個(gè)臨床醫(yī)學(xué)對話文本的信息抽取的模型，該模型由4個(gè)模塊組成，可以充分利用以下窗口中的相關(guān)上下文，從而更好地捕獲狀態(tài)的更新情況。在MIE任務(wù)中的試驗(yàn)表明，該文的模型可以有效地提高性能（性能優(yōu)于基線模型）。該模型在臨床試驗(yàn)中有較高的應(yīng)用價(jià)值，為提取臨床問診信息的提取提供了一種很有前景的解決方案。在未來的工作中，該文將進(jìn)一步利用標(biāo)簽中的內(nèi)部關(guān)系，嘗試將豐富的醫(yī)學(xué)領(lǐng)域知識引入該文的模型中。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡