畢銘文 左敏 張青川
摘 要:在線醫(yī)學智能問答系統(tǒng)作為傳統(tǒng)醫(yī)學服務系統(tǒng)的一個補充旨在對用戶通過自然語言進行的醫(yī)學方面的提問做出快速、簡介的反饋。本文提出了基于LSTM的癥狀位置的注意力模型。在醫(yī)療領域數(shù)據(jù)集MT-QA上的對比實驗顯示LSTM-SPA模型有優(yōu)良的性能。
關鍵詞:語義分析;問答系統(tǒng);長短時記憶網(wǎng)絡模型;基于位置的注意力機制
DOI:10.16640/j.cnki.37-1222/t.2019.01.226
1 引言
在線醫(yī)學詢問平臺在醫(yī)療服務領域得到越來越廣泛的關注,它為患者和醫(yī)生提供了一個社區(qū)的問答系統(tǒng)?;颊呙枋鏊麄兊陌Y狀并提出問題,醫(yī)生以此來診斷疾病或者給予一些進一步就醫(yī)檢查的建議。但是由于平臺上的醫(yī)生大多利用業(yè)余時間參與問診工作,無法進行實時回復。患者仍然需要等待來自醫(yī)生的回復,而且這個等待時間是未知的。針對傳統(tǒng)的社區(qū)問答系統(tǒng)所面臨的上述問題,一個實時且高質量的醫(yī)學領域智能問答系統(tǒng)對于用戶來說是必要的。
2 相關工作
社區(qū)醫(yī)療問答系統(tǒng)所涉及的研究熱點包括以下兩個方面:
以用戶的癥狀描述為基礎,在數(shù)據(jù)庫中匹配與其相似度高的歷史病例。詞匯差距是由于使用不同的單詞導致用戶描述與表達相同含義的歷史描述不匹配。例如:一些用戶描述流感可能用“感冒了”,而其他人可能會用“咳嗽的厲害”代替。詞匯差距的存在導致利用傳統(tǒng)的信息索引方法很難根據(jù)用戶的描述去找到相似的歷史病例。
最近,LSTM已經(jīng)被廣泛應用于問答任務中由于它的優(yōu)良的性能。在基于LSTM的CQA模型中,用戶的描述和歷史描述中的每個單詞首先被一個隱含層向量表示。然后,所有的隱含層向量被合并成為句子代表。之后,最接近的歷史描述被從候選歷史描述池中選擇出來根據(jù)句子相似度。目前一個主要的挑戰(zhàn)是如何減弱句子中不相關內容對語義的干擾,[1]提出了三種內在關注的方法,在隱含層表示之前加入了注意力信息,達到了QA領域最新的表現(xiàn)。
本文將針對上述詞匯差距和句子向量化代表的問題展開深入探討。主要有以下兩個方面的研究。(1)將基于中文詞林的近義詞主詞替換的機制引入到目前最新進的詞嵌入模型來解決之前研究者所忽略的句子中單詞語義的理解;(2)對目前最先進的注意力機制進行優(yōu)化。加入位置上下文的影響,增強對疾病典型癥狀的關注,構建基于位置感知的注意力模型。
3 LSTM-SPA模型描述
在這一章中,我們將介紹我們的LSTM-SPA 模型如何解決CQA任務。假設在歷史病例池中,從醫(yī)生得到相似答案回復的用戶癥狀描述如果多次出現(xiàn),則該癥狀在該疾病中的表現(xiàn)是活躍的(我們稱之為典型癥狀),那么在用戶描述句中,該典型癥狀單詞將對其臨近單詞造成影響。也就是說,臨近單詞應該被給予更多的關注比起那些遠離單詞,因為它們代表著更多用戶的癥狀描述語義。基于這個假設,我們提出了LSTM-SPA模型來模擬一個用戶描述中的典型癥狀對句中各單詞的位置感知影響,分為以下三個步驟:
(1)通過相似度計算將歷史病例分組,具有高相似度診斷結果的歷史病例分為一組,也就是說位于同組的診斷結果或診斷建議基本一致。
(2)將每組病例中用戶描述利用傳統(tǒng)的注意力機制進行處理,得到用戶描述代表。
(3)經(jīng)過統(tǒng)計,我們將得出每種診斷結果所對應的癥狀單詞列表。
需要重點說明的是我們提出了一個位置感知影響傳播策略,即在用戶描述句中,癥狀單詞對臨近單詞的影響程度隨距離而變化。然后根據(jù)在用戶描述句中出現(xiàn)的所有癥狀單詞傳播的累積影響,在隱含層中生成每個單詞的位置感知影響向量。這樣位置感知影響向量被整合到傳統(tǒng)注意力機制中,形成用戶對疾病癥狀描述的注意力語義代表。
4 實驗
4.1 實驗構建
數(shù)據(jù)集。我們進行的實驗使用的是我們獨立構建的數(shù)據(jù)MT-QA。MT-QA是一個面向醫(yī)學領域的問答對語料數(shù)據(jù)集,所有的問答對是從各大權威網(wǎng)站收集而來(例如:好大夫,尋醫(yī)問藥)。數(shù)據(jù)集被劃分為3部分:訓練集,開發(fā)集,測試集,并且統(tǒng)計的結果展示在表1:
4.2 LSTM-SPA 的影響
為了調查我們提出的BLSTM-SFPA 方法的效果。我們加入了一些沒有引用LSTM-SPA的標桿方法,即不引用注意力的均分權重的方法(例如,基于LSTM編碼解碼模型[2]和基于RNN的編碼解碼模型[3])和引入傳統(tǒng)注意力的方法[4]。實驗結果如表2所示。 我們的模型執(zhí)行比其他方法更好。
我們觀察到LSTM編碼器 - 解碼器模型比RNN編碼器 - 解碼器具有更好的性能。LSTM具有更強的學習遠程時間依賴性數(shù)據(jù)的能力,因為這些問題與其答案句子中相應的關鍵信息之間存在相當長的時間滯后。并且我們注意到傳統(tǒng)的注意機制通過捕捉答案中的一部分信息詞匯,其性能略微優(yōu)于均分權重的方法。然而它不能給予出現(xiàn)在用戶描述中的癥狀單詞以及他們周圍的上下文特別的關注,對于問答匹配來說,這會丟失很多有用的信息。在我們提出的SPA機制中,通過癥狀單詞的位置上下文影響的傳播,用戶描述中的癥狀單詞以及相鄰上下文的重要性會有一個明確的提高。此外,在我們的醫(yī)療問答對數(shù)據(jù)集上,我們能夠實現(xiàn)顯著的改善比起基礎模型。
5 結論
在這篇論文中,我們提出了一個基于LSTM的癥狀位置注意力模型(LSTM-SFP),該模型將癥狀單詞的位置上下文包含在用戶描述的注意力表示中;同時,通過將近義詞映射為主詞的近義詞主詞替換機制有效的為詞匯差距建立了橋梁。在MT-QA上的實驗結果展示了我們模型的優(yōu)越性比起那些沒有考慮詞匯差距和位置信息的基準線模型。證明我們提出的SPA機制具有更高的性能比起那些傳統(tǒng)的注意力機制。在未來的研究中,我們想要在不同的任務中評估我們的模型并且試著去改善我們的模型。
參考文獻:
[1]Wang B,Liu K,Zhao J.Inner Attention based Recurrent Neural Networks for Answer Selection[C]//Meeting of the Association for Computational Linguistics,2016:1288-1297.
[2]Sutskever I,Vinyals O,Le Q V.Sequence to Sequence Learning with Neural Networks[J].2014(04):3104-3112.
[3]Cho K,Van Merrienboer B,Gulcehre C,et al.Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J].Computer Science,2014.
[4]Wang D,Nyberg E.A Long Short-Term Memory Model for Answer Sentence Selection in Question Answering[C]// Meeting of the Association for Computational Linguistics and the,International?Joint Conference on Natural Language Processing.2015:707-712.