循證醫(yī)學(xué)RCT文獻(xiàn)自動識別研究

2020-03-15 10:15姚攀

現(xiàn)代計算機(jī) 2020年4期

姚攀

（四川大學(xué)計算機(jī)學(xué)院，成都 610065）

0 引言

隨著醫(yī)學(xué)的不斷發(fā)展，當(dāng)前的醫(yī)療模式逐步從傳統(tǒng)的經(jīng)驗(yàn)醫(yī)學(xué)向循證醫(yī)學(xué)（EBM）轉(zhuǎn)變[1]，循證醫(yī)學(xué)將醫(yī)生的臨床經(jīng)驗(yàn)、患者自身的實(shí)際情況、當(dāng)前最佳臨床證據(jù)三者相結(jié)合，綜合考慮為患者制定最佳的科學(xué)診療方案。循證醫(yī)學(xué)的目標(biāo)是在現(xiàn)有高質(zhì)量證據(jù)的基礎(chǔ)上改善醫(yī)療結(jié)果，最佳證據(jù)來源于現(xiàn)存的醫(yī)學(xué)文獻(xiàn)，以證據(jù)為基礎(chǔ)的指導(dǎo)方針和政策才不會輕易地被以經(jīng)驗(yàn)為導(dǎo)向的臨床判斷所干擾，而隨機(jī)對照試驗(yàn)類文獻(xiàn)被認(rèn)為是高質(zhì)量的證據(jù)文獻(xiàn)[2]。隨機(jī)對照試驗(yàn)是驗(yàn)證醫(yī)療干預(yù)效果的金標(biāo)準(zhǔn)，對干預(yù)以及對照進(jìn)行了實(shí)驗(yàn)記錄，它描述了試驗(yàn)結(jié)果及結(jié)論等，為臨床醫(yī)學(xué)提供了有力的證據(jù)支持和科學(xué)的臨床科研設(shè)計。醫(yī)學(xué)工作者通過隨機(jī)對照試驗(yàn)類文獻(xiàn)不僅能有針對性的制定相關(guān)治療方案、做出相關(guān)指導(dǎo)方針，而且有助于醫(yī)學(xué)系統(tǒng)評價（systematic review）、meta分析、臨床決策等相關(guān)研究的完善。

現(xiàn)有的隨機(jī)對照試驗(yàn)類文獻(xiàn)主要由生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫（如：MEDLINE數(shù)據(jù)庫，中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫）的工作人員手工標(biāo)注，將其打上RCT類標(biāo)簽。當(dāng)醫(yī)學(xué)工作者查閱相關(guān)問題的隨機(jī)對照試驗(yàn)文獻(xiàn)的時候，可通過RCT標(biāo)簽過濾這類文獻(xiàn)。但相關(guān)研究發(fā)現(xiàn)，由于文獻(xiàn)數(shù)量快速增長及標(biāo)注難度大等不確定性因素，使得MEDLINE數(shù)據(jù)中隨機(jī)對照試驗(yàn)文獻(xiàn)的標(biāo)注質(zhì)量存在一定問題，其遺漏掉了15%的隨機(jī)對照試驗(yàn)文獻(xiàn)[3]。由于隨機(jī)對照試驗(yàn)文獻(xiàn)篩選的過程嚴(yán)格，且需要極高靈敏度，使得醫(yī)學(xué)人員耗費(fèi)大量的時間與精力對相關(guān)問題的文獻(xiàn)進(jìn)行閱讀篩選。因此，通過自然語言處理技術(shù)與機(jī)器學(xué)習(xí)算法對隨機(jī)對照試驗(yàn)文獻(xiàn)自動識別，不僅有助于循證醫(yī)學(xué)發(fā)展，而且促進(jìn)了醫(yī)學(xué)信息檢索的發(fā)展。

1 研究內(nèi)容及現(xiàn)狀

循證醫(yī)學(xué)作為一種新的醫(yī)療模式，利用最佳的臨床證據(jù)為基礎(chǔ)進(jìn)行醫(yī)療決策，需要醫(yī)學(xué)工作者帶著臨床問題進(jìn)行文獻(xiàn)檢索，對檢索結(jié)果進(jìn)行進(jìn)一步篩選，尋找有價值的文獻(xiàn)證據(jù)。隨機(jī)對照試驗(yàn)類文獻(xiàn)作為高質(zhì)量的主要證據(jù)載體，在海量的生物醫(yī)學(xué)文獻(xiàn)中僅占很小的比例[4]，想要查詢相關(guān)醫(yī)學(xué)證據(jù)絕非易事。現(xiàn)有生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫對文獻(xiàn)標(biāo)注RCT類別的標(biāo)簽，如：MEDLINE、中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫，但有相關(guān)研究發(fā)現(xiàn)MEDLINE中標(biāo)注的隨機(jī)對照試驗(yàn)文獻(xiàn)存在7%的錯誤，而且漏掉了15%的隨機(jī)對照試驗(yàn)文獻(xiàn)[3]。循證醫(yī)學(xué)相關(guān)的Cochrane網(wǎng)站發(fā)起了隨機(jī)對照試驗(yàn)人工篩選項(xiàng)目，由志愿者篩選出主要來自MEDLINE與EMBASE醫(yī)學(xué)數(shù)據(jù)庫及臨床研究注冊平臺CT的隨機(jī)對照臨床試驗(yàn)[5]，篩選出的隨機(jī)對照試驗(yàn)文獻(xiàn)具有高質(zhì)量，但是需要耗費(fèi)極大的人力成本。

現(xiàn)有對文獻(xiàn)人工標(biāo)注RCT類標(biāo)簽的做法耗時費(fèi)力，因此，有研究者們通過機(jī)器學(xué)習(xí)與自然語言處理技術(shù)自動識別隨機(jī)對照試驗(yàn)類文獻(xiàn)，并且已經(jīng)取得一定成果。目前，在Cochrane合作組織所積累的工作基礎(chǔ)上，Wallace等人總共選用了Cochrane Library數(shù)據(jù)庫中的標(biāo)注數(shù)據(jù)（包含RCT陽性實(shí)例，以及非RCT陰性實(shí)例），對其使用的線性內(nèi)核支持向量機(jī)（Support Vector Machine,SVM）不斷進(jìn)行訓(xùn)練、調(diào)試和測試，最終得到了能夠減少60%-80%無關(guān)文獻(xiàn)、檢出98%的隨機(jī)對照試驗(yàn)?zāi)Ｐ蚚6]。近年來也有相關(guān)研究嘗試將文獻(xiàn)分為RCT與非RCT兩類，如Cohen等人利用MEDLINE數(shù)據(jù)庫中標(biāo)注RCT標(biāo)簽的文獻(xiàn)作為正例，其他作為負(fù)例，利用N-gram表示標(biāo)題摘要的信息，通過支持向量機(jī)（SVM）模型對RCT類文獻(xiàn)進(jìn)行識別，最后根據(jù)其與超平面距離轉(zhuǎn)化所得置信度高低排序[3]。隨著深度學(xué)習(xí)在自然語言處理應(yīng)用上的興起，Marshall等人利用卷積神經(jīng)網(wǎng)絡(luò)（CNN）對隨機(jī)對照試驗(yàn)文獻(xiàn)進(jìn)行識別，最后按照RCT類別置信度進(jìn)行排序篩選[4]。相比SVM方法利用專業(yè)背景知識構(gòu)造特征主觀性較強(qiáng)且工作量大，深度學(xué)習(xí)方法不僅具有自動捕獲特征的優(yōu)勢，而且神經(jīng)網(wǎng)絡(luò)詞向量的引入有助于模型編碼更好語義信息，好的文本語義表達(dá)促進(jìn)模型更好地識別隨機(jī)對照試驗(yàn)文獻(xiàn)。隨機(jī)對照試驗(yàn)文獻(xiàn)的篩選要求高的靈敏度，目前的算法用于隨機(jī)對照試驗(yàn)篩選普遍能夠達(dá)到靈敏度95%以上，特異度在30%～70%之間，算法自動篩選的不同評估方法相繼出現(xiàn)，使得RCT文獻(xiàn)自動識別任務(wù)也日趨完善。

2 RCT文獻(xiàn)自動識別方法

為了進(jìn)行RCT文獻(xiàn)的自動識別，首先需要對已有的文獻(xiàn)信息進(jìn)行預(yù)處理，獲取文獻(xiàn)的特征信息，最后利用這些特征表達(dá)進(jìn)行RCT類的預(yù)測，如從圖1所示。現(xiàn)有RCT文獻(xiàn)自動識別方法采用的文獻(xiàn)數(shù)據(jù)，主要來自生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫（如：MEDLINE）或其他人工標(biāo)注有RCT類標(biāo)簽標(biāo)區(qū)分的數(shù)據(jù)，所導(dǎo)出的文獻(xiàn)數(shù)據(jù)保留了標(biāo)題、摘要、作者、Mesh等信息。現(xiàn)有方法通過預(yù)測文獻(xiàn)是隨機(jī)對照試驗(yàn)的可能性，并基于置信度進(jìn)行排序篩選。目前，針對隨機(jī)對照試驗(yàn)文獻(xiàn)的自動識別主要有支持向量機(jī)（SVM）與卷積神經(jīng)網(wǎng)絡(luò)（CNN）兩種做法。

圖1 RCT文獻(xiàn)識別流程

2.1 支持向量機(jī)自動識別RCT

支持向量機(jī)（SVM）已被證明在許多機(jī)器學(xué)習(xí)任務(wù)均能取得很好效果，可應(yīng)用于自然語言處理等相關(guān)應(yīng)用。支持向量機(jī)方法的目標(biāo)是構(gòu)建一個超平面，該平面將在特征空間中的樣例的相應(yīng)類分開，而支持向量機(jī)僅利用部分樣例來確定超平面即可。

使用線性支持向量機(jī)模型可進(jìn)行文本分類[7]，通常通過BOW編碼文本信息（標(biāo)題、摘要等信息）進(jìn)行表示。這種方法抽象表示文獻(xiàn)為一個高維稀疏的向量，其中向量的每個索引位置對應(yīng)一個特定詞（unigram）或一組相鄰詞（bigram）或其他條件特征，并且僅當(dāng)文獻(xiàn)中出現(xiàn)了對應(yīng)維度的特征，其表達(dá)才為非零。線性核支持向量機(jī)進(jìn)行RCT識別的目標(biāo)是在這個高維空間中識別一個超平面，該超平面最后用于將RCT與非RCT類別的文本分開。

研究者利用SVM確定的最佳超平面，進(jìn)一步將樣本到超平面的有符號距離轉(zhuǎn)換為RCT類別概率的置信度做預(yù)測分析，設(shè)定閾值篩選RCT文獻(xiàn)[3]。

2.2 卷積神經(jīng)網(wǎng)絡(luò)自動識別RCT

隨著深度學(xué)習(xí)的興起，許多深度學(xué)習(xí)模型被證明在自然語言處理應(yīng)用中優(yōu)于其他的統(tǒng)計模型。卷積神經(jīng)網(wǎng)絡(luò)（CNN）[8]，在文本分類[9,10]和生物醫(yī)學(xué)文本分類（特別是生物醫(yī)學(xué)文本分類）任務(wù)中取得了很好的結(jié)果。CNN方法通過自動捕獲文本特征，代替了BOW編碼，用相對低維連續(xù)向量來表示詞（詞嵌入）。對于詞的向量形式表達(dá)學(xué)習(xí)，可使用大量未標(biāo)記的數(shù)據(jù)進(jìn)行詞嵌入預(yù)訓(xùn)練。

對于一篇隨機(jī)對照試驗(yàn)類文獻(xiàn)，在標(biāo)題摘要部分會對試驗(yàn)進(jìn)行簡述，對于判斷文獻(xiàn)類型也是最為重要

的。有研究者通過TextCNN方法進(jìn)行隨機(jī)對照試驗(yàn)文獻(xiàn)識別，利用文獻(xiàn)的標(biāo)題和摘要信息作詞嵌入，形成一個詞矩陣，其維數(shù)分別為詞的個數(shù)以及詞嵌入大小[4]。卷積神經(jīng)網(wǎng)絡(luò)模型通過不同大小的filter進(jìn)行卷積操作，滑動窗口從文本開頭向下移動，在相鄰詞嵌入上傳遞由相應(yīng)權(quán)重向量參數(shù)化的過濾器filter。每個filter將產(chǎn)生與輸入文本長度成比例的大小的標(biāo)量輸出向量。然后在每個輸出向量上進(jìn)行最大池化合并來提取特征。然后，每個濾波器最終將生成單個標(biāo)量輸出，將它們連接起來形成整個摘要的向量表示，與預(yù)測的輸出層做全連接。最后，通過輸出層的RCT類別置信度預(yù)測文獻(xiàn)是否為RCT文獻(xiàn)。

2.3 評價指標(biāo)

為了評價模型對隨機(jī)對照試驗(yàn)文獻(xiàn)的識別性能，采用了多種指標(biāo)結(jié)合評價。針對模型預(yù)測結(jié)果，常用的評價指標(biāo)有準(zhǔn)確率（ACC）、精確率（P）、召回率（R）、F1值，靈敏度（Sensitivity）、特異度（Specificity）。如下所示表格及公式：

表1 混淆矩陣

鑒于隨機(jī)對照試驗(yàn)文獻(xiàn)自動識別要求盡量不要漏掉相關(guān)高質(zhì)量文獻(xiàn)，可按RCT類別閾值對置信度劃分，進(jìn)一步確定其類別并評估模型性能。

3 結(jié)語

綜上所述，隨著生物醫(yī)學(xué)文獻(xiàn)的不斷增加，醫(yī)學(xué)工作者快速全面地獲取感興趣的高質(zhì)量文獻(xiàn)證據(jù)變得愈加困難，隨機(jī)對照試驗(yàn)文獻(xiàn)的自動識別將能彌補(bǔ)醫(yī)學(xué)信息檢索的一些不足，更好地輔助醫(yī)務(wù)工作者的業(yè)務(wù)開展。針對此識別任務(wù)的模型從傳統(tǒng)機(jī)器學(xué)習(xí)向深度學(xué)習(xí)不斷發(fā)展，也使得面向循證醫(yī)學(xué)的RCT文獻(xiàn)自動識別成為自然語言處理領(lǐng)域中的重要研究方向。隨著RCT文獻(xiàn)自動識別的進(jìn)一步發(fā)展，將對醫(yī)學(xué)相關(guān)的系統(tǒng)評價、META分析、醫(yī)學(xué)QA、醫(yī)學(xué)信息學(xué)等子領(lǐng)域有深遠(yuǎn)影響。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡