林玉萍,龍 紅,李 彪,郭欽缽,王 娟,岳 婕
(1.西安交通大學(xué) 外國語學(xué)院,陜西 西安 710049;2.西安交通大學(xué) 軟件學(xué)院,陜西 西安 710049;3.西安交通大學(xué) 生命科學(xué)與技術(shù)學(xué)院,陜西 西安 710049;4.西安交通大學(xué)第二附屬醫(yī)院 醫(yī)用超聲研究室,陜西 西安 710004;5.西安交通大學(xué)第一附屬醫(yī)院 兒科,陜西 西安 710061)
隨著計算機技術(shù)的迅速發(fā)展,在醫(yī)學(xué)領(lǐng)域中引入語料庫以輔助治療以及教學(xué)研究已經(jīng)成為一大趨勢。語料庫作為一種先進的教學(xué)工具與研究方法,在語言學(xué)方面已經(jīng)取得了巨大的成功[1]。例如,Romer給出了通用和專用語言語料庫的使用方法,并討論了它們在教學(xué)語境中的應(yīng)用[2];Lobsang建立了一個多模態(tài)普通話-藏語語音語料庫,通過元音空間比較發(fā)現(xiàn)了藏語元音空間比普通話元音空間更像英語[3];呂穎基于中外醫(yī)學(xué)英語論文摘要語料庫,探究兩庫高頻名詞的頻率差異和使用差異,并試圖運用語料庫檢索來發(fā)現(xiàn)英語母語使用者的語言使用范式,提出醫(yī)學(xué)論文的英譯策略[4]。除此以外,國內(nèi)外語料庫在人工智能、醫(yī)學(xué)等領(lǐng)域仍存在巨大的研究空間。
20世紀90年代以來,我國在醫(yī)學(xué)英語語料庫的建設(shè)取得了一定的進步,電子病歷(electronic medical record,EMR)的實體識別成為醫(yī)學(xué)語料庫構(gòu)建的重要組成部分[5-6]。隨著機器學(xué)習(xí)的發(fā)展以及其在電子病歷實體識別研究的深入,較多優(yōu)秀的算法能夠從自由文本電子病歷中高效獲取到有用的關(guān)鍵信息,如支持向量機(support vector machine,SVM)和BERT(bidirectional encoder representations from transformers)等[7]。歐陽恩提出了一個基于雙向 RNN+CRF(Bi-RNN-CRF) 的中文電子病歷實體識別模型,該方法充分利用病歷文本的上下文信息,探索了分詞、醫(yī)學(xué)詞料庫以及病歷文檔類別特征在提升系統(tǒng)表現(xiàn)方面的作用[8]。李培林等研究旨在通過探索深度學(xué)習(xí)方法來提高命名實體識別(named entity recognition,NER)和醫(yī)療關(guān)系抽取兩項任務(wù)的識別率[9]。然而,這些方法只能提供文本的信息,對于大多數(shù)疾病的診斷而言,醫(yī)生還需要相應(yīng)的醫(yī)學(xué)影像分析。除此之外,在醫(yī)生進行案例分析以及教學(xué)過程中,結(jié)合文本病歷與影像分析的教學(xué)模式能夠幫助其更為清楚地分析病情,讓醫(yī)學(xué)生容易理解與接受[10]。
隨著深度學(xué)習(xí)在醫(yī)學(xué)影像分析中的快速發(fā)展,諸多深度學(xué)習(xí)分類模型被提出并應(yīng)用于影像的分類與標(biāo)注中。Bud等針對甲狀腺結(jié)節(jié)數(shù)據(jù)訓(xùn)練了多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò),從而決定是否應(yīng)對甲狀腺結(jié)節(jié)進行活檢以輔助醫(yī)生的臨床診斷[11];Kawahara等提出了一種從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)特征層次的方法,通過從乳房X射線影片中提取一組手工標(biāo)注的特征,并將相應(yīng)特征直接或間接與乳腺癌風(fēng)險相關(guān)聯(lián),從而自動進行乳房X射線風(fēng)險評分[12]。然而,醫(yī)學(xué)圖像的特征復(fù)雜多樣,傳統(tǒng)深度學(xué)習(xí)方法的分類識別精度有限,這些都會影響多模態(tài)語料庫的構(gòu)建。
針對上述問題,本文提出了一種基于特征篩選的深度學(xué)習(xí)分類方法,解決了由于復(fù)雜多樣的醫(yī)學(xué)圖像中存在冗余以及與目標(biāo)相關(guān)性低的特征而導(dǎo)致分類精度低的問題。同時,該方法結(jié)合基于自然語言處理的文本特征提取,構(gòu)建了一個醫(yī)學(xué)影像和電子病歷的多模態(tài)語料庫。在甲狀腺超聲影像數(shù)據(jù)集上實驗結(jié)果表明,本文所提出的方法可以實現(xiàn)甲狀腺結(jié)節(jié)良惡性的精確分類識別。
甲狀腺結(jié)節(jié)的聲像圖表現(xiàn)復(fù)雜多樣,良惡性判斷困難。同一患者的甲狀腺結(jié)節(jié),不同的超聲醫(yī)師認識迥異,報告結(jié)論差別很大,工作復(fù)雜且容易受醫(yī)生個體主觀性因素影響,給臨床處理帶來困惑[13-14]。因此,自動化的診斷識別可以緩解醫(yī)生的工作強度、輔助診斷、降低患者治療成本,一定程度上可以實現(xiàn)醫(yī)療資源的公平。醫(yī)學(xué)圖像分析中主要采用卷積神經(jīng)網(wǎng)絡(luò),通過卷積層初步提取特征,結(jié)合池化層提取主要特征,并用全連接層將各部分特征匯總以產(chǎn)生分類器,最后進行預(yù)測識別。具體來說,全連接層將各部分特征匯總用于后續(xù)的分類預(yù)測,保留了所有相關(guān)特征,包括弱相關(guān)和不相關(guān)的特征,在數(shù)據(jù)集較小和特征復(fù)雜的情況下,其分類能力較差并且對噪聲極為敏感,因此導(dǎo)致預(yù)測不準確。
針對上述問題,本文提出了一種基于特征篩選的深度學(xué)習(xí)分類算法,模型框架如圖1所示。首先,在深度學(xué)習(xí)分類模型基礎(chǔ)上,基于皮爾遜相關(guān)系數(shù)分析特征與目標(biāo)類別之間的相關(guān)性,將與目標(biāo)不相關(guān)或極弱相關(guān)的特征舍棄,篩選出高相關(guān)性且低冗余的特征子集,這可以簡化模型的計算、提高分類能力。其次,結(jié)合該特征子集,使用經(jīng)典的機器學(xué)習(xí)算法,如支持向量機SVM、決策樹(decision tree,DT)和邏輯回歸(logistic regression,LR)等,從而克服傳統(tǒng)深度學(xué)習(xí)算法的缺點,實現(xiàn)更加精確的分類結(jié)果。
圖1 基于特征篩選的深度學(xué)習(xí)分類模型框架Fig.1 Framework of deep learning classification model based on feature selection
深度學(xué)習(xí)模型通過有監(jiān)督或無監(jiān)督的方式學(xué)習(xí)層次化的特征,即通過卷積池化操作提取圖像的特征,經(jīng)過全連接層將各部分特征匯總送入分類器,最后進行預(yù)測識別。卷積神經(jīng)網(wǎng)絡(luò)利用醫(yī)學(xué)影像的像素信息作為輸入,最大程度上保留了輸入圖像的所有特征信息,這種端到端的模型學(xué)習(xí)方式取得了非常好的效果,在醫(yī)學(xué)領(lǐng)域得到了廣泛的應(yīng)用。
本文首先在多個深度卷積神經(jīng)網(wǎng)絡(luò),如Xception、ResNet、DensNet模型上使用相同的訓(xùn)練集數(shù)據(jù)進行訓(xùn)練,通過初始化的模型相關(guān)參數(shù)θ,使用前向傳播算法得到預(yù)測值,深度卷積神經(jīng)網(wǎng)絡(luò)模型如圖2所示。根據(jù)預(yù)測值與樣本數(shù)據(jù)的真值計算損失,通過梯度下降法反向傳播來更新模型權(quán)重以減少樣本的損失,參數(shù)的迭代更新計算公式為
圖2 深度卷積神經(jīng)網(wǎng)絡(luò)模型Fig.2 Deep convolution neural network model
(1)
本文通過梯度以及學(xué)習(xí)率來更新參數(shù),以找到最優(yōu)的參數(shù)集θ,模型在驗證集上的損失不再下降或者迭代訓(xùn)練的次數(shù)達到設(shè)定值,則停止訓(xùn)練。此時的模型為最優(yōu)的分類模型,使用該模型可獲得輸入圖像的所有特征。
在大數(shù)據(jù)時代下,特征選擇對于模式識別來說非常重要,好的特征能夠更大程度上改進模型的性能,幫助相關(guān)工作人員理解數(shù)據(jù)的特點、內(nèi)部潛在的信息。由于醫(yī)學(xué)影像復(fù)雜多樣,借助深度學(xué)習(xí)模型從影像中提取的特征信息并非都是有用的,冗余的特征信息對模型的建立沒有任何幫助,甚至有些冗余特征還會使模型的預(yù)測誤差變大,因此,特征篩選顯得尤為重要。特征篩選的原則是在不降低分類精度、不影響分類的分布以及特征子集穩(wěn)定的基礎(chǔ)上獲取盡可能小的特征子集,以期達到預(yù)測效果最優(yōu)的分類模型。
本文提出將特征篩選的方法與深度學(xué)習(xí)相結(jié)合,通過皮爾遜相關(guān)系數(shù)篩選深度學(xué)習(xí)提取的所有特征中有效的特征,在此基礎(chǔ)上做進一步的分類識別。衡量兩個變量P,Q之間的相關(guān)程度,可通過計算它們的皮爾遜相關(guān)系數(shù)ρPQ,
(2)
圖3給出了基于皮爾遜相關(guān)系數(shù)的特征篩選流程圖。對所有的n個樣本數(shù)據(jù){(X1,Y1),(X2,Y2),…,(Xn,Yn)},其中,每個樣本數(shù)據(jù)Xi由m個特征(Ai1,Ai2,…,Aim)表示,Aij表示樣本Xi的第j個特征。首先,計算提取的所有特征與目標(biāo)之間的皮爾遜相關(guān)系數(shù),得到所有樣本的第j個特征Aj與目標(biāo)類別y的皮爾遜相關(guān)系數(shù)ρ(Aj,y)。其次,按照|ρ(Aj,y)|>r進行特征篩選,r為閾值,即如果第j個特征Aj(1≤j≤m)與目標(biāo)類別y的相關(guān)系數(shù)大于r,則保留此特征,反之則丟棄該特征。
通過上述篩選方法得到原始特征集的子集,即篩掉一些極弱相關(guān)和不相關(guān)的冗余特征,減少了模型的計算復(fù)雜度,為建立更加精確的分類模型奠定基礎(chǔ)。
圖3 基于皮爾遜相關(guān)系數(shù)的特征篩選Fig.3 Feature selection based on Pearson correlation coefficient
本文提出的特征篩選方法去掉了一部分弱相關(guān)以及不相關(guān)的噪聲特征,增強了特征與目標(biāo)之間的關(guān)聯(lián)性,充分發(fā)揮數(shù)據(jù)驅(qū)動下的特征對目標(biāo)類別的表示能力。常見的基于特征的機器學(xué)習(xí)分類方法有支持向量機(SVM)、決策樹(DT)和邏輯回歸(LR)等算法,這些算法利用該特征子集可以實現(xiàn)醫(yī)學(xué)影像數(shù)據(jù)的分類識別[15]。
1)支持向量機是一種二分類模型,它是定義在特征空間上間隔最大的線性分類器,也可以通過核方法達到非線性分類的目的。該算法學(xué)習(xí)的基本思想是求解一個分離超平面,能夠正確劃分數(shù)據(jù)集并且使得幾何間隔最大。給定一個特征數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)},其中,xi∈Rm,表示第i個樣本的特征向量,且每個特征向量xi都有l(wèi)個特征(1≤l≤m),yi∈{+1,-1}。因此,求解最大分割超平面問題可以表示為如下不等式約束最優(yōu)化問題:
s.t.yi(wT·xi+b)≥1,i=1,2,…,n。
(3)
其中,w和b分別為分離超平面的法向量和截距。該算法的學(xué)習(xí)策略就是間隔最大化,如式(3)的SVM算法就是求解凸二次規(guī)劃的最優(yōu)化算法。
2)決策樹是一種基本的分類與回歸方法,其模型呈樹狀結(jié)構(gòu),通過特征對數(shù)據(jù)實例進行分類。決策樹由節(jié)點和有向邊組成,其中,內(nèi)部節(jié)點表示一個數(shù)據(jù)的特征或者屬性,而葉節(jié)點表示一個類,即數(shù)據(jù)所屬分類類別。將無序數(shù)據(jù)劃分到類別葉節(jié)點,需要考慮如何選擇特征劃分數(shù)據(jù)使得分類結(jié)果更好。針對如何劃分數(shù)據(jù)集,引入信息增益gR(D,Aj),即樣本的第j維特征Aj對于訓(xùn)練數(shù)據(jù)集D的信息增益g(D,Aj)與訓(xùn)練數(shù)據(jù)集D的經(jīng)驗熵H(D)之比,定義如下:
(4)
以信息增益比作為劃分數(shù)據(jù)集特征的一個準則,信息增益比越大說明用該特征劃分當(dāng)前數(shù)據(jù)集最優(yōu)。以信息增益比最大的特征劃分數(shù)據(jù)集,在各個數(shù)據(jù)子集中再挑選信息增益比最大的特征劃分數(shù)據(jù)集。如此遞歸迭代下去,就生成了一棵分類決策樹。
(5)
其中,hw(xi)的取值介于0和1之間。基于上述邏輯回歸模型可以實現(xiàn)以下分類:
P(yi=1|xi,w)=hw(xi),
P(yi=0|xi,w)=1-hw(xi)。
(6)
其中,yi表示類別標(biāo)簽,取值為0和1,hw(xi)為特征向量xi在參數(shù)w下分類為1的概率,1-hw(xi)為分類為0的概率。
本文采用的甲狀腺結(jié)節(jié)數(shù)據(jù)集來自西安交通大學(xué)第二附屬醫(yī)院超聲科的甲狀腺二維聲像圖,所有的數(shù)據(jù)包含結(jié)節(jié)區(qū)域良惡性的類別標(biāo)簽,其中類別標(biāo)簽來自于專業(yè)影像科醫(yī)生的標(biāo)注,并且都是已經(jīng)確診的患者,保證了數(shù)據(jù)的真實可靠。圖4為良惡性甲狀腺結(jié)節(jié)的影像示例。
圖4 甲狀腺結(jié)節(jié)示例圖Fig.4 Examples of thyroid nodules
該甲狀腺結(jié)節(jié)聲像圖數(shù)據(jù)集包含良性結(jié)節(jié)1 759張,惡性結(jié)節(jié)1 009張,總共2 768張。數(shù)據(jù)集被劃分為3部分,分別為訓(xùn)練集、驗證集和測試集。3個數(shù)據(jù)集的比例分別為70%,15%和15%,其中,每個數(shù)據(jù)集里均有相同比例的良惡性結(jié)節(jié),確保3個數(shù)據(jù)集的良惡性結(jié)節(jié)分布均勻。具體的實驗數(shù)據(jù)分布如表1所示。
表1 實驗數(shù)據(jù)的分布Tab.1 The distribution of experimental data
為了實現(xiàn)甲狀腺結(jié)節(jié)良惡性分類的評價,本文采用的衡量指標(biāo)為分類準確率Accuracy,其計算公式為
(7)
其中:TP(true positives)為將正樣本識別為正樣本的數(shù)量;TN(true negatives)為將負樣本識別為負樣本的數(shù)量;total指的是所有測試集上數(shù)據(jù)的數(shù)量。準確率可以衡量一個算法的整體性能好壞,有利于直觀地比較各個模型之間的差別。
另一個評價指標(biāo)是受試者工作特征曲線(receiver operating characteristic curve,ROC曲線)。該曲線的橫坐標(biāo)為假陽性率(false positive rate,FPR),縱坐標(biāo)為真陽性率(true positive rate,TPR)。ROC曲線下的面積為AUC(are under curve),AUC值越高表明分類器的分類性能越好。
本文的深度學(xué)習(xí)模型在TITAN XP顯卡的ubuntu16.04系統(tǒng)上運行,所有模型采用Keras框架以及Python語言實現(xiàn)。本文還對數(shù)據(jù)進行了旋轉(zhuǎn)、縮放以及裁切來擴充數(shù)據(jù)以增強模型的魯棒性。
為了驗證深度學(xué)習(xí)模型對于甲狀腺的分類能力,本文對ResNet、Xception和DenseNet 3個深度學(xué)習(xí)模型做了對比實驗,實驗結(jié)果如表2所示。表2中顯示3個模型的準確率均大于70%,與專業(yè)醫(yī)生的診斷能力類似。
表2 深度學(xué)習(xí)模型ResNet、Xception和DenseNet的分類性能對比Tab.2 Contrastive classification performance of deep learning models of RESNET,Xception and DenseNet %
從表2可以看出,ResNet模型的準確率最高,因此,用它來提取甲狀腺結(jié)節(jié)的特征,其特征向量為2 048維。本實驗使用決策樹(DT)、支持向量機(SVM)和邏輯回歸(LR),分別采用所有特征和特征篩選子集進行分類,比較結(jié)果見表3。
表3 特征篩選子集與所有特征的分類結(jié)果對比Tab.3 Contrastive classification results of feature subset and all features %
從表3看出,使用所有特征直接分類的結(jié)果的準確度相對較低。這主要是因為某些特征相互之間有冗余,而且存在部分與目標(biāo)類別弱相關(guān)和不相關(guān)的特征,這些特征對于模型而言相當(dāng)于噪聲,影響了分類精度,而使用特征篩選子集實現(xiàn)分類識別的所有模型準確率均高于所有特征直接分類的結(jié)果。表3中邏輯回歸的準確率最高,相比深度學(xué)習(xí)模型ResNet提升了4個百分點。同時從圖5的ROC曲線圖可以看出基于特征篩選的邏輯回歸模型的AUC值較高,這表明該分類器的分類性能較好,也證明了特征篩選對于分類器性能的提升效果顯著。
臨床超聲影像醫(yī)師主要是定性地用甲狀腺結(jié)節(jié)二維聲像圖的特征,包括甲狀腺結(jié)節(jié)的形態(tài)、邊緣、回聲與成分等形態(tài)學(xué)特征來診斷其良惡性。目前,臨床診斷中由于甲狀腺良惡性的形態(tài)學(xué)特征重疊較多且表現(xiàn)復(fù)雜多樣,專業(yè)醫(yī)師的識別能力有差異,經(jīng)常會出現(xiàn)誤診,因此良惡性的鑒別診斷相對較低,為70%左右,這給臨床診斷良惡性帶來了很多困惑和挑戰(zhàn)[16]。
圖5 基于ResNet與特征篩選的邏輯回歸ROC曲線圖Fig.5 ROC curves of logistic regression based on ResNet and feature selection
實驗結(jié)果證明了深度學(xué)習(xí)應(yīng)用于甲狀腺結(jié)節(jié)良惡性鑒別診斷的準確性與專業(yè)醫(yī)生的鑒別診斷能力相當(dāng),在一定程度上可以對醫(yī)生在臨床上的診斷提供一些參考價值;其次,在這種特征少數(shù)據(jù)多且特征之間冗余程度高的數(shù)據(jù)集,使用皮爾遜相關(guān)系數(shù)計算特征與目標(biāo)之間的相關(guān)性,基于一定的篩選原則設(shè)置閾值,得到所有數(shù)據(jù)的一個特征子集,可以簡化模型的復(fù)雜度,提高特征對類別的表達能力。
本文提出的基于特征篩選的深度學(xué)習(xí)方法能夠獲得較好的分類結(jié)果,但僅依賴于影像的結(jié)果并不能為醫(yī)生的教學(xué)和研究提供足夠的信息。病人的電子病歷為醫(yī)生的輔助診斷提供了大量有效的信息,因此,構(gòu)建基于影像標(biāo)注信息和電子病歷文本特征的多模態(tài)語料庫對于人工智能、醫(yī)療診斷與康復(fù)、外語教學(xué)、翻譯研究等領(lǐng)域具有重要的意義。
首先,關(guān)鍵詞是能夠表達電子病歷文本有效信息的詞語,自然語言處理(nature language processing,NLP)技術(shù)是關(guān)鍵詞提取常用且有效的方法之一。用Word2Vec模型可以對電子病歷語料庫進行訓(xùn)練,獲得詞向量文件。在此基礎(chǔ)上,提取候選關(guān)鍵詞的詞向量表示,并采用聚類方法按照大小進行降序排序,將前k個候選關(guān)鍵詞作為文本關(guān)鍵詞。借助NLP方法可學(xué)習(xí)出電子病歷文本中共有特征的關(guān)鍵詞,如甲狀腺結(jié)節(jié)的大小、形態(tài)(規(guī)則與否)、邊界(結(jié)節(jié)與其周圍組織分解清不清楚)、成分(囊實性回聲)、鈣化類型(粗鈣化,微小鈣化),形成帶有關(guān)鍵詞的標(biāo)注文本病歷,結(jié)合影像標(biāo)注信息可構(gòu)建多模態(tài)語料庫。
其次,在電子病歷中,一個詞向量通常是多維度的,用t分布隨機近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)可以把相近意思的詞聚攏在一起,形成一意多詞的描述。例如:甲狀腺疾病中結(jié)節(jié)的中文描述術(shù)語有甲狀腺結(jié)節(jié)、甲狀腺腫物、甲狀腺病變、甲狀腺腫瘤、甲狀腺贅生物等,其對應(yīng)的英文描述術(shù)語有thyroid nodule、thyroid mass、thyroid lesion、thyroid tumor、thyroid neoplasm等。對于良惡性的甲狀腺結(jié)節(jié)而言,歸納為惡性結(jié)節(jié)的中文術(shù)語有甲狀腺惡性腫瘤、甲狀腺癌、甲狀腺乳頭狀癌、甲狀腺髓樣癌、甲狀腺濾泡狀癌、甲狀腺未分化癌等,其對應(yīng)的英文術(shù)語有thyroid malignant tumor、thyroid cancer/carcinoma、palillary thyroid cancer/carcinoma、medullary thyroid cancer/carcinoma、follicular thyroid cancer/carcinoma、undifferentiated thyroid cancer/carcinoma等。歸納為良性結(jié)節(jié)的中文術(shù)語有結(jié)節(jié)良性腫瘤、結(jié)節(jié)性甲狀腺腫、甲狀腺囊腫、甲狀腺濾泡狀腺瘤、甲狀腺腺瘤等,其對應(yīng)的英文術(shù)語有thyroid benign tumor、thyroid nodular goiter、thyroid cyst、follicular thyroid adenoma、thyroid adenoma等。通過對多模態(tài)語料庫中各種不同語言多樣化表述的分析,結(jié)合關(guān)鍵詞之間的關(guān)聯(lián),為醫(yī)學(xué)語言規(guī)范化的表達及至多語言多模態(tài)語料庫的教學(xué)和研究提供幫助。
此外,研究發(fā)現(xiàn),結(jié)節(jié)特征書寫報告的描述也存在多樣化,比如無回聲或囊性回聲結(jié)節(jié)、混合或囊實性結(jié)節(jié)、橢圓形或形態(tài)規(guī)則的結(jié)節(jié)、邊界不清晰或邊緣不光滑的結(jié)節(jié)、結(jié)節(jié)內(nèi)部強光點或者微小鈣化等。英文也會面臨同樣的問題,如anechoic or cystic echo nodule、mixed or cystic-solid nodule、oval or regular-shaped nodule、unclear or irregular boundary nodule、hyperechoic spots or microcalcification within a nodule等。通過將結(jié)節(jié)特征的不同描述聚類,可將相關(guān)性較強但文字表達不同的特征病歷整合在一起,這為相似病例的檢索提供了基礎(chǔ),也為同一大類里面病例的細分提供了可能性。
本文構(gòu)建的基于醫(yī)學(xué)影像標(biāo)注和電子病歷文本特征的多模態(tài)語料庫可以提供一個有利于醫(yī)學(xué)生自我學(xué)習(xí)相關(guān)醫(yī)學(xué)病理知識的平臺,將課堂理論知識與大量真實的病例結(jié)合起來,增強了學(xué)習(xí)的主觀能動性,豐富了學(xué)習(xí)形式及內(nèi)容,有利于為醫(yī)學(xué)領(lǐng)域儲備更有專業(yè)素養(yǎng)的醫(yī)務(wù)人員。與此同時,多模態(tài)語料庫中文本和影像大大豐富了教學(xué)內(nèi)容,有利于學(xué)生的理解和專業(yè)技能的培養(yǎng)。其次,多模態(tài)語料庫的構(gòu)建可以輔助醫(yī)生對病人的診斷治療,根據(jù)語料庫可以搜索類似病情的病人,借鑒類似病人電子病歷中的治療方案和療效,提高醫(yī)生的工作效率以及診治效果。最后,建立多模態(tài)的醫(yī)學(xué)語料庫可以輔助相關(guān)領(lǐng)域?qū)<覍W(xué)者的研究,對于本文甲狀腺結(jié)節(jié)良惡性而言,影像和電子病歷的集中分析,可以幫助發(fā)現(xiàn)數(shù)據(jù)中很多不被臨床重視的有重大意義的隱藏特征信息,有利于推動相關(guān)醫(yī)學(xué)的發(fā)展。
本文提出一種基于特征篩選的深度學(xué)習(xí)分類算法,該方法實現(xiàn)了更加精確的甲狀腺結(jié)節(jié)良惡性分類識別,其結(jié)果與專業(yè)醫(yī)生診斷能力的結(jié)果近似相當(dāng)。結(jié)合影像的類別信息,通過自然語言處理的方法提取電子文本病歷中的特征信息,從而構(gòu)建基于醫(yī)學(xué)影像和電子文本標(biāo)注的甲狀腺多模態(tài)語料庫。
在下一階段的研究中,可以通過引入甲狀腺結(jié)節(jié)的其他醫(yī)學(xué)影像如血流圖以及特征數(shù)據(jù)來進一步挖掘語料庫更多模態(tài)的信息,以提高識別精度,豐富語料庫資源。本文的算法也可以應(yīng)用于其他領(lǐng)域的多模態(tài)語料庫,輔助相關(guān)醫(yī)學(xué)領(lǐng)域工作人員學(xué)習(xí)、教育教學(xué)以及科研工作。