◆郭 磊 賀宏偉 劉 露
(山東第一醫(yī)科大學(xué)(山東省醫(yī)學(xué)科學(xué)院)現(xiàn)代教育技術(shù)中心 山東 271016)
醫(yī)學(xué)影像是進行醫(yī)療診斷的重要依據(jù)。腫瘤等疾病診療過程中產(chǎn)生了以醫(yī)學(xué)影像為主的海量醫(yī)療數(shù)據(jù)。當前醫(yī)學(xué)影像的數(shù)據(jù)存儲及組織管理,多依賴于傳統(tǒng)的PACS 系統(tǒng)。隨著大數(shù)據(jù)技術(shù)的成熟及推廣,世界范圍內(nèi)的相關(guān)機構(gòu)逐步意識到醫(yī)學(xué)影像大數(shù)據(jù)研究的重要性。美國國立衛(wèi)生研究院通過SEER 項目實現(xiàn)了涵蓋全美典型人群的癌癥年度報告、癌癥治療與生存的年度報和大數(shù)據(jù)基礎(chǔ)上的腫瘤特征與預(yù)后分析。中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院牽頭成立腫瘤影像大數(shù)據(jù)平臺,實現(xiàn)國內(nèi)部分省份腫瘤醫(yī)院腫瘤數(shù)據(jù)的數(shù)據(jù)共享和挖掘分析,以及基于平臺的遠程醫(yī)療。
近年來深度學(xué)習(xí)在模式識別、圖像分割等方面取得優(yōu)異成果。國外研究機構(gòu)將深度學(xué)習(xí)應(yīng)用于醫(yī)學(xué)圖像中疾病的檢測識別,如斯坦福大學(xué)將卷積神經(jīng)網(wǎng)絡(luò)應(yīng) 用于皮膚癌的識別,谷歌將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于視網(wǎng)膜病變的識別,診斷結(jié)果均達到專家級水準。北京協(xié)和醫(yī)院、西安交通大學(xué)第一附屬醫(yī)院等合作啟動中國人“數(shù)字肺”研究[1],將深度學(xué)習(xí)等方法引入胸部影像分析,以實現(xiàn)肺癌的早期檢測、輔助診斷和術(shù)前評估規(guī)劃。
健康醫(yī)療大數(shù)據(jù)、新一代人工智能等領(lǐng)域正成為國內(nèi)外研究熱點,交叉學(xué)科的前瞻性探索正不斷取得突破??梢?,醫(yī)學(xué)影像大數(shù)據(jù)的平臺架構(gòu)和分析方法將日臻成熟。結(jié)合深度學(xué)習(xí)方法,基于醫(yī)學(xué)影像大數(shù)據(jù)進行輔助診斷、預(yù)后預(yù)測和決策分析的模型將逐步涌現(xiàn)。本文以下部分將對醫(yī)學(xué)影像大數(shù)據(jù),結(jié)合深度學(xué)習(xí)的輔助診斷、預(yù)后預(yù)測模型進行探討。
當前研究中,Apache Hadoop 分布式架構(gòu)常用于構(gòu)建醫(yī)學(xué)影像大數(shù)據(jù)平臺[2],依據(jù)制定的數(shù)據(jù)標準,實現(xiàn)醫(yī)學(xué)影像等醫(yī)療數(shù)據(jù)的采集和存儲。
根據(jù)醫(yī)學(xué)影像大數(shù)據(jù)平臺的功能需求,需要采集的數(shù)據(jù)有醫(yī)學(xué)影像、電子病歷、數(shù)據(jù)化檢驗報告等。平臺制定人員信息、病情信息、檢查報告、診療方案等主題庫。主題庫標準的建立,將對平臺后期數(shù)據(jù)建模效果起到?jīng)Q定性作用。
主題庫基于Hadoop 的Hive 數(shù)據(jù)倉庫進行構(gòu)建,數(shù)據(jù)倉庫規(guī)定每個字段數(shù)據(jù)類型,操作Hive 表的HQL 語句,將執(zhí)行基于Map/Reduce 的數(shù)據(jù)處理語句,完成數(shù)據(jù)清洗等預(yù)處理,還可以按照特定維度完成每日數(shù)據(jù)統(tǒng)計。
醫(yī)學(xué)影像大數(shù)據(jù)平臺搭建完成后,采用VPN 技術(shù)實現(xiàn)大數(shù)據(jù)平臺和接入平臺的臨床醫(yī)院的網(wǎng)絡(luò)連通。按照制定的數(shù)據(jù)標準進行數(shù)據(jù)采集,數(shù)據(jù)采集可以通過提供API 接口、FTP 傳輸、日常錄入、數(shù)據(jù)批量遷移等方式實現(xiàn)。
涉及的平臺接入醫(yī)院擁有海量醫(yī)學(xué)影像數(shù)據(jù),并且每天產(chǎn)生大量的增量數(shù)據(jù)。文件系統(tǒng)和存儲服務(wù)器需要具備可伸縮、高容錯、高吞吐量、可水平擴展這些特點,能夠滿足醫(yī)學(xué)影像大數(shù)據(jù)的數(shù)據(jù)管理需求。
(1)HDFS 分布式文件系統(tǒng)
Hadoop HDFS 使用虛擬服務(wù)器集群搭建,提供可水平擴展的高配置資源管理節(jié)點和數(shù)據(jù)存儲節(jié)點,影像數(shù)據(jù)以Block 方式存儲,單個影像數(shù)據(jù)的各個Block 分布式地存儲于不同節(jié)點,自動實現(xiàn)數(shù)據(jù)存儲的負載均衡。HDFS 為每個節(jié)點配置備份節(jié)點,一方面實現(xiàn)訪問的負載均衡,更重要的是實現(xiàn)了分布式集群的高可用,一旦某個節(jié)點宕機,將使用剩余可訪問節(jié)點。
(2)FastDFS 分布式文件服務(wù)器
平臺部署FastDFS 作為文件服務(wù)器集群,存儲醫(yī)學(xué)影像、壓縮文件等。該文件服務(wù)器能夠提供高效的醫(yī)學(xué)影像數(shù)據(jù)存儲、上傳和下載等服務(wù),實現(xiàn)醫(yī)學(xué)影像的數(shù)據(jù)管理及負載均衡,適于醫(yī)學(xué)影像等文件的在線服務(wù),適于文件大小在5KB 至500MB 醫(yī)學(xué)影像的文件存儲。
為進行醫(yī)學(xué)影像大數(shù)據(jù)平臺快速高效查詢檢索,需要使用ElasticSearch 全文檢索引擎,實現(xiàn)醫(yī)學(xué)影像數(shù)據(jù)等的智能檢索。
ElasticSearch 是基于Lucene 的文件服務(wù)器,是企業(yè)級搜索引擎,支持實時搜索,支持橫向擴展,服務(wù)器可以從一臺擴展到上百臺。ElasticSearch 中的醫(yī)學(xué)影像數(shù)據(jù)以分片方式存儲至各個節(jié)點。提供Java API 開發(fā)接口,還有Http Rest API。數(shù)據(jù)以Json格式返回,方便開發(fā)。數(shù)據(jù)是以索引、類型、文檔的方式組織的。平臺為醫(yī)學(xué)影像數(shù)據(jù)建立索引,然后在每類索引下建立對應(yīng)的類型,類型中保存醫(yī)學(xué)影像的相關(guān)文檔數(shù)據(jù)。完成數(shù)據(jù)的索引以后,可以跨索引、跨類型、多字段、以相關(guān)性得分、數(shù)值字段排序等方式,實現(xiàn)數(shù)據(jù)快速讀取搜索。
深度學(xué)習(xí)在包括醫(yī)學(xué)圖像在內(nèi)各類圖像的處理中表現(xiàn)出當前最佳性能。例如,相關(guān)研究采用多個深度神經(jīng)網(wǎng)絡(luò)組成的SDFN模型對胸部醫(yī)學(xué)圖像進行處理,實現(xiàn)胸部疾病的分類判定[3],涉及的深度神經(jīng)網(wǎng)絡(luò)包括U-Net 和DenseNets,實現(xiàn)胸部14 類疾病的自動判定。相比當前研究采用的其他模型,SDFN 模型取得更高的AUC 值,平均值高達0.815,自動識別能力達到專家級水準。
另一方面,當前醫(yī)學(xué)影像診斷僅依靠醫(yī)生讀片,不僅增加醫(yī)生工作量,而且存在誤判和漏判。例如,有數(shù)據(jù)顯示一家腫瘤??漆t(yī)院平均每天接待肺部疾病患者可達百例,每位患者檢查會產(chǎn)生200-300 張左右的CT 影像,放射科醫(yī)生每天要將大量時間用于繁多的影像診斷任務(wù)。因此,為醫(yī)學(xué)影像篩查診斷的準確率和自動化程度,有必要將深度學(xué)習(xí)引入到醫(yī)學(xué)影像大數(shù)據(jù)平臺,實現(xiàn)智能化的醫(yī)學(xué)影像輔助診斷。
醫(yī)學(xué)影像大數(shù)據(jù)平臺采用深度學(xué)習(xí)方法進行醫(yī)學(xué)圖像處理,如醫(yī)學(xué)圖像中成像部位分割,病灶部位的識別、定位、分割等,進一步進行良惡性判定。采用TensorFlow 深度學(xué)習(xí)框架,實現(xiàn)醫(yī)學(xué)影像輔助診斷模型。搭建用于醫(yī)學(xué)圖像處理的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練、測試環(huán)境。對比國內(nèi)外醫(yī)學(xué)圖像處理的研究成果,結(jié)合具體訓(xùn)練和測試結(jié)果,確定用于醫(yī)學(xué)圖像處理任務(wù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括網(wǎng)絡(luò)層數(shù),網(wǎng)絡(luò)層間連接方式,通道數(shù)目,各網(wǎng)絡(luò)層類型、神經(jīng)元數(shù)目和卷積核大小等,以及防止網(wǎng)絡(luò)過擬合的訓(xùn)練方法策略等。
國內(nèi)研究對深度學(xué)習(xí)在預(yù)后預(yù)測中的應(yīng)用現(xiàn)狀進行綜述,指出深度學(xué)習(xí)在臨床診斷和公共衛(wèi)生領(lǐng)域尚未得到足夠應(yīng)用。傳統(tǒng)的回歸預(yù)測模型如logistics 回歸、cox 回歸等描述了自變量和因變量之間的線性關(guān)系,不能對非線性的變量如醫(yī)學(xué)圖像特征和疾病風(fēng)險因素之間關(guān)系做較好描述。相關(guān)研究將深度學(xué)習(xí)應(yīng)用于結(jié)合腫瘤影像的腫瘤患者生存分析[4],預(yù)測結(jié)果較傳統(tǒng)回歸模型有顯著提升。
醫(yī)學(xué)影像大數(shù)據(jù)平臺可采用深度學(xué)習(xí)算法,基于醫(yī)學(xué)影像并結(jié)合不同分期的確診年齡、生存率和治療模式分布等,進行預(yù)后評估,為規(guī)范化治療提供支持;結(jié)合深度學(xué)習(xí)和傳統(tǒng)回歸模型,針對不同年齡段、不同性別和不同民族的疾病發(fā)病和死亡狀況,分析誘發(fā)疾病的危險因素。
平臺可采用Hadoop Spark 實現(xiàn)預(yù)后預(yù)測模型。Spark 包括Spark SQL、Spark Streaming、Spark MLlib 和GraphX 四個組件。Spark 除了以 Standalone 方式運行以外,還能夠直接構(gòu)建在Hadoop YARN 資源管理器之上。數(shù)據(jù)計算任務(wù)提交至Hadoop 集群任務(wù)節(jié)點,實現(xiàn)集群CPU 和內(nèi)存的資源重復(fù)利用。避免數(shù)據(jù)在不同集群不同機柜的服務(wù)器網(wǎng)絡(luò)節(jié)點之間的移動傳輸,直接將計算發(fā)送到數(shù)據(jù)存儲的節(jié)點進行計算,并將結(jié)果匯總。使用Spark SQL 完成各主題庫數(shù)據(jù)查詢,使用Spark Streaming 實現(xiàn)日志實時分析,使用Spark MLlib 完成大數(shù)據(jù)分析建模。Spark MLlib 中的Pipeline 可以用來保存一個完整的模型訓(xùn)練、評估流程,并支持將訓(xùn)練好的模型輸出保存,需要使用的時候直接加載模型,并給模型輸入,即可得到模型輸出。
本文討論了醫(yī)學(xué)影像大數(shù)據(jù)平臺的構(gòu)建方法,以及深度學(xué)習(xí)在醫(yī)學(xué)影像大數(shù)據(jù)平臺中的應(yīng)用模型,包括醫(yī)學(xué)影像輔助診斷和預(yù)后預(yù)測模型。隨著醫(yī)學(xué)影像大數(shù)據(jù)應(yīng)用場景的逐步成熟,大數(shù)據(jù)平臺的構(gòu)建和深度學(xué)習(xí)的應(yīng)用融合將成為該領(lǐng)域研究的關(guān)鍵方面。