肖璐璐,竇曉燕
眾所周知,人工智能(artificial intelligence,AI)的出現(xiàn)是人類發(fā)展歷史中的革命性事件。隨著技術的進步,如今AI不僅能快速地獲取各類高清電子醫(yī)療影像學資料,而且還能快速儲存和處理批量的醫(yī)學數(shù)據(jù),這為其在醫(yī)學領域應用提供了前所未有的契機。其中機器學習(machine learning,ML)是實現(xiàn)AI應用的一種重要技術與手段。它通過大量的數(shù)據(jù)訓練讓計算機獲取“經(jīng)驗”,從而擁有類似于人類特定識別某類信息的能力。深度學習(deep learning,DL)又是機器學習的分支和發(fā)展,在過去幾年中成為了全球的研究熱點,其原理是在機器學習的基礎上構建出多層人工神經(jīng)網(wǎng)絡,具有更高效的學習能力和識別能力[1]。與傳統(tǒng)的技術相比,DL在自然語言處理,聲音識別和圖像處理等方面的準確性顯著提升。DL已被廣泛應用于許多眼部圖像的識別,如眼底熒光造影、眼底彩照和光學相干斷層成像(optical coherence tomography,OCT)等。而其中的人工神經(jīng)網(wǎng)絡的算法也已應用于包括糖尿病視網(wǎng)膜眼底病變(diabetic retinopathy,DR)、年齡相關性黃斑變性(age-related macular degeneration, ARMD)、青光眼和早產(chǎn)兒視網(wǎng)膜病變(retinopathy of prematurity,ROP)在內(nèi)的各類眼部疾病的診斷與篩查中[2-3]。本文就AI在眼部疾病中的應用現(xiàn)狀與前景作一綜述。
1.1數(shù)據(jù)集的建立收集和處理眼部圖片數(shù)據(jù),構建數(shù)據(jù)庫是人工神經(jīng)網(wǎng)絡最基礎的一步。在眼科領域,這個過程不但需要針對不同的疾病獲取包括眼底彩照、OCT、眼底熒光造影等在內(nèi)的大量而且高質(zhì)量的眼底圖片資料,同時還需要專業(yè)人員進行分類并進行病灶標記。
從現(xiàn)有研究來看,數(shù)據(jù)集的建立還存在諸多問題: (1)建立一個標準化的專業(yè)的數(shù)據(jù)集需要大量的精力以及經(jīng)濟支持。以眼科中研究較為成熟的DR為例,在產(chǎn)生可以投入臨床應用的DR算法前,全世界范圍內(nèi)已有幾個包含十萬張以上有標注的眼底圖片的大型公開數(shù)據(jù)集,包括美國的kaggle數(shù)據(jù)集和法國Messidor-2等,而這些數(shù)據(jù)集的建立不僅需要大型商業(yè)或公立機構的統(tǒng)一運作與支持,而且還需要比較長的時間周期進行篩選和標注才能投入公共使用。(2)圖片的篩選和標注需耗費專業(yè)人員大量的時間和精力。專業(yè)人員需要能夠分辨圖像質(zhì)量的高低以及準確納入合格的圖片資料,且圖片標注質(zhì)量也將直接影響到算法訓練的結果。同時不同專業(yè)人員的標注標準較難統(tǒng)一,加之部分疾病的診斷和分級的標準本身也存在爭議。(3)不少疾病圖像資料的缺乏。例如包括白內(nèi)障在內(nèi)的一系列眼前節(jié)病,通常由醫(yī)生在裂隙燈下對患者進行觀察診斷,缺乏可直接用于訓練算法的電子圖像數(shù)據(jù)。對于像眼部腫瘤在內(nèi)的罕見病,存在病例少、收集時間長等問題,這是AI用于該類疾病的主要困難。(4)目前大部分研究的數(shù)據(jù)集都是來自較同質(zhì)的患病人群,想要創(chuàng)建出真正用于臨床場景的AI算法,需要增加數(shù)據(jù)集來源的多樣性,如添加不同年齡階段、不同地區(qū)及不同人種的數(shù)據(jù)資料。
1.2算法的訓練如前所述,人工神經(jīng)網(wǎng)絡算法訓練的最終效果取決于兩方面:用于訓練的數(shù)據(jù)庫的質(zhì)量(圖片數(shù)量和圖片標注的質(zhì)量)和算法本身。而目前許多相關方面的計算機與眼科學者與專家及仍然擔心人工神經(jīng)網(wǎng)絡所建立的模型為“黑箱模型”[4],即人類無法完全弄清楚其內(nèi)在邏輯和每一層的物理含義,而人工神經(jīng)網(wǎng)絡中每層之間的對應關系模糊而復雜,且越多層級的人工神經(jīng)網(wǎng)路越復雜,輸入值和算法最終的輸出值之間的關系越難以確定,很可能導致訓練的人工神經(jīng)網(wǎng)絡算法最終并未有效的模型,而導致根本性誤判。因此,加深人類對AI內(nèi)在特性的理解將是未來人工智能發(fā)展很重要的一步。
同時,因訓練算法所需的數(shù)據(jù)量巨大,對圖片本身質(zhì)量和標注質(zhì)量的要求較高,因此,訓練出一個成熟且穩(wěn)定性較高的算法成本較高。針對這一問題,有研究團隊探究簡化該訓練過程的可能性。例如,Kermany等[5]提出了遷移學習的深度學習算法,可以大幅提升訓練算法的效率。遷移學習可以把已訓練好的模型參數(shù)遷移到新的模型來幫助新模型訓練。相較于其他大多數(shù)學習模型的“從零開始”,遷移學習先利用卷積神經(jīng)網(wǎng)絡,在已有的已經(jīng)標記好的預訓練網(wǎng)絡系統(tǒng)基礎上再學習,從而使得新模型的訓練時間縮短,訓練所需數(shù)據(jù)更少,判定結果更準確。遷移學習被認為是一種高效的技術,尤其是面臨相對有限的訓練數(shù)據(jù)時。遷移學習是深度學習的一個自然發(fā)展方向,它能讓深度學習變得更加可靠,還能幫研究人員理解深度學習的模型。
1.3算法的應用目前,深度學習算法在眼科中的應用主要有以下幾個方面的挑戰(zhàn):(1)受限于算法本身。現(xiàn)階段的可以進行圖像識別的算法都是基于二維圖像,如眼底彩照、OCT、眼底熒光造影等,因此一些基于立體試鏡的檢查暫時無法被人工智能直接識別。并且盡管許多算法在測試中表現(xiàn)良好,在獨立的臨床數(shù)據(jù)集中的表現(xiàn)卻不如人意。最后,目前的單一的算法只能識別某一類型的疾病,例如,用來輔助診斷ARMD的算法只能用來識別ARMD和非ARMD,當算法被用于識別多種疾病時,準確率往往大幅下降,未來的人工智能應用的發(fā)展應在此基礎上進行整合,使其更貼近臨床運用場景的需求[6]。(2)AI大規(guī)模規(guī)范化的運用涉及到醫(yī)學倫理學和臨床的準入標準問題。任何一個算法在被運用于臨床前都需要進行全方位評估,包括準確性與安全性的測試。隨著越來越多AI產(chǎn)品面世,各地管理機構亟需建立安全有效合理的評估體系,讓新的AI技術可以及時服務于相關群體,同時加強群體對AI的認識和信任。關于內(nèi)分泌門診患者對基于AI的DR篩查設備的滿意度調(diào)查研究發(fā)現(xiàn)96%的患者對AI篩查模型表示滿意[7]。由此可見,患者在就診時對AI應用的普及并不反感,然而目前缺乏更多種類疾病和更大規(guī)模人群中的相關研究。(3)隨著人工智能應用的發(fā)展和普及,部分學者擔憂未來人工智能被廣泛運用于各級醫(yī)療機構后,提高醫(yī)生看診效率的同時也增加醫(yī)生對AI的依賴性,忽略AI所無法識別的隱蔽非典型病變,影響醫(yī)生的決策能力[8]。醫(yī)生在勢不可擋的AI化浪潮之下如何重新定位自己是未來醫(yī)生迫切需要思考的問題。
2.1 DRDR為當今世界最高發(fā)的疾病之一。糖尿病眼部并發(fā)癥是導致患者視力急劇下降及失明的罪魁禍首,其中最為常見的是視網(wǎng)膜病變。預計在2040年以前,全球?qū)⒂屑s6億人面臨糖尿病的威脅,其中三分之一左右的患者可能發(fā)生DR[9]。一個包括美國人、歐洲人和亞洲人在內(nèi)的調(diào)查研究顯示糖尿病人群中有34.6%的患者被檢出DR[9],另有研究顯示我國大陸居民中這一數(shù)字為25%[10]。臨床上糖尿病眼部并發(fā)癥的治愈率低、控制難,在病程后期尤為明顯。所以尋找到確診率高并能進行早期診斷的方法對DR的有效防治有重要意義。
DR的篩查和疾病管理過程需要各種眼科設備,有經(jīng)驗的專業(yè)人員和大量經(jīng)費支持[11]。早年間就有不少研究團隊看到了將AI用于DR診治的可能性和必要性,他們用AI來識別DR患者眼底圖片中的出血及滲出,微動脈瘤和新生血管。近年來隨著深度學習算法在眼科中的應用,AI在DR的篩查,診斷與分級中的應用取得更進一步的成果。Gulshan等[12]采用近13萬張已由54位美國眼科專家和住院醫(yī)師在2015-05/12期間標注過的視網(wǎng)膜眼底圖像,對深度學習網(wǎng)絡進行訓練。訓練完成后,用從兩個公開數(shù)據(jù)庫 (EyePACS-1 and Messidor-2)中獲取的10000張圖片對模型進行測試。其檢測準確率分別達到曲線下面積(area under curve,AUC)0.991和0.990,能力與眼科專家相當。
國內(nèi)在DR圖像資料的收集和處理上,Li等[13]則從多家國內(nèi)外頂級醫(yī)院收集了數(shù)十萬張眼底照片,針對眼底圖像特點設計了特定的深度卷積神經(jīng)網(wǎng)絡模型。在ImageNet 1000類分類模型預訓練基礎上,對眼底圖像分類模型進行迭代優(yōu)化,最終研發(fā)出了較為成熟的DR輔助診斷模型。該模型對致盲型DR篩出的AUC曲線和特異性與敏感性分別為0.955, 92.5%和 98.5%。
Ting等[14]的一項AI眼科篩查系統(tǒng)研究中所訓練的DL被輸入了超過50萬份不同國家、不同種族的人類視網(wǎng)膜圖像資料,其中包括中國人、馬來西亞人、印度人、西班牙人、非裔美國人、北美地區(qū)的高加索人、澳大利亞人、墨西哥人和新加坡人等,所有的圖像資料由經(jīng)過訓練的多名專業(yè)人員進行分類和標記,并且為了保證標記準確性,在標記結果出現(xiàn)分歧時由更高級別的兩名??漆t(yī)生進行復審來確保標記的準確性。該深度學習系統(tǒng)可以識別和檢測出可能的DR、青光眼和ARMD的圖片。該深度學習算法對可疑糖尿病視網(wǎng)膜病變檢出的敏感度大于90%,并在10個外部檢驗數(shù)據(jù)集中的AUC達到0.889到0.983。這是目前已知圖像資料數(shù)量最大的眼科人工智能眼底項目。
隨著深度學習算法的進一步發(fā)展,2018-04,美國FDA(Food and Drug Administration,F(xiàn)DA)批準了第一個用于臨床篩查DR的深度學習算法。由Abramoff等[15]開發(fā)的這一算法在預期測試中取得了87.2%的敏感度和90.7%的特異度。該算法在先前的研究中取得的成果令人滿意,是AI在眼科領域應用的里程碑事件。
2.2 ARMDARMD是造成老年人視力減退的最主要原因之一。AREDS(Age-Related Eye Disease Study)[16]將黃斑變性分為四期:無癥狀期、早期、中期和晚期。根據(jù)美國眼科學會的建議,中期及以后的黃斑變性患者1a至少需接受2次以上的眼部復查。隨著全球老年化的加劇,患ARMD的人數(shù)增加不斷加劇,預計到2040年,將全球有2.88億人患有不同程度的ARMD,屆時對ARMD的診斷和篩查工作將是眼科醫(yī)生們工作的巨大挑戰(zhàn)[17]。早期及部分中期的ARMD患者容易漏診,同時,傳統(tǒng)的識別方法需要消耗大量時間以及專業(yè)的人力資源。因此,擁有一個可靠的DL系統(tǒng)算法來幫助篩查及診斷黃斑部的病變并及時采取干預措施具有重要意義。
國外有不少研究團隊將DL的算法用于ARMD的診斷。Ting等[14]早前采用了38189例患者的108558張眼底照片訓練出一個較為成熟的ARMD篩查模型,用于篩查可疑ARMD患者的人群。但這些圖片均來自于同質(zhì)人群并且沒有進行黃斑區(qū)的標注。而來自約翰霍普金斯大學的研究團隊與其他幾個研究團隊[18-19]則在AREDS眼底圖像數(shù)據(jù)庫的基礎上,對深度學習算法進行訓練,準確率達88.4%~91.6%,取得了與人工判別結果相當?shù)某煽儭EcTing團隊不同的是,AREDS數(shù)據(jù)庫中的圖像在用于訓練和測試前均進行了黃斑區(qū)的標注和分割。然而這些研究成果均依賴于AREDS數(shù)據(jù)庫中的130000多張圖像,沒有使用實際的臨床收集數(shù)據(jù)對模型進行測試,因此外部效度不高,且與真正能投入臨床使用場景的要求還相距甚遠,這也是其后續(xù)改進的方向之一,包括使用更復雜的神經(jīng)網(wǎng)絡來提高識別性能。同時,Kermany等[5]將患者的OCT結果作為輸入值,在ARMD的篩查和診斷中得到比眼底彩照作為輸入值更準確的結果,并且成本更低。
還有研究將AI算法投入ARMD的病程管理中。玻璃體腔內(nèi)注射抗VEGF(vascular endothelial growth factor,VEGF)藥物是ARMD患者的一線治療,對該類患者的隨訪觀察與管理對疾病的預后非常重要。Bogunovic等[20]訓練出一個基于注藥患者OCT檢查結果的人工智能模型,用于觀察和評估患者的治療效果,輔助制定進一步的治療方案。
2.3青光眼青光眼是一種退行性視神經(jīng)病變,是全球?qū)е率鞯闹饕蛑弧nA計到2040年全球?qū)⒂?.12億人面臨青光眼的威脅[21]。及時發(fā)現(xiàn)診斷青光眼、評估視覺功能、監(jiān)測和管理病程以及積極治療對青光眼患者具有重大意義。許多研究團隊將其中涉及的相關監(jiān)測指標:如患者的視野、視盤OCT以及熒光造影的杯盤比結果用于建立AI的機器學習模型。
然而AI算法評估青光眼很重要一步在于識別和分割視神經(jīng)乳頭(optic nerve head,ONH)區(qū)域。杯盤比(cup to disk ratio,C/D)是評價青光眼視神經(jīng)損害的常用指標,因此,用于青光眼的計算機算法能否從視網(wǎng)膜圖像中分辨出視盤和視杯區(qū)域直接決定了算法的最終表現(xiàn)。Chakravarty等[22]建立了一個包含正常眼和青光眼的公共視網(wǎng)膜圖像數(shù)據(jù)集,其中ONH區(qū)域由多名專業(yè)人員手動標注,可供青光眼的AI團隊進行研究。由于病理性的視盤改變目前無法用一個特定的杯盤比數(shù)值統(tǒng)一定義,Ting等[14]和Li等[23]的團隊在算法中將杯盤比的參數(shù)設定為0.6~0.8以篩查可疑青光眼,同時Christopher等[24]還探究了機器學習在OCT圖像上分辨青光眼神經(jīng)纖維層損傷的可能性。最近,Halupka等[25]的一項研究顯示他們可通過非侵入式的眼底圖像檢查直接從患者的眼部結構評估患者的視功能。研究人員利用深度學習算法從患者OCT圖像中高精度地捕捉的視網(wǎng)膜神經(jīng)纖維層(retinal nerve fiber layer,RNFL)厚度和神經(jīng)節(jié)細胞內(nèi)叢狀層(ganglion cell-inner plexiform layer,GCIPL)厚度信息,并發(fā)現(xiàn)這些數(shù)據(jù)和患者的視功能高度相關。在此基礎上,還可用AI對青光眼患者每次復診時視功能結果進行預測。除了眼底彩色照相和OCT,新近的研究證明基于超廣角眼底成像技術的深度學習算法,也能夠?qū)η喙庋奂捌鋰乐爻潭茸龀鲚^好的識別和判斷。
除了患者眼部解剖結構的改變,青光眼的視野損傷也是評估視功能的重要指標。Elze等[26]和Yousefi等[27]開發(fā)出了檢測早期青光眼視野損失以及監(jiān)測患者視野損傷進展的算法,Kazemian等[28]運用患者的眼壓和視野等數(shù)據(jù),為各類型青光眼患者個性化制定目標眼壓以及最佳的眼壓控制策略。
2.4 ROP在全世界范圍內(nèi),ROP是造成兒童失明的主要原因。據(jù)不完全統(tǒng)計,每年全世界有32000例患者因ROP相關的疾病失明,尤其是在中低收入的發(fā)展中國家[29]。然而,結合早產(chǎn)兒的病史和臨床表現(xiàn),通過相關的眼科檢查或遠程評估患兒的眼底熒光造影結果,可以及時發(fā)現(xiàn)致盲ROP的早期征象,及早干預治療從而降低ROP致盲率[30]。
Brown等[31]用深度學習開發(fā)出i-ROP DL算法用以識別和檢測ROP患者的眼底特征表現(xiàn)從而幫助診斷。研究顯示該算法AUC曲線達到0.98且在100張圖片的測試結果中到達100%的敏感性和94%的特異性,與一同參與測試的8名眼科專家相比,準確性高于其中6名。
在ROP的基礎研究中AI也有相關的應用。氧誘導視網(wǎng)膜病變的小鼠模型是ROP相關研究的金標準模型,對于研究人員來說,識別和計數(shù)小鼠的視網(wǎng)膜病變和新生血管叢工作量巨大,而Mazzaferri等[32]發(fā)明的算法充分運用了AI強大細節(jié)識別能力和數(shù)據(jù)處理速度,有效解決這一瓶頸問題。同時,Xiao等[33]也研發(fā)出一個深度學習的算法可以自動識別新生血管叢和其他OIR(oxygen-induced retinopathy)模型中有診斷價值的依據(jù)。
2.5白內(nèi)障白內(nèi)障困擾了成千上萬老年群體,它是一種由眼前節(jié)的晶狀體變形混濁導致視力下降甚至喪失的常見眼部疾病。及時診斷和手術治療可顯著改善患者的視力,提升患者的生活質(zhì)量。曾有研究團隊用眼部超聲等圖像作為輸出值,將人工智能的SVM(support vector machine,SVM),RF (random forest,RF)等算法用于白內(nèi)障的診斷和分級,并建立了白內(nèi)障超聲乳化摘除手術的風險預測模型[34]。
近年來也有研究者探究AI深度學習算法檢測年齡相關性白內(nèi)障的可能性。值得注意的是,Long等發(fā)表的一篇將深度學習算法用于兒童先天性白內(nèi)障患者診斷和分級的研究,其訓練的算法展示了良好的穩(wěn)定性。研究中采用了410張先天性白內(nèi)障患者的圖片和476張正常兒童的圖片,最終AI在先天性白內(nèi)障的識別中取得了和專家相似的準確率。其主要功能包括:識別先天性白內(nèi)障的人群,評價先天性白內(nèi)障患者的危險分級,輔助臨床診斷。
近幾年AI在各領域的應用呈現(xiàn)出爆發(fā)性的增長,尤其是醫(yī)學領域[35]。目前AI在幾類常見眼科疾病中的應用日趨成熟,已有國家和地區(qū)將AI產(chǎn)品,如IDx-DR,作為自動檢測和輔助篩查的醫(yī)療器械投入臨床使用。然而AI在實際應用中還存在幾個主要問題:(1)目前所訓練的AI模型還是缺少足夠的訓練集和測試集來增加其準確性,特異性和敏感性。遷移學習的方法為數(shù)據(jù)集有限的情況提供一種解決方法。(2)不同國家、地區(qū)和醫(yī)療機構的檢查設備不同,導致訓練所需圖片的質(zhì)量不穩(wěn)定,最終將影響AI模型診斷和判別的準確性。(3)目前人工神經(jīng)網(wǎng)絡所建立的模型仍為“黑箱模型”,同時模型對所診斷的疾病缺乏“解釋能力”。即無法為臨床醫(yī)生提供其所輸出結果的診斷原因。最后,因缺少訓練所需的樣本量,對于大部分的罕見疾病AI模型診斷的可靠性尚存疑問[36]。
隨著研究的加深,技術的不斷優(yōu)化和人工智能準入標準的制定與完善,未來在眼科領域?qū)⒂性絹碓蕉嗟腁I產(chǎn)品出現(xiàn)在日常生活中,并逐漸滲透到各級醫(yī)療機構的日常診療工作中去。AI作為互聯(lián)網(wǎng)時代一種高效便捷的新型工具,它的普及將會極大地改善醫(yī)療資源分布不均現(xiàn)狀,促進公共衛(wèi)生事業(yè)的發(fā)展。特別對于專業(yè)人才短缺的偏遠地區(qū),AI的使用可以大幅提高該地區(qū)的診療水平,還能降低患者看病的時間成本和經(jīng)濟成本。對有高危因素的慢性疾病患者群體,AI可以提示患者早期防治,并有效參與到患者病程監(jiān)測和疾病管理中去,對各國的防盲治盲工作有重大意義。此外,AI強大的圖像數(shù)據(jù)處理能力在眼科領域的基礎研究中也能幫助解決數(shù)據(jù)龐大冗雜所帶來的瓶頸問題。
如今網(wǎng)絡越來越便捷,隨著5G時代的來臨,數(shù)據(jù)存儲方式更新?lián)Q代的同時傳輸速度也越來越快,使得世界范圍內(nèi)各級醫(yī)療機構之間的數(shù)據(jù)共享成為可能,尤其對于眼科這樣依賴圖像資料等形態(tài)學診斷數(shù)據(jù)的學科領域。人工智能的進一步發(fā)展亟需加強各國家和地區(qū)的數(shù)據(jù)交流、建立大型的公開的數(shù)據(jù)庫、覆蓋更多的疾病類型和人種[37]。數(shù)據(jù)庫的建立是AI深度學習的基礎,高質(zhì)量的數(shù)據(jù)庫毫無疑問將催生更多更強大的AI產(chǎn)品。
隨著計算機技術的迭代,人工智能的算法本身也將不斷優(yōu)化,未來可以預見AI運算速度的進一步提升,算法訓練成本逐漸降低,從而使更多企業(yè)和各級醫(yī)療機構參與到AI產(chǎn)品的構建中。同時,AI在眼科的應用有著多方位發(fā)展的趨勢。AI設備在輔助診斷的同時,也會參與到患者疾病的管理、治療效果的評估、協(xié)助制定個性化的最優(yōu)治療方案、甚至完成相關的眼部手術操作等過程中。隨著越來越多的AI算法投入真實應用,產(chǎn)生數(shù)據(jù)反饋又可用于研究,研究人員可因此不斷校正調(diào)整優(yōu)化原有算法和參數(shù),提升算法的準確性和穩(wěn)定性。