馬 婷 陳清財(cái)
近年來(lái),醫(yī)療人工智能(artificial intelligence,AI)技術(shù)的快速發(fā)展使得醫(yī)療數(shù)據(jù)的匯聚和標(biāo)注越來(lái)越凸顯其重要性與必要性,與此同時(shí),伴隨著醫(yī)療信息化和數(shù)字化進(jìn)程,醫(yī)療大數(shù)據(jù)急劇增長(zhǎng),尤其醫(yī)學(xué)影像數(shù)據(jù)這種大容量數(shù)據(jù)的介入,使得醫(yī)療大數(shù)據(jù)的體量呈現(xiàn)指數(shù)級(jí)增長(zhǎng)趨勢(shì)[1]。我國(guó)由于患者眾多,使得醫(yī)療大數(shù)據(jù)具有規(guī)模宏大、多模態(tài)的特點(diǎn)。然而,相比于醫(yī)療大數(shù)據(jù)開(kāi)放較早的西方國(guó)家,我國(guó)海量的臨床醫(yī)療數(shù)據(jù)卻在醫(yī)療AI技術(shù)的支持方面并沒(méi)有表現(xiàn)出應(yīng)有的價(jià)值。其中,多層級(jí)醫(yī)療數(shù)據(jù)壁壘所帶來(lái)的個(gè)體數(shù)據(jù)不完整,并且可利用數(shù)據(jù)的規(guī)模小,以及由于規(guī)范化、標(biāo)準(zhǔn)化工作開(kāi)展較晚,診療過(guò)程中產(chǎn)生的各種臨床數(shù)據(jù)廣泛存在醫(yī)療概念表述不一致、數(shù)據(jù)對(duì)齊困難等問(wèn)題,大大弱化了大數(shù)據(jù)在醫(yī)療智能化中的支撐應(yīng)用。同時(shí),大數(shù)據(jù)應(yīng)用與AI技術(shù)帶來(lái)的倫理問(wèn)題也是醫(yī)療大數(shù)據(jù)使用備受關(guān)注的話題[2]。這里的倫理問(wèn)題,既包括數(shù)據(jù)隱私、數(shù)據(jù)歸屬問(wèn)題,也包括AI技術(shù)與醫(yī)療專(zhuān)家協(xié)同過(guò)程中的決策權(quán)與責(zé)任劃定問(wèn)題,技術(shù)脆弱性、不透明性帶來(lái)的意外問(wèn)題等。因而我們希望能夠在AI引入健康醫(yī)療領(lǐng)域的研發(fā)過(guò)程中,建立一種新型的數(shù)據(jù)平臺(tái)機(jī)制,在平臺(tái)的自動(dòng)化統(tǒng)一后臺(tái)的協(xié)助下,能夠從海量醫(yī)療數(shù)據(jù)中產(chǎn)生統(tǒng)一標(biāo)準(zhǔn)的大數(shù)據(jù),形成具有廣泛共識(shí)的大規(guī)模醫(yī)療知識(shí),從而支撐更魯棒、更透明可控的醫(yī)療AI技術(shù)的開(kāi)發(fā)與驗(yàn)證,使得研發(fā)技術(shù)能夠得以順利進(jìn)行臨床轉(zhuǎn)化,并在研發(fā)過(guò)程中建立完整的數(shù)據(jù)隱私保護(hù)機(jī)制,融入倫理人文關(guān)懷。
早期的醫(yī)療大數(shù)據(jù)主要以針對(duì)單一臨床問(wèn)題,匯集單模態(tài)、單時(shí)間點(diǎn)的數(shù)據(jù)為主。例如,針對(duì)肺癌的影像數(shù)據(jù)。經(jīng)過(guò)脫敏分門(mén)別類(lèi)地打包放到網(wǎng)站上,供研究者查找或下載,形成了最早的開(kāi)放式醫(yī)療數(shù)據(jù)庫(kù)。這類(lèi)數(shù)據(jù)庫(kù)的特點(diǎn)是所面向的問(wèn)題相對(duì)簡(jiǎn)單,如針對(duì)腫瘤的影像識(shí)別問(wèn)題,數(shù)據(jù)庫(kù)的建立圍繞不同癌癥的影像數(shù)據(jù)提供醫(yī)生的手動(dòng)標(biāo)注,利用該類(lèi)數(shù)據(jù)庫(kù)的技術(shù)研發(fā)也相對(duì)單一,即以醫(yī)生手動(dòng)標(biāo)注為標(biāo)準(zhǔn)訓(xùn)練AI模型替代手動(dòng)標(biāo)注。這類(lèi)數(shù)據(jù)庫(kù)的公開(kāi)實(shí)現(xiàn)了數(shù)據(jù)資源共享,為不同地區(qū)的研究者提供了統(tǒng)一的數(shù)據(jù)源,是通用醫(yī)療AI技術(shù)的最早數(shù)據(jù)支持。然而,早期的數(shù)據(jù)收集缺乏一致性標(biāo)準(zhǔn),手動(dòng)標(biāo)注多為有科研興趣醫(yī)生的貢獻(xiàn),缺乏數(shù)據(jù)標(biāo)注的標(biāo)準(zhǔn),在后期的醫(yī)療AI技術(shù)研發(fā)中所需要的數(shù)據(jù)準(zhǔn)備階段尚需巨大工作量(數(shù)據(jù)梳理、數(shù)據(jù)清洗),使得醫(yī)療AI技術(shù)的功能相對(duì)單一,在臨床流程的輔助價(jià)值未能凸顯出來(lái)。
隨著科研需求的不斷更新,開(kāi)放醫(yī)療數(shù)據(jù)庫(kù)的模式也在發(fā)生改變,早期單一數(shù)據(jù)集不能滿足臨床對(duì)疾病研究的需求,從而推動(dòng)產(chǎn)生了目前最流行的隊(duì)列型共享數(shù)據(jù)庫(kù),即平臺(tái)上的醫(yī)療數(shù)據(jù)都以隊(duì)列為基本檢索方式。這類(lèi)數(shù)據(jù)庫(kù)以臨床研究的問(wèn)題為導(dǎo)向,數(shù)據(jù)的收集以覆蓋臨床決策為標(biāo)準(zhǔn),圍繞臨床流程收集多模態(tài)的臨床數(shù)據(jù),以疾病隊(duì)列為基本索引為研究者提供數(shù)據(jù)共享,這類(lèi)醫(yī)療大數(shù)據(jù)的建立與共享提升了科研效率和醫(yī)療AI技術(shù)的產(chǎn)出,其中最為出名的當(dāng)屬UK Biobank[3]。UK Biobank是由英國(guó)政府發(fā)起的,旨在研究“遺傳和環(huán)境因素共同作用對(duì)患病風(fēng)險(xiǎn)影響”的大規(guī)模生物醫(yī)學(xué)數(shù)據(jù)庫(kù)。自開(kāi)放到現(xiàn)在,UK Biobank已經(jīng)對(duì)外開(kāi)放了上百萬(wàn)例的醫(yī)療數(shù)據(jù),它以隊(duì)列的形式供人們查閱下載,這對(duì)于科研來(lái)說(shuō)有了更直接的切入點(diǎn),提升了疾病研究的進(jìn)程,大量的AI技術(shù)開(kāi)發(fā)者利用該數(shù)據(jù)庫(kù)進(jìn)行技術(shù)研發(fā),使得醫(yī)療AI技術(shù)可以得到規(guī)?;纳a(chǎn)和場(chǎng)景應(yīng)用的測(cè)試。在專(zhuān)病系統(tǒng)中也有類(lèi)似的隊(duì)列研究,例如,DIAN(Dominantly Inherited Alzheimer Network,DIAN)[4]是一個(gè)全球性的針對(duì)遺傳性老年癡呆的大隊(duì)列研究,同樣是通過(guò)隊(duì)列設(shè)計(jì)這種標(biāo)準(zhǔn)的數(shù)據(jù)收集方式,使得科研人員可以更好地產(chǎn)出科研成果,進(jìn)而為探索攻克疾病的方法提供良好的數(shù)據(jù)支持。
隊(duì)列型醫(yī)療大數(shù)據(jù)平臺(tái)如何加速醫(yī)療技術(shù)的進(jìn)步呢?以ADNI (Alzheimer's disease neuroimaging initiative,ADNI) 為例可見(jiàn)一斑。ADNI是全球最大的針對(duì)阿爾茨海默病 (Alzheimer's disease, AD) 的開(kāi)放影像學(xué)數(shù)據(jù)平臺(tái),數(shù)據(jù)庫(kù)包含臨床量表、基因、外周血標(biāo)記物、多模態(tài)磁共振和分子影像數(shù)據(jù)。數(shù)據(jù)庫(kù)由美國(guó)國(guó)立衛(wèi)生研究院(National Institutes of Health,NIH)所資助的相關(guān)研究數(shù)據(jù)積累而成,并且持續(xù)更新,目前已擁有AD研究隊(duì)列數(shù)據(jù)1 900余例,一些已發(fā)表文章對(duì)此數(shù)據(jù)庫(kù)進(jìn)行了專(zhuān)門(mén)的說(shuō)明[5-6]。基于ADNI數(shù)據(jù)發(fā)表的研究持續(xù)改變了人類(lèi)對(duì)AD的認(rèn)識(shí),尤其在診斷和評(píng)估方法上提供了很多新的科學(xué)依據(jù)和臨床證據(jù)[7]。例如,AD是不斷進(jìn)展的一種慢性病,ADNI的數(shù)據(jù)庫(kù)幾乎覆蓋了AD疾病譜系整個(gè)進(jìn)程,針對(duì)AD早期的研究提升了我們對(duì)早期標(biāo)志物的認(rèn)識(shí),從而能夠?qū)⒃\斷節(jié)點(diǎn)提前到了臨床前期[8],這對(duì)于疾病的預(yù)防和控制具有重要意義。同時(shí),由于眾多研究者都以ADNI的數(shù)據(jù)作為基準(zhǔn),因此其數(shù)據(jù)的采集也逐漸成為了眾多其他研究團(tuán)隊(duì)的標(biāo)準(zhǔn),進(jìn)一步使得全球多中心的數(shù)據(jù)可以進(jìn)行橫向的比對(duì),更加有利于研究成果的驗(yàn)證。有了這樣一個(gè)專(zhuān)家公認(rèn)的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),不同地區(qū)的研究成果可以平等地在ADNI數(shù)據(jù)庫(kù)上進(jìn)行融匯和比較[9],這便進(jìn)一步影響AD的診斷標(biāo)準(zhǔn)指南的發(fā)布。AD協(xié)會(huì)每年都會(huì)發(fā)布疾病“白皮書(shū)”,對(duì)基于ADNI數(shù)據(jù)庫(kù)的不同科研產(chǎn)出進(jìn)行總結(jié)[10-11],有關(guān)AD診療指南更新有相當(dāng)一部分也是依據(jù)ADNI數(shù)據(jù)庫(kù)產(chǎn)生的成果來(lái)確定的。到目前為止,ADNI數(shù)據(jù)庫(kù)已經(jīng)產(chǎn)出了超過(guò)1 500篇重要的論文,對(duì)于整個(gè)疾病的認(rèn)識(shí)和診療有巨大貢獻(xiàn)。
由此可見(jiàn),標(biāo)準(zhǔn)醫(yī)療大數(shù)據(jù)的搭建能夠產(chǎn)生新的醫(yī)學(xué)知識(shí)和臨床方法,形成不同研究的對(duì)話平臺(tái),最終影響臨床流程,達(dá)到推動(dòng)醫(yī)療發(fā)展的效果。在這個(gè)過(guò)程中,隊(duì)列型醫(yī)療大數(shù)據(jù)以其高度聚焦某類(lèi)疾病和數(shù)據(jù)標(biāo)準(zhǔn)化顯示出了良好的支撐作用。同時(shí)不難發(fā)現(xiàn),除了UK Biobank,其他數(shù)據(jù)庫(kù)基本都是科研隊(duì)列經(jīng)過(guò)脫敏之后的數(shù)據(jù)匯聚,這類(lèi)數(shù)據(jù)庫(kù)的建設(shè)周期和投入都比較大,以專(zhuān)病作為建設(shè)對(duì)象比較合理,一旦面向全醫(yī)療領(lǐng)域,所涉及的數(shù)據(jù)之龐大很難用統(tǒng)一架構(gòu)的數(shù)據(jù)平臺(tái)支撐。
雖然隊(duì)列型醫(yī)療大數(shù)據(jù)能夠?yàn)槲覀兲峁┝己玫目蒲兄С?,但在醫(yī)療AI技術(shù)研發(fā)的支持方面仍存在一定問(wèn)題。主要原因在于,第一,隊(duì)列數(shù)據(jù)具有較為嚴(yán)格的篩選機(jī)制和篩選條件,這就決定了隊(duì)列數(shù)據(jù)本身的多樣性和復(fù)雜性受到約束,真實(shí)世界的多樣性與不確定性,分布的多樣性和非均衡性等或多或少都會(huì)被掩蓋,這對(duì)于面向真實(shí)世界的復(fù)雜臨床決策技術(shù)的訓(xùn)練來(lái)說(shuō),具有很大局限性;第二,由于不同隊(duì)列往往針對(duì)特定的研究目標(biāo)來(lái)制定篩選條件,數(shù)據(jù)標(biāo)準(zhǔn)的主觀性使得AI技術(shù)的可用性和普適性還在受到爭(zhēng)議;第三,隊(duì)列型醫(yī)療大數(shù)據(jù)平臺(tái)雖然數(shù)據(jù)開(kāi)放,但是沒(méi)有個(gè)性化的數(shù)據(jù)管理工具和統(tǒng)一的數(shù)據(jù)分析平臺(tái),導(dǎo)致不同研究的數(shù)據(jù)分析方法缺乏一致性比較,因此很多科研成果的橫向比較依然存在一致性問(wèn)題。
基于以上分析,筆者在隊(duì)列型醫(yī)療大數(shù)據(jù)平臺(tái)經(jīng)驗(yàn)基礎(chǔ)上,探索一種全新的面向醫(yī)療AI技術(shù)發(fā)展的數(shù)據(jù)平臺(tái)模式,即能夠?qū)崿F(xiàn)醫(yī)工融合、多方參與的醫(yī)療大數(shù)據(jù)平臺(tái)3.0版本。首先,平臺(tái)允許不同權(quán)限的數(shù)據(jù)開(kāi)放形式,讓更多的數(shù)據(jù)可以被整合和利用;其次,數(shù)據(jù)從收集、清洗到利用是多方監(jiān)管和鑒定的,提升數(shù)據(jù)的一致性和臨床適配性;最后,在醫(yī)療AI技術(shù)的研發(fā)過(guò)程中,可以在中間環(huán)節(jié)得到數(shù)據(jù)監(jiān)管,保護(hù)數(shù)據(jù)權(quán)限以及規(guī)范使用倫理,讓科學(xué)家、臨床專(zhuān)家和倫理專(zhuān)家都能參與到AI的生產(chǎn)流程。這樣不僅平臺(tái)數(shù)據(jù)可以不同的形式共享,并且所有數(shù)據(jù)分析工具也是共享的,從而實(shí)現(xiàn)研究、開(kāi)發(fā)和轉(zhuǎn)化在同一個(gè)平臺(tái)上進(jìn)行。在這樣一個(gè)統(tǒng)一的生態(tài)環(huán)境下,多背景的專(zhuān)家可以同臺(tái)作業(yè),如倫理專(zhuān)家、臨床專(zhuān)家們雖然對(duì)AI技術(shù)不了解,但是他們可以為AI的生產(chǎn)提供知識(shí)輔助和倫理支持,最后由工程師把帶有共識(shí)的技術(shù)開(kāi)發(fā)為在線的軟件和AI產(chǎn)品,產(chǎn)品測(cè)試可以直接由同臺(tái)作業(yè)的臨床和倫理專(zhuān)家進(jìn)行,實(shí)現(xiàn)從數(shù)據(jù)到醫(yī)療應(yīng)用轉(zhuǎn)化一體化流程的醫(yī)療大數(shù)據(jù)平臺(tái)。
基于這樣的理念,筆者所在團(tuán)隊(duì)提出并建立了“素問(wèn)系統(tǒng)”,于2020年12月進(jìn)行了公開(kāi)發(fā)布。素問(wèn)系統(tǒng)初步實(shí)現(xiàn)了多方同臺(tái)作業(yè)、封閉式項(xiàng)目管理、分等級(jí)開(kāi)放的新型醫(yī)療大數(shù)據(jù)平臺(tái)??紤]到數(shù)據(jù)倫理問(wèn)題,針對(duì)沒(méi)有授權(quán)對(duì)外開(kāi)放的數(shù)據(jù)僅限平臺(tái)上同一項(xiàng)目的參與方之間共享,并由數(shù)據(jù)貢獻(xiàn)方主導(dǎo)數(shù)據(jù)的使用權(quán)限,通過(guò)將數(shù)據(jù)鎖在平臺(tái)上達(dá)到數(shù)據(jù)利用與安全。此外,邀請(qǐng)各方專(zhuān)家和技術(shù)人員共同參與,為平臺(tái)提供知識(shí)和技術(shù)支持,完善平臺(tái)維護(hù)。這種允許多方同臺(tái)作業(yè)的全方位開(kāi)放模式使得科學(xué)家、臨床專(zhuān)家和倫理專(zhuān)家可以參與到AI技術(shù)的整個(gè)生成流程中。通過(guò)平臺(tái)直接可視化中間結(jié)果,各方專(zhuān)家可以與AI技術(shù)專(zhuān)家共同探討結(jié)果的可行性、可用性,從而技術(shù)專(zhuān)家可以及時(shí)調(diào)整技術(shù)路線使其更加符合臨床需求。這種數(shù)據(jù)平臺(tái)模式改變了跨學(xué)科交流的方式,從而能夠更快地做成真正適用于臨床的AI技術(shù),實(shí)現(xiàn)AI到醫(yī)療應(yīng)用的技術(shù)轉(zhuǎn)化。
考慮到未來(lái)醫(yī)院的應(yīng)用場(chǎng)景,筆者所在團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了基于全國(guó)產(chǎn)AI服務(wù)器的計(jì)算集群和開(kāi)發(fā)環(huán)境,初步形成了可以在線研發(fā)新AI技術(shù)的系統(tǒng),目前素問(wèn)系統(tǒng)已經(jīng)收集到超過(guò)200T的開(kāi)源數(shù)據(jù),并且已經(jīng)在平臺(tái)面向公眾全開(kāi)放了3T的影像數(shù)據(jù),供用戶(hù)免費(fèi)下載。此外,還面向不同需求開(kāi)發(fā)了第一批AI工具,包括醫(yī)學(xué)知識(shí)圖譜、腦齡預(yù)測(cè)算法等,注冊(cè)用戶(hù)可以免費(fèi)使用這些平臺(tái)AI工具進(jìn)行初步的數(shù)據(jù)挖掘和探索,為他們的進(jìn)一步探索提供線索??紤]到醫(yī)療AI的研發(fā)少不了大量的數(shù)據(jù)標(biāo)注,素問(wèn)平臺(tái)還包含了一個(gè)能夠多方同臺(tái)在線標(biāo)注的系統(tǒng),使得以項(xiàng)目為統(tǒng)籌單位的AI研發(fā)可以流水線般地順利進(jìn)行。
這里以醫(yī)學(xué)知識(shí)圖譜為例介紹如何與臨床醫(yī)生一起共創(chuàng)未來(lái)醫(yī)療AI技術(shù)。目前,醫(yī)療存儲(chǔ)最普遍的數(shù)據(jù)是電子病歷,臨床應(yīng)用中產(chǎn)生了對(duì)電子病歷結(jié)構(gòu)化處理與輔助決策的技術(shù)需求。電子病歷的AI分析、理解,需要以標(biāo)準(zhǔn)醫(yī)學(xué)知識(shí)體系作為藍(lán)本,而醫(yī)學(xué)知識(shí)圖譜可以看成是復(fù)雜的醫(yī)學(xué)知識(shí)體系的一個(gè)易于計(jì)算機(jī)進(jìn)行理解與處理的、相對(duì)簡(jiǎn)化的版本。然而,目前在中國(guó)還沒(méi)有一個(gè)標(biāo)準(zhǔn)的、官方的、能夠覆蓋全病種的醫(yī)學(xué)知識(shí)圖譜,已知的電子病歷數(shù)據(jù)的利用多由公司主導(dǎo)的軟件提供服務(wù),背后均是自建醫(yī)學(xué)知識(shí)圖譜,由于不公開(kāi),其有效性、可用性均不能被臨床權(quán)威考察,“各自為政”的開(kāi)發(fā)方式也大大限制了知識(shí)的規(guī)模和覆蓋范圍,使得當(dāng)前的電子病歷數(shù)據(jù)還無(wú)法很好地支持臨床輔助決策。此外,現(xiàn)有的醫(yī)學(xué)知識(shí)圖譜大多沒(méi)有開(kāi)源,僅以產(chǎn)品形式置入醫(yī)院信息化系統(tǒng),無(wú)法進(jìn)行知識(shí)的更新迭代,使得醫(yī)院對(duì)AI產(chǎn)品的可用性依然存疑。因此,針對(duì)醫(yī)療文本類(lèi)的數(shù)據(jù)利用,筆者所在團(tuán)隊(duì)在素問(wèn)平臺(tái)建立了開(kāi)源、開(kāi)放的醫(yī)學(xué)知識(shí)圖譜,該體系以疾病為中心,涵蓋了部位、檢查、癥狀、藥物等11種實(shí)體類(lèi)別和治療、副作用等共43種關(guān)系類(lèi)別,并提供了醫(yī)學(xué)概念檢索、知識(shí)檢索等一系列應(yīng)用程序接口(application program interface,API),使得知識(shí)圖譜的審查與基本應(yīng)用可以在線完成。
這個(gè)圖譜自發(fā)布以來(lái)受到廣泛關(guān)注,很多醫(yī)院和企業(yè)與平臺(tái)聯(lián)系希望進(jìn)一步應(yīng)用。在應(yīng)用的過(guò)程中發(fā)現(xiàn)不同醫(yī)療方對(duì)知識(shí)圖譜中的醫(yī)學(xué)概念命名和關(guān)系、屬性的定義存在不同,而這些不同存在于臨床標(biāo)準(zhǔn)的執(zhí)行中,這就產(chǎn)生了如何讓知識(shí)圖譜中的概念、屬性和關(guān)系能得到普遍共識(shí)的問(wèn)題。經(jīng)過(guò)思考,筆者所在團(tuán)隊(duì)對(duì)知識(shí)圖譜網(wǎng)頁(yè)版的呈現(xiàn)形式進(jìn)行了可交互的設(shè)計(jì),并建立了一種和專(zhuān)病醫(yī)生進(jìn)行知識(shí)共建的模式,讓臨床專(zhuān)家可以對(duì)知識(shí)進(jìn)行修改,像wiki百科全書(shū)那樣以開(kāi)放的方式讓盡可能多的臨床專(zhuān)家都來(lái)在醫(yī)學(xué)概念和關(guān)系邏輯上進(jìn)行考量和修正,通過(guò)不斷的迭代最終形成具有規(guī)范化和廣泛共識(shí)的醫(yī)學(xué)知識(shí)圖譜。筆者所在團(tuán)隊(duì)在素問(wèn)系統(tǒng)研發(fā)一周年之際再次發(fā)布醫(yī)學(xué)知識(shí)圖譜的wiki版本(https://suwen.pcl.ac.cn/graph/wiki),此次發(fā)布的知識(shí)圖譜實(shí)體數(shù)170萬(wàn)左右,三元組總量接近400萬(wàn),是國(guó)內(nèi)已知最大的開(kāi)源中文醫(yī)學(xué)知識(shí)圖譜。更新后的版本在可用性和交互性上有了較大提升,使得用戶(hù)活躍度明顯上升,例如,wiki版本前端知識(shí)的產(chǎn)生和修訂可能來(lái)源于任何一位用戶(hù),而知識(shí)圖譜的更新上需要在該圖譜分支領(lǐng)域的負(fù)責(zé)編輯單位進(jìn)行審核和最后的審定,每一個(gè)細(xì)分領(lǐng)域的圖譜負(fù)責(zé)編輯都是該領(lǐng)域在全國(guó)排名前三的權(quán)威醫(yī)院團(tuán)隊(duì)。由此,AI專(zhuān)家負(fù)責(zé)圖譜迭代和生成的技術(shù),所產(chǎn)生的知識(shí)及其邏輯關(guān)系由大眾臨床專(zhuān)家查看、修改,最終由權(quán)威團(tuán)隊(duì)負(fù)責(zé)審定,真正實(shí)現(xiàn)了眾多不同背景、不同地域的專(zhuān)家流水線式地同臺(tái)作業(yè)。而知識(shí)圖譜在不斷更新迭代的過(guò)程也是臨床共識(shí)產(chǎn)生的過(guò)程,由于圖譜是全免費(fèi)開(kāi)放,降低了使用門(mén)檻,這樣的開(kāi)放模式為匯聚專(zhuān)家思維、形成共識(shí)提供了平臺(tái)基礎(chǔ)。
該醫(yī)學(xué)知識(shí)圖譜wiki版本發(fā)布一個(gè)月以來(lái),發(fā)現(xiàn)注冊(cè)用戶(hù)主體已經(jīng)從過(guò)去的企業(yè)轉(zhuǎn)變?yōu)楝F(xiàn)在的企業(yè)、科研機(jī)構(gòu)和醫(yī)院共同參與,說(shuō)明方便的交互機(jī)制讓醫(yī)生能更好地參與到AI技術(shù)的研發(fā)中,并且他們也有足夠的參與意愿。wiki版本的發(fā)布更加完善了在線編輯機(jī)制,可以通過(guò)不同的權(quán)限使得大眾參與、專(zhuān)家討論,最終形成共識(shí)。只有經(jīng)過(guò)審定后的標(biāo)準(zhǔn)知識(shí)圖譜才能進(jìn)入臨床應(yīng)用,筆者期待在不遠(yuǎn)的將來(lái)基于素問(wèn)醫(yī)學(xué)知識(shí)圖譜的臨床輔助決策能為臨床提供更多幫助。
在素問(wèn)系統(tǒng)的整個(gè)搭建和探索過(guò)程中,筆者所在團(tuán)隊(duì)深刻意識(shí)到跨領(lǐng)域合作的難度,這里的挑戰(zhàn)包括幾部分:(1)原始數(shù)據(jù)共享的挑戰(zhàn):在隱私保護(hù)政策明晰、數(shù)據(jù)所有權(quán)益和數(shù)據(jù)倫理問(wèn)題得到解決之前,打破數(shù)據(jù)壁壘、推進(jìn)數(shù)據(jù)共享之路還很漫長(zhǎng);(2)數(shù)據(jù)規(guī)范化、一致性問(wèn)題:在區(qū)域化的數(shù)據(jù)采集逐漸推廣、數(shù)據(jù)規(guī)模與日俱增的情況下,數(shù)據(jù)本身的規(guī)范性、診療標(biāo)準(zhǔn)的一致性等也是基于大數(shù)據(jù)的AI技術(shù)發(fā)展而產(chǎn)生的,因此是必須要克服的一個(gè)重要障礙。前者隨著自然語(yǔ)言處理等技術(shù)的發(fā)展,可以基于技術(shù)手段來(lái)部分解決,后者則需要隨著診療水平的提升、分級(jí)診療制度的完善來(lái)逐漸改善。顯然,相比于數(shù)據(jù)的直接共享,隨著當(dāng)前大規(guī)模預(yù)訓(xùn)練模型、多中心聯(lián)邦學(xué)習(xí)技術(shù)的發(fā)展,共享在數(shù)據(jù)之上獲得的模型以及基于臨床數(shù)據(jù)來(lái)總結(jié)的知識(shí),所遇到的挑戰(zhàn)會(huì)更小一些,同時(shí)對(duì)加快醫(yī)療決策智能化的發(fā)展,也具有非?,F(xiàn)實(shí)的價(jià)值。要獲得真正有價(jià)值的知識(shí),仍然還會(huì)面臨另一個(gè)挑戰(zhàn):面向醫(yī)生的醫(yī)療領(lǐng)域知識(shí)與面向AI的領(lǐng)域知識(shí)之間的巨大差異,如診療指南可以給醫(yī)生提供決策的依據(jù),但AI系統(tǒng)卻很難依賴(lài)診療指南來(lái)進(jìn)行準(zhǔn)確決策;同時(shí),醫(yī)療數(shù)據(jù)所蘊(yùn)含的核心知識(shí)是由無(wú)數(shù)個(gè)醫(yī)生來(lái)構(gòu)建的,由于長(zhǎng)期以來(lái),缺乏嚴(yán)格規(guī)范的標(biāo)準(zhǔn),導(dǎo)致每個(gè)醫(yī)生、每個(gè)醫(yī)療機(jī)構(gòu)的背景、規(guī)模、水平皆有不同,這種差異的消除,單靠嚴(yán)格的規(guī)范要求和專(zhuān)業(yè)的教育,在相當(dāng)長(zhǎng)的時(shí)間內(nèi)都難以達(dá)成共識(shí)。
為了避免這種差異化隨著時(shí)間的發(fā)展進(jìn)一步擴(kuò)大,繼續(xù)阻礙AI技術(shù)的發(fā)展,目前最可行的方法是通過(guò)平臺(tái)能夠自動(dòng)迭代不同人、不同時(shí)間的輸入,再由權(quán)威機(jī)構(gòu)和專(zhuān)家進(jìn)行審定,最終形成可用的知識(shí)標(biāo)準(zhǔn),未來(lái)有大量的醫(yī)療AI技術(shù)等待著標(biāo)準(zhǔn)臨床知識(shí)作為藍(lán)圖,而對(duì)于醫(yī)學(xué)龐大的知識(shí)體系,筆者所在團(tuán)隊(duì)嘗試以完全開(kāi)源、開(kāi)放技術(shù)成果的方式換取臨床共識(shí),希望技術(shù)應(yīng)用的動(dòng)力能讓更多的專(zhuān)家參與到標(biāo)準(zhǔn)知識(shí)的構(gòu)建中,同時(shí),借助這一平臺(tái),訓(xùn)練出能夠自動(dòng)彌補(bǔ)差異、達(dá)成共識(shí)的系統(tǒng),最終讓技術(shù)迭代到匹配臨床需求的水平。
當(dāng)然,在開(kāi)放與共識(shí)方面的探索也只是剛剛開(kāi)始,經(jīng)驗(yàn)尚且不足,還有大量的工作等待我們?nèi)ネ晟?,最終的目標(biāo)是希望AI技術(shù)的落地應(yīng)用能推動(dòng)醫(yī)學(xué)的發(fā)展,能讓更多的患者受益。
筆者希望,未來(lái)的醫(yī)療AI不僅僅是在生產(chǎn)力方面提高醫(yī)療效率,而是能夠回歸醫(yī)學(xué)初衷,和醫(yī)生一起面向患者,給予患者關(guān)懷。這需要我們以開(kāi)放換取共識(shí),真正達(dá)到在AI技術(shù)的生產(chǎn)、復(fù)制和應(yīng)用環(huán)節(jié)當(dāng)中的有效監(jiān)管,讓AI成為大眾的選擇,而不只是技術(shù)者的選擇。