陳亞飛,劉 瓊,關(guān) 雙,于亞南,劉 駿,王思村,王 忠
中國中醫(yī)科學院中醫(yī)臨床基礎醫(yī)學研究所,北京 100007
數(shù)字孿生是對物理對象、流程或系統(tǒng)在數(shù)字空間的模擬映射,該技術(shù)理念脫胎于“信息鏡像模型”(information mirroring model),2002年由密歇根大學的 Michael Grieves 教授針對開發(fā)產(chǎn)品的全生命周期管理模式提出[1]。事實上,早在1994年,即有學者將計算機構(gòu)建的動脈模型命名為“數(shù)字孿生”[2]。直至2010年,美國宇航局正式在阿波羅計劃中應用數(shù)字孿生,建立外太空空間航天器的數(shù)字孿生體,進行仿真飛行、檢測和預測[3]。之后,數(shù)字孿生逐漸被應用于制造業(yè)、城市規(guī)劃建設產(chǎn)業(yè)、汽車工業(yè)和醫(yī)療保健等行業(yè),對產(chǎn)品設計、性能測試、功能制造、使用維護等進行全生命周期的仿真分析,以提升生產(chǎn)和管理效率[4]。經(jīng)過產(chǎn)品設計和工程活動等創(chuàng)建過程的持續(xù)改進[5],數(shù)字孿生概念逐漸演化為:充分利用物理模型、傳感器更新、運行歷史等數(shù)據(jù),集成多學科、多物理量、多尺度、多概率的仿真過程,在虛擬空間中完成映射,從而反映相對應的物理實體對象(物理孿生)的全生命周期過程[6-7]。
為實現(xiàn)產(chǎn)品的全生命周期管理,數(shù)字孿生技術(shù)的仿生映射框架由3個基本部分組成:現(xiàn)實空間中的物理孿生體(系統(tǒng)或過程)、虛擬空間中的數(shù)字孿生體以及數(shù)據(jù)和信息的連接[8]。不同于其他技術(shù),數(shù)字孿生具有如下5個特性:(1)連接性:即物理孿生體與數(shù)字孿生體的數(shù)據(jù)信息連接,通常是通過物理孿生體上的傳感器獲取,實現(xiàn)與數(shù)字孿生體的實時交感互通;(2)數(shù)據(jù)均質(zhì)化:數(shù)字孿生技術(shù)本身便是數(shù)據(jù)均質(zhì)化的結(jié)果,同時又推動數(shù)據(jù)和信息實現(xiàn)均質(zhì)化的存儲和傳輸;(3)智能化:通過物理對象上的傳感器、人工智能技術(shù)和預測分析,對數(shù)字孿生體進行重新編程,實現(xiàn)物理孿生體的改進和調(diào)整;(4)數(shù)字跡線:跟隨數(shù)字跡線探本溯源,可快速精準地查詢物理孿生體故障;(5)模塊化:對于數(shù)字孿生體的模塊化構(gòu)建,可針對性地仿生和模擬,對于物理孿生體進行模塊組件的調(diào)整和改善[9]。對于醫(yī)學領域的數(shù)字孿生,盡管其物理對象變成了人、器官、醫(yī)療器械、手術(shù)流程等,但這些優(yōu)勢仍然存在。
隨著現(xiàn)代醫(yī)學的發(fā)展,“以疾病為中心”的醫(yī)學模式逐漸向“以人為中心”轉(zhuǎn)變,旨在為人提供全生命周期的健康管理。數(shù)字孿生的出現(xiàn),填補了宏觀表型與微觀組學的鴻溝,可真正意義上實現(xiàn)人的全生命周期健康管理,展現(xiàn)出整合多組學數(shù)據(jù)和環(huán)境影響的潛力。目前,數(shù)字孿生技術(shù)已不僅僅局限于心血管、骨和腦等結(jié)構(gòu)性器官的構(gòu)建,其已應用于疾病標志物的預測、慢病的長期管理和癌癥的預后預測,涉及臨床診療、藥物研發(fā)、藥理驗證等多個方面。然而現(xiàn)階段,我國醫(yī)學數(shù)字孿生研究尚處于起步階段,本文通過梳理國內(nèi)外數(shù)字孿生在醫(yī)學領域中的方法和應用,以期為我國開展醫(yī)學數(shù)字孿生研究提供參考。
數(shù)字孿生并無特定的技術(shù)和方法,國外有學者表示無論何種建模方式,只要能足夠準確地表示正在孿生的物理對象便是數(shù)字孿生[10]。因此,無論是人工智能、機器學習、機械建?;蚴嵌喾椒蓱?,只要能將物理對象、流程或系統(tǒng)在信息化平臺內(nèi)精準模擬表達,便認為是數(shù)字孿生的方法。
機器學習有著模擬人類思考邏輯的優(yōu)勢,故其常常被用作構(gòu)建醫(yī)學數(shù)字孿生模型。韓國天主教大學醫(yī)學院團隊使用機器學習方法分析3家醫(yī)院臨床數(shù)據(jù)庫的前列腺癌患者數(shù)據(jù),采用信息增益法(information gain,IG)進行特征選擇,利用隨機森林(random forest,RF)方法建立模型,預測前列腺癌的生化復發(fā)[11]。Hussain等[12]采用支持向量機(support vector machine,SVM)算法結(jié)合卒中患者的臨床數(shù)據(jù)構(gòu)建模型,確定了腦卒中的腦電圖生物標志物及其閾值測量值,可作為疾病診斷和治療的臨床輔助系統(tǒng)。Chakshu等[13]采用多層感知器(multilayer perceptron,MLP)和遞歸神經(jīng)網(wǎng)絡(recurrent neural networks,RNN)構(gòu)建分診肺炎患者系統(tǒng)的數(shù)字孿生,提出了三層策略,對患者是否收入重癥監(jiān)護室、是否使用呼吸機和是否停止重癥監(jiān)護和呼吸機的3種狀態(tài)進行識別判斷、分類及死亡率預測。但機器學習方法存在依賴高質(zhì)量/大量數(shù)據(jù)、依賴數(shù)學統(tǒng)計模型、無法進行自主選擇、存儲服務成本過高、可解釋性差等局限,這些局限在醫(yī)學領域應用時更易被放大,尤其是在數(shù)據(jù)問題(難以保證質(zhì)量高、數(shù)量大的數(shù)據(jù)源)和可解釋性(無法觀察學習過程,輸出結(jié)果難以解釋)方面。
計算機建模是應用計算機計算模型、構(gòu)建物理對象參數(shù)并對其進行立體化展示的一種仿真模型技術(shù),可反映系統(tǒng)行為或過程[14]。Baumgartner基于全細胞膜片鉗技術(shù)實驗和文獻綜述,使用隱馬爾可夫模型(hidden markov model,HMM)對A549肺腺癌細胞單通道動力學進行建模,首次模擬通道間相互作用,且可預測細胞周期部分的膜電位變化[15-16]。Hoehme 等[17]采用正弦網(wǎng)絡整合細胞間、細胞與血管、細胞與基質(zhì)等相互作用力公式,建立肝部分切除術(shù)后生長的可視化模型,并利用無生物生長機械應力的孿生模型反向證實了生長機械應力的存在,這在動物實驗中也得到了驗證。Defraeye等[18]通過對患者皮膚建立數(shù)字孿生體,模擬藥物擴散、儲存和分配,從而獲得芬太尼透皮藥物遞送釋放和攝取動力學的定量見解,發(fā)現(xiàn)透皮芬太尼的攝取與年齡和貼放位置密切相關(guān),這可為不同年齡和疼痛部位的患者量身定制芬太尼貼片的用量和貼放位置。計算機建模的優(yōu)點在于對時間或空間模擬的可視化,但其缺點也顯而易見:由于對計算能力要求極高,制約了其對于整體或部分整體的大規(guī)模模擬。
除此之外,很多學者對于醫(yī)學數(shù)字孿生方法還有著其他不同見解。Li等[19]收集季節(jié)性過敏性鼻炎患者的0~7 d細胞及差異基因變化,使用IPA(ingenuity pathways analysis)軟件構(gòu)建了隨時間變化的多細胞互作網(wǎng)絡模型,從而確定用于個性化治療的生物標志物、新候選藥物以及藥物組合。Masison等[20]使用可發(fā)展的模塊化計算框架描述人體數(shù)字孿生,將獨特的生物過程轉(zhuǎn)化成編程語言,完善了數(shù)字孿生框架。這些各具特色的數(shù)字孿生方法體現(xiàn)著研究者對于數(shù)字孿生的思考,醫(yī)學數(shù)字孿生的發(fā)展需要百家爭鳴的“聲音”。
數(shù)字孿生技術(shù)在臨床診斷中展現(xiàn)出巨大的發(fā)展前景。無創(chuàng)的、二維影像技術(shù)(X線、CT、MRI等)作為常用診斷手段,需醫(yī)生具有較強的專業(yè)知識儲備和三維空間想象能力,不同醫(yī)生的診斷結(jié)果通常會有所不同,因此利用數(shù)字孿生技術(shù)對二維影像進行三維構(gòu)建,在保證診斷正確率的同時,可減少對患者的有創(chuàng)傷害和經(jīng)濟負擔。在心血管方面,利用三維成像技術(shù)結(jié)合計算流體動力學(computational fluid dynamics,CFD)可更好地診斷和分析冠狀動脈疾病、主動脈瘤、主動脈夾層、瓣膜等心臟結(jié)構(gòu)性疾病,且數(shù)字孿生技術(shù)在瓣膜假體和支架設計領域也發(fā)揮著重要作用[21-25]。N?rgaard等[26]通過對冠狀動脈CT血管造影及CT影像進行分析,建立患者心臟的3D立體化模型,以無創(chuàng)影像的方式識別患者的心肌缺血程度,可大大提高診斷準確度,并減輕對患者的有創(chuàng)傷害。在肺疾病方面,有學者提出一種深肺實質(zhì)增強(deep-lung parenchyma-enhancing,DLPE)計算機輔助檢測方法,用于檢測和量化胸部 CT 上的肺實質(zhì)病變,可有效確定COVID-19 關(guān)鍵臨床指標并預測COVID-19 肺部后遺癥[27]。在腦血管方面,Hussain等[12]利用腦電圖數(shù)據(jù)和機器學習模型為腦卒中患者建立數(shù)字孿生模型,結(jié)果發(fā)現(xiàn)使用SVM比其他機器學習方法能夠更好地提升診斷準確度,并發(fā)現(xiàn)了腦卒中的潛在腦電圖生物標志物,有助于腦卒中的預防、診斷和預后預測。精準的輔助診斷需要合適的統(tǒng)計模型和大量高質(zhì)量的數(shù)據(jù)進行訓練,否則模糊甚至錯誤的結(jié)果會給臨床醫(yī)生帶來誤導。
數(shù)字孿生可在選擇特定治療之前,通過模擬設備反應或劑量效應來判斷醫(yī)療設備或藥物治療是否適合患者[28]。在肺炎診療過程中,Chakshu等[29]采用1895例肺炎患者的數(shù)據(jù)訓練深度學習模型,以構(gòu)建肺炎患者的數(shù)字孿生體,使用受試者操作特征曲線下面積識別肺炎患者中的危重病例并優(yōu)先處理,實現(xiàn)了醫(yī)療資源的合理應用。在骨科手術(shù)中,利用數(shù)字孿生技術(shù)模擬應用不同長度的螺桿和是否注入聚甲基丙烯酸甲酯水泥對于術(shù)后骨愈合的影響,通過在步態(tài)期間施加最大負荷來評估機械強度、應力分布、骨間應變和骨骼運動,可有效評估真實手術(shù)中的應用狀況[30]。在外科手術(shù)方面,Ahmed等[28]提出,數(shù)字孿生不僅可在外科手術(shù)新儀器、新技術(shù)或新療法方面進行嘗試和探索,還可增強住院醫(yī)師的手術(shù)培訓,在患者特定解剖和生理變化背景下進行模擬手術(shù)練習,幫助醫(yī)生打磨手術(shù)流程和細節(jié),優(yōu)化手術(shù)過程并預測手術(shù)預后。在腦疾病方面,有學者提出數(shù)字孿生可作為受試者大腦的個性化復制品,用于模擬特定功能并預測神經(jīng)康復或手術(shù)干預的結(jié)果[31]。
數(shù)字孿生技術(shù)通過建立患者的數(shù)字孿生體,模擬治療干預條件、生活方式及環(huán)境影響等,可預測疾病預后,并隨時調(diào)整狀態(tài),對疾病預后及慢病進行管理。在癌癥的預后評價中,Thiong’o等[32]提出數(shù)字孿生技術(shù)可作為識別兒童癌癥神經(jīng)系統(tǒng)并發(fā)癥預測因子及其治療的前沿策略。Kim等[11]利用基于機器學習的數(shù)字孿生技術(shù),對于前列腺癌的生化復發(fā)預后標志物進行預測,準確率可達96.25%,與傳統(tǒng)算法相比性能提高4%,有助于為前列腺癌提供臨床決策支持。在老年慢病管理方面,張捷等[33]結(jié)合視覺傳感器、人工智能芯片和深度學習算法等技術(shù),研發(fā)了基于數(shù)字孿生技術(shù)的老年人實時監(jiān)測報警系統(tǒng),以避免或減輕老年人跌倒所造成的損傷。
數(shù)字孿生在藥物開發(fā)中的應用基礎是通過解析和重構(gòu)患者疾病機制相關(guān)的所有分子、表型和環(huán)境因素,對數(shù)字孿生體進行無限復制,用數(shù)千種藥物計算處理這些數(shù)字孿生體,以確定效果最佳的藥物。數(shù)字孿生相對于機械建模,不同之處在于其虛擬群體應用敏感性分析確定患者間的不同參數(shù),以開發(fā)更全面的臨床評估模型[34]。在癌癥的臨床前研究中,F(xiàn)ilippo等[35]提出基于數(shù)字孿生的單細胞通量平衡分析法,即將單細胞RNA測序技術(shù)數(shù)據(jù)整合至計算群體模型中,以模擬單細胞代謝表型的時刻動態(tài)變化以及代謝亞群的無監(jiān)督識別。通過數(shù)字孿生和輕量級深度學習對干細胞圖像進行分割、檢測和跟蹤,不僅可使圖像輪廓更加準確、清晰,且其精度、召回率、F1值分別比相差成像法高0.038、0.024、0.043[36]。此外,一些貼敷/貼片治療,也可根據(jù)數(shù)字孿生體的最佳模擬位置和劑量進行調(diào)整[17]。
由于難以真正意義上實現(xiàn)臨床試驗的數(shù)字孿生,目前研究大多集中于對臨床患者檢測數(shù)據(jù)的合成以及臨床試驗整個過程的模擬。比如,Emmert-Streib等[37]提出的數(shù)字孿生數(shù)據(jù)和數(shù)字孿生系統(tǒng),用以合成臨床試驗數(shù)據(jù)和完善臨床試驗過程,并解釋了其在臨床上的倫理問題,為數(shù)字孿生在臨床試驗中提供了理論依據(jù)。Walsh等[38]提出在多發(fā)性硬化癥患者管理中創(chuàng)建和實施數(shù)字孿生,使用受限玻爾茲曼機(conditional restricted Boltzmann machine,CRBM)模型計算臨床試驗中受試者的表征與其疾病進展的協(xié)變量關(guān)系,并生成預測該受試者就診時潛在結(jié)果的臨床軌跡,以改善診斷、治療、管理策略以及患者的依從性等。Greenbaum[39]提出數(shù)字孿生可增加研究分析的數(shù)據(jù)量以補充隨機對照試驗,開發(fā)新的治療方法。Barbiero等[40]采用生成式對抗網(wǎng)絡(generative adversarial networks,GAN)合成臨床數(shù)據(jù),補充圖神經(jīng)網(wǎng)絡(graph neural networks,GNN)構(gòu)建的人體基因-細胞-組織-器官多層次映射,從而構(gòu)建患者的數(shù)字孿生,實現(xiàn)了臨床結(jié)局預測。Lin等[41]使用馬爾科夫模型構(gòu)建無過度診斷的結(jié)直腸癌隨機對照試驗的數(shù)字孿生,以計算糞便免疫化學測試篩查的過度診斷比例,結(jié)果顯示基于人群的結(jié)直腸癌免疫化學測試服務篩查危害可忽略不計。
Li在瑞典數(shù)字孿生聯(lián)盟網(wǎng)站(https://www.sdtc.se/)上提出這樣的觀點:隨機對照臨床試驗可以證明藥物對于大部分人有效但對少部分人無效,數(shù)字孿生將通過構(gòu)建與個體患者疾病機制相關(guān)的所有分子、表型和環(huán)境因素的網(wǎng)絡模型,用數(shù)千種藥物模擬治療目標患者以確定最適合的藥物[42],這填補了隨機對照臨床試驗的空白[43]。盡管數(shù)字孿生在臨床試驗方面展現(xiàn)出優(yōu)于傳統(tǒng)試驗的優(yōu)勢和潛力,但其仍然存在數(shù)據(jù)無法完全可靠、難以基于生理學模型擴展以及存在倫理問題等局限。
傳統(tǒng)醫(yī)學將人視為一個整體,其中辨證論治的理論基礎來源于中國古代的哲學理論——陰陽、五行、藏象等理論。但在現(xiàn)代醫(yī)學看來,中醫(yī)診斷和治療仍然處于灰箱甚至黑箱之中,盡管通過多組學分析、網(wǎng)絡藥理學、生物信息學等技術(shù)方式逐漸探索出中醫(yī)藥的部分作用機制,但其中藥-靶、靶-效關(guān)系等定量/定性研究仍需進一步深入探索。目前已有學者將數(shù)字孿生應用于穴位貼敷[44]和中藥制藥[45]的嘗試,中醫(yī)的整體觀和復雜性或許能夠通過人工智能和數(shù)字孿生技術(shù)進一步揭示,比如針刺穴位可能涉及神經(jīng)、內(nèi)環(huán)境、免疫系統(tǒng)甚至腸道菌群等多種作用機制,藏象學說中各器官臟器間相互影響的復雜關(guān)系等。
數(shù)字孿生的三大步驟包括數(shù)據(jù)收集、模型建立和模型驗證。首先,可靠和客觀的數(shù)據(jù)是模型建立的基礎,但醫(yī)療數(shù)據(jù)涉及種族、偏見及隱私等問題,如何妥善處理數(shù)據(jù)安全問題仍是現(xiàn)階段面臨的難題。其次,技術(shù)的可行性和可靠性是保證模型準確性的基礎,這需要數(shù)學統(tǒng)計、人工智能和臨床醫(yī)學等方面的知識和技術(shù)交融。單個器官和系統(tǒng)的靜態(tài)或動態(tài)模擬逐漸能夠?qū)崿F(xiàn),但人體宏觀結(jié)構(gòu)、微觀內(nèi)環(huán)境與生活環(huán)境的多維動態(tài)變化模擬并非易事[46],這一方面取決于對于人類本體的分析和觀察,另一方面取決于人工智能技術(shù)對于人類的重構(gòu)和組建。再次,消極的預測結(jié)果可能會影響患者病情走向,如何合理且正確地表達預測結(jié)果不僅關(guān)乎倫理,也關(guān)乎道德[47]。
對于流程和系統(tǒng)的數(shù)字孿生來說,盡管其在動物實驗、臨床試驗、疾病管理和藥物研發(fā)等系統(tǒng)性工程中展現(xiàn)出巨大優(yōu)勢,但上述領域仍然是使用人工智能、機器學習、臨床試驗模擬等方法,且傳統(tǒng)的模擬方法并未實現(xiàn)方法和應用上的創(chuàng)新。例如,盡管數(shù)字孿生應用中提出了數(shù)字孿生數(shù)據(jù)和合成數(shù)據(jù)的概念和方法,但其與臨床試驗模擬中的數(shù)字患者(digital patient)相比并無優(yōu)勢。
為實現(xiàn)虛擬空間與現(xiàn)實世界的交感互動,數(shù)字孿生、元宇宙和平行系統(tǒng)等概念相繼被提出并踐行。元宇宙、數(shù)字孿生和平行系統(tǒng)皆有著依賴多學科交叉,多技術(shù)進步和多復雜建模的技術(shù)特性[48],但不同于宏觀的“元宇宙”概念,因數(shù)字孿生和平行系統(tǒng)更加具象,其在醫(yī)療領域的應用更加落地。在王飛躍教授提出的平行系統(tǒng)中,數(shù)字孿生被認為是平行系統(tǒng)中的簡單例子,且目前數(shù)字孿生的基礎框架和流程均是平行方法的具體重述[49],但這會低估數(shù)字孿生的價值從而無法發(fā)揮出全部潛力。作為解決復雜系統(tǒng)智能管理與控制的兩種有效手段,數(shù)字孿生與平行系統(tǒng)在方法和應用中各具特色和發(fā)展[50]。數(shù)字孿生對于工程系統(tǒng)的復雜建模和精準控制優(yōu)勢在醫(yī)學領域依然明顯,王飛躍教授在之后的研究中也提出數(shù)字孿生可作為對復雜性低而精確度高的系統(tǒng)模擬實現(xiàn)平行系統(tǒng)控制[51]??傊?,數(shù)字孿生亟需探索出適合個體和系統(tǒng)的醫(yī)學發(fā)展之路。
現(xiàn)階段數(shù)字孿生在醫(yī)學中的方法主要包括機器學習、計算機建模等,其在醫(yī)學領域中的應用雖然涉及診斷、治療、預后、藥物研發(fā)、臨床試驗等各個方面,但主要集中于如下領域:(1)對于器官或機體的結(jié)構(gòu)進行數(shù)字化建模并實現(xiàn)具象化,包括在心臟、心血管和腦神經(jīng)疾病等方面的應用;(2)對于人體基因組學、細胞串擾、轉(zhuǎn)錄組學和環(huán)境影響等微觀領域進行建模和應用;(3)對于臨床試驗、動物實驗、疾病管理和藥物開發(fā)等系統(tǒng)性工程的研究。相比于元宇宙、人工智能等宏觀概念和構(gòu)想,數(shù)字孿生的提出更加具象化,但其目前仍然是對于人類仿生模擬的頂層設計和最終目標。雖然現(xiàn)有的科學技術(shù)和人工智能無法實現(xiàn)對于人類整體的數(shù)字孿生體,似乎距離實時動態(tài)交互數(shù)字孿生、實現(xiàn)全生命周期管理尚且遙遠,但隨著計算能力的快速提升、高性能和廉價的智能設備快速迭代、大數(shù)據(jù)采集/傳輸/存儲技術(shù)以及人工智能的進步,醫(yī)學數(shù)字孿生定能突破虛擬與現(xiàn)實的交互限制,統(tǒng)籌宏觀與微觀的鏈接,推動醫(yī)學進一步飛速發(fā)展。