梁 恒, 羅元園
(西安交通大學(xué)生物醫(yī)學(xué)信息工程教育部重點(diǎn)實(shí)驗(yàn)室, 分離科學(xué)研究所, 陜西 西安 710049)
人類對(duì)長生和健康的追求從來都沒有停止過。正是因?yàn)槿祟惐仨毥?jīng)歷健康-疾病-衰老-死亡這樣的生命不可逆過程,色譜工作者把分離過程的數(shù)學(xué)物理理論通過計(jì)算機(jī)用于分離檢測(cè)和藥物制備實(shí)踐,對(duì)醫(yī)藥的發(fā)現(xiàn)、檢測(cè)、制備和空氣、水、土壤等污染的監(jiān)測(cè)做出了貢獻(xiàn)。這直接涉及病人個(gè)體服用的藥物的發(fā)現(xiàn)、制備、臨床化驗(yàn)及循證醫(yī)學(xué)的全民零級(jí)預(yù)防。從色譜工作者的視角看色譜分離的計(jì)算機(jī)實(shí)時(shí)控制,其實(shí)是計(jì)算機(jī)網(wǎng)絡(luò)來代替人優(yōu)化和執(zhí)行如梯度洗脫和模擬移動(dòng)床等分離過程的時(shí)代產(chǎn)物。在人類有記載的數(shù)千年,千百億計(jì)的個(gè)體經(jīng)歷從生到死的“陰-陽之間的分離過程”。這種不可逆的演化規(guī)律,不僅支配了漫長地質(zhì)年代的過去,還會(huì)支配人類生老病死的現(xiàn)在和延綿的未來。恰恰當(dāng)要把云計(jì)算和生老病死“健康-疾病生死分離過程”結(jié)合的時(shí)候,“智慧醫(yī)療”卻成了一個(gè)還沒有成熟就被全社會(huì)濫用的詞匯,“智慧醫(yī)療”還沒有普及,目前只是網(wǎng)購、智慧餐廳等較簡單過程,迫切要求科學(xué)家賦予科學(xué)的實(shí)質(zhì)含義。
正是這艱澀難懂的“不可逆性”,通過獨(dú)立且并列于質(zhì)量、力學(xué)和能量守恒方程的熵平衡方程中的熵產(chǎn)生(無序)和熵流(有序)在多種層次和情景下發(fā)揮著重要作用。因此可以通過云計(jì)算滿足暴露人群、病人、醫(yī)生、醫(yī)藥-設(shè)備-耗材供應(yīng)者、醫(yī)療管理政策制定者、政府等廣泛的醫(yī)療需求,來初步實(shí)現(xiàn)醫(yī)療平等,讓名醫(yī)從繁重重復(fù)的日常醫(yī)學(xué)宣教、門診和住院等“智力勞動(dòng)”中解放出來,有精力和時(shí)間解決人類還未攻克的醫(yī)學(xué)難題。顯然,色譜分離是智慧醫(yī)療全集的一個(gè)很小的子集,但它們都服務(wù)于人類對(duì)長生和健康的追求。不同于色譜過程,醫(yī)療臨床過程更為復(fù)雜,眾多離散事件的概率涉及多種信息類型的“機(jī)器看病、處方和報(bào)告”過程,其“不可逆性”仍然在包括基于循證醫(yī)學(xué)診療的疾病發(fā)展和演化過程中扮演著重要角色。
本文擬結(jié)合作者在分離科學(xué)領(lǐng)域的研究經(jīng)歷,透過紛繁的技術(shù)多樣性,來凝練色譜分離和智慧醫(yī)療中共同的數(shù)理本質(zhì)——不可逆性或熵(信息),并以不可逆性作為構(gòu)建非平衡熱力學(xué)分離理論[1-9]和智慧醫(yī)療共同的、統(tǒng)一的、全覆蓋的數(shù)學(xué)構(gòu)架的創(chuàng)新思想基礎(chǔ)。
作者[1-9]提出和發(fā)展非平衡熱力學(xué)分離理論,有助于開展循證醫(yī)學(xué)-個(gè)體狀態(tài)辨識(shí)的測(cè)度概率構(gòu)架函數(shù)的研究。提出和發(fā)展疾病生成和辨識(shí)的非平衡熱力學(xué)-概率圖模型的、統(tǒng)一的數(shù)學(xué)-人工智能(artificial intelligence, AI)構(gòu)架。
智慧醫(yī)療是基于循證醫(yī)學(xué)(evidence-based medicine, EBM)[10-18]、數(shù)學(xué)(離散數(shù)學(xué)[19-22]、集合論[23-25]、概率測(cè)度論[26-33])、AI或機(jī)器學(xué)習(xí)[34-37]中的概率圖模型(probabilistic graphical models, PGM)[38,39]和貝葉斯編程學(xué)習(xí)(Bayesian program learning, BPL)[40,41]、疾病演化的非平衡熱力學(xué)(不可逆性[42-51]、狀態(tài)演化路徑[1,9])等交叉學(xué)科成果。它將異構(gòu)化數(shù)據(jù)(主訴、病史、檢查、化驗(yàn)和影像)按實(shí)數(shù)(即代數(shù),如化驗(yàn)數(shù)據(jù))和幾何(語音和影像)統(tǒng)一成為概率測(cè)度[26-33]的概率圖模型[38,39]的3~5層信念網(wǎng)模式,用變量空間(疾病種類ψ、過程變量θ和個(gè)體疾病狀態(tài)S)、模板-關(guān)系的結(jié)構(gòu)化和實(shí)例化[39]來表示項(xiàng)目、變量和區(qū)間,再按條件概率分布和聯(lián)合概率來反映個(gè)體疾病狀態(tài)和疾病種類的生成和辨識(shí)的查詢和推理關(guān)系,確定各種復(fù)雜程度的醫(yī)學(xué)事件或干預(yù)措施作用于個(gè)體的效果的可能性。智慧醫(yī)療乘包括醫(yī)生智力的第二次機(jī)器革命解放人類腦力和當(dāng)前第三個(gè)創(chuàng)新及可解釋的、小樣本大任務(wù)和泛化能力強(qiáng)的通用AI技術(shù)的浪潮[52-55],推動(dòng)實(shí)現(xiàn)AI-醫(yī)療云計(jì)算平臺(tái)對(duì)超窮數(shù)人群的個(gè)體疾病狀態(tài)和疾病種類的證據(jù)獲取、臨床診斷、治療、預(yù)防、醫(yī)療決策和保險(xiǎn)等的智慧醫(yī)療領(lǐng)域全覆蓋的、統(tǒng)一的數(shù)學(xué)物理構(gòu)架研究。
由于從非平衡熱力學(xué)分離理論到AI-疾病診療學(xué)科間具有超大跨度,不免讓讀者頗感突兀,因此,有必要揭示二者在科學(xué)本質(zhì)上的具體聯(lián)系。這主要與色譜在臨床檢驗(yàn)和醫(yī)藥制備等的眾多應(yīng)用密不可分。在像集合論中從自然數(shù)-序數(shù)-基數(shù)[23-25]一樣更為深刻的層次上,雖然色譜分離和智慧醫(yī)療研究對(duì)象完全不同,卻存在著共同核心的數(shù)理本質(zhì)方面的內(nèi)在聯(lián)系,如對(duì)流-擴(kuò)散和不可逆性包括溶質(zhì)帶分布狀態(tài)或個(gè)體疾病狀態(tài)的演化時(shí)間遞推以及對(duì)抗衰老和疾病演化的預(yù)測(cè)、預(yù)防和治療等實(shí)質(zhì)聯(lián)系。
非線性色譜(即制備色譜或電泳)和線性色譜(即分析色譜或電泳)過程涉及時(shí)變過程的優(yōu)化和控制,必然就涉及不可逆性,亦即熵平衡方程中的熵(信息)。色譜分離過程到底是熱力學(xué)過程還是動(dòng)力學(xué)過程?一種溶質(zhì)帶如果在色譜柱中任何時(shí)間和任何位置都達(dá)到了熱力學(xué)平衡,那顯然色譜分離過程就不再進(jìn)行了。因此,當(dāng)代色譜理論就只能用經(jīng)典熱力學(xué)和動(dòng)力學(xué)通過假定在一塊塔板內(nèi)溶質(zhì)分布均勻和平衡來處理色譜這個(gè)實(shí)質(zhì)上的非平衡熱力學(xué)過程??墒?在梯度洗脫預(yù)測(cè)分析用非線性色譜和制備用非線性色譜的溶質(zhì)帶展寬時(shí)[6],沿色譜柱軸向的塔板高度實(shí)際是各不相同的塔板理論就受到了挑戰(zhàn)。當(dāng)然,在以制備為目的的非線性色譜過程中,只能引入非平衡熱力學(xué)的局域平衡假設(shè)來替代一塊塔板內(nèi)溶質(zhì)分布均勻和平衡的假定。另外,制備色譜幾乎都在溶質(zhì)高濃度的吸附等溫線區(qū)域,考慮到對(duì)非線性色譜過程的實(shí)時(shí)控制,就必須建立非平衡熱力學(xué)分離理論體系[1-9]。
因此,非平衡熱力學(xué)[42-51]應(yīng)該是統(tǒng)一色譜過程的熱力學(xué)和動(dòng)力學(xué)兩個(gè)不同概念和方法的一般性構(gòu)架。主要包括色譜和電泳的當(dāng)代柱分離理論體系框架(1941年)在控制科學(xué)(1948年)和非平衡熱力學(xué)(1960年)出現(xiàn)前就已形成。當(dāng)代色譜理論框架以Eulerian描述-偏微分方程為基礎(chǔ),由于該框架涉及的數(shù)值計(jì)算缺乏Markov特性的固有缺陷,使該框架不容易與現(xiàn)代控制科學(xué)相結(jié)合,作者[1-9]提出和發(fā)展了非平衡熱力學(xué)分離理論,使分離理論能夠與控制科學(xué)相適應(yīng)。非平衡熱力學(xué)分離理論認(rèn)為在外力場(chǎng)(如化學(xué)勢(shì)場(chǎng)、壓力勢(shì)場(chǎng)或電場(chǎng)等)作用下的溶質(zhì)分子帶的演化過程核心是液-固兩相分配、遷移、擴(kuò)散和相間傳質(zhì)等物理化學(xué)現(xiàn)象相互耦合的非平衡熱力學(xué)過程。這首先體現(xiàn)在毛細(xì)管電泳分離過程的描述中[3],高電壓(高場(chǎng)強(qiáng))毛細(xì)管電泳在促使溶質(zhì)分子帶因電荷和形狀差異而分離,給溶質(zhì)系統(tǒng)輸入較多負(fù)熵流、系統(tǒng)熵減少而更有序,但同時(shí)產(chǎn)生較大的焦耳熱使帶展寬增加,使系統(tǒng)熵產(chǎn)生增加即系統(tǒng)熵增加,削弱分離效果??梢?一個(gè)因素或變量在一定范圍內(nèi)通過熵平衡方程表述的熵流和熵產(chǎn)生把這種在分離效果上的非可加因素轉(zhuǎn)化成了可加因素。分離度不可以累加,但當(dāng)轉(zhuǎn)化為熵和信息時(shí)就變成了一種非可加測(cè)度[32],從而有條件實(shí)現(xiàn)多準(zhǔn)則決策[32]。建立柱分離理論不應(yīng)該是一個(gè)純粹的動(dòng)力學(xué)方程(Eulerian描述-偏微分方程),而應(yīng)該是統(tǒng)一經(jīng)典熱力學(xué)和動(dòng)力學(xué)的非平衡熱力學(xué)理論構(gòu)架[1]。基于Lagrangian描述,采用溶質(zhì)分布的熱力學(xué)狀態(tài)序列、操作變量序列和狀態(tài)遞推方程描述非理想-非線性色譜分離過程[7],用Eulerian-Lagrangian描述和溶質(zhì)帶分布熱力學(xué)狀態(tài)演化路徑來描述非線性-傳質(zhì)動(dòng)力學(xué)色譜分離過程[4]。非平衡熱力學(xué)分離理論已通過小分子在反相色譜[8]以及蛋白質(zhì)在疏水色譜的突破曲線[9]實(shí)驗(yàn)得到了證實(shí)。該理論體系已被用于模擬移動(dòng)床色譜理論體系的建立和過程優(yōu)化[1],狀態(tài)遞推算法在非線性反相色譜和前沿色譜都得到檢驗(yàn)和應(yīng)用[8,9]。
圖 1 區(qū)域個(gè)體計(jì)數(shù)統(tǒng)計(jì)Fig. 1 Regional individual count statistics a. Single molecule statistics regarding the confined liquid-solid interface. Localized probing region of the single molecule imaging system and its Lagrangian coordinates in μm[56]. ICDD: single molecule detection imaging system. The four regions of the molecular layers: single molecule layer (W1), double molecule layer (W2), triple molecule layer (W3), and middle molecule layer (W4) in the radial direction. b. A stroke belt of high stroke incidence across nine provincial regions located in the western and northern regions of China[59].
外力場(chǎng)直接作用于分子集合或個(gè)體群體的觀測(cè)和統(tǒng)計(jì),不可逆性發(fā)揮著根本作用。利用非平衡熱力學(xué)分離理論處理限定性液-固界面上不同單分子吸附區(qū)域的單分子吸附等溫線,已得到了單分子實(shí)驗(yàn)支持[56],也就是通過統(tǒng)計(jì)在限定性液-固界面(微觀區(qū)域)上的逐個(gè)分子來獲得“吸附等溫線”。當(dāng)然,一旦一種溶質(zhì)的吸附等溫線已知,其從低到高濃度的色譜峰的遷移行為也就完全已知了。循證醫(yī)學(xué)也非常重視流行病統(tǒng)計(jì)[57,58],譬如,中國腦卒中地區(qū)差異的個(gè)體病例統(tǒng)計(jì)發(fā)現(xiàn),由黑龍江、西藏、吉林、遼寧、新疆、河北、內(nèi)蒙古、北京及寧夏這些區(qū)域構(gòu)成了一個(gè)“中國腦卒中帶”,該區(qū)域內(nèi)的腦卒中發(fā)病率為236.2/10萬,顯著高于腦卒中帶以外地區(qū)的發(fā)病率(109.7/10萬)[58]。最值得回答和思考的問題是腦卒中帶人群暴露在哪些特殊的影響因素的“外力場(chǎng)”中,譬如,飲食習(xí)慣、空氣-水體污染等。比較單分子微粒和流行病個(gè)體的計(jì)數(shù)統(tǒng)計(jì)(見圖1),在限定性液-固界面上的單個(gè)分子統(tǒng)計(jì)(見圖1a)[56]和在中國腦卒中帶上的腦卒中個(gè)體統(tǒng)計(jì)(見圖1b)[58]都屬于區(qū)域個(gè)體計(jì)數(shù)統(tǒng)計(jì)。當(dāng)然,單分子微粒和病人個(gè)體在群體分布行為的狀態(tài)分布、出現(xiàn)概率(測(cè)度)與局域環(huán)境暴露因素、個(gè)體行為因素、時(shí)間軸演化預(yù)測(cè)和分布類型辨識(shí)等規(guī)律上,特別是在對(duì)非平衡熱力學(xué)[42-51]上不可逆性的理解、具體應(yīng)用上存在著深刻的聯(lián)系。正如目前大家都把深度學(xué)習(xí)(deep learning, DL)-醫(yī)學(xué)影像理解成就是智慧醫(yī)療一樣,其實(shí)AI領(lǐng)域?qū)<乙呀?jīng)強(qiáng)調(diào)深度學(xué)習(xí)受到數(shù)據(jù)瓶頸、可解釋性瓶頸和可泛化性瓶頸限制[52],而與深度學(xué)習(xí)并行的概率圖模型[38,39]和貝葉斯編程學(xué)習(xí)[40,41]恰恰能夠克服深度學(xué)習(xí)在處理來自醫(yī)療領(lǐng)域的復(fù)雜異構(gòu)化數(shù)據(jù)的這些缺陷。再回到當(dāng)代Eulerian描述-偏微分方程色譜理論體系,其實(shí)只要采取在流體力學(xué)描述與之對(duì)應(yīng)的Lagrangian描述-狀態(tài)遞推方程[1],就會(huì)消除當(dāng)代色譜分離理論體系在可解釋性、局域平衡假設(shè)應(yīng)用和時(shí)變體系的操作參數(shù)控制等瓶頸限制。因此,對(duì)于機(jī)器學(xué)習(xí)在循證醫(yī)學(xué)的機(jī)器診斷和醫(yī)囑的理論構(gòu)架的構(gòu)建,就不必再重蹈Eulerian-Lagrangian描述、熱力學(xué)-動(dòng)力學(xué)-非平衡熱力的色譜理論構(gòu)架問題的覆轍了。
綜上,即使非平衡熱力學(xué)分離理論適應(yīng)信息(熵)和時(shí)變控制的時(shí)代要求,且微流控或其他色譜相關(guān)技術(shù)在不斷地進(jìn)步,但這些所謂的新理論和新技術(shù)最終能夠被直接應(yīng)用到現(xiàn)實(shí)的、個(gè)體病人的醫(yī)療環(huán)節(jié)還是寥寥無幾。色譜理論和技術(shù)在人類制藥、分析檢測(cè)中應(yīng)用廣泛。但是,色譜理論和技術(shù)經(jīng)過近80年發(fā)展已經(jīng)到了平臺(tái)期,色譜工作者有必要基于其背后的相關(guān)數(shù)學(xué)物理(如對(duì)流-擴(kuò)散方程)基礎(chǔ)和眾多技術(shù)去開拓新的研究疆域。譬如,結(jié)合5G時(shí)代來臨,云計(jì)算和AI的迅猛發(fā)展,針對(duì)循證醫(yī)學(xué)的疾病辨識(shí)和治療決策的數(shù)值化和智能化開展研究,以適應(yīng)智慧醫(yī)療領(lǐng)域指數(shù)增長的科學(xué)和產(chǎn)業(yè)發(fā)展需求。
色譜是制藥過程或質(zhì)檢方法的眾多技術(shù)之一,在醫(yī)療中具有重要作用,但一個(gè)成品藥物要恰當(dāng)?shù)赜媒o合適的病人,就需要涉及更為復(fù)雜的循證醫(yī)學(xué)和智慧醫(yī)療領(lǐng)域。作者受20年來在國際上提出和發(fā)展的非平衡熱力學(xué)分離理論研究實(shí)踐中最核心的狀態(tài)遞推[9]的啟發(fā),近年來又提出智慧醫(yī)療中最基本和關(guān)鍵的變量和函數(shù),即個(gè)體疾病狀態(tài)(S)和疾病種類(ψ)。S即第i個(gè)個(gè)體在時(shí)間t下的疾病狀態(tài)Si,t,即使為超窮數(shù)的疾病狀態(tài)仍包含于疾病狀態(tài)空間Ωs。疾病種類ψ被細(xì)分為6個(gè)層次,并用ψk表示第k種疾病,即使按疾病種類和發(fā)展階段的疾病嚴(yán)重程度排序,未被人類發(fā)現(xiàn)的前面一種疾病也屬于疾病種類空間Ωψ,已發(fā)現(xiàn)的、作為臨床金標(biāo)準(zhǔn)、文獻(xiàn)、教科書的疾病種類也被包含其中,這在公理集合論中涉及一個(gè)不可達(dá)基數(shù)定理[24]。這是把循證醫(yī)學(xué)通過集合-概率測(cè)度數(shù)學(xué)化和模型化的基礎(chǔ),也是處理個(gè)體后驗(yàn)到群體統(tǒng)計(jì),特別是通過條件概率和聯(lián)合概率利用多個(gè)簡單事件來分步驟刻畫復(fù)雜事件的基礎(chǔ)。在智慧醫(yī)療中引入疾病狀態(tài)Si,t來刻畫疾病在大的時(shí)間尺度的不可逆演化過程,體現(xiàn)了非平衡熱力學(xué)中的不可逆性。
分子擴(kuò)散已經(jīng)被AI學(xué)者Sohl-Dickstein等[60]極具創(chuàng)造性地用來發(fā)展基于圖像演化的非平衡熱力學(xué)-非監(jiān)督深度學(xué)習(xí)的圖像處理方法。該文在高度靈活的概率分布家族中用來學(xué)習(xí)、取樣、推理和評(píng)估,而且這種方法可分析、可計(jì)算、易駕馭。估計(jì)小擾動(dòng)時(shí),該方法比用單一的和非分析-正則化的潛在函數(shù),更能清晰地表述全分布,且更容易駕馭。因?yàn)榇嬖跀U(kuò)散過程對(duì)于任何光滑目標(biāo)的分布,該方法能夠捕獲任意形式的數(shù)據(jù)分布。該研究隨時(shí)間記錄的一系列圖片蘊(yùn)藏著能夠反映其個(gè)體一定規(guī)則下的隨機(jī)且整體的時(shí)間演化規(guī)律。大數(shù)據(jù)智慧醫(yī)療涉及的實(shí)數(shù)、語音和影像等數(shù)據(jù)來源要比色譜分離復(fù)雜和豐富,而且也更接近全域疾病(如慢病)高危人群的現(xiàn)實(shí)情況?;趯?duì)外力場(chǎng)的分子分布或高危因素的個(gè)體疾病事件的分布規(guī)律(也就是狀態(tài)演化的不可逆性)的認(rèn)識(shí),作者提出了在非平衡熱力學(xué)路徑下循證醫(yī)學(xué)臨床綜合診斷和治療措施的概率圖模型(貝葉斯程序?qū)W習(xí))的統(tǒng)一數(shù)學(xué)物理的機(jī)器學(xué)習(xí)構(gòu)架。機(jī)器學(xué)習(xí)的中心問題涉及對(duì)復(fù)雜數(shù)據(jù)集必須用高度靈活的概率分布家族來建模,而所發(fā)展的方法須同時(shí)具有高度靈活性和可易駕馭性。Sohl-Dickstein等[60]受熱力學(xué)非平衡統(tǒng)計(jì)物理學(xué)啟迪,給出了一個(gè)根本的策略,通過一個(gè)面向擴(kuò)散過程的迭代,系統(tǒng)地和緩慢地破壞一個(gè)數(shù)據(jù)分布的結(jié)構(gòu)。色譜過程涉及對(duì)流(差速遷移)和擴(kuò)散,不僅僅是使數(shù)據(jù)結(jié)構(gòu)破壞的擴(kuò)散過程,而是包含了使數(shù)據(jù)結(jié)構(gòu)更為有序的熵流過程,也就是用基元-亞筆畫-筆畫-關(guān)系來“擬合”數(shù)據(jù)使數(shù)據(jù)結(jié)構(gòu)更為有序的過程,在醫(yī)學(xué)中與之對(duì)應(yīng)的是包含了經(jīng)過恰當(dāng)?shù)丶膊≡\治、給系統(tǒng)輸入負(fù)熵流、使個(gè)體或群體疾病狀態(tài)好轉(zhuǎn)的過程。通過學(xué)習(xí)一個(gè)反向擴(kuò)散過程,如一個(gè)疾病演化的反演過程,在異構(gòu)化數(shù)據(jù)中來恢復(fù)結(jié)構(gòu),機(jī)器學(xué)習(xí)能產(chǎn)生一個(gè)高度靈活和易于處理的數(shù)據(jù)的生成模型,如學(xué)習(xí)典型慢病演化或反演過程這樣的不可逆過程。此法能夠快速學(xué)習(xí),從數(shù)據(jù)取樣本,并在生成模型中評(píng)估概率或數(shù)以千計(jì)的層或時(shí)間步,在學(xué)習(xí)模型中計(jì)算條件和后驗(yàn)概率。必須強(qiáng)調(diào),非平衡熱力學(xué)中的過程不可逆性[42-51]、物理學(xué)的準(zhǔn)靜過程和韌化的重要取樣都不是來源于變化的貝葉斯方法[39,60]。這就容易把學(xué)習(xí)過的分布或流行病學(xué)統(tǒng)計(jì)的分布通過時(shí)間或變量的區(qū)間積分[30,32],來揭示、構(gòu)造或計(jì)算一個(gè)相互嵌套的(類似于測(cè)度-概率-樹結(jié)構(gòu)[19,24,29,31])、多階段多層次變量的、橫跨疾病種類空間到個(gè)體疾病狀態(tài)空間的多隨機(jī)變量的聯(lián)合概率,就是多個(gè)條件概率分布相乘[39-41]。擴(kuò)散是不可逆性[48,50,51]在分子集合的行為描述的一種現(xiàn)象,而這一橫跨物理-化學(xué)-生命的重要概念,還可以被用來刻畫區(qū)域人群的健康狀態(tài)、醫(yī)生問診、床前檢查、化驗(yàn)或影像等檢查項(xiàng)目、涉及的各種隨機(jī)變量和參數(shù)、期間伴隨的噪聲、個(gè)體健康狀態(tài)、疾病種類、亞病種以及所處階段、醫(yī)生學(xué)習(xí)或機(jī)器學(xué)習(xí)過程、多層次的分類、生命過程等,而這些都可以由機(jī)器來實(shí)現(xiàn),可從它們涉及的基元-亞單元-單元或項(xiàng)目-變量-區(qū)間的復(fù)雜結(jié)構(gòu)的三段論策略、數(shù)學(xué)工具結(jié)合訓(xùn)練集以及極大似然等方法來具體地處理各自的數(shù)據(jù)結(jié)構(gòu),而且是集合論中的同構(gòu)[24,25,31]的數(shù)據(jù)結(jié)構(gòu)。
任何疾病狀態(tài)的演化規(guī)律都屬于非平衡熱力學(xué)的熵產(chǎn)生和負(fù)熵流研究領(lǐng)域[42,48],涉及隨時(shí)間演化的耗散結(jié)構(gòu)[49-51],對(duì)應(yīng)于循證醫(yī)學(xué)中的零級(jí)預(yù)防(包括水、空氣和土壤污染、環(huán)境衛(wèi)生等)、一級(jí)預(yù)防(服藥-干預(yù)-防事件)、二級(jí)預(yù)防(防事件再次復(fù)發(fā))或康復(fù)階段。這對(duì)醫(yī)生腦海里生成、判斷和推理個(gè)體疾病在下一個(gè)時(shí)間點(diǎn)的可能疾病狀態(tài)至關(guān)重要。而無論所采取的原理、方法和技術(shù)有多深刻,都必須以循證醫(yī)學(xué)的方針作為根本,來構(gòu)建任何規(guī)模和范圍的疾病云計(jì)算的統(tǒng)一構(gòu)架。分析高壓柱色譜分離過程一般在數(shù)分鐘,而占全體死亡人數(shù)78%的慢病人群數(shù)據(jù)[57]是以5年、10年為單位的長期統(tǒng)計(jì),并借助縱向數(shù)據(jù)分析方法[61],雖然二者時(shí)間跨度不一樣,但預(yù)測(cè)形式上是相似的。在相當(dāng)長的時(shí)期內(nèi),領(lǐng)域知識(shí)和方法是當(dāng)前AI學(xué)習(xí)過程的基礎(chǔ),否則,就不可能突破能讓醫(yī)生滿意的有關(guān)AI可解釋性要求,因?yàn)樗械臎Q策依據(jù)和結(jié)果都得事先作為醫(yī)學(xué)的規(guī)范、實(shí)踐和統(tǒng)計(jì)環(huán)節(jié)才有可能被隨后的機(jī)器學(xué)習(xí)所重新應(yīng)用。這個(gè)觀點(diǎn)的推廣使得至少在很長的時(shí)期內(nèi)不會(huì)存在不依賴于醫(yī)學(xué)或醫(yī)生艱苦的體力和智力勞動(dòng)成果的AI方法。機(jī)器系統(tǒng)的診療中堅(jiān)持循證醫(yī)學(xué)方針和基本方法的程度決定著任何疾病云計(jì)算的統(tǒng)一構(gòu)架的云平臺(tái)被醫(yī)生群體認(rèn)可的程度,也決定著被廣泛使用的程度。
非平衡熱力學(xué)中的不可逆性對(duì)基于循證醫(yī)學(xué)的人工智能-個(gè)體疾病診治即智慧醫(yī)療起著不可替代的作用。用算法把個(gè)體疾病狀態(tài)所屬的疾病種類找出來,首先要有效地歸類疾病狀態(tài)演化的方向和貢獻(xiàn)于某方向的致病因素,以免過于“漫無目標(biāo)”。機(jī)體克服環(huán)境不利于健康的熵增因素而給疾病狀態(tài)輸入負(fù)熵流來對(duì)抗熵增因素,使疾病狀態(tài)向“健康”方向演化,這顯然涉及非平衡熱力學(xué)的范疇。定量理解和形式化地表述疾病狀態(tài)的演化這一典型的不可逆熱力學(xué)過程,必須抓住疾病(如慢病)演化在大尺度時(shí)間范圍內(nèi)不會(huì)向更“健康”方向“逆轉(zhuǎn)”的生理-病理(如衰老)事實(shí)?;诜瞧胶鉄崃W(xué)的熵平衡方程這類普適原理[42-51],通過深層次數(shù)據(jù)語義挖掘和有效的疾病狀態(tài)推理[34-41],可望在醫(yī)學(xué)病理-預(yù)防-臨床診治層次上發(fā)展為深層智能的、可解釋性的、統(tǒng)一的、通用的AI構(gòu)架。
AI技術(shù)不斷向循證醫(yī)學(xué)的疾病診療滲透著,如早期的專家系統(tǒng)、近年的深度學(xué)習(xí)。疾病機(jī)器診斷實(shí)質(zhì)是在定義的疾病種類的范圍和細(xì)分程度下,對(duì)個(gè)體疾病狀態(tài)在像醫(yī)生“腦?!币粯拥臋C(jī)器里的疾病種類中進(jìn)行推斷并分類。2017年文獻(xiàn)報(bào)道了[62]用深度學(xué)習(xí)方法處理37萬心血管病個(gè)體醫(yī)療10年間的記錄來構(gòu)建各隱層系數(shù),且機(jī)器預(yù)測(cè)效果好過醫(yī)生。但值得關(guān)注的是,深度學(xué)習(xí)算法不能說明發(fā)病的因果關(guān)系、該方法的泛化能力差[61]。循證醫(yī)學(xué),諸如慢性預(yù)防、臨床診斷、鑒別診斷和對(duì)應(yīng)治療措施的疾病類型和細(xì)分程度導(dǎo)致場(chǎng)景數(shù)量呈現(xiàn)為天文學(xué)數(shù)量的多樣性和復(fù)雜性,會(huì)加劇或凸顯當(dāng)前AI(特別是深度學(xué)習(xí))自身存在的4個(gè)局限性,即數(shù)據(jù)瓶頸、泛化瓶頸、可解釋性瓶頸和可靠性瓶頸[52]。當(dāng)前流行的深度學(xué)習(xí)模型擅長大數(shù)據(jù)小任務(wù),確實(shí)不適合疾病(如慢病)的綜合診斷涉及的異構(gòu)化數(shù)據(jù)的眾多變量和復(fù)雜場(chǎng)景的多任務(wù)情景,但不排除深度學(xué)習(xí)在標(biāo)記影像中出色的狹窄應(yīng)用。
在AI領(lǐng)域脫穎而出的貝葉斯編程學(xué)習(xí)[40,41]通過概率編程歸納建立達(dá)到人類水平的具有組合、因果和學(xué)會(huì)學(xué)習(xí)特征的概念學(xué)習(xí)。利用針對(duì)醫(yī)學(xué)影像或語音信息的基元-亞部分-部分層級(jí)結(jié)構(gòu)來刻畫教科書-醫(yī)生腦海所定義的疾病類型所對(duì)應(yīng)的疾病狀態(tài),也可以看成是非平衡熱力學(xué)的分子或個(gè)體統(tǒng)計(jì)構(gòu)成的“狀態(tài)”。這里,疾病種類、疾病過渡參數(shù)和疾病狀態(tài)的聯(lián)合概率用來表現(xiàn)在醫(yī)生腦海中所刻畫的個(gè)體疾病狀態(tài)和所屬疾病類型。疾病狀態(tài)還隨時(shí)間而演化,這就是動(dòng)態(tài)貝葉斯網(wǎng),而貝葉斯網(wǎng)或概率編程等定向生成模型能夠給出因果解釋。新近研究[54]基于小樣本學(xué)習(xí)和概率圖模型提出一種生成-組合模型,被稱為遞歸皮層神經(jīng)網(wǎng)絡(luò)(RCN),在遮擋驗(yàn)證碼識(shí)別任務(wù)上超越了深度學(xué)習(xí)方法。神經(jīng)網(wǎng)絡(luò)之父Hinton[55]新近提出膠囊網(wǎng)絡(luò)(CN),采用迭代的路由協(xié)議機(jī)制,它們的性能都比卷積網(wǎng)絡(luò)的性能優(yōu)越很多。最近發(fā)表的圍棋-人工智能新成果AlphaGoZero[63],通過強(qiáng)化學(xué)習(xí)算法以100∶0戰(zhàn)勝AlphaGo,不需棋譜數(shù)據(jù)和先驗(yàn)知識(shí),可以看成極端的小樣本學(xué)習(xí),但慢病診斷不用醫(yī)生的領(lǐng)域知識(shí)顯然就好像機(jī)器就不知道自己在下圍棋一樣。我們亟待吸取這些杰出AI方法的精髓并結(jié)合疾病發(fā)生、發(fā)展的循證醫(yī)學(xué)預(yù)防-診斷和治療的基本規(guī)范和流程,以便形成逐步統(tǒng)一的、通用的智慧醫(yī)療-AI新構(gòu)架。個(gè)體診斷和干涉措施要求具體場(chǎng)景具有廣泛性、多樣性(深入性和細(xì)致性)和相互間關(guān)系的復(fù)雜性,總會(huì)使深度學(xué)習(xí)因訓(xùn)練樣本數(shù)量限制而失效。AI領(lǐng)域的著名專家已經(jīng)反復(fù)指出,不應(yīng)該把深度學(xué)習(xí)在狹隘智能上取得的成功(如深度學(xué)習(xí)的醫(yī)學(xué)影像識(shí)別)與通往通用智能(general intelligences)路上的進(jìn)展混為一談。目前,要把這些代表小樣本學(xué)習(xí)-概率生成模型的先進(jìn)AI方法[40,41,54]應(yīng)用于宏大范圍并具有豐富細(xì)節(jié)的疾病診斷和治療方面,必須抓住群體-個(gè)體多類別疾病的完整-綜合診斷項(xiàng)目的變量和區(qū)間及其隨時(shí)間發(fā)展演化和相互間關(guān)系的刻畫和推斷的規(guī)律,并采用數(shù)學(xué)超窮數(shù)理論[23]、公理集合論[24,25]、含非可加測(cè)度和多準(zhǔn)則決策[32]的測(cè)度概率論[30,31]的創(chuàng)新應(yīng)用,來突破機(jī)器疾病診治中涉及的高度復(fù)雜性、綜合性和跨學(xué)科等要素的限制。
只有從醫(yī)學(xué)、數(shù)學(xué)和計(jì)算機(jī)的跨學(xué)科視野出發(fā),才能形成滿足具有全覆蓋疾病預(yù)防和臨床事件的機(jī)器診治的統(tǒng)一、通用的AI系統(tǒng)構(gòu)架和方法(詳見表1)。面對(duì)包括血壓、血糖檢測(cè)等實(shí)數(shù)、主訴的語音和醫(yī)學(xué)影像等依據(jù)疾病診斷和處置的多類型項(xiàng)目異構(gòu)化數(shù)據(jù)的群體統(tǒng)計(jì)概率分布和演化規(guī)律以及S的ψ的分類,必須采用集合論、測(cè)度論的樣本空間和域的概念和方法,才使超級(jí)復(fù)雜的個(gè)體疾病狀態(tài)-疾病種類-循證狀態(tài)-臨床處置的概率圖模型的概率編程學(xué)習(xí)統(tǒng)一構(gòu)架實(shí)現(xiàn)其形式化和形態(tài)化(form and shape)。
表 1 全覆蓋疾病診斷和防治小樣本-概率生成模型學(xué)習(xí)機(jī)器涉及的學(xué)科、概念、方法及其關(guān)系Table 1 Disciplines, concepts, methods and relationships involved in the learning machine of a small sample- probability generation model for the diagnoses and prevention of full coverage diseases
Not including the subjects of physics and chemistry temporarily.
可見,非平衡熱力學(xué)的不可逆概念、思想或相關(guān)方法所涉及的研究對(duì)象跨越了非生命的色譜分離等物理世界,延伸到以個(gè)體健康為主線的智慧醫(yī)療的生命狀態(tài)演化。顯然,不可逆性促使非生命和生命研究領(lǐng)域的科學(xué)工作者深刻地理解和恰當(dāng)應(yīng)用其相關(guān)方法,以便解決許多全局的、演化的、隨機(jī)的、統(tǒng)一構(gòu)架問題。