丁 鴻 李水明 李少珍 廖如燕
1 深圳市龍崗區(qū)疾病預(yù)防控制中心,廣東 深圳 518172;2 深圳市第三人民醫(yī)院,廣東 深圳 518112;3 廣州出入境檢驗(yàn)檢疫局,廣東 廣州 510000
我國(guó)的公共衛(wèi)生應(yīng)急處置系統(tǒng)目前處于探索階段,尚未形成完備體系。一般而言,公共衛(wèi)生應(yīng)急處置系統(tǒng)應(yīng)包括應(yīng)急處置輔助查詢、現(xiàn)場(chǎng)處置、相關(guān)疾病輔助診斷等功能。傳染病的診斷主要依據(jù)患者的癥狀、體征及實(shí)驗(yàn)室檢查結(jié)果,其診斷結(jié)果的準(zhǔn)確性受診斷醫(yī)生的個(gè)人經(jīng)驗(yàn)、知識(shí)水平和實(shí)驗(yàn)室檢測(cè)等影響較大。尤其是當(dāng)發(fā)生傳染病疫情時(shí),在疫情現(xiàn)場(chǎng)沒(méi)有實(shí)驗(yàn)室結(jié)果的支持下,主要靠醫(yī)生的經(jīng)驗(yàn)和知識(shí)水平進(jìn)行判斷。而傳染病種類繁多、病原體復(fù)雜、在不同地區(qū)和時(shí)間上分布具有差異性,這些特點(diǎn)使醫(yī)生們?cè)谧龀鲈\斷時(shí),由于考慮不全或知識(shí)有限的情況下,往往發(fā)生漏診、誤診等現(xiàn)象。
突發(fā)性傳染病疫情的直接表現(xiàn)是傳染病的流行,傳染疾病的早期診斷常常依據(jù)流行病調(diào)查、臨床上的癥狀及體征和實(shí)驗(yàn)室檢驗(yàn)結(jié)果等病情資料,盡管疾病的最后確認(rèn)有待實(shí)驗(yàn)室病原學(xué)結(jié)果,但是在沒(méi)有快速診斷技術(shù)的前提下,就早期診斷,采取控制措施而言,前者的作用不可替代。如今,隨著計(jì)算機(jī)和信息技術(shù)應(yīng)用領(lǐng)域的全方位擴(kuò)展,傳染性疾病的預(yù)測(cè)預(yù)報(bào)及診斷防治工作有了新的發(fā)展方向和工具,即運(yùn)用計(jì)算機(jī)及互聯(lián)網(wǎng)技術(shù),可以使疾病的診斷和治療在精確數(shù)量化的基礎(chǔ)上,用計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)化,有助于提高傳染病疫情診斷的準(zhǔn)確性,減少漏診、誤診。這不但能大大減輕一線專業(yè)人員的日常工作量,而且具有極強(qiáng)的交互性、便捷性,能有效提高工作效率及質(zhì)量。
準(zhǔn)確判斷是突發(fā)傳染病疫情處置的關(guān)鍵一步,判斷準(zhǔn)確與否將決定疫情控制的效果和效率。由于突發(fā)傳染病疫情現(xiàn)場(chǎng)情況十分復(fù)雜,實(shí)驗(yàn)室的病原學(xué)檢測(cè)需要時(shí)間,為了贏得疫情控制的時(shí)間,往往需要現(xiàn)場(chǎng)人員綜合現(xiàn)場(chǎng)情況對(duì)疫情做出初步判斷。根據(jù)疫情中流行病學(xué)調(diào)查、癥狀、體征和部分臨床檢驗(yàn)結(jié)果等信息,對(duì)傳染病疫情早期智能輔助判別。利用數(shù)據(jù)設(shè)計(jì)原理與方法,設(shè)計(jì)傳染病輔助判別數(shù)據(jù)庫(kù)的概念模型和物理模型,以專業(yè)書(shū)籍、文獻(xiàn)報(bào)道、全國(guó)疾病監(jiān)測(cè)網(wǎng)絡(luò)和傳染病診斷標(biāo)準(zhǔn)數(shù)據(jù)來(lái)源,建立各種傳染病的流行病學(xué)特征數(shù)據(jù)庫(kù)和癥狀、體征、實(shí)驗(yàn)室檢測(cè)數(shù)據(jù)庫(kù);研究常見(jiàn)癥狀、體征、實(shí)驗(yàn)室檢驗(yàn)結(jié)果和流行病學(xué)指標(biāo)在各種傳染病中的概率分布;選擇適合數(shù)據(jù)特點(diǎn)的判別模型,建立模型算法并進(jìn)行優(yōu)化,用文獻(xiàn)報(bào)道的數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證;建立反饋模型,對(duì)輔助診斷的疾病反過(guò)來(lái)驗(yàn)證疫情中流行病學(xué)調(diào)查結(jié)果、癥狀、體征。
當(dāng)前常用的傳染病預(yù)測(cè)模型有:回歸模型、時(shí)間序列模型、灰色理論模型、Markov模型、神經(jīng)網(wǎng)絡(luò)模型和組合預(yù)測(cè)模型。
回歸預(yù)測(cè)法就是運(yùn)用回歸分析的方法,通過(guò)對(duì)大量觀察數(shù)據(jù)的統(tǒng)計(jì)處理與分析,找出預(yù)測(cè)對(duì)象與影響因素之間的數(shù)量關(guān)系。建立回歸模型并進(jìn)行預(yù)測(cè)的研究方法,包括一元線性回歸預(yù)測(cè)法、多元線性回歸預(yù)測(cè)法和非線性回歸預(yù)測(cè)法。理論上多元線性回歸要求資料總體服從多元正態(tài)分布且協(xié)方差相同,而流行病學(xué)資料難以滿足此條件,很多影響疾病的因素是 0,1分布或等級(jí)分布,此時(shí)可采用Logistic 回歸模型對(duì)疾病進(jìn)行預(yù)測(cè)。有季節(jié)規(guī)律的時(shí)間序列用線性或非線性回歸模型進(jìn)行預(yù)測(cè)顯然是牽強(qiáng)的[1-3],事物的發(fā)展不僅受長(zhǎng)期趨勢(shì)支配,而且還受到隨機(jī)擾動(dòng)和周期波動(dòng)的影響,從而呈現(xiàn)出以趨勢(shì)為中心的變動(dòng)軌跡,作為隨機(jī)方程的回歸預(yù)測(cè)模型,在組織建模時(shí)由于受到隨機(jī)擾動(dòng)和周期波動(dòng)因素的干擾,降低了預(yù)測(cè)的精度。
它是指一系列反映包括時(shí)間動(dòng)態(tài)依存關(guān)系的數(shù)學(xué)模型,不僅可以從數(shù)量上揭示某現(xiàn)象與其他現(xiàn)象的發(fā)展變化規(guī)律或從動(dòng)態(tài)的角度刻畫(huà)某現(xiàn)象與其他現(xiàn)象之間的內(nèi)在數(shù)量關(guān)系及變化規(guī)律性,而且能夠預(yù)測(cè)與控制現(xiàn)象的未來(lái)行為。如果時(shí)間序列呈趨勢(shì)性且無(wú)明顯的季節(jié)性,則可用分析事物發(fā)展?jié)u進(jìn)過(guò)程的趨勢(shì)外推法,分析方法有線性、指數(shù)曲線、多次曲線等趨勢(shì)預(yù)測(cè)模型[4]。
灰色模型[5],是用時(shí)間數(shù)據(jù)序列建立系統(tǒng)的動(dòng)態(tài)模型。隨著預(yù)防醫(yī)學(xué)和計(jì)算機(jī)科學(xué)的發(fā)展,許多研究者應(yīng)用灰色預(yù)測(cè)模型對(duì)各種慢性病的發(fā)病率和死亡率進(jìn)行預(yù)測(cè),尤其應(yīng)用在惡性腫瘤的研究當(dāng)中[6-7]?;疑P陀捎谄漕A(yù)測(cè)效果好,適應(yīng)性強(qiáng),廣泛應(yīng)用于疾病流行趨勢(shì)的預(yù)測(cè)。但由于灰色模型中的指數(shù)型變化是單調(diào)的( 單調(diào)上升或下降) ,因此長(zhǎng)期預(yù)測(cè)的預(yù)測(cè)值就會(huì)偏高或偏低,特別隨著時(shí)間的推移,未來(lái)一些擾動(dòng)因素對(duì)系統(tǒng)的影響,對(duì)隨機(jī)性、波動(dòng)性較大的數(shù)據(jù)擬合較差,預(yù)測(cè)精度降低,這是灰色預(yù)測(cè)的不足之處。
Markov 鏈 (Markov chain)[9]是一種隨機(jī)事件序列,它將來(lái)的取值只與現(xiàn)在的取值有關(guān),而與過(guò)去的取值無(wú)關(guān),即Markov 鏈為無(wú)后效性的離散性隨機(jī)過(guò)程。Markov 鏈預(yù)測(cè)是區(qū)間預(yù)測(cè),雖然降低了預(yù)測(cè)的精確度,但卻提高了預(yù)測(cè)的準(zhǔn)確度。因此預(yù)測(cè)發(fā)病率實(shí)際值的范圍,對(duì)防病具有現(xiàn)實(shí)的意義,而且通過(guò)區(qū)間預(yù)測(cè)可給出實(shí)際值出現(xiàn)的范圍。該模型過(guò)程簡(jiǎn)明,易于操作,短期預(yù)測(cè)精度高,特別適用于有波動(dòng)性改變的資料。
神經(jīng)網(wǎng)絡(luò)[9]或稱人工神經(jīng)網(wǎng)絡(luò) ( Artificial Neural Network,ANN) 以模擬生物的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能為出發(fā)點(diǎn),逐漸演變成為一門(mén)對(duì)信息處理的方法學(xué)。人工神經(jīng)網(wǎng)絡(luò)在流行病學(xué)領(lǐng)域的應(yīng)用主要集中于疾病的診斷和預(yù)后、預(yù)測(cè)和預(yù)報(bào)以及病因識(shí)別等方面。人工神經(jīng)網(wǎng)絡(luò)模型對(duì)復(fù)雜的大規(guī)模數(shù)據(jù),無(wú)先驗(yàn)知識(shí)的資料,資料不全、用傳統(tǒng)統(tǒng)計(jì)學(xué)方法無(wú)法解決或解決效果不好的問(wèn)題,提供了一個(gè)全新而有效的解決途徑。但它仍存在一些問(wèn)題,主要包括: 網(wǎng)絡(luò)初始值及閾值的確定,網(wǎng)絡(luò)學(xué)習(xí)速率的選取,網(wǎng)絡(luò)隱節(jié)點(diǎn)個(gè)數(shù)的確定等等。
單個(gè)預(yù)測(cè)模型進(jìn)行預(yù)測(cè)時(shí)會(huì)存在一些缺陷,如信息源的不廣泛性、對(duì)模型設(shè)定形式敏感等。組合預(yù)測(cè)就是綜合利用各種單個(gè)預(yù)測(cè)模型所提供的信息,以其適當(dāng)?shù)募訖?quán)平均形式得出組合預(yù)測(cè)模型。它可以綜合利用各種方法所提供的信息,盡可能地提高預(yù)測(cè)精度。組合預(yù)測(cè)仍處于發(fā)展之中,理論上還不夠十分完善。作者認(rèn)為,可以將模糊控制理論、專家系統(tǒng)及人工智能中的一些方法和理論引用到組合預(yù)測(cè)領(lǐng)域中來(lái),以降低算法的復(fù)雜性,提高預(yù)測(cè)精度。
目前常用的計(jì)量診斷方法有決策樹(shù)分類、貝葉斯分類、人工神經(jīng)網(wǎng)絡(luò)方法。
決策樹(shù)是一個(gè)類似流程圖的樹(shù)形結(jié)構(gòu),是以實(shí)例為基礎(chǔ)從一組無(wú)次序、無(wú)規(guī)則的元組中推理出決策樹(shù)表示形式的分類規(guī)則[10-11]。它采用自頂向下的遞歸方式,樹(shù)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)屬性名或一個(gè)特定的測(cè)試,該測(cè)試在此節(jié)點(diǎn)根據(jù)測(cè)試結(jié)果對(duì)訓(xùn)練集進(jìn)行劃分,葉結(jié)點(diǎn)是要學(xué)習(xí)劃分的類。從根到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條規(guī)則,整個(gè)決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則。
決策樹(shù)算法的優(yōu)點(diǎn)主要是:(1)可以生成可以理解的規(guī)則;(2)計(jì)算量相對(duì)來(lái)說(shuō)不是很大;(3)可以處理連續(xù)和種類字段;(4)可以清晰的顯示那些字段比較重要。
其缺點(diǎn)主要是:(1)對(duì)連續(xù)性字段比較難預(yù)測(cè);(2)對(duì)有時(shí)間順序的數(shù)據(jù),需要很多與處理有關(guān)的工作;(3)當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快;(4)一般的算法分類的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分類。
人工神經(jīng)網(wǎng)絡(luò)[12]是近年來(lái)提出的一種機(jī)器學(xué)習(xí)的算法。人工神經(jīng)網(wǎng)絡(luò)的原理是通過(guò)模擬生物的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能,實(shí)現(xiàn)對(duì)各種信息的有效處理。它通常包含輸入層、輸出層以及一個(gè)或幾個(gè)隱含層,它的基本組成單位為神經(jīng)元。輸入層接受外界信號(hào),不對(duì)其進(jìn)行加工和處理,直接將其引入神經(jīng)網(wǎng)絡(luò);隱含層位于網(wǎng)絡(luò)的輸入層和輸出層之間,可包括多層,對(duì)輸入的信息進(jìn)行處理并將處理后的信息傳給輸出層(或下一個(gè)隱含層);輸出層則輸出經(jīng)隱含層處理后的結(jié)果。人工神經(jīng)網(wǎng)絡(luò)不需要精確的數(shù)學(xué)模型,而是通過(guò)模擬人的聯(lián)想推理和抽象思維能力,來(lái)解決傳統(tǒng)自動(dòng)化技術(shù)無(wú)法解決的許多復(fù)雜的、不確定性的、非線性的自動(dòng)化問(wèn)題。
人工神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)就是很難解釋,目前還沒(méi)有能對(duì)神經(jīng)網(wǎng)絡(luò)做出顯而易見(jiàn)解釋的方法學(xué)。需要嚴(yán)格衡量神經(jīng)網(wǎng)絡(luò)的方法,以防神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)度,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)需要的時(shí)間比較長(zhǎng),從實(shí)用的角度來(lái)考慮,用大規(guī)模的BP 網(wǎng)絡(luò)來(lái)處理大規(guī)模的復(fù)雜問(wèn)題在目前還是不現(xiàn)實(shí)的。
貝葉斯是一種判別分析方法,根據(jù)一批分類明確的樣品制定出一個(gè)分類標(biāo)準(zhǔn),用于指導(dǎo)其后新樣品的歸類,在醫(yī)療衛(wèi)生工作中越來(lái)越多的用于疾病診斷、預(yù)報(bào)、療效估計(jì)等。
貝葉斯原理:設(shè) X 是未標(biāo)示類別的樣本,H 為某種假定,如樣本 X 屬于某個(gè)特定的類。分別用 P(H|X)、P(X|H)、P(H)、P(X)表示條件 X 下 H 的后驗(yàn)概率、條件 H 下 X 的后驗(yàn)概率、H 的先驗(yàn)概率、X 的先驗(yàn)概率。通過(guò)先驗(yàn)概率的大小推出后驗(yàn)概率大小。
與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)相比,此類算法在分類準(zhǔn)確性、運(yùn)算效率等方面均較高,適合大型數(shù)據(jù)分類。主要有三種算法:樸素貝葉斯分類、線形貝葉斯判別、貝葉斯網(wǎng)絡(luò)。樸素貝葉斯算法成立的前提是各屬性之間相互獨(dú)立,當(dāng)滿足這種獨(dú)立性假設(shè)條件時(shí),與其它所有分類算法相比,樸素貝葉斯分類是最精確的。
傳染性疾病輔助診斷是公共衛(wèi)生應(yīng)急處置系統(tǒng)中最基礎(chǔ)也是最重要的一個(gè)核心模塊,其設(shè)計(jì)與實(shí)現(xiàn)的優(yōu)劣將直接影響整個(gè)應(yīng)急處置系統(tǒng)的成敗。其核心問(wèn)題包括:數(shù)據(jù)源的獲取、數(shù)據(jù)庫(kù)的設(shè)計(jì)以及智能診斷算法的設(shè)計(jì)。其中,數(shù)據(jù)源必須從廣度和深度兩個(gè)層面上來(lái)獲取,在本系統(tǒng)中數(shù)據(jù)庫(kù)涵蓋大部分傳染病疾病特征和實(shí)驗(yàn)室檢查等判別依據(jù),基本可以滿足大部分突發(fā)公共衛(wèi)生事件的現(xiàn)場(chǎng)需求。智能診斷算法是整個(gè)疾病智能診斷系統(tǒng)的核心部分,診斷算法的優(yōu)劣將直接影響整個(gè)診斷的效率和準(zhǔn)確性。下一步將進(jìn)行算法的優(yōu)化選擇。
[1]李立明.流行病學(xué)[M].北京:人民衛(wèi)生出版社,1999,9: 111-119.
[2]章?lián)P熙.醫(yī)學(xué)統(tǒng)計(jì)預(yù)測(cè)[M].北京:中國(guó)科技技術(shù)出版社,1995.64- 90.
[3]徐國(guó)強(qiáng).胡清友.統(tǒng)計(jì)預(yù)測(cè)和決策[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2001.113- 131.
[4]王文昌,尹全煥,許汝福,等.季節(jié)性時(shí)間序列資料預(yù)測(cè)的線性方法[J].數(shù)理醫(yī)藥學(xué)雜志,1998,11 (2) : 103- 104.
[5]姚莉.灰色數(shù)列預(yù)測(cè)模型在傳染病死亡率研究中的應(yīng)用[J].數(shù)理醫(yī)藥學(xué)雜志,2002,15 (2):103- 104.
[6]汪愛(ài)勤,魚(yú)敏.灰色預(yù)測(cè)方法在疾病預(yù)測(cè)中的應(yīng)用[J].中華流行病志雜志,988,9 (1) : 49- 52.
[7]段瓊虹,聶紹發(fā),仇成軒,等.灰色系統(tǒng)殘差 GM模型應(yīng)用于前列腺癌流行趨勢(shì)預(yù)測(cè)[J].數(shù)理醫(yī)藥學(xué)雜志,2000,13( 5) :385- 386.
[8]朱彩蓉,倪宗瓚.Markov 狀態(tài)轉(zhuǎn)移模型在慢性患者平均壽命預(yù)測(cè)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21 (4) : 212- 213.
[9]周利峰,高爾生,金丕換.BP 神經(jīng)網(wǎng)絡(luò)與 Logistic 回歸對(duì)比初探[J].中國(guó)統(tǒng)計(jì)衛(wèi)生,1998,15 (1) : 1- 4.
[10]閃四清,成茵,程雁,等譯.數(shù)據(jù)挖掘-概念、模型、方法和算法[M].北京:清華大學(xué)出版社,2003.80-195.
[11]韓家煒,主編.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:科學(xué)技術(shù)出版社,2000.162-196.
[12]韓彥峰,段向前.人工神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用.西安建筑科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,37(1):11-123.