程文靜 劉燕美
【摘要】該文介紹了一種醫(yī)學(xué)數(shù)據(jù)分類研究中的圖像分析方法,它把概念模型,數(shù)據(jù)和分類方法有效地整合在了一起,涵蓋了完整的分類操作并采用了一系列圖形圖像和計(jì)算組件。通過案例研究展示了如何使用該系統(tǒng)尋找癌癥死亡率和一些可能存在的危險(xiǎn)因素之間的關(guān)系。
【關(guān)鍵詞】醫(yī)學(xué)數(shù)據(jù);分類;圖形圖像
1.引言
近年來出現(xiàn)的大量復(fù)雜的醫(yī)療衛(wèi)生數(shù)據(jù)促進(jìn)了醫(yī)學(xué)方面一些新設(shè)想的探索研究。在數(shù)據(jù)中發(fā)掘分類成了分析和展示有關(guān)健康問題和社會經(jīng)濟(jì)因素之間關(guān)系中的關(guān)鍵一步。構(gòu)造類別不僅需要分類方法和數(shù)據(jù),還需要人類專業(yè)領(lǐng)域的知識。這是一個(gè)反復(fù)的,不斷學(xué)習(xí)的過程,研究者力求在數(shù)據(jù),方法和概念知識中達(dá)到穩(wěn)定的平衡。然而,大多數(shù)方法在這一過程中無法實(shí)現(xiàn)預(yù)期的效果,因?yàn)榇磉@三方面的工具,即概念知識,數(shù)據(jù)和分類方法,是在不同的軟件產(chǎn)品中實(shí)現(xiàn)的,彼此之間鮮有交互。因此,分析人員只能檢測結(jié)果的成功或失敗,卻很難發(fā)現(xiàn)問題所在。所以我們需要的是一個(gè)能整合這三個(gè)方面的模型,使分析人員在工作過程中能全面把握這三個(gè)方面,從而發(fā)現(xiàn)醫(yī)學(xué)數(shù)據(jù)和社會經(jīng)濟(jì)因素之間確定的關(guān)系或模式。研究表明,可視化圖像是人和計(jì)算組件之間的有效接口,能幫助人們反復(fù)分析數(shù)據(jù)樣本,結(jié)合固有的知識顯示分類,找出存在的問題。在這樣的組件中,數(shù)據(jù)和關(guān)系可以通過圖形圖像來表達(dá)和解釋,使整個(gè)研究過程步驟清晰且高效。
2.解決方案
本文介紹了一種基于可視化界面的方法,它由賓夕法尼亞大學(xué)的研究人員發(fā)明[1],把數(shù)據(jù)研究,分類方法與關(guān)系的概念化結(jié)合了起來,連接了以下四個(gè)步驟:1)創(chuàng)建,瀏覽和修改概念模型。2)選擇概念進(jìn)行特定的分析。3)從出現(xiàn)的結(jié)構(gòu)中挖掘數(shù)據(jù)以明確地表達(dá)概念。4)根據(jù)結(jié)果中出現(xiàn)的新關(guān)系動態(tài)地修改概念。具體來說,用戶首先基于自己的專業(yè)知識在conceptvista中構(gòu)建初始關(guān)系的概念圖,conceptvista是一種基于TouchGraph可視化工具包的動態(tài)概念圖畫圖工具[4]。然后將數(shù)據(jù)在不同的視圖工具中(如平行坐標(biāo)圖,散點(diǎn)圖和等值線圖)從屬性和地理空間兩方面進(jìn)行分析,尋找屬性之間的關(guān)系,這也可以通過以上可視化工具的交互來實(shí)現(xiàn)。由此用戶可以從中選擇選擇恰當(dāng)?shù)膶傩院瓦m當(dāng)?shù)姆椒▉硇拚f的知識模型并構(gòu)造出一個(gè)新的概念模型。
3.案例研究
3.1 數(shù)據(jù)和研究區(qū)域
研究組選定美國阿巴拉契亞山區(qū)為研究區(qū)域,那里的癌癥死亡率高于美國全國平均水平。該區(qū)域包含156個(gè)郡,涵蓋了肯塔基州和賓夕法尼亞州部分區(qū)域和整個(gè)西弗吉尼亞州。數(shù)據(jù)集包含了如人口數(shù)量,種族,性別等屬性。
一般來說,人們認(rèn)為較高的癌癥死亡率與缺乏發(fā)現(xiàn)和預(yù)防知識以及未能及時(shí)治療有較大關(guān)系。此外,低收入,落后的教育水平,高失業(yè)率等社會經(jīng)濟(jì)因素也被認(rèn)為可能對公眾健康造成負(fù)面影響。根據(jù)以上因素首先構(gòu)造出關(guān)系概念圖,如圖1所示,它是以貧困和高死亡率有關(guān),富裕和低死亡率有關(guān)的猜想為基礎(chǔ)的,由此開始分析具體數(shù)據(jù)來對乳腺癌和宮頸癌做研究。
3.2 癌癥數(shù)據(jù)和風(fēng)險(xiǎn)因素的分類挖掘
挖掘是一個(gè)反復(fù)的學(xué)習(xí)過程,該集成系統(tǒng)從知識驅(qū)動和數(shù)據(jù)驅(qū)動兩種方法中都汲取了優(yōu)點(diǎn),使分析人員可以在概念,數(shù)據(jù)和分類方法三方面無縫切換。根據(jù)癌癥死亡率的高低研究區(qū)域被分為三類,即低,中,高,在區(qū)域等值線圖中用三種顏色表示了出來,如圖2所示。
圖1 乳腺癌和貧困及相關(guān)因素的原始概念圖
圖2 1970-1994該區(qū)域乳腺癌死亡率的分類等值線圖
可以看到,賓夕法尼亞(上部)的大部分地區(qū)被紫色和淺紫色標(biāo)記,而肯塔基州(下部)和西弗吉尼亞州(中部)的許多郡被淺紫色和灰色標(biāo)記。這種模式表明,乳腺癌死亡率較高的郡大都集中在賓夕法尼亞,而在肯塔基和西弗吉尼亞州的郡中乳腺癌死亡率居中或較低。
接下來探討產(chǎn)生這種分布的原因。根據(jù)較高的癌癥高死亡率與較低的社會經(jīng)濟(jì)地位有關(guān)的假設(shè),添加一個(gè)變量“人均收入”,由此生成一個(gè)二維圖,如圖3所示,兩個(gè)變量乳腺癌死亡率和人均收入分別用紫色和綠色表示。
圖3 由乳腺癌死亡率和人均收入生成的分類等值線圖
根據(jù)兩個(gè)變量的值,把156個(gè)郡分為九類,即低低,低中,低高,中低,中高,高低,高中,和高高。標(biāo)記為深灰色的縣同時(shí)具有較高的乳腺癌死亡率和人均收入。顯然,人均收入高的郡縣同樣大都集中在賓夕法尼亞,低收入和低乳腺癌死亡率的郡(淺灰色)集中在西弗吉尼亞和肯塔基。這種結(jié)果說明乳腺癌的死亡率與收入是正相關(guān)的,也就是說,在這一地區(qū),貧困誘發(fā)高癌癥死亡率的猜測并不夠準(zhǔn)確,至少在乳腺癌方面是這樣。
在上述方法中只同時(shí)分析了兩個(gè)變量,如果要分析它們和其他潛在的風(fēng)險(xiǎn)因素之間的關(guān)系,如教育,衛(wèi)生服務(wù)等,還需要在系統(tǒng)中應(yīng)用其他的工具,如電子表格,平行坐標(biāo)圖(PCP),散點(diǎn)圖,散點(diǎn)圖和地圖的矩陣等。電子表格可以列出所有的數(shù)字格式的數(shù)據(jù);PCP顯示平行軸的所有變量的值;散點(diǎn)圖顯示一對變量的屬性值;等值線圖觀測地理位置的分類。這些工具的功能優(yōu)勢被結(jié)合起來應(yīng)用在系統(tǒng)中。
在這個(gè)案例中共有四十六個(gè)變量,包括各種與癌癥死亡率可能相關(guān)的社會經(jīng)濟(jì)因素,如人口,人均收入,租金,教育情況,吸煙,肥胖,等等。電子表格可以列出所有的數(shù)據(jù)集,但是很難從表中大量的普通數(shù)字中發(fā)現(xiàn)有用的模式。
從所有變量中選出四個(gè),乳腺癌死亡率、宮頸癌死亡率,以及它們的社會經(jīng)濟(jì)風(fēng)險(xiǎn)因素,表示在一個(gè)散點(diǎn)圖和地圖矩陣中(圖4)。每對變量的關(guān)系可以分別從散點(diǎn)圖中的兩個(gè)屬性空間和地圖中直觀地顯示出來。紅色線條是回歸線,表示屬性相關(guān)性的R值顯示在散點(diǎn)圖的每個(gè)面板上部??さ念伾缮Ⅻc(diǎn)圖顯示的變量二維分類結(jié)果決定,共有九種,每種代表一個(gè)二元分類。用淺紫色標(biāo)識的郡在X軸表示的變量中有較高的值,在Y軸表示的變量中有較低的值。用淺綠色標(biāo)識的郡在Y軸表示的變量中有較高的值,在X軸表示的變量中有較低的值。在兩個(gè)變量中都有相對較高值的郡用深灰色表示,在兩個(gè)變量中都有相對較低值的郡用淺灰色表示。
圖4 四個(gè)變量顯示在散點(diǎn)圖和地圖矩陣中
每一個(gè)散點(diǎn)圖可以表示出坐標(biāo)軸兩個(gè)變量的相關(guān)性并給出其置信度,可以是正相關(guān)(上升),負(fù)相關(guān)(下降),或0(不相關(guān))。如果散點(diǎn)的分布回歸線是從左下到右上的模式,表明兩個(gè)變量呈正相關(guān);如果是從左上到右下的模式,表明兩個(gè)變量呈負(fù)相關(guān)。R值表示了相關(guān)的置信度。右上方的紅色虛線框中是宮頸癌和乳腺癌死亡率變量的散點(diǎn)圖。這兩個(gè)變量之間的相關(guān)系數(shù)是為-0.042,表示一個(gè)弱的負(fù)相關(guān),這表明宮頸癌死亡率較高的郡的乳腺癌的死亡率相對較低。
再觀察左下方紅色虛線框中對應(yīng)的等值線地圖。紫色表示具有相對較高的乳腺癌死亡率與較低的宮頸癌死亡率的郡,主要集中在賓夕法尼亞州。淺綠色表示具有較高的宮頸癌死亡率和較低的乳腺癌死亡率的郡,主要集中在西弗吉尼亞州和肯塔基州。
如果需要研究局部區(qū)域,可以很容易地在散點(diǎn)圖中通過拖動虛線框選擇區(qū)域。選擇出來的子區(qū)域會同時(shí)在其他的工具(如地圖)中顯示出相應(yīng)的視圖部分,這樣就實(shí)現(xiàn)了不同工具之間的交互功能。
通過同樣的方式可以對其他因素進(jìn)行分析。根據(jù)整體的最終結(jié)果,可以修訂出一個(gè)新的表示癌癥死亡率和社會經(jīng)濟(jì)地位關(guān)系的概念圖。最初的概念圖是構(gòu)建在高癌癥死亡率與低社會經(jīng)濟(jì)地位有關(guān)的猜想上的。但是結(jié)果顯示,雖然宮頸癌死亡率與社會經(jīng)濟(jì)因素呈負(fù)相關(guān),但是乳腺癌死亡率卻與社會經(jīng)濟(jì)地位有一定正相關(guān)的關(guān)系。衛(wèi)生服務(wù)條件也被從危險(xiǎn)因素中去除,因?yàn)榻Y(jié)果顯示,醫(yī)患百分比,醫(yī)院數(shù)量與人口數(shù)量的百分比與癌癥死亡率并沒有明顯的關(guān)系。
4.結(jié)論
從案例研究中可以看到,該系統(tǒng)提供了交互式數(shù)據(jù)圖像和分類方法,來發(fā)掘癌癥死亡率及其危險(xiǎn)因素之間的關(guān)系。最初的關(guān)系概念可以在數(shù)據(jù)發(fā)掘的過程中逐步被修訂。所以說,針對醫(yī)學(xué)數(shù)據(jù)研究的多維特性,圖像集成工具是一個(gè)很好的選擇,它使研究過程變得明了且高效。
參考文獻(xiàn)
[1]Dai,X.:“Visualization based approach for exploration of health data and risk factors”,In Proc.of:GeoComputation,Ann Arbor Mi,USA,on CD,2005.
[2]Carr,D.,Wallin,J.,and Carr,D.,2000,Two new templates for epidemiology applications:Linked micromap plots and conditioned choropleth maps.Statistics in medicine,19,2521-2538.
[3]系統(tǒng)可在以下地址查看GoeVista Studio http://www.geovistastudio.psu.edu.
作者簡介:
程文靜(1983—),女,河南新鄉(xiāng)人,碩士,鄭州航空工業(yè)管理學(xué)院助教,研究方向:數(shù)據(jù)知識工程。
劉燕美(1986—),女,河南新鄉(xiāng)人,碩士,鄭州航空工業(yè)管理學(xué)院助教,研究方向:計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)。