官 鑫,王 麗,姜瑾秋,李欣欣,韓宏志
(《吉林大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)》編輯部,長(zhǎng)春130021)
相關(guān)性分析及關(guān)聯(lián)性分析是醫(yī)學(xué)研究中描述事件間聯(lián)系性質(zhì)和程度的常用方法。從哲學(xué)層面講,任何事物的存在都并非孤立,既相互聯(lián)系又相互制約的。蔡智澄等[1]認(rèn)為:在社會(huì)生活中存在的所有關(guān)系均可以歸結(jié)為兩種關(guān)系,即具有唯一性的一一對(duì)應(yīng)關(guān)系(函數(shù)關(guān)系)和非唯一性的統(tǒng)計(jì)關(guān)系(關(guān)聯(lián)關(guān)系)。人們通常采用相關(guān)性分析法和關(guān)聯(lián)性分析法來(lái)揭示、分析、解釋這種關(guān)系的密切程度。
醫(yī)學(xué)論文的題目和內(nèi)容中常會(huì)出現(xiàn)“……相關(guān)性分析”或“……關(guān)聯(lián)性分析”,有些作者或編輯并沒(méi)有意識(shí)到“相關(guān)性”與“關(guān)聯(lián)性”有何區(qū)別,但這兩者所表達(dá)的意義確有不同。
“相關(guān)性”是一個(gè)統(tǒng)計(jì)學(xué)名詞,《衛(wèi)生統(tǒng)計(jì)學(xué)》[2]教科書(shū)中將“相關(guān)”定義為隨機(jī)變量之間相互聯(lián)系的密切程度和方向?!跋嚓P(guān)性分析”是對(duì)自然界和社會(huì)中的兩種或多種事物(或現(xiàn)象)是否相關(guān),測(cè)度事物(或現(xiàn)象)間統(tǒng)計(jì)關(guān)系強(qiáng)弱(或變量之間線性相關(guān)程度強(qiáng)弱),反映事物(或數(shù)據(jù))之間的趨同關(guān)系的一種常用的手段和工具。
常用的相關(guān)系數(shù)是由英國(guó)統(tǒng)計(jì)學(xué)家卡爾·皮爾遜提出的簡(jiǎn)單相關(guān)系數(shù)。其數(shù)學(xué)表達(dá)式為
x和y為兩個(gè)待研究變量,(xi,yi) (i=1,2,…,n)為兩變量的n對(duì)觀察值,x和y分別為n個(gè)觀察值的均值。杜秀杰等[3]研究顯示:相關(guān)系數(shù)r是一個(gè)無(wú)量綱的數(shù)值,且-1≤r≤1。|r|越接近1,說(shuō)明相關(guān)性越好,|r|越接近0,說(shuō)明相關(guān)性越差。
“相關(guān)性”按涉及變量的多少分為一元相關(guān)和多元相關(guān),按表現(xiàn)形式分為直線相關(guān)和曲線相關(guān),按變化方向不同分為正相關(guān)和負(fù)相關(guān)。醫(yī)學(xué)論文中常用的“相關(guān)性分析”檢驗(yàn)方法有線性相關(guān)分析法、Pearson相關(guān)分析法、Spearman相關(guān)分析法、秩相關(guān)分析法和回歸分析等。值得注意的是,回歸分析是相關(guān)性分析中一種特殊的形式,回歸有相關(guān)關(guān)系、伴隨關(guān)系和依存關(guān)系,當(dāng)作為相關(guān)關(guān)系時(shí)其可以歸為相關(guān)性分析的一種。直線相關(guān)系數(shù)r是用來(lái)說(shuō)明直線相關(guān)的兩個(gè)變量相關(guān)關(guān)系的密切程度和相關(guān)方向的統(tǒng)計(jì)指標(biāo),而回歸系數(shù)是回歸直線的斜率,是通過(guò)x推算y的回歸系數(shù),表示當(dāng)x變動(dòng)一個(gè)單位時(shí),y平均變動(dòng)的單位。直線相關(guān)分析中要求x和y均符合正態(tài)分布,而回歸分析要求y符合正態(tài)分布。
李柏松[4]的研究顯示,“相關(guān)性分析”具有如下特征:①概念具體(兩變量數(shù)量協(xié)同變化關(guān)系或規(guī)律);②簡(jiǎn)單的分析變量搭配形式少,復(fù)雜的分析變量搭配形式多;③可分為靜態(tài)或動(dòng)態(tài)分析;④相關(guān)分析的統(tǒng)計(jì)量無(wú)量綱,但回歸分析的統(tǒng)計(jì)量有量綱;⑤有相關(guān)的正負(fù)向之分;⑥回歸分析區(qū)分原因和結(jié)果變量,其他相關(guān)分析不區(qū)分原因和結(jié)果變量;⑦兩個(gè)變量同時(shí)參與計(jì)算分析。
“關(guān)聯(lián)性分析”是針對(duì)兩個(gè)變量或多個(gè)變量一系列對(duì)應(yīng)測(cè)量值的隨機(jī)樣本資料,應(yīng)用生物統(tǒng)計(jì)假設(shè)檢驗(yàn)的方法分析和推斷變量間的數(shù)量關(guān)系或數(shù)量協(xié)同變化關(guān)系是否存在,并在確定變量間存在關(guān)聯(lián)性的基礎(chǔ)上評(píng)價(jià)關(guān)聯(lián)程度的一種方法[4]。
“關(guān)聯(lián)性分析”中可以得出關(guān)聯(lián)系數(shù)。但不可將關(guān)聯(lián)系數(shù)誤認(rèn)為是相關(guān)系數(shù)(例如 Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)等),分類資料中的四格表的列聯(lián)系數(shù)是多數(shù)人比較熟悉的關(guān)聯(lián)系數(shù)的一種。目前醫(yī)學(xué)科研統(tǒng)計(jì)分析中,很少看到在差異性分析基礎(chǔ)上,同時(shí)運(yùn)用關(guān)聯(lián)分析的情況,表明人們對(duì)此還缺乏正確的認(rèn)識(shí)。常用的關(guān)聯(lián)系數(shù)有:①兩獨(dú)立樣本的t檢驗(yàn)或方差分析,皆可用η系數(shù)做關(guān)聯(lián)性分析,;②結(jié)果變量為分類資料的關(guān)聯(lián)系數(shù);③分類資料中的四格表的列聯(lián)系數(shù);④結(jié)果變量為等級(jí)資料的關(guān)聯(lián)系數(shù)計(jì)算時(shí)根據(jù)秩和檢驗(yàn)的Z值、H值轉(zhuǎn)換為2χ值,再求取v系數(shù)。在兩變量的靜態(tài)數(shù)量關(guān)系分析中,關(guān)聯(lián)系數(shù)取值為[0,1],一般不考慮正負(fù)向。其值越接近于1,說(shuō)明變量之間關(guān)聯(lián)程度越高;其值越接近于0,說(shuō)明變量之間關(guān)聯(lián)程度越低。
因研究目的不同,關(guān)聯(lián)性分析可分為較多類別:例如定量變量間關(guān)聯(lián)性分析、定序或定類變量間關(guān)聯(lián)性分析;線性關(guān)聯(lián)性分析和非線性關(guān)聯(lián)性分析;靜態(tài)關(guān)聯(lián)性分析與動(dòng)態(tài)關(guān)聯(lián)性分析;雙變量關(guān)聯(lián)性分析與復(fù)關(guān)聯(lián)性分析;實(shí)值關(guān)聯(lián)性分析與灰色關(guān)聯(lián)性分析等。兩變量的“關(guān)聯(lián)性分析”包括線性相關(guān)、秩相關(guān)和分類變量的關(guān)聯(lián)性分析,前兩者屬于“相關(guān)性分析”。
“關(guān)聯(lián)性分析”的特征有:①概念寬泛(兩變量間相互或單向影響);②變量的措配形式多;③統(tǒng)計(jì)量的關(guān)聯(lián)系數(shù)無(wú)量綱;④多為靜態(tài)分析;⑤關(guān)聯(lián)不分正負(fù)向,統(tǒng)計(jì)量只表達(dá)關(guān)聯(lián)程度;⑥一般區(qū)分原因變量和結(jié)果變量;⑦原因變量不參與計(jì)算分析。醫(yī)學(xué)論文中常用的“關(guān)聯(lián)性分析”檢驗(yàn)方法有t檢驗(yàn)、方差齊性檢驗(yàn)、Z檢驗(yàn)、正態(tài)性檢驗(yàn)(W檢驗(yàn))、2χ檢驗(yàn)、方差分析、多重極差檢驗(yàn)(SNK法)、Dunnett法、Bonfferoni法、秩和檢驗(yàn)和疾病與暴露因素的關(guān)聯(lián)分析(相對(duì)危險(xiǎn)度(RR)、歸因危險(xiǎn)度(AR)、人群歸因危險(xiǎn)度(PAR)、優(yōu)勢(shì)比(OR))及Meta分析等。
從“相關(guān)性分析”和“關(guān)聯(lián)性分析”的概念和特征可見(jiàn)其主要區(qū)別有:①概念的寬泛程度不一,“相關(guān)性分析”的概念具體,“關(guān)聯(lián)性分析”的概念寬泛;②變量搭配形式不同,“相關(guān)性分析”的變量搭配形式相對(duì)較少,“關(guān)聯(lián)性分析”的變量搭配形式相對(duì)較多;③分析的動(dòng)靜態(tài)不同,“相關(guān)性分析”有靜態(tài)或動(dòng)態(tài)之分,“關(guān)聯(lián)性分析”多為靜態(tài)分析;④關(guān)聯(lián)的正負(fù)向之分,“相關(guān)性分析”有相關(guān)的正負(fù)向之分,“關(guān)聯(lián)性分析”不分正負(fù)向;⑤是否區(qū)分原因和結(jié)果變量,回歸分析區(qū)分原因和結(jié)果變量,其他相關(guān)分析不區(qū)分原因和結(jié)果變量,“關(guān)聯(lián)性分析”一般區(qū)分原因變量和結(jié)果變量;⑥兩個(gè)變量是否同時(shí)參與計(jì)算分析,“相關(guān)性分析”的兩個(gè)變量同時(shí)參與計(jì)算分析,而“關(guān)聯(lián)性分析”的原因變量不參與計(jì)算分析。
以“相關(guān)性分析”為主題詞,不限定年限檢索醫(yī)藥衛(wèi)生文獻(xiàn),一次可以檢索到上萬(wàn)條,但閱讀原文發(fā)現(xiàn):大部分論文中“相關(guān)性分析”方面的結(jié)果只是論文結(jié)果的一部分或一小部分內(nèi)容。如果論文結(jié)果中相關(guān)性分析結(jié)果僅是論文內(nèi)容的一部分,則論文的題名應(yīng)采用“關(guān)聯(lián)性分析”而非“相關(guān)性分析”,因?yàn)椤跋嚓P(guān)性分析”不能全面準(zhǔn)確地反映論文的主題思想和主要內(nèi)容,宜使用“關(guān)聯(lián)性分析”作為題目。如果論文的內(nèi)容只涉及“相關(guān)性分析”的內(nèi)容,而并無(wú)其他內(nèi)容,則論文題目可以使用“相關(guān)性分析”。因此筆者認(rèn)為:醫(yī)學(xué)論文題名中究竟采用“相關(guān)性分析”還是“關(guān)聯(lián)性分析”,要根據(jù)論文的具體內(nèi)容來(lái)決定。
例1 王蓓蓓等[5]關(guān)于《2型糖尿病患者TSH水平與頸動(dòng)脈粥樣硬化的相關(guān)性分析》一文報(bào)道了亞臨床甲狀腺功能減退與甲狀腺功能正常的2型糖尿病患者的一般資料、血壓、血脂、血糖等變化結(jié)果,TSH 分層后上述各指標(biāo)比較結(jié)果,血清TSH水平與頸動(dòng)脈粥樣硬化的相關(guān)性分析結(jié)果。
例1中相關(guān)性分析結(jié)果僅是論文內(nèi)容中的小部分結(jié)果。因此建議文章題目改為《2型糖尿病患者TSH水平與頸動(dòng)脈粥樣硬化的關(guān)聯(lián)性分析》比較合適。
例2 隨機(jī)抽取15名健康成人,測(cè)定血液的凝血酶濃度及凝固時(shí)間,據(jù)此數(shù)據(jù)如何判斷這兩項(xiàng)指標(biāo)間是否相關(guān)?[2]
受試者號(hào) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15凝血酶濃度/mL 1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.1 0.9 1.1 1.0 0.7凝血時(shí)間/s 14 13 15 15 13 14 16 17 14 16 15 16 14 15 17
例2可由數(shù)據(jù)計(jì)算出=216.7,帶入公式r=-0.926,可見(jiàn)兩變量呈負(fù)相關(guān)關(guān)系,且|r|接近1,說(shuō)明相關(guān)性非常高,凝血時(shí)間隨凝血酶濃度增高而縮短,這里使用的就是相關(guān)性分析,因此在論文的內(nèi)容和題目中應(yīng)該使用“相關(guān)性分析”而非“關(guān)聯(lián)性分析”。
例3 為觀察嬰兒腹瀉是否與喂養(yǎng)方式有關(guān),某醫(yī)院兒科隨機(jī)選取了消化不良的嬰兒82例,觀察其與喂養(yǎng)方式之間的關(guān)聯(lián)性[2]。
喂養(yǎng)方式 腹瀉 合計(jì)有 無(wú)人工 30 10 40母乳 17 25 42合計(jì) 47 35 82
綜上所述,“相關(guān)性分析”和“關(guān)聯(lián)性分析”的概念、特征、計(jì)算公式及其意義均不相同;其對(duì)資料的分布類型、變量間的關(guān)系類型和樣本量的要求也均不相同,“關(guān)聯(lián)性分析”對(duì)于資料的分布類型、變量間的關(guān)系類型的要求限制少于“相關(guān)性分析”,如秩和檢驗(yàn)屬于“關(guān)聯(lián)性分析”,其適用范圍較廣,適用總體分布類型未知或非正態(tài)分布的資料,其數(shù)據(jù)一端或二端為數(shù)據(jù)不明確的資料以及有序多分類資料(如等級(jí)資料等);該方法簡(jiǎn)便、易于理解和掌握。但是對(duì)于符合參數(shù)檢驗(yàn)條件的資料使用非參數(shù)檢驗(yàn)會(huì)降低檢驗(yàn)效率,因此對(duì)于原始數(shù)據(jù)應(yīng)該首先分析資料的類型和變量間的關(guān)系,對(duì)于符合參數(shù)檢驗(yàn)應(yīng)的首選參數(shù)檢驗(yàn),或經(jīng)變量變換后符合參數(shù)檢驗(yàn)的應(yīng)首先進(jìn)行變量的變換,若不能滿足參數(shù)檢驗(yàn)條件,則選用非參數(shù)檢驗(yàn)。而“相關(guān)性分析” 對(duì)于資料的分布類型、變量間的關(guān)系類型的要求限制較多,如直線相關(guān)分析要求直線相關(guān)分析中要求兩變量均符合正態(tài)分布,在兩變量線性數(shù)量變化關(guān)系髙度密切時(shí),可采用線性回歸分析模型擬合這種變化規(guī)律。由此可見(jiàn)線性回歸分析是兩變量撞勢(shì)性的研究方法之一,該分析的模型參數(shù)估計(jì)值共有2種量綱:一為截距量綱,同應(yīng)變量(結(jié)果變量);二為自變量系數(shù)(回歸系數(shù)或偏回歸系數(shù))量綱,為比例量綱(分母為自變量單位量綱,分子為應(yīng)變量量綱)。由于“相關(guān)性分析”要求資料應(yīng)符合正態(tài)分布,因此對(duì)樣本量的要求較“相關(guān)性分析”更嚴(yán)格。因此在醫(yī)學(xué)論文的題目和內(nèi)容中應(yīng)注意區(qū)別使用“相關(guān)性分析”和“關(guān)聯(lián)性分析”。
[1]蔡智澄,何立民.相關(guān)性分析原理在圖書(shū)情報(bào)分析中的應(yīng)用[J].現(xiàn)代情報(bào),2006(5):151-152,156.
[2]方積乾.衛(wèi)生統(tǒng)計(jì)學(xué)[M].5版.北京:人民衛(wèi)生出版社,2005:206-220.
[3]杜秀杰,趙大良,葛趙青,等.學(xué)術(shù)論文的下載頻率與被引頻率的相關(guān)性分析[J].編輯學(xué)報(bào),2009,21(6):551-553.
[4]李柏松.關(guān)聯(lián)性分析在醫(yī)學(xué)科研中的應(yīng)用與價(jià)值[D].重慶:重慶醫(yī)科大學(xué),2015.
[5]王蓓蓓,陳新焰,張杉杉,等.2型糖尿病患者TSH 水平與頸動(dòng)脈粥樣硬化的相關(guān)性分析[J].中國(guó)生化藥物雜志,2014,34(8):120-123.