王瑞平 李斌
摘 要 本文基于臨床醫(yī)學(xué)研究數(shù)據(jù)分類,簡要介紹臨床研究數(shù)據(jù)的統(tǒng)計(jì)分析思路,主要包括統(tǒng)計(jì)學(xué)描述和統(tǒng)計(jì)學(xué)推斷兩個(gè)部分,為醫(yī)務(wù)人員規(guī)范開展臨床研究數(shù)據(jù)的統(tǒng)計(jì)分析提供參考。
關(guān)鍵詞 臨床研究 統(tǒng)計(jì)分析 定量變量 定性變量
中圖分類號:C81 文獻(xiàn)標(biāo)志碼:C 文章編號:1006-1533(2022)01-0007-03
基金項(xiàng)目:國家重點(diǎn)研發(fā)計(jì)劃“中醫(yī)藥現(xiàn)代化研究”重點(diǎn)專項(xiàng)項(xiàng)目(2018YFC1705301);國家自然科學(xué)基金面上項(xiàng)目(82174383);上海申康醫(yī)院發(fā)展中心管理研究項(xiàng)目(2020SKMR-32);上海市皮膚病醫(yī)院引進(jìn)人才科研基金項(xiàng)目(2021KYQD01)
Outline of the data analysis in clinical research
WANG Ruiping, LI Bin
(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)
ABSTRACT Based on the classification of clinical medical research data, this paper briefly introduces the idea of statistical analysis of clinical research data, mainly including two parts: statistical description and statistical inference, so as to provide a reference for medical staff to standardize the statistical analysis of clinical research.
KEy wORDS clinical research; statistical analysis; quantitative variable; qualitative variable
臨床醫(yī)學(xué)研究數(shù)據(jù)統(tǒng)計(jì)分析主要包括統(tǒng)計(jì)學(xué)描述和統(tǒng)計(jì)學(xué)推斷兩個(gè)部分[1-4]。如圖1所示,統(tǒng)計(jì)學(xué)描述是應(yīng)用統(tǒng)計(jì)參數(shù)和指標(biāo)對變量數(shù)據(jù)進(jìn)行合理描述和展示的過程,包括對定量變量數(shù)據(jù)的描述和定性變量數(shù)據(jù)的描述;統(tǒng)計(jì)學(xué)推斷則是通過抽樣來估計(jì)總體參數(shù)情況,應(yīng)用“反證法”和“小概率事件”原理,由樣本信息對相應(yīng)總體特征進(jìn)行推斷的過程,包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩個(gè)部分。
1 臨床研究數(shù)據(jù)的統(tǒng)計(jì)學(xué)描述
在進(jìn)行臨床研究數(shù)據(jù)統(tǒng)計(jì)分析時(shí),首先應(yīng)對研究對象的一般資料(人口學(xué)資料、基礎(chǔ)疾病、過敏史等)進(jìn)行分析描述,闡明研究對象的一般人口學(xué)特征構(gòu)成情況,評價(jià)研究對象在不同試驗(yàn)組別中的分布情況等。對于定量變量,描述性統(tǒng)計(jì)分析的主要任務(wù)是描述其集中趨勢和離散趨勢,其中用于描述定量變量集中趨勢的指標(biāo)包括均數(shù)、中位數(shù)和眾數(shù),用于描述定量變量離散趨勢的指標(biāo)包括標(biāo)準(zhǔn)差、方差、全距、四分位數(shù)間距和變異系數(shù)。對于這些描述定量變量集中趨勢和離散趨勢的指標(biāo),臨床研究數(shù)據(jù)統(tǒng)計(jì)分析時(shí)如何正確選擇合適的指標(biāo)來進(jìn)行統(tǒng)計(jì)學(xué)描述,需要考慮數(shù)據(jù)的分布特征。對于符合正態(tài)分布或近似正態(tài)分布的定量變量,應(yīng)選擇均數(shù)和標(biāo)準(zhǔn)差來進(jìn)行描述;對于不符合正態(tài)分布的定量變量,通常選擇中位數(shù)和四分位數(shù)間距來進(jìn)行描述。
舉例來說,如圖2所示,數(shù)據(jù)集A包含20個(gè)數(shù)據(jù),其中“1”有7個(gè),“2”有6個(gè),繪制直方圖(11a)后見呈偏態(tài)分布;數(shù)據(jù)集B也包含20個(gè)數(shù)據(jù),其中“4”有3個(gè),“5”有4個(gè),“6”有3個(gè),繪制直方圖(11b)后見呈正態(tài)分布。在實(shí)際進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析時(shí),一般可使用SPSS軟件中“analysis→descriptive statistics→explore→plot”里的正態(tài)性檢驗(yàn)來判定數(shù)據(jù)是否符合正態(tài)分布(K-S值,P>0.05表示為正態(tài)分布)。
對于數(shù)據(jù)集A和數(shù)據(jù)集B,它們的集中趨勢和離散趨勢指標(biāo)計(jì)算如下。
鑒于數(shù)據(jù)集A中的數(shù)據(jù)呈偏態(tài)分布,應(yīng)選擇中位數(shù)(2)來描述其集中趨勢,選擇四分位數(shù)間距(1.00, 4.75)來描述其離散趨勢;而數(shù)據(jù)集B中的數(shù)據(jù)呈正態(tài)分布,應(yīng)選擇均數(shù)(5.15)來描述其集中趨勢,選擇標(biāo)準(zhǔn)差(2.06)來描述其離散趨勢。
對于定性變量,可常規(guī)選擇構(gòu)成比、百分比、比值和率來進(jìn)行統(tǒng)計(jì)學(xué)描述。在圖3所示表1中,BMI(體質(zhì)量指數(shù))和文化程度為構(gòu)成比,性別(男/女)為比值。流行病學(xué)調(diào)查研究中還常會(huì)用到發(fā)病率、患病率、罹患率、死亡率、病死率和生存率等[1]。
2 臨床研究數(shù)據(jù)的統(tǒng)計(jì)學(xué)推斷
假設(shè)檢驗(yàn)是臨床研究數(shù)據(jù)統(tǒng)計(jì)分析的核心,其基本思想是綜合應(yīng)用“反證法”和“小概率事件”原理,由樣本信息對相應(yīng)總體的特征進(jìn)行推斷,這部分內(nèi)容在臨床研究報(bào)告撰寫中占有較大的比重。變量類別不同,假設(shè)檢驗(yàn)的方法也不同。定量變量如符合正態(tài)分布且方差齊,兩組之間的比較采用t檢驗(yàn),多組之間的比較采用方差分析;如符合正態(tài)分布但方差不齊,兩組之間的比較采用校正的t檢驗(yàn),多組之間的比較則先進(jìn)行數(shù)據(jù)轉(zhuǎn)換(對數(shù)變換、平方根變換、平方根反正弦變換等),而后再采用方差分析。對于兩個(gè)變量之間關(guān)系的探索,可以進(jìn)行Pearson相關(guān)性分析和線性回歸分析。定量變量如不符合正態(tài)分布,常規(guī)選擇非參數(shù)檢驗(yàn)分析組間的差異,使用Spearman相關(guān)性分析和非線性回歸分析探討兩個(gè)變量之間的關(guān)系。
對于定性變量,可選擇卡方檢驗(yàn)、趨勢卡方檢驗(yàn)、ridit檢驗(yàn)進(jìn)行單因素分析,探討兩組或多組之間的差異;可使用logistic回歸分析進(jìn)行多因素分析,探索研究變量的獨(dú)立危險(xiǎn)因素。
參考文獻(xiàn)
[1] 方積乾. 衛(wèi)生統(tǒng)計(jì)學(xué)[M]. 6版. 北京: 人民衛(wèi)生出版社, 2008.
[2] 李立明. 流行病學(xué)[M]. 5版. 北京: 人民衛(wèi)生出版社, 2003.
[3] 孫振球, 徐勇勇. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M]. 4版. 北京: 人民衛(wèi)生出版社, 2014.
[4] 鄧偉, 賀佳. 臨床試驗(yàn)設(shè)計(jì)與統(tǒng)計(jì)分析[M]. 北京: 人民衛(wèi)生出版社, 2012.