国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

如何正確運(yùn)用t檢驗(yàn)——線性回歸模型中參數(shù)與0比較t檢驗(yàn)及SAS實(shí)現(xiàn)

2020-09-09 02:38黃慧杰劉媛媛李長平胡良平
四川精神衛(wèi)生 2020年4期
關(guān)鍵詞:回歸方程斜率線性

黃慧杰 ,劉媛媛 *,李長平 ,2,胡良平

(1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,天津 300070;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029;3.軍事科學(xué)院研究生院,北京 100850*通信作者:劉媛媛,E-mail:ivyuan10@126.com)

回歸分析是醫(yī)學(xué)研究中常用的分析方法,其中,線性回歸分析是最常用、最簡單的一種。線性回歸分析是通過建立因變量隨單個或多個自變量按線性關(guān)系變化的方程式并檢驗(yàn)整個方程式和參數(shù)是否具有統(tǒng)計學(xué)意義。嚴(yán)格地說,線性回歸分析的自變量應(yīng)該是定量的,但在實(shí)際應(yīng)用中,自變量的范圍被拓展了,包括二分類變量、進(jìn)行啞變量變換后的多分類變量及多值有序變量,而因變量必須是定量變量。含單個因變量和單個自變量的線性回歸模型被稱為簡單線性回歸模型;含單個因變量和多個自變量的線性回歸模型被稱為多重線性回歸模型[1]。在線性回歸分析中,需要對整個回歸模型和模型中的各參數(shù)進(jìn)行假設(shè)檢驗(yàn),對回歸模型整體檢驗(yàn)采用的是方差分析;對參數(shù)檢驗(yàn)采用的是t檢驗(yàn)。本文著重探討t檢驗(yàn)對簡單線性回歸模型和多重線性回歸模型的參數(shù)與0之間差異進(jìn)行假設(shè)檢驗(yàn)的原理與應(yīng)用。

1 基本概念

1.1 參數(shù)和統(tǒng)計量

參數(shù)是用來描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某些特征值。依據(jù)經(jīng)典統(tǒng)計學(xué)的觀點(diǎn),由于總體數(shù)據(jù)通常是未知的,所以參數(shù)是一個未知的常數(shù)[2]。設(shè)x1,x2,…,xn為取自某總體的樣本,若樣本函數(shù)T(x1,x2,…,xn)中不含有任何未知參數(shù),則稱T為樣本統(tǒng)計量[3]。由于樣本是已經(jīng)抽取出來的,所以樣本統(tǒng)計量是已知的,抽樣的目的就是用樣本統(tǒng)計量去估計總體參數(shù)。也就是說,一旦選定了一個參數(shù),就必然有一個統(tǒng)計量與之對應(yīng)。

常用一元一重線性回歸模型為:

上式中,β0是直線在y軸上的截距,β1是直線的斜率,而ε是y軸方向上的隨機(jī)誤差。一般假定:ε服從均值為0、方差為σ2的正態(tài)分布。由于β0和β1是未知參數(shù),一般采用最小二乘法對β0和β1進(jìn)行估計。β0的估計值為的估計值為:

β0和β1都叫做參數(shù),而就是兩個參數(shù)的估計值,都叫做樣本統(tǒng)計量。在多重線性回歸分析中也具有類似的參數(shù)和樣本統(tǒng)計量,只是被稱為“斜率”的參數(shù)和樣本統(tǒng)計量的數(shù)目≥2。

具有k個自變量的多重線性回歸模型可表示如下:

上式中,β0,β1,β2,…,βk均是多重線性回歸模型的參數(shù),ε是y軸方向上的隨機(jī)誤差。一般假定:ε服從均值為0、方差為σ2的正態(tài)分布。同樣也采用最小二乘法來估計多重線性回歸模型中的各個參數(shù)。對于n組數(shù)據(jù),可得到以下由多重線性回歸模型中參數(shù)的估計值組成的向量:

上式中,XT是X(被稱為設(shè)計矩陣)的轉(zhuǎn)置矩陣,都是列向量。

1.2 簡單線性回歸模型中截距與0之間差異的t檢驗(yàn)

在簡單線性回歸分析中對截距進(jìn)行假設(shè)檢驗(yàn)的原假設(shè)和備擇假設(shè)分別為:

通過轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布可得:

根據(jù)以上公式可得如下檢驗(yàn)統(tǒng)計量:

當(dāng)原假設(shè)為真,即β0=0時,服從自由度為n-2的t分布。當(dāng)|t0|>t0.025(n-2)或t0對應(yīng)的P值小于0.05時,可認(rèn)為β0與0之間差異有統(tǒng)計學(xué)意義。

1.3 簡單線性回歸模型中斜率與0之間差異的t檢驗(yàn)

在簡單線性回歸分析中對斜率進(jìn)行假設(shè)檢驗(yàn)的原假設(shè)和備擇假設(shè)分別為:

轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布得:

由此可得檢驗(yàn)統(tǒng)計量:

當(dāng)原假設(shè)為真時,即β1=0 時,有服從自由度為n-2的t分布。當(dāng)|t1|>t0.025(n-2)或者t1對應(yīng)的P值小于0.05時,可認(rèn)為β1與0之間的差異有統(tǒng)計學(xué)意義。

1.4 多重線性回歸模型中參數(shù)與0之間差異的t檢驗(yàn)

在多重線性回歸模型中對參數(shù)βj(0≤j≤k)進(jìn)行假設(shè)檢驗(yàn)的原假設(shè)和備擇假設(shè)分別為:

多重線性回歸模型中的參數(shù)βj的檢驗(yàn)統(tǒng)計量tj服從自由度為n-k-1的t分布[4]:

上式中,Cjj是k階矩陣(XTX)-1中第j行第j列位置上的元素。

當(dāng)原假設(shè)為真時,即βj=0時,有服從自由度為n-k-1的t分布。當(dāng)|tj|>t0.025(n-k-1)或者tj對應(yīng)的P值小于0.05時,可認(rèn)為βj與0之間的差異有統(tǒng)計學(xué)意義。

2 簡單線性回歸模型中參數(shù)與0之間差異t檢驗(yàn)的實(shí)例

2.1 簡單線性回歸分析的數(shù)據(jù)結(jié)構(gòu)

【例1】研究20名兒童血紅蛋白(y)與血鐵(x)之間的關(guān)系[5]。數(shù)據(jù)見表1。

表1 20名兒童血紅蛋白(y)與血鐵(x)的測定資料

通過t檢驗(yàn)來判斷簡單線性回歸模型中的截距(β0)和斜率(β1)與0之間差異是否有統(tǒng)計學(xué)意義,若斜率與0之間差異有統(tǒng)計學(xué)意義,則說明血紅蛋白與血鐵之間存在著線性依賴關(guān)系,即血紅蛋白會隨著血鐵的變化呈線性變化趨勢。

2.2 構(gòu)建與求解簡單線性回歸模型的SAS程序

根據(jù)例1中數(shù)據(jù)進(jìn)行簡單線性回歸分析,并對回歸方程的截距和斜率進(jìn)行t檢驗(yàn)。

SAS程序如下:

【程序說明】以上SAS程序由1個數(shù)據(jù)步和3個過程步構(gòu)成。數(shù)據(jù)步建立例1中的數(shù)據(jù)集test1,輸入20例兒童的血鐵(x)和血紅蛋白(y)數(shù)據(jù)。第一個過程步調(diào)用REG過程,建立簡單線性回歸方程,并對總體和參數(shù)進(jìn)行檢驗(yàn)。第二個過程步也調(diào)用REG過程,但通過noint語句刪除了方程的截距項(xiàng),是對第一個過程步的調(diào)整。第三個過程步調(diào)用SGPLOT過程,通過scatter語句繪制散點(diǎn)圖,通過reg語句繪制回歸直線。

2.3 簡單線性回歸分析中與t檢驗(yàn)有關(guān)的結(jié)果

【SAS主要輸出結(jié)果及解釋】

以上是例1中數(shù)據(jù)的簡單線性回歸模型參數(shù)檢驗(yàn)的結(jié)果,采用t檢驗(yàn)。例1共20例數(shù)據(jù),所以截距β0的檢驗(yàn)統(tǒng)計量t0和斜率β1的檢驗(yàn)統(tǒng)計量t1均服從自由度為18的t分布。β0的最小二乘估計值=-2.06406,的標(biāo)準(zhǔn)誤差,β0的檢驗(yàn)統(tǒng)計量t0=-1.63,t0對應(yīng)的P值為0.1196,所以截距β0與0之間差異無統(tǒng)計學(xué)意義。β1的最小二乘估計值,的標(biāo)準(zhǔn)誤差,β1的檢驗(yàn)統(tǒng)計量t1=9.9,t1對應(yīng)的P值小于0.0001,故斜率β1與0之間差異有統(tǒng)計學(xué)意義。由于截距β0與0之間差異無統(tǒng)計學(xué)意義,所以回歸方程的截距項(xiàng)β0為0,從而應(yīng)重新擬合下面的回歸方程:

【SAS主要輸出結(jié)果及解釋】

以上是根據(jù)調(diào)整后的過程步可以得到的簡單線性回歸參數(shù)檢驗(yàn)的結(jié)果(刪除截距項(xiàng)),t1=47.68,P<0.0001,所以斜率β1與0之間差異有統(tǒng)計學(xué)意義,故由例1中數(shù)據(jù)得到的線性回歸方程為y^=0.02626x。圖1是用該數(shù)據(jù)生成的散點(diǎn)圖以及根據(jù)回歸方程擬合的回歸直線。

圖1 (x,y)散點(diǎn)圖及擬合的回歸直線

3 多重線性回歸模型的參數(shù)與0之間差異t檢驗(yàn)的實(shí)例

3.1 多重線性回歸分析的數(shù)據(jù)結(jié)構(gòu)

【例2】研究26例糖尿病患者的血清總膽固醇(x1)、甘油三酯(x2)、空腹胰島素(x3)、糖化血紅蛋白(x4)與空腹血糖(y)之間的關(guān)系[6]。數(shù)據(jù)見表2。

表2 26例糖尿病患者血樣中相關(guān)指標(biāo)測定結(jié)果

通過t檢驗(yàn)來判斷多重線性回歸模型中的總體截距和各個自變量對應(yīng)的系數(shù)與0比較是否存在統(tǒng)計學(xué)差異,從而判斷各個自變量是否有意義。本研究中,將空腹血糖設(shè)為因變量,將血清總膽固醇、甘油三酯、空腹胰島素和糖化血紅蛋白設(shè)為自變量。

3.2 構(gòu)建與求解多重線性回歸模型的SAS程序

根據(jù)例2的數(shù)據(jù)進(jìn)行多重線性回歸分析,并對回歸方程的各參數(shù)進(jìn)行t檢驗(yàn)。

SAS程序如下:

【程序說明】以上SAS程序由3步構(gòu)成(實(shí)際使用只需要第1步和第3步),包含1個數(shù)據(jù)步和2個過程步。數(shù)據(jù)步建立例2中的數(shù)據(jù)集test2,輸入26例糖尿病患者血清總膽固醇(x1)、甘油三酯(x2)、空腹胰島素(x3)、糖化血紅蛋白(x4)和空腹血糖(y)的數(shù)據(jù)。第一個過程步調(diào)用REG過程,但本過程沒有采用變量篩選,因此即使某個變量不具有統(tǒng)計學(xué)意義也會被納入多重線性回歸模型。第二個過程步也調(diào)用了REG過程對回歸方程進(jìn)行總體檢驗(yàn)和參數(shù)檢驗(yàn),但為了避免多重共線性,該過程步采用逐步回歸法(stepwise)進(jìn)行變量篩選,只有具有統(tǒng)計學(xué)意義的變量會被納入多重線性回歸模型。

3.3 多重線性回歸分析中與t檢驗(yàn)有關(guān)的結(jié)果

【SAS主要輸出結(jié)果及解釋】

以上是例2中數(shù)據(jù)進(jìn)行多重線性回歸分析的參數(shù)檢驗(yàn)的結(jié)果(采用變量篩選),采用的是t檢驗(yàn)。例2包括26例數(shù)據(jù),經(jīng)變量篩選后只留下3個自變量,故βj的檢驗(yàn)統(tǒng)計量tj均服從自由度為22的t分布。自變量血清總膽固醇(x1)在變量篩選過程中被剔除??傮w截距β0對應(yīng)的檢驗(yàn)統(tǒng)計量t0=2.29,P=0.0322,說明β0與0之間差異有統(tǒng)計學(xué)意義;甘油三酯(x2)的系數(shù)β2對應(yīng)的檢驗(yàn)統(tǒng)計量t2=3.26,P=0.0036,說明β2與0之間差異有統(tǒng)計學(xué)意義;空腹胰島素(x3)的系數(shù)β3對應(yīng)的檢驗(yàn)統(tǒng)計量t3=-3.09,P=0.0054,說明β3與0之間差異有統(tǒng)計學(xué)意義;糖化血紅蛋白(x4)的系數(shù)β4對應(yīng)的檢驗(yàn)統(tǒng)計量t4=3.94,P=0.0007,說明β4與0之間差異有統(tǒng)計學(xué)意義??傮w截距和三個自變量的回歸系數(shù)與0之間差異都有統(tǒng)計學(xué)意義,多重線性回歸方程如下:

4 討論與小結(jié)

4.1 討論

常規(guī)t檢驗(yàn)(定量資料均值比較)在SAS中是用TTEST過程步實(shí)現(xiàn)。而本文是通過SAS中的REG過程對簡單線性回歸模型和多重線性回歸模型中參數(shù)與0之間的差異進(jìn)行t檢驗(yàn)。若自變量的回歸系數(shù)與0之間差異無統(tǒng)計學(xué)意義,則說明該自變量對因變量的影響可忽略不計;反之,則說明該自變量對因變量的影響有統(tǒng)計學(xué)意義。此外,還需對截距項(xiàng)與0之間的差異進(jìn)行t檢驗(yàn),若檢驗(yàn)結(jié)果為差異無統(tǒng)計學(xué)意義,則構(gòu)建的回歸方程中截距項(xiàng)為0。進(jìn)行線性回歸分析時應(yīng)注意:①數(shù)據(jù)應(yīng)滿足使用線性回歸分析的前提條件;②與0之間差異無統(tǒng)計學(xué)意義的參數(shù)可以在SAS程序中使用相應(yīng)的語句進(jìn)行調(diào)整,使其不出現(xiàn)在最終構(gòu)建的線性回歸方程中。

4.2 小結(jié)

綜上所述,線性回歸模型中參數(shù)與0比較t檢驗(yàn)與常規(guī)t檢驗(yàn)在SAS實(shí)現(xiàn)上雖有差異,但檢驗(yàn)的原理是相同的,都是根據(jù)樣本數(shù)據(jù)建立相應(yīng)服從t分布的檢驗(yàn)統(tǒng)計量,并對檢驗(yàn)統(tǒng)計量進(jìn)行檢驗(yàn)。

猜你喜歡
回歸方程斜率線性
二階整線性遞歸數(shù)列的性質(zhì)及應(yīng)用
采用直線回歸方程預(yù)測桑癭蚊防治適期
線性回歸方程的求解與應(yīng)用
線性回歸方程要點(diǎn)導(dǎo)學(xué)
巧甩直線斜率公式解數(shù)學(xué)題
非齊次線性微分方程的常數(shù)變易法
線性回歸方程知識點(diǎn)剖析
求斜率型分式的取值范圍
導(dǎo)數(shù)幾何意義的深層次應(yīng)用
2011年高考山東卷.理22(Ⅰ)別解
白山市| 刚察县| 阜阳市| 岢岚县| 江津市| 沁水县| 栾川县| 长治市| 鄄城县| 佛冈县| 新竹县| 阿克陶县| 平山县| 彰武县| 宜都市| 荣成市| 获嘉县| 丹阳市| 家居| 旅游| 锡林浩特市| 临清市| 宁远县| 通许县| 达拉特旗| 靖州| 康定县| 望江县| 温泉县| 应城市| 镇远县| 麻阳| 根河市| 新野县| 万州区| 仪陇县| 敦煌市| 石家庄市| 香河县| 锡林浩特市| 普陀区|