国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

協(xié)方差、相關(guān)系數(shù)、 回歸系數(shù)的內(nèi)在關(guān)系探討

2022-05-30 09:30曹昭
中國集體經(jīng)濟 2022年25期
關(guān)鍵詞:相關(guān)系數(shù)回歸系數(shù)協(xié)方差

曹昭

摘要:協(xié)方差、相關(guān)系數(shù)和回歸系數(shù)是衡量兩個定距變量之間相關(guān)方向和程度的三個不同指標。盡管這三個指標有著不同的含義和計算方法,但是它們之間有著極為嚴密的邏輯關(guān)系。闡釋這種邏輯關(guān)系具有非常重要的理論和現(xiàn)實意義。

關(guān)鍵詞:協(xié)方差;相關(guān)系數(shù);回歸系數(shù)

變量之間的相關(guān)關(guān)系,特別是定距變量之間的相關(guān)關(guān)系是社會科學的重要研究內(nèi)容之一。在社會學研究中,我們一般用三個數(shù)量指標來衡量兩個定距變量之間的相關(guān)程度。這三個指標分別是:協(xié)方差、相關(guān)系數(shù)和回歸系數(shù)。雖然這三個指標的計算方法和具體含義有著明顯的區(qū)別。但是,經(jīng)過仔細分析,會發(fā)現(xiàn)它們之間有著邏輯上的內(nèi)在統(tǒng)一性。對協(xié)方差、相關(guān)系數(shù)與回歸系數(shù)的計算方法、數(shù)學含義進行分別闡釋的基礎(chǔ)上,揭示出三者之間的內(nèi)在邏輯關(guān)系,對大部分統(tǒng)計學的初學者而言,具有非常重要的理論和現(xiàn)實意義。在本文接下來的內(nèi)容中,將分別對協(xié)方差、相關(guān)系數(shù)、回歸系數(shù)的計算方法、數(shù)學含義做出說明并進一步揭示三者之間的內(nèi)在聯(lián)系。

一、協(xié)方差的計算方法和數(shù)學含義

在日常的工作和生活中,會經(jīng)常面對兩個定距變量是否相關(guān)的問題:比如人的身高與體重、人的受教育年限和工資收入、某一商品的定價與銷售量之間是否存在一定的相關(guān)性呢?為了驗證或判斷兩個定距變量之間的相關(guān)程度,常用的方法就是繪制“散點圖”。要想繪制兩個變量的散點圖,首先要做的工作就是收集和整理兩個變量不同觀測值的原始數(shù)據(jù)。比方說,要探索人的體重與身高兩個變量的相關(guān)程度,首先必須收集這兩個變量不同觀測值的原始數(shù)據(jù)。為了研究的方便,可以把人的體重作為因變量Y,把人的身高作為自變量X。假定已經(jīng)獲得了因變量Y(人的體重)和自變量X(人的身高)的n組觀測值,如表1所示。我們來具體討論散點圖的繪制和協(xié)方差的計算方法,然后說明它們蘊涵的數(shù)學思想。

根據(jù)上面表格提供的數(shù)據(jù),可以把上面的每一對觀測值(xi,yi)作為不同的點在直角坐標系中表示出來。當然,這一直角坐標系的縱軸表示體重,橫軸表示身高。這樣,就得到了能大致揭示人的身高和體重兩個變量之間相關(guān)程度的散點圖。令人遺憾的是,通過散點圖我們只能對兩個變量是否存在線性相關(guān)關(guān)系做出模糊的判斷。要想進一步了解兩個變量的相關(guān)程度,還需要對搜集的數(shù)據(jù)進行進一步的處理和加工。一般說來,通過計算兩個定距變量的協(xié)方差,能夠使人對它們變化方向的一致與否做出較為明確的判斷。接下來,我們就對協(xié)方差的計算方法及其數(shù)學含義進行簡單的分析和說明。

就上面的例子來說,我們可以在因變量Y(體重)和自變量X(身高)的散點圖上,通過點( , )分別作平行于縱軸和橫軸的兩條直線。(其中 =∑x /n,? =∑y /n)那么,這兩條支線就把原來的散點圖劃分為四個象限。

此時,如果原來散點圖中的點落在一、三象限部分的數(shù)量超過落在二、四象限部分的數(shù)量,就意味著自變量X和因變量Y具有正的線性相關(guān)關(guān)系。這表明,當自變量X的取值高于其自身的平均值 時,因變量Y的取值也大多數(shù)高于其自身的平均值 ,當自變量X的取值低于其自身的平均值? 時,因變量Y的取值也大多數(shù)低于其自身的平均值 。因此,兩個變量X、Y總的來說具有大致一致的變化方向,即因變量Y隨著自變量X的增加而增加;反之,如果原來散點圖中的點落在二、四象限部分的數(shù)量超過落在一、三象限部分的數(shù)量,就意味著自變量X和因變量Y具有負的線性相關(guān)關(guān)系。這表明,當自變量X的取值低于其自身的平均值? 時,因變量Y的取值卻大多數(shù)高于其自身的平均值 ,當自變量X的取值高于其自身的平均值? ?時,因變量Y的取值卻大多數(shù)低于其自身的平均值 。因此,兩個變量X、Y總的來說具有大致相反的變化方向,即因變量Y隨著自變量X的增加而減少。當然,如果原來散點圖中的點均勻分布在四個象限內(nèi),則說明自變量X和因變量Y沒有線性關(guān)系。

以上的分析,只是從直觀上對兩個定距變量是否相關(guān)的判斷方法,為了對兩個定距變量的相關(guān)性進行更充分的分析和說明,人們提出了“協(xié)方差”這一概念指標。協(xié)方差指標所蘊含的數(shù)學思想是:如果散點圖中的點分布在一、三象限內(nèi),那么(xi- )與(yi- )必然是同號的,要么同時為正,要么同時為負,兩者的積(xi- )(yi- )一定是正數(shù);反之,如果散點圖中的點分布在二、四象限內(nèi),那么(xi- )與(yi- )必然是異號的,兩者的積(xi- )(yi- )一定是負數(shù)。因此,我們可以把n個(xi- )(yi- )的值加起來求平均數(shù),如果平均數(shù)大于零,說明散點圖中的點大多數(shù)在一、三象限,此時,兩個定距變量具有正的線性相關(guān)關(guān)系;如果平均數(shù)小于零,說明散點圖中的點大多數(shù)在二、四象限,此時,兩個定距變量具有負的線性相關(guān)關(guān)系。(xi- ),(yi- )以及(xi- )(yi- )的取值情況可以用表2表示。

根據(jù)上面的說明,協(xié)方差的計算公式可以表示為:

Cov(Y,X)=∑(xi- )(yi- )/n,根據(jù)它的符號我們能夠大致判斷兩個定距變量的相關(guān)方向。但是,由于協(xié)方差的大小會隨著自變量與因變量取值單位的變化而變化,它不能精確反應兩個定距變量的相關(guān)程度。就上面我們所舉事例來說,如果我們要計算體重和身高兩個變量的協(xié)方差,在體重以“千克”為單位、身高以“厘米”為單位的情況下與體重以“千克”為單位,身高以“毫米”為單位的情況相比較,協(xié)方差會擴大近10倍。為了克服協(xié)方差這一指標,受變量取值單位影響的弊端,統(tǒng)計學上通常用“相關(guān)系數(shù)”這一指標來衡量兩個定距變量的相關(guān)程度。接下來,我們就對相關(guān)系數(shù)的計算方法和數(shù)學思想進行簡單的分析、說明。

二、相關(guān)系數(shù)的計算方法和數(shù)學含義

為了克服協(xié)方差受兩個變量取值單位影響的弊端,可以把數(shù)據(jù)(xi- )和(yi- )進行“標準化”處理。具體的方法是把每一個(xi- )和(yi- )都分別除以其自身的標準差。這樣,兩個變量的每次變化都擺脫了取值單位的影響。因為無論兩個自變量的計量以何種單位為標準,其自身的標準差也必然以同樣的單位為計量標準。為了說明相關(guān)系數(shù)的計算方法,我們先把(xi- )與(yi- )的取值標準化,并把兩者以及它們的積,用表3列示出來。

在表3中,我們可以把第二列的每一行看作是:以標準差為單位,自變量X每次變化的數(shù)量。在n取值較大的情況下,我們可以假定,總的說來,在n個觀測值的情況下,自變量X的變化總共為n個標準差(這就是第二列的最后一行為n的原因)。同理,上表第四列的每一行則可以看作,以標準差為單位,由于自變量X的每次變化,所帶來的因變量Y的變化量。在以各自標準差為單位的情況下,如果我們計算由于自變量X的變化,所帶來的因變量Y的變化的加權(quán)平均數(shù),所得到的結(jié)果就是相關(guān)系數(shù)。其表達式為:

R=∑(xi- )(yi- )/nSxSy,相關(guān)系數(shù)R的數(shù)學含義為:平均來說,自變量X每變化其自身的一個標準差,所導致因變量Y變化其自身標準差的數(shù)量。就上面我們所舉的例子來說,如果我們根據(jù)收集的觀測數(shù)據(jù)計算出體重和身高兩個定距變量的相關(guān)系數(shù)R為0.75,就表示,平均來講,如果人的身高每增加或減少其自身的1個標準差,那么人的體重就相應變化其自身的0.75個標準差。

與協(xié)方差相比,相關(guān)系數(shù)這一指標有效克服了兩個定距變量的取值單位對相關(guān)關(guān)系計算的影響,能夠有效衡量兩個定距變量之間的相關(guān)方向和相關(guān)程度,是統(tǒng)計學中較為常用而有效的指標之一。需要注意的是,相關(guān)系數(shù)的取值范圍必然在-1和1之間。當相關(guān)系數(shù)為零時,并不表示兩個變量不相關(guān),而只是說明這兩個變量之間沒有線性相關(guān)性。

通過計算相關(guān)系數(shù),能夠?qū)蓚€定距變量的相關(guān)程度進行一般把握。但是,在實際的社會調(diào)查研究就中,我們對兩個定距變量關(guān)系的探討往往是在特定的取值單位下進行的,需要明確,某一變量一定單位的變化,所可能導致的另一個變量的具體變化情況。具體來說,如果要探索體重和身高的相關(guān)關(guān)系,我們往往想知道的是,平均來講,人的身高每增加或減少1厘米,體重的變化相應是多少千克。在這種情況下,需要計算的是回歸系數(shù),而不是相關(guān)系數(shù)。在接下來的內(nèi)容中,我們進一步對回歸系數(shù)的計算方法和數(shù)學含義進行說明。

三、回歸系數(shù)的計算方法和數(shù)學含義

由上文對相關(guān)系數(shù)的分析得知,如果兩個定距變量的相關(guān)系數(shù)為R,就意味著平均起來,每當自變量變化其自身的1個標準差,因變量就相應變化其自身的R個標準差。也就是說,如果以各自的標準差為單位,因變量與自變量變化量的比值為R/1。假如現(xiàn)在我們面臨的問題是,在自變量與因變量都有特定取值單位的條件下,自變量每發(fā)生1個取值單位的變化,因變量發(fā)生的變化是多少。此時,我們只要對相關(guān)系數(shù)進行適當?shù)霓D(zhuǎn)換,就可得出答案。

因為,在以各自的標準差為單位的情況下,因變量與自變量變化量的比值為R/1,那么在自變量和因變量都有特定取值單位的條件下,因變量與自變量變化值的比例可以寫為:RSy/SX,這一比值的大小就是回歸系數(shù)B,把相關(guān)系數(shù)R=∑(xi- )(yi- )/nSxSy代入,可得回歸系數(shù)的表達式為:

B=∑(xi- )(yi- )/nS

=∑(xi- )(yi- )/∑(xi- )2

=∑xiyi- n? /∑x? - n 2

回歸系數(shù)B的數(shù)學含義為:平均而言,自變量X每變化1個取值單位,因變量Y相應變化的取值單位的數(shù)量。以本文開始的事例來說,如果根據(jù)收集到的體重和身高的觀測數(shù)據(jù)(假設(shè)身高的單位是厘米,體重的單位是千克)計算出的回歸系數(shù)為2,就表明,平均來講,如果人的身高每增加1厘米,體重就會相應增加2千克。當然,對于兩個定距變量的其回歸系數(shù)B,也可以用最小二乘法求出其表達式。在這里,我們之所以根據(jù)相關(guān)系數(shù)R求得其表達式,目的是為了更好地揭示相關(guān)系數(shù)與回歸系數(shù)的內(nèi)在聯(lián)系及其各自的數(shù)學與統(tǒng)計學蘊涵。

通過本文的分析,可以看出:協(xié)方差、相關(guān)系數(shù)與回歸系數(shù)三者之間有著極為嚴密的內(nèi)在邏輯關(guān)系。相關(guān)系數(shù)可以看作是標準化了的協(xié)方差。通過“標準化”,相關(guān)系數(shù)克服了協(xié)方差受兩個變量取值單位影響的弊端。相關(guān)系數(shù)表示的是,在以各自標準差為單位的條件下,兩個定距變量平均變化量的比值;而回歸系數(shù)則表示在兩個定距變量都有特定取值單位的條件下,平均而言,自變量每變化1個取值單位,因變量的相應變化量。而且,兩者是可以相互推出的。

參考文獻:

[1]布萊洛克.社會統(tǒng)計學[M].沈崇麟,等,譯.重慶:重慶大學出版社,2010.

[2]查特吉,哈迪,普賴斯.例解回歸分析[M].鄭明,等,譯.北京:中國統(tǒng)計出版社,2004.

[3]S.韋斯伯格.應用線性回歸[M].王靜龍,等,譯.北京:中國統(tǒng)計出版社,1998.

[4]翁定軍.社會定量研究的數(shù)據(jù)處理——原理與方法[M].上海:上海大學出版社,2004.

[5]賈俊平,等.統(tǒng)計學[M].北京:中國人民大學出版社,2012.

[6]盧淑華.社會統(tǒng)計學[M].北京:北京大學出版社,2009.

[7]李沛良.社會研究的統(tǒng)計應用[M].北京:社會科學文獻出版社,2001.

[8]袁衛(wèi),等.統(tǒng)計學[M].北京:高等教育出版社,2009.

*本文系商丘師范學院科研啟動經(jīng)費資助項目(編號:7001/700146)暨河南省高校哲學社會科學創(chuàng)新團隊項目(編號:2020-CXTD-11)的研究成果。

(作者單位:商丘師范學院)

猜你喜歡
相關(guān)系數(shù)回歸系數(shù)協(xié)方差
多元線性回歸的估值漂移及其判定方法
電導法協(xié)同Logistic方程進行6種蘋果砧木抗寒性的比較
多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時Bayes估計及優(yōu)良性
人口老齡化對我國消費結(jié)構(gòu)影響研究
南京市能見度變化趨勢及其影響因素
不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預報器
秦皇島海域夜光藻種群密度與環(huán)境因子的關(guān)系
電子鼻傳感器陣列優(yōu)化對豬肉新鮮度法的檢測
縱向數(shù)據(jù)分析中使用滑動平均Cholesky分解對回歸均值和協(xié)方差矩陣進行同時半?yún)?shù)建模
關(guān)于協(xié)方差的U統(tǒng)計量檢驗法
濮阳县| 乐平市| 根河市| 招远市| 建阳市| 南和县| 黄浦区| 商丘市| 台南市| 阳山县| 饶阳县| 连云港市| 巴塘县| 华蓥市| 仲巴县| 松潘县| 双流县| 溆浦县| 泗洪县| 麻阳| 犍为县| 瑞昌市| 礼泉县| 中方县| 留坝县| 垦利县| 旬邑县| 新昌县| 晴隆县| 涞源县| 富锦市| 胶南市| 长葛市| 禄丰县| 武乡县| 柘城县| 绥阳县| 泸定县| 将乐县| 榆林市| 宜都市|