国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隨機(jī)誤差對(duì)線性回歸相關(guān)系數(shù)的影響

2017-01-10 03:46南京醫(yī)科大學(xué)康達(dá)學(xué)院理學(xué)部數(shù)學(xué)與計(jì)算機(jī)教研室222000
中國衛(wèi)生統(tǒng)計(jì) 2016年6期
關(guān)鍵詞:概率直線公式

南京醫(yī)科大學(xué)康達(dá)學(xué)院理學(xué)部數(shù)學(xué)與計(jì)算機(jī)教研室(222000) 丁 勇

·學(xué)術(shù)討論·

隨機(jī)誤差對(duì)線性回歸相關(guān)系數(shù)的影響

南京醫(yī)科大學(xué)康達(dá)學(xué)院理學(xué)部數(shù)學(xué)與計(jì)算機(jī)教研室(222000) 丁 勇△

相關(guān)系數(shù)是統(tǒng)計(jì)分析的一個(gè)重要指標(biāo)。由于研究對(duì)象的不同,相關(guān)系數(shù)的定義也不同。最常用的相關(guān)系數(shù)為簡(jiǎn)單相關(guān)系數(shù)或Pearson積差相關(guān)系數(shù)[1-3]。在實(shí)際問題中,如果兩個(gè)變量存在線性關(guān)系,但由于觀察或測(cè)量數(shù)據(jù)不可避免帶有誤差,這些誤差必然對(duì)相關(guān)系數(shù)的計(jì)算產(chǎn)生一定的干擾,這些干擾會(huì)受到什么因素的影響,本文對(duì)此進(jìn)行探討。

方 法

1.相關(guān)系數(shù)公式

顯然,如果沒有隨機(jī)誤差,則x、y的相關(guān)系數(shù)的絕對(duì)值為1;當(dāng)觀察或測(cè)量數(shù)據(jù)有隨機(jī)誤差時(shí),相關(guān)系數(shù)將發(fā)生變化。記x、y*的相關(guān)系數(shù)為r,則有[1-3]

根據(jù)公式(5)可得到|r1|與lεε、b2和lxx的關(guān)系圖(圖1),理論分析得到的結(jié)果與圖是一致的。

圖1 |r1|與b2lxx、lεε關(guān)系圖

在實(shí)際應(yīng)用中,樣本量n一般不會(huì)很大,此時(shí),|r1|上述這些性質(zhì)是否對(duì)r成立?下面進(jìn)行討論。

由(1)式可知,r大小與直線的截距a無關(guān),這與r1的性質(zhì)是相同的。

由于b為直線的斜率,故當(dāng)b>0時(shí),y隨x的增大而增大,即y與x是正相關(guān),當(dāng)b<0時(shí),y隨x的增大而減少,即y與x是負(fù)相關(guān),所以r的符號(hào)應(yīng)該與b相同。但由于誤差的影響,由公式(1)可知,r的符號(hào)可能與b不相同,下面討論發(fā)生這種情況的概率。

由于εi~N(0,σ2),且εi相互獨(dú)立,所以lxε的方差為

計(jì)算機(jī)模擬

自蒙特卡羅方法于20世紀(jì)40年代作為一種獨(dú)立的統(tǒng)計(jì)模擬方法被提出以來,已在多個(gè)研究領(lǐng)域得到了廣泛的應(yīng)用[5-6]。下面通過計(jì)算機(jī)模擬,對(duì)公式(6)~(9)進(jìn)行驗(yàn)證。

先隨機(jī)抽?。?.5,10]區(qū)間內(nèi)均勻分布的18個(gè)數(shù)據(jù),包括端點(diǎn)共20個(gè)數(shù)據(jù)作為x:0.5000 1.07401.4131 3.4909 4.0350 4.2566 4.4100 4.51215.1895 5.2536 5.3097 5.3989 5.4168 5.8319 6.7223 6.8272 7.3483 7.5297 8.1950 10.0000;這批數(shù)據(jù)的lxx=107.1562。

再設(shè)直線方程為y=2+bx,并分別考慮b=± 0.1,±0.5,±1,±3,±5和σ=1,2,3,5的各種情況。

每次模擬用計(jì)算機(jī)產(chǎn)生20個(gè)服從N(0,σ2)分布的隨機(jī)數(shù)εi作為隨機(jī)誤差,再取yi=2+bxi+εi(i=1,2,…,20)。

每種情況共進(jìn)行10000次模擬,統(tǒng)計(jì)結(jié)果見表1,其中p1表示b和r同號(hào)的概率,根據(jù)公式(6)或(7)計(jì)算;p2表示的概率,根據(jù)公式(8)或(9)計(jì)算;f1和f2分別表示10000次模擬中,b和r同號(hào)的頻率和的頻率。由于b=-0.1,-0.5,-1,-3,-5結(jié)果與b=0.1,0.5,1,3,5的結(jié)果幾乎相同,故從略。

由表1可知,當(dāng)b較大或誤差較小時(shí),b和r同號(hào)的概率很大。

表1 b和r同號(hào)和的概率、頻率統(tǒng)計(jì)表(10000次模擬,lxx=107.1562)

表1 b和r同號(hào)和的概率、頻率統(tǒng)計(jì)表(10000次模擬,lxx=107.1562)

b σ=1p1f1p2f2σ=2p1f1p2f2 0.1 0.8497 0.8472 0.8262 0.8258 0.6976 0.70310.6928 0.6890 0.5 1 1 0.9892 0.9930 0.9952 0.9951 0.9601 0.9608 1 1 1 0.9959 0.9985 1 1 0.9892 0.9923 3 0.9977 0.9991 1 1 0.9970 0.9990 5 1 1 0.9979 0.9996 1 1 0.9976 0.9993 1 1bσ=3p1f1p2f2σ=5p1f1p2f2 0.1 0.6350 0.6291 0.6334 0.6402 0.5820 0.58590.5816 0.5757 0.5 0.9578 0.9579 0.9161 0.9148 0.8497 08502 0.8262 0.8262 1 0.9997 0.9991 0.9772 0.9815 0.9808 0.9822 0.9392 0.9375 3 1 1 0.9959 0.9981 1 1 0.9920 0.9953 5 1 1 0.9972 0.9988 1 1 0.9959 0.9988

討 論

在實(shí)際問題應(yīng)用中,如果計(jì)算得到兩個(gè)變量之間相關(guān)性不大,可能的原因是兩者之間真的相關(guān)性不大;根據(jù)本文分析,也可能是測(cè)量的隨機(jī)誤差所造成,此時(shí),提高測(cè)量精度和數(shù)據(jù)質(zhì)量,可以提高相關(guān)性。

兩個(gè)或多個(gè)變量的相關(guān)分析有著廣泛的應(yīng)用,相關(guān)系數(shù)是相關(guān)分析的一個(gè)重要指標(biāo),相關(guān)系數(shù)的大小直接影響統(tǒng)計(jì)推斷的結(jié)論。因此,分析對(duì)相關(guān)系數(shù)的影響因素,具有重要的應(yīng)用價(jià)值。本文推導(dǎo)了直線回歸中有誤差數(shù)據(jù)的相關(guān)系數(shù)公式(1)和大樣本的較簡(jiǎn)單的近似公式(3),并分析了影響相關(guān)系數(shù)的因素。由(1)式和(4)式可知,相關(guān)系數(shù)的大小與直線的截距無關(guān),這與我們的直觀理解是一致的,截距的作用體現(xiàn)在散點(diǎn)圖的數(shù)據(jù)點(diǎn)向上或向下平移的距離,不影響自變量和因變量的相關(guān)性。

公式(3)比較簡(jiǎn)單,通過理論分析即可得到相關(guān)系數(shù)絕對(duì)值與|b|、σ和lxx的關(guān)系,公式(1)相對(duì)復(fù)雜一些,我們用計(jì)算機(jī)模擬驗(yàn)證了理論分析結(jié)果的準(zhǔn)確性。由本文的討論可知,隨機(jī)誤差對(duì)相關(guān)系數(shù)的計(jì)算產(chǎn)生直接的干擾,隨機(jī)誤差越大,相關(guān)系數(shù)絕對(duì)值越小,|b|和x的離差平方和lxx在一定程度上對(duì)數(shù)據(jù)誤差的干擾又有一定的影響,|b|和lxx越大,會(huì)減少隨機(jī)誤差的干擾。實(shí)際問題中,兩變量之間存在線性關(guān)系是客觀存在的,我們無法改變|b|,但通過本文的分析,我們知道較大的|b|對(duì)誤差有一定的抗干擾作用;另一方面,在科研設(shè)計(jì)中,我們可以確定自變量的取值,通過加大自變量的離差來控制或減少誤差的影響。

對(duì)誤差性質(zhì)進(jìn)行分析,減少誤差的影響,有助于提高研究問題的精確度和準(zhǔn)確度[7]。本文是在x為非隨機(jī)變量的情況下得到的結(jié)果,如果x為隨機(jī)變量,問題的分析要復(fù)雜得多,但在實(shí)際應(yīng)用中,往往將x作為非隨機(jī)的情況來處理,對(duì)此做法有兩點(diǎn)解釋:一是可以把分析推斷作為“條件化”的結(jié)論,二是如果(x,y)聯(lián)合分布為正態(tài),則x是否被看成隨機(jī)的都無關(guān)緊要,有關(guān)研究可參看文獻(xiàn)[8]。

[1]孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計(jì)學(xué).第4版.北京:人民衛(wèi)生出版社,2014:314-351,131-154.

[2]徐維超.相關(guān)系數(shù)研究綜述.廣東工業(yè)大學(xué)學(xué)報(bào),2012,29(3):12-17.

[3]徐曉嶺,王蓉華.概率論與數(shù)理統(tǒng)計(jì).上海:上海交通大學(xué)出版社,2013:513-521.

[4]蘇勇,熊斌.不等式的解題方法與技巧.上海:華東師范大學(xué)出版社,2012:30.

[5]李劍龍,陳方堯,李丹玲,等.具有相關(guān)關(guān)系的靈敏度和特異度的Monte Carlo模擬方法研究.中國衛(wèi)生統(tǒng)計(jì),2015,32(3):417-420.

[6]劉成友,丁勇.相對(duì)誤差直線回歸模型兩種參數(shù)估計(jì)方法的比較.中國衛(wèi)生統(tǒng)計(jì),2012,29(5):1-3.

[7]丁勇.誤差絕對(duì)值的統(tǒng)計(jì)特征和應(yīng)用.?dāng)?shù)理統(tǒng)計(jì)與管理,2016:39-46

[8]陳希孺,王松桂.近代回歸分析.合肥:安徽教育出版社,1987.

(責(zé)任編輯:鄧 妍)

△通信作者:丁勇,E-mail:yding@nimu.edu.cn

猜你喜歡
概率直線公式
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
組合數(shù)與組合數(shù)公式
排列數(shù)與排列數(shù)公式
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
概率與統(tǒng)計(jì)(一)
概率與統(tǒng)計(jì)(二)
等差數(shù)列前2n-1及2n項(xiàng)和公式與應(yīng)用
畫直線
例說:二倍角公式的巧用
畫直線
北海市| 邵阳市| 西充县| 绩溪县| 永年县| 宁南县| 江都市| 赤壁市| 威信县| 吉隆县| 隆德县| 同仁县| 游戏| 晋江市| 南城县| 绩溪县| 柳林县| 高州市| 曲阜市| 梁山县| 鄂托克前旗| 梅州市| 民县| 永康市| 东光县| 略阳县| 安仁县| 沙湾县| 庆元县| 陇川县| 长治县| 桂东县| 荔波县| 密云县| 鲁山县| 广水市| 勐海县| 大足县| 嵩明县| 城步| 灵山县|