国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于有偏Logistic分布的回歸建模及其Score檢驗(yàn)

2018-04-08 11:23房欽欽趙為華
統(tǒng)計(jì)與決策 2018年5期
關(guān)鍵詞:均方樣本量尺度

房欽欽,趙為華

(南通大學(xué)理學(xué)院,江蘇南通226019)

0 引言

標(biāo)準(zhǔn)Logistic回歸模型中,實(shí)際數(shù)據(jù)是在峰度和平均值相等頻率情況下進(jìn)行分析,然而在實(shí)際問(wèn)題中,數(shù)據(jù)中因變量的不對(duì)稱(chēng)性或不平衡會(huì)導(dǎo)致統(tǒng)計(jì)分析中的均方誤差提高,模型效果也會(huì)下降,最后所得到的數(shù)據(jù)結(jié)論也許會(huì)與實(shí)際情況相差很大,為此,本文引用了偏態(tài)參數(shù),該參數(shù)值體現(xiàn)了數(shù)據(jù)的分布偏度情況,利用這一參數(shù)在標(biāo)準(zhǔn)Logistic分布的基礎(chǔ)上構(gòu)造了有偏Logistic分布。先對(duì)有偏Logistic分布進(jìn)行簡(jiǎn)單地研究。

有偏Logistic分布[1]的密度函數(shù)為f(x;α)=它的分布函數(shù)為F(x;α)=偏態(tài)參數(shù)。以上記為第一類(lèi)有偏Logistic分布。

還有一類(lèi)有偏Logistic分布函數(shù)為F(x;α)=1-應(yīng)的概率密度函數(shù)為f(x;α)=為第二類(lèi)有偏Logistic分布。

由圖1和圖3可以看出:第一類(lèi)有偏Logistic分布的偏態(tài)參數(shù)α取值越大,分布函數(shù)會(huì)越來(lái)越接近1。第二類(lèi)有偏Logistic分布函數(shù)的情況正好相反。

由圖2和圖4可以看出:密度函數(shù)圖中,偏態(tài)參數(shù)α∈(0,1)時(shí),一類(lèi)有偏Logistic分布為左偏,α>1時(shí),一類(lèi)有偏Logistic分布為右偏。而二類(lèi)有偏Logistic密度分布函數(shù)的情況也正好相反。

圖1四種α不同值的一類(lèi)有偏函數(shù)圖

圖2四種α不同值的一類(lèi)有偏密度函數(shù)圖

圖3四種α不同值的二類(lèi)有偏函數(shù)圖

圖4四種α不同值的二類(lèi)有偏密度函數(shù)圖

1 有偏Logistic分布回歸模型以及參數(shù)估計(jì)

通過(guò)前面了解到了兩類(lèi)有偏Logistic分布函數(shù)與密度函數(shù)的特點(diǎn)。為了探討基于有偏Logistic分布回歸模型在實(shí)際數(shù)據(jù)上的運(yùn)用,本文建立兩類(lèi)有偏Logistic分布回歸模型[2],并對(duì)參數(shù)進(jìn)行估計(jì)。

令yi~LG(μi,σi),μi=β,σi=exp(zγ),i=1,2,...,n,β=(β1,β2,...,βp)T是p×1的位置模型的未知參數(shù)向量,γ=(γ1,γ2,...,γq)T是q×1的尺度模型的位置參數(shù)向量,xi與zi分別為對(duì)應(yīng)yi位置和尺度部分的解釋變量。

兩種模型可表示為:

利用牛頓迭代法實(shí)現(xiàn)計(jì)算,并對(duì)參數(shù)進(jìn)行估計(jì)。算法[3]如下:

步驟二:給定當(dāng)前值實(shí)現(xiàn)迭代θ(k+1)=θ(k)-H-1(θ(k))S(θ(k))。

步驟三:重復(fù)第二步直到收斂條件滿(mǎn)足。

從模型中產(chǎn)生模擬數(shù)據(jù),用以下三個(gè)均方誤差用來(lái)評(píng)價(jià)估計(jì)的好壞為:

一類(lèi)有偏Logistic分布的似然函數(shù)為:

對(duì)數(shù)似然函數(shù)為:

二類(lèi)有偏似然函數(shù)為:

2 數(shù)值模擬

下面,通過(guò)隨機(jī)模擬來(lái)說(shuō)明估計(jì)方法的有效性。

因?yàn)橛衅獿ogistic分布中F(X)~U(0,1),所以本文首先由y*~U(0,1),n=50,100...,xi~N(0,1)生成隨機(jī)數(shù),并由逆函數(shù)法可得yi=F-1(y*)~L(μ,σ),由最小二乘法得到參數(shù)的估計(jì)初值,再經(jīng)過(guò)牛頓迭代法進(jìn)行收斂,得到參數(shù)估計(jì),和。其中兩類(lèi)有偏分布的逆函數(shù)分別為

利用牛頓迭代法,在α=0.5,γ=(1,0.5,-1)T,β=(0.5,-0.8)T和α=1.5,γ=(1,0.5,-1)T,β=(0.5,-0.8)T兩種情況下,xi和zi的分量獨(dú)立產(chǎn)生于N(0,1),進(jìn)行200次模擬實(shí)驗(yàn)。模擬結(jié)果見(jiàn)表1。

表1 兩種有偏Logistic分布參數(shù)估計(jì)的均方誤差表

從表1可以知道,在這兩種類(lèi)型的有偏Logistic位置與尺度模型中,參數(shù)的均方誤差隨著樣本量n的增加越來(lái)越小,說(shuō)明了模擬方法的效果越來(lái)越好。

3 參數(shù)的Score檢驗(yàn)及其功效

在實(shí)際回歸建模時(shí),需要評(píng)價(jià)模型的正確性和模型中自變量的重要性。為此本文應(yīng)用Score檢驗(yàn)統(tǒng)計(jì)量對(duì)參數(shù)的重要性進(jìn)行檢驗(yàn),并通過(guò)隨機(jī)模擬來(lái)說(shuō)明檢驗(yàn)統(tǒng)計(jì)量的檢驗(yàn)功效。

在這兩類(lèi)回歸模型中,應(yīng)用Score檢驗(yàn)統(tǒng)計(jì)量[4]主要對(duì)有偏參數(shù)α的重要性進(jìn)行檢驗(yàn)。假設(shè)H0:α=1;H1:α≠1。若表示原假設(shè)H0下的限制最大似然估計(jì),則關(guān)于H1的為Fisher信息陣[5],Iαα為觀測(cè)Fisher信息陣的逆矩陣對(duì)應(yīng)參數(shù)α=1的分塊矩陣。由漸近性質(zhì)可知,檢驗(yàn)統(tǒng)計(jì)量SC漸近服卡方分布χ2(1)。

下面探討Score檢驗(yàn)統(tǒng)計(jì)量的檢驗(yàn)功效問(wèn)題。在數(shù)據(jù)生成時(shí),對(duì)α=1,其他參數(shù)β=(1,0,-1)T,γ=(0.5,1)T保持不變的情況下,分別取α=0.4,0.6,0.8,0.9,1,1.1,1.2,1.4和1.6時(shí),考察檢驗(yàn)統(tǒng)計(jì)量SC的檢驗(yàn)功效,在顯著性水平0.05下,計(jì)算1000次模擬中拒絕原假設(shè)H0的比例。

表2 兩種有偏Logistic分布α參數(shù)檢驗(yàn)比例表

圖5 參數(shù)α的檢驗(yàn)功效圖

從表2和圖5中可以看到,對(duì)H1:α≠1,α>0,在α→0,α∈(0,1),Score檢驗(yàn)量趨近于1;在α→+∞,α∈(1,+∞),Score檢驗(yàn)量也趨近于1,趨近速度小于α∈(0,1)時(shí)的速度;而當(dāng)α=1時(shí),Score檢驗(yàn)量接近于名義水平0.05。也說(shuō)明了Score檢驗(yàn)統(tǒng)計(jì)量對(duì)該參數(shù)的檢驗(yàn)是有效的。

當(dāng)然,也可以對(duì)位置和尺度兩個(gè)參數(shù)進(jìn)行功效檢驗(yàn),受篇幅限制,在此僅對(duì)第一類(lèi)有偏Logistic位置-尺度模型中β進(jìn)行Score檢驗(yàn)。

取β=(1,-1,0)T,其他參數(shù)γ=(0.5,1)T,α=0.5;α=1.5保持不變的情況下,假設(shè)H0:β2=0;H1:β2≠0,分別取β2=0,0.2,0.4,0.6,0.8和1時(shí),考察其檢驗(yàn)統(tǒng)計(jì)量的檢驗(yàn)功效,即在顯著性水平0.05下,計(jì)算300次模擬中拒絕原假設(shè)H0的比例。

表3 第一類(lèi)有偏Logistic分布β參數(shù)檢驗(yàn)比例表

從表3可以看到,無(wú)論偏態(tài)參數(shù)α為何值(α>0),在相同的樣本量下,隨著參數(shù)β2的取值遠(yuǎn)離0時(shí),檢驗(yàn)的功效顯著增加;另一方面,隨著樣本量的增大,檢驗(yàn)的功效迅速接近于1,且在原假設(shè)正確時(shí)(β2=0),檢驗(yàn)的功效非常接近于名義水平0.05。

4 實(shí)例分析

為了探究經(jīng)濟(jì)中產(chǎn)出與投入之間的關(guān)系,將上述模型應(yīng)用于一組希臘1961—1987年制造業(yè)的數(shù)據(jù)中,該數(shù)據(jù)來(lái)自《計(jì)量經(jīng)濟(jì)學(xué)基礎(chǔ)上冊(cè)(第五版)》,“資本”作解釋變量x1,“勞動(dòng)”作解釋變量x2,“產(chǎn)出”作因變量y,分析資本和勞動(dòng)對(duì)產(chǎn)出的影響(產(chǎn)出以1970年不變價(jià)格的十億德拉克馬計(jì),勞動(dòng)以每千人計(jì))。

圖6至圖8為資本、勞動(dòng)和產(chǎn)出三種變量的箱形圖。

圖6資本箱線圖

圖7勞動(dòng)箱線圖

圖8產(chǎn)出箱線圖

由圖6至圖8可知,勞動(dòng)x2和產(chǎn)出y分布呈現(xiàn)左偏態(tài),都集中在較大值的一側(cè),而資本x1中位數(shù)無(wú)偏離情況。可以猜測(cè)勞動(dòng)x2對(duì)產(chǎn)出y的影響較大。

在第一類(lèi)有偏Logistic回歸模型中位置、尺度和偏態(tài)參數(shù)分別為=(-64.25,0.164,0.139)T,=(-9.154,-0.017,0.016)T,=6.63,于是得到的回歸方程為=-64.25+0.164x1+0.139x2,此方程說(shuō)明了每增加一單位資本,則多1.64億德拉克馬的產(chǎn)出;每增加一千人的勞動(dòng),會(huì)多產(chǎn)1.39億德拉克馬,該結(jié)果表明了這與先前的猜測(cè)不符合,為此第二次猜測(cè)偏態(tài)參數(shù)對(duì)結(jié)果有影響。所以對(duì)偏態(tài)參數(shù)進(jìn)行Score檢驗(yàn),求得SCα=18.356>χ2(1)=3.84,這證實(shí)了本文的第二猜測(cè):偏態(tài)參數(shù)α對(duì)該回歸模型結(jié)果有顯著影響,。

為了從這兩種模型和標(biāo)準(zhǔn)Logistic回歸模型以及線性回歸模型中選擇最優(yōu)模型,利用AIC信息準(zhǔn)則和BIC信息準(zhǔn)則:

其中k為參數(shù)的個(gè)數(shù),log(L)為對(duì)數(shù)似然函數(shù),n為樣本量。兩種準(zhǔn)則是衡量模型擬合好壞的標(biāo)準(zhǔn),它們的值越小,說(shuō)明模型對(duì)數(shù)據(jù)擬合得越好。三種模型的計(jì)算結(jié)果為:

由下頁(yè)表4和表5可以看到,對(duì)于所應(yīng)用的實(shí)例數(shù)據(jù),從AIC信息量、BIC信息量和標(biāo)準(zhǔn)差估計(jì)三個(gè)方面比較,都能得到二類(lèi)有偏Logistic回歸模型擬合程度最高,兩類(lèi)有偏Logistic回歸模型都比標(biāo)準(zhǔn)Logistic回歸模型模擬得好,且三種Logistic回歸模型比用最小二乘法的線性回歸模型模擬得好。

表4 四種模型AIC和BIC信息準(zhǔn)則量

表5 四種模型所求參數(shù)估計(jì)值

5 總結(jié)

本文從兩種Logistic回歸模型的建立、模型的數(shù)據(jù)模擬、Score檢驗(yàn)統(tǒng)計(jì)量、實(shí)例運(yùn)用這幾個(gè)方面敘述和論證,說(shuō)明了基于該分布的回歸模型對(duì)數(shù)據(jù)能夠進(jìn)行有效的分析。本文也將這兩種模型和標(biāo)準(zhǔn)Logistic分布回歸模型以及線性回歸應(yīng)用于同一實(shí)際案例,并利用AIC和BIC信息準(zhǔn)則選擇出了最優(yōu)模型。大量數(shù)值模擬和實(shí)例數(shù)據(jù)分析驗(yàn)證了所提方法的有效性,并且得出了結(jié)論:基于有偏Logistic分布的回歸模型比最小二乘法的線性回歸模型和標(biāo)準(zhǔn)Logistic分布回歸模型能更好地分析復(fù)雜型數(shù)據(jù)。

參考文獻(xiàn):

[1]史小康,常志勇.兩類(lèi)有偏logistic分布在信用評(píng)分模型中的應(yīng)用[J].統(tǒng)計(jì)與決策,2015,(14).

[2]李玲雪,吳劉倉(cāng),邱貽濤.Logistic分布下聯(lián)合位置與尺度模型[J].統(tǒng)計(jì)與決策,2014,(20).

[3]吳劉倉(cāng),李會(huì)瓊.極值分布下聯(lián)合位置與散度模型的變量選擇[J].工程數(shù)學(xué)學(xué)報(bào),2012,29(5).

[4]Xie F C,Lin J G,Wei B C.Diagnostics for Skew-normal Nonlinear Regression Models With AR(1)errors[J].Computational Statistics and Data Analysis,2009,(53).

[5]史道濟(jì).馬爾科夫鏈的Fisher信息陣及參數(shù)的最大似然估計(jì)[J].天津大學(xué)學(xué)報(bào),1993,(3).

猜你喜歡
均方樣本量尺度
一種基于進(jìn)化算法的概化理論最佳樣本量估計(jì)新方法:兼與三種傳統(tǒng)方法比較*
醫(yī)學(xué)研究中樣本量的選擇
構(gòu)造Daubechies小波的一些注記
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
Beidou, le système de navigation par satellite compatible et interopérable
樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十一)
樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十)
線性均方一致性問(wèn)題的偏差估計(jì)
宇宙的尺度
基于最小均方算法的破片測(cè)速信號(hào)處理方法
渝中区| 静安区| 资中县| 攀枝花市| 灵川县| 韶山市| 南靖县| 宁陕县| 太仓市| 都匀市| 邢台市| 郧西县| 通江县| 花莲县| 全椒县| 全州县| 黔西| 山东| 贵南县| 沧州市| 交口县| 鄂伦春自治旗| 武功县| 河间市| 龙陵县| 绥棱县| 河北区| 麻江县| 彭州市| 商河县| 满城县| 资源县| 牡丹江市| 吐鲁番市| 波密县| 临漳县| 桂林市| 威信县| 沙湾县| 那曲县| 陕西省|