国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

半?yún)?shù)順序變量回歸模型

2016-10-20 03:32:16熊笛何幼樺
關(guān)鍵詞:均方正確率線性

熊笛,何幼樺

(上海大學(xué)理學(xué)院,上海 200444)

半?yún)?shù)順序變量回歸模型

熊笛,何幼樺

(上海大學(xué)理學(xué)院,上海 200444)

在比例優(yōu)勢模型基礎(chǔ)上對順序變量回歸模型作更一般的推廣,建立了半?yún)?shù)順序變量回歸模型,構(gòu)造了模型中的線性和非線性部分的估計量,并證明了該估計量的弱相合性.通過數(shù)值模擬,考察了不同樣本容量下半?yún)?shù)順序變量回歸的判斷正確率和回歸函數(shù)的均方誤差.實驗結(jié)果表明:半?yún)?shù)順序回歸模型在小樣本情況下仍具有較高精度,并且在實驗點處的重復(fù)次數(shù)相對于觀察點個數(shù)對精度影響更大.通過對糧食預(yù)警實例的計算表明,半?yún)?shù)順序回歸模型較比例優(yōu)勢線性模型具有更好的外推效果.

比例優(yōu)勢模型;順序變量回歸;半?yún)?shù)回歸

順序變量是用于說明事物有序類別或者有序等級的一類以順序數(shù)據(jù)作為具體表現(xiàn)的變量,也是0,1二分類變量的擴展,廣泛出現(xiàn)在各應(yīng)用領(lǐng)域的統(tǒng)計模型中.1959年Duncan[1]根據(jù)非相關(guān)選擇項的獨立性(independence from irrelevant alternation)特性首次提出了logit模型,該模型也是最早的離散因變量回歸模型.Cox[2]提出了0,1二分類logit模型,并對二分類變量回歸的線性模型形式進行了詳細的分析.此后,自變量為數(shù)值變量、響應(yīng)變量為順序變量的多分類順序變量回歸問題被深入討論與研究.

設(shè)響應(yīng)變量Y為K個類別的順序變量,通過順序值1,2,…,K表征響應(yīng)變量所歸屬的類別或等級.若對于d維解釋變量X,響應(yīng)變量Y屬于第j類的概率為pj(x)=P(Y=j|x=x),j=1,2,…,K,那么,響應(yīng)變量屬于第j類的累積概率可以表示為

可以按概率γj(x)和1-γj(x)把K個等級分成{1,2,…,j}和{j+1,j+2,…,K}兩類,在此基礎(chǔ)上以γj(x)/(1-γj(x))表示順序變量Y所屬級別或等級不大于j(Y 6 j)時的優(yōu)勢比.把{1,2,…,j}和{j+1,j+2,…,K}兩類視為一種兩個類別的數(shù)據(jù)形式,在Cox[2]的二分類logit模型基礎(chǔ)上得到了更一般的多類別模型:

或以線性模型形式

式中,θj=lgκj為第j個等級的基準線.模型(1)為McCullagh[3]在1980年提出的比例優(yōu)勢模型(有序logit模型),它是二分類logit模型的擴展.如果當(dāng)響應(yīng)變量只有兩類時,則比例優(yōu)勢模型就是一個線性logit模型.

目前,比例優(yōu)勢模型成為順序變量回歸的主流方法之一.Pettitt[4]把比例優(yōu)勢模型應(yīng)用于生存數(shù)據(jù)研究中,并對比例優(yōu)勢模型的估計方法進行了討論;Murphy等[5]研究了極大似然估計方法在比例優(yōu)勢模型上的運用;Ibrahim等[6]對該模型在貝葉斯變量上的選擇方式進行了分析;Lang[7]導(dǎo)出了順序回歸模型中混合連接函數(shù)的貝葉斯估計方法;Lam等[8]提出右刪失數(shù)據(jù)的比例優(yōu)勢模型的極大似然估計方法.國內(nèi)對該類模型的應(yīng)用問題也有較多的研究,如文獻[9-10]對二分類logit模型應(yīng)用的正確性進行了探討,并將比例優(yōu)勢模型應(yīng)用于航空領(lǐng)域的加速壽命試驗[11]、醫(yī)藥等[12]研究領(lǐng)域.

在很多實際問題中,自變量與因變量之間并不完全滿足線性關(guān)系,因此僅用線性回歸模型不能準確地描述所討論的問題.在20世紀80年代中期,Engle等[13]提出了半?yún)?shù)(或稱為偏線性)模型:

式中,因變量u受到一些控制變量y∈Rp和x∈Rq以及隨機擾動ε的影響,并且x對u的影響是線性的;f(·)為未知函數(shù);β=(β1,β2,…,βq)T為未知參數(shù);ε|(x,y)~(0,σ2)是隨機擾動的,在很多情況下可以假設(shè)它是正態(tài)的.

因此,順序變量與影響因子之間的關(guān)系可以有更精細的描述.本研究考慮用一個連續(xù)非線性函數(shù)代替式(1)中的線性部分:

等式兩邊同時取對數(shù),得到半?yún)?shù)順序變量回歸模型:

式中,θj=lgκj為第j個等級的基準線,且θj<θj+1,不失一般性,可設(shè)θ1=0.

1 半?yún)?shù)順序回歸模型的估計

令X為d維解釋變量,Y是順序響應(yīng)變量,Y=j(j=1,2,…,K)表示響應(yīng)變量歸屬于K個順序類別中的第j個類別.

針對樣本觀察值(xi,Yi),Yi=Y(xi)∈{1,2,…,K},i=1,2,…,n.記Rij=Rj(xi)= #{xi|Y(xi)6 j},通過加權(quán)光滑方式得到γj(xi)的估計量

(2)ω(-x)=ω(x);

那么,lg(γj(xi)/(1-γj(xi)))的估計則可以表示為則半?yún)?shù)順序回歸模型(5)的樣本模型為

對于擾動項,假設(shè)在給定j的情況下,{εij}~(0,σ2).

定理1 對于半?yún)?shù)順序回歸模型(5)中各θj的最佳線性無偏估計量為

證明 根據(jù)式(7),有

對于給定j,令ηj=εij-εi1~(0,Var(ηj)),根據(jù)最小二乘估計的基本結(jié)論,式(9)中各θj的最佳線性無偏估計為

注意到RijRi(j+1),且對于每一個j=1,2,…,K-1,至少存在一個i使得Rij<Ri(j+1)(否則第j類和第j+1類可合并為一類),故

于是有

在根據(jù)定理1得到θj的估計量后,記

于是有關(guān)于f(x)的非參數(shù)回歸樣本模型:

將參數(shù)和非參數(shù)部分的估計代回式(5)得到

證明 首先,對于每一個j=1,2,…,K-1,根據(jù)大數(shù)定律,式(8)中的按概率收斂到θj,即

其次,根據(jù)局部線性回歸估計的殘差定理[14]:

得到

當(dāng)定理條件得到滿足時,有

那么當(dāng)X=x時,響應(yīng)變量Y屬于第j個類別的隸屬概率的估計為

定義記

則稱

本研究采用判斷正確率(correct rate,CR)和均方誤差(mean squared error,MSE)兩個指標(biāo)作為估計結(jié)果優(yōu)良性的評判標(biāo)準.

2 數(shù)值模擬

設(shè)定一個函數(shù)作為原始模型進行數(shù)值模擬,隨機產(chǎn)生一系列實驗樣本點,然后利用這些樣本數(shù)據(jù)對半?yún)?shù)順序回歸進行估計.

重復(fù)N次如下試驗:

步驟1 隨機產(chǎn)生n個解釋變量值x1,x2,…,xn,在每個xi處對Y重復(fù)m次觀察,共產(chǎn)生m×n組樣本;

步驟2 利用半?yún)?shù)順序回歸模型中的式(12),計算

根據(jù)上述步驟得到的結(jié)果計算出半?yún)?shù)順序回歸模型判斷正確率和均方誤差兩個指標(biāo):

(1)固定實驗觀察點個數(shù)n=30,改變在每個xi處對Y重復(fù)觀察次數(shù)m=1,2,5,將得到的判斷正確率CR(x)和均方誤差MSE(x)的數(shù)值進行比較,結(jié)果如圖1所示.

(2)固定每個xi處重復(fù)次數(shù)m=1,改變實驗觀察點個數(shù)n=30,100,將得到的判斷正確率CR(x)和均方誤差MSE(x)數(shù)值進行比較(見圖2).

(3)固定實驗樣本容量m×n=60,討論n=60,m=1,n=30,m=2以及n=20,m=3這3種情況,將得到的判斷正確率CR和均方誤差MSE數(shù)值進行比較(見圖3).

實驗結(jié)果表明:

(1)當(dāng)實驗觀察點個數(shù)n不變時,每個xi處重復(fù)次數(shù)(m)越多,判斷正確率就越高,回歸函數(shù)的均方誤差越小;

(2)當(dāng)每個xi處重復(fù)次數(shù)m不變時,實驗觀察點個數(shù)(n)越多,判斷正確率越高,回歸函數(shù)的均方誤差越??;

(3)當(dāng)實驗樣本容量m×n不變時,在每個xi處重復(fù)次數(shù)(m)對判斷正確率和回歸函數(shù)的均方誤差兩個指標(biāo)的影響比觀察點個數(shù)n對它們的影響相對更大,即在樣本容量相同的情況下,實驗點xi處重復(fù)次數(shù)(m)越多,判斷正確率就越高,回歸函數(shù)的均方誤差越??;

(4)當(dāng)x靠近樣本集邊界時,判斷正確率和回歸函數(shù)的均方誤差兩個指標(biāo)均不如x位于樣本集內(nèi)部時的情形,此時判斷正確率相對更低,回歸函數(shù)的均方誤差相對較大.

圖1 判斷正確率CR和均方誤差MSE(n=30,m=1,2,5)Fig.1 CR and MSE(n=30,m=1,2,5)

圖2 判斷正確率CR和均方誤差MSE(m=1,n=30,100)Fig.2 CR and MSE(m=1,n=30,100)

圖3 判斷正確率CR和均方誤差MSE(n=60,m=1和n=30,m=2以及n=20,m=3)Fig.3 CR and MSE(n=60,m=1 and n=30,m=2 and n=20,m=3)

3 半?yún)?shù)順序變量回歸模型的應(yīng)用

作為一個應(yīng)用實例,對糧食預(yù)警問題建立一個半?yún)?shù)順序變量回歸模型,將影響糧食價格波動的警源作為解釋變量,對糧食警情等級進行預(yù)報.

將1978—2012年的糧食價格作為研究對象,取其價格相對變動作為糧食價格警情的指標(biāo).以當(dāng)年糧食播種面積增長率、當(dāng)年糧食畝產(chǎn)增長率、當(dāng)年受災(zāi)面積增長率作為影響當(dāng)年糧食價格波動的警源(樣本數(shù)據(jù)見附錄).

對于警情則采用多數(shù)原則,即把計算得到的糧食波動率數(shù)值從小到大排列,從第一個數(shù)據(jù)開始,將占總數(shù)2/3的數(shù)據(jù)作為安全警限,即無警警限,依次在剩下的波動率數(shù)據(jù)中劃分輕警、中警、重警、巨警,根據(jù)實際劃分情況,本研究將余下4個警限按照等距劃分并依次將這5個警級命名為警級1,2,3,4,5.因此依據(jù)附錄中糧食價格波動情況,結(jié)合多數(shù)原則將糧食價格警度進行劃分(見表1)[15].

表1 多數(shù)原則下的糧食價格警度警限Table 1 Grain price warning degree under principle of majority

首先取1978—2012年數(shù)據(jù)作為樣本點用半?yún)?shù)順序回歸模型進行內(nèi)插檢驗,其判斷正確率為100%.再以1978—2007年數(shù)據(jù)為訓(xùn)練樣本,用比例優(yōu)勢線性模型和半?yún)?shù)順序回歸模型對2008—2012年糧食警級進行外推,判斷正確率分別為60%和100%(見表2和3).

表2 順序回歸線性模型外推糧食價格警級結(jié)果Table 2 Extrapolation of grain price warning degree using ordinal regression linear model

表3 半?yún)?shù)順序回歸模型外推糧食價格警級結(jié)果Table 3 Extrapolation of grain price warning degree using semi-parametric ordinal regression model

4 結(jié)束語

本研究所建立的半?yún)?shù)順序變量回歸模型是在傳統(tǒng)的線性順序變量回歸模型基礎(chǔ)上考慮了非線性部分,擴展了模型的實際應(yīng)用范圍.同時,本研究通過半?yún)?shù)順序回歸模型對糧食價格進行了預(yù)警,從預(yù)警結(jié)果來看半?yún)?shù)順序回歸模型具有很好的預(yù)測效果.后續(xù)工作將從以下兩個方向進行:①對于γj(x)估計的改進.當(dāng)在每一個x處重復(fù)觀察一次或很少時,所采用的估計方法(6)會有較大的誤差,這個誤差直接影響了模型估計的最終效果.②研究模型(4)基準量κj的一般化問題.如假設(shè)κj依賴于其他外生變量或與解釋變量X有一定相關(guān)性,則整個估計方法會有較大的改變,模型的適用范圍可以更大.

附錄

表4中各項波動率、增長率是根據(jù)歷年的統(tǒng)計年鑒(http://data.stats.gov.cn/workspace/ index?m=hgnd)計算得到的.

表4 1978—2012年糧食數(shù)據(jù)表Table 4 1978—2012 grain's data%

[1]DUNCAN L R.Individual choice behavior:a theoretical analysis[M].New York:John Wiley& Sons,1959.

[2]COx D R.The analysis of multivariate binary data[J].Royal Statistical Society,1972,21(2):113-120.

[3]MCCULLAGH P.Regression models for ordinal data[J].Journal of the Royal Statistical Society, 1980,42(2):109-142.

[4]PETTITT A N.Inference for the linear model using a likelihood based on ranks[J].Journal of the Royal Statistical Society,1982,44(2):234-243.

[5]MURPHY S A,ROSSINI A J.Maximum likelihood estimation in the proportional odds model[J]. Journal of the American Statistical Association,1997,92(439):968-976.

[6]IBRAHIM J G,CHEN M H,MACEACHERN S N.Bayesian variable selection for proportional hazards models[J].The Canadian Journal of Statists,1999,27(4):701-717.

[7]LANG J B.Bayesian ordinal and binary regression models with a parametric family of mixture links[J].Computational Statistics&Data Analysis,1999,31(1):59-87.

[8]LAM K F,LEUNG T L.Marginal likelihood estimation for proportional odds models with right censored data[J].Lifetime Data Analysis,2001,7(1):39-54.

[9]馮國雙,陳景武,周春蓮.logistic回歸應(yīng)用中容易忽視的幾個問題[J].中華流行病學(xué)雜志,2004, 25(6):544-545.

[10]趙宇東,劉嶸,劉延齡.多元logistic回歸的共線性分析[J].中國衛(wèi)生統(tǒng)計,2001,17(5):259-261.

[11]黃婷婷,姜同敏.基于比例危險-比例優(yōu)勢模型的加速壽命試驗設(shè)計[J].北京航空航天大學(xué)學(xué)報, 2010,36(5):570-579.

[12]唐俐玲,翟曉紅.累積比數(shù)logit模型在有序資料中的正確應(yīng)用[J].徐州醫(yī)學(xué)院學(xué)報,2010,30(9):577-579.

[13]ENGLE R F,GRANGER C W J,RICE J,et al.Semiparametric estimates of the relationship between weather and electricity sales[J].Journal of the American Statistical Association,1986, 81(394):310-320.

[14]RUPPERT D,WAND M P.Multivariate locally weighted least squares regression[J].The Annals of Statistics,1994,22(3):1346-1370.

[15]吳璇.中國糧食價格預(yù)警系統(tǒng)研究[D].北京:中國農(nóng)業(yè)大學(xué),2003.

Semi-parametric ordinal variable regression model

XIONG Di,HE Youhua
(College of Sciences,Shanghai University,Shanghai 200444,China)

Based on a proportional odds model,the ordinal variable regression model is generalized,a semi-parametric ordinal regression model is established,and consistency of the estimators both in linear and nonlinear parts are proved in this paper.Simulation is conducted to analyze the correct rate and mean square error in the semi-parametric ordinal variable regression model with different sample sizes.The result shows that the semi-parametric ordinal regression model has high accuracy even with small samples.Compared to the number of observation points,the repeat number of experimental points has greater influence on accuracy.Calculation of the grain price warning problem shows that the semi-parametric ordinal regression model provides better extrapolation results than the proportional odds model.

proportional odds model;ordinal variable regression;semi-parametric regression

O 212

A

1007-2861(2016)04-0477-09

10.3969/j.issn.1007-2861.2014.04.010

2014-11-21

國家自然科學(xué)基金資助項目(11371242)

何幼樺(1960—),男,教授,博士,研究方向為概率統(tǒng)計.E-mail:heyouhua@shu.edu.cn

猜你喜歡
均方正確率線性
一類隨機積分微分方程的均方漸近概周期解
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
線性回歸方程的求解與應(yīng)用
門診分診服務(wù)態(tài)度與正確率對護患關(guān)系的影響
Beidou, le système de navigation par satellite compatible et interopérable
二階線性微分方程的解法
生意
品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
天津護理(2016年3期)2016-12-01 05:40:01
生意
故事會(2016年15期)2016-08-23 13:48:41
基于抗差最小均方估計的輸電線路參數(shù)辨識
阳江市| 江安县| 高陵县| 迁西县| 陆川县| 益阳市| 应用必备| 无棣县| 洛扎县| 平顺县| 无锡市| 遂宁市| 紫云| 泰兴市| 韶关市| 府谷县| 阿合奇县| 鸡东县| 三明市| 海城市| 赣榆县| 宜兰县| 津南区| 富平县| 苍溪县| 崇明县| 保亭| 广水市| 文安县| 普格县| 根河市| 潼南县| 佛学| 获嘉县| 楚雄市| 本溪| 青阳县| 织金县| 资源县| 厦门市| 建平县|