国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Logistic回歸分析的研究及應(yīng)用

2019-02-04 16:07李婧嫻
新教育時代·教師版 2019年42期
關(guān)鍵詞:指數(shù)分布值域因變量

李婧嫻

摘 要:本文由傳統(tǒng)的線性回歸中因變量為分類變量的局限性出發(fā),引出廣義線性回歸模型。再由Logistic回歸模型與線性回歸模型的比對,研究了Logistic模型的理論推導(dǎo)過程,介紹了模型中的連接函數(shù)和發(fā)生比概念。最后嘗試使用Logistic回歸模型在金融數(shù)據(jù)中進行簡單應(yīng)用。

關(guān)鍵詞:Logistic回歸模型 廣義線性回歸 連接函數(shù)

引言

在傳統(tǒng)的線性回歸模型中,自變量的變量類型和值域是沒有限制的。但是線性回歸模型中對于因變量的假設(shè)是連續(xù)的、服從標(biāo)準(zhǔn)正態(tài)分布的。而在實際的應(yīng)用中往往會出現(xiàn)與線性回歸的因變量為連續(xù)變量的假設(shè)相違背的情形,特別的是當(dāng)因變量取為分類變量時會與傳統(tǒng)的線性回歸模型的假設(shè)相矛盾[1]。

在線性回歸模型的Gauss-Markov假設(shè)中,首先由于回歸方程中對自變量值域沒有限制,因此作為自變量,,......的函數(shù),因變量的值域也為。在由線性模型進行估計或預(yù)測時,當(dāng)取值很大時可能超出[0,1]區(qū)間,這與的值域矛盾。同時這里的自變量和因變量的關(guān)系也不再具有顯著的線性??梢姰?dāng)因變量為分類型變量而不是數(shù)值型變量時就無法滿足傳統(tǒng)的線性回歸模型的Gauss-Markov假設(shè)。此時我們不再可以直接使用傳統(tǒng)的線性回歸模型的參數(shù)估計、檢驗和模型的擬合優(yōu)度評價等[2]。

一、廣義線性模型

廣義線性模型是正是拓展上述經(jīng)典的線性回歸模型對于因變量假設(shè)的局限性——因變量可以在服從非正態(tài)分布的情形下,通過連接函數(shù)將非線性模型進行了線性轉(zhuǎn)化。傳統(tǒng)線性模型中要求因變量服從正態(tài)分布,而此時廣義線性模型中對于因變量的要求擴展至服從指數(shù)分布族。而常見的正態(tài)分布、伯努力分布(或稱為二項分布、兩點分布)等均屬于指數(shù)分布族[3]。

當(dāng)隨機變量的概率密度函數(shù)滿足如下形式時:

就可以稱隨機變量服從指數(shù)分布族:上式當(dāng)中的被稱為標(biāo)準(zhǔn)參數(shù)或自然參數(shù),并表示為的平均數(shù)的一個函數(shù);為標(biāo)準(zhǔn)參數(shù)的函數(shù),因此也是的平均數(shù)的一個函數(shù);被稱為離散參數(shù),并起到衡量的方差的角色;為和離散參數(shù)的某一函數(shù),且僅由和確定。與則依據(jù)不同的分布而確定[4]。

假設(shè)此時模型中的自變量記為,,......,對應(yīng)的因變量記為,再令,其中為未知的參數(shù)。再假設(shè),并且滿足,那么我們根據(jù)上述定義得到的模型即為廣義線性模型,將上述的函數(shù)稱為連接函數(shù)。

特別需要注意的是,連接函數(shù)確定了廣義線性模型的均值結(jié)構(gòu)。對于服從不同分布的因變量對應(yīng)了不同的連接函數(shù),進而確定了不同的廣義線性模型。連接函數(shù)顧名思義,起到了將因變量的數(shù)學(xué)期望值的函數(shù)和自變量的線性組合相“連接”起來的橋梁作用,將非線性模型——自變量與因變量呈非線性關(guān)系,完成向“線性”——自變量的線性組合的轉(zhuǎn)化過程。

二、Logistic回歸模型

在廣義線性模型的框架下,Logistic回歸屬于其中的一種:因變量選定為指數(shù)分布族中參數(shù)記為的伯努利分布,同時連接函數(shù)取為。

假設(shè)因變量服從參數(shù)為的伯努利分布,則其概率密度函數(shù)如下式所示:

這表示概率為;概率為,那么的期望也為,這里將連接函數(shù)取為:

再將模型中的個自變量記為,,......

則。最后由上述兩式聯(lián)立可得下式:

在Logistic回歸分析中,我們將發(fā)生比(odds)定義為事件發(fā)生的條件概率與不發(fā)生概率之比,即

由可知,并且決定了發(fā)生比odds的變化方向;當(dāng)時,發(fā)生比odds不受自變量變化的影響。

我們將回歸方程兩邊指數(shù)化則可以得到:

如果將增加一個單位,則有:

再將上述第二個等式與第一個等式相除可以得到:

因此代表由于增加一個單位而導(dǎo)致的發(fā)生比產(chǎn)生的變化。如果大于等于0,表示因增加一個單位而導(dǎo)致的發(fā)生比的增加,反之為減少。因此,由上述推導(dǎo)可知,表示由對應(yīng)的增加一個單位而導(dǎo)致的發(fā)生比的變化。

三、Logistic回歸分析的應(yīng)用

1.指標(biāo)選取與數(shù)據(jù)預(yù)處理

本文選取了2016年11月30日及其之后第20日的2691支滬市和深市的股票交易數(shù)據(jù)。本文選擇了二元的自變量:其一是2016年11月30日當(dāng)日各只股票流通市值(記作CirculatingMarketValue),即當(dāng)日內(nèi)發(fā)生交易的流通股股數(shù)與當(dāng)時股價的乘積;其二是2016年11月30日當(dāng)日各只股票的漲跌幅(記作Return_20D),即當(dāng)日股票價格的漲跌值/昨日收盤價*100。本文的因變量選擇為2016年11月30日之后第20日各只股票的漲跌情況(記為Forward_Return),這里將根據(jù)2016年11月30日及之后第20日的漲跌幅,對各股票價格的漲跌情況進行處理:若上漲則定義為1,若持平或下跌定義為0。

這里需要對各只股票流通市值(CirculatingMarketValue)進行預(yù)處理。首先對各只股票的流通市值取為對數(shù),取對數(shù)的處理并不會改變數(shù)據(jù)的單調(diào)關(guān)系,但對于數(shù)據(jù)的尺度進行了改變,這可以減少大市值股票對模型的影響。其次再對取對數(shù)后的股票流通市值進行標(biāo)準(zhǔn)化處理(記作LN_CirculatingMarketValue),即取對數(shù)后的各股票流通市值數(shù)據(jù)減去其均值后再除以其標(biāo)準(zhǔn)差。這可以使得最終在模型中選入的自變量LN_CirculatingMarketValue和自變量Return_20D量級相當(dāng)。

本文中選取的指標(biāo)和經(jīng)過預(yù)處理后的部分?jǐn)?shù)據(jù)如表一所示:

2.模型的建立與實驗結(jié)果

本文使用了matlab編程軟件提供的廣義線性模型函數(shù)工具箱進行模型擬合:我們調(diào)用了其中的glmfit函數(shù),并將distr的參數(shù)選取為binomial,表示本文模型中的因變量選定為服從伯努利分布,再將link的參數(shù)選取為logit,表示本文模型中的連接函數(shù)選為,表示伯努利分布的參數(shù)。

根據(jù)matlab編程軟件返回的計算結(jié)果,我們得到的Logistic回歸方程如下式所示:

再根據(jù)matlab軟件返回的各參數(shù)的統(tǒng)計量依次為-14.35、-3.97和3.97以及對應(yīng)的值均小于0.05可知,上述模型中的三個參數(shù)均顯著,同時整個方程也是顯著,擬合是有效的。本文中模型的建立說明我們可以嘗試使用當(dāng)日的股票的漲跌幅和當(dāng)日的流通市值數(shù)據(jù)來預(yù)測20天后股票的漲跌情況。這具有一定的實際應(yīng)用價值。

參考文獻

[1]吳曉剛.廣義線性模型[M].格致出版社,上海人民出版社,2011.

[2]賈俊平、何曉群、金勇進.統(tǒng)計學(xué)[M].中國人民大學(xué)出版社,2014.

[3]龐素琳.Logistic回歸模型在信用風(fēng)險分析中的應(yīng)用.數(shù)學(xué)的實踐與認(rèn)識[J].2006.

[4]于立勇,詹捷輝.基于Logistic回歸分析的違約概率預(yù)測研究.財經(jīng)研究[J].2004.

猜你喜歡
指數(shù)分布值域因變量
調(diào)整有限因變量混合模型在藥物經(jīng)濟學(xué)健康效用量表映射中的運用
函數(shù)的值域與最值
函數(shù)的值域與最值
適應(yīng)性回歸分析(Ⅳ)
——與非適應(yīng)性回歸分析的比較
值域求解——一個“少”字了得
破解函數(shù)值域的十招
偏最小二乘回歸方法
指數(shù)分布抽樣基本定理及在指數(shù)分布參數(shù)統(tǒng)計推斷中的應(yīng)用
二元Weinman型指數(shù)分布隨機變量之和、差、積、商及比率的分布
回歸分析中應(yīng)正確使用r、R、R23種符號