Logistic回歸分析的研究及應(yīng)用

2019-02-04 16:07李婧嫻

新教育時代·教師版 2019年42期

李婧嫻

摘要：本文由傳統(tǒng)的線性回歸中因變量為分類變量的局限性出發(fā)，引出廣義線性回歸模型。再由Logistic回歸模型與線性回歸模型的比對，研究了Logistic模型的理論推導(dǎo)過程，介紹了模型中的連接函數(shù)和發(fā)生比概念。最后嘗試使用Logistic回歸模型在金融數(shù)據(jù)中進行簡單應(yīng)用。

關(guān)鍵詞：Logistic回歸模型廣義線性回歸連接函數(shù)

引言

在傳統(tǒng)的線性回歸模型中，自變量的變量類型和值域是沒有限制的。但是線性回歸模型中對于因變量的假設(shè)是連續(xù)的、服從標(biāo)準(zhǔn)正態(tài)分布的。而在實際的應(yīng)用中往往會出現(xiàn)與線性回歸的因變量為連續(xù)變量的假設(shè)相違背的情形，特別的是當(dāng)因變量取為分類變量時會與傳統(tǒng)的線性回歸模型的假設(shè)相矛盾[1]。

在線性回歸模型的Gauss-Markov假設(shè)中，首先由于回歸方程中對自變量值域沒有限制，因此作為自變量，，......的函數(shù)，因變量的值域也為。在由線性模型進行估計或預(yù)測時，當(dāng)取值很大時可能超出[0，1]區(qū)間，這與的值域矛盾。同時這里的自變量和因變量的關(guān)系也不再具有顯著的線性?？梢姰?dāng)因變量為分類型變量而不是數(shù)值型變量時就無法滿足傳統(tǒng)的線性回歸模型的Gauss-Markov假設(shè)。此時我們不再可以直接使用傳統(tǒng)的線性回歸模型的參數(shù)估計、檢驗和模型的擬合優(yōu)度評價等[2]。

一、廣義線性模型

廣義線性模型是正是拓展上述經(jīng)典的線性回歸模型對于因變量假設(shè)的局限性——因變量可以在服從非正態(tài)分布的情形下，通過連接函數(shù)將非線性模型進行了線性轉(zhuǎn)化。傳統(tǒng)線性模型中要求因變量服從正態(tài)分布，而此時廣義線性模型中對于因變量的要求擴展至服從指數(shù)分布族。而常見的正態(tài)分布、伯努力分布（或稱為二項分布、兩點分布）等均屬于指數(shù)分布族[3]。

當(dāng)隨機變量的概率密度函數(shù)滿足如下形式時：

就可以稱隨機變量服從指數(shù)分布族：上式當(dāng)中的被稱為標(biāo)準(zhǔn)參數(shù)或自然參數(shù)，并表示為的平均數(shù)的一個函數(shù);為標(biāo)準(zhǔn)參數(shù)的函數(shù)，因此也是的平均數(shù)的一個函數(shù);被稱為離散參數(shù)，并起到衡量的方差的角色;為和離散參數(shù)的某一函數(shù)，且僅由和確定。與則依據(jù)不同的分布而確定[4]。

假設(shè)此時模型中的自變量記為，，......，對應(yīng)的因變量記為，再令，其中為未知的參數(shù)。再假設(shè)，并且滿足，那么我們根據(jù)上述定義得到的模型即為廣義線性模型，將上述的函數(shù)稱為連接函數(shù)。

特別需要注意的是，連接函數(shù)確定了廣義線性模型的均值結(jié)構(gòu)。對于服從不同分布的因變量對應(yīng)了不同的連接函數(shù)，進而確定了不同的廣義線性模型。連接函數(shù)顧名思義，起到了將因變量的數(shù)學(xué)期望值的函數(shù)和自變量的線性組合相“連接”起來的橋梁作用，將非線性模型——自變量與因變量呈非線性關(guān)系，完成向“線性”——自變量的線性組合的轉(zhuǎn)化過程。

二、Logistic回歸模型

在廣義線性模型的框架下，Logistic回歸屬于其中的一種：因變量選定為指數(shù)分布族中參數(shù)記為的伯努利分布，同時連接函數(shù)取為。

假設(shè)因變量服從參數(shù)為的伯努利分布，則其概率密度函數(shù)如下式所示：

這表示概率為;概率為，那么的期望也為，這里將連接函數(shù)取為：

再將模型中的個自變量記為，，......

則。最后由上述兩式聯(lián)立可得下式：

在Logistic回歸分析中，我們將發(fā)生比（odds）定義為事件發(fā)生的條件概率與不發(fā)生概率之比，即

由可知，并且決定了發(fā)生比odds的變化方向;當(dāng)時，發(fā)生比odds不受自變量變化的影響。

我們將回歸方程兩邊指數(shù)化則可以得到：

如果將增加一個單位，則有：

再將上述第二個等式與第一個等式相除可以得到：

因此代表由于增加一個單位而導(dǎo)致的發(fā)生比產(chǎn)生的變化。如果大于等于0，表示因增加一個單位而導(dǎo)致的發(fā)生比的增加，反之為減少。因此，由上述推導(dǎo)可知，表示由對應(yīng)的增加一個單位而導(dǎo)致的發(fā)生比的變化。

三、Logistic回歸分析的應(yīng)用

1.指標(biāo)選取與數(shù)據(jù)預(yù)處理

本文選取了2016年11月30日及其之后第20日的2691支滬市和深市的股票交易數(shù)據(jù)。本文選擇了二元的自變量：其一是2016年11月30日當(dāng)日各只股票流通市值（記作CirculatingMarketValue），即當(dāng)日內(nèi)發(fā)生交易的流通股股數(shù)與當(dāng)時股價的乘積;其二是2016年11月30日當(dāng)日各只股票的漲跌幅（記作Return_20D），即當(dāng)日股票價格的漲跌值/昨日收盤價*100。本文的因變量選擇為2016年11月30日之后第20日各只股票的漲跌情況（記為Forward_Return），這里將根據(jù)2016年11月30日及之后第20日的漲跌幅，對各股票價格的漲跌情況進行處理：若上漲則定義為1，若持平或下跌定義為0。

這里需要對各只股票流通市值（CirculatingMarketValue）進行預(yù)處理。首先對各只股票的流通市值取為對數(shù)，取對數(shù)的處理并不會改變數(shù)據(jù)的單調(diào)關(guān)系，但對于數(shù)據(jù)的尺度進行了改變，這可以減少大市值股票對模型的影響。其次再對取對數(shù)后的股票流通市值進行標(biāo)準(zhǔn)化處理（記作LN_CirculatingMarketValue），即取對數(shù)后的各股票流通市值數(shù)據(jù)減去其均值后再除以其標(biāo)準(zhǔn)差。這可以使得最終在模型中選入的自變量LN_CirculatingMarketValue和自變量Return_20D量級相當(dāng)。

本文中選取的指標(biāo)和經(jīng)過預(yù)處理后的部分?jǐn)?shù)據(jù)如表一所示：

2.模型的建立與實驗結(jié)果

本文使用了matlab編程軟件提供的廣義線性模型函數(shù)工具箱進行模型擬合：我們調(diào)用了其中的glmfit函數(shù)，并將distr的參數(shù)選取為binomial，表示本文模型中的因變量選定為服從伯努利分布，再將link的參數(shù)選取為logit，表示本文模型中的連接函數(shù)選為，表示伯努利分布的參數(shù)。

根據(jù)matlab編程軟件返回的計算結(jié)果，我們得到的Logistic回歸方程如下式所示：

再根據(jù)matlab軟件返回的各參數(shù)的統(tǒng)計量依次為-14.35、-3.97和3.97以及對應(yīng)的值均小于0.05可知，上述模型中的三個參數(shù)均顯著，同時整個方程也是顯著，擬合是有效的。本文中模型的建立說明我們可以嘗試使用當(dāng)日的股票的漲跌幅和當(dāng)日的流通市值數(shù)據(jù)來預(yù)測20天后股票的漲跌情況。這具有一定的實際應(yīng)用價值。

參考文獻

[1]吳曉剛.廣義線性模型[M].格致出版社，上海人民出版社，2011.

[2]賈俊平、何曉群、金勇進.統(tǒng)計學(xué)[M].中國人民大學(xué)出版社，2014.

[3]龐素琳.Logistic回歸模型在信用風(fēng)險分析中的應(yīng)用.數(shù)學(xué)的實踐與認(rèn)識[J].2006.

[4]于立勇，詹捷輝.基于Logistic回歸分析的違約概率預(yù)測研究.財經(jīng)研究[J].2004.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Logistic回歸分析的研究及應(yīng)用