李婧嫻
摘 要:本文由傳統(tǒng)的線性回歸中因變量為分類變量的局限性出發(fā),引出廣義線性回歸模型。再由Logistic回歸模型與線性回歸模型的比對,研究了Logistic模型的理論推導(dǎo)過程,介紹了模型中的連接函數(shù)和發(fā)生比概念。最后嘗試使用Logistic回歸模型在金融數(shù)據(jù)中進行簡單應(yīng)用。
關(guān)鍵詞:Logistic回歸模型 廣義線性回歸 連接函數(shù)
引言
在傳統(tǒng)的線性回歸模型中,自變量的變量類型和值域是沒有限制的。但是線性回歸模型中對于因變量的假設(shè)是連續(xù)的、服從標(biāo)準(zhǔn)正態(tài)分布的。而在實際的應(yīng)用中往往會出現(xiàn)與線性回歸的因變量為連續(xù)變量的假設(shè)相違背的情形,特別的是當(dāng)因變量取為分類變量時會與傳統(tǒng)的線性回歸模型的假設(shè)相矛盾[1]。
在線性回歸模型的Gauss-Markov假設(shè)中,首先由于回歸方程中對自變量值域沒有限制,因此作為自變量,,......的函數(shù),因變量的值域也為。在由線性模型進行估計或預(yù)測時,當(dāng)取值很大時可能超出[0,1]區(qū)間,這與的值域矛盾。同時這里的自變量和因變量的關(guān)系也不再具有顯著的線性??梢姰?dāng)因變量為分類型變量而不是數(shù)值型變量時就無法滿足傳統(tǒng)的線性回歸模型的Gauss-Markov假設(shè)。此時我們不再可以直接使用傳統(tǒng)的線性回歸模型的參數(shù)估計、檢驗和模型的擬合優(yōu)度評價等[2]。
一、廣義線性模型
廣義線性模型是正是拓展上述經(jīng)典的線性回歸模型對于因變量假設(shè)的局限性——因變量可以在服從非正態(tài)分布的情形下,通過連接函數(shù)將非線性模型進行了線性轉(zhuǎn)化。傳統(tǒng)線性模型中要求因變量服從正態(tài)分布,而此時廣義線性模型中對于因變量的要求擴展至服從指數(shù)分布族。而常見的正態(tài)分布、伯努力分布(或稱為二項分布、兩點分布)等均屬于指數(shù)分布族[3]。
當(dāng)隨機變量的概率密度函數(shù)滿足如下形式時:
就可以稱隨機變量服從指數(shù)分布族:上式當(dāng)中的被稱為標(biāo)準(zhǔn)參數(shù)或自然參數(shù),并表示為的平均數(shù)的一個函數(shù);為標(biāo)準(zhǔn)參數(shù)的函數(shù),因此也是的平均數(shù)的一個函數(shù);被稱為離散參數(shù),并起到衡量的方差的角色;為和離散參數(shù)的某一函數(shù),且僅由和確定。與則依據(jù)不同的分布而確定[4]。
假設(shè)此時模型中的自變量記為,,......,對應(yīng)的因變量記為,再令,其中為未知的參數(shù)。再假設(shè),并且滿足,那么我們根據(jù)上述定義得到的模型即為廣義線性模型,將上述的函數(shù)稱為連接函數(shù)。
特別需要注意的是,連接函數(shù)確定了廣義線性模型的均值結(jié)構(gòu)。對于服從不同分布的因變量對應(yīng)了不同的連接函數(shù),進而確定了不同的廣義線性模型。連接函數(shù)顧名思義,起到了將因變量的數(shù)學(xué)期望值的函數(shù)和自變量的線性組合相“連接”起來的橋梁作用,將非線性模型——自變量與因變量呈非線性關(guān)系,完成向“線性”——自變量的線性組合的轉(zhuǎn)化過程。
二、Logistic回歸模型
在廣義線性模型的框架下,Logistic回歸屬于其中的一種:因變量選定為指數(shù)分布族中參數(shù)記為的伯努利分布,同時連接函數(shù)取為。
假設(shè)因變量服從參數(shù)為的伯努利分布,則其概率密度函數(shù)如下式所示:
這表示概率為;概率為,那么的期望也為,這里將連接函數(shù)取為:
再將模型中的個自變量記為,,......
則。最后由上述兩式聯(lián)立可得下式:
在Logistic回歸分析中,我們將發(fā)生比(odds)定義為事件發(fā)生的條件概率與不發(fā)生概率之比,即
由可知,并且決定了發(fā)生比odds的變化方向;當(dāng)時,發(fā)生比odds不受自變量變化的影響。
我們將回歸方程兩邊指數(shù)化則可以得到:
如果將增加一個單位,則有:
再將上述第二個等式與第一個等式相除可以得到:
因此代表由于增加一個單位而導(dǎo)致的發(fā)生比產(chǎn)生的變化。如果大于等于0,表示因增加一個單位而導(dǎo)致的發(fā)生比的增加,反之為減少。因此,由上述推導(dǎo)可知,表示由對應(yīng)的增加一個單位而導(dǎo)致的發(fā)生比的變化。
三、Logistic回歸分析的應(yīng)用
1.指標(biāo)選取與數(shù)據(jù)預(yù)處理
本文選取了2016年11月30日及其之后第20日的2691支滬市和深市的股票交易數(shù)據(jù)。本文選擇了二元的自變量:其一是2016年11月30日當(dāng)日各只股票流通市值(記作CirculatingMarketValue),即當(dāng)日內(nèi)發(fā)生交易的流通股股數(shù)與當(dāng)時股價的乘積;其二是2016年11月30日當(dāng)日各只股票的漲跌幅(記作Return_20D),即當(dāng)日股票價格的漲跌值/昨日收盤價*100。本文的因變量選擇為2016年11月30日之后第20日各只股票的漲跌情況(記為Forward_Return),這里將根據(jù)2016年11月30日及之后第20日的漲跌幅,對各股票價格的漲跌情況進行處理:若上漲則定義為1,若持平或下跌定義為0。
這里需要對各只股票流通市值(CirculatingMarketValue)進行預(yù)處理。首先對各只股票的流通市值取為對數(shù),取對數(shù)的處理并不會改變數(shù)據(jù)的單調(diào)關(guān)系,但對于數(shù)據(jù)的尺度進行了改變,這可以減少大市值股票對模型的影響。其次再對取對數(shù)后的股票流通市值進行標(biāo)準(zhǔn)化處理(記作LN_CirculatingMarketValue),即取對數(shù)后的各股票流通市值數(shù)據(jù)減去其均值后再除以其標(biāo)準(zhǔn)差。這可以使得最終在模型中選入的自變量LN_CirculatingMarketValue和自變量Return_20D量級相當(dāng)。
本文中選取的指標(biāo)和經(jīng)過預(yù)處理后的部分?jǐn)?shù)據(jù)如表一所示:
2.模型的建立與實驗結(jié)果
本文使用了matlab編程軟件提供的廣義線性模型函數(shù)工具箱進行模型擬合:我們調(diào)用了其中的glmfit函數(shù),并將distr的參數(shù)選取為binomial,表示本文模型中的因變量選定為服從伯努利分布,再將link的參數(shù)選取為logit,表示本文模型中的連接函數(shù)選為,表示伯努利分布的參數(shù)。
根據(jù)matlab編程軟件返回的計算結(jié)果,我們得到的Logistic回歸方程如下式所示:
再根據(jù)matlab軟件返回的各參數(shù)的統(tǒng)計量依次為-14.35、-3.97和3.97以及對應(yīng)的值均小于0.05可知,上述模型中的三個參數(shù)均顯著,同時整個方程也是顯著,擬合是有效的。本文中模型的建立說明我們可以嘗試使用當(dāng)日的股票的漲跌幅和當(dāng)日的流通市值數(shù)據(jù)來預(yù)測20天后股票的漲跌情況。這具有一定的實際應(yīng)用價值。
參考文獻
[1]吳曉剛.廣義線性模型[M].格致出版社,上海人民出版社,2011.
[2]賈俊平、何曉群、金勇進.統(tǒng)計學(xué)[M].中國人民大學(xué)出版社,2014.
[3]龐素琳.Logistic回歸模型在信用風(fēng)險分析中的應(yīng)用.數(shù)學(xué)的實踐與認(rèn)識[J].2006.
[4]于立勇,詹捷輝.基于Logistic回歸分析的違約概率預(yù)測研究.財經(jīng)研究[J].2004.