金澳
【摘要】本文由線性回歸的局限性出發(fā),引出Logistic回歸模型,介紹其重要意義。再通過與線性回歸模型的比對,研究了Logistic模型的理論推導(dǎo)過程,介紹了模型中的連接函數(shù)和發(fā)生比。最后簡單介紹了Logistic回歸模型在實(shí)際生活中的具體應(yīng)用和廣闊的應(yīng)用前景。
【關(guān)鍵詞】Logistic回歸;廣義線性回歸;發(fā)生比
一、引言
在回歸模型的實(shí)際應(yīng)用中,因變量在常規(guī)的選為連續(xù)變量情況以外,也可以選為分類變量,比如:日常生活中顧客對于某種商品是否選擇購買;病人在服用某種藥物后是否有效果;個人在使用信用卡后是否按時還款。此時我們可以選擇分類變量來代替數(shù)值型變量,但同時目前應(yīng)用最廣泛的統(tǒng)計(jì)方法——線性回歸模型也已不再適用。
在處理分類變量形式的因變量時需要對線性模型有所改變,通常使用對數(shù)線性模型。分類型因變量為特殊的二分類,并且選取特定的連接函數(shù)時,此時即為Logistic回歸模型。
在線性回歸模型中,對于自變量的變量類型和其值域是沒有限制的。但是線性回歸模型中的因變量必須為連續(xù)的。而在實(shí)際研究中,線性回歸的因變量為連續(xù)測量的假設(shè)往往不能接受,特別的當(dāng)因變量為分類值時會與假設(shè)發(fā)生矛盾。Logistic回歸模型就是完善線性回歸對于因變量類型限制的不足。
二、線性回歸模型的局限
1.Gauss一Markov假設(shè)
在應(yīng)用線性回歸模型y=α+βX+ε進(jìn)行理論推導(dǎo)和實(shí)際數(shù)據(jù)擬合時是有前提和假設(shè)的——其稱為Gauss-Markov假設(shè),具體定義如下:
(1)自變量對因變量有顯著的線性影響;
(2)誤差項(xiàng)作為隨機(jī)變量,其期望值為0;
(3)方差齊性即所有隨扒誤差項(xiàng)具有相同的、為常數(shù)的方差;
(4)不同的隨機(jī)誤差之間彼此不相關(guān);
(5)自變量與誤差項(xiàng)之間相互獨(dú)立;
(6)自變量之間不存在(完全的)線性關(guān)系。
上述假設(shè)在線性回歸模型的參數(shù)估計(jì)、檢驗(yàn),模型的擬合優(yōu)度評價等方面的理論推導(dǎo)發(fā)揮了重要作用。
2.線性回歸模型的局限
由于回歸方程中對自變量值域沒有限制,因此作為自變量x1,x2,…,xn的函數(shù),因變量y的值域也為(-∞,+∞)。然而,現(xiàn)實(shí)生活中,y的取值通常是有限制的,比如觀察對象的死亡年齡只能在一個有限區(qū)間取值,又如觀察對象死亡與否只能取死亡(記為1)或者存活(記為0)這兩個值。當(dāng)因變量為分類型而不是數(shù)值型時就無法滿足上述的Gauss-Markov假設(shè)。同時,由線性模型yi=α+βxi進(jìn)行估計(jì)或預(yù)算時,祒xi取值很大時可能超出[0,1]區(qū)間,這與y的值域矛盾。
當(dāng)因變量為分類變量時,自變量與因變量之間的關(guān)系為非線性關(guān)系,線性模型y=α+βx+ε不能擬合這種關(guān)系。
三,Logistic回歸模型
1.Logistic回歸定義
我們假設(shè)因變量服從二元分布為f(y|π)=πy(1-π)(1-y),并且引入連結(jié)函數(shù)θ,這里θ的定義為:。我們再假設(shè)θ服從線性回歸,即θ=α+βx。
由上述代數(shù)運(yùn)算可以得到事件其中一個結(jié)果的發(fā)生概率π的表達(dá)式,這是一個非線性函數(shù)。且這個非線性函數(shù)可以通過線性函數(shù)轉(zhuǎn)化而來。Logistic函數(shù)的形狀如下圖所示呈S型。
由圖形所示,Logistic函數(shù)的值域?yàn)閇0,1]區(qū)間,這保證了由Logistic模型估計(jì)的概率值域的合理性。Logistic函數(shù)的S型曲線表明某個事件發(fā)生的概率受x變化的影響,當(dāng)x從-∞開始增加時,事件發(fā)生的概率為0且保持基本不變,但增加到中間階段時,概率突然增加很塊,再增加到某一程度后,概率又開始保持基本不變的水平,逐步接近于1。
這里特別需要指出兩點(diǎn)。首先是,本文在這里將連接函數(shù)選擇為。但在處理相同的問題時連接函數(shù)可以有其他不同的選擇。Logistic回歸是特指因變量僅有兩個分類并且連接函數(shù)選為時的情形。其次是,Logistic回歸對于因變量服從伯努利分布有假設(shè)。而伯努利分布屬于指數(shù)分布族,因此Logistic回歸可以整合入廣義線性回歸的框架中。
2.Logistic回歸的發(fā)生比
我們將發(fā)生比(odds)定義為事件不發(fā)生的條件概率與發(fā)生概率之比,即:
由0≤π≤1則odds>0.若x增加,則當(dāng)β為正時eβx>1,發(fā)生比odds增加;當(dāng)β為負(fù)數(shù)時eβx<1,odds減小;當(dāng)β=0,eβx=1是發(fā)生比不受自變量變化的影響。
由可知,當(dāng)x增加一個單位時有
兩式相除后可午。因此eβ可以表示當(dāng)x增加一個單位而導(dǎo)致的發(fā)生比的變動。
四、應(yīng)用場景
Logistic回歸模型的應(yīng)用范圍十分廣泛,如利用上市公司的財務(wù)指標(biāo)數(shù)據(jù)來估計(jì)其信貨違約概率;利用糖尿病和糖耐量的人群的身體指標(biāo)等相關(guān)信息篩選出對糖尿病發(fā)生的危險因素以及估算患病率;顧客在商品購物中又不滿意結(jié)果的情形中,其抱怨行為:直接抱怨、私下抱怨和第三方抱怨和該顧客重新購買的意愿行為進(jìn)行分析。
在現(xiàn)實(shí)生活中,在連續(xù)性變量以外,我們也會遇到非線性的、是與非的問題,因此在理論上和應(yīng)用上對Logistic回歸模型的理解是必要的。在實(shí)際應(yīng)用中,該模型的評價、枯計(jì)等各個階段都已經(jīng)有了充分的理論保證,因此有著廣闊的應(yīng)用前景。
【參考文獻(xiàn)】
[1]吳曉剛.廣義線性模型[M].格致出版社,上海人民出版社,2011
[2]于立勇,詹捷輝.基于Logistic回歸分析的違約概率預(yù)測研究[J].財經(jīng)研究,2004.1001-9952
[3]馬林茂,向紅丁.2型糖尿病危險因素的Logistic回歸分析[J].中國糖尿病雜志,1999
[4]莊貴軍,朱美艷.顧客抱怨行為與重購意愿的logistic回歸分析[J].商業(yè)經(jīng)濟(jì)與管理,2009.1000-2154