張小樂(lè),黃晶霞
(1.楚雄師范學(xué)院數(shù)學(xué)系,云南 楚雄 675000;2.云南大學(xué)信息學(xué)院,云南 昆明 650031)
Logistic回歸模型不僅可以應(yīng)用于人口預(yù)測(cè),還可用于醫(yī)療衛(wèi)生、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)等各個(gè)領(lǐng)域。在統(tǒng)計(jì)研究過(guò)程中,我們經(jīng)常會(huì)遇到因變量為虛擬變量的情形,例如,在人口預(yù)測(cè)中生存率與死亡率、發(fā)病與未發(fā)病、性別比例問(wèn)題。這時(shí)用線性回歸模型的方法對(duì)此類問(wèn)題進(jìn)行研究已不再可行,而logistic回歸模型可同時(shí)分析包含離散變量和連續(xù)變量的多個(gè)自變量,并能有效地分析自變量之間的交互作用,為多個(gè)自變量與因變量之間的相互關(guān)系提供一個(gè)定量描述。
本文在介紹Logistic回歸模型的基礎(chǔ)上,基于數(shù)值微分和最小二乘曲線擬合對(duì)Logistic回歸模型進(jìn)行了參數(shù)估計(jì),這種方法對(duì)人口、資源、環(huán)境等的發(fā)展和預(yù)測(cè)具有應(yīng)用價(jià)值.只要滿足Logistic生長(zhǎng)過(guò)程的事物,就可以采用Logistic函數(shù)預(yù)測(cè),而在用Logistic函數(shù)進(jìn)行預(yù)測(cè)的時(shí)候,本文中的估計(jì)方法就能發(fā)揮作用。
Logistic模型是1938年Verhulst-Pearl在修正非密度方程時(shí)提出來(lái)的,他認(rèn)為在一定的環(huán)境中種群的增長(zhǎng)總存在一個(gè)上限,當(dāng)種群的數(shù)量逐漸向著上限上升時(shí)實(shí)際增長(zhǎng)率就要逐漸地減少,因而也被稱為 Verhulst-Pearl方程[1]。
人口問(wèn)題是影響我國(guó)發(fā)展的重要因素,準(zhǔn)確預(yù)測(cè)出未來(lái)人口的發(fā)展趨勢(shì)有重要的指導(dǎo)意義,我們考慮種內(nèi)對(duì)資源的競(jìng)爭(zhēng),自然資源、環(huán)境條件等因素對(duì)人口的增長(zhǎng)起阻滯作用,且隨著人口的增加,阻滯作用越來(lái)越大。
我們記時(shí)刻t的人口為x(t),并將x(t)看作連續(xù)、可微的函數(shù)。記初始時(shí)刻(t=0)的人口為x0.假設(shè)人口增長(zhǎng)率為常數(shù)r,也就是說(shuō)單位時(shí)間內(nèi)x(t)的增量等于r乘以x(t)。我們考慮t到t+△t時(shí)間內(nèi)人口的增量,則有
令△t→0,則得到x(t)滿足如下的微分方程
阻滯作用體現(xiàn)在對(duì)人口增長(zhǎng)率r的影響上,使得r隨著人口數(shù)量x的增加而下降.若我們把人口增長(zhǎng)率r表示為人口數(shù)量x的函數(shù)r(x),則r(x)是減函數(shù),于是(2)式可寫為
設(shè)r(x)是x的線性函數(shù),即
這里的r表示人口很少時(shí)(理論上設(shè)x=0)的增長(zhǎng)率,即人口不受環(huán)境和資源限制的固有增長(zhǎng)率。為了明確參數(shù)s的意義,引入最大人口容量xm,即自然資源和環(huán)境條件所能容納的最大人口數(shù)量。則當(dāng)x=xm時(shí),人口的增長(zhǎng)率為零,即增長(zhǎng)率r(xm)=r-sxm=0,從而得到,于是(4)式可改寫為
Logistic回歸模型的參數(shù)估計(jì)的方法有很多,如極大似然估計(jì)、最小二乘估計(jì)、穩(wěn)健估計(jì)、Bayes估計(jì)等等。本文用數(shù)值微分和曲線擬合法對(duì)logistic模型進(jìn)行參數(shù)估計(jì),并進(jìn)行實(shí)證分析。
由Logistic模型的解(8)中可知,只要對(duì)參數(shù)xm,a,b進(jìn)行估計(jì)即可,主要方法和步驟如下:
(1)首先求xm.對(duì)(6)式變形得到
(2)求參數(shù)a、b.將 (8)式變形為
根據(jù)中國(guó)統(tǒng)計(jì)局在《統(tǒng)計(jì)年鑒》中公布的“1950—2010”年人口統(tǒng)計(jì)數(shù)據(jù),本文只選取1980年到2005年的總?cè)丝跀?shù)據(jù)(見表1)來(lái)擬合。
表1 1980—2005年中國(guó)人口數(shù)據(jù)(萬(wàn)人)
首先運(yùn)用數(shù)值微分得到年增長(zhǎng)率的值,然后再利用Matlab軟件進(jìn)行擬合[6]。
通過(guò)Matlab軟件畫出散點(diǎn)圖(見圖1)可以看出該圖是一條單調(diào)函數(shù)的圖像,且是指數(shù)型的,因此可以選用一次多項(xiàng)式進(jìn)行擬合。
圖1 1980—2005年擬合數(shù)據(jù)點(diǎn)
由表一中的數(shù)據(jù)估算出 xm=15.14(單位:億),a=0.5726,b=0.05073,從而得到中國(guó)人口的Logistic回歸模型的具體表達(dá)式為
通過(guò)Matlab軟件進(jìn)行擬合可以直觀地看到數(shù)值的變化情況(見圖2),預(yù)測(cè)的數(shù)據(jù)和實(shí)際數(shù)據(jù)曲線擬合得比較好。
圖2 1980—2005年數(shù)據(jù)點(diǎn)與擬合曲線
于是求出預(yù)測(cè)中國(guó)人口的具體公式
我們?nèi)?980年的人口總數(shù)為x0=9.8705(注:單位:億)。
根據(jù)上式可以計(jì)算2000和2005年的人口數(shù):
當(dāng)t=20時(shí),
誤差都較小,說(shuō)明預(yù)測(cè)結(jié)果比較準(zhǔn)確。
下面來(lái)預(yù)測(cè)2015年的人口總數(shù),即取t=35,則
以此類推,我們可以估算出未來(lái)幾年的中國(guó)人口數(shù)(見表2)。
表2 由上述公式可估算未來(lái)2015—2040年的中國(guó)總?cè)丝跀?shù):(單位:億)
本文基于數(shù)值微分和最小二乘曲線擬合對(duì)Logistic回歸模型進(jìn)行了參數(shù)估計(jì),這種方法對(duì)人口、資源、環(huán)境等的發(fā)展和預(yù)測(cè)具有應(yīng)用價(jià)值,由此計(jì)算了我國(guó)2000年到2005年總?cè)丝跀?shù)的誤差情況,并預(yù)測(cè)了2015年—2040年我國(guó)的人口總數(shù)。只要滿足Logistic生長(zhǎng)過(guò)程的事物,就可以采用Logistic函數(shù)預(yù)測(cè),而在用Logistic函數(shù)進(jìn)行預(yù)測(cè)的時(shí)候,本文中的估計(jì)方法就能發(fā)揮作用。
[1]姜啟源.謝金星.葉俊.數(shù)學(xué)模型[M].北京:高等教育出版社,2003:12—14.
[2]馬修斯 (Mathews,J,H),芬克 (Fink,K.D.).周璐.數(shù)值方法[M].北京:電子工業(yè)出版社,2010:12—14,207—208,261—264.
[3]李秋紅.何先平.數(shù)學(xué)模型在人口增長(zhǎng)中的應(yīng)用[J].太原師范學(xué)院學(xué)報(bào),2008,7(2):55—56.
[4]李華中.Logistic模型在人口預(yù)測(cè)中的應(yīng)用[J].江蘇石油化工學(xué)院學(xué)報(bào),1998,10(2):32—33.
[5]邵曉峰.張克新.黃岡市人口增長(zhǎng)模型的研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2008,38(13):97—101.
[6]任玉杰.數(shù)值分析及MATLAB實(shí)現(xiàn)[M].北京:高等教育出版社,2007:213—216.