国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

線性回歸方法在數(shù)據(jù)挖掘中的應(yīng)用和改進(jìn)

2012-01-07 09:15邵鴻翔
統(tǒng)計(jì)與決策 2012年14期
關(guān)鍵詞:斷點(diǎn)回歸方程線性

邵鴻翔

(洛陽理工學(xué)院 工程實(shí)訓(xùn)中心,河南 洛陽 471023)

0 引言

線性回歸是一種古老類型的技術(shù)統(tǒng)計(jì),是重要的也是最有用的挖掘工具之一。線性回歸能夠使挖掘者找到數(shù)據(jù)中最有價(jià)值和最深入的發(fā)現(xiàn),同時(shí),也很容易解釋在被發(fā)現(xiàn)的關(guān)系上發(fā)生了什么。

本質(zhì)上,線性回歸是一種探索式、驗(yàn)證性的方式,尋找穿過狀態(tài)空間的單獨(dú)一條直線以便使這條直線盡可能地靠近空間中的所有點(diǎn)。當(dāng)狀態(tài)空間多于二維時(shí),它不是恰好一條直線。在三維空間中,它是一個(gè)面,在多維空間中,它將是二維空間中直線的高緯度模擬。

圖1 典型的二維線性回歸

以二維的狀態(tài)空間為例,只要數(shù)據(jù)很好地聚合至少大致接近于一條直線(如圖1所示),就可以對(duì)數(shù)據(jù)集合進(jìn)行解釋和預(yù)測(cè)。因?yàn)橹本€被調(diào)整得離所有的點(diǎn)盡可能近,當(dāng)通過一個(gè)已知變量進(jìn)行預(yù)測(cè)時(shí),其預(yù)測(cè)值在狀態(tài)空間中應(yīng)當(dāng)在直線附近。所以,直線上的點(diǎn)所返回的變量值是一個(gè)合理值的近似估計(jì)值。

1 傳統(tǒng)線性回歸模型

1.1 一元線性回歸模型

在線性回歸中,最簡單的模型就是一元線性回歸。我們對(duì)于x取定一組不完全相同的值x1,x2,…,xn,設(shè)Y1,Y2,…,Yn分別是在x1,x2,…,xn處對(duì)Y的獨(dú)立觀察結(jié)果,稱(x1,Y1),(x2,Y2),…,(xn,Yn)是一個(gè)樣本,對(duì)應(yīng)的樣本值記為(x1,y1),(x2,y2),…,(xn,yn)。其總體模型可以表示為:

其中,εi是“噪聲”變量,是均值為0,標(biāo)準(zhǔn)差為σ的正態(tài)分布隨機(jī)變量。設(shè)b0和b1是對(duì)β0和β1的估計(jì),由統(tǒng)計(jì)學(xué)知識(shí)不難得出,在xi處對(duì)Y的回歸估計(jì)為:

殘差(誤差)為:

根據(jù)最小二乘法可知,最好的回歸直線是選擇b0和b1使得總的誤差(殘差平方和SSR)最?。?/p>

由極值原理可解得:

1.2 可轉(zhuǎn)化為線性回歸的曲線回歸模型

在實(shí)際中,常會(huì)遇到更為復(fù)雜的回歸問題,而不僅僅是簡單的一元線性回歸,但在某些情況下,可以通過適當(dāng)?shù)淖兞哭D(zhuǎn)換,將其化為一元線性回歸來處理。

以下是幾種常見的可轉(zhuǎn)化為一元線性回歸的模型(其中α,β,σ2是與x無關(guān)的未知參數(shù)):

將原式兩邊取對(duì)數(shù)得:

令 lnY=Y′,lnα=a,β=b,x=x′,lnε=ε′,可轉(zhuǎn)化為一元線性模型:

(2)Y=αxβ?ε,lnε~N(0,σ2)

將原式兩邊取對(duì)數(shù)得:

令lnY=Y′,lnα=a,β=b,lnx=x′,lnε=ε′,可轉(zhuǎn)化為一元線性模型:

(3)Y=α+βh(x)+ε,ε~N(0,σ2),h(x)是x的已知函數(shù)

令α=a,β=b,h(x)=x′,可轉(zhuǎn)化為一元線性模型:

1.3 多元線性回歸模型

與一元線性回歸模型類似,假設(shè)自變量為x1,x2,…,xp(p>1),對(duì)應(yīng)的樣本值記為 (x11,x21,…,xp1,y1),(x12,x22,…,xp2,y2),…,(x1n,x2n,…,xpn,yn)。則多元線性回歸模型可表示為:

設(shè)b0,b1,…,bp是對(duì)β0,β1,…,βp的估計(jì),則在xi處對(duì)Y的回歸估計(jì)為:

根據(jù)最小二乘法和極值原理可得:

式(13)稱為正規(guī)方程組,為了求解的方便,可將式寫成矩陣的形式,為此,引入矩陣:

于是式(13)可以寫成:

其中,XT為X的轉(zhuǎn)置矩陣。假設(shè)(XTX)-1存在,可得:

即可得回歸方程:

2 線性回歸在數(shù)據(jù)挖掘中的應(yīng)用

由于線性回歸是一種常用的統(tǒng)計(jì)技術(shù),并且被普遍的適用于許多領(lǐng)域,因此提供線性回歸功能的工具有很多。專業(yè)的統(tǒng)計(jì)軟件SPSS和SAS,數(shù)學(xué)軟件MATLAB,數(shù)據(jù)庫軟件SQL Server 2008,辦公軟件Excel,都可以用來進(jìn)行線性回歸的分析。在此,只介紹比較有代表性的Excel和MATLAB。

2.1 使用Excel進(jìn)行線性回歸

Excel是微軟辦公套裝軟件的一個(gè)重要的組成部分,它可以進(jìn)行各種數(shù)據(jù)的處理、統(tǒng)計(jì)分析和輔助決策操作,廣泛地應(yīng)用于管理、統(tǒng)計(jì)財(cái)經(jīng)、金融等眾多領(lǐng)域。利用Excel進(jìn)行線性回歸的優(yōu)點(diǎn)是,方便、快捷、直觀,挖掘者不需具有編程能力。但是,Excel畢竟不是專業(yè)的統(tǒng)計(jì)工具,其提供的回歸功能僅局限于二維的狀態(tài)空間,且回歸的結(jié)果不夠精確。

例1表1中的數(shù)據(jù)為研究某一化學(xué)反應(yīng)過程中,溫度x(℃)對(duì)產(chǎn)品得率Y(%)的影響,測(cè)得數(shù)據(jù)如下:

表1 溫度與產(chǎn)品得率關(guān)系表

圖2是利用Excel的散點(diǎn)圖功能,將表1中的數(shù)據(jù)顯示為散點(diǎn)圖,設(shè)置“趨勢(shì)線預(yù)測(cè)/回歸分析類型為線性”,即得出回歸方程及相關(guān)系數(shù)R的平方(R2越趨近于1表明所得回歸方程越能準(zhǔn)確的描述狀態(tài)空間)。

圖2 溫度與產(chǎn)品得率散點(diǎn)圖

在Excel中,除了簡單的一元線性回歸模型外,還提供了一些其他的一元回歸模型(如指數(shù)、對(duì)數(shù)、多項(xiàng)式、冪、移動(dòng)平均等)。

例2表2是1957年美國舊轎車價(jià)格的調(diào)查資料,今以x表示轎車的使用年數(shù),Y表示相應(yīng)的平均價(jià)格。

表2 轎車使用年數(shù)與平均價(jià)格關(guān)系表

觀測(cè)散點(diǎn)圖,可知回歸曲線大致呈指數(shù)形式,因此使用Excel中的指數(shù)回歸模型求回歸方程(如圖3)。

圖3 轎車使用年數(shù)與平均價(jià)格散點(diǎn)圖

Excel中所提供的預(yù)測(cè)/回歸模型僅限于二維空間,但是通過使用一些插件可以進(jìn)行多元線性回歸估計(jì),如StatCalc插件。

例3這里用改編自Chaterjee,Hadi和Price在大金融機(jī)構(gòu)中評(píng)價(jià)管理人員的表現(xiàn)的例子來例示多元線性回歸的過程。

表3所示的數(shù)據(jù)源自一個(gè)大金融機(jī)構(gòu)的某個(gè)部門的一項(xiàng)對(duì)辦公室工作人員調(diào)查的例子。因變量是對(duì)在該機(jī)構(gòu)的管理者領(lǐng)導(dǎo)一個(gè)部門的效率的衡量,所有的因變量和自變量都是由25個(gè)雇員按照管理者工作的不同方面進(jìn)行從1到5的分級(jí)。作為結(jié)果,對(duì)于每個(gè)變量的最小值為25,最大值為125。這些分級(jí)是對(duì)在30個(gè)部門,每個(gè)部門25個(gè)雇員的調(diào)查問題的回答。分析目的是探索用調(diào)查問卷方式預(yù)測(cè)部門的效率的可行性,從而避免了直接衡量效率的努力。變量是對(duì)調(diào)查問題的回答,并描述如下:Y,管理的效率衡量;X1,處理雇員的抱怨;X2,不允許有特權(quán);X3,學(xué)習(xí)新事物的機(jī)會(huì);X4,根據(jù)表現(xiàn)提拔;X5,對(duì)差的表現(xiàn)過于挑剔;X6,推進(jìn)更好的工作的進(jìn)度。

表3 管理效率衡量分析表

使用StatCalc此插件計(jì)算得出的具體結(jié)果如圖10:

圖4 StaCalc的分析結(jié)果

2.2 使用MATLAB進(jìn)行線性回歸

圖5是對(duì)例1進(jìn)行線性回歸所編寫的代碼。從運(yùn)行結(jié)果可以看出,求出的回歸方程為y=-2.7394+0.4830x,與Excel所得回歸方程基本一致。圖6則是此段代碼運(yùn)行生成的源數(shù)據(jù)的散點(diǎn)圖及回歸曲線。

圖5 對(duì)例1線性回歸的MATLAB代碼

圖6 MATLAB所得例1的散點(diǎn)圖及回歸曲線

圖7,是對(duì)例2進(jìn)行回歸所編寫的代碼。這里,先將y取對(duì)數(shù),求得lny與x的線性回歸方程后,再還原為y與x的指數(shù)回歸方程。從運(yùn)行結(jié)果可以看出,求出的曲線回歸方程為y=3514.3e-0.2977x,相關(guān)系數(shù)R的平方為0.9979,比Excel所得回歸方程更為精確。圖8則是此段代碼運(yùn)行生成的源數(shù)據(jù)的散點(diǎn)圖及回歸曲線。

圖7 對(duì)例2線性回歸的MATLAB代碼

圖8 MATLAB所得例2的散點(diǎn)圖及回歸曲線

圖9,是使用MATALAB對(duì)例3中的數(shù)據(jù)進(jìn)行多元線性回歸的代碼及結(jié)果。從運(yùn)行結(jié)果可以看出,所得結(jié)果比圖4更加精確。

圖9 對(duì)例3線性回歸的MATLAB代碼

3 線性回歸算法的改進(jìn)

3.1 分段線性回歸

圖10,是一狀態(tài)空間的散點(diǎn)圖。從該關(guān)系圖可以看出,若使用傳統(tǒng)的線性回歸方法,使用一條連線將使得模型表示數(shù)據(jù)的效果較差。但是,如果使用兩條或多條連線,則模型可以更精確地逼近數(shù)據(jù)。此時(shí),回歸方程是一種分段函數(shù)的形式。分段的線性回歸模型包含2個(gè)要素——斷點(diǎn)和回歸方程,兩條連線的相交點(diǎn)是斷點(diǎn),狀態(tài)空間被斷點(diǎn)分割為一個(gè)個(gè)小的子空間,再依次對(duì)每個(gè)子空間進(jìn)行線性回歸。以下是分段線性回歸算法(DLA,Divide Linear Regression)的概要:

圖10 分段線性回歸

在此算法中,Examples是按自變量正序整理過的狀態(tài)空間。由上述算法概要不難看出,分段線性回歸算法比普通的線性回歸算法可以更精確的描述狀態(tài)空間,而對(duì)斷點(diǎn)的尋找則成為了該算法的關(guān)鍵所在,斷點(diǎn)的定義越準(zhǔn)確,則該算法對(duì)狀態(tài)空間的描述越準(zhǔn)確。一種簡單的方法就是尋找局部極值點(diǎn),因?yàn)榫植繕O值點(diǎn)必定為斷點(diǎn)。對(duì)于極值點(diǎn)的尋找,則可以采用爬山算法來實(shí)現(xiàn)。

3.2 孤立點(diǎn)

線性回歸本質(zhì)上可以避免特化過渡,而與特化程度相關(guān)的最主要的問題是孤立點(diǎn)的出現(xiàn)。孤立點(diǎn),是指數(shù)據(jù)點(diǎn)距離回歸平面很遠(yuǎn),并且在取值范圍的極值附近的點(diǎn),對(duì)結(jié)果的影響不均衡。舉個(gè)例子,有這樣一組數(shù)列:1,2,3,4,5,6,7,8,9,1000。該數(shù)列的取值范圍是從1到1000,然而該數(shù)列中的數(shù)據(jù)集中在其中1%的范圍內(nèi)。數(shù)列中的1000很顯然是一個(gè)孤立點(diǎn),因?yàn)樗铝⒂跀?shù)列中所有的其他值,但并不能說它是誤差或錯(cuò)誤數(shù)據(jù),它甚至可能是完全正確的數(shù)據(jù)。比如保險(xiǎn)索賠,大部分都金額較小,而小部分金額巨大。如果把孤立點(diǎn)一起列入線性回歸的狀態(tài)空間里,則肯定會(huì)影響最終回歸的結(jié)果。

對(duì)于孤立點(diǎn)的處理,可以考慮兩種方法。一種方法可以稱之為鄰域查找法(NC,Neighborhood-Check),它是通過鄰域的方法來定義孤立點(diǎn),當(dāng)一個(gè)數(shù)據(jù)點(diǎn)在某個(gè)半徑的范圍內(nèi)沒有其他的數(shù)據(jù)點(diǎn)存在時(shí),可以認(rèn)為其為孤立點(diǎn)。這種方法,直觀、簡單,但是開銷會(huì)很大,而且只能找出孤立點(diǎn),而不能對(duì)其進(jìn)行處理。

另一種方法可以稱之為等頻率分箱法(ESB,Equivalent Sub-Boxes),它是將狀態(tài)空間在觀測(cè)值的取值范圍內(nèi)進(jìn)行等頻率的分割成若干箱。以上文中的數(shù)列為例,假設(shè)將其分為100箱,則可分割為1~10、11~20、…、991~1000,100個(gè)等范圍的狀態(tài)空間,那么只有第一個(gè)箱子有9個(gè)數(shù)據(jù)、最后一個(gè)箱子有1個(gè)數(shù)據(jù),其他箱子都是空的。這時(shí)再進(jìn)行線性回歸,只需要面對(duì)一組包含9個(gè)值的狀態(tài)空間,和一個(gè)孤立點(diǎn)。但是,此數(shù)列若為7、8、9、10、11、12、13、14、15、1000,那么會(huì)有3個(gè)箱子有數(shù)據(jù),且1~10和11~20的箱子中的數(shù)據(jù)線性相關(guān)度是很高的。因此,為了避免上述情況的出現(xiàn),在分箱之后還應(yīng)再將線性相關(guān)的箱進(jìn)行合并。以下是該算法的概要:

在此算法中,Examples為狀態(tài)空間,k為需要進(jìn)行分箱的個(gè)數(shù),num是判定箱中的數(shù)據(jù)是否為孤立點(diǎn)的依據(jù)。

4 小結(jié)

線性回歸只是發(fā)現(xiàn)線性關(guān)系,其對(duì)于數(shù)據(jù)的異常變動(dòng)(比如孤立點(diǎn))很敏感,盡管也有算法的健壯版本可用,但總體說來它們對(duì)于波動(dòng)不太敏感。線性回歸問題對(duì)于輸入變量的共線問題消化不良,不能處理缺失數(shù)據(jù)。此外,線性回歸只是產(chǎn)生解釋,對(duì)于數(shù)據(jù)集結(jié)構(gòu)的很小變化可能高度敏感,而對(duì)于增量式的交互作用的敏感性卻很強(qiáng)。

雖然,線性回歸有許多局限性,但是不可否認(rèn)的是,線性回歸快速并且容易,并且一旦得到對(duì)于結(jié)果的解釋,會(huì)產(chǎn)生許多有用的信息。盡管大多數(shù)真實(shí)世界環(huán)境有明顯的非線性本質(zhì),但一個(gè)挖掘者在業(yè)務(wù)數(shù)據(jù)中所遇到的大多數(shù)關(guān)系最后是線性的、部分線性的、半線性的,或者是可線性化的。因此,在數(shù)據(jù)挖掘領(lǐng)域,線性回歸始終占有著重要地位。

[1]DORIAN PYLE.業(yè)務(wù)建模與數(shù)據(jù)挖掘[M].楊冬青,馬秀莉,唐世渭,譯.北京:機(jī)械工業(yè)出版社,2005.

[2]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2005.

[3]BERNARD W.TAYLOR III.數(shù)據(jù)、模型與決策[M].侯文華,譯.北京:機(jī)械工業(yè)出版社,2008.

[4]華德宏,劉 剛,蘭家隆.一種改進(jìn)的一元線性回歸算法[J].現(xiàn)代電子技術(shù),2006,7:63-68.

[5]PART-ENANDER,E.,Sjoberg,A..MATLAB 5手冊(cè)[M].王艷清等譯.北京:機(jī)械工業(yè)出版社,2000.

猜你喜歡
斷點(diǎn)回歸方程線性
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
采用直線回歸方程預(yù)測(cè)桑癭蚊防治適期
線性回歸方程的求解與應(yīng)用
線性回歸方程要點(diǎn)導(dǎo)學(xué)
砂泥互層斷點(diǎn)組合類型及其合理性分析
——以大慶長垣薩爾圖油田為例
用Eclipse調(diào)試Python
一類無限可能問題的解法
走進(jìn)回歸分析,讓回歸方程不再是你高考的絆腳石
二階線性微分方程的解法
基于線性正則變換的 LMS 自適應(yīng)濾波