徐燕
[摘 要] SPSS軟件菜單化操作、圖表化的輸出特點是非統(tǒng)計學(xué)專業(yè)人員進行數(shù)據(jù)分析的有利工具。該文以2019年全國大學(xué)生數(shù)學(xué)建模競賽D題為例,以SPSS23軟件為工具,簡述該軟件在數(shù)學(xué)建模競賽中的應(yīng)用,對數(shù)據(jù)進行相關(guān)分析、多元線性回歸分析和殘差分析等。
[關(guān)鍵詞] 數(shù)學(xué)建模;SPSS;相關(guān)分析;多元線性回歸;殘差分析
[基金項目] 2019年度高等學(xué)校中青年教師國內(nèi)訪問學(xué)者項目資助
[作者簡介] 徐 燕(1981—),女,博士,廣州民航職業(yè)技術(shù)學(xué)院人文社科學(xué)院數(shù)理統(tǒng)計學(xué)專業(yè)副教授,南方醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院訪問學(xué)者,主要從事統(tǒng)計學(xué)方法和應(yīng)用教學(xué)與研究。
[中圖分類號] G642.0? ? [文獻標識碼] A? ? [文章編號] 1674-9324(2020)23-0331-03? ? [收稿日期] 2019-10-08
一、引言
SPSS軟件是當前世界上應(yīng)用最廣泛的統(tǒng)計軟件之一,特別是對于非統(tǒng)計學(xué)專業(yè)人員,其菜單化操作、圖表化輸出的風(fēng)格體現(xiàn)了其自動化、智能化操作平臺發(fā)展的成果。使用SPSS軟件,我們幾乎可以完全自動的自變量的預(yù)變換、篩選、模型優(yōu)化、檢驗等工作。因此,SPSS軟件是一個深受廣大用戶的喜愛的強大的統(tǒng)計工具。
信息技術(shù)的飛速發(fā)展,產(chǎn)生了海量的數(shù)據(jù)。如何管理、分析和使用大數(shù)據(jù)是當前市場迫切的需求,從全國大學(xué)生數(shù)學(xué)建模競賽近年來的頻頻出現(xiàn)的大數(shù)據(jù)相關(guān)的題目也可以感受的到。作為非統(tǒng)計學(xué)專業(yè)的大專生,對于復(fù)雜的數(shù)據(jù)統(tǒng)計分析方法和工具接觸并不很多,如何讓這些學(xué)生快速入門和掌握一門有利的數(shù)據(jù)分析軟件工具、完成數(shù)據(jù)分析和建模等任務(wù)就是我們近幾年來數(shù)學(xué)建模培訓(xùn)教學(xué)研究的重點。
二、2019年全國大學(xué)生數(shù)學(xué)建模競賽D題簡述
空氣污染對生態(tài)環(huán)境和人類健康危害巨大,通過對PM2.5等“兩塵四氣”濃度的實時監(jiān)測可以及時掌握空氣質(zhì)量,對污染源采取相應(yīng)措施。由于國控點監(jiān)測數(shù)據(jù)的實時性和經(jīng)濟性不足,而自主研發(fā)時效性和經(jīng)濟性并優(yōu)的微型空氣質(zhì)量檢測儀的監(jiān)測數(shù)據(jù)可能受到溫度等氣象學(xué)因素的影響,以及設(shè)備本身隨著使用時間的延長可能產(chǎn)生監(jiān)測誤差,因此我們需要對自建點監(jiān)測數(shù)據(jù)進行檢驗和校正,提高其精確度。我們首先需要對自建點數(shù)據(jù)與國控點數(shù)據(jù)進行描述性統(tǒng)計分析和探索性分析,尋找導(dǎo)致自建點數(shù)據(jù)與國控點數(shù)據(jù)差異的因素,最后建立模型對自建點數(shù)據(jù)進行校準和預(yù)測。
監(jiān)測數(shù)據(jù)可能受到溫度等氣象學(xué)因素的影響,我們通過相關(guān)分析探索變量之間的關(guān)系,再通過散點圖初步發(fā)現(xiàn)變量之間的回歸關(guān)系,進而采用多元回歸分析進行建模,并對模型進行殘差分析。我們以競賽提供的監(jiān)測數(shù)據(jù)為例,使用SPSS23進行數(shù)據(jù)分析和建模。
三、SPSS23數(shù)據(jù)分析和建模應(yīng)用
(一)建立數(shù)據(jù)文件
競賽提供的Excel數(shù)據(jù)文件,SPSS軟件可以直接讀取Excel數(shù)據(jù)文件,需要對變量進行適當?shù)亩x,從而生成完善的SPSS數(shù)據(jù)文件。
(二)相關(guān)分析
SPSS軟件中提供了“相關(guān)”子菜單,其中雙變量(Bivariate)過程可以實現(xiàn)連續(xù)性變量的相關(guān)分析。
1.操作過程。(1)“分析”→“相關(guān)”→“雙變量”,打開“雙變量相關(guān)”對話框;(2)將“PM2.5”與“溫度”“濕度”“風(fēng)速”“壓強”“降水量”選入“變量”列表框中;(3)單擊“確定”按鈕。
2.結(jié)果分析。相關(guān)分析結(jié)果如表1所示,PM2.5與風(fēng)速和溫度存在負相關(guān)關(guān)系(Pearson r<0,P<0.001),溫度的增大,PM2.5有減小的趨勢;PM2.5與壓強、降水量和濕度有正相關(guān)關(guān)系(Pearson r>0,P<0.001),隨著壓強或降水量或濕度的增大,PM2.5有增大的趨勢。
由相關(guān)分析的結(jié)果,PM2.5等監(jiān)測變量指標與溫度等氣象學(xué)變量有相關(guān)關(guān)系,因此,提示我們進行下一步的多元回歸分析。
(三)多元線性回歸分析
SPSS軟件中提供了“回歸”子菜單,其中線性(Linear)過程可以實現(xiàn)多元線性回歸分析。
1.操作過程。第一步:做散點圖,觀察變量之間的趨勢。因為有多個變量,所以做散點圖矩陣。(1)“圖形”→“圖表建構(gòu)程序”,打開“圖表建構(gòu)程序”對話框,選擇“散點”,將右側(cè)出現(xiàn)的散點圖矩陣圖表拖入畫布中,單擊“確定”,繪制散點圖。(2)在輸出文件中雙擊圖形區(qū)域,進入編輯狀態(tài),選擇“元素”→“增加趨勢線”,在圖形中添加回歸線。
從散點圖矩陣可以看到,PM2.5與風(fēng)速和溫度存在負相關(guān)關(guān)系,PM2.5與壓強、降水量和濕度有正相關(guān)關(guān)系,與相關(guān)分析結(jié)果一致,并且變量之間呈現(xiàn)一定的直線關(guān)系,因此,提示我們進行下一步的多元線性回歸分析。
第二步:多重線性回歸分析,如圖1。(1)“分析”→“回歸”→“線性”,打開“線性回歸”對話框;(2)將“PM2.5_1”選入“因變量”列表框中,將“PM2.5”“溫度”“濕度”“風(fēng)速”“壓強”“降水量”選入“自變量”列表框中;(3)在“方法”下拉列表框中選擇“逐步”;(4)單擊“確定”按鈕。
由于進行了變量篩選,SPSS首先給出了每一步模型的輸入/移出變量,展示了變量的篩選過程,如表2(迭代步驟較多,僅展示前兩個模型的結(jié)果)。第二,SPSS給出了模型的匯總,報道了決定系數(shù)R、R方和調(diào)整的R方,R方的值越接近于1說明模型的擬合效果越好,如表3。第三,SPSS給出了模型的ANOVA檢驗,報道了變異的分解、自由度、均方和F值、P值,P<0.05說明模型有統(tǒng)計學(xué)意義,如表4。最后,SPSS給出了模型的參數(shù),以及各個系數(shù)的假設(shè)檢驗,從而我們可以寫出所建立的多元線性回歸方程。
第三步:殘差分析,首先對殘差的獨立性進行檢驗,可以在上述回歸過程中“統(tǒng)計量”子對話框匯總選擇“Durbin-Watson檢驗”,如圖2。輸出結(jié)果如表5,Durbin-Watson值為1.980,通過查統(tǒng)計表,與界值進行比較說明滿足獨立性。然后,SPSS軟件的“圖形”模塊可以輸出殘差直方圖和P-P圖,從圖中可以看出,模型的殘差沒有嚴重的偏離,基本服從正態(tài)分布。因此,由殘差分析說明所建立的模型具有較好的擬合效果。
四、討論
相關(guān)分析與回歸分析關(guān)系密切,一般有相關(guān)分析發(fā)現(xiàn)變量之間的相關(guān)性,相關(guān)系數(shù)r反映了兩個變量之間的密切程度,下一步利用散點圖判斷變量之間的線性或非線性關(guān)系,然后利用回歸分析進行建模,回歸系數(shù)β反映了自變量對因變量的平均數(shù)量變化關(guān)系。
多元線性回歸模型可以采用“向前”“向后”“逐步”等多種回歸分析方法來進行自變量的篩選,這些方法在分析中可以相互對比討論,同時結(jié)合人工篩選。
回歸分析有嚴格的使用條件,在擬合時需要不斷對這些條件進行檢驗判斷?;貧w模型建模步驟一般包括如下:①做散點圖觀察變量之間的變化趨勢;②對數(shù)據(jù)的分布特征進行探索和檢驗,進行預(yù)變換,使其滿足回歸分析的數(shù)據(jù)要求;③進行多重線性回歸分析,建立基本模型;④進行殘差分析,分析模型的擬合效果,討論離群點和多重共線性問題。經(jīng)過以上過程后,可以得到統(tǒng)計學(xué)上認可的模型,下一步還應(yīng)當結(jié)合專業(yè)背景,將分析結(jié)果應(yīng)用到實際中去檢驗其實用價值,討論實際應(yīng)用中存在的問題。
五、總結(jié)
我們以2019年大學(xué)生數(shù)學(xué)建模D題為例,利用SPSS軟件建立了有效的校準模型.SPSS軟件是非統(tǒng)計學(xué)專業(yè)的大專生解決數(shù)據(jù)分析、數(shù)據(jù)建模問題的有利工具,其菜單化、圖表化的特點讓非統(tǒng)計學(xué)專業(yè)的大專生能夠快速入門、輸出結(jié)果結(jié)構(gòu)化簡單明了,易于理解和應(yīng)用。
參考文獻
[1]張文彤,鄺春偉.SPSS統(tǒng)計分析基礎(chǔ)教程(第3版)[M].北京:高等教育出版社,2017.
[2]武松,潘發(fā)明.SPSS統(tǒng)計分析大全[M].北京:清華大學(xué)出版社,2014.
[3]林建忠.回歸分析與線性統(tǒng)計模型[M].上海:上海交通大學(xué)出版社,2018.
[4]汪東華.多元統(tǒng)計分析與SPSS應(yīng)用(第二版)[M].上海:華東理工大學(xué)出版社,2018.
Application Practice of SPSS Software in Mathematical Modeling Competition
XU Yan1,2
(1.Academy of Humanities,Guangzhou Vocational and Technical College of Civil Aviation,Guangzhou,Guangdong 510403,China;
2.College of Biomedical Engineering,Southern Medical University,Guangzhou,Guangdong 510515,China)
Abstract:The menu-based operation and graphical output characteristics of the SPSS software are useful tools for non-statistical professionals to carry out data analysis.Taking problem D of National College students' Mathematical Modeling Competition in 2019 as an example,this paper briefly describes the application of SPSS23 software in mathematical modeling competition,and carries on the correlation analysis,multiple linear regression analysis and residual analysis,etc.
Key words:mathematical modeling;SPSS;correlation analysis;multiple linear regression;residual analysis