国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分位回歸模型在數(shù)學(xué)成績分析中的應(yīng)用

2019-11-05 09:54:16劉紫璇劉新紅郭蕾胡繼飛徐英杰
關(guān)鍵詞:分位回歸系數(shù)位點(diǎn)

劉紫璇,劉新紅,郭蕾,胡繼飛,徐英杰

(北京石油化工學(xué)院,北京 102617)

高校學(xué)生考試成績往往是檢驗(yàn)學(xué)生學(xué)習(xí)效果和教師教學(xué)水平的重要依據(jù)。《高等數(shù)學(xué)》、《線性代數(shù)》和《概率論與數(shù)理統(tǒng)計(jì)》(簡稱概率統(tǒng)計(jì))是全國普通高校理工類專業(yè)的公共基礎(chǔ)必修課,3門數(shù)學(xué)課程的成績往往展現(xiàn)了大學(xué)生的某些數(shù)學(xué)能力。數(shù)學(xué)成績不僅關(guān)系到學(xué)生對后繼課程的學(xué)習(xí),而且直接關(guān)系到學(xué)生能力的培養(yǎng)和形成。通常學(xué)生的數(shù)學(xué)成績?nèi)Q于多方面的因素,如學(xué)生自身的數(shù)學(xué)基礎(chǔ)、學(xué)習(xí)態(tài)度、學(xué)習(xí)習(xí)慣、教師的教學(xué)能力以及家庭環(huán)境等。

大學(xué)數(shù)學(xué)考試歷史悠久,受到社會(huì)的高度認(rèn)可和高等院校師生的極大關(guān)注。為提高數(shù)學(xué)課程的教學(xué)效果,幫助學(xué)生通過數(shù)學(xué)類課程考試,專家學(xué)者從不同角度研究了學(xué)生的數(shù)學(xué)成績以及尋找影響數(shù)學(xué)成績的因素[1-2],希望通過成績分析和理論研究,有針對性地進(jìn)行教學(xué)改革,達(dá)到提升學(xué)生數(shù)學(xué)成績的目的。另外,在分析學(xué)生成績時(shí),諸多單個(gè)學(xué)生成績呈現(xiàn)出數(shù)據(jù)冗雜、不直觀,為避免因數(shù)據(jù)龐雜造成分析困難和主觀誤差,在分析學(xué)生成績時(shí),可通過軟件和數(shù)學(xué)模型解決數(shù)據(jù)繁多的棘手問題。

筆者以我校材料與工程學(xué)院16級學(xué)生的數(shù)學(xué)類課程成績?yōu)檠芯繉ο?,通過統(tǒng)計(jì)軟件R并利用分位回歸模型,研究了高考數(shù)學(xué)成績、高等數(shù)學(xué)成績、線性代數(shù)成績、概率統(tǒng)計(jì)成績之間的關(guān)系,分析他們之間的影響程度,為提高大學(xué)生的數(shù)學(xué)成績提供理論支撐。

1 分位回歸模型

Koenker和Bassett于1978年提出分位回歸(Quantile Regression)模型[3]。該模型較傳統(tǒng)線性回歸模型更靈活、更實(shí)用。根據(jù)因變量的條件分位數(shù)對自變量X進(jìn)行回歸,這樣得到所有分位數(shù)下的回歸模型。普通最小二乘回歸只能描述自變量影響因變量Y局部變化范圍,而分位回歸模型能精確地描述自變量對因變量的全局影響,而且可以清楚地刻畫自變量對因變量條件分布形狀的影響。分位回歸能夠捕捉到分布的尾部特征,當(dāng)自變量對不同部分因變量的分布產(chǎn)生不同的影響時(shí),如出現(xiàn)左偏或右偏的情況時(shí),能更加全面的描繪分布的特征,從而得到更全面的分析,而且其分位回歸系數(shù)估計(jì)比最小二乘回歸系數(shù)估計(jì)更加穩(wěn)健。分位回歸模型廣泛應(yīng)用于政治、經(jīng)濟(jì)、自然災(zāi)害等領(lǐng)域[4-8]。

1.1 分位回歸模型

設(shè)隨機(jī)變量Y的分布函數(shù)為F(y),則Y的第τ分位數(shù)為:

Qτ(Y)=inf{y:F(y)≥τ}

對于1組隨機(jī)樣本X,則

Qτ(Y|x)=XTατ

稱為τ的條件分位數(shù)函數(shù),X為P維向量,ατ是回歸系數(shù)組成的向量,可以通過

當(dāng)τ=0.5時(shí),該模型簡化為中位數(shù)回歸,而樣本中位數(shù)回歸是最小化殘差絕對值和的解,即

1.2 分位回歸模型的參數(shù)估計(jì)及檢驗(yàn)

參數(shù)的估計(jì)可采用線性規(guī)劃中的單純形算法、內(nèi)點(diǎn)法、預(yù)處理內(nèi)點(diǎn)法、稀疏Frisch-Newton法及罰方法。單純形算法適合樣本量不大和自變量個(gè)數(shù)不多的變量,其優(yōu)點(diǎn)是當(dāng)數(shù)據(jù)中存在大量離群點(diǎn)時(shí),單純形算法估計(jì)出來的參數(shù)穩(wěn)定性比較好,缺點(diǎn)是在處理大量數(shù)據(jù)時(shí)運(yùn)算的速度會(huì)顯著降低。對于樣本量比較大時(shí),可采用內(nèi)點(diǎn)法或預(yù)處理內(nèi)點(diǎn)法。對于樣本量大、自變量個(gè)數(shù)很多時(shí),可采用稀疏Frisch-Newton法。而對于罰方法主要包括“l(fā)asso”和 “scad”。這些算法均比較成熟,使用R軟件包中quantreg可實(shí)現(xiàn)。參數(shù)的檢驗(yàn)主要是顯著性檢驗(yàn)。

1.3 模型的檢驗(yàn)

模型檢驗(yàn)主要包括擬似然比檢驗(yàn)、擬合優(yōu)度及殘差形態(tài)檢驗(yàn)等。擬似然比檢驗(yàn)是由Koenker首先提出,用于檢驗(yàn)整個(gè)模型的顯著性。假設(shè)所有參數(shù)均為0,構(gòu)造的統(tǒng)計(jì)量為:

分位回歸模型的擬合優(yōu)度是Koenker和Machado提出的,其值介于0與1之間,表達(dá)式為:

分位回歸模型主要有2種模式:(1)位置漂移模型,不同分位點(diǎn)的估計(jì)結(jié)果之間的斜率相同或近似,只是截距不同。表現(xiàn)為不同分位點(diǎn)下的擬合曲線是平行的;(2)位置—尺度漂移模型,不同分位點(diǎn)的估計(jì)結(jié)果之間的斜率和截距都不同。表現(xiàn)為不同分位點(diǎn)下的擬合曲線不是平行的??梢酝ㄟ^R軟件中KhmaladzeTest函數(shù)檢驗(yàn)得到[9]。

2 實(shí)證分析

數(shù)學(xué)類課程包括高考數(shù)學(xué)、高等數(shù)學(xué)上、高等數(shù)學(xué)下、線性代數(shù)和概率統(tǒng)計(jì)。由于各地高考制度不同,評分標(biāo)準(zhǔn)不同,只整理了高考數(shù)學(xué)考試成績滿分150分的考生成績,剔除掉特殊生源考生,最后只對我校材料與工程學(xué)院16級93名學(xué)生的數(shù)學(xué)類課程成績進(jìn)行分析。

2.1 數(shù)據(jù)處理與分析

5門課程成績的初步統(tǒng)計(jì)分析結(jié)果如表1所示,5門課程成績的箱線圖如圖1所示。高考數(shù)學(xué)成績、高等數(shù)學(xué)上成績和高等數(shù)學(xué)下成績比較集中,而線性代數(shù)成績和概率統(tǒng)計(jì)成績相對較分散。5門課程成績的QQ圖如圖2所示,5門課程成績的Shapiro檢驗(yàn)如表2所示。從表1、表2、圖1和圖2可以看出,5門數(shù)學(xué)類課程考試成績都具有明顯的偏態(tài)和尖峰的特點(diǎn),Shapiro檢驗(yàn)的P值都小于5%,拒絕原假設(shè)正態(tài)分布,這些都表明5門課程的成績都不服從正態(tài)分布。

表1 5門課程成績的基本統(tǒng)計(jì)分析

圖2 5門課程成績的QQ圖Fig.2 QQ chart of the scores in five courses

圖1 5門課程成績的箱線圖Fig.1 Box chart of the scores in five courses

高考數(shù)學(xué)高等數(shù)學(xué)上高等數(shù)學(xué)下線性代數(shù)概率統(tǒng)計(jì)Shapiro檢驗(yàn)0.96650.95640.79750.95750.9510P值0.01400.00270.00000.00320.0012

2.2 相關(guān)性分析

通過R軟件對5門課程成績進(jìn)行相關(guān)性分析,得到Pearson相關(guān)系數(shù),結(jié)果如表3所示。5門課程分別在大學(xué)1年級之前、大學(xué)1年級和大學(xué)2年級時(shí)完成,課程順序?yàn)楦呖紨?shù)學(xué)、高等數(shù)學(xué)上、高等數(shù)學(xué)下、線性代數(shù)、概率統(tǒng)計(jì)。

表3 5門課程成績的相關(guān)分析

Table 3 Analysis of the correlation between the scores in five courses

高考數(shù)學(xué)高等數(shù)學(xué)上高等數(shù)學(xué)下線性代數(shù)概率統(tǒng)計(jì)高考數(shù)學(xué)1.00000.14080.20730.24420.1809高等數(shù)學(xué)上0.14081.00000.68600.45780.6102高等數(shù)學(xué)下0.20730.68601.00000.42870.5954線性代數(shù)0.24420.45780.42871.00000.2925概率統(tǒng)計(jì)0.18090.61020.59540.29251.0000

相關(guān)分析結(jié)果顯示:(1)高考數(shù)學(xué)成績即學(xué)生進(jìn)入大學(xué)學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)與后繼數(shù)學(xué)課程都有一定的關(guān)系,但相關(guān)程度并不高,與線性代數(shù)相關(guān)程度最高,也只有0.244 2。(2)高等數(shù)學(xué)上的成績與后期數(shù)學(xué)類課程相關(guān)程度最大,與高考數(shù)學(xué)的相關(guān)程度最低,相關(guān)系數(shù)只有0.140 8。(3)高等數(shù)學(xué)上與線性代數(shù)的相關(guān)程度為0.457 8,高等數(shù)學(xué)下成績與線性代數(shù)的相關(guān)程度為0.428 7,兩者基本持平。主要是由于高等數(shù)學(xué)上、高等數(shù)學(xué)下成績與線性代數(shù)課程的學(xué)習(xí)內(nèi)容不一致造成的。另外,高等數(shù)學(xué)上、高等數(shù)學(xué)下成績與概率統(tǒng)計(jì)成績的相關(guān)程度基本相同。

2.3 模型的建立

分位回歸模型是處理非正態(tài)分布、極端數(shù)據(jù)、多個(gè)變量間相互依賴關(guān)系的一種有效的數(shù)學(xué)方法。利用該方法并借助統(tǒng)計(jì)軟件R,對概率統(tǒng)計(jì)成績與其他4門數(shù)學(xué)課程成績之間建立5%、10%、25%、50%、75%及95%的分位回歸模型,并對模型的合理性和系數(shù)進(jìn)行顯著性檢驗(yàn)。

高考數(shù)學(xué)、高等數(shù)學(xué)上、高等數(shù)學(xué)下、線性代數(shù)及概率統(tǒng)計(jì)的成績分別用X1、X2、X3、X4及Y表示,分位回歸模型為:

其中:由截距項(xiàng)、X1、X2、X3和X4組成設(shè)計(jì)矩陣,α0τ、α1τ、α2τ、α3τ、α4τ是相應(yīng)τ分位數(shù)的回歸系數(shù)。

最小二乘回歸模型為:

其中:由截距項(xiàng)、X1、X2、X3和X4組成設(shè)計(jì)矩陣,α0、α1、α2、α3、α4為最小二乘回歸模型系數(shù)。

2.4 模型結(jié)果的分析

利用R中的quantreg包得到概率統(tǒng)計(jì)成績與其他4門數(shù)學(xué)類課程成績之間的分位回歸模型,利用R軟件中1 m函數(shù)得到最小二乘回歸模型,參數(shù)估計(jì)結(jié)果如表4所示。

表4 參數(shù)估計(jì)結(jié)果

注:*表示在顯著水平是10%的情況下,參數(shù)是顯著的。

5個(gè)回歸系數(shù)的顯著性檢驗(yàn)結(jié)果如圖3所示。由圖3可以看出,該結(jié)果更為直觀,反映的信息也更多。系數(shù)的置信帶蘊(yùn)藏著關(guān)于因變量條件分布的位置和尺度變化的信息。以高等數(shù)學(xué)上對應(yīng)的回歸系數(shù)α2τ為例,各分位點(diǎn)的系數(shù)估計(jì)值用黑點(diǎn)表示,而灰色帶表示其95%的置信帶。觀察其縱坐標(biāo)可以看出,系數(shù)估計(jì)的置信帶在小于85%分位點(diǎn)處都在0以上,所以其系數(shù)在小于85%分位點(diǎn)處均顯著。其他回歸參數(shù)的信息分析類似。

圖3 5個(gè)回歸系數(shù)的顯著性檢驗(yàn)Fig.3 Significance test of five regression coefficients

由表4可以看出:(1)不論是低的分位數(shù),還是高的分位數(shù),高考數(shù)學(xué)成績對概率統(tǒng)計(jì)成績都沒有任何影響;(2)在較低的分位數(shù)5%和10%處,線性代數(shù)成績對概率統(tǒng)計(jì)成績的影響是負(fù)的,這是由于材料與工程學(xué)院學(xué)生在大學(xué)1年級同時(shí)學(xué)習(xí)線性代數(shù)和高等數(shù)學(xué)上有關(guān),學(xué)習(xí)數(shù)學(xué)類課程負(fù)擔(dān)過大,影響高等數(shù)學(xué)上的成績,進(jìn)而影響概率統(tǒng)計(jì)的成績呈現(xiàn)負(fù)增長趨勢。(3)在5%、10%、25%、50%、75%的分位回歸中,高等數(shù)學(xué)上的成績對概率統(tǒng)計(jì)成績的影響程度分別為0.759 5、0.545 4、0.546 6、0.666 2、0.393 8,都是顯著的,是主要影響因素,但對于概率統(tǒng)計(jì)成績特別好的學(xué)生來說,高等數(shù)學(xué)上成績基本不影響概率統(tǒng)計(jì)成績,但是高等數(shù)學(xué)下的成績對其影響顯著,在其他條件不變,高等數(shù)學(xué)下成績增加單位1,概率統(tǒng)計(jì)成績增加0.357 9。(4)最小二乘回歸模型的估計(jì)與中位數(shù)回歸模型的估計(jì)有相同點(diǎn)是高等數(shù)學(xué)上對概率統(tǒng)計(jì)成績的影響都是正的,不同的是影響程度不同,分別為0.496 1和0.666 2。另外,在最小二乘回歸中,高等數(shù)學(xué)下成績顯著影響概率統(tǒng)計(jì),其他條件不變的情況下,高等數(shù)學(xué)下成績提高1分,概率統(tǒng)計(jì)成績平均提高0.422 7。這些區(qū)別主要是由這些數(shù)據(jù)是尖峰厚尾的特點(diǎn)造成的。其模型檢驗(yàn)結(jié)果如表5所示。

圖4 10%分位點(diǎn)和90%分位點(diǎn)之間的比較Fig.4 Comparison between 10% and 90% quantiles

從表5可以看出,似然比檢驗(yàn)的P值比較小,每個(gè)分位回歸模型都是顯著的。但從擬合優(yōu)度可以看出,擬合效果一般。

表5 模型檢驗(yàn)

下面檢驗(yàn)分位回歸模型中斜率是否相等,F(xiàn)值為5.421 3,對應(yīng)的P值為1.341e-10,P值遠(yuǎn)小于5%,故不同分位點(diǎn)下高考數(shù)學(xué)、高等數(shù)學(xué)上、高等數(shù)學(xué)下、線性代數(shù)對概率統(tǒng)計(jì)的影響機(jī)制不同。通過KhmaladzeTest檢驗(yàn),位置漂移模型T統(tǒng)計(jì)量值3.808 748大于位置尺度漂移模型的T統(tǒng)計(jì)量值3.095 953,可見相對而言,拒絕“位置漂移模型”的概率更大,故相對而言“位置尺度漂移模型”更加合適一些。

10%(差)和90%(好)的分位回歸估計(jì)的概率統(tǒng)計(jì)成績?nèi)鐖D4所示。從圖4(a)可以發(fā)現(xiàn),對于學(xué)習(xí)成績差的學(xué)生而言,在不同分位點(diǎn)估計(jì)的概率統(tǒng)計(jì)成績差別都很大。而對于學(xué)習(xí)成績好的學(xué)生而言,低于20%的分位數(shù)差別比較大,大于20%分位點(diǎn)的概率統(tǒng)計(jì)的成績差別不大。由圖4(b)可以看出學(xué)習(xí)差的學(xué)生和學(xué)習(xí)好的學(xué)生的概率統(tǒng)計(jì)成績的分布曲線。學(xué)習(xí)差的學(xué)生的概率統(tǒng)計(jì)成績集中于60~70,比較分散;而學(xué)習(xí)好的學(xué)生的概率統(tǒng)計(jì)成績集中于90附近,比較集中。

3 結(jié)論

高考數(shù)學(xué)成績對材料與工程學(xué)院學(xué)生的數(shù)學(xué)類課程成績影響不大,后繼數(shù)學(xué)類課程成績主要靠學(xué)習(xí)大學(xué)的數(shù)學(xué)課程的日積月累。

在5%和10%的分位回歸模型中,線性代數(shù)成績對概率統(tǒng)計(jì)成績的影響是負(fù)的。原因是線性代數(shù)與概率統(tǒng)計(jì)課程內(nèi)容基本不相關(guān);其次,材料與工程學(xué)院學(xué)生在1年級同時(shí)學(xué)習(xí)高等數(shù)學(xué)和線性代數(shù),高等數(shù)學(xué)課程內(nèi)容多、任務(wù)繁重,對于較差學(xué)生而言,負(fù)擔(dān)過大,建議材料與工程學(xué)院學(xué)生在大學(xué)2年級時(shí)再開線性代數(shù)課程。

高等數(shù)學(xué)是概率統(tǒng)計(jì)課程的先修課,從分位回歸模型中也得到了有效驗(yàn)證。高等數(shù)學(xué)成績每提高1分,不同分位點(diǎn)處的概率統(tǒng)計(jì)成績得到不同的提高,可以引導(dǎo)不同分位點(diǎn)處的學(xué)生及時(shí)調(diào)整學(xué)習(xí)進(jìn)度,養(yǎng)成良好的學(xué)習(xí)方法和學(xué)習(xí)習(xí)慣,啟發(fā)教師進(jìn)行針對性地教學(xué)改革,提升教學(xué)效果。該模型不僅可應(yīng)用于學(xué)生數(shù)學(xué)成績的預(yù)測,同時(shí)對學(xué)生規(guī)劃自己的學(xué)習(xí)和教師的教學(xué)輔導(dǎo)起到一定的參考作用。

猜你喜歡
分位回歸系數(shù)位點(diǎn)
基于兩階段Expectile回歸的風(fēng)險(xiǎn)保費(fèi)定價(jià)
當(dāng)前市場位置和潛在空間
鎳基單晶高溫合金多組元置換的第一性原理研究
上海金屬(2021年6期)2021-12-02 10:47:20
CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
多元線性回歸的估值漂移及其判定方法
電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時(shí)Bayes估計(jì)及優(yōu)良性
基于“業(yè)績與薪酬雙對標(biāo)”的國有企業(yè)負(fù)責(zé)人薪酬研究
西部論叢(2017年10期)2017-02-23 06:31:36
一個(gè)有效估計(jì):半?yún)?shù)非時(shí)齊擴(kuò)散模型的局部線性復(fù)合分位回歸估計(jì)
无锡市| 股票| 嘉黎县| 丰镇市| 乐平市| 旬邑县| 双柏县| 青川县| 徐州市| 永川市| 泽州县| 凤山县| 永福县| 都昌县| 教育| 孝感市| 英超| 莱芜市| 武乡县| 灌南县| 建瓯市| 来宾市| 崇阳县| 岑溪市| 日照市| 鞍山市| 平泉县| 南康市| 郁南县| 雷山县| 万宁市| 廊坊市| 镇平县| 康平县| 青岛市| 石景山区| 荣昌县| 黔西县| 灵璧县| 平度市| 潍坊市|