陳向陽++旬永俊+++沈超
摘要:高??荚嚦煽兎治鲋写蠖鄶?shù)人會習(xí)慣性地將學(xué)生成績想象成按照概率統(tǒng)計(jì)正態(tài)分布的。通過大量數(shù)據(jù)分析說明,這種分布盡管比較適合文科學(xué)生,但并不適用于所有學(xué)生尤其是理工科學(xué)生。通過分析我們發(fā)現(xiàn)針對理科學(xué)生公選課成績分析更合適的分布是網(wǎng)絡(luò)科學(xué)的逆冪律分布而非正態(tài)分布。因此該結(jié)論學(xué)生成績分析和教學(xué)質(zhì)量評估都有一定的積極意義。
關(guān)鍵詞:正態(tài)分布;逆冪率分布;網(wǎng)絡(luò)科學(xué);成績分析
中圖分類號:TP311.52
1 前言
作者多年的學(xué)習(xí)和教學(xué)生涯中遇到很多教師,大家似乎都司通見慣一條鐘形曲線正態(tài)分布曲線適用于所有文理工科學(xué)生的成績分析,但是我們從來沒有見過任何分?jǐn)?shù)分布鐘形曲線的實(shí)證;教師僅只是盲目地將它強(qiáng)加到課堂成績分?jǐn)?shù)分析上,相信這才是要做的唯一正確的事情。但事實(shí)果真如此嗎?
2 問題的提出
某大學(xué)數(shù)據(jù)分析了1,200名參加了某大學(xué)的公選課程成績測試。在圖1中,公選課考試的文科學(xué)生成績部分。在多年的成績分?jǐn)?shù)比較中,雖然具體分布峰值移動,分布的寬度也會有所移動,但很顯然鐘形曲線能夠?qū)?shù)據(jù)進(jìn)行驚人的擬合。
圖1圖2圖3在近1200名學(xué)生公選課考試成績,為文科理科工科學(xué)生繪圖。圖1似乎支持正態(tài)分布適用于描述大量各種社會條件下學(xué)生的成績分?jǐn)?shù)分布的猜想。但是我們從查閱的資料中還沒有見到來自科學(xué)上的嚴(yán)格證實(shí)。在圖2中來自理科數(shù)據(jù)繪制成與在圖1中文科的數(shù)據(jù)放在相同的分組。從圖2中有一點(diǎn)可以明確,即成績分?jǐn)?shù)分布與鐘形曲線有著很大的不同。但僅有這些數(shù)據(jù)其成績分?jǐn)?shù)分布不是正態(tài)的嗎?圖3描述在同一套分組下工科的分?jǐn)?shù)分布。事實(shí)上,理工科的分?jǐn)?shù)分布不像文科的分?jǐn)?shù)分布。沒有明顯峰值,也沒有圍繞特征平均值的分?jǐn)?shù)聚集,分?jǐn)?shù)似乎占據(jù)著從開始擴(kuò)展至消失值區(qū)間的所有值。
3 分析
為什么常態(tài)標(biāo)準(zhǔn)化分布顯然適用于文科,而不適用于理工科呢?在文科和理工科之間分?jǐn)?shù)分布的差異的一個(gè)可能的解釋,是因?yàn)閮深愔g有著結(jié)構(gòu)性的差異。文科的大標(biāo)題下,包括語言、哲學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)和一些其他相對獨(dú)立的研究領(lǐng)域的不相交學(xué)科組。我們使用術(shù)語獨(dú)立,是因?yàn)樵谏鐣W(xué)中所學(xué)是不依賴于經(jīng)濟(jì)學(xué)中所學(xué)知識,但可能比較弱地取決于在語言中所學(xué)知識。因此,在這些獨(dú)立的學(xué)科,每年取得的成績分?jǐn)?shù)是相對獨(dú)立的,從而滿足高斯參數(shù)的條件。在滿足高斯條件的文科的分?jǐn)?shù)分布就會呈現(xiàn)正態(tài)分布。另一方面,理工科是建立在以前所學(xué)知識基礎(chǔ)之上的。沒有代數(shù)知識就不能理解基礎(chǔ)物理,沒有微積分就不能理解更高級的物理學(xué),這也需要理解代數(shù)。同樣,理解工科課程,需要掌握某種程度的數(shù)學(xué)、化學(xué)和物理學(xué)。理工科的學(xué)科,形成一個(gè)互連知識網(wǎng)絡(luò),從最基本的開始構(gòu)建起來,這種情況違反高斯假設(shè)的獨(dú)立性和平均值能夠提供過程最佳描述的想法。在理工科中的成績分?jǐn)?shù)經(jīng)驗(yàn)分布清楚地表明擴(kuò)展了到分布的尾部,從而不存用來描述數(shù)據(jù)的特征尺度如所謂的平均值[1][2]。在文科和理工科成績分?jǐn)?shù)分布之間的區(qū)別就是明確的證據(jù)表明,正態(tài)分布并不能用來描述一般或正常情況。分?jǐn)?shù)的鐘形曲線是在人們先入為主的偏見通過所謂正統(tǒng)教育所強(qiáng)加的,并不能顯示學(xué)生掌握知識的過程。所以我們是否可以使用為推導(dǎo)正態(tài)分布的論據(jù)之一來獲得帶有在圖2和圖3中所示的長尾的經(jīng)驗(yàn)分布嗎?讓我們重新考慮熵最大化,但會從略有不同的角度來看。熵最大化參數(shù)有三個(gè)組成部分:(1)熵的定義;(2)限制分布的實(shí)證數(shù)據(jù)的矩;(3)通過最大化從(2)中數(shù)據(jù)確定拉格朗日乘式。下面就讓我們用更一般的觀察來取代步驟(2),即理科的分?jǐn)?shù)分布沒有一個(gè)特征模式標(biāo)度。我們通過一個(gè)縮放函數(shù)也就是對數(shù)來引入條件[3][4]。那么可變的量為
因此,熵最大化參數(shù)能確定一種沒有特征標(biāo)度的分布,在最初源是有限的,并且針對由雙曲分布(2)式給出的其余部分是最大限度地隨機(jī)的,它將漸近逆冪律分布 。
4 結(jié)論
上述這種雙曲線分布具有一種在理工科公選課程分?jǐn)?shù)分布中觀察到的厚尾分布。因此,要審慎地探討正態(tài)分布和雙曲分布之間的差異,以了解他們所代表的各種現(xiàn)象的特殊性。最終結(jié)論是高校理工科公選課程成績分?jǐn)?shù)分布可用逆冪律分布尾部來描述。事實(shí)上,過去高校成績分?jǐn)?shù)分析不加區(qū)別地應(yīng)用正態(tài)分布的地方,大部分情況下都會發(fā)現(xiàn)是由于簡化假設(shè)導(dǎo)致的結(jié)果,往往盲目地使用了數(shù)據(jù)不支持的鐘形曲線的結(jié)果。
參考文獻(xiàn)
[1] R. Albert and A.-L. Barabási,“Statistical mechanics of complex networks,” Rev. Mod. Phys.74, 48 (2002).
[2] H. M. Gupta, J. R. Campanha and F. R. Chavorette, “Power-law distribution in high school education: effect of economical, teaching and study conditions,” arXiv.0301523v1 (2003).
[3] M. E. J. Newman, “The structure and function of complex networks,” SIAM Rev. 45, 167(2003).
[4] B. J. West, E. L. Geneston and P. Grigolini, “Maximizing information exchange between complex networks,” Physics Reports 468, 1–99 (2008).endprint