程小紅,楊浩菊
(1.首都師范大學(xué)初等教育學(xué)院,北京 100048;2.山西師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,山西臨汾 041004)
自19世紀(jì)初拉普拉斯(P-S.Laplace,1749—1827)證明中心極限定理以來(lái),大樣本方法得到了廣泛應(yīng)用,特別是統(tǒng)計(jì)方法引入到社會(huì)科學(xué)領(lǐng)域后。到20世紀(jì)初,以皮爾遜為首的統(tǒng)計(jì)學(xué)家已將大樣本視為解決問(wèn)題的不可或缺的條件[1]。但是,在由人工控制的很多試驗(yàn),由于條件所限,樣本容量不是很大。雖有個(gè)別統(tǒng)計(jì)學(xué)家注意到了小樣本問(wèn)題,但其工作并未引起人們的關(guān)注[2]。戈塞特(William Sealy Gosset,1876—1937)作為小樣本理論研究的先驅(qū),給出了樣本均值的誤差分布,討論了相關(guān)系數(shù)的小樣本分布。更為重要的是他的工作吸引了費(fèi)舍爾(R.A.Fisher,1890—1962)、E.皮爾遜(E.S.Pearson,1895—1980)、內(nèi)曼(J.Neyman,1894—1981)等一批年輕統(tǒng)計(jì)學(xué)家的關(guān)注,進(jìn)而形成了20世紀(jì)三、四十年代小樣本理論的大發(fā)展。
戈塞特于1876年出生在英國(guó)的肯特郡坎特伯雷市。1899年從牛津大學(xué)畢業(yè),大學(xué)期間主攻化學(xué)。畢業(yè)后,進(jìn)入吉尼斯釀酒公司成為一名釀造師,從事這份職業(yè)直至去世。為了改良啤酒的口味,吉尼斯公司從19世紀(jì)90年代開始發(fā)起科學(xué)試驗(yàn)改革。試驗(yàn)產(chǎn)生了大量數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行系統(tǒng)分析就落在了數(shù)學(xué)功底深厚的戈塞特身上,為此他自學(xué)了有關(guān)誤差和最小二乘法的統(tǒng)計(jì)知識(shí)。
1905年,戈塞特到倫敦拜訪了統(tǒng)計(jì)學(xué)大師K.皮爾遜(K.Pearson,1857—1936)。1906 至1907年間,他又來(lái)到皮爾遜創(chuàng)立的生物計(jì)量實(shí)驗(yàn)室深入研習(xí)。在這里,他了解到了統(tǒng)計(jì)理論的最新進(jìn)展。戈塞特試圖用這些理論去分析釀酒行業(yè)中的數(shù)據(jù)?,F(xiàn)實(shí)讓戈塞特感到很困惑,當(dāng)時(shí)統(tǒng)計(jì)學(xué)是大樣本的天下,比如約爾(G.Udney Yule,1871—1951)關(guān)于不列顛島成年男子身高的研究中,樣本就有8585個(gè)之多[3],與之相比,釀酒試驗(yàn)中的數(shù)據(jù)要少得多,均值有時(shí)甚至只由十幾個(gè)樣本得出。戈塞特意識(shí)到大樣本理論應(yīng)用到小樣本中可能會(huì)導(dǎo)致嚴(yán)重的偏差,這樣,他就開始致力于小樣本問(wèn)題的研究。
1908年,戈塞特的小樣本研究成果以筆名“學(xué)生”在《生物計(jì)量學(xué)報(bào)》上發(fā)表。第1篇文章《平均值的或然誤差》,給出了樣本均值的小樣本分布[4]。第2篇文章《相關(guān)系數(shù)的或然誤差》,討論了皮爾遜相關(guān)系數(shù)的小樣本分布[5]。這兩篇文章揭開了小樣本理論研究的序幕,奠定了戈塞特在統(tǒng)計(jì)學(xué)中的地位。
隨后的三十年間,戈塞特涉獵很多統(tǒng)計(jì)問(wèn)題,尤其是和釀酒有關(guān)的農(nóng)業(yè)試驗(yàn)問(wèn)題。雖說(shuō)費(fèi)舍爾的方差分析出現(xiàn)之后統(tǒng)計(jì)方法在農(nóng)業(yè)中的應(yīng)用才取得較大進(jìn)展,但戈塞特?zé)o疑是把統(tǒng)計(jì)方法引入到農(nóng)業(yè)試驗(yàn)中的先驅(qū)者。費(fèi)舍爾曾提到與戈塞特的通信及戈塞特的論文對(duì)自己的啟發(fā)。
與戈塞特在統(tǒng)計(jì)學(xué)上的貢獻(xiàn)相比,他獲得的榮譽(yù)并不多。戈塞特從未把自己看作專門的統(tǒng)計(jì)學(xué)家,他在吉尼斯公司一直工作到去世。對(duì)于研究成果,他也不急于發(fā)表。與那些動(dòng)輒發(fā)表上百篇的科學(xué)家相比,他一生只發(fā)表21篇文章?;蛟S對(duì)他來(lái)說(shuō),科學(xué)研究只是為了解決工作中遇到的問(wèn)題。
按照拉普拉斯中心極限定理,若x1,x2,…,xn為來(lái)自正態(tài)總體的樣本分別為樣本均值和樣本方差,μ為總體均值,當(dāng)樣本容量n足夠大時(shí),z=-μ)/s近似地服從正態(tài)分布。戈塞特在1908年發(fā)表的論文《平均值的或然誤差》中討論的是小樣本情況下z的分布問(wèn)題,即z的精確分布。
戈塞特首先給出了樣本方差s2的分布。戈塞特的做法是考察s2的樣本矩。在計(jì)算了s2的四階樣本矩后,他推斷出s2的分布應(yīng)為皮爾遜III型曲線,其概率分布為
根據(jù)s2的分布,很容易得出樣本標(biāo)準(zhǔn)差s的分布為
事實(shí)上,德國(guó)學(xué)者赫爾默特(Friedrich Robert Helmert,1843—1917)在1876年已經(jīng)發(fā)現(xiàn)s2的分布[6]。但從戈塞特的推導(dǎo)過(guò)程來(lái)看,他顯然并不知道赫爾默特的工作。
推出z的分布后,戈塞特又給出了樣本值n從4到10時(shí)z分布的表值。
很顯然,戈塞特雖然得出了正確的分布,但推理卻存在很大漏洞。由變量的不相關(guān)并不能推出變量是獨(dú)立的。但是,運(yùn)氣眷顧了戈塞特,在正態(tài)總體情況下與s不相關(guān)是與s獨(dú)立的充要條件。給出z分布嚴(yán)格證明的是費(fèi)舍爾。1912年還是大學(xué)生的費(fèi)舍爾首先發(fā)現(xiàn)了戈塞特證明上的漏洞,他采用n維幾何法給出了嚴(yán)格證明,并把z轉(zhuǎn)換成了現(xiàn)在的t,其中費(fèi)舍爾把這種調(diào)整及證明以通信的方式與戈塞特做了交流。自此,開啟了兩人長(zhǎng)達(dá)二十多年的學(xué)術(shù)往來(lái)。
事實(shí)上,歷史上最早給出t分布的并非是戈塞特。德國(guó)數(shù)學(xué)家劉羅斯(Jakob Liuroth,1 844—1910)于1876年已經(jīng)發(fā)現(xiàn)t分布,英國(guó)統(tǒng)計(jì)學(xué)家愛德沃斯(F.Y.Edgeworth,1845—1926)1883年也獨(dú)立得出了t分布[2]。遺憾的是,兩位學(xué)者的工作淹沒(méi)在浩瀚的文獻(xiàn)中,沒(méi)有引起人們的關(guān)注。
戈塞特在1908年除了建立t分布外,還討論了樣本相關(guān)系數(shù)的分布問(wèn)題。大樣本下的相關(guān)系數(shù)的近似分布早在1898年K.皮爾遜就已經(jīng)給出。戈塞特關(guān)注的是小樣本時(shí)相關(guān)系數(shù)的精確分布。數(shù)學(xué)推理加上豐富的經(jīng)驗(yàn)與敏銳的直覺,用戈塞特的話來(lái)說(shuō),他猜出了總體相關(guān)系數(shù)ρ=0時(shí)樣本相關(guān)系數(shù)的抽樣分布。當(dāng)ρ≠0時(shí),因?yàn)椴荒苡闷栠d曲線族中的方程來(lái)描述,因此他無(wú)法給出一般情形下相關(guān)系數(shù)的抽樣分布。戈塞特甚至說(shuō),這超出了他的數(shù)學(xué)能力。
在探討相關(guān)系數(shù)的抽樣分布時(shí),戈塞特沒(méi)有利用前面使用的矩法,而是采用了逆概率方法。對(duì)于總體相關(guān)系數(shù)ρ的先驗(yàn)分布,他做過(guò)幾種假定,比如依據(jù)經(jīng)驗(yàn),相關(guān)系數(shù)應(yīng)該與1-x2成比例,因此ρ的先驗(yàn)分布可假定為
但由于他不能給出樣本相關(guān)系數(shù)r后驗(yàn)分布f(r/ρ),因此也就無(wú)法給出 ρ的后驗(yàn)分布 f(r/ρ)。
相關(guān)系數(shù)的抽樣分布最終還是由費(fèi)舍爾在1915年給出。他依然是用處理t分布時(shí)的n維幾何法。而戈塞特此后除了對(duì)t分布的表值做過(guò)補(bǔ)充外,沒(méi)有再做過(guò)小樣本方面的研究。多數(shù)人認(rèn)為他要在吉尼斯公司全職工作,根本沒(méi)有時(shí)間搞研究。戈塞特否認(rèn)了這種說(shuō)法,聲稱是自己的數(shù)學(xué)水平限制了他做進(jìn)一步的研究。
戈塞特在小樣本理論的早期發(fā)展階段做出了重要貢獻(xiàn)。他給出了樣本均值的誤差分布——t分布,區(qū)分了總體標(biāo)準(zhǔn)差與樣本標(biāo)準(zhǔn)差,討論了相關(guān)系數(shù)的分布等。其工作更重要的意義在于他突破了大樣本研究的傳統(tǒng),開辟了統(tǒng)計(jì)學(xué)的一個(gè)全新的研究方向——小樣本理論。受戈塞特工作的啟發(fā),費(fèi)舍爾給出了包括F分布在內(nèi)的多個(gè)抽樣分布,構(gòu)建了小樣本研究的理論基礎(chǔ)。戈塞特的工作也引發(fā)了E.皮爾遜和內(nèi)曼對(duì)假設(shè)檢驗(yàn)的研究,二者在1933年合作發(fā)表的《關(guān)于統(tǒng)計(jì)假設(shè)的最有效檢驗(yàn)問(wèn)題》中提出了現(xiàn)代統(tǒng)計(jì)學(xué)著名的基本定理——N-P引理。
戈塞特的研究方式有著鮮明的個(gè)人特色。首先,他的推導(dǎo)常常是數(shù)學(xué)推理與經(jīng)驗(yàn)和直覺相結(jié)合,盡管不嚴(yán)謹(jǐn),但憑借豐富的經(jīng)驗(yàn)和敏銳的洞察力,卻能得出正確的結(jié)論,這一點(diǎn)在數(shù)學(xué)理論發(fā)展的早期階段尤為重要。理論的建立過(guò)程往往是這樣,由不嚴(yán)格逐漸過(guò)渡到嚴(yán)格,先驅(qū)者為后面的研究者提供研究方向和研究素材,后來(lái)者需要彌補(bǔ)和完善理論發(fā)展過(guò)程中存在的缺陷和不足。再有,戈塞特善于用試驗(yàn)?zāi)M方法佐證結(jié)論的正確性。比如,在給出樣本均值的抽樣分布后,戈塞特選取了4組樣本量均為750個(gè)的近似正態(tài)總體,用χ2擬合優(yōu)度檢驗(yàn)經(jīng)驗(yàn)分布和理論分布,得出t分布擬合的效果好于正態(tài)分布。最后,戈塞特不僅擅長(zhǎng)解決問(wèn)題,也是提出問(wèn)題的高手。費(fèi)舍爾研究的諸多分布問(wèn)題,大部分都是源于二者通信中戈塞特向他提出的問(wèn)題。
戈塞特對(duì)小樣本理論的貢獻(xiàn)與他個(gè)人的努力、所處的工作環(huán)境、與同時(shí)代的統(tǒng)計(jì)學(xué)家廣泛交流是密不可分的。戈塞特從1899年畢業(yè)后一直在吉尼斯公司工作,直至61歲去世。他的工作環(huán)境為他提供了可以研究的問(wèn)題,公司對(duì)科研的支持也為他的研究提供了保障。除此之外,K.皮爾遜對(duì)戈塞特所取得的成就也有很深的影響。戈塞特曾在皮爾遜的統(tǒng)計(jì)實(shí)驗(yàn)室學(xué)習(xí)一年多的時(shí)間,他的兩篇重要文章正是在這個(gè)階段完成的。與當(dāng)時(shí)的統(tǒng)計(jì)學(xué)家的廣泛交流也是戈塞特取得突出成就的一個(gè)重要原因。戈塞特愿意傳播自己的思想,交流自己的研究成果。他和費(fèi)舍爾、E.皮爾遜等統(tǒng)計(jì)學(xué)家保持著長(zhǎng)期聯(lián)系,從而為他從其他統(tǒng)計(jì)學(xué)家那里獲得新的思想和方法,同時(shí)也為傳播自己的思想和成果提供了十分有利的條件。另外,戈塞特在小樣本理論方面杰出的貢獻(xiàn)與他豐富的經(jīng)驗(yàn)、敏銳的直覺也是密不可分的。
[1] 于忠義.簡(jiǎn)明統(tǒng)計(jì)學(xué)術(shù)史綱要[J].統(tǒng)計(jì)研究,2009,26(6):102-111.
[2] PFANZAGL J,SHEYNIN O.A Forerunner of the t-Distribution[J].Biometrika,1996,83(4):891-898.
[3] UNDEY I G.Yule.Introduction to the Theory of Statistics[M].London:Charles Griffen and Company,1922.
[4] STUDENT.The probable error of a mean[J].Biometrika,1908,6:1-25.
[5] STUDENT.Probable Error of a Correlation Coefficient[J].Biometrika,1908,6:302-310.
[6] HELMERT F R.über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler etc[J].Z Math und Phys,1876,21:192-218.
西北大學(xué)學(xué)報(bào)(自然科學(xué)版)2015年6期