彭志發(fā)
摘 要:卡爾·皮爾遜(KralPearson)是近代統(tǒng)計(jì)學(xué)史土最負(fù)盛名的統(tǒng)計(jì)學(xué)家之一。他在統(tǒng)計(jì)理論及統(tǒng)計(jì)方法上都做出了極大的貢獻(xiàn)。皮爾遜于1900年提出了卡方檢驗(yàn),他不僅導(dǎo)出了測(cè)度,而且給出了它的分布,使其成為可計(jì)算的??ǚ椒植?(χ2分布)是概率論與統(tǒng)計(jì)學(xué)中常用的一種概率分布。k 個(gè)獨(dú)立的標(biāo)準(zhǔn)正態(tài)分布變量的平方和服從自由度為k 的卡方分布??ǚ椒植汲S糜诩僭O(shè)檢驗(yàn)和置信區(qū)間的計(jì)算。統(tǒng)計(jì)學(xué)的發(fā)展表明,對(duì)于一系列應(yīng)用來(lái)說(shuō),卡方的檢驗(yàn)是一項(xiàng)極其有用的方法,其作用遠(yuǎn)遠(yuǎn)超過了皮爾遜提出這一概念時(shí)所想要解決的特殊問題,在現(xiàn)代統(tǒng)計(jì)理論中有著重要的地位。本文對(duì)卡方分布的起源進(jìn)行探索,系統(tǒng)梳理卡方分布的發(fā)展歷程。
關(guān)鍵詞:卡方分布; 統(tǒng)計(jì)學(xué); 卡爾·皮爾遜
1 引言
目前國(guó)際上統(tǒng)計(jì)界流行的觀點(diǎn)是將統(tǒng)計(jì)學(xué)分為三大派:經(jīng)典學(xué)派、貝葉斯學(xué)派和信任學(xué)派。經(jīng)典學(xué)派是指由皮爾遜、奈曼等人從本世紀(jì)初到四十年代發(fā)展的一套理論和方法,它以概率的頻率解釋為基礎(chǔ),以有抽樣資料為前提,因此又被稱作頻率學(xué)派或抽樣學(xué)派。目前國(guó)內(nèi)常見的概率統(tǒng)計(jì)教材,大都是講這一學(xué)派的觀點(diǎn)和方法的,所以大家都比較熟悉。而關(guān)于經(jīng)典學(xué)派的皮爾遜,他的一大貢獻(xiàn)就是卡方分布,統(tǒng)計(jì)學(xué)一直發(fā)展至今,卡方分布仍然起著非常重要的作用,所以本文對(duì)卡方分布的起源進(jìn)行分析也具有重要的現(xiàn)實(shí)意義。
2 卡方分布的產(chǎn)生
正當(dāng)皮爾遜作為一位應(yīng)用數(shù)學(xué)教師和科學(xué)哲學(xué)家受到人們的尊敬時(shí),有兩件事改變了他的專業(yè)研究方向。其一是高爾頓的《自然遺傳》在1889年出版,其二是1890年任命韋爾登為大學(xué)學(xué)院動(dòng)物學(xué)喬德雷爾教席教授[1]。
2.1 相關(guān)和回歸概念的產(chǎn)生
《自然遺傳》概括了高爾頓關(guān)于遺傳的相關(guān)和回歸概念以及技巧方面的工作,明確思考了它們?cè)谘芯可问街械目捎眯院蛢r(jià)值。在該書出版那年,皮爾遜在前面提到的那個(gè)小俱樂部讀了一篇評(píng)論此書的論文,他了解到相關(guān)和回歸的數(shù)學(xué)問題并未弄清。他對(duì)高爾頓的相關(guān)概念的含義十分著迷,看到這是一個(gè)比因果性更為廣泛的范疇,因果性只是它的極限。它把心理學(xué)、人類學(xué)、醫(yī)學(xué)和社會(huì)問題引入數(shù)學(xué)處理的領(lǐng)域。皮爾遜立即決定全力為統(tǒng)計(jì)學(xué)這一新學(xué)科奠定基礎(chǔ),他在接著的15年內(nèi)幾乎是單槍匹馬地奮戰(zhàn)在這一前沿領(lǐng)域。韋爾登在1891年初受命后,開始應(yīng)用、拓展、改善高爾頓的測(cè)量變異和相關(guān)的方法,以尋求支持達(dá)爾文自然選擇理論的論據(jù)。這些工作不久使他在經(jīng)典誤差理論外碰到了一系列難題,這位劍橋動(dòng)物學(xué)家的數(shù)學(xué)能力是難以解決它們的[2],韋爾登請(qǐng)求皮爾遜幫助。
皮爾遜結(jié)合準(zhǔn)備格雷沙姆講座和大學(xué)學(xué)院統(tǒng)計(jì)理論的兩門課程(1891一1896),對(duì)來(lái)自生物學(xué)、物理學(xué)和社會(huì)科學(xué)的統(tǒng)計(jì)資料作了圖示的、綜合性的處理,討論了概率理論和相關(guān)概念,并用擲硬幣、抽紙牌和觀察自然現(xiàn)象來(lái)證明它們。他引人“標(biāo)準(zhǔn)離差”術(shù)語(yǔ)代替麻煩的均方根誤差,并論述了法曲線、斜曲線、復(fù)合曲線。他關(guān)于變差和相關(guān)的四篇材料發(fā)表在《哲學(xué)學(xué)報(bào)》上。他創(chuàng)造出3個(gè)、4個(gè)乃至n個(gè)變數(shù)的正態(tài)相關(guān)的一般理論,揭示出早先探索的斜相關(guān)和非線性回歸的一般理論。
在之后的日子里,皮爾遜一直在對(duì)統(tǒng)計(jì)學(xué)進(jìn)行研究,發(fā)表了上百篇的論文,將統(tǒng)計(jì)學(xué)的理論和應(yīng)用更加深入,更加具體化了。皮爾遜發(fā)展了矩量法,又定義了曲線的類型,并討論了曲線的應(yīng)用。在隨后的幾十年中,生物學(xué)家和社會(huì)科學(xué)家廣泛應(yīng)用皮爾遜曲線來(lái)處理觀察數(shù)據(jù),結(jié)果消除了人們把正態(tài)分布作為生物、物理和社會(huì)現(xiàn)象的變差的唯一數(shù)學(xué)模型的信仰。該曲線系在統(tǒng)計(jì)理論和實(shí)踐中取得了未曾料到的重要性。
2.2 皮爾遜相關(guān)系數(shù)的產(chǎn)生
皮爾遜還在高爾頓和韋爾登等人關(guān)于相關(guān)和回歸統(tǒng)計(jì)概念和技巧的基礎(chǔ)上,建立了極大似然方法,可以稱為“皮爾遜相關(guān)系數(shù)”。隨后,皮爾遜發(fā)表的論文中將多元正態(tài)相關(guān)的理論幾乎發(fā)展成為一種實(shí)用的工具。皮爾遜之后又創(chuàng)造了斜相關(guān)理論和非線性回歸,到了1926年,皮爾遜證明樣本回歸系數(shù)的分布分別是關(guān)于相關(guān)總數(shù)回歸系數(shù)對(duì)稱的類型VII分布。盡管相關(guān)和回歸分析的步驟今天不同于皮爾遜和他的同事原先提出的步驟,但是前者是建立在后者的基礎(chǔ)上。皮爾遜在世紀(jì)之交采取的步驟無(wú)論如何在當(dāng)時(shí)來(lái)說(shuō)是開拓性的、富有獨(dú)創(chuàng)精神的[3]。
2.3 卡方分布的產(chǎn)生
對(duì)于用來(lái)估計(jì)總體參數(shù)的樣本函數(shù)在大樣本中的標(biāo)準(zhǔn)誤差問題的第一個(gè)普遍探討,是由皮爾遜和年輕的法國(guó)數(shù)學(xué)證明者菲爾翁在“論頻率常數(shù)的可能誤差及隨機(jī)選擇對(duì)變異性和相關(guān)的影響”一文中給出的。皮爾遜后來(lái)發(fā)表了一組文章用來(lái)答復(fù)讀者的詢問。哲學(xué)雜志》1900年6月刊載了皮爾遜一篇有名的論文,他在文中引人了一個(gè)準(zhǔn)則χ2=Σ[(fi-Fi)2/fi] ,它是觀察和假設(shè)之間一致性的量度,用來(lái)作為確定概率的基礎(chǔ)。其中差fi-fiχ2 fi-Fi(i=1,2,k) (i=1,.2..,k)以這樣的概率共同地起因于隨機(jī)取樣的不可避免的漲落,fi表示在k個(gè)互斥范疇第i個(gè)中觀察到的頻率,F(xiàn)i 是對(duì)應(yīng)的理論頻率。他導(dǎo)出χ2 在大樣本中的取樣分布是k的函數(shù),發(fā)現(xiàn)它是類型三分布的特化形式,現(xiàn)稱為“關(guān)于k一1自由度的χ2 分布”。 χ2 準(zhǔn)則開創(chuàng)了統(tǒng)計(jì)決策的新紀(jì)元,它無(wú)疑是皮爾遜在統(tǒng)計(jì)理論和實(shí)踐方面的最偉大貢獻(xiàn)之一。1904年和1911年,皮爾遜又兩次把他的χ2 準(zhǔn)則加以推廣,用來(lái)檢驗(yàn)統(tǒng)計(jì)學(xué)的一些問題。
3.卡方分布的應(yīng)用
皮爾遜從他1896年關(guān)于相關(guān)和回歸的第一篇基礎(chǔ)論文起就卷入到遺傳和進(jìn)化的研究中,他充分證明了他的新數(shù)學(xué)工具在解決這些問題中的價(jià)值。在“史前人種身高的再建”(1898)和“論親族遺傳定律”中(1898),他導(dǎo)出了各種親族回歸和相關(guān)系數(shù)的理論值,檢驗(yàn)了高爾頓的身高資料,并提出推廣了的高爾頓親族遺傳定律。他宣稱:“……把全部復(fù)雜的遺傳影響的跡象納人簡(jiǎn)單的描述性的陳述中是十分可能的。如果達(dá)爾文的進(jìn)化是與遺傳結(jié)合的自然選擇的話,那么必然可以證明,囊括整個(gè)遺傳領(lǐng)域的單一陳述對(duì)生物學(xué)來(lái)說(shuō)就象引力定律對(duì)天文學(xué)家一樣是劃時(shí)代的?!北M管后來(lái),孟德爾學(xué)說(shuō)牢固確立起來(lái)了,但并沒有消除生物統(tǒng)計(jì)方法的用途和意義。皮爾遜的卡方分布在生物統(tǒng)計(jì)領(lǐng)域還起著重要的作用。
4.結(jié)論
皮爾遜對(duì)于統(tǒng)計(jì)學(xué)領(lǐng)域的作用是不容小覷的,其卡方分布作用也是不可小覷的,其在數(shù)學(xué)領(lǐng)域、統(tǒng)計(jì)學(xué)領(lǐng)域,甚至是生物基因領(lǐng)域等等方面,都起著非常重要的作用。通過對(duì)卡方分布的起源進(jìn)行系統(tǒng)的梳理分析,對(duì)皮爾遜創(chuàng)作過程的了解熟悉,讓我們了解了數(shù)學(xué)方法的奧妙之處,卡方分布可以從數(shù)學(xué)領(lǐng)域發(fā)展到生物領(lǐng)域,進(jìn)而發(fā)展到其他領(lǐng)域,這是非常偉大的舉措,是值得我們學(xué)習(xí)的。對(duì)于卡方分布的研究還任重而道遠(yuǎn),卡方分布的作用之大,是無(wú)法想象的,其應(yīng)用的領(lǐng)域是否還可以擴(kuò)展是不可知的,還需要學(xué)者們進(jìn)行進(jìn)一步的努力和研究。
參考文獻(xiàn):
[1]姚存峰. 卡爾·皮爾遜──數(shù)理統(tǒng)計(jì)學(xué)的奠基者[J]. 數(shù)理統(tǒng)計(jì)與管理, 2011(4):37-38+65.
[2]丁海勇, 史文中. 利用卡方分布改進(jìn)N-FINDR端元提取算法[J]. 遙感學(xué)報(bào), 2013, 17(1):122-137.
[3]朱祖銳, 陳守全. 卡方分布序列最大值的收斂速度[J]. 西南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016, 38(9):137-142.