李軍+曹旭+劉鵬+朱守平
摘 要 統(tǒng)計推理在目前的科學研究中起著中心位置,概率論與數(shù)理統(tǒng)計作為其入門的基礎課程,正確掌握其基本概念的本質(zhì)內(nèi)涵對以后學生從事科研工作顯得尤其重要。本文擬根據(jù)目前概率論與數(shù)理統(tǒng)計的教學大綱內(nèi)容探討一些學生在學習時容易忽視其本質(zhì)的概念,并結合實際的例子深入了解其概念的內(nèi)涵。
關鍵詞 獨立性 條件概率 相關系數(shù) 數(shù)字特征 最大似然估計
中圖分類號:G424 文獻標識碼:A DOI:10.16400/j.cnki.kjdkx.2017.02.046
Abstract Statistical inference plays a central location in the current scientific research. The course of probability theory and mathematical statistics is a introductory course of statistical inference, it is especially important to correctly grasp the nature of basic concepts of probability theory and mathematical statistics for those students who will engage in research works in the future. Based on the current syllabus of probability theory and mathematical statistics, this paper explores some of concepts which are easy to overlook their nature by students while they are studying, combined with practical examples to further understand the nature of the concepts.
Keywords Independence; conditional probability; correlation coefficient; digital features; maximum likelihood estimation
2002年美國國家基金委組織了有關“當前和顯露出來的概率論學科中研究機遇”的系列報告,指出概率論與數(shù)理統(tǒng)計在當前已是一門核心數(shù)學學科,其概率推理理論在目前不同學科中解決其研究問題有著顯著功效,其理論研究的重要性也呈現(xiàn)爆炸性的增長。[1]然而,鑒于目前相當一部分科研論文中使用的統(tǒng)計方法存在概念性的錯誤,[2]國際著名的學術期刊《科學》在2014年表示將增加一個特別的統(tǒng)計學專家團隊來檢驗投稿論文中的統(tǒng)計方法是否有誤。[3]其他重要的學術刊物,包括《自然》也相繼提出了一些檢查方案來保證論文中統(tǒng)計方法的使用得當。[4]統(tǒng)計推理應用的廣泛性同基本概念錯誤理解之間的尖銳矛盾提示研究者在學習統(tǒng)計推理理論時不能停留在概念的表象,需要深入理解其本質(zhì)內(nèi)涵。2015年研究生入學考試的數(shù)學(一)科目中統(tǒng)計推理部分的試題就能很好的考察學生是否真正掌握了統(tǒng)計推理基本概念的本質(zhì)。2015年研究生入學考試的數(shù)一試卷中概率論與數(shù)理統(tǒng)計部分內(nèi)容一共是34分,內(nèi)容覆蓋了隨機事件性質(zhì),概率分布,數(shù)值特征計算,假設檢驗等內(nèi)容。從題目的難易程度來講,在掌握基本概念內(nèi)涵的前提下,基本上不存特別難的題目。但在筆者小范圍的調(diào)查表明,越是考察基本概念的題越是失分嚴重,反而有固化解題步驟的題目得分就較多。針對目前統(tǒng)計推理的重要性和基本概念理解不夠透徹的普遍問題,再一次為我們從事概率論與數(shù)理統(tǒng)計的教學工作者提出了一個在教學中一直強調(diào)的問題,如何讓學生在學習過程中抓住基本概念的內(nèi)在實質(zhì)。結合概率論與數(shù)理統(tǒng)計的教學大綱,以及近幾年的教學過程中學生的反饋和自己的思考,針對大學本科工科概率論與數(shù)理統(tǒng)計部分教學中的一些基本概念內(nèi)涵教學做一個初步探討。
1 隨機事件之間相互獨立的本質(zhì)是隨機事件概率的獨立性
隨機事件之間存在多種關系,其中互斥(互不相容)和相互獨立在概率論的學習中使用最多,學生也最容易混淆。當內(nèi)容延伸到隨機變量時,隨機變量的相互獨立和隨機變量間的相關性又會帶來混淆。在講授這些定義時,若強調(diào)其本質(zhì)并加以對比就能使學生比較容易區(qū)分隨機事件之間的不同關系描述的差異。首先是定義的范圍不同,互斥關系定義在樣本空間中,反映事件的集合性質(zhì);而相互獨立和相關性是定義在事件概率的數(shù)值關系中,反映事件間的概率屬性。其次相互獨立表述是事件概率的一般數(shù)值關系,而相關性表述的是事件的線性關系。通過強調(diào)隨機事件相互獨立的本質(zhì)是隨機事件概率的獨立性,就能辨別隨機事件互斥同隨機事件獨立之間的關系:兩事件互斥推導不出它們相互獨立,同時兩事件相互獨立也推導不出它們互斥。通過強調(diào)隨機事件相互獨立反映隨機事件概率間的一般數(shù)值關系,就能辨別隨機事件相互獨立同相關性之間的區(qū)別:隨機變量相互獨立可以推導出它們之間不相關,但是反之不行。[5]
2 條件概率同普通概率定義本質(zhì)的統(tǒng)一性
條件概率定義為:設A,B為兩個事件,且P(A)>0,則有事件A發(fā)生的條件下事件B發(fā)生的概率為P(B|A)=P(AB)|P(A)。該定義明確直觀,易于使用,在實際使用時一般都是基于單個事件概率已知前提下求條件概率,但是通過挖掘其本質(zhì),并同普通事件的概率建立關聯(lián),那么在使用的時候不會再將條件概率同一般事件概率割裂,而會形成一個統(tǒng)一概念。對于任意隨機事件C,記其概率為P(C),當同條件概率的定義建立聯(lián)系時,我們引入樣本空間S,則有P(C)=P(C|S)=P(CS)/P(S)=P(CS)。通過這種變化形式可有效的解決特定事件概率不易求解的問題;同樣,這也是全概公式的實質(zhì)所在。
實例1:設2人抓鬮,一共5個鬮,其中2個鬮中寫有“是”字,三個空白。問抓鬮是否同次序有關。
解析:分析可知所求為依次抓鬮時抓到“是”的概率是否相同。
設A1,A2分別為第1,2個人抓到“是”字的事件。則有
P(A1)=2/5
故抓鬮同次序無關。該方法可以延伸到更多人數(shù)抓鬮的問題。
3 二維正態(tài)隨機變量同一維正態(tài)隨機變量之間的紐帶關系——相關系數(shù)
正態(tài)隨機變量有許多優(yōu)良的統(tǒng)計性質(zhì),也是概率論與數(shù)理統(tǒng)計課程中重點的分布。學生一般對于一維的正態(tài)分布有較深刻的認識,但是一旦擴展到了二維及二維以上的正態(tài)分布時就不容易掌握。而二維正態(tài)分布同一維正態(tài)分布之間有很強的相關性;比如(X,Y) 符合二維正態(tài)分布,則其關X于和關于Y的邊緣分布就是一維正態(tài)分布。二維正態(tài)分布的求解在一些特定場合可以轉化為一維正態(tài)分布的求解,其紐帶關系就是相關系數(shù)。二維正態(tài)分布中,X,Y相互獨立的充分必要條件是X,Y相關系數(shù)為零。當二維正態(tài)隨機變量中相關系數(shù)為零,則二維正態(tài)隨機便分解成兩個獨立的一維正態(tài)分布隨機變量的乘積。
實例2:設二維隨機變量(X,Y)服從正態(tài)分N(1,0;1,1,0)布,則P(XYY<0)= (2015年研究入學考試題14)。
解析:因為(X,Y)~N(1,0;1,1,0),其中X,Y,相關系數(shù)為0
故有X~N(1,1),Y~N(0,1),且X,Y相互獨立
進而有X1~N(0,1),且與Y相互獨立
故由標準正態(tài)分布的性質(zhì)可得到結果
P(XYY<0)=P((X1)Y<0=P(X1<0,Y>0)+P(X1>0,Y<0)=1/2
4 隨機變量的數(shù)字特征是常量
隨機變量的分布一旦確定,其數(shù)值特征是常量;在實際的使用中,一般不會明確隨機變量的分布形式,只是指稱隨機變量符合某種分布,在這個前提下,隨機變量的數(shù)值特征一般用一個符號表示。如果不知曉隨機變量的數(shù)值特征是一個常量,在解題的過程就會發(fā)生把數(shù)值特征當作變量使用。在教學的過程中一定要多次強調(diào)此概念。尤其在講授方差計算公式的時候,可以通過對其的證明來強調(diào)隨機變量的數(shù)值特征是常量這一概念。[5]
在此強調(diào)E(X)是一常量,并且也附加強調(diào)D(X)也是一常量,類似于數(shù)字特征性質(zhì)中常數(shù)符號a,進而就可以利用已學習過的數(shù)學期望的性質(zhì)得證。
5 最大似然估計方法其本質(zhì)是使得似然函數(shù)取最大值時未知參數(shù)的取值就為該未知參數(shù)的最大似然估計值
在常規(guī)最大似然估計方法的教學中,一般會總結該方法為一個標準的流程,學生在學習的時候也會以記憶該流程作為最終的目的,當解題的條件稍微偏離常規(guī)的流程,學生就不知所措,不知道該如何處理;如果我們在教學的過程中首先讓學生明確最大似然原理的本質(zhì)意義,就會依據(jù)最大似然原理來對常規(guī)流程做一變通。2015年考研的最后一個題就很好的體現(xiàn)這種思維。
實例4:設總體X的概率密度為:
其中 為未知參數(shù),X1,X2,……,Xn為,來自該總體的簡單隨機樣本。求 的最大似然估計量(2015年研究入學考試題23.II)。
解析:該題目的求解目的非常清楚,按照解題流程按步推進。
到了這一步發(fā)現(xiàn)對似然函數(shù)對數(shù)求導并不能使之為0,有些同學就卡到了這兒。如果學生知道這步對似然函數(shù)對數(shù)求導的目的是什么,就可輕易獲得 的估計量。第二步的目的通過求解似然函數(shù)獲得最大值時未知參數(shù) 的取值,也就是該未知參數(shù) 的估計量。既然不能為零,那么我們就探討下這個求導后所得函數(shù)的特點,發(fā)現(xiàn)該導數(shù)函數(shù)是關于 單調(diào)增加;而由題目中的定義知 的取值范圍為: ≤x≤1,那么我們就能獲取 的估計量為:=min{x1,x2,…,xn}。
總之,在大學本科工科概率論與數(shù)理統(tǒng)計的教學中,把握住概念本質(zhì)內(nèi)涵教學方法,并同學生討論清楚,就能辨別一些容易混淆而難以理解的概念,并且使得學生在理解概念的本質(zhì)后舉一反三,相關的概念和內(nèi)容就能輕松掌握,同時也能調(diào)動學生的學習積極性和主動性,也能為以后學生從事相關科研工作做打好統(tǒng)計推理的堅實基礎,培養(yǎng)他們自主學習的能力。
本文受西安電子科技大學教學提升計劃教學改革項目(TSLS1506)及新實驗開發(fā)與新實驗設備研制及實驗教學改革項目(SY1565)資助
參考文獻
[1] 林正炎,蘇中根,張立新.當前概率學科中的研究機遇.數(shù)學進展,2004.33(2):129-140.
[2] Nuzzo, R.,Scientific method: statistical errors. Nature, 2014. 506(7487): p. 150-2.
[3] McNutt, M.,Raising the bar. Science, 2014. 345(6192): p. 9.
[4] Collins, F.S.and L.A.Tabak, Policy: NIH plans to enhance reproducibility. Nature, 2014. 505(7485):612-3.
[5] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計.高等教育出版社,2008.