北京市房山區(qū)教師進(jìn)修學(xué)校(102401)劉雪明
題目(2019年高考北京卷理科第17 題節(jié)選)改革開(kāi)放以來(lái),人們的支付方式發(fā)生了巨大轉(zhuǎn)變.近年來(lái),移動(dòng)支付已成為主要支付方式之一.為了解某校學(xué)生上個(gè)月A,B兩種移動(dòng)支付方式的使用情況,從全校學(xué)生中隨機(jī)抽取了100 人,發(fā)現(xiàn)樣本中A,B兩種支付方式都不使用的有5 人,樣本中僅使用A和僅使用B的學(xué)生的支付金額分布情況如下:
支付方式支付金額(元)(0, 1000](1000, 2000]大于2000僅使用A 18 人9 人3 人僅使用B 10 人14 人1 人
(Ⅲ)已知上個(gè)月樣本學(xué)生的支付方式在本月沒(méi)有變化.現(xiàn)從樣本僅使用A的學(xué)生中,隨機(jī)抽查3 人,發(fā)現(xiàn)他們本月的支付金額都大于2000 元.根據(jù)抽查結(jié)果,能否認(rèn)為樣本僅使用A的學(xué)生中本月支付金額大于2000 元的人數(shù)有變化?說(shuō)明理由.
分析本題答案開(kāi)放,可以有不同的結(jié)論,只要理由合理就可以.
設(shè)事件H=“從樣本僅使用A的學(xué)生中,隨機(jī)抽查3 人,他們本月的支付金額都大于2000 元”.
答案一認(rèn)為樣本僅使用A的學(xué)生中本月支付金額大于2000 元的人數(shù)有變化.
因?yàn)镻(H)很小,概率很小的事件在一次試驗(yàn)中一般不容易發(fā)生,現(xiàn)在發(fā)生了,所以可以認(rèn)為僅使用A的學(xué)生中本月支付金額大于2000 元的人數(shù)發(fā)生了變化.
答案二不能確定樣本僅使用A的學(xué)生中本月支付金額大于2000 元的人數(shù)是否發(fā)生了變化.
雖然P(H)很小,概率很小的事件在一次試驗(yàn)中一般不容易發(fā)生,但是也是有可能發(fā)生的,所以不能確定僅使用A的學(xué)生中本月支付金額大于2000 元的人數(shù)是否發(fā)生了變化.
我們重點(diǎn)分析一下答案一的思維過(guò)程:
首先提出假設(shè):假設(shè)僅使用A的學(xué)生中本月支付金額大于2000 元的人數(shù)沒(méi)有變化;然后在該假設(shè)下,計(jì)算隨機(jī)事件H的概率;最后進(jìn)行推斷:推斷的依據(jù)是小概率原理(概率很小的事件在一次試驗(yàn)中一般不容易發(fā)生).
實(shí)際上,這就是典型的假設(shè)檢驗(yàn)的思維過(guò)程.假設(shè)檢驗(yàn),是用來(lái)判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法.其基本原理是先對(duì)總體的特征做出某種假設(shè),然后通過(guò)抽樣研究的統(tǒng)計(jì)推理,對(duì)此假設(shè)應(yīng)該被拒絕還是接受做出推斷.常用的假設(shè)檢驗(yàn)方法有Z檢驗(yàn)、t檢驗(yàn)、卡方(獨(dú)立性)檢驗(yàn)、F檢驗(yàn)等[1].
獨(dú)立性檢驗(yàn)是由被稱(chēng)為數(shù)理統(tǒng)計(jì)學(xué)之父的卡爾·皮爾遜于1900年提出的.高中階段學(xué)習(xí)的獨(dú)立性檢驗(yàn)是一種利用χ2的取值推斷某兩個(gè)分類(lèi)變量是否獨(dú)立的統(tǒng)計(jì)方法,獨(dú)立性檢驗(yàn)在生物統(tǒng)計(jì)、醫(yī)學(xué)統(tǒng)計(jì)、社會(huì)統(tǒng)計(jì)等領(lǐng)域有非常廣泛的應(yīng)用.
獨(dú)立性檢驗(yàn)開(kāi)啟了人類(lèi)認(rèn)識(shí)世界的一種新的思維方式.學(xué)習(xí)獨(dú)立性檢驗(yàn)不僅要學(xué)會(huì)用已知的樣本數(shù)據(jù)和確定的檢驗(yàn)方法,會(huì)使用相關(guān)軟件,會(huì)正確解釋結(jié)果,更重要的是要理解獨(dú)立性檢驗(yàn)中蘊(yùn)涵的基本思想和方法.
有些同學(xué)可能會(huì)有疑問(wèn):相關(guān)系數(shù)可以反映兩個(gè)變量之間的相關(guān)程度,為什么還要通過(guò)獨(dú)立性檢驗(yàn)來(lái)檢驗(yàn)兩個(gè)變量之間是否關(guān)聯(lián)呢? 這是因?yàn)橄嚓P(guān)分析和獨(dú)立性檢驗(yàn)所研究的變量不一樣.相關(guān)分析所研究的對(duì)象是數(shù)值變量,比如人的身高、數(shù)學(xué)成績(jī)等,數(shù)值變量的取值是實(shí)數(shù),其大小和運(yùn)算都有實(shí)際意義.而獨(dú)立性檢驗(yàn)研究的對(duì)象是分類(lèi)變量,分類(lèi)變量是說(shuō)明事物類(lèi)別的一個(gè)名稱(chēng),其取值是分類(lèi)數(shù)據(jù),比如“性別”是一個(gè)分類(lèi)變量,其變量值為“男”或“女”,“學(xué)業(yè)成績(jī)”也是一個(gè)分類(lèi)變量,其變量值為“優(yōu)秀”、“合格”、“不合格”.分類(lèi)變量值也可以用實(shí)數(shù)表示,比如男生、女生可以用1,0表示,優(yōu)秀、合格、不合格可以用1,2,3 表示,這些實(shí)數(shù)一般只作為標(biāo)記使用,并沒(méi)有通常的大小和運(yùn)算意義.高中階段的獨(dú)立性檢驗(yàn)中涉及的分類(lèi)變量均有兩個(gè)變量值.
有些同學(xué)可能還會(huì)有疑問(wèn):為什么要先提出假設(shè)? 零假設(shè)能設(shè)為兩個(gè)分類(lèi)變量相關(guān)嗎? 實(shí)際上,假設(shè)在實(shí)際生活中無(wú)處不在,只是我們沒(méi)有意識(shí)到而已.當(dāng)我們要對(duì)一件事物做出判斷的時(shí)候,其中就隱含著假設(shè).假設(shè)檢驗(yàn)要求把這個(gè)隱含的假設(shè)顯性化,也是為了首先明確檢驗(yàn)的目的.假設(shè)包含原假設(shè)(記作H0)和備擇假設(shè)(記作H1),原假設(shè)也叫零假設(shè),備擇假設(shè)也叫對(duì)立假設(shè),原假設(shè)和備擇假設(shè)是相互對(duì)立的.“是不是互為對(duì)立的兩個(gè)假設(shè)中哪一個(gè)作為零假設(shè)都可以呢? ”回答是否定的,假設(shè)的設(shè)置遵循著一些原則:
(1)保護(hù)原假設(shè).如果錯(cuò)誤地拒絕假設(shè)A比錯(cuò)誤地拒絕假設(shè)B帶來(lái)更嚴(yán)重的后果,則選A作為原假設(shè);比如在檢驗(yàn)“某藥物是否有毒副作用”時(shí),一般H0為“藥物有毒副作用”.
(2)原假設(shè)維持現(xiàn)狀.為解釋某些現(xiàn)象或效果的存在性,原假設(shè)常取為“無(wú)效果”“無(wú)改進(jìn)”“無(wú)差別”等,拒絕原假設(shè)表示有較強(qiáng)的理由支持備擇假設(shè).比如在前面高考題中,H0為“人數(shù)沒(méi)有變化”.在獨(dú)立性檢驗(yàn)中,一般H0為“兩個(gè)變量不相關(guān)”.可見(jiàn),原假設(shè)和備擇假設(shè)的地位是不對(duì)等的.
在這些原則的基礎(chǔ)上,廣大師生在教學(xué)實(shí)踐中也總結(jié)出一些簡(jiǎn)單易行的確定假設(shè)的方法:一般把有歷史數(shù)據(jù)或經(jīng)驗(yàn)支持的陳述作為原假設(shè),把需要充分理由支持的陳述作為備擇假設(shè).
關(guān)于χ2的構(gòu)造過(guò)程,我們只要理解其合理性就可以了.χ2值表示觀察值與期望值之間的差異,χ2的構(gòu)造思路:
(1)設(shè)A代表觀察頻數(shù),E代表基于H0計(jì)算出來(lái)的期望頻數(shù),A與E之差稱(chēng)為殘差;教材中通過(guò)實(shí)例解釋了觀察頻數(shù)與期望頻數(shù)的含義[2];
(2)仿照方差的構(gòu)造過(guò)程,不能將所有殘差簡(jiǎn)單相加,可以將殘差平方后相加;
(3)殘差大小是相對(duì)的,比如,相對(duì)于期望頻數(shù)10,殘差50 就很大,但相對(duì)于期望頻數(shù)1000,殘差50 就非常小.為了合理平衡這種影響,又將殘差平方除以期望頻數(shù)后再求和.于是得到χ2統(tǒng)計(jì)量,.
可以算出,在2×2 列聯(lián)表中,
正態(tài)分布是一個(gè)連續(xù)型隨機(jī)變量的分布,我們知道,若X ~N(μ,σ2),則X取值不小于x的概率P(X≥x)為圖1中區(qū)域A的面積,x值越大,區(qū)域A的面積越小,也就是相應(yīng)的概率值越小;概率值越小,x值越大.對(duì)于任何小概率值α,可以找到相應(yīng)的實(shí)數(shù)xα,使得P(X≥xα)=α,稱(chēng)xα為α的臨界值.
圖1
圖2
統(tǒng)計(jì)上已經(jīng)證明,在假定H0的條件下,當(dāng)樣本量很大時(shí),χ2近似服從一個(gè)已知的分布χ2(1),并可以得到幾個(gè)常用的小概率值和相應(yīng)的臨界值.我們可以類(lèi)比正態(tài)分布來(lái)理解獨(dú)立性檢驗(yàn)中的臨界值.表1 給出了獨(dú)立性檢驗(yàn)中幾個(gè)常用的小概率值和相應(yīng)的臨界值
表1
由表1 可知,P(χ2≥ 3.841)≈0.05.可理解為在H0成立的情況下,χ2的觀測(cè)值大于等于3.841 的概率不會(huì)超過(guò)0.05.現(xiàn)在在一個(gè)具體問(wèn)題中由抽樣數(shù)據(jù)算得χ2= 5.059>3.841,這表明這一事件發(fā)生的概率不會(huì)超過(guò)0.05,這是一個(gè)小概率事件,但是發(fā)生了.因此,可以認(rèn)為H0不成立,從而判斷X與Y有關(guān)系.我們做出這樣的判斷有可能犯錯(cuò)誤,χ2的觀測(cè)值仍然可能大于3.841,但這一事件發(fā)生的概率不超過(guò)0.05,也就是說(shuō)犯錯(cuò)誤的概率不超過(guò)0.05.
設(shè)兩個(gè)分類(lèi)變量X,Y均有兩個(gè)變量值,獨(dú)立性檢驗(yàn)的一般步驟:
(1)提出原假設(shè)H0:X與Y相互獨(dú)立;
(2)根據(jù)2×2 列聯(lián)表,計(jì)算χ2的值;
(3)確定臨界值xα,得出推斷結(jié)論:
若χ2>xα,拒絕H0,認(rèn)為“X與Y之間有關(guān)系”,此時(shí)犯錯(cuò)的概率不超過(guò)α;
若χ2<xα,就認(rèn)為沒(méi)有充分的證據(jù)拒絕H0,于是接受H0,認(rèn)為“X與Y相互獨(dú)立”.
用反證法證明結(jié)論A正確的一般步驟是:首先否定A,即假設(shè)結(jié)論A錯(cuò)誤,然后以結(jié)論A錯(cuò)誤為前提條件進(jìn)行推理,推理得出一個(gè)矛盾結(jié)論,從而說(shuō)明假設(shè)不成立,即結(jié)論A正確.在全部邏輯推理正確的情況下,反證法不會(huì)犯錯(cuò).
獨(dú)立性檢驗(yàn)的統(tǒng)計(jì)思想是:要研究“兩個(gè)分類(lèi)變量有關(guān)系”的可靠程度,首先假設(shè)該結(jié)論不成立,即假設(shè)“H0:兩個(gè)分類(lèi)變量沒(méi)有關(guān)系”成立[3],在該假設(shè)下,如果出現(xiàn)一個(gè)與H0相矛盾的小概率事件,則推斷H0不成立,且該推斷犯錯(cuò)誤的概率不大于這個(gè)小概率值.從反證法與獨(dú)立性檢驗(yàn)的比較中我們還可以再次感受到,原假設(shè)與備擇假設(shè)的不對(duì)等性.
身處大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)無(wú)處不在,數(shù)據(jù)分析素養(yǎng)已成為當(dāng)代公民必備素養(yǎng)之一.我們學(xué)習(xí)常用統(tǒng)計(jì)方法,就要領(lǐng)悟其思想、從數(shù)據(jù)中找出規(guī)律、感悟推斷結(jié)果的合理性,并運(yùn)用統(tǒng)計(jì)知識(shí)解決實(shí)際問(wèn)題,進(jìn)一步體會(huì)統(tǒng)計(jì)的作用與價(jià)值.