■王佩其
1.隨機(jī)抽樣
隨機(jī)抽樣包括簡(jiǎn)單隨機(jī)抽樣、系統(tǒng)抽樣和分層抽樣,三種方法雖然有所不同,但無(wú)論哪種抽樣,每個(gè)個(gè)體被抽取的可能性都相等。
2.數(shù)據(jù)處理的常用圖表
(1)莖葉圖:當(dāng)我們收集的樣本數(shù)據(jù)不是很多,且又不是太分散時(shí),可以用莖葉圖進(jìn)行處理,莖葉圖可以保留所有數(shù)據(jù),而且可以隨時(shí)記錄數(shù)據(jù)。
(2)頻率分布表:當(dāng)數(shù)據(jù)較多且是一些特殊數(shù)據(jù)時(shí),可以考慮列出頻率分布表,頻率分布表可以較清晰地看出數(shù)據(jù)之間的聯(lián)系。
(3)頻率分布直方圖:有時(shí)數(shù)據(jù)較為復(fù)雜,要想從數(shù)據(jù)中獲得較為準(zhǔn)確的結(jié)果,僅靠一方面的分析還可能不理想,此時(shí)可以通過(guò)頻率分布表來(lái)繪制頻率分布直方圖,借助圖形產(chǎn)生結(jié)論。
(4)散點(diǎn)圖:對(duì)于附加條件的數(shù)據(jù),可借助散點(diǎn)圖,利用基本函數(shù)的圖像來(lái)處理。
3.四種樣本數(shù)字特征的應(yīng)用
樣本的數(shù)字特征主要是指樣本數(shù)據(jù)的平均數(shù)、眾數(shù)、中位數(shù)、標(biāo)準(zhǔn)差(方差)。
眾數(shù)體現(xiàn)了樣本數(shù)據(jù)的最大集中點(diǎn),容易計(jì)算,但它只能表達(dá)樣本數(shù)據(jù)中很少一部分信息,顯然對(duì)其他數(shù)據(jù)信息的忽略使其無(wú)法客觀地反映總體特征。
中位數(shù)是樣本數(shù)據(jù)所占頻率的等分線,它不受少數(shù)幾個(gè)極端值的影響,容易計(jì)算,它僅利用了數(shù)據(jù)中排在中間數(shù)據(jù)的信息,但它對(duì)極端值的不敏感有時(shí)也會(huì)成為缺點(diǎn)。
平均數(shù)與每一個(gè)樣本的數(shù)據(jù)有關(guān),“越離群”的數(shù)據(jù),對(duì)平均數(shù)的影響也越大,所以任何一個(gè)樣本數(shù)據(jù)的改變都會(huì)引起平均數(shù)的改變,這是眾數(shù)、中位數(shù)都不具有的性質(zhì)。也正因?yàn)檫@個(gè)原因,與眾數(shù)、中位數(shù)比較起來(lái),平均數(shù)可以反映出更多的關(guān)于樣本數(shù)據(jù)全體的信息,但平均數(shù)受數(shù)據(jù)中的極端值的影響較大,使平均數(shù)在估計(jì)總體時(shí)可靠性降低。
4.求線性回歸方程的方法
(1)回歸分析是對(duì)具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析的方法。兩個(gè)變量具有相關(guān)關(guān)系是回歸分析的前提。
(2)散點(diǎn)圖是定義在具有相關(guān)關(guān)系的兩個(gè)變量基礎(chǔ)上的,對(duì)于性質(zhì)不明確的兩組數(shù)據(jù),可先作散點(diǎn)圖,在圖上看它們有無(wú)關(guān)系,關(guān)系的密切程度,然后再進(jìn)行相關(guān)的回歸分析。
(3)求回歸直線方程,只有在散點(diǎn)圖大致呈線性時(shí),求出的回歸直線方程才有實(shí)際意義,否則求出的回歸直線方程毫無(wú)意義。求回歸直線方程通常用待定系數(shù)法。
例1我國(guó)古代數(shù)學(xué)專(zhuān)著《九章算術(shù)》中有一衰分問(wèn)題:今有北鄉(xiāng)八千一百人,西鄉(xiāng)七千四百八十八人,南鄉(xiāng)六千九百一十二人,凡三鄉(xiāng),發(fā)役三百人,則北鄉(xiāng)遣( )。
解:由題意可知,這是一個(gè)分層抽樣問(wèn)題,其中北鄉(xiāng)可抽取的人數(shù)為300×應(yīng)選B。
評(píng)注:本題屬于分層抽樣問(wèn)題,是高考中出現(xiàn)頻率最高的抽樣問(wèn)題。分層抽樣適用于總體中個(gè)體差異較大的情況,其解題思路如下:①求某層應(yīng)抽個(gè)體數(shù)量,即按該層所占總體的比例計(jì)算。②已知某層個(gè)體數(shù)量,求總體容量,即根據(jù)分層抽樣就是按比例抽樣,列比例式進(jìn)行計(jì)算。
例2為了解某校教師使用多媒體進(jìn)行教學(xué)的情況,采用簡(jiǎn)單隨機(jī)抽樣的方法,從該校400名授課教師中抽取20名,調(diào)查了他們上學(xué)期使用多媒體進(jìn)行教學(xué)的次數(shù),結(jié)果用莖葉圖表示如圖1所示。據(jù)此可估計(jì)該校上學(xué)期400名教師中,使用多媒體進(jìn)行教學(xué)次數(shù)在[16,30)內(nèi)的人數(shù)為 。
圖1
解:觀察莖葉圖,可知抽取的20名教師中使用多媒體教學(xué)次數(shù)在[16,30)內(nèi)的有8人,所以該區(qū)間段的頻率為,因此全校400名教師使用多媒體進(jìn)行教學(xué)次數(shù)在[16,30)內(nèi)的人數(shù)為400×0.4=160。
評(píng)注:莖葉圖便于數(shù)據(jù)的記錄和表示。由莖葉圖可以清晰地看到數(shù)據(jù)的分布情況,但當(dāng)樣本容量較大時(shí),作圖較煩瑣。
例3一次科技知識(shí)競(jìng)賽,兩組學(xué)生的成績(jī)?nèi)绫?所示(滿分為100分)。
表1
已經(jīng)計(jì)算得知兩組成績(jī)的平均數(shù)都是80分,請(qǐng)根據(jù)你所學(xué)過(guò)的統(tǒng)計(jì)知識(shí),進(jìn)一步判斷這兩個(gè)組在這次競(jìng)賽中的成績(jī)誰(shuí)優(yōu)誰(shuí)差,說(shuō)明理由。
解:甲組成績(jī)的眾數(shù)為90分,乙組成績(jī)的眾數(shù)為70分,從成績(jī)的眾數(shù)比較看,甲組的成績(jī)好一些。
由表中數(shù)據(jù)可知,兩組均有學(xué)生50人,兩組的平均數(shù)都是80分。利用方差公式容易得到s2甲=172,s2乙=256。因?yàn)閟2甲<s2乙,所以甲組的成績(jī)比乙組的成績(jī)穩(wěn)定。
甲、乙兩組成績(jī)的中位數(shù)、平均數(shù)都是80分,其中甲組成績(jī)不低于80分的有33人,乙組成績(jī)不低于80分的有26人,從這一角度來(lái)看甲組的成績(jī)較好。
從成績(jī)統(tǒng)計(jì)表來(lái)看,甲組的成績(jī)不低于90分的有20人,乙組的成績(jī)不低于90分的有24人,所以乙組成績(jī)集中在高分段的人數(shù)多,同時(shí)乙組得滿分的人數(shù)比甲組得滿分的人數(shù)多6。從這些角度來(lái)看,乙組的成績(jī)較好。
評(píng)注:在實(shí)際問(wèn)題中,僅靠平均數(shù)不能完全反映問(wèn)題,還要研究方差,方差描述了數(shù)據(jù)相對(duì)平均數(shù)的離散程度。在平均數(shù)相同的情況下,方差越大,離散程度越大,數(shù)據(jù)波動(dòng)性越大,穩(wěn)定性越差;方差越小,數(shù)據(jù)越集中,穩(wěn)定性越好。
例4某電子商務(wù)公司對(duì)10000名網(wǎng)絡(luò)購(gòu)物者2018年度的消費(fèi)情況進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)消費(fèi)金額(單位:萬(wàn)元)都在區(qū)間[0.3,0.9]內(nèi),其頻率分布直方圖如圖2所示。
圖2
(1)直方圖中的a=____。
(2)在這些購(gòu)物者中,消費(fèi)金額在區(qū)間[0.5,0.9]內(nèi)的購(gòu)物者的人數(shù)為_(kāi)___。
解:(1)由頻率分布直方圖及頻率之和等于1,可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a×0.1=1,解得a=3。
(2)消費(fèi)金額在區(qū)間[0.5,0.9]內(nèi)的頻率為0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6,所以消費(fèi)金額在區(qū)間[0.5,0.9]內(nèi)的購(gòu)物者的人數(shù)為0.6×10000=6000。
評(píng)注:頻率分布直方圖是高考考查的熱點(diǎn)。用樣本的頻率分布來(lái)估計(jì)總體分布的重點(diǎn)是頻率分布表和頻率分布直方圖的繪制以及用樣本的頻率分布估計(jì)總體分布,難點(diǎn)是頻率分布表和頻率分布直方圖的理解及應(yīng)用。在計(jì)數(shù)和計(jì)算時(shí)一定要準(zhǔn)確,在繪制小矩形時(shí)寬窄要一致。通過(guò)頻率分布表和頻率分布直方圖可以對(duì)總體作出估計(jì)。