黃文濤
統(tǒng)計(jì)學(xué)中,樣本(總體)的數(shù)字特征通常是指一組數(shù)據(jù)的眾數(shù)、中位數(shù)、平均數(shù)以及方差和標(biāo)準(zhǔn)差等. 這里的平均數(shù)、方差、標(biāo)準(zhǔn)差與離散型隨機(jī)變量的期望、方差和標(biāo)準(zhǔn)差在本質(zhì)上是一致的. 為了從整體上更好地把握總體的規(guī)律,我們需要通過樣本數(shù)據(jù)的眾數(shù)、中位數(shù)、平均數(shù)、方差、標(biāo)準(zhǔn)差來估計(jì)總體的眾數(shù)、中位數(shù)、平均數(shù)、方差、標(biāo)準(zhǔn)差. 本文通過具體例子剖析樣本數(shù)字特征的概念、性質(zhì)和用途,以期對同學(xué)們正確理解并應(yīng)用數(shù)字特征去解決具體問題有所幫助.
用定義與公式求樣本的數(shù)字特征
例1 已知某中學(xué)高三(1)班的甲、乙兩名同學(xué)自高中以來12次數(shù)學(xué)考試成績的莖葉圖如圖,則下列說法正確的個數(shù)為 .
A. 乙的成績中有兩個眾數(shù)
B. 甲的成績的中位數(shù)大于乙的成績的中位數(shù)
C. 甲的成績與乙的成績的平均分相同
D. 乙同學(xué)的成績比甲同學(xué)的成績穩(wěn)定
分析 莖葉圖給出了甲、乙兩同學(xué)的成績,用定義與公式即可求出甲、乙同學(xué)的成績的眾數(shù)、中位數(shù)、平均數(shù)、方差.
解 乙同學(xué)的成績中98,99各有兩次,其余成績均只出現(xiàn)一次,故乙同學(xué)的成績有兩個眾數(shù),A正確.
甲同學(xué)成績的中位數(shù)為,乙同學(xué)成績的中位數(shù)為,B項(xiàng)不正確.
計(jì)算知,甲同學(xué)的平均分為89分,乙同學(xué)的平均分為92.83分,C項(xiàng)不正確.
乙同學(xué)的分?jǐn)?shù)較為集中,甲同學(xué)的分?jǐn)?shù)較為分散,D項(xiàng)正確.
答案 2
點(diǎn)撥 雖然方差是用來刻畫數(shù)據(jù)的離散程度的,但本題利用莖葉圖的直觀優(yōu)勢,可以直接得出乙同學(xué)成績更為穩(wěn)定這一結(jié)論,從而避免了繁瑣的方差計(jì)算.
利用頻率分布直方圖估計(jì)總體的數(shù)字特征
例2 從某校1000名學(xué)生中抽200人統(tǒng)計(jì)數(shù)學(xué)會考成績,得到樣本頻率分布直方圖如圖,試估計(jì)該校學(xué)生數(shù)學(xué)會考成績的眾數(shù)、中位數(shù)、平均數(shù).
分析 利用樣本的頻率分布直方圖來估計(jì)總體的數(shù)字特征,方法如下:眾數(shù)的估計(jì)值是最高矩形的底邊的中點(diǎn). 中位數(shù)的估計(jì)值將直方圖分成左右面積相等的兩部分. 平均數(shù)的估計(jì)值等于頻率分布直方圖中每個小矩形的面積乘以小矩形底邊中點(diǎn)的橫坐標(biāo)之和.
解 圖中最高矩形底邊區(qū)間為,其中點(diǎn)為75,故樣本數(shù)據(jù)的眾數(shù)為75,則總體眾數(shù)的估計(jì)值為75.
圖中所有小矩形面積之和為1,左邊三個小矩形面積之和為,第四個小矩形面積為.第四個小矩形中面積為的部分所占比例為,即直線將直方圖左右分成面積相等的兩部分,故總體中位數(shù)的估計(jì)值約為.
總體平均數(shù)的估計(jì)值為.
點(diǎn)撥 確定中位數(shù)的估計(jì)值時,先要確定面積等分線位于哪一個小矩形中,再確定向左劃出面積與該矩形面積的比值,根據(jù)此比例關(guān)系即可得到面積等分線的具體位置. 平均數(shù)的估計(jì)值等于頻率分布直方圖中每個小矩形的面積乘以小矩形底邊中點(diǎn)的橫坐標(biāo)之和,而每個小矩形的面積等于該組頻率,若該組頻率用表示,小矩形底邊中點(diǎn)的橫坐標(biāo)用表示,則平均數(shù)的估計(jì)值為,這與離散型隨機(jī)變量均值的公式一樣,可見樣本的平均數(shù)與離散型隨機(jī)變量的均值在本質(zhì)上是一致的.
利用數(shù)字特征反推原始數(shù)據(jù)
例3 為了考查某校各班參加課外書法小組的人數(shù),從全校隨機(jī)抽取5個班級,把每個班級參加該小組的人數(shù)作為樣本數(shù)據(jù). 已知樣本平均數(shù)為7,樣本方差為4,且樣本數(shù)據(jù)互不相同,則樣本數(shù)據(jù)中的最大值為________.
分析 由題意知,5個樣本數(shù)據(jù)為互不相同的整數(shù),則可以將這5個數(shù)據(jù)按大小排序,再通過值的范圍試探求解.
需要指出的是,對眾數(shù)、中位數(shù)、平均數(shù)、標(biāo)準(zhǔn)差等數(shù)字特征要有一個正確的理解. 在頻率分布直方圖中,樣本的眾數(shù)是最高矩形的中點(diǎn)的橫坐標(biāo),它比較容易計(jì)算,但它只能表示樣本數(shù)據(jù)中的很少一部分信息. 樣本中位數(shù)左邊和右邊的直方圖的面積相等,它不受少數(shù)幾個極端值的影響,但它僅僅利用了排在中間的數(shù)據(jù)的信息. 樣本平均數(shù)等于每個小矩形的面積乘以矩形底邊中點(diǎn)橫坐標(biāo)之和,它與每個樣本數(shù)據(jù)有關(guān),任何一個樣本數(shù)據(jù)的改變都會引起平均數(shù)的改變. 這是中位數(shù)、眾數(shù)都不具有的性質(zhì). 也正因?yàn)檫@個原因,與眾數(shù)、中位數(shù)比較起來,平均數(shù)可以反映出更多的關(guān)于樣本數(shù)據(jù)的信息. 例如:樣本平均數(shù)大于樣本中位數(shù)時,說明數(shù)據(jù)中存在許多較大的極端值. 反之,說明數(shù)據(jù)中存在許多較小的極端值. 另外,在刻畫數(shù)據(jù)的分散程度上,方差和標(biāo)準(zhǔn)差的效果是一樣的,但在解決實(shí)際問題時,一般多采用標(biāo)準(zhǔn)差. 注意,如果根據(jù)某種利益去選擇使用中位數(shù)或平均數(shù)來描述數(shù)據(jù)的基本情況,則可能會產(chǎn)生一些誤導(dǎo)作用.