張唯一
我們知道,一個原始數(shù)據(jù)的集合包含了該數(shù)據(jù)集合的所有信息.信息的提取依賴于我們對數(shù)據(jù)的整理加工,僅僅看一看原始數(shù)據(jù)是很難提取其中的信息的.利用統(tǒng)計圖表對一組數(shù)據(jù)進(jìn)行整理和描述,可以得到數(shù)據(jù)分布的一些面貌和特征.在許多情況下,人們更感興趣的是從一組數(shù)據(jù)中找出一些代表,即將大量的數(shù)據(jù)概括為很少的幾個有代表性的數(shù)值.例如,考察某地區(qū)水稻產(chǎn)量,通常關(guān)心該地區(qū)的平均畝產(chǎn)量;要想比較同年級兩個班學(xué)生身高的情況,將兩個班學(xué)生一一進(jìn)行比較是比不出什么結(jié)果的,往往是比較兩個班的平均身高.除了平均數(shù),中位數(shù)、眾數(shù)也是統(tǒng)計中常用的數(shù)據(jù)的代表.作為數(shù)據(jù)的代表這三個量各有特點(diǎn).
例 1 某小企業(yè)共有員工16人,月工資及相應(yīng)的人數(shù)如表1所示.
(1) 指出企業(yè)月工資的平均數(shù)、中位數(shù)、眾數(shù).
(2) 請問:企業(yè)月工資的平均數(shù)能客觀反映該企業(yè)的工資水平嗎?
解:(1)通過加權(quán)平均數(shù)公式,求得企業(yè)月工資的平均數(shù)為
x==1 400.
從表中還容易找出,企業(yè)月工資的中位數(shù)為800,眾數(shù)為800.
(2)觀察表格中的數(shù)據(jù)不難發(fā)現(xiàn),企業(yè)所有16個員工中,有13個員工的工資是在平均數(shù)以下的,而且大部分都是800元,大大低于平均數(shù);只有3個員工的工資高過平均數(shù).顯然平均數(shù)1 400不能客觀反映該企業(yè)的工資水平.而這里的中位數(shù)或眾數(shù)800,則比平均數(shù)1 400更能客觀反映該企業(yè)的工資水平.
比較該企業(yè)月工資的平均數(shù)、中位數(shù)、眾數(shù),可以發(fā)現(xiàn)它們不盡相同,而且平均數(shù)和中位數(shù)、眾數(shù)之間的差距還很大.作為同一組數(shù)據(jù)的代表,三個量之間的差別為什么會這么大呢?選取數(shù)據(jù)集合的代表時,我們又該如何在它們中間取舍呢?下面,分別就中位數(shù)、眾數(shù)、平均數(shù)的作用結(jié)合上面例子進(jìn)行分析.
一組數(shù)據(jù)的中位數(shù)把數(shù)據(jù)分成同等數(shù)目的兩組,一半小于等于這個數(shù),而另一半大于等于這個數(shù).于是將一組數(shù)據(jù)由小到大排列,數(shù)據(jù)為奇數(shù)個時,處于中間位置的數(shù)就是中位數(shù);數(shù)據(jù)為偶數(shù)個時,則以中間兩個數(shù)的平均數(shù)為中位數(shù).可見,中位數(shù)不一定是原數(shù)據(jù),但它很好代表了一組數(shù)據(jù)的中點(diǎn),而且只要把數(shù)據(jù)按照由小到大的順序排列,就很容易找出中位數(shù),不需要什么計算.另外,中位數(shù)不受極端值的影響.例如,由于6 000這個數(shù)據(jù)的存在,很大程度上抬高了平均數(shù),但是不影響中位數(shù),甚至把6 000改為60 000,中位數(shù)還是不會變,仍是800,而這時的平均數(shù)卻會變得比原來大很多.事實(shí)上,確定中位數(shù)時,僅僅利用了中間值,對其他數(shù)據(jù)則利用了它們和中間值之間的相對位置關(guān)系,而沒有利用它們的具體大小這些信息.因此,僅知道一組數(shù)據(jù)的中位數(shù)而不給出這組數(shù)據(jù)時,無法知道這組數(shù)據(jù)中那些比中位數(shù)大(?。┑臄?shù)據(jù)究竟比中位數(shù)大(?。┑绞裁闯潭?例如,如果只告知企業(yè)月工資的中位數(shù)為800,我們就沒法知道比中位數(shù)大的那些工資跟800的差距有多大,也無法知道比中位數(shù)小的那些工資跟800的差距有多大.
中位數(shù)不受極端值影響,某些情況下是優(yōu)點(diǎn).上面例子中,中位數(shù)沒有受極端值6 000的影響,比較客觀地反映了企業(yè)的工資水平.
中位數(shù)不受極端值影響,某些情況下也是一個缺點(diǎn).比如,稅務(wù)部門調(diào)查、征收個人所得稅時,則6 000這一極端值不能被忽略,僅憑中位數(shù)就很難發(fā)覺極端值的存在.
眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多(或稱最典型)的數(shù)據(jù),相對來說是三個數(shù)據(jù)代表中用得比較少的一個.眾數(shù)一定是數(shù)據(jù)集合中的原數(shù)據(jù),有時可能不止一個.找眾數(shù)只需要觀察原數(shù)據(jù)并進(jìn)行計數(shù),不需要什么計算.眾數(shù)反映了數(shù)據(jù)的最大集中點(diǎn),因此只能告訴我們這個值出現(xiàn)的次數(shù)比其他的值出現(xiàn)的次數(shù)多,但并未告訴我們它具體出現(xiàn)了多少次,它比其他數(shù)據(jù)出現(xiàn)次數(shù)多的程度有多大.例如,如果只告知企業(yè)月工資的眾數(shù)是800,我們并不能知道工資是800的人具體有多少,工資是800的人比其他人多多少.和中位數(shù)一樣,眾數(shù)也不受極端值的影響.
平均數(shù)是所有數(shù)據(jù)相加的和除以數(shù)據(jù)的個數(shù)所得的商,是我們最常用的一個數(shù)據(jù)的代表.平均數(shù)往往不是原數(shù)據(jù)集合中的數(shù)據(jù).平均數(shù)的計算,利用了原始數(shù)據(jù)集合中的每一個數(shù)據(jù),因此任何一個數(shù)據(jù)的變化,都會影響平均數(shù),而中位數(shù)和眾數(shù)都不具有這個性質(zhì).因此,和中位數(shù)、眾數(shù)比較起來,平均數(shù)可以反映出更多關(guān)于數(shù)據(jù)集合的信息.也正因為如此,平均數(shù)容易受極端值的影響.這在某種情況下是優(yōu)點(diǎn),在某種情況下則是缺點(diǎn),上面例子就是一個很好的佐證.
從上面對中位數(shù)、眾數(shù)和平均數(shù)的分析可以看出,它們作為數(shù)據(jù)的代表各有優(yōu)缺點(diǎn).要根據(jù)數(shù)據(jù)特點(diǎn)及實(shí)際問題選取合適的數(shù)據(jù)代表.一般地,如果數(shù)據(jù)中有極端值時,最好不要使用平均數(shù);當(dāng)小的數(shù)據(jù)與大的數(shù)據(jù)的個數(shù)大致相同時,則用平均數(shù)作為代表比較合適.如果小的數(shù)據(jù)個數(shù)明顯比大的數(shù)據(jù)多,或者大的數(shù)據(jù)個數(shù)明顯比小的數(shù)據(jù)多,我們最好用中位數(shù)作為代表.有時,為了決定對一個數(shù)據(jù)集合是使用平均數(shù)還是中位數(shù),最好兩者都算出來.如果它們的值很接近,則我們使用平均數(shù);如果它們有很大的不同,則我們使用中位數(shù).
另外,我們還可以發(fā)現(xiàn),對數(shù)據(jù)的概括會使得數(shù)據(jù)高度簡單化.但同時,任何簡化都意味著某些信息的丟失.
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”。
中學(xué)生數(shù)理化·八年級數(shù)學(xué)北師大版2008年11期