代金博
摘 要:我們知道,每一項(xiàng)成功的研究都離不開數(shù)據(jù),數(shù)據(jù)的獲得使我們的統(tǒng)計(jì)分析得以實(shí)現(xiàn)。然而有時(shí)候我們未必能從所得到的統(tǒng)計(jì)數(shù)據(jù)中得到正確合理的判斷,這就是因?yàn)槲覀兊臄?shù)據(jù)存在著偏差。統(tǒng)計(jì)學(xué)中的偏差是指在研究或者推論過程中所獲得的結(jié)果系統(tǒng)地偏離其真實(shí)值,它屬于系統(tǒng)誤差。統(tǒng)計(jì)偏差具有單方面性,有正負(fù)之分,可高于真實(shí)值,也可低于真實(shí)值。偏差往往是因?yàn)檠芯繉ο蟮倪x擇方法不對,收集信息的方式不當(dāng)、以及一些混雜因素的存在而產(chǎn)生的,常出現(xiàn)在調(diào)查研究的設(shè)計(jì)階段、抽樣階段等。
關(guān)鍵詞:統(tǒng)計(jì)偏差;數(shù)量經(jīng)濟(jì)學(xué);經(jīng)濟(jì)統(tǒng)計(jì);抽樣;回憶性偏差
偏差的產(chǎn)生給我們統(tǒng)計(jì)調(diào)查帶來了很多不必要的麻煩,帶有偏差的數(shù)據(jù)常常蒙蔽了我們的眼睛,使我們得出不準(zhǔn)確的判斷,讓我們的整個(gè)調(diào)查分析得到誤導(dǎo)性的結(jié)論,接下來讓我們了解一下統(tǒng)計(jì)學(xué)里最常見幾種偏差。
一、選擇性偏差
據(jù)稱美國著名導(dǎo)演寶琳·凱爾曾經(jīng)在接受電視臺采訪時(shí),當(dāng)主持人問她對本次尼克松參與競選的態(tài)度時(shí),她說:“尼克松在本次大選中不可能獲勝,我所接觸的人中沒有支持他的”。可結(jié)果并不像凱爾預(yù)測的那樣,尼克松在大選中成功獲勝,使得凱爾的這一判斷以失敗而告終。也許這句話并非出自凱爾之口,但卻說明了統(tǒng)計(jì)學(xué)中常見的一個(gè)問題——不成功的樣本所帶來的不成功判斷,即我們所說的選擇性偏差。選擇性偏差是指被我們選入觀察的研究對象和沒有被我們選入觀察的對象之間存在差異,使得研究結(jié)果出現(xiàn)系統(tǒng)誤差,從而得到誤導(dǎo)性的結(jié)論。在醫(yī)學(xué)中,參加醫(yī)學(xué)實(shí)驗(yàn)的志愿者與非志愿者在關(guān)心健康,注意飲食衛(wèi)生以及營養(yǎng)食療、禁煙禁酒和身體鍛煉等方面都存在差異,志愿者作為實(shí)驗(yàn)樣本,而非志愿者卻被排除在外,這樣的實(shí)驗(yàn)觀察勢必存在選擇性偏差,給實(shí)驗(yàn)結(jié)果帶來不準(zhǔn)確的判斷。同樣的,當(dāng)我們做一些消費(fèi)者問卷調(diào)查時(shí),在機(jī)場進(jìn)行問卷調(diào)查和在鄉(xiāng)村公路做調(diào)查會(huì)出現(xiàn)兩個(gè)極端,一個(gè)是調(diào)查者中大多是富人,而另一個(gè)則是大多比較貧困,同樣的調(diào)查可能會(huì)出現(xiàn)顯著的不同結(jié)果。
二、回憶性偏差
回憶性偏差是研究對象的記憶失真或者記憶不完整所造成的研究結(jié)果偏差。人類與生俱來就有一種將現(xiàn)實(shí)存在的結(jié)果推究到以前發(fā)生的事的沖動(dòng),即所謂的因果關(guān)系。主要起因就是我們在努力解釋當(dāng)前好或者不好的事情時(shí),回憶總是不由自主的將其歸結(jié)為過去發(fā)生的事所引起的。在統(tǒng)計(jì)調(diào)查中使用縱向追蹤研究比橫向研究更具有優(yōu)勢,原因之一就避免了回憶性偏差。在追蹤研究中,數(shù)據(jù)是同時(shí)采集的,正如在研究學(xué)生對學(xué)校態(tài)度和輟學(xué)之間的關(guān)系時(shí),在五歲的時(shí)候,參與者被問及他對學(xué)校的態(tài)度。再過十幾年,我們重新采訪參與者,看他是否高中輟學(xué)。而在橫向研究中,所用的數(shù)據(jù)是在統(tǒng)一時(shí)間點(diǎn)上采集的,當(dāng)研究者詢問此時(shí)已經(jīng)輟學(xué)的他五歲時(shí)對學(xué)校的態(tài)度,所得到的信息必然是不可靠的。
三、存活者偏差
1941年,第二次世界大戰(zhàn)正如火如荼的進(jìn)行著,當(dāng)時(shí)美英聯(lián)軍正對德日法西斯進(jìn)行大規(guī)模的轟炸,然而,每次轟炸后,戰(zhàn)斗機(jī)都損失慘重,傷痕累累,為了減少戰(zhàn)斗機(jī)和飛行員的損傷,此時(shí)英國皇家空軍的指揮官找到了哥倫比亞大學(xué)統(tǒng)計(jì)學(xué)家沃德教授,希望他根據(jù)統(tǒng)計(jì)學(xué)知識來尋找戰(zhàn)斗機(jī)的改裝點(diǎn)。沃德對軍方提供的資料進(jìn)行了詳細(xì)的分析,研究發(fā)現(xiàn)從返回戰(zhàn)斗機(jī)的彈著點(diǎn)上來看,機(jī)翼是整個(gè)戰(zhàn)斗機(jī)中最容易被擊中的部位,而飛行員所在的座艙和發(fā)動(dòng)機(jī)所在的機(jī)尾則是最少被擊中的部位。聯(lián)軍對這一發(fā)現(xiàn)非常滿意,并準(zhǔn)備立即著手加強(qiáng)對機(jī)翼的裝甲,但沃德卻對此持反對意見,他認(rèn)為應(yīng)該加強(qiáng)飛行員座艙和機(jī)尾部位的裝甲——即最少發(fā)現(xiàn)彈孔的地方。這一態(tài)度引起了大家的驚愕與懷疑,沃德解釋道,在他所分析的樣本中,只包含順利返回基地的戰(zhàn)斗機(jī),從統(tǒng)計(jì)學(xué)角度來看,多次被擊中機(jī)翼的戰(zhàn)斗機(jī)還可以安全返回,而很少發(fā)現(xiàn)彈著點(diǎn)的部位,并不是真的不會(huì)中彈,而是一旦被擊中,該戰(zhàn)斗機(jī)根本沒有返回的可能。這一解釋讓聯(lián)軍指揮官恍然大悟,決定接受沃德的建議,加強(qiáng)了駕駛艙和機(jī)尾發(fā)動(dòng)機(jī)部位的防御裝甲,從此之后聯(lián)軍戰(zhàn)斗機(jī)被擊落的比例顯著的下降了。這就是典型的存活者偏差的例子。
存活者偏差的出現(xiàn)是因?yàn)槲覀冎豢吹搅私?jīng)過某種篩選后產(chǎn)生的結(jié)果,而往往忽略了整個(gè)篩選的過程,因此我們失去了被篩選掉的關(guān)鍵信息。正如《紐約時(shí)報(bào)》對此曾說過一句很精辟的話:“數(shù)據(jù)本身并沒有對我們?nèi)鲋e,只不過有些數(shù)字沒有發(fā)出聲音罷了”。我們之所以被統(tǒng)計(jì)蒙蔽,是因?yàn)闆]有看到這些數(shù)字而已。我們將其形容為“沉默的數(shù)據(jù)”。
四、發(fā)表性偏差
在現(xiàn)實(shí)生活中具有統(tǒng)計(jì)學(xué)意義的結(jié)果(A和B相關(guān))相比于不具有統(tǒng)計(jì)學(xué)意義的結(jié)果(A和B無關(guān))更易被我們所接受和發(fā)表,這就是我們所說的發(fā)表性偏差,又稱“出版性偏差”,假如說你現(xiàn)在進(jìn)行一項(xiàng)研究,調(diào)查研究玩網(wǎng)絡(luò)游戲和患胰腺癌之間的關(guān)系,你非常嚴(yán)謹(jǐn)認(rèn)真的追蹤調(diào)查,花了15年收集了5萬人的數(shù)據(jù)。最終發(fā)現(xiàn),長時(shí)間玩網(wǎng)絡(luò)游戲和患胰腺癌之間并無任何關(guān)系,試想這種結(jié)論會(huì)有期刊愿意接收發(fā)表么?答案是肯定的——沒有期刊會(huì)愿意發(fā)表,因?yàn)槟愕玫降慕Y(jié)論玩網(wǎng)絡(luò)游戲和患胰腺癌毫無關(guān)系,不具有明顯的統(tǒng)計(jì)學(xué)意義。公眾或者期刊對這一結(jié)論感覺索然無味。假如你的另一位同事做同樣的實(shí)驗(yàn),“一不小心”得到了不同的結(jié)論——玩網(wǎng)絡(luò)游戲能明顯減少患胰腺癌的幾率。此時(shí)各大期刊便會(huì)紛紛伸出橄欖枝,以求這一突破性發(fā)現(xiàn)在該期刊上發(fā)表。這樣的結(jié)果便會(huì)誤導(dǎo)我們,混淆了我們的真實(shí)結(jié)論。
在統(tǒng)計(jì)過程中異乎尋常的事時(shí)有發(fā)生,這只是概率問題。正如我們進(jìn)行100次的統(tǒng)計(jì)調(diào)查,99次的調(diào)查正確結(jié)論都顯示不相關(guān),而一次的純屬無稽的結(jié)果卻顯示相關(guān)——正如玩網(wǎng)絡(luò)游戲能降低患胰腺癌的幾率,這一結(jié)論成功的引起人們的注意,迎合了人們的相關(guān)性偏好,把它當(dāng)作一項(xiàng)偉大的發(fā)現(xiàn)。當(dāng)然,產(chǎn)生這一偏差的源頭的并不在于統(tǒng)計(jì)研究的本身,但傳遞給公眾的信息卻是偏頗的。這源于我們更喜歡相關(guān)性。
著名的哲學(xué)家教育學(xué)家安德烈斯貝略曾說過:數(shù)據(jù)能代替判斷,用數(shù)據(jù)說謊容易,但是用真實(shí)數(shù)據(jù)說出真相卻沒有這么簡單。統(tǒng)計(jì)讓我們接觸到越來越多的數(shù)據(jù),我們應(yīng)該更好的利用這些數(shù)據(jù),探索出數(shù)據(jù)隱藏下的真相。(作者單位:天津財(cái)經(jīng)大學(xué)統(tǒng)計(jì)系)
參考文獻(xiàn):
[1] 陳悟朝.統(tǒng)計(jì)原來挺有趣[J].中國統(tǒng)計(jì),2009(11)
[2] 魏振軍.統(tǒng)計(jì)通俗讀本:漫游數(shù)據(jù)王國[M].中國統(tǒng)計(jì)出版社,2010
[3] Darrel Huff,廖穎琳.統(tǒng)計(jì)數(shù)字會(huì)撒謊[M].中國城市出版社,2009
[4] 張建國,王香生等.體制與健康促進(jìn)研究中的混雜因素及其控制與處理[J].中國運(yùn)動(dòng)醫(yī)學(xué)雜志,2010(6)