□文/鄒文慧
(山東經(jīng)貿(mào)職業(yè)學(xué)院 山東·濰坊)
[提要] 數(shù)據(jù)收集過程是統(tǒng)計分析的基礎(chǔ)環(huán)節(jié),為保證統(tǒng)計分析結(jié)論的準(zhǔn)確性,首先要做好數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)收集方法作為科學(xué)技術(shù)無可厚非,同時也具有藝術(shù)性。本文通過統(tǒng)計分析中的三則典型案例,從抽樣的設(shè)計、數(shù)據(jù)的數(shù)量和質(zhì)量以及試驗設(shè)計角度,說明數(shù)據(jù)收集的藝術(shù)情操所在。
正所謂“巧婦難為無米之炊”,數(shù)據(jù)收集在整個統(tǒng)計分析過程中扮演著重要的角色,要想獲得精確的統(tǒng)計分析結(jié)論,首先要從收集高質(zhì)量的數(shù)據(jù)開始。如何獲得一套高質(zhì)量的統(tǒng)計數(shù)據(jù)不但要講究科學(xué)性還應(yīng)把握藝術(shù)性。統(tǒng)計學(xué)是收集數(shù)據(jù)、整理數(shù)據(jù)以及從數(shù)據(jù)中獲得相關(guān)有用信息的方法論科學(xué),那么數(shù)據(jù)收集技術(shù)作為科學(xué)毋庸置疑,又為何是一門藝術(shù)呢?藝術(shù)一詞常被用在文學(xué)領(lǐng)域,指的是審美的意識形態(tài),用來描述現(xiàn)實和寄托情感。當(dāng)科學(xué)與美感相遇時,便擦出了藝術(shù)的火花。筆者通過幾則典型案例,試圖說明這一點。
(一)國民誠實情況調(diào)查。抽樣是數(shù)據(jù)收集的常用方法之一,具有調(diào)查費用低、效率高和時間短等優(yōu)勢,為使樣本盡可能真實地反映總體的特征,要進(jìn)行合理的抽樣設(shè)計。為了解15個國家的國民誠實情況,即哪些國家國民更傾向于撒謊,哪些國家的國民更誠實,現(xiàn)進(jìn)行抽樣設(shè)計:先從每個國家找1,000人,15個國家總共有1.5萬人參加此次測驗,采用互聯(lián)網(wǎng)調(diào)查。細(xì)思之,如果直接去問對方是否撒過謊或者你是一個誠實的人嗎,往往很難獲得真實的回答,所以該調(diào)查存在的主要困難是如何獲得貼近現(xiàn)實的高質(zhì)量調(diào)查數(shù)據(jù)。
鑒于此,下面進(jìn)行試驗設(shè)計,第一組試驗要求被調(diào)查者在家里拋硬幣,要求參與人只需在互聯(lián)網(wǎng)上告知調(diào)查結(jié)果,且不需提供任何過程性證據(jù)。試驗開始之前,網(wǎng)絡(luò)規(guī)定如果被調(diào)查者投擲結(jié)果是正面向上,將獲得10元獎勵,反之不獲得任何獎勵。實際上該試驗是有理論參照的,歷史上皮爾遜等著名統(tǒng)計學(xué)家做了大量硬幣投擲試驗,以此說明頻率穩(wěn)定性,也就是說無論試驗次數(shù)為多少,硬幣出現(xiàn)正反兩面的結(jié)果均為0.5左右。假想之,若某個國家參加試驗的1,000人中,參與人受獎勵所帶來的利益驅(qū)使,導(dǎo)致900人甚至1,000人聲稱自己投擲的結(jié)果是正面,就有很大的概率認(rèn)為其中有人撒謊了。
第二組試驗是被調(diào)查者回答五道題目,要求被調(diào)查者提前承諾在不查閱任何資料的情況下進(jìn)行作答,題目難易程度設(shè)置為三道相當(dāng)容易,其余兩道難度較大,在不查閱任何資料的情況下幾乎不能正確作答。該試驗也給予一定的獎勵,若被調(diào)查者答對4個及以上將獲得10元獎勵,三個及以下不獎勵。同樣的,這個試驗的參照正確率為0.6,如果試驗結(jié)果顯示正確率遠(yuǎn)遠(yuǎn)超過這一界限,則可能出現(xiàn)所謂的“撒謊”或者說“不誠實”。
然后,統(tǒng)計人員對這兩組試驗結(jié)果進(jìn)行相互驗證,最終得到國民誠實情況的測度結(jié)果。以上兩組數(shù)據(jù)收集過程都非常恰當(dāng)?shù)伢w現(xiàn)了統(tǒng)計學(xué)在收集數(shù)據(jù)方面的藝術(shù)。因此,在大數(shù)據(jù)時代,即使有了傳感器等先進(jìn)數(shù)據(jù)采集設(shè)備,亦或者像網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集技術(shù),調(diào)查者也很難獲得適合研究目的的所有真實數(shù)據(jù)。所以說,統(tǒng)計分析過程中收集數(shù)據(jù)是一門藝術(shù),針對特定的研究目的和特征,結(jié)合科學(xué)性與美感設(shè)計完善的數(shù)據(jù)采集方案,就是非常藝術(shù)的數(shù)據(jù)收集過程了。
(二)1936年美國總統(tǒng)大選。1932年的時候,富蘭克林·羅斯福第一次當(dāng)選總統(tǒng),當(dāng)時美國和許多國家正遭受嚴(yán)重的經(jīng)濟(jì)危機,羅斯福的壓力很大。因此,到1936年羅斯福想要競選連任的時候,美國很多人預(yù)測他將被對手蘭登打敗。當(dāng)時就有兩家機構(gòu)在預(yù)測總統(tǒng)選舉結(jié)果,其中一個是《文學(xué)文摘》,在當(dāng)時非常有影響力,其對此前幾次總統(tǒng)選舉結(jié)果的預(yù)測都成功了?!段膶W(xué)文摘》采用的民意調(diào)查方法是:在雜志里面夾上關(guān)于總統(tǒng)選舉的調(diào)查問卷,總共收回有效問卷240萬份,經(jīng)分析得出結(jié)論蘭登將獲得總統(tǒng)大選;而另外一個叫蓋洛普的年輕人,卻采用定額抽樣方法,即按各類人群在全國總?cè)丝谥械谋壤l(fā)放問卷,共調(diào)查了5萬人,問卷收回后預(yù)測羅斯福將獲得總統(tǒng)大選。眾所周知,1936年羅斯福成功連任,年輕人蓋洛普預(yù)測成功,《文學(xué)文摘》在此后倒閉。
不禁反思,為什么調(diào)查了5萬人要比240萬人的分析結(jié)果更精確呢?因為《文學(xué)文摘》發(fā)放的240萬份有效問卷,實際面對的都是訂閱這份期刊的用戶,是當(dāng)時美國國內(nèi)相對而言有錢的那部分人,也就是說民意調(diào)查并沒有覆蓋到窮人群體的意見。所以,數(shù)據(jù)收集的量多不一定就代表結(jié)論更準(zhǔn)確,符合實際的分析結(jié)論應(yīng)該建立在有高質(zhì)量的數(shù)據(jù)源和有代表性的樣本基礎(chǔ)之上。
(三)脊髓灰質(zhì)炎疫苗有效性分析。通過試驗采集有統(tǒng)計分析功能的試驗數(shù)據(jù)是數(shù)據(jù)采集的另一主要途徑,為采集有利用價值的試驗數(shù)據(jù),往往要進(jìn)行合理的試驗設(shè)計。歷史上,脊髓灰質(zhì)炎曾經(jīng)是一個讓人聞風(fēng)喪膽的疾病。在20世紀(jì)50年代,當(dāng)時美國一所大學(xué)的實驗室做出了針對這一疾病的疫苗,并且已經(jīng)證明它在實驗室條件下能夠產(chǎn)生有效的抗體,但是醫(yī)生們不確定疫苗如果應(yīng)用到實際生活中是否依然有效,所以美國政府部門決定要做試驗。那么,怎么設(shè)計試驗才能夠真正說明疫苗有效呢?在1954年,試驗針對小學(xué)一、二、三年級的學(xué)生,共擬定了五種試驗方案,但前四種均有弊端:方案一按年份設(shè)置對照組,即今年注射而明年不注射。因為之前每一年的脊髓灰質(zhì)炎發(fā)病率差別比較大,很難判斷發(fā)病率的差異是隨機變化還是疫苗發(fā)生了作用;方案二按地區(qū)設(shè)置對照組,即部分地區(qū)進(jìn)行疫苗注射而其他地區(qū)不注射。由于脊髓灰質(zhì)炎本身就是傳染病,一個地區(qū)可能流行這個疾病,而另外一個地區(qū)可能就沒流行,即這兩個地區(qū)的數(shù)據(jù)本身就會有差異,但是這還不是疫苗的效果,因而不具有可比性;方案三讓學(xué)生自愿選擇是否注射疫苗。但考慮到經(jīng)濟(jì)條件較差的家庭可能在幼年時,因為種種原因已經(jīng)感染過該種疾病,進(jìn)而產(chǎn)生了相應(yīng)抗體,所以很難判斷疫苗效果的差異是由于經(jīng)濟(jì)原因還是疫苗本身;方案四是按年級設(shè)置對照組,即有的年級注射該種疫苗而有的年級不注射。但該方案也無法避免貧富差距造成的患病概率的差異,以及因年齡原因造成的患病概率的差異,此外對醫(yī)生造成心理上的誘導(dǎo),即未注射過疫苗的年級學(xué)生若發(fā)生類似癥狀時,醫(yī)生會考慮到學(xué)生未注射疫苗的原因直接將其確診為脊髓灰質(zhì)炎。
以上四種方案因其存在的缺陷都被一一否定,最后確定的是方案五:在征得家長同意之后,仍會告訴家長,你即使同意接種疫苗,我給你家孩子接種的也不一定是疫苗,有可能是一種沒有任何副作用也沒有什么效果、類似于疫苗的安慰劑。所以,醫(yī)生和家長、學(xué)生都不知道自己接種的是疫苗還是普通的安慰劑,但疫苗提供方是知道的,因為給每一只疫苗都添加了編號。通過這種方式,實驗室實現(xiàn)了以隨機的方式接種疫苗,而且無論所屬年級、地區(qū)還是經(jīng)濟(jì)條件好壞,接種疫苗都是隨機的,有效規(guī)避了前四種方案中各種因素的干擾,有助于確定脊髓灰質(zhì)炎與疫苗真正的因果關(guān)系。最后在參與試驗的74萬名小學(xué)生中,如果接種疫苗,孩子罹患脊髓灰質(zhì)炎的概率約為十萬分之二十八;如果不接種疫苗,患病概率約為十萬分之七十七,兩者相差一倍多,在實驗室之外證明了脊髓灰質(zhì)炎疫苗的有效性。
在因果關(guān)系分析基礎(chǔ)上進(jìn)行合理的試驗設(shè)計,進(jìn)而能采集到適于分析研究的試驗數(shù)據(jù),恰如其分地體現(xiàn)了數(shù)據(jù)收集的藝術(shù)性。在許多科學(xué)問題的研究過程中,關(guān)鍵性的因果關(guān)系不能簡單的建立在定量分析基礎(chǔ)之上,仍需輔助運用定性分析的方法去發(fā)現(xiàn)事物之間的關(guān)聯(lián),這正是數(shù)據(jù)收集的藝術(shù)魅力所在。
作為統(tǒng)計分析基礎(chǔ)環(huán)節(jié)的數(shù)據(jù)收集過程,既是科學(xué)的又是藝術(shù)的。藝術(shù)不是科學(xué)的對立面,而是科學(xué)的有力補充,正如人們在說話時要添加表情、姿態(tài)等,才會使得描述過程更加豐富和生動。大數(shù)據(jù)時代,數(shù)據(jù)規(guī)模大且復(fù)雜,不僅要把握統(tǒng)計學(xué)作為科學(xué)的理論立場,還要掌握統(tǒng)計學(xué)的藝術(shù)情操。與科學(xué)相比,藝術(shù)離不開情感的表達(dá),統(tǒng)計學(xué)作為科學(xué)承襲了先輩們智慧的結(jié)晶,它又作為藝術(shù)吸收了當(dāng)代統(tǒng)計學(xué)大師們的前沿思想,科學(xué)與藝術(shù)的結(jié)合,使得統(tǒng)計知識不斷豐盈,學(xué)科不斷蓬勃發(fā)展。