摘要:本文利用Benford定律并結(jié)合統(tǒng)計檢驗的方法,以四川省GDP相關(guān)數(shù)據(jù)為例,對我國地區(qū)統(tǒng)計數(shù)據(jù)質(zhì)量的可靠性進行了研究。
關(guān)鍵詞:Benford法則 GDP數(shù)據(jù) 可靠性
1 統(tǒng)計數(shù)據(jù)質(zhì)量及可靠性的界定
質(zhì)量是一個哲學概念,它是一個多維的立體的概念,具有相對性。隨著人們質(zhì)量觀念的變化,人們逐步認識到質(zhì)量不僅包括產(chǎn)品的使用性能,還包括需求客戶對產(chǎn)品的滿足程度,它成了一個內(nèi)涵豐富的綜合性概念。不同社會組織機構(gòu)、不同用戶、不同時期會有不同的質(zhì)量標準和要求。同樣,統(tǒng)計數(shù)據(jù)作為統(tǒng)計工作的產(chǎn)品,對統(tǒng)計數(shù)據(jù)質(zhì)量內(nèi)涵的認識也逐漸發(fā)生了變化。
過去認為統(tǒng)計數(shù)據(jù)質(zhì)量就是統(tǒng)計數(shù)據(jù)的準確性,即統(tǒng)計數(shù)值與目標特征真實數(shù)值的接近程度或一致程度。而現(xiàn)在對統(tǒng)計數(shù)據(jù)質(zhì)量的理解則由過去的單標準變成多標準、多層次的綜合概念,具體要求的標準更多了,比如要求準確、適用、及時、可比、可取和客觀等多具體標準。
可靠性是一個數(shù)理概念,是質(zhì)量范疇的小概念,主要用來刻畫統(tǒng)計數(shù)據(jù)質(zhì)量標準之一的統(tǒng)計數(shù)據(jù)準確性的標尺,也就是對實際數(shù)據(jù)與真值之間的誤差進行評估。評估數(shù)據(jù)質(zhì)量可靠性的方法有很多,如經(jīng)驗分布檢驗、統(tǒng)計指標之間的邏輯檢驗、相對指標的相關(guān)分析、計量模型評價等。
2 Benford定律
我們知道,在社會經(jīng)濟統(tǒng)計領(lǐng)域很多統(tǒng)計總體的個體標志值在理論上服從某一特定的統(tǒng)計分布。鑒于此,通過對統(tǒng)計總體中的各個個體標志值進行特定的統(tǒng)計分布檢驗,可以初步判斷出各個個體的標志值是否正常、可信。為此,筆者選擇了Benford定律對四川省GDP相關(guān)數(shù)據(jù)進行可靠性檢驗。
Benford定律是自然數(shù)字的一種內(nèi)在規(guī)律,其含義是指假設(shè)在樣本空間足夠大的情況下,第一位數(shù)字為1到9之間的數(shù)字發(fā)生的概率具有一定規(guī)律,越小的數(shù)字出現(xiàn)的比率越高,其中1為第一位數(shù)字出現(xiàn)的概率達0.3,2為第一位數(shù)字出現(xiàn)的概率為0.17-0.19,以此類推,8或9為第一數(shù)字出現(xiàn)的概念僅有0.05左右。
該定律的主要奠基人Frank Benford對人口出生率、死亡率、物理和化學常數(shù)、素數(shù)數(shù)字等各種現(xiàn)象進行統(tǒng)計分析后發(fā)現(xiàn),由度量單位制獲得的數(shù)據(jù)都符合Benford定律,即自然數(shù)1到9的使用頻率,公式為:
F(d)=log[1+[1/d]] d=1,2,3……,9
應(yīng)該指出的是,利用Benford定律必須保證研究的數(shù)據(jù)無序且未人為修飾。該定律不但適用于第一位數(shù)字,也可用于第二位、第三位數(shù)字。在采用Benford定律,由公式計算得到的各位數(shù)字的標準分布概率,如表1結(jié)果所示:
表1 Benford定律的各位數(shù)字的標準分布概率表
■
此外,Benford定律也遵從大數(shù)法則和中心極限定理,基于文章篇幅的原因,這里就不一一證明。
3 基于Benford定律的四川省GDP統(tǒng)計數(shù)據(jù)實證分析
考慮到Benford定律在應(yīng)用時候遵從的條件,如果我們所研究的數(shù)據(jù)樣本存在人為加工處理,則該數(shù)據(jù)樣本不符合該定律。所以對數(shù)據(jù)樣本進行質(zhì)量評估過程中,利用Benford定律進行分析,來檢驗數(shù)據(jù)的真實與否,是可信的。國內(nèi)研究對Benford定律的應(yīng)用主要集中在財務(wù)審計對上市公司的研究領(lǐng)域,很少有利用其對地區(qū)統(tǒng)計數(shù)據(jù)質(zhì)量做實證研究分析。為此,本文選取了四川省1978-2011年的地區(qū)生產(chǎn)總值相關(guān)數(shù)據(jù)進行檢驗,判斷四川統(tǒng)計數(shù)據(jù)質(zhì)量是否可靠。
3.1 建立假設(shè)
假設(shè)四川省地區(qū)生產(chǎn)總值是可信的,根據(jù)Benford定律,GDP數(shù)據(jù)的前兩位數(shù)的數(shù)字分布情況應(yīng)該與Benford定律下的數(shù)字分布情況相同。為此,我們建立兩個假設(shè):
針對?字2檢驗,從整體出發(fā),提出如下兩個假設(shè):
H1:四川省GDP數(shù)據(jù)的第一位數(shù)的出現(xiàn)次數(shù)與Benford定律下的隨機分布相一致;
H2:四川省GDP數(shù)據(jù)的第二位數(shù)的出現(xiàn)次數(shù)與Benford定律下的隨機分布相一致。
針對Z檢驗,從具體每個數(shù)字出現(xiàn)頻率的期望值出發(fā),提出如下兩個假設(shè):
H3:四川省GDP數(shù)據(jù)的第一位數(shù)中每個自然數(shù)(1,2,
3,……,9)出現(xiàn)頻率與Benford法則下的頻率相一致;
H4:四川省GDP數(shù)據(jù)的第二位數(shù)中每個自然數(shù)(0,1,
2,3,……,9)出現(xiàn)頻率與Benford法則下的頻率相一致。
3.2 數(shù)據(jù)說明
為了研究的深入,本文在考慮四川省GDP相關(guān)數(shù)據(jù)基礎(chǔ)上,將四川省地區(qū)生產(chǎn)總值數(shù)據(jù)細分為第一、二、三產(chǎn)業(yè)三部分,并把同時期的人均地區(qū)生產(chǎn)總值數(shù)據(jù)納入。數(shù)據(jù)均為歷年四川省統(tǒng)計年鑒整理,具體數(shù)據(jù)略。
所采用的研究方法是用Excel軟件分別統(tǒng)計1978年-
2011年四川省地區(qū)生產(chǎn)總值相關(guān)數(shù)據(jù)第一位數(shù)1至9這九個自然數(shù)和第二位數(shù)0至9這十個自然數(shù)出現(xiàn)的次數(shù),并進行?字2檢驗和Z統(tǒng)計檢驗。
3.3 檢驗統(tǒng)計量
通過?字2擬合優(yōu)度來評估出現(xiàn)的每個自然數(shù)出現(xiàn)的觀測值和期望值之間的概率分布的擬合程度,以此來佐證四川省地區(qū)生產(chǎn)總值樣本數(shù)據(jù)大小和總體上存在偏差;采用Z統(tǒng)計來評估各個自然數(shù)出現(xiàn)次數(shù)的差異性。兩個檢驗公式如下所示:
?字2=∑[(ai-Ei)2/Ei]
式中ai是出現(xiàn)在觀測值第一或第二位數(shù)的數(shù)字i的實際頻數(shù),Ei是出現(xiàn)在期望值中第一或第二位數(shù)的數(shù)字i的理論頻數(shù)。
Zi=(P■-P■)/■
其中,P■為出現(xiàn)在觀測值第一或第二位數(shù)的數(shù)字i的實際頻率,P■為出現(xiàn)在期望值中第一或第二位數(shù)的數(shù)字i的理論頻率,n為采集分析所用樣本量。
當?字2越大,則表明研究數(shù)據(jù)總體上出現(xiàn)自然數(shù)的概率越小,更說明是人為修飾過的數(shù)據(jù),則準確性很差;當Z絕對值越大的時候,該數(shù)字出現(xiàn)的頻率與期望的頻率偏離得越遠。endprint
3.4 檢驗主要結(jié)果
3.4.1 首先我們把1978年-2011年四川省GDP相關(guān)數(shù)據(jù)合并在一起,第一位數(shù)字分布偏差情況如下表2所示:
表2 四川省GDP相關(guān)數(shù)據(jù)首位數(shù)字分布的?字2擬合優(yōu)度檢驗表
■
在0.05的顯著性水平下,通過查表,我們可以得到 ?字2分布(df=8)的臨界值為15.507。由上表2可知,首位數(shù)字分布的?字2統(tǒng)計值為1.9641,小于15.507,我們不能拒絕假設(shè)H1;同時,出現(xiàn)自然數(shù)Z統(tǒng)計量絕對值均小于1.96(0.05顯著性水平下的Z值),我們應(yīng)該接受假設(shè)H3。因此,在顯著性水平(0.05)情況下,四川省GDP相關(guān)數(shù)據(jù)首位數(shù)字出現(xiàn)情況與期望頻率沒有明顯不同。
由上面的檢驗結(jié)果,我們可以看出四川省GDP相關(guān)數(shù)據(jù)的第一位數(shù)字分布規(guī)律與Benford定律下的期望情況是一致的。所以,繼續(xù)對四川省GDP相關(guān)數(shù)據(jù)的居第二位出現(xiàn)的自然數(shù)的分布采用相關(guān)理論進行檢驗。
3.4.2 四川省GDP相關(guān)數(shù)據(jù)第二位數(shù)字分布的?字2擬合優(yōu)度檢驗如下表3所示:
表3 四川省地區(qū)生產(chǎn)總值相關(guān)數(shù)據(jù)第二位
數(shù)字分布的?字2擬合優(yōu)度檢驗表
■
在0.05的顯著性水平下,通過查表,我們可以得到?字2 分布(df=9)的臨界值為18.314。由表2可知,居第二位數(shù)字出現(xiàn)的頻率服從分布的?字2統(tǒng)計值為3.5666,小于18.314,我們不能拒絕假設(shè)H2;從中我們還應(yīng)該看出數(shù)字9的Z統(tǒng)計量絕對值大于1.96(0.05顯著性水平下的Z值),我們應(yīng)該接收假設(shè)H4。因此,在顯著性水平(0.05)情況下,不能認為四川省GDP相關(guān)數(shù)據(jù)第二位數(shù)字的出現(xiàn)自然數(shù)頻率與期望頻率無差異性。
根據(jù)這一檢驗結(jié)果筆者認為,四川省GDP相關(guān)數(shù)據(jù)的第二位數(shù)字的分布規(guī)律與Benford定律下的期望規(guī)律不符合。
4 主要結(jié)論
本文通過Benford定律的應(yīng)用并結(jié)合了統(tǒng)計檢驗的方法,對四川省GDP相關(guān)數(shù)據(jù)進行了可靠性分析。研究結(jié)果顯示,四川省地區(qū)生產(chǎn)總值相關(guān)數(shù)據(jù)在首位數(shù)字分布上符合本福特法則,但在第二位數(shù)字分布上并不完全符合本福特法則,說明統(tǒng)計數(shù)據(jù)并不十分可靠。究其原因,可能有三:
其一,我們所研究的該樣本數(shù)據(jù)被人工修改過;
其二,研究條件中樣本量還不夠大,研究的選擇樣本空間人為在選擇時候就出現(xiàn)了選擇性偏差,其結(jié)果就出現(xiàn)了統(tǒng)計誤差;
其三,Benford定律的檢驗建立在數(shù)據(jù)真實的基礎(chǔ)上,且需要受檢驗的數(shù)據(jù)滿足具有穩(wěn)定增長率的條件,這本身就是一個缺陷。
參考文獻:
[1]傅德印,陶然.對政府統(tǒng)計數(shù)據(jù)質(zhì)量成本的探討[J].統(tǒng)計研究,2007(8).
[2]東方杜奇.新時期統(tǒng)計數(shù)據(jù)質(zhì)量可靠性研究[J].特區(qū)經(jīng)濟,2005(4).
[3]斐輝儒,宋偉.我國統(tǒng)計數(shù)據(jù)質(zhì)量體系存在的問題及解決思路[J].統(tǒng)計與決策,2006(4).
作者簡介:晏正春(1979-),湖南沅江人,成都信息工程學院統(tǒng)計學院教師,講師,碩士研究生。endprint