陳壽雨
【摘要】DCOVA框架是用于學(xué)習(xí)和應(yīng)用統(tǒng)計學(xué)的一種重要方法。DCOVA框架包括定義數(shù)據(jù)(D)、收集數(shù)據(jù)(C)、整理數(shù)據(jù)(O)、可視化數(shù)據(jù)(V)和分析數(shù)據(jù)(A)等5個階段。DCOVA框架為學(xué)習(xí)和應(yīng)用統(tǒng)計學(xué)的相關(guān)人員提供了一條有效的途徑,用于幫助學(xué)生或相關(guān)從業(yè)者解決如何有效學(xué)習(xí)和使用統(tǒng)計學(xué)的問題。
【關(guān)鍵詞】統(tǒng)計學(xué)? DCOVA框架? 統(tǒng)計方法? 教學(xué)
一、引言
數(shù)據(jù)對于當今天的商務(wù)活動具有重大的意義。數(shù)據(jù)是關(guān)于這個世界的事實,它能夠說明問題、提示事實、隱含規(guī)律。一些商業(yè)機構(gòu)正是通過“挖掘”數(shù)據(jù)來發(fā)現(xiàn)事物之間的關(guān)聯(lián)性,并從中獲取利潤。如果人們躲避數(shù)據(jù),就可能由于盲目接受他人對數(shù)據(jù)的概括總結(jié)而上當受騙,也可能完全依賴“感覺”來做決策,從而不利于做出正確的決策。因此,作為一門研究如何處理和分析數(shù)據(jù)的課程——統(tǒng)計學(xué)越來越受到各方重視。在高校中,絕大部分商科專業(yè)把統(tǒng)計學(xué)或商務(wù)統(tǒng)計作為專業(yè)必修課列入到人才培養(yǎng)方案中。如何學(xué)好、用好統(tǒng)計學(xué)成為當前許多人需要迫切解決的一個問題。美國著名的統(tǒng)計學(xué)家萊文(Levine)等在其撰寫的統(tǒng)計學(xué)教科書中首次提出了DCOVA框架,用于指導(dǎo)學(xué)生或相關(guān)從業(yè)者如何有效學(xué)習(xí)和使用統(tǒng)計學(xué)。
二、基本術(shù)語
統(tǒng)計學(xué)是把數(shù)據(jù)轉(zhuǎn)化為信息用于決策的方法或工具。例如,為了研究青年人喜歡網(wǎng)上購物的主要原因,可以通過調(diào)查來收集原始數(shù)據(jù),再制作總結(jié)表來整理數(shù)據(jù)從中獲得數(shù)據(jù)中隱藏的有用信息(最主要的原因是網(wǎng)上購物價格便宜),最后根據(jù)所獲得的信息進行決策,即網(wǎng)店價格要比實體店便宜才能吸引青年消費者。從調(diào)查數(shù)據(jù)到總表結(jié),就是把數(shù)據(jù)轉(zhuǎn)化為信息的方法。統(tǒng)計方法是把數(shù)據(jù)轉(zhuǎn)化信息的方法,包括統(tǒng)計描述方法和統(tǒng)計推斷方法。統(tǒng)計描述方法主要包括收集、整理、可視化和概括數(shù)據(jù);統(tǒng)計推斷方法是指用樣本數(shù)據(jù)得出總體結(jié)論,包括對總體參數(shù)的置信區(qū)間估計和假設(shè)檢驗。為了學(xué)習(xí)和使用統(tǒng)計學(xué)的方法,可以應(yīng)用DCOVA框架。DCOVA框架包括定義數(shù)據(jù)(D)、收集數(shù)據(jù)(C)、整理數(shù)據(jù)(O)、可視化數(shù)據(jù)(V)和分析數(shù)據(jù)(A)等5個階段(圖1)。例如,為了研究一所高校學(xué)生的努力學(xué)習(xí)程度,根據(jù)DCOVA框架,首要定義數(shù)據(jù),即找什么樣的數(shù)據(jù)能夠代表學(xué)生的努力學(xué)習(xí)程度,為此需要對努力學(xué)習(xí)程度開發(fā)一個可操作定義,比如用每天平均學(xué)習(xí)時長(小時)來代表一個學(xué)生的努力學(xué)習(xí)程度。其次要收集數(shù)據(jù),可以通過問卷調(diào)查的形式收集數(shù)據(jù)。再次是整理和可視化數(shù)據(jù),比如制作頻數(shù)分布表來整理數(shù)據(jù),從而可以查看學(xué)習(xí)時長的分布情況,制作直方圖來可視化學(xué)習(xí)時長數(shù)據(jù),從而直觀形象地顯現(xiàn)數(shù)據(jù)的分布特征,從中判斷學(xué)習(xí)時長是否服從正態(tài)分布等。最后是分析數(shù)據(jù),比如可以分析不同專業(yè)、不同性別、不同年級的學(xué)生每天學(xué)習(xí)時長均值的差異,或者估計全校學(xué)生每天平均學(xué)習(xí)時長等。DCOVA框架較好地囊括了統(tǒng)計學(xué)教學(xué)中主要的知識體系。
三、定義數(shù)據(jù)(D)
定義數(shù)據(jù)主要是解釋收集什么數(shù)據(jù)的問題,它與一項研究的目的及其所涉及的變量相關(guān)。研究目標決定研究中所涉及的變量,相關(guān)變量決定需要收集的數(shù)據(jù)(圖2)。在上述的例子中,研究目標是“研究一所高校學(xué)生的努力學(xué)習(xí)程度”,其中“努力學(xué)習(xí)程度”就是研究中需要涉及的變量。由于該變量沒有直接的數(shù)據(jù)對應(yīng),需要開發(fā)一個相應(yīng)的可操作定義——如每天平均學(xué)習(xí)時長,最后去收集學(xué)生每天平均學(xué)習(xí)時長的數(shù)據(jù)。
可操作定義指對所有與該分析相關(guān)的人而言很顯明是普遍接受的定義,是對某個抽象變量的一種清晰、精確的表述,是對該變量意義的共同理解。努力學(xué)習(xí)程度是一個抽象變量,在收集數(shù)據(jù)時會遇到麻煩,因此需要一個可操作定義。每天平均學(xué)習(xí)時長可以作為努力學(xué)習(xí)程度的一個可操作定義,因為大家普遍認為一名學(xué)生在學(xué)習(xí)上花費的時間越多,說明該生學(xué)生越努力,并有每天平均學(xué)習(xí)時長是一種清晰、精確的表述,從而方便研究者收集相關(guān)的數(shù)據(jù)。
定義數(shù)據(jù)還包括確定所需數(shù)據(jù)的類型。數(shù)據(jù)是變量的取值,變量類型與其所對的數(shù)據(jù)類型一致。變量可以分為屬性變量(如性別)和數(shù)值變量,數(shù)值變量又進一步區(qū)分為離散數(shù)值變量(如家庭人數(shù))和連續(xù)數(shù)值變量(如身高)。相應(yīng)的,數(shù)據(jù)可以分為屬性數(shù)據(jù)(如男、女)和數(shù)值數(shù)據(jù),數(shù)值數(shù)據(jù)又進一步區(qū)分為離散數(shù)值數(shù)據(jù)(如2人、3人)和連續(xù)數(shù)值數(shù)據(jù)(如1.75m、1.68m)。在SPSS中,變量的測量尺度(類型)分為名義(圖標為三個小圈)和有序(圖標為階梯),這兩類都屬于屬性數(shù)據(jù);還有一類為標度(圖標為尺子),這類屬于數(shù)值數(shù)據(jù)。
四、收集數(shù)據(jù)(C)
在明確了需要什么數(shù)據(jù)的前提下,就需要進入收集數(shù)據(jù)階段。收集數(shù)據(jù)(C)主要是解決數(shù)據(jù)的來源問題。數(shù)據(jù)的來源有原始數(shù)據(jù)來源和二手數(shù)據(jù)來源。原始數(shù)據(jù)來源主要通過調(diào)查、觀察和實驗獲得數(shù)據(jù);二手數(shù)據(jù)來源主要是指其他組織或個人已公布的數(shù)據(jù)。由于獲得原始數(shù)據(jù)比較麻煩,所以二手數(shù)據(jù)是首選的數(shù)據(jù)來源。
在經(jīng)濟管理研究領(lǐng)域,原始數(shù)據(jù)來源主要依靠調(diào)查。由普查涉及面廣、成本高、耗時長和難度大,所以一般不常用,對許多研究者來說,主要通過抽樣調(diào)查來獲得原始數(shù)據(jù)。因此,如何抽樣就成了一個無法逃避的問題。調(diào)查數(shù)據(jù)的質(zhì)量直接影響研究的價值,如果數(shù)據(jù)本身嚴重存在錯誤、偏見,不管采用什么數(shù)據(jù)分析方法,都很難得出可信的分析結(jié)果。為了從一種總體中找到一個樣本,并對樣本采集數(shù)據(jù),首先要做的工作是抽樣。不同的抽樣方法生成不同的樣本類型,如簡單隨機抽樣方法生產(chǎn)簡單隨機樣本,抽樣方法與形成的樣本類型一致。抽樣方法分為非概率抽樣和概率抽樣兩大類。非概率抽樣包括便利抽樣和判斷抽樣,其優(yōu)點是便利、快速、低成本,可以用于前期或試探性分析,其缺點是樣本的代表性一般較差,不能用于統(tǒng)計推斷。概率抽樣包括簡單隨機抽樣、系統(tǒng)抽樣、分層抽樣和群抽樣,其中簡單隨機抽樣和系統(tǒng)抽樣的優(yōu)點是簡單易行,但無法保證樣本的代表性;分層抽樣過程比較繁瑣,但能夠確保樣本的代表性,并能對每個層進行分析,得出每層的結(jié)果;群抽樣的優(yōu)點是調(diào)查成本低,但有效性相對較差,需要增加樣本容量才能達到其他抽樣方法的效果。
五、整理數(shù)據(jù)(O)和可視化數(shù)據(jù)(V)
有了數(shù)據(jù)之后,就可以進入數(shù)據(jù)的整理和可視化階段了。不同的數(shù)據(jù)類型分別有不同的整理和可視化方法。整理數(shù)據(jù)主要用到表格,可視化數(shù)據(jù)主要是用圖形。對于屬性數(shù)據(jù),可以用總結(jié)表、交叉表進行整理,用條形圖、餅圖、帕累托圖、對比條形圖等工具進行可視化。對于數(shù)值數(shù)據(jù),可以用頻數(shù)分布表進行整理,用莖葉圖、直方圖、折線圖、箱線圖、散點圖等工具進行可視化。從對數(shù)據(jù)的整理和可視化的工作中,可以獲得數(shù)據(jù)的描述性信息。
六、分析數(shù)據(jù)(D)
在許多研究中,只有用到表格和圖形等描述性方法是不夠的,還需要使用度量方法來概括數(shù)據(jù)的特征,使用統(tǒng)計推斷方法從樣本數(shù)據(jù)中得出有關(guān)總體的結(jié)論。計算數(shù)值度量和進行統(tǒng)計推斷都是屬于分析數(shù)據(jù)的階段。在數(shù)值度量方面,可以從集中趨勢、變異程度和分布形狀等三個維度進行。集中趨勢的主要度量指標有平均數(shù)、中位數(shù)和眾數(shù),變異程度的主要度量指標有全距、方差、標準差和變異系數(shù);分布形狀的主要度量指標有偏度和峰度。在統(tǒng)計推斷方面,主要包括參數(shù)估計和假設(shè)檢驗,其中參數(shù)估計包含點估計和區(qū)間估計,假設(shè)檢驗包括單樣本檢驗、雙樣本檢驗和多樣本檢驗(包括方差分析、卡方檢驗等)。
參考文獻:
[1]Levine, d., and d. Stephan. “teaching Introductory Business Statistics Using the DCOVA Framework.” Decision Sciences Journal of Innovative Education 9 (Sept. 2011): 393–398.
[2]萊文.商務(wù)統(tǒng)計學(xué)[M].中國人民大學(xué)出版社,2017.