檀學(xué)文
?
增強(qiáng)個(gè)體代表性:基于日志數(shù)據(jù)的長期時(shí)間利用預(yù)測①
檀學(xué)文
[摘要]針對時(shí)間利用日志數(shù)據(jù)存在的個(gè)體代表性不足以及統(tǒng)計(jì)意義上的“多零”問題,文章借鑒已有文獻(xiàn)的兩部分回歸方法,從日志數(shù)據(jù)預(yù)測長期時(shí)間利用數(shù)據(jù)。結(jié)果顯示,利用人口和社會(huì)經(jīng)濟(jì)變量以及活動(dòng)參與頻率變量對長期時(shí)間利用的預(yù)測結(jié)果具有較好的穩(wěn)健性,分布更均勻,同時(shí)大幅度減少了“多零”問題,清除了時(shí)間利用實(shí)證分析的一大障礙。因此,未來的時(shí)間利用調(diào)查如果添加非經(jīng)常性活動(dòng)參加頻率的問題,將會(huì)有利于提高時(shí)間利用數(shù)據(jù)的利用程度和效果。
[關(guān)鍵詞]時(shí)間利用福祉; 社會(huì)指標(biāo); 預(yù)測
社會(huì)科學(xué)的研究對象是人,主要是由個(gè)體組成的群體或社會(huì),其中個(gè)體包括居民以及企業(yè)、社會(huì)組織、政府等法人。一般來說,研究個(gè)體的目的主要還是為了研究群體,個(gè)體主要充當(dāng)樣本或案例。統(tǒng)計(jì)學(xué)以抽樣方法獲取有限數(shù)量的個(gè)體作為樣本,以推斷其所代表的總體的情況。在意識(shí)形態(tài)領(lǐng)域和社會(huì)科學(xué)方法論領(lǐng)域均有集體主義和個(gè)體主義之爭,但是后者通常還是為群體性目標(biāo)服務(wù)。但是,近年以來出現(xiàn)了直接以個(gè)體為對象和目標(biāo)的研究方法。一個(gè)典型例子是在福祉研究領(lǐng)域,在OECD創(chuàng)建的網(wǎng)站上②www.oecdbetterlifeindex.org。,網(wǎng)民輸入自己的各項(xiàng)指標(biāo),便可計(jì)算出自己的福祉指數(shù)——“更好生活指數(shù)(BLI)”;澳大利亞居民在給出自己對7項(xiàng)主觀滿意度指標(biāo)分值后,也可以得出自己的福祉指數(shù)(AUWBI)。
在樣本量足夠大且具有代表性的情況下,其統(tǒng)計(jì)特征能夠用于推斷總體特征。但是如果要評價(jià)樣本本身,那么就需要考慮指標(biāo)的樣本個(gè)體代表性問題。在經(jīng)濟(jì)社會(huì)研究領(lǐng)域,一個(gè)經(jīng)常性的問題是所使用的指標(biāo)能在多大程度上體現(xiàn)該指標(biāo)所應(yīng)體現(xiàn)的含義。用統(tǒng)計(jì)術(shù)語來說,就是如何增強(qiáng)概念的名義定義和操作定義的一致性[1]。例如,在AUWBI指數(shù)中,福祉的含義是近期的主觀福祉狀況,其具體的組成變量是7個(gè)關(guān)于近期生活各個(gè)方面的滿意度評估,這些變量的含義以及時(shí)限與近期主觀福祉的內(nèi)涵都是一致的。然而BLI指數(shù)使用了多個(gè)維度的客觀指標(biāo),其指標(biāo)代表性就值得討論。例如,就業(yè)或失業(yè)都是指最近兩周的情況,時(shí)間利用是指昨日的時(shí)間利用,這些指標(biāo)口徑對于個(gè)體樣本的近期狀況來說具有很大的偶然性,代表性比較差。
增強(qiáng)指標(biāo)的個(gè)體代表性,一方面是為了順應(yīng)當(dāng)前個(gè)性化的時(shí)代趨勢,另一方面也是為了改進(jìn)定量分析效果。如果以一日時(shí)間利用數(shù)據(jù)或一日消費(fèi)數(shù)據(jù)來代表個(gè)體的時(shí)間利用特征,容易出現(xiàn)大量特異值,如0或特別大的值,損害實(shí)證分析結(jié)果的解釋力。對于這種類型的指標(biāo),就存在增強(qiáng)個(gè)體代表性的必要性。增強(qiáng)指標(biāo)個(gè)體代表性的方法通??梢苑譃槿N:擴(kuò)大數(shù)據(jù)記錄的時(shí)間區(qū)間、使用估計(jì)的而不是記錄的數(shù)據(jù)、使用替代性指標(biāo),三者各有優(yōu)劣。就時(shí)間利用而言,日志記錄數(shù)據(jù)準(zhǔn)確但是代價(jià)高,如果增加記錄天數(shù)則代價(jià)更高;估計(jì)數(shù)據(jù)的代表性增強(qiáng),而且調(diào)查成本低,但是其準(zhǔn)確性降低;替代性指標(biāo)與原指標(biāo)的一致性有時(shí)會(huì)存在問題。這就是社會(huì)科學(xué)調(diào)查研究中經(jīng)常面臨的數(shù)據(jù)需求與獲取之間的權(quán)衡取舍問題。本文以時(shí)間利用數(shù)據(jù)為例,對此進(jìn)行探索,希望為依靠調(diào)查或統(tǒng)計(jì)數(shù)據(jù)進(jìn)行的微觀研究提供有益的數(shù)據(jù)改進(jìn)思路。
本文意圖利用時(shí)間利用日志調(diào)查數(shù)據(jù),估計(jì)具有更好樣本代表性的長期時(shí)間利用數(shù)據(jù),對其統(tǒng)計(jì)學(xué)特征進(jìn)行檢驗(yàn),從而對時(shí)間利用數(shù)據(jù)的獲取和應(yīng)用提出相應(yīng)的對策建議。正文包括四個(gè)部分。第一部分是關(guān)于長期時(shí)間利用預(yù)測的理論,包括作為參考的長期食品消費(fèi)預(yù)測模型以及建立在這一模型基礎(chǔ)上的長期時(shí)間利用預(yù)測模型。第二部分利用中國農(nóng)民抽樣調(diào)查數(shù)據(jù),從日志時(shí)間利用預(yù)測長期時(shí)間利用。第三部分利用統(tǒng)計(jì)學(xué)原理,評價(jià)估計(jì)長期時(shí)間利用數(shù)據(jù)的統(tǒng)計(jì)學(xué)特征,評估其樣本代表性。最后一部分對本文使用的研究方法和結(jié)果進(jìn)行評價(jià),對其可能的應(yīng)用價(jià)值進(jìn)行了說明。
一、長期時(shí)間利用預(yù)測理論與方法
(一)居民福祉與時(shí)間利用
從傳統(tǒng)經(jīng)濟(jì)研究和福利經(jīng)濟(jì)學(xué)角度,經(jīng)濟(jì)增長被視為福利改進(jìn)的主要甚至唯一標(biāo)志。福祉研究超越傳統(tǒng)福利經(jīng)濟(jì)學(xué)的上述強(qiáng)假設(shè),提出多維度、多指標(biāo)表征福祉的必要性和可行性。除了用消費(fèi)指標(biāo)代替收入指標(biāo)外,還有健康、社會(huì)聯(lián)系、時(shí)間利用、主觀福祉等多個(gè)領(lǐng)域的指標(biāo)[2]。已有的多維福祉框架中,無論是社會(huì)層面還是個(gè)人層面的,大部分都包含時(shí)間利用或個(gè)人活動(dòng)維度。時(shí)間利用通常情況下都是以時(shí)間在不同活動(dòng)間的分配和使用狀況來表征居民在這項(xiàng)重要資源的利用方面的福祉狀況[3]。根據(jù)對福祉的不同定義,時(shí)間利用與福祉的關(guān)系大體上有三條指標(biāo)選擇和研究路徑,即擴(kuò)展的經(jīng)濟(jì)福祉、實(shí)時(shí)性主觀福祉和多維客觀福祉[4](見表1)。其中,后二者屬于個(gè)人福祉范疇,可以分別稱為主觀時(shí)間和客觀時(shí)間[5]。本文遵循多維客觀福祉理論,將時(shí)間利用視為多維福祉的一個(gè)客觀維度,與教育、經(jīng)濟(jì)等其他維度并列。如表1所示,即使在多維福祉框架下,時(shí)間利用指標(biāo)也有主觀指標(biāo)和客觀指標(biāo)之分。其中,主觀指標(biāo)主要是對時(shí)間利用狀況的主觀評價(jià),而客觀指標(biāo)主要是對實(shí)際時(shí)間利用的記錄或回憶/估計(jì)。
表1 對應(yīng)于不同福祉內(nèi)涵的時(shí)間利用指標(biāo)及其數(shù)據(jù)來源
資料來源:根據(jù)文獻(xiàn)[3] [6] [7]整理。
圖1 2008年按大類劃分的城鄉(xiāng)居民時(shí)間利用狀況 注:數(shù)據(jù)來源于《2008年時(shí)間利用調(diào)查資料匯編》,中國統(tǒng)計(jì)出版社,2009年。
本文的分析對象是作為客觀指標(biāo)的時(shí)間利用日志數(shù)據(jù)。時(shí)間利用日志調(diào)查記錄受訪人的基本信息以及在調(diào)查前一天24小時(shí)內(nèi)的所有活動(dòng)情況。調(diào)查表通常以10分鐘為單位,將24小時(shí)劃分為144個(gè)連續(xù)的時(shí)間單元。受訪人按順序依次填寫每項(xiàng)活動(dòng)的具體內(nèi)容、持續(xù)時(shí)間、同時(shí)發(fā)生的其他活動(dòng)、活動(dòng)的地點(diǎn)以及與什么人在一起等。有時(shí)候,時(shí)間利用日志調(diào)查也通過問卷調(diào)查的方式進(jìn)行,由調(diào)查員詢問受訪人并填寫問卷。時(shí)間利用日志調(diào)查僅調(diào)查受訪日前一天發(fā)生的活動(dòng),而且按時(shí)間順序排列,所以是最為準(zhǔn)確的時(shí)間利用數(shù)據(jù)。時(shí)間利用日志調(diào)查表在填寫、回收后,經(jīng)過對具體活動(dòng)內(nèi)容對照時(shí)間利用同類活動(dòng)分類代碼表進(jìn)行編碼、歸類,便可獲得受訪者的一日時(shí)間利用數(shù)據(jù)。例如,2008年,國家統(tǒng)計(jì)局在10個(gè)省、市開展了第一次居民時(shí)間利用調(diào)查,共獲得3.7萬個(gè)居民樣本[8]。這次調(diào)查的城鄉(xiāng)居民大類平均活動(dòng)時(shí)間如圖1所示。從中可見,城鄉(xiāng)居民時(shí)間利用有明顯差別,主要體現(xiàn)在農(nóng)民有酬勞動(dòng)時(shí)間比市民長很多,而閑暇時(shí)間則短很多。
(二)從日志數(shù)據(jù)預(yù)測長期數(shù)據(jù)的方法
1.通常食品消費(fèi)數(shù)量預(yù)測
從隨機(jī)性短期數(shù)據(jù)估計(jì)長期數(shù)據(jù)的方法較早地以及較多地用于營養(yǎng)和健康領(lǐng)域的食物消費(fèi)。居民食物消費(fèi)數(shù)據(jù)具有與時(shí)間利用日志數(shù)據(jù)類似的形式,即受訪者對某日24小時(shí)內(nèi)所有消費(fèi)的食物的記錄或根據(jù)記憶的估計(jì)數(shù)據(jù)。類似于時(shí)間利用,一日的食物消費(fèi)行為具有偶發(fā)性,實(shí)際食物消費(fèi)數(shù)量對于通常食品消費(fèi)數(shù)量而言存在典型的測量誤差,包括個(gè)人誤差和人際誤差,一般通過回歸校正法予以調(diào)整[9]。根據(jù)消費(fèi)頻率,食品可以區(qū)分為日常性消費(fèi)食品和偶發(fā)性消費(fèi)食品。一項(xiàng)研究對這兩類消費(fèi)數(shù)據(jù)的誤差修正方法進(jìn)行了區(qū)分[10]。對于日常性消費(fèi)食品,在傳統(tǒng)的混合模型基礎(chǔ)上,通過使用Box-Cox變換,將實(shí)際消費(fèi)數(shù)據(jù)的偏態(tài)分布轉(zhuǎn)換為接近于正態(tài)分布,可以估計(jì)出實(shí)際消費(fèi)數(shù)據(jù)的個(gè)人誤差和人際誤差。對于偶然性消費(fèi),論文采用了兩部分測量誤差模型:第一個(gè)方程用于估計(jì)消費(fèi)某類食品的發(fā)生概率;第二個(gè)方程用于估計(jì)某類食品在發(fā)生消費(fèi)的情況下所存在的兩類誤差,與對日常性消費(fèi)食品所使用的模型相同。該模型具體表達(dá)如下:
(1)
(2)
其中,公式(1)為logistic回歸,估計(jì)第i種食品消費(fèi)在第j日的發(fā)生概率pi,X1i為有關(guān)的解釋變量,μ1i為人際誤差;公式(2)為OLS回歸,估計(jì)第i種食品消費(fèi)在第j日實(shí)際發(fā)生的情況下,其預(yù)測的消費(fèi)數(shù)量,X2i為有關(guān)的解釋變量,隨機(jī)誤差μ2i和εij分別表示人際誤差和個(gè)人誤差。
從而,第i種食品的通常消費(fèi)數(shù)量,也就是長期估計(jì)值,等于其發(fā)生概率以及在發(fā)生情況下的預(yù)測值的乘積,即:
Ti≡E(Tij|i) =piAi
(3)
該模型為混合效應(yīng)模型,每個(gè)方程都包含固定效應(yīng)和隨機(jī)效應(yīng)。兩個(gè)方程存在聯(lián)系,不僅兩者的人際誤差μ1i和μ2i是相關(guān)的,而且它們的解釋變量中至少有部分變量是共同的。
在進(jìn)行經(jīng)驗(yàn)估計(jì)時(shí),解釋變量的選擇除了人口特征變量外,還包括了食品消費(fèi)頻率(FFQ)變量作為補(bǔ)充變量。利用美國健康與營養(yǎng)調(diào)查數(shù)據(jù)(NHANES),該論文證明,通過將食品消費(fèi)數(shù)據(jù)和食品消費(fèi)頻率數(shù)據(jù)結(jié)合起來,即將FFQi添加為解釋變量Xi的一部分,能夠提高通常食品消費(fèi)預(yù)測以及飲食—健康關(guān)系估計(jì)的精確性。
2.長期時(shí)間利用預(yù)測
食品消費(fèi)數(shù)據(jù)和時(shí)間利用數(shù)據(jù)雖然都是記錄24小時(shí)內(nèi)發(fā)生的事件,而且也都包含日常性事件和偶發(fā)性事件,但是它們實(shí)際上存在著很大差別:時(shí)間利用數(shù)據(jù)的單位是時(shí)間,如小時(shí)和分鐘,受總量約束,即一天的所有活動(dòng)時(shí)間加總后必然等于1 440分鐘;食品消費(fèi)數(shù)據(jù)的單位是數(shù)量,如克或公斤,加總后無總量約束。由于總量約束,一天內(nèi)不同活動(dòng)的時(shí)間存在替代關(guān)系,一類活動(dòng)時(shí)間的增加必將導(dǎo)致其他某類活動(dòng)時(shí)間的減少;而食品消費(fèi)則不存在這種嚴(yán)格的替代關(guān)系,不同類型的食品消費(fèi)是相互獨(dú)立的。
基于每日時(shí)間總量約束以及用一系列閑暇活動(dòng)的參與頻率代表個(gè)人行為“習(xí)慣”的社會(huì)學(xué)理論[11],Gershuny提出了一種基于上述兩部分模型但是相對簡化的估計(jì)方案[12],可以表達(dá)如下:
(4)
(5)
(6)
∑LTTi=1 440
(7)
公式(4)~(6)的函數(shù)形式分別與公式(1)~(3)相同。兩個(gè)模型的差別在于:
① 食品消費(fèi)模型使用面板數(shù)據(jù),從而可以同時(shí)估計(jì)個(gè)人隨機(jī)誤差和人際誤差;時(shí)間利用數(shù)據(jù)利用截面數(shù)據(jù),只能估計(jì)人際誤差。
② 食品消費(fèi)模型中,添加的FFQi變量是單一變量,只在估計(jì)第i類食品消費(fèi)時(shí)使用該類食品的FFQ;時(shí)間利用模型中,添加的習(xí)慣變量是組合變量,即一組各類閑暇活動(dòng)的參與頻率,對所有類型活動(dòng)的估計(jì)是一樣的。
③ 食品消費(fèi)模型獨(dú)立地估計(jì)各類食品的消費(fèi)數(shù)量;但是時(shí)間利用模型同時(shí)估計(jì)各類活動(dòng)的長期時(shí)間,結(jié)果受一日時(shí)間加總約束。
根據(jù)此項(xiàng)研究,上述長期時(shí)間利用估計(jì)方法至少可以解決日志數(shù)據(jù)存在的兩個(gè)主要問題:一是閑暇活動(dòng)等不經(jīng)常發(fā)生的活動(dòng)時(shí)間的“多零”問題*“多零”是指在居民時(shí)間利用調(diào)查數(shù)據(jù)中,當(dāng)活動(dòng)分類足夠細(xì)化時(shí),很多類型的活動(dòng)時(shí)間都會(huì)顯示為0,但這并不代表受訪者的這些活動(dòng)時(shí)間真的為0。如果以它們作為自變量進(jìn)行回歸,也會(huì)對回歸結(jié)果造成干擾。;二是數(shù)據(jù)正向偏斜和右尾極端值問題,由此增強(qiáng)數(shù)據(jù)的個(gè)體代表性。
二、中國農(nóng)民長期時(shí)間利用預(yù)測
(一)數(shù)據(jù)
長期數(shù)據(jù)預(yù)測的基本思路是,短期行為是長期行為的一部分,從短期行為數(shù)據(jù)一方面可以估計(jì)其長期發(fā)生的概率,另一方面估計(jì)該行為在發(fā)生情況下的數(shù)值,該估計(jì)值與估計(jì)概率的乘積即為長期估計(jì)值。利用這種方法,可以用時(shí)間利用日志數(shù)據(jù)估計(jì)長期的時(shí)間利用規(guī)律,即通常情況下個(gè)人的24小時(shí)都用于哪些活動(dòng)。這種方法的前提是需要更多的變量支持,對于常規(guī)的時(shí)間利用日志數(shù)據(jù)或飲食日志數(shù)據(jù)是不適用的。上述Gershuny使用的“Time Diary Study 2000/01”數(shù)據(jù)中除了日志數(shù)據(jù),還有一系列活動(dòng)參與頻率變量,后者是估計(jì)所需的重要解釋變量,代表著人們的行為“習(xí)慣”。借鑒上述方法,我們在調(diào)查問卷中設(shè)計(jì)了類似的活動(dòng)參與頻率的問題,為預(yù)測長期時(shí)間利用提供了條件。
本文使用中國社會(huì)科學(xué)院創(chuàng)新工程項(xiàng)目“中國農(nóng)民福祉研究”2013年農(nóng)村居民抽樣調(diào)查數(shù)據(jù)。調(diào)查內(nèi)容包含家庭成員、主觀福祉、勞動(dòng)與就業(yè)等12個(gè)方面。其中,時(shí)間利用部分包括昨日時(shí)間利用日志、閑暇時(shí)間滿意度以及閑暇活動(dòng)參與頻率三類問題。該調(diào)查在位于遼寧、江蘇、湖北、寧夏和貴州5個(gè)省的10個(gè)縣、市進(jìn)行,在每個(gè)縣、市各抽取5個(gè)行政村,每個(gè)村預(yù)定抽樣規(guī)模為20人。樣本省分別位于東部、中部和西部,具有一定的地域代表性。省內(nèi)的樣本縣、市按照經(jīng)濟(jì)發(fā)展水平抽取,基本處于中等水平??h、市內(nèi)的樣本村通過隨機(jī)抽樣或者按照經(jīng)濟(jì)發(fā)展水平高低進(jìn)行抽取。在樣本村內(nèi),居民樣本分布于不同的村民組和不同的收入和生活水平,具有一定的村莊代表性。調(diào)查問卷均由調(diào)查員提問和填寫。本次調(diào)查一共回收1 000份有效問卷,其中860份問卷擁有完整時(shí)間利用數(shù)據(jù),是本文預(yù)測長期時(shí)間利用的數(shù)據(jù)基礎(chǔ)*通常情況下,考慮到一日時(shí)間利用數(shù)據(jù)代表性問題,時(shí)間利用調(diào)查需要考慮具體的時(shí)間選擇問題,有些國家(如韓國)的時(shí)間利用調(diào)查甚至在一年內(nèi)針對同一樣本進(jìn)行2次到4次調(diào)查,力圖以此來增強(qiáng)其代表性。對于中國農(nóng)民來說,應(yīng)當(dāng)考慮地域差異以及季節(jié)差異(農(nóng)忙、農(nóng)閑),而工作日和周末的差異是次要的。2008年中國居民時(shí)間利用調(diào)查時(shí)間為5月份,各地總體上都是農(nóng)忙季節(jié),具有較好的代表性。本研究使用的時(shí)間利用調(diào)查是與農(nóng)戶問卷調(diào)查結(jié)合進(jìn)行的,調(diào)查時(shí)間受總體調(diào)查安排的約束。不過,2013年農(nóng)村居民抽樣調(diào)查是在7月至9月期間進(jìn)行,總體上也都是農(nóng)忙季節(jié),但是并非最忙碌或農(nóng)閑的時(shí)候,所以也具有一定的代表性。。
(二)預(yù)測步驟與結(jié)果
借鑒Gershuny建立的方法,本文以時(shí)間利用日志數(shù)據(jù)為基礎(chǔ),預(yù)測個(gè)人的長期時(shí)間利用分布。主要預(yù)測步驟如下:
1.原始數(shù)據(jù)處理
包括時(shí)間利用活動(dòng)類型重新歸類、部分解釋變量重新編碼、缺失值處理等。各種時(shí)間利用統(tǒng)計(jì)活動(dòng)分類都有大小不同的差別。中國國家統(tǒng)計(jì)局2008年時(shí)間利用調(diào)查將活動(dòng)分為10個(gè)大類、66個(gè)中類和115個(gè)小類。本文根據(jù)分析需要以及中國農(nóng)民很多閑暇活動(dòng)參與率極低的現(xiàn)實(shí),將一些大類合并,將閑暇活動(dòng)分為4種類型,合計(jì)將活動(dòng)類型分為11類。為滿足模型回歸需要,對部分變量進(jìn)行重新編碼、缺失值處理。其中,對婚姻狀況、健康狀況、教育、社會(huì)身份等都進(jìn)行了重新編碼。
2.活動(dòng)的參與概率預(yù)測
以重新歸類的11類活動(dòng)時(shí)間為基礎(chǔ),將其轉(zhuǎn)換為以0或1表征的“是否參與”變量:若活動(dòng)時(shí)間大于0,新變量編碼為1,表示當(dāng)日參與了該活動(dòng);若活動(dòng)時(shí)間為0,新變量編碼為0,表示當(dāng)日未參與該活動(dòng)。以該新變量為因變量,以特別選定的變量為自變量,用logit方程估計(jì)個(gè)人對各類活動(dòng)的參與概率。自變量分為人口和社會(huì)經(jīng)濟(jì)特征等控制變量以及活動(dòng)參與頻率變量兩類,前者包括年齡、年齡平方、性別、婚姻狀況、健康狀況、需照料家庭成員情況、教育、工作類型、調(diào)查日類型(工作日或周末)、最近一周累計(jì)工作時(shí)間以及省份虛擬變量;后者包括14類非經(jīng)常性閑暇活動(dòng)參與頻率變量,代表個(gè)人活動(dòng)習(xí)慣(表2)。
3.活動(dòng)的參與者參與時(shí)間預(yù)測
以重新歸類的11類活動(dòng)時(shí)間為因變量,以上述兩類變量為自變量,用最小二乘回歸方程估計(jì)個(gè)人對各項(xiàng)活動(dòng)的參與者參與時(shí)間。此處使用的自變量與步驟2中的logit回歸相同。
4.活動(dòng)的長期平均參與時(shí)間計(jì)算
將步驟2和3的結(jié)果相乘,得出個(gè)人各項(xiàng)活動(dòng)的長期平均參與時(shí)間的預(yù)測值。
5.長期時(shí)間利用估計(jì)值調(diào)整
對步驟4的結(jié)果進(jìn)行負(fù)值調(diào)整和總和調(diào)整。將小于0的估計(jì)值調(diào)整為0;并以加總值與1 440的比值為調(diào)整因子,對預(yù)測的長期平均參與時(shí)間進(jìn)行調(diào)整,使得他它們的加總值仍然為1 440分鐘。
由此得出的估計(jì)的長期時(shí)間利用分布如表3所示。
表2 代表習(xí)慣的不經(jīng)常性閑暇活動(dòng)參與頻率變量
注:表中參與頻次指過去一年內(nèi)的參與次數(shù),最高為365;參與頻率分為5個(gè)等級:全年最多1次、每月不足1次、每周不足1次、每周1到4次、每周4次以上。
表3 長期時(shí)間利用預(yù)測結(jié)果 單位:分鐘
注:此表及以后各表采用下述方案Ⅲ的結(jié)果。
(三)預(yù)測結(jié)果可靠性與穩(wěn)健性檢驗(yàn)
與Gershuny的依據(jù)類似,從日志時(shí)間得到的樣本總體各項(xiàng)活動(dòng)的平均時(shí)間和樣本長期時(shí)間配置的總體均值應(yīng)該近似相等,本文的計(jì)算結(jié)果符合此條件。為了進(jìn)一步檢驗(yàn)預(yù)測結(jié)果的可靠性,我們分別對3套解釋變量方案進(jìn)行估計(jì):方案Ⅰ僅以上述控制變量對被解釋變量進(jìn)行回歸;方案Ⅱ和Ⅲ同時(shí)以控制變量和不經(jīng)常性活動(dòng)參與頻率變量對被解釋變量進(jìn)行回歸,其中后者在方案Ⅱ中采取參與頻次形式,在方案Ⅲ中采取頻率形式(見表2)。結(jié)果顯示,3套方案的預(yù)測結(jié)果都極為接近,分別是1 440.4分鐘、1 442.0分鐘和1 441.3分鐘,這表明模型設(shè)置具有較好的穩(wěn)健性。方案Ⅱ和Ⅲ使用了不經(jīng)常性活動(dòng)參與頻率變量,各方程回歸結(jié)果顯示,它們的R2和PseudoR2值都明顯地大于方案Ⅰ,表明模型的解釋能力得到了較大的提升(見表4)。方案Ⅲ的R2和PseudoR2值總體上稍大于方案Ⅱ,但是差別非常小,表明不經(jīng)常性閑暇活動(dòng)頻率變量可以用分類形式代替原始頻率形式且不損失效率。
表4 長期時(shí)間利用預(yù)測的三套方案擬合效果比較
注:睡覺和個(gè)人活動(dòng)的參與頻率被設(shè)定為1,故沒有為它們設(shè)立概率估計(jì)方程,從而也就不存在PseudoR2。
三、預(yù)測前后的時(shí)間利用分布比較
(一)總體時(shí)間利用比較
從近期研究成果看,在統(tǒng)計(jì)上,中國農(nóng)民時(shí)間利用具有典型的發(fā)展中國家特征,即睡眠時(shí)間足夠;有酬勞動(dòng)時(shí)間更長;休閑娛樂和社會(huì)交往時(shí)間更短,且以消極閑暇活動(dòng)為主;無酬家務(wù)勞動(dòng)時(shí)間也偏短;女性勞動(dòng)時(shí)間長而閑暇時(shí)間短[4]。農(nóng)民的時(shí)間利用分布在2008年與2012年以及2013年都比較接近,表明他們的時(shí)間利用規(guī)律是比較穩(wěn)定的。對2013年農(nóng)民時(shí)間利用日志數(shù)據(jù)和長期估計(jì)數(shù)據(jù)的統(tǒng)計(jì)特征進(jìn)行比較顯示:在總體上,兩類數(shù)據(jù)的平均值極為接近,T檢驗(yàn)顯示差異均不顯著。但是預(yù)測的長期時(shí)間利用比日志時(shí)間利用的統(tǒng)計(jì)分布更加均勻,即估計(jì)后的標(biāo)準(zhǔn)差、偏度、峰度都比估計(jì)前大幅度下降了(表5)。
此外,預(yù)測的長期時(shí)間利用數(shù)據(jù)大大減少了日志數(shù)據(jù)中存在的“多零”問題。盡管我們在計(jì)算中使用的簡化分類已經(jīng)大大減少了活動(dòng)類型的數(shù)量并降低了發(fā)生零的可能性,但是日志數(shù)據(jù)中仍然有大量的零存在。除睡眠和個(gè)人活動(dòng)外,其他9種活動(dòng)時(shí)間為0的情況平均達(dá)到65%之多。而在預(yù)測數(shù)據(jù)中,該比例下降到1.9%(表6)。
進(jìn)一步地,我們可以形象地考察各類活動(dòng)的時(shí)間分布特征。在圖2所列舉的三類活動(dòng)中,睡眠時(shí)間的分布最為接近于正態(tài)分布,尤其是對于長期估計(jì)值而言;接下來是工作時(shí)間,其分布偏度較小,但是峰度明顯比睡眠時(shí)間小,即顯得更為平坦;閑暇時(shí)間分布的偏度比正態(tài)分布大,而且是向右偏,但是其峰度與睡眠時(shí)間接近。分活動(dòng)的長期預(yù)測時(shí)間與日志時(shí)間相比最大特點(diǎn)就是其分布更加集中,不對稱程度也有所下降。
表5 日志時(shí)間與預(yù)測時(shí)間利用描述統(tǒng)計(jì)比較 單位:分鐘
注:社會(huì)和政治參與活動(dòng)所發(fā)生的樣本極少,為方便分類,將其并入未定義活動(dòng)內(nèi)。
表6 預(yù)測時(shí)間與日志時(shí)間相比含零樣本數(shù)量及其變化
注:樣本量為702個(gè)。
(二)分群體時(shí)間利用比較
我們對預(yù)測前后的時(shí)間利用進(jìn)行了分群體比較,包括分性別和分年齡組比較,其中按年齡分為三組:40歲以下、40至59歲、60歲以上。對不同群體的日志時(shí)間和預(yù)測時(shí)間分別進(jìn)行T檢驗(yàn),結(jié)果顯示,除了極個(gè)別情況之外(40歲以下組的個(gè)人活動(dòng)時(shí)間的日志值和預(yù)測值差異顯著),包括性別分類和年齡分組,幾乎所有活動(dòng)時(shí)間的日志值和預(yù)測值的差異都是不顯著的(表7)。為節(jié)約篇幅,分性別的結(jié)果比較省略。
四、總結(jié)與討論
作為一項(xiàng)衍生性或工具性任務(wù),本文致力于從日志時(shí)間利用數(shù)據(jù)預(yù)測長期時(shí)間利用數(shù)據(jù),其目的是提高時(shí)間利用數(shù)據(jù)的個(gè)體代表性。我們借鑒一項(xiàng)英國學(xué)者的研究成果,利用課題組的抽樣調(diào)查數(shù)據(jù),估計(jì)了長期時(shí)間利用的預(yù)測數(shù)據(jù)。從預(yù)測數(shù)據(jù)的統(tǒng)計(jì)學(xué)特征看,預(yù)測數(shù)據(jù)具有較好的穩(wěn)定性和比日志數(shù)據(jù)具有更好的個(gè)人代表性。對于日志數(shù)據(jù)存在的“多零”問題,預(yù)測結(jié)果對其有了很大的彌補(bǔ)。從而,預(yù)測的長期時(shí)間利用數(shù)據(jù)可以更好地用于時(shí)間利用指標(biāo)構(gòu)建以及福祉決定的實(shí)證研究。
如表1所示,時(shí)間利用指標(biāo)有主觀指標(biāo)和客觀指標(biāo)之分,類型很多,通過比較判斷各類指標(biāo)的優(yōu)缺點(diǎn)以及選擇更好的指標(biāo)是時(shí)間利用研究的一項(xiàng)有價(jià)值的任務(wù)。本文對長期時(shí)間利用的預(yù)測可以對這項(xiàng)工作有所貢獻(xiàn),可以用預(yù)測的長期時(shí)間利用指標(biāo)與其他類型指標(biāo)進(jìn)行比較。長期時(shí)間利用預(yù)測對數(shù)據(jù)要求比較高,除了日志數(shù)據(jù)還需要大量的個(gè)人特征變量以及閑暇活動(dòng)頻率變量,對問卷長度和調(diào)查成本形成挑戰(zhàn)。但是無論如何,該投入對于增加時(shí)間利用數(shù)據(jù)的整體價(jià)值是有利的。中國到目前為止只開展了一次官方時(shí)間利用調(diào)查。我們預(yù)期未來中國必將進(jìn)行更多的時(shí)間利用調(diào)查。因此我們建議在未來的調(diào)查中對全體樣本或者部分樣本收集更多的信息,例如預(yù)測長期時(shí)間利用所需的控制變量以及活動(dòng)頻率變量,以便于更好地開展時(shí)間利用數(shù)據(jù)分析和研究。
圖2 三類活動(dòng)的日志時(shí)間與長期預(yù)測時(shí)間分布對比
單位:分鐘
注:*表示在5%水平上差異顯著,雙尾檢驗(yàn)。
[參考文獻(xiàn)]
[1]巴比.社會(huì)研究方法(第10版).邱澤奇譯.北京:華夏出版社,2005
[2]Stiglitz J E,Sen A, Fitoussi J P.ReportbytheCommissionontheMeasurementofEconomicPerformanceandSocialProgress. http:∥www.stiglitz-sen-fitoussi.fr/,2009
[3]Gershuny J.Time-UseSurveysandtheMeasurementofNationalWell-Being. Swansea, UK: Office for National Statistics, 2011
[4]檀學(xué)文.時(shí)間利用對個(gè)人福祉的影響初探——基于中國農(nóng)民福祉抽樣調(diào)查數(shù)據(jù)的經(jīng)驗(yàn)分析.中國農(nóng)村經(jīng)濟(jì),2013(10):76-90
[5]Robinson J P. Using Time as Social Indicator.SocialIndicatorsNetworkNews(SINET), 2013(114-115):1-7
[6]Bloom N, KretschmerT, Van Reenen J. Work Life Balance, Management Practices and Productivity∥Freeman, Shaw (ed.).InternationalDifferencesintheBusinessPracticesandProductivityofFirms. The University of Chicago Press,2009
[7]檀學(xué)文,吳國寶.福祉框架下時(shí)間利用研究進(jìn)展.經(jīng)濟(jì)學(xué)動(dòng)態(tài),2014(7):151-158
[8] 新莉,殷國俊.2008年時(shí)間利用調(diào)查結(jié)果簡介.國家統(tǒng)計(jì)局網(wǎng)站(http:∥www.stats.gov.cn),2008-11-21
[9]Carroll R J, RuppertD, StefanskiL A, et al.MeasurementErrorinNonlinearModels:AModernPerspective, 2nd edition. Boca Raton, Florida: Chapman and Hall CRC Press, 2006
[10]Kipnis V, Midthune D, Buckman D W. Modeling Data with Excess Zeros and Measurement Error: Application to Evaluating Relationships between Episodically Consumed Foods and Health Outcomes.Biometrics, 2009(65): 1003-1010
[11]Bourdieu P.Distinction. London: Routledge and Kegan Paul, 1984
[12]Gershuny J. Too many zeros: a method for estimating long-term time-use from short diaries.AnnalsofEconomicsandStatistics,2012(105/106): 247-271
Enhancing Individual Representativeness:Predicting Long-term Time Use Based on Diary Data
Tan Xuewen
AbstractAs for problems of weak sample representativeness and “too many zeros” in statistical sense, this paper uses two-part modeling methods of existing literature to predict long-term data from diary time use data. The results show that, the predicted outcomes of long-term time use are statistically robust and more evenly distributed. Moreover, the large-extent reduction of “too many zeros” problems can be realized at the same time, which helping clearing a major obstacle involving in the time use of empirical analysis. Hence, there is no doubt that adding questions like non-recurring event participation frequency in the future time use survey, would improve the efficiency of the utilization of the time use data.
Key wordsTime use; Well-being; Social indicators; Prediction
(責(zé)任編輯:陳世棟)
[作者簡介]本文是中國社會(huì)科學(xué)院創(chuàng)新工程項(xiàng)目“中國農(nóng)民福祉研究”的部分成果。 檀學(xué)文,中國社會(huì)科學(xué)院農(nóng)村發(fā)展研究所副研究員,郵編:100732。
[收稿日期]2015-06-14
①吳國寶研究員組織創(chuàng)新團(tuán)隊(duì)成員對論文進(jìn)行了討論,譚清香和楊穗專門提出了修改建議,特此表示感謝。
中國農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2016年1期