陳新林,包生耿,顏偉紅,王小廣,萬(wàn)建成,吳丹桂
(1.廣州中醫(yī)藥大學(xué),廣東 廣州 510006;2.廣東外語(yǔ)外貿(mào)大學(xué),廣東 廣州 510420;3.廣東藥學(xué)院,廣東 廣州510006;4.中山大學(xué)中山醫(yī)學(xué)院,廣東 廣州 510080;5.廣州醫(yī)學(xué)院,廣東 廣州 510182)
大學(xué)階段是人格發(fā)展,世界觀形成的關(guān)鍵時(shí)期。這一時(shí)期大學(xué)生要面臨著一系列重大的人生課題:如大學(xué)生活的適應(yīng)、專(zhuān)業(yè)知識(shí)的學(xué)習(xí)、交友戀愛(ài)、擇業(yè)就職等。而且隨著社會(huì)的發(fā)展,大學(xué)生承受的壓力越來(lái)越大。但是,大學(xué)生由于身心發(fā)展尚未完全成熟,自我調(diào)節(jié)和自我控制能力不強(qiáng)。大學(xué)生面對(duì)復(fù)雜的問(wèn)題,容易導(dǎo)致強(qiáng)烈的心理沖突,從而產(chǎn)生較大的心理壓力,甚至產(chǎn)生心理障礙或心理疾病[1]。這使得大學(xué)生的身心健康受到日趨嚴(yán)重的危害。而大學(xué)生的生活壓力受到很多因素的影響,本研究以廣州地區(qū)大學(xué)生為研究對(duì)象,試圖通過(guò)決策樹(shù)的方法以及 Logistic回歸方法探討影響大學(xué)生生活方式的因素,為促進(jìn)大學(xué)生的心身健康提供科學(xué)依據(jù)。
采用多階段整群隨機(jī)抽樣方法,從廣州醫(yī)學(xué)院、廣州中醫(yī)藥大學(xué)、中山大學(xué)、廣東藥學(xué)院、廣州外語(yǔ)外貿(mào)大學(xué)隨機(jī)抽取學(xué)生。抽樣方式:以學(xué)院作為第二階段抽樣總體,以學(xué)院的專(zhuān)業(yè)作為第三階段抽樣總體,抽取到某專(zhuān)業(yè)的班級(jí),則該班級(jí)所有學(xué)生均是調(diào)查對(duì)象。一共抽取到2319名學(xué)生,發(fā)放問(wèn)卷2319份,回收2319份,回收率100%,有效問(wèn)卷2306份,有效率99.4(94.7)%。
本研究采用劉賢臣等人于 1987年編制的青少年生活事件量表(ASLEC)[2];還調(diào)查了大學(xué)生的一般人口學(xué)特征(包括性別、年級(jí)、專(zhuān)業(yè)、家庭子女?dāng)?shù)等)及生活行為方式(運(yùn)動(dòng)、學(xué)習(xí)時(shí)間、人際關(guān)系、戀愛(ài)情況等)。
本文采用C5算法和CHAID算法建立決策樹(shù)。
CHAID(Chi-square automatic interaction detection)算法是按照卡方檢驗(yàn)的顯著性進(jìn)行多元列聯(lián)表的自動(dòng)判斷分組。其過(guò)程是:用自變量與結(jié)果變量進(jìn)行交叉分類(lèi),產(chǎn)生一系列二維分類(lèi)表,分別計(jì)算二維分類(lèi)表的值,以產(chǎn)生 P值最小的二維列表的變量為最佳的初始分類(lèi)變量,然后在此基礎(chǔ)上繼續(xù)分類(lèi),直到P大于設(shè)定的有統(tǒng)計(jì)意義的a值時(shí)停止[5]。CHAID算法是一個(gè)不斷合并和拆分的過(guò)程[6],每一個(gè)自變量每個(gè)水平都要兩兩配對(duì)比較,如果兩個(gè)類(lèi)別相似的話就劃歸為一類(lèi),如果有差別就不能夠劃分為一組。決策樹(shù)生長(zhǎng)“枝條”分割顯著性檢驗(yàn)水準(zhǔn)定為0.05。采用預(yù)修剪的方法,事先設(shè)定決策樹(shù)生長(zhǎng)的深度為3層,事先指定母結(jié)點(diǎn)上的最小樣本量為80,子結(jié)點(diǎn)上的最小樣本量為40,如果結(jié)點(diǎn)上的樣本量達(dá)不到此要求,則這一結(jié)點(diǎn)為終末結(jié)點(diǎn),不再進(jìn)行分割。
采用橫斷面調(diào)查方法。使用 Epidata對(duì)資料進(jìn)行錄入。用SPSS建立logistic模型(前進(jìn)法篩選變量)探索壓力總分的影響因素,使用Clementine軟件的C5.0算法和Answer Tree軟件的CHAID算法分別建立決策樹(shù)。
通過(guò)前進(jìn)法篩選后,經(jīng)濟(jì)情況、兼職、家庭子女?dāng)?shù)、人際關(guān)系對(duì)生活壓力有影響(P<0.05)。其中經(jīng)濟(jì)情況、人際關(guān)系是保護(hù)因素,家庭經(jīng)濟(jì)條件好、人際關(guān)系好的大學(xué)生生活壓力小。而獨(dú)生子女、兼職是危險(xiǎn)因素,獨(dú)生子女或者需要參加兼職的大學(xué)生生活壓力大(見(jiàn)表1)。
表1 Logistic回歸結(jié)果
C5.0決策樹(shù)分為三層(見(jiàn)圖1):樹(shù)的第一層是按照人際關(guān)系進(jìn)行分枝,大學(xué)生生活壓力最主要的影響因素是人際關(guān)系。第二層是按照經(jīng)濟(jì)情況進(jìn)行分枝。第三層是按照子女?dāng)?shù)進(jìn)行分枝。從整個(gè)決策樹(shù)分支可以看出,人際關(guān)系差的大學(xué)生最容易出現(xiàn)生活壓力問(wèn)題(63.72%),其次是人際關(guān)系好、經(jīng)濟(jì)情況好的獨(dú)生子女大學(xué)生 (59.79%)。而經(jīng)濟(jì)情況好、人際關(guān)系好的大學(xué)生的生活壓力較小(38.22%)。人際關(guān)系好、經(jīng)濟(jì)情況好的非獨(dú)生子女大學(xué)生的生活壓力也較小(49.05%)(見(jiàn)表2)。
圖1 C5.0分類(lèi)樹(shù)形圖
CHAID決策樹(shù)分為三層,共7個(gè)結(jié)點(diǎn)(見(jiàn)圖2)。樹(shù)的第一層是按照經(jīng)濟(jì)情況進(jìn)行分枝。經(jīng)濟(jì)情況差的那支又按照人際關(guān)系分支。第三層按照子女?dāng)?shù)分支。經(jīng)濟(jì)情況好的那支按照人際關(guān)系分支。第三層按照參加兼職分支。從整個(gè)決策樹(shù)分支可以看出,經(jīng)濟(jì)情況差、人際關(guān)系差的大學(xué)生生活壓力所占的比例最大(68.84%),其次是經(jīng)濟(jì)情況好、人際關(guān)系差的大學(xué)生(60.23%)。另外,經(jīng)濟(jì)情況差、人際關(guān)系好、獨(dú)生子女的大學(xué)生生活壓力大的所占比例也較大。經(jīng)濟(jì)情況好、人際關(guān)系好的大學(xué)生的生活壓力都較小(見(jiàn)表3)。
表2 C5.0樹(shù)模型終末結(jié)點(diǎn)的分類(lèi)規(guī)則
表3 CHAID模型終末結(jié)點(diǎn)的分類(lèi)規(guī)則
Logistic回歸可以直觀闡述各個(gè)因素對(duì)生活壓力的影響。通過(guò)前進(jìn)法篩選后,經(jīng)濟(jì)情況、人際關(guān)系是生活壓力的保護(hù)因素;而家庭子女?dāng)?shù)、兼職情況是生活壓力的危險(xiǎn)因素。
決策樹(shù)分析采用的是一個(gè)多次分層的辦法,把樣本劃分為若干個(gè)亞群,生成的樹(shù)型圖非常直觀,能夠清楚地顯示出不同特征的亞群其發(fā)生不同結(jié)果的比例,而且在生成二維分類(lèi)表時(shí)把解釋變量的類(lèi)別進(jìn)行了重新劃分。C5.0算法按照信息增益來(lái)對(duì)樣本進(jìn)行劃分,CHAID按照產(chǎn)生P值最小的二維列表的變量進(jìn)行劃分,兩者的結(jié)果大體相同。
C5.0和CHAID決策樹(shù)分析法只顯示出的是變量之間相互作用的關(guān)系,而無(wú)法反映因素的主效應(yīng)和疊加效應(yīng)。本文中,C5.0決策樹(shù)分析方法沒(méi)有體現(xiàn)出兼職這一因素的作用,但是logistic回歸中顯示這一因素的主效應(yīng)有統(tǒng)計(jì)學(xué)意義。兼職與經(jīng)濟(jì)情況存在密切相關(guān),得到關(guān)聯(lián)系數(shù)等于 0.184;兼職與人際關(guān)系也存在關(guān)系。決策樹(shù)分析方法在納入了人際關(guān)系和經(jīng)濟(jì)情況后,由于表現(xiàn)出大量的交互作用,可能就忽略了兼職的效應(yīng)。但logistic回歸模型表明,這一作用是不可忽視的。
C5決策樹(shù)既可以非常直觀的解釋?zhuān)部梢愿鶕?jù)規(guī)則進(jìn)行解釋?zhuān)m合對(duì)某一屬性作深入的分析。決策樹(shù)容易理解、結(jié)果簡(jiǎn)單、結(jié)構(gòu)直觀,能清楚顯示對(duì)分類(lèi)或預(yù)測(cè)有意義的變量,同時(shí)可以處理有數(shù)值型、兩分類(lèi)和多分類(lèi)資料,并且可以處理缺失數(shù)據(jù),生成一些規(guī)則(從根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的路徑就是“規(guī)則”)為決策提供依據(jù)[7]。
它可以分析類(lèi)別變量、等級(jí)變量以及連續(xù)變量。CHAID算法是先固定一個(gè)首要影響因素,接著固定次要影響因素,而不是用窮盡法把每一種可能性都列舉出來(lái),其對(duì)最末枝人群的劃分不是最優(yōu)的分類(lèi),而是一種比較恰當(dāng)?shù)姆诸?lèi)。它能夠給我們提供人群的劃分結(jié)果和劃分標(biāo)準(zhǔn),并且能揭示自變量之間交互作用。Magidson[8]發(fā)現(xiàn)這種交互作用有一定的限制,其得到的是次要因素進(jìn)行的交互作用,并不是全局的交互作用。Magidson認(rèn)為進(jìn)行Logistic分析時(shí),首先需要用CHAID算法模型來(lái)進(jìn)行檢驗(yàn),然后再建立Logistic模型。Green也認(rèn)為CHAID算法模型能得到結(jié)果的基本結(jié)構(gòu),而Logit模型則能夠提供這些表述的參數(shù)[9]。
本次研究由于時(shí)間和客觀條件等因素的限制,所采用的生活壓力預(yù)測(cè)變量不盡完善,數(shù)據(jù)集中個(gè)別危險(xiǎn)因素結(jié)果無(wú)統(tǒng)計(jì)學(xué)意義,如應(yīng)對(duì)方式等因素未納入預(yù)測(cè)指標(biāo)集。
本文旨在為大學(xué)生生活壓力的研究提供一種新的思路。不同屬性的大學(xué)生的生活壓力可能有不同的危險(xiǎn)因素,應(yīng)分別構(gòu)建預(yù)測(cè)模型。開(kāi)展大學(xué)生心理健康教育和指導(dǎo)時(shí),要結(jié)合不同亞群人群的特點(diǎn),有針對(duì)性開(kāi)展;要特別關(guān)注人際關(guān)系差、經(jīng)濟(jì)情況差或者獨(dú)生子女的大學(xué)生。
[1]倪有娣,樓美麗.大學(xué)生生活事件及應(yīng)對(duì)方式的研究[J].杭州師范學(xué)院學(xué)報(bào)(醫(yī)學(xué)版),2005,(05):84-86,89.
[2]劉賢臣,劉連啟,楊杰等.青少年生活事件量表的編制與信度效度檢驗(yàn)[J].中國(guó)臨床心量學(xué)雜志,1997,(5):34-36.
[3]方俊群,羅家有,姚寬保,等.C5.0決策樹(shù)法在出生缺陷預(yù)測(cè)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(5):473-476.
[4]張家旺,韓光勝,張 偉.C5.0算法在RoboCup 傳球訓(xùn)練中的應(yīng)用研究[J].計(jì)算機(jī)仿真,2006,23(4):132-134.
[5]石 玲,王 燕.嬰幼兒死亡危險(xiǎn)因素的研究--兼論CHAID方法的原理及應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2002,19(5):283-285.
[6]PERREAULT WD,BARKSDALE HC.A model-free approach for analysis of complex contingency data in survey research[J]. Journal of Marketing Research,1980,17(4):503-515.
[7]陸安生,陳永強(qiáng),屠浩文.決策樹(shù)C5算法的分析與應(yīng)用[J].電腦知識(shí)與技術(shù),2005,(3):17-20.
[8]MAGIDSON J.Some Common Pitfalls in Causal Analysis of Categorical Data[J].Journal of Marketing Research, 1982,19(4):461-472.
[9]GREEN P E. An AID/Logit procedure for analyzing large multiway contingency tables[J].Journal of Marketing Research,1978,15(1):132-137.