国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多維關(guān)聯(lián)規(guī)則在心理測量中的應(yīng)用

2015-05-30 22:01:06王冬燕
智能計算機與應(yīng)用 2015年5期
關(guān)鍵詞:標(biāo)準(zhǔn)分立方體關(guān)聯(lián)

王冬燕

摘 要:利用多維關(guān)聯(lián)規(guī)則方法提取心理測量不同量表屬性間的關(guān)聯(lián)規(guī)則,樣本包括1958名大學(xué)新生。鑒于量表屬性較多,且數(shù)據(jù)庫龐大,傳統(tǒng)的關(guān)聯(lián)規(guī)則Apriori算法較難實現(xiàn),因此基于Apriori算法設(shè)計并實現(xiàn)了多維關(guān)聯(lián)規(guī)則的挖掘算法,并應(yīng)用于心理測量量表屬性的關(guān)系研究。實驗表明,多維關(guān)聯(lián)規(guī)則方法能夠較快速且更加準(zhǔn)確的挖掘出屬性間的多維關(guān)聯(lián)規(guī)則,并且這些規(guī)則在心理測量工作中能夠起到指導(dǎo)作用,說明該方法是十分有效的。

關(guān)鍵詞:多維關(guān)聯(lián)規(guī)則;MMPI;16Pf

中圖法分類號:TP311,B842 文獻標(biāo)志碼:A 文章編號:2095-2163(2015)05-

Application of Multidimensional Association Rules Method in Psychological Measurement

WANG Dongyan

(School of Psychology, Nanjing University of Chinese Medicine, Nanjing 210023,China)

Abstract The use of multidimensional association rules to extract the psychometric properties of the scale between different association rules, the sample includes 1,958 freshmen. Given the large scale property and huge databases, traditional Apriori algorithm of association rules difficult to achieve, so based on Apriori algorithm design and implementation of multidimensional association rules mining algorithm, and study the relationship between psychometric properties of the scales applied. Experimental results show that the multidimensional association rules can more quickly and more accurately excavated multidimensional association rules between attributes, and these rules work in psycho-metrics can play a guiding role, indicating that this method is very effective.

Keywords multidimensional association rule; MMPI; 16Pf

0 引 言

大學(xué)生群體,承擔(dān)著來自學(xué)業(yè)、生活、情感、就業(yè)等多重壓力,其心理健康狀況越來越得到社會各界的關(guān)注。為了更好地對大學(xué)生的心理健康狀況進行全面了解,及時應(yīng)對各種可能發(fā)生的情況,各個高校都會在新生入學(xué)時對學(xué)生進行各種心理測量,通常包括明尼蘇達多項人格測驗(MMPI)、癥狀自評量表(SCL-90)、卡特爾十六種個性因素測試(16PF)等。其中MMPI在人格失常測量方面具有高穩(wěn)定性[1],主要用于確定被試者的心理健康水平并根據(jù)不同臨床量表的得分高低,輔助臨床診斷[2],包含566個自我描述項目,一般測試前399道[3]。16PF主要用于測量十六種主要的人格特征,包含187道題目[4]。SCL-90包含90項題目[5],能較好地反映被試的病情及其嚴(yán)重程度和變化。由于測量題目繁多,時間長,不僅使一些學(xué)生難以堅持認(rèn)真完成測試,從而導(dǎo)致測量結(jié)果無效,同時更給施測老師帶來巨大的工作量。因此,如果可以挖掘出量表之間存在哪些關(guān)聯(lián)或者規(guī)則,對于研究者來說就可以通過一種量表的測量來預(yù)測另一種量表的結(jié)果,此時則可通過數(shù)據(jù)挖掘中的一些方法來實現(xiàn)這些需要。

近年來,國內(nèi)學(xué)者越來越多地將數(shù)據(jù)挖掘技術(shù)應(yīng)用于心理測量。余嘉元研究表明[6],粗糙集和神經(jīng)網(wǎng)絡(luò)可以有效地對心理測量數(shù)據(jù)進行因素提取和分類。肖新攀等[7]提出采用二次學(xué)習(xí)風(fēng)范的規(guī)則生成算法,從心理學(xué)數(shù)據(jù)中提取規(guī)則。吳小剛等人[8]對通過癥狀自評量表測試,利用C4.5算法構(gòu)造決策樹并提取預(yù)測大學(xué)生心理健康狀況的規(guī)則。任麗君[9]則將多種數(shù)據(jù)挖掘方法應(yīng)用于分析學(xué)生癥狀自評量表的測量結(jié)果,發(fā)現(xiàn)了心理問題與學(xué)生屬性之間的內(nèi)在關(guān)系。鐘鏡平[10]利用改進頻繁項集挖掘算法對大學(xué)生團體心理健康進行評估。

從以往研究發(fā)現(xiàn),數(shù)據(jù)挖掘方法確實可以有效地應(yīng)用于心理測量數(shù)據(jù)的分析,但是基本上是對某一種心理測驗內(nèi)部的分析,而未能對量表之間的關(guān)聯(lián)程度進行考察。本文則通過多維關(guān)聯(lián)規(guī)則的方法對不同心理測量量表屬性之間的關(guān)系進行挖掘。分析過程中使用基于Apriori 算法的維間頻繁屬性集生成算法,將數(shù)據(jù)立方體技術(shù)運用到Apriori算法中,提高了挖掘效率。

1 多維關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則[11-12]定義:設(shè) I = {i1, i2, … im } 是項的集合,記D為事務(wù)T的集合,這里事務(wù)T是項的集合,并且T I。對應(yīng)每一個事務(wù)有唯一的標(biāo)識,記作TID。設(shè)X是一個I中項的集合,如果X I,那么稱事務(wù)T包含X。規(guī)則X ?Y在D中的支持度(support)是事務(wù)集中包含X和Y的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為support (X?Y),即support ( X ?Y) =?{ T: X ? Y T, T ? D}?/?D?。規(guī)則 X ?Y 在事務(wù)集中的置信度(confidence)是指包含 X 和 Y 的事務(wù)數(shù)與包含X的事務(wù)數(shù)之比,記為confidence (X ? Y ),即confidence ( X ?Y )=?{T: X ?Y T, T ?D} ?/?{T: X T, T ? D}?。

1.1 多維關(guān)聯(lián)規(guī)則概述

多維關(guān)聯(lián)規(guī)則是相對于單維數(shù)據(jù)庫內(nèi)的關(guān)聯(lián)規(guī)則而言的,是從多維的數(shù)據(jù)庫中挖掘規(guī)則的方法[13],即處理各個屬性之間的某些關(guān)系。多維關(guān)聯(lián)規(guī)則目前還沒有被應(yīng)用于心理測量的數(shù)據(jù)處理方面。本文根據(jù)數(shù)據(jù)屬性特點,采用維間關(guān)聯(lián)規(guī)則挖掘。

具體在分析中,可以分為兩步:首先掃描經(jīng)過預(yù)處理后得到的數(shù)據(jù),在所有記錄中尋找出現(xiàn)頻繁的字段值組合;再由頻繁字段值組合推導(dǎo)出關(guān)聯(lián)關(guān)系。從記錄數(shù)據(jù)表中產(chǎn)生頻繁屬性集采用經(jīng)過改進的基于Apriori算法的維間頻繁屬性集生成算法實現(xiàn),由各頻繁屬性集進一步產(chǎn)生關(guān)聯(lián)規(guī)則可通過對置信度的考查較容易地完成。

1.2 數(shù)據(jù)立方體

在數(shù)據(jù)倉庫中,多維數(shù)據(jù)模型將數(shù)據(jù)按數(shù)據(jù)立方體(data cube)的形式進行組織與構(gòu)造。數(shù)據(jù)立方體由維和事實定義。給定一個關(guān)聯(lián)規(guī)則挖掘任務(wù),其內(nèi)容涉及d1,...,dn個維,并根據(jù)用戶挖掘需求確定各維的維層次,然后從數(shù)據(jù)倉庫中生成數(shù)據(jù)立方體。其中每一維包含 |di|+1 個數(shù)值,| di |是第i 維包含的互不相同的維成員個數(shù)。在di維中,前| di |行各代表di中一個互不相同的維成員。最后一行存儲了一個稱之為SUM!的維成員,其中記錄了其所對應(yīng)的維的合計值,這種合計值極大地方便了關(guān)聯(lián)規(guī)則的挖掘中支持度的計算。立方體的方格中記錄的是對應(yīng)維成員的頻繁度量值,記為count。這樣涉及d1,...,dn維數(shù)據(jù)的一個關(guān)聯(lián)規(guī)則挖掘任務(wù)就對應(yīng)一個 n 維的數(shù)據(jù)立方體 Cube (d1,...,dn∣count),其中d1,...,dn 是立方體的維,count是立方體的事實度量[14]。

1.3 多維關(guān)聯(lián)規(guī)則算法

輸入: a. 一個n維的數(shù)據(jù)立方體CB[d1,...,dn]

b. 最小支持度:min-sup

輸出: n維間的頻繁項目集L

① k=1;L=Φ;

② 對于每一維,生成1-itemset候選集

C1·di ={di維中所有互不相同的取值};

③ 生成1-itemset頻繁項集L1 = gen-frequent(1,c1);

④ Repeat k = k+1;

生成k-itemsets 候選集Ck = gen-candidat ( k, Lk-1);

生成k-itemsets 頻繁集Lk = gen-frenquent( k, Ck );

L=L∪Lk;

Until Lk = Φ;

函數(shù) gen-frenquent( k, Ck ),從候選集Ck中生成頻繁項目集Lk

Function gen_frequent( k, Ck )

Lk = Φ;

for each candidate I={i1, i2,…, ik}∈Ck do

{ frequency = k 維立方體中方格(i1, i2,…, ik)中的count值

support = frequent/total count;

if (support >min_supp) then Lk = Lk∪{I};}

函數(shù)gen-candidat ( k, Lk-1),從(k-1)頻繁項目集中生成k-itemset候選集Ck

Function gen-candidat ( k, Lk-1)

Ck = Φ;

for each item I1∈Lk-1

{ for each item I2∈Lk-1

{if (與有k-2個相同的項目,并且最后一個項目分別來自不同的維) then

{ c = I1 I2

if c有非頻繁的( k-1)子集,then 刪除c

else 將c加入到Ck中}}

}

return Ck

2 數(shù)據(jù)準(zhǔn)備

2.1 數(shù)據(jù)屬性

本文的數(shù)據(jù)來源于南京中醫(yī)藥大學(xué)心理咨詢中心對2010級2 554名新生在入校后所做的大學(xué)生心理健康量表,主要采用的是MMPI和16PF測量。MMPI的前399道題目主要包括 4個效度量表:疑問量表、說謊量表、詐病量表、校正量表;10個臨床量表:疑病、抑郁、癔病、精神病態(tài)、男性化-女性化、妄想狂、精神衰弱、精神分裂、輕躁狂、社會內(nèi)向。16PF是卡特爾在其人格的解釋性理論構(gòu)想的基礎(chǔ)上編制的16種人格因素問卷,共187道題目,從16個方面描述個體的人格特征,分別是:樂群性、聰慧性、穩(wěn)定性、恃強性、興奮性、有恒性、敢為性、敏感性、懷疑性、幻想性、世故性、憂慮性、實驗性、獨立性、自律性、緊張性。

2.2 數(shù)據(jù)清洗

在本研究中,由于被試是分開進行MMPI和16PF的測量,因此測試后需要將兩份數(shù)據(jù)統(tǒng)一到同一數(shù)據(jù)庫中。首先是對缺失值的處理,在本研究中,被試人數(shù)為2 554人,相對整體來說,存在缺值的被試不算太多,因此就采用了直接刪除法。多維數(shù)據(jù)異常點處理是將在每個維度內(nèi)的均值左右3 個標(biāo)準(zhǔn)差區(qū)間外的數(shù)據(jù)可以看作是異常點,將其刪去[15]。本研究采用k均值聚類方法,取k等于2~11類,進行了10次試驗,結(jié)果表明,沒有發(fā)現(xiàn)多維異常數(shù)據(jù)。另外,本研究參考MMPI量表的4個效度量表,也可以對效度較低的個案數(shù)據(jù)刪除。根據(jù)MMPI疑問量表Q,高分者有回避問題的傾向,即對問題毫無反應(yīng)或?qū)Α笆恰薄胺瘛倍歼M行反應(yīng)的項目總數(shù),稱“無回答”的項目,將得分超過22分的被試數(shù)據(jù)刪除;根據(jù)說謊量表L的結(jié)果,高分者總想讓別人將其看得要比實際情況更好。而且,連每個人都具有的嬉笑短處也不承認(rèn)。L量表共15個題目,如果原始分超過10分,即標(biāo)準(zhǔn)分超過70分,則不能信任MMPI的結(jié)果,因此將這些數(shù)據(jù)的個案刪除。

通過數(shù)據(jù)清洗,最終共獲得1 958份有效數(shù)據(jù)。本研究采用的是靜態(tài)數(shù)值關(guān)聯(lián)規(guī)則法,將數(shù)值數(shù)據(jù)離散化。對于MMPI量表,具有中國自己的常模和標(biāo)準(zhǔn)分[16],因此以標(biāo)準(zhǔn)分60分為分界線,大于60分的設(shè)置為1,為人格正常組,不大于60分的設(shè)置為2,為人格異常組;但其中有5個量表Hs、Pd、Pt、Sc和Ma的標(biāo)準(zhǔn)分要經(jīng)過K分校正,則以70分為標(biāo)準(zhǔn)分,大于70分設(shè)置為1,不大于70分設(shè)置為2;對于16PF量表,標(biāo)準(zhǔn)分1~4分的,設(shè)置為1,為人格特征偏低組,標(biāo)準(zhǔn)分5~6分的,設(shè)置為2,為人格特征居中組,標(biāo)準(zhǔn)分7~10分的,設(shè)置為3,為人格特征偏高組。

3 多維關(guān)聯(lián)規(guī)則提取

3.1 相關(guān)系數(shù)分析

通過數(shù)據(jù)預(yù)處理過程,獲得要分析的數(shù)據(jù)屬性。主要包括MMPI和16PF兩份量表,共25個維度的屬性,MMPI中效度量表要考察的屬性是F,臨床量表要排除Mf和Si兩個屬性,這兩個屬性僅作為臨床診斷的參考。整理后,所有屬性如表1所示。

在做多維關(guān)聯(lián)分析之前,先對兩份量表的維間屬性進行相關(guān)系數(shù)的檢驗,查看是否適合做關(guān)聯(lián)分析。由于已將原數(shù)值數(shù)據(jù)進行了離散處理,可將離散后的屬性值看作是等級變量,由此展開Spearman相關(guān)分析(見表2),從分析結(jié)果可以看出,兩份量表各個屬性間也基本存在顯著相關(guān)性,因此可以進行關(guān)聯(lián)分析。

3.2 維間多維關(guān)聯(lián)規(guī)則提取

通過基于Apriori算法的維間頻繁屬性集生成算法得到各頻繁項集后,針對每一個頻繁項集L,根據(jù)置信度的定義,可按照以下方法產(chǎn)生關(guān)聯(lián)規(guī)則:

( 1 ) 對于每個頻繁項集L, 產(chǎn)生L的所有非空子集。

( 2 ) 對于L的每個非空子集,若s-count (L)/s-count (s) ≥ Cmin,則輸出規(guī)則“s→(L-s)”。

由于規(guī)則由頻繁項集產(chǎn)生,因此都自動滿足最小支持度。

本研究采用Java語言實現(xiàn)基于Apriori的多維關(guān)聯(lián)規(guī)則算法。取最小支持度為0.1,最小置信度為0.7。由于本研究需要著重了解兩份量表之間的關(guān)系,因此在得出的規(guī)則中篩選出60條相對符合條件的關(guān)聯(lián)規(guī)則,列舉若干條(以置信度降序排列)如表3所示。

從所篩選出來的關(guān)聯(lián)規(guī)則來看,確實能給研究者帶來一定的啟發(fā)。在MMPI量表中主要集中在F、D和Hy屬性上;而16PF量表則在各種人格特征上都存在相關(guān),且多數(shù)存在低分相關(guān)。例如規(guī)則D = 1 Hy = 1 ==> l = 1顯示,當(dāng)MMPI中疑病量表和抑郁量表分?jǐn)?shù)偏高時,會伴隨16PF中懷疑性人格的低分;而規(guī)則q4 = 3 ==> F = 1 D = 1則表明16PF中緊張性的高分表現(xiàn)會帶來MMPI中詐病量表的高分和抑郁量表的高分。另外,在規(guī)則中的頻繁兩項集在一定程度上驗證了相關(guān)分析的結(jié)果,例如c = 1 ==> F = 1,可驗證c和F的spearman相關(guān)關(guān)系。由此可證明多維關(guān)聯(lián)規(guī)則在考察屬性相關(guān)性方面是有效的。

4 結(jié)束語

本文首次采用多維關(guān)聯(lián)規(guī)則方法分析了心理測量量表MMPI和16PF各個維度之間的關(guān)聯(lián)關(guān)系。實驗研究表明,采用多維關(guān)聯(lián)規(guī)則分析心理測量量表維度之間的關(guān)系是可行的,挖掘出了較有意義的屬性間的關(guān)系,為實踐工作中的應(yīng)用提供了有效建議。另外,實驗也驗證了多維關(guān)聯(lián)規(guī)則特別適用于數(shù)據(jù)量和屬性值都比較龐大的多維數(shù)據(jù)庫中的規(guī)則挖掘。但是,在本文中挖掘出來的關(guān)系還達不到研究的設(shè)想,這和數(shù)據(jù)量的局限性有一定的關(guān)系,也可能還有更好的方法來獲得結(jié)論。因此,需要對更大的數(shù)據(jù)庫進行挖掘,也許會有更多的規(guī)則出現(xiàn)。顯然,傳統(tǒng)的心理學(xué)統(tǒng)計方法已不能滿足日益龐大的數(shù)據(jù)庫,引入數(shù)據(jù)挖掘的方法來分析心理測量數(shù)據(jù)還是十分必要的。

參考文獻:

[1] ROSENTHEL T L, EDWARDS N B, ACKERMAN B J, et al. Substance abuse patterns reveal contrasting personal trait[J]. J-Subst-Abuse, 1990,2(2):255.

[2] SINLIA B K, WATSON D C. Personality disorder in university students. A malt trait-multi method Matrix study[J]. J. Personal Disord,2001,(513):235-244.

[3] 《心理學(xué)百科全書》編輯委員會編.心理學(xué)百科全書[M].杭州:浙江教育出版社,1995:1757.

[4] Johnson J S, Mowrer R R. Mail Surveys among College Students: DO Initial Responders Score Differently form Non-responses On the 16PF?[J]. Psychology-rep, 2000,86(3Pt l):901-908.

[5] GRUDE T, VAGLUM P. One-year follow-up of patients with cluster C Personality discord: a prospective study comparing patients with“Pure”and comorbid conditions within cluster C, and“Pure”C with“Pure”cluster A or B conditions[J]. J-Personal-discord, 2001,15(3):216-28.

[6] 余嘉元.粗糙集和神經(jīng)網(wǎng)絡(luò)在心理測量中的應(yīng)用[J].心理學(xué)報, 2008, 40(8),939-946.

[7] 肖新攀,余嘉元,姜遠(yuǎn),周志華.從心理學(xué)數(shù)據(jù)中發(fā)現(xiàn)可理解的模式[J].計算機科學(xué)與探索,2011, 5(3),247-255.

[8] 吳小剛,周萍,彭文惠.決策樹算法在大學(xué)生心理健康評測中的應(yīng)用[J].計算機應(yīng)用與軟件,2011,28(10),240-244.

[9] 任麗君.數(shù)據(jù)挖掘在大學(xué)生心理問題中的應(yīng)用[D].上海:華東師范大學(xué),2006.

[10] 鐘鏡平.關(guān)聯(lián)規(guī)則挖掘在心理分析中的應(yīng)用研究[D].杭州:浙江大學(xué),2007.

[11] Tan P-N, Steinbach M, Kumar V. 數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建等譯.北京:人民郵電出版社,2006:258-268.

[12] WANG P J, SHI L, BAI J N, et al. Mining association rules based on Apriori algorithm and application[C]// Proof the 2009 Intl Forum on Computer Science-Technology and Applications, Chongqing, China:IITAA, 2009:141-143.

[13] 胡可云,田鳳占,黃厚寬.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社,2008:116.

[14] 彭碩, 吳昊. 基于MDPI的多維關(guān)聯(lián)規(guī)則算法的研究[J].微電子學(xué)與計算機,2011,28(1),78-82.

[15] 洪偉,吳承禎. 試驗設(shè)計與分析——原理操作案例[M].北京:中國林業(yè)出版社,2004.

[16] MMPI全國協(xié)作組.明尼蘇達多相個性測查表使用指導(dǎo)書[M].北京:中國科學(xué)院心理所,1989.

猜你喜歡
標(biāo)準(zhǔn)分立方體關(guān)聯(lián)
疊出一個立方體
“一帶一路”遞進,關(guān)聯(lián)民生更緊
奇趣搭配
圖形前線
智趣
讀者(2017年5期)2017-02-15 18:04:18
EXCEL在數(shù)據(jù)處理中的實踐分析
大科技(2016年11期)2016-08-04 00:51:44
立方體星交會對接和空間飛行演示
太空探索(2016年9期)2016-07-12 09:59:53
折紙
重新認(rèn)識成績
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
天长市| 新丰县| 固安县| 莫力| 梓潼县| 冀州市| 丹寨县| 石景山区| 赤壁市| 儋州市| 出国| 凤城市| 永春县| 彰武县| 吉林市| 翁牛特旗| 清流县| 鄂伦春自治旗| 衡阳市| 水城县| 铅山县| 和林格尔县| 巩义市| 清水河县| 阿合奇县| 华坪县| 嘉鱼县| 南靖县| 贵阳市| 和顺县| 辰溪县| 富川| 泰来县| 仁化县| 礼泉县| 额济纳旗| 襄城县| 普定县| 华坪县| 社旗县| 大石桥市|