韓玲
摘要:異常檢測(cè)是數(shù)據(jù)挖掘技術(shù)研究方向之一。利用粗糙集理論挖掘出的高質(zhì)量的決策規(guī)則集,具有廣泛的適應(yīng)性和簡(jiǎn)明清晰的特點(diǎn)。通過對(duì)規(guī)則的支持度和置信度的度量,提取那些支持度很低,但置信度非常高的規(guī)則。在某些如銀行欺詐、入侵檢測(cè)、青少年犯罪和學(xué)生心理問題等領(lǐng)域,研究這些小概率、置信度低的事件卻有特別的重要意義,對(duì)于人們發(fā)現(xiàn)異常情況進(jìn)行決策非常有益。
關(guān)鍵詞:數(shù)據(jù)挖掘;粗糙集;異常行為;規(guī)則提取
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)16-3774-04
Abstract: Abnormal detection is one of research directions of data mining technology. High quality decision rules are extracted using rough set theory, with a wide range of adaptability and concise characteristics. By the rule support degree and confidence measure, the rules are extracted with lower support, but higher confidence. In some areas such as bank fraud, intrusion detection, juvenile delinquency and the psychological problems of students, it is particular importance that small probability, low confidence events are researched, for people to detect abnormal decision very useful.
Key words: data mining; rough set; abnormal behavior; rule extraction
粗糙集理論能有效地分析和處理不精確性、不一致性和不完整性等各種不完備信息,并從發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律[1]。同時(shí),粗糙集理論在處理不確定性問題時(shí),不需要數(shù)據(jù)之外的任何先驗(yàn)信息。隨著研究工作的不斷深入,粗糙集理論已廣泛應(yīng)用于知識(shí)發(fā)現(xiàn)、機(jī)器學(xué)習(xí)和決策分析等眾多領(lǐng)域。
1 異常行為
異常行為又稱越軌行為、離軌行為、反常行為和偏差行為。各國(guó)學(xué)者對(duì)異常行為定義的表述種類繁多[2]。異常行為的研究范圍從自然界到社會(huì)涉及到諸多領(lǐng)域,如天體運(yùn)行、地理、氣候條件、環(huán)境、金融、醫(yī)學(xué)、網(wǎng)絡(luò)、心理等等世界的方方面面。
隨著社會(huì)發(fā)展競(jìng)爭(zhēng)加劇,大學(xué)生面臨著諸多方面的壓力,心理問題也日漸增多。而他們的心理健康狀況不僅關(guān)系著學(xué)生自身的發(fā)展,也關(guān)系著國(guó)家和社會(huì)的安定、和諧與發(fā)展。據(jù)國(guó)內(nèi)外的一些報(bào)道,目前大學(xué)生存在著許多心理問題,其心理不良狀況日漸嚴(yán)重,且呈逐年上升趨勢(shì)。已有的研究表明,大約有10%-40%的大學(xué)生存在著不同程度的心理不適及行為障礙,主要表現(xiàn)在抑郁、人際敏感、強(qiáng)迫、偏執(zhí)和敵對(duì)性幾方面,其中以抑郁的發(fā)生率為最高。如果這部分學(xué)生的心理問題不能得到及時(shí)有效的解決,可能產(chǎn)生嚴(yán)重的后果,甚至是嚴(yán)重的社會(huì)問題[3]。如國(guó)內(nèi)的馬加爵個(gè)案。2007年4月16日發(fā)生在弗吉尼亞理工大學(xué)一起美國(guó)歷史上最嚴(yán)重的校園槍擊案,造成33人死亡、20余人受傷的慘重的后果。2012年12月14日 美國(guó)康州校園槍擊案致28人死亡 包括20名兒童。這些慘案的制造者——學(xué)生多少都存在心理問題,因此,及早發(fā)現(xiàn)這類人群,開展有針對(duì)性的心理健康教育是非常必要以及有意義的。
那么,如何尋找有心理問題的學(xué)生呢?可以通過對(duì)學(xué)生平時(shí)的日常行為表現(xiàn)觀察和問卷調(diào)查等形式來確定問題學(xué)生人群。問卷調(diào)查采集到的數(shù)據(jù),可利用粗糙集理論、關(guān)聯(lián)規(guī)則等挖掘方法去處理,最后形成決策規(guī)則。
2 異常規(guī)則
在決策表S=(U,C∪D)中,C是條件屬性,D是決策屬性。對(duì)于?x∈U,dx表示決策規(guī)則,即
dx:des([x]C)→des([x]D)。
決策規(guī)則dx的支持度sup(dx):sup(dx)=|[x]C∩[x]D|/|U|
決策規(guī)則dx的置信度conf(dx):conf(dx)=|[x]C∩[x]D|/|[x]C|[4]
異常規(guī)則是滿足置信度大于一指定閾值的決策規(guī)則。
下面通過一實(shí)例說明異常規(guī)則的挖掘過程。實(shí)例中數(shù)據(jù)來自華盛頓高級(jí)中學(xué)的10318名高年級(jí)學(xué)生。每個(gè)學(xué)生信息用下列屬性及其相應(yīng)的值來描述[5]:
性別(SEX):男、女;
社會(huì)經(jīng)濟(jì)狀態(tài)(SES):低、中下、中上、高;
智商(IQ):低、中下、中上、高;
家長(zhǎng)的鼓勵(lì)(PE):低、高;
升學(xué)計(jì)劃(CP):是、否;
表1為學(xué)生各種狀況人數(shù)統(tǒng)計(jì)表,目標(biāo)是從數(shù)據(jù)中發(fā)現(xiàn)影響高中學(xué)生上大學(xué)意向的因素。
表中每個(gè)數(shù)據(jù)表示對(duì)于5個(gè)屬性的不同取值組合統(tǒng)計(jì)所得到的人數(shù)。例如,第一個(gè)數(shù)據(jù)表示對(duì)(SEX=男,SES=低,IQ=低,PE=低、CP=是)這種組合統(tǒng)計(jì)得到的人數(shù)為4。第二個(gè)數(shù)據(jù)則表示對(duì)(SEX=男,SES=低,IQ=低,PE=低,CP=否)這種組合統(tǒng)計(jì)得到的人數(shù)為349。其后的數(shù)據(jù)表示變換每個(gè)屬性可能取值,統(tǒng)計(jì)得到的人數(shù)。SEX,SES,IQ,PE,CP分別用a,d,c,d,e表示。條件屬性a,d,e的值分別取值為1,2;條件屬性b,c的值分別取值為1,2,3,4。如第一行a1^b1^c1^d1→e1表示SEX=男,SES=低,IQ=低,PE=低的學(xué)生中有4人有升學(xué)計(jì)劃(CP=是)。找出表1中conf(dx)≥0.8的規(guī)則。endprint
3 異常規(guī)則的提取算法
輸入:決策表S=(U,C∪D,V,f)。其中,U是論域,條件屬性C={c1,c2,…},決策屬性D=syggg00,[V=ci∈C?DVci] 是屬性值域,[Vci]是屬性ci的值域,[f:U×(C?D)→V]是一個(gè)信息決策函數(shù)。[6]
輸出:置信度大于給定的最小置信度minconf的規(guī)則集R。
1) R=?,對(duì)每一個(gè)ci∈C,計(jì)算conf(cij→d0),其中cij∈vi,d0表示用戶關(guān)心的某決策類;
2) 按置信度由大到小排序,將所有置信度≥minconf的規(guī)則移入規(guī)則集R中,保留剩余的排在前幾位的規(guī)則,
3) 如果能對(duì)剩余規(guī)則合并,則計(jì)算合并后新規(guī)則的置信度,轉(zhuǎn)(2);否則,輸出R,結(jié)束。
下面找出表1中conf(dx)≥0.8的規(guī)則。
由上述算法可依次得到含有一個(gè)條件屬性的決策表2、排序表3、子表4,二個(gè)條件屬性的決策表5、排序表6、子表7,三個(gè)條件屬性的決策表8、排序子表9。
最后,得到兩條符合要求的規(guī)則:
R1:a1b4c4→e1 (sup(R1)=0.041,conf(R1)=0.8560)
R2:b4c4d2→e1 (sup(R2)=0.072,conf(R2)=0.8359)
規(guī)則R1解釋:男性、經(jīng)濟(jì)條件好、智商高的學(xué)生有上大學(xué)計(jì)劃的支持度為0.041,置信度為0.856。說明,雖然這類學(xué)生人數(shù)很少,是個(gè)小概率事件,但是,其中絕大多數(shù)人都有上大學(xué)的意愿。
4 總結(jié)
對(duì)于小概率、置信度低的事件雖然不易發(fā)生,但是一旦發(fā)生,影響巨大,甚至造成嚴(yán)重的后果。 如何及時(shí)這些發(fā)現(xiàn)異常事件, 采取有效的監(jiān)督措施,正確決策,可避免許多悲劇的發(fā)生。該文對(duì)異常行為規(guī)則提取的方法做了有益的探討。
參考文獻(xiàn):
[1] Pawlak Z.Rough Sets[J].Communications of ACM,1995,38(11) .
[2] 異常行為社會(huì)學(xué)[EB/OL].http://www.chinabaike.com/article/316/327/2007/2007022054168.html.
[3] 鄭先常.我國(guó)當(dāng)前大學(xué)生心理健康狀況的分析[J].湖北體育科技,2013(7):616-618.
[4] 張學(xué)斌,丁曉明.一種基于關(guān)聯(lián)規(guī)則的屬性值約簡(jiǎn)算法[J].西南師范大學(xué)學(xué)報(bào),2005,30(3):440-443.
[5] 林士敏,田鳳占,陸玉昌.貝葉斯網(wǎng)絡(luò)的建造及其在數(shù)據(jù)采掘中的應(yīng)用[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2001,41(1): 49-52.
[6] 王學(xué)思,韓崇昭.粗糙集研究綜述[J].控制工程,2013,20 (1): 1-8.endprint
3 異常規(guī)則的提取算法
輸入:決策表S=(U,C∪D,V,f)。其中,U是論域,條件屬性C={c1,c2,…},決策屬性D=syggg00,[V=ci∈C?DVci] 是屬性值域,[Vci]是屬性ci的值域,[f:U×(C?D)→V]是一個(gè)信息決策函數(shù)。[6]
輸出:置信度大于給定的最小置信度minconf的規(guī)則集R。
1) R=?,對(duì)每一個(gè)ci∈C,計(jì)算conf(cij→d0),其中cij∈vi,d0表示用戶關(guān)心的某決策類;
2) 按置信度由大到小排序,將所有置信度≥minconf的規(guī)則移入規(guī)則集R中,保留剩余的排在前幾位的規(guī)則,
3) 如果能對(duì)剩余規(guī)則合并,則計(jì)算合并后新規(guī)則的置信度,轉(zhuǎn)(2);否則,輸出R,結(jié)束。
下面找出表1中conf(dx)≥0.8的規(guī)則。
由上述算法可依次得到含有一個(gè)條件屬性的決策表2、排序表3、子表4,二個(gè)條件屬性的決策表5、排序表6、子表7,三個(gè)條件屬性的決策表8、排序子表9。
最后,得到兩條符合要求的規(guī)則:
R1:a1b4c4→e1 (sup(R1)=0.041,conf(R1)=0.8560)
R2:b4c4d2→e1 (sup(R2)=0.072,conf(R2)=0.8359)
規(guī)則R1解釋:男性、經(jīng)濟(jì)條件好、智商高的學(xué)生有上大學(xué)計(jì)劃的支持度為0.041,置信度為0.856。說明,雖然這類學(xué)生人數(shù)很少,是個(gè)小概率事件,但是,其中絕大多數(shù)人都有上大學(xué)的意愿。
4 總結(jié)
對(duì)于小概率、置信度低的事件雖然不易發(fā)生,但是一旦發(fā)生,影響巨大,甚至造成嚴(yán)重的后果。 如何及時(shí)這些發(fā)現(xiàn)異常事件, 采取有效的監(jiān)督措施,正確決策,可避免許多悲劇的發(fā)生。該文對(duì)異常行為規(guī)則提取的方法做了有益的探討。
參考文獻(xiàn):
[1] Pawlak Z.Rough Sets[J].Communications of ACM,1995,38(11) .
[2] 異常行為社會(huì)學(xué)[EB/OL].http://www.chinabaike.com/article/316/327/2007/2007022054168.html.
[3] 鄭先常.我國(guó)當(dāng)前大學(xué)生心理健康狀況的分析[J].湖北體育科技,2013(7):616-618.
[4] 張學(xué)斌,丁曉明.一種基于關(guān)聯(lián)規(guī)則的屬性值約簡(jiǎn)算法[J].西南師范大學(xué)學(xué)報(bào),2005,30(3):440-443.
[5] 林士敏,田鳳占,陸玉昌.貝葉斯網(wǎng)絡(luò)的建造及其在數(shù)據(jù)采掘中的應(yīng)用[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2001,41(1): 49-52.
[6] 王學(xué)思,韓崇昭.粗糙集研究綜述[J].控制工程,2013,20 (1): 1-8.endprint
3 異常規(guī)則的提取算法
輸入:決策表S=(U,C∪D,V,f)。其中,U是論域,條件屬性C={c1,c2,…},決策屬性D=syggg00,[V=ci∈C?DVci] 是屬性值域,[Vci]是屬性ci的值域,[f:U×(C?D)→V]是一個(gè)信息決策函數(shù)。[6]
輸出:置信度大于給定的最小置信度minconf的規(guī)則集R。
1) R=?,對(duì)每一個(gè)ci∈C,計(jì)算conf(cij→d0),其中cij∈vi,d0表示用戶關(guān)心的某決策類;
2) 按置信度由大到小排序,將所有置信度≥minconf的規(guī)則移入規(guī)則集R中,保留剩余的排在前幾位的規(guī)則,
3) 如果能對(duì)剩余規(guī)則合并,則計(jì)算合并后新規(guī)則的置信度,轉(zhuǎn)(2);否則,輸出R,結(jié)束。
下面找出表1中conf(dx)≥0.8的規(guī)則。
由上述算法可依次得到含有一個(gè)條件屬性的決策表2、排序表3、子表4,二個(gè)條件屬性的決策表5、排序表6、子表7,三個(gè)條件屬性的決策表8、排序子表9。
最后,得到兩條符合要求的規(guī)則:
R1:a1b4c4→e1 (sup(R1)=0.041,conf(R1)=0.8560)
R2:b4c4d2→e1 (sup(R2)=0.072,conf(R2)=0.8359)
規(guī)則R1解釋:男性、經(jīng)濟(jì)條件好、智商高的學(xué)生有上大學(xué)計(jì)劃的支持度為0.041,置信度為0.856。說明,雖然這類學(xué)生人數(shù)很少,是個(gè)小概率事件,但是,其中絕大多數(shù)人都有上大學(xué)的意愿。
4 總結(jié)
對(duì)于小概率、置信度低的事件雖然不易發(fā)生,但是一旦發(fā)生,影響巨大,甚至造成嚴(yán)重的后果。 如何及時(shí)這些發(fā)現(xiàn)異常事件, 采取有效的監(jiān)督措施,正確決策,可避免許多悲劇的發(fā)生。該文對(duì)異常行為規(guī)則提取的方法做了有益的探討。
參考文獻(xiàn):
[1] Pawlak Z.Rough Sets[J].Communications of ACM,1995,38(11) .
[2] 異常行為社會(huì)學(xué)[EB/OL].http://www.chinabaike.com/article/316/327/2007/2007022054168.html.
[3] 鄭先常.我國(guó)當(dāng)前大學(xué)生心理健康狀況的分析[J].湖北體育科技,2013(7):616-618.
[4] 張學(xué)斌,丁曉明.一種基于關(guān)聯(lián)規(guī)則的屬性值約簡(jiǎn)算法[J].西南師范大學(xué)學(xué)報(bào),2005,30(3):440-443.
[5] 林士敏,田鳳占,陸玉昌.貝葉斯網(wǎng)絡(luò)的建造及其在數(shù)據(jù)采掘中的應(yīng)用[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2001,41(1): 49-52.
[6] 王學(xué)思,韓崇昭.粗糙集研究綜述[J].控制工程,2013,20 (1): 1-8.endprint