国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的學(xué)習(xí)者身份異常檢測(cè)

2011-09-04 06:09:42董云耀
關(guān)鍵詞:置信度數(shù)據(jù)挖掘關(guān)聯(lián)

董云耀,黃 煒

(杭州電子科技大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)研究所,浙江杭州310018)

0 引言

網(wǎng)絡(luò)學(xué)習(xí)者的身份識(shí)別是當(dāng)前網(wǎng)絡(luò)安全方面的研究熱點(diǎn),目前較為可靠的識(shí)別方式是諸如人臉實(shí)時(shí)監(jiān)控[1]的監(jiān)督式方式。但此類識(shí)別的成本較高,普及也較困難,而且也不能脫離人力監(jiān)督的環(huán)境?;跀?shù)據(jù)挖掘的學(xué)習(xí)者身份識(shí)別思想的提出,正是為了克服上述的缺點(diǎn),它是一種在學(xué)習(xí)者不知情的情況下的無監(jiān)督式的識(shí)別技術(shù),尤其適合于諸如在線學(xué)習(xí)系統(tǒng)等場(chǎng)合。行為模式是人們?cè)谶M(jìn)行某一方面活動(dòng)時(shí)所體現(xiàn)出的某種規(guī)律性。由大量實(shí)踐經(jīng)驗(yàn)得出,學(xué)習(xí)者的行為規(guī)律往往反映了其身份特征,且行為之間也會(huì)帶有某種規(guī)律性的聯(lián)系,而這些具有規(guī)律性的行為可被反映成行為模式。數(shù)據(jù)挖掘是指通過分析數(shù)據(jù),挖掘數(shù)據(jù)中隱含的模式。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到身份識(shí)別中[2],對(duì)學(xué)習(xí)者留下的一系列行為數(shù)據(jù)進(jìn)行挖掘,就能得到學(xué)習(xí)者的行為模式。本文提出了一種基于數(shù)據(jù)挖掘的學(xué)習(xí)者身份真實(shí)性判斷方法,通過比較學(xué)習(xí)者的當(dāng)前行為,可以檢測(cè)出身份的異常。

1 分類算法概述

分類是最常見的數(shù)據(jù)挖掘任務(wù)之一,它指基于一個(gè)可預(yù)測(cè)屬性把事例分成多個(gè)類別,每個(gè)事例包含一組屬性,其中有一個(gè)可預(yù)測(cè)屬性。分類任務(wù)要求找到一個(gè)模型,該模型將類別屬性定義為輸入屬性的函數(shù)。典型的分類算法有決策樹算法、貝葉斯算法和神經(jīng)網(wǎng)絡(luò)算法。

決策樹的基本原理是遞歸地將數(shù)據(jù)拆分成子集,以便每一個(gè)子集包含目標(biāo)變量類似的狀態(tài)。每一次對(duì)樹進(jìn)行拆分,都要評(píng)價(jià)所有的輸入屬性對(duì)可預(yù)測(cè)屬性的影響。對(duì)事例進(jìn)行預(yù)測(cè)的過程是從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑,所選擇的路徑基于決策樹中節(jié)點(diǎn)的拆分條件。

貝葉斯分類法是統(tǒng)計(jì)學(xué)分類方法,可以預(yù)測(cè)類成員關(guān)系的可能性。經(jīng)分類算法的比較研究發(fā)現(xiàn),一種稱作樸素貝葉斯分類法的簡(jiǎn)單貝葉斯分類算法可以與決策樹和經(jīng)過挑選的神經(jīng)網(wǎng)絡(luò)分類算法相媲美。貝葉斯分類基于貝葉斯定理,使用條件概率和無條件概率的組合對(duì)輸入屬性和輸出屬性之間的相關(guān)性進(jìn)行計(jì)數(shù)。

神經(jīng)網(wǎng)絡(luò)主要解決數(shù)據(jù)挖掘的分類和回歸任務(wù),它包含一組節(jié)點(diǎn)和邊,節(jié)點(diǎn)的類型有3種:輸入、隱含和輸出。每條邊都通過一個(gè)相關(guān)聯(lián)的權(quán)值來連接兩個(gè)節(jié)點(diǎn),邊的方向代表預(yù)測(cè)過程中的數(shù)據(jù)流。輸入事例的屬性值被規(guī)范化后,被映射到輸入層的神經(jīng)元,然后每個(gè)隱含層的節(jié)點(diǎn)會(huì)處理輸入,觸發(fā)一個(gè)輸出到后面的層中,最后輸出神經(jīng)元開始處理和生成一個(gè)輸出值。

2 Apriori關(guān)聯(lián)算法

利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則可以挖掘出學(xué)習(xí)者的行為模式。關(guān)聯(lián)規(guī)則的重要概念包括支持度和置信度??紤]項(xiàng)集{A,B},采用的支持度和置信度為:

式中,N代表總的記錄個(gè)數(shù),N(A,B)代表記錄中A和B同時(shí)出現(xiàn)的記錄數(shù)。

Apriori算法是經(jīng)典的數(shù)據(jù)挖掘關(guān)聯(lián)分析算法,可以有效挖掘出數(shù)據(jù)集中不同項(xiàng)之間的關(guān)系。本文借鑒了Apriori算法思想,提出了一種利用置信度產(chǎn)生異常正向規(guī)則集合的身份真實(shí)性判斷方法,使在線學(xué)習(xí)者的身份異常檢測(cè)成為可能。

3 學(xué)習(xí)者身份異常檢測(cè)原理

3.1 原理描述

利用數(shù)據(jù)挖掘技術(shù)中的分類算法,通過對(duì)數(shù)據(jù)集的挖掘,來提取出有用的模式,就能對(duì)學(xué)習(xí)者的身份進(jìn)行分類預(yù)測(cè)。為避免預(yù)測(cè)帶來的魯莽性,對(duì)于身份預(yù)測(cè)的結(jié)果,我們還要進(jìn)行最后的關(guān)聯(lián)分析,以確保身真實(shí)性檢測(cè)的準(zhǔn)確性。如若學(xué)習(xí)者的當(dāng)前行為項(xiàng)中出現(xiàn)問答頻率高?擅長(zhǎng)題型為客觀題這一項(xiàng),其含義為學(xué)習(xí)者在學(xué)習(xí)時(shí)積極問答,而最終考試時(shí)主觀題答得很不好,若關(guān)聯(lián)行為模式中出現(xiàn)這一項(xiàng)的概率僅為2%,則有理由懷疑其身份的真實(shí)性。

雖然異常行為并不一定意味身份冒充行為,但至少可以引起監(jiān)管人員的關(guān)注,當(dāng)異常較大時(shí),則有充足的理由對(duì)其身份的真實(shí)性產(chǎn)生懷疑。

3.2 行為模式挖掘

本文設(shè)定的項(xiàng)集為 I(i1,i2,i3,i4,i5,i6),其中,i1為答題速度,i2為關(guān)聯(lián)掌握,i3為問答頻率,i4為擅長(zhǎng)題型,i5為平時(shí)成績(jī),i6為最終成績(jī)。

利用數(shù)據(jù)挖掘技術(shù)的分類算法,通過訓(xùn)練所有學(xué)習(xí)者留下的數(shù)據(jù)集,可以得到學(xué)習(xí)者的行為模式,即身份預(yù)測(cè)模型。利用數(shù)據(jù)挖掘技術(shù)的關(guān)聯(lián)規(guī)則算法,通過真實(shí)的學(xué)習(xí)者與考核者留下的訓(xùn)練集,可以產(chǎn)生異常的規(guī)則集合。

和Apriori算法不同,要得到學(xué)習(xí)者的異常關(guān)聯(lián)行為模式,不僅要考慮頻繁項(xiàng)集,也要考慮非頻繁項(xiàng)集。且只考慮i1?i2的置信度,而不用再考慮i2?i1的置信度,因?yàn)樾袨轫?xiàng)往往具有方向聯(lián)系性,可由知識(shí)專家(如教師)進(jìn)行選擇和排序,當(dāng)行為項(xiàng)i1能很好地反映i2時(shí),就只考慮i1?i2的置信度,而不用再考慮i2?i1的置信度,這樣降低了復(fù)雜性,能更好地反映學(xué)習(xí)者內(nèi)在的行為關(guān)聯(lián)模式。另外,排除一對(duì)多的關(guān)聯(lián),即不考慮(i1?i2,i3),因?yàn)槟菢訒?huì)使原有內(nèi)在行為關(guān)聯(lián)模式趨向模糊。所以有如下的定義:

定義 1 正向規(guī)則集合 Pn(i1,i2,…,in)={(i1?i2),…,(i1?in),(i2?in),…,(in-1?in)},(i1?i2)表示i1取各個(gè)屬性值v1時(shí)與i2取各個(gè)屬性值v2時(shí)的關(guān)聯(lián)集合。例如,當(dāng)i1、i2的屬性值都可取0或1 時(shí),則(i1?i2)=(i1=0?i2=0,i1=0?i2=1,i1=1?i2=0,i1=1?i2=1);

定義2 異常正向規(guī)則集合Ps,它為置信度低于閾值PJudge的正向規(guī)則集合,可以反映學(xué)習(xí)者的異常關(guān)聯(lián)行為;

定義3 置信度比較函數(shù)。

式中,Pi為當(dāng)前正向規(guī)則集合,Ps為異常正向規(guī)則集合(即學(xué)習(xí)者的異常關(guān)聯(lián)行為模式),函數(shù)值為1表示當(dāng)前學(xué)習(xí)者存在異常行為模式,值為0則表示無異常。

4 實(shí)驗(yàn)及分析

實(shí)驗(yàn)測(cè)試平臺(tái)為利用ASP.NET開發(fā)的《計(jì)算機(jī)網(wǎng)絡(luò)課程》在線學(xué)習(xí)系統(tǒng),測(cè)試項(xiàng)為由該系統(tǒng)產(chǎn)生的200份學(xué)習(xí)與考核數(shù)據(jù),其中100份為本人學(xué)習(xí)本人考試數(shù)據(jù),另外100份為本人學(xué)習(xí)他人考試數(shù)據(jù)。平時(shí)成績(jī)由每章測(cè)試中反映出,關(guān)聯(lián)掌握從每節(jié)測(cè)試、每章測(cè)試中反映出(每章測(cè)試中包含每節(jié)測(cè)試相同或相似的題目),擅長(zhǎng)題型從每節(jié)過關(guān)測(cè)試、每章測(cè)試中反映出,問答頻率從系統(tǒng)設(shè)置的問答系統(tǒng)中反映出,最終成績(jī)從最終考核測(cè)試中反映出。

分別用3種分類算法對(duì)200份數(shù)據(jù)集建立預(yù)測(cè)模型,再進(jìn)行身份預(yù)測(cè),最終情況如表1所示。

表13 種分類算法預(yù)測(cè)情況對(duì)比 (%)

可以發(fā)現(xiàn)決策樹的預(yù)測(cè)情況最好。分析其原因?yàn)?貝葉斯算法假定了輸入屬性的相互獨(dú)立性,而學(xué)習(xí)者行為項(xiàng)往往具有聯(lián)系性;神經(jīng)網(wǎng)絡(luò)算法最適用于分析復(fù)雜的非線性關(guān)系,而本文中學(xué)習(xí)者的行為項(xiàng)可看做是線性關(guān)系。

為避免預(yù)測(cè)帶來的魯莽性,對(duì)于身份預(yù)測(cè)的結(jié)果,還要進(jìn)行最后的關(guān)聯(lián)檢測(cè),以確保身份驗(yàn)證的準(zhǔn)確性。利用100份本人學(xué)習(xí)與本人考試數(shù)據(jù),首先由異常正向規(guī)則集合Ps產(chǎn)生過程(取閾值PJudge=0.08)計(jì)算得出:置信度(問答頻率高?擅長(zhǎng)題型客觀題)=0.07,置信度(問答頻率高,關(guān)聯(lián)掌握好?最終成績(jī)差)=0.08,置信度(平時(shí)成績(jī)差,關(guān)聯(lián)掌握不好?最終成績(jī)好)=0.05。由此得到Ps{問答頻率高?擅長(zhǎng)題型客觀題,問答頻率高,關(guān)聯(lián)掌握好?最終成績(jī)差,平時(shí)成績(jī)差,關(guān)聯(lián)掌握不好?最終成績(jī)好}。

最后利用置信度比較函數(shù)P_Com(Pi,Ps)對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢測(cè),最終結(jié)果如表2所示。

表2 先分類預(yù)測(cè)后關(guān)聯(lián)檢測(cè)情況對(duì)比 (%)

加上關(guān)聯(lián)分析的檢測(cè)后,對(duì)于決策樹分類預(yù)測(cè),雖然100份真正確預(yù)測(cè)率稍有減少,但100份假正確預(yù)測(cè)率大幅度提高了,總體的預(yù)測(cè)正確率也大幅度提高了。

5 結(jié)束語

學(xué)習(xí)者的身份異常檢測(cè)涉及到數(shù)據(jù)挖掘技術(shù)中的分類算法和關(guān)聯(lián)規(guī)則算法。只用分類算法不能消除單一身份驗(yàn)證存在的誤差,加上關(guān)聯(lián)規(guī)則算法的進(jìn)一步檢測(cè)可提高身份驗(yàn)證的準(zhǔn)確性。實(shí)驗(yàn)表明,利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)習(xí)者的行為進(jìn)行挖掘,可以有效發(fā)現(xiàn)其行為模式。采用分類和關(guān)聯(lián)規(guī)則相結(jié)合的預(yù)測(cè)算法,則為準(zhǔn)確判斷用戶身份提供了可能。檢測(cè)過程也有值得商榷的地方,比如是否還需考慮題目難度對(duì)學(xué)習(xí)者身份的影響、使用置信度判別時(shí)閾值的確定等,如何接近100%的身份真實(shí)性判斷還有待進(jìn)一步的研究。

[1] 江林升.實(shí)時(shí)人臉識(shí)別在網(wǎng)絡(luò)化考試身份認(rèn)證中的應(yīng)用[J].中國(guó)電化教育(自然科學(xué)版),2010,37(8):117-120.

[2] Lee Wenke,Stolfo S J,Mok K W.A Data Mining Framework for Building Intrusion Detection Models[A].Proceedings of the 1999 IEEE Symposium on Security and Privacy[C].Berkely California,1999:120 -132.

[3] ZhaoHui Tang,Jamie MacLennan.Data Mining with SQL Server 2005[M].北京:清華大學(xué)出版社,2007:191-205.

[4] 武小年,周勝源.數(shù)據(jù)挖掘在用戶行為可信研究中的應(yīng)用[J].信息安全與通信保密,2009,15(8):243-245.

[5] 李佟鴻,麥永浩.數(shù)據(jù)挖掘在網(wǎng)絡(luò)取證中的應(yīng)用方法研究[J].技術(shù)研究與應(yīng)用,2008,24(8):54-56.

[6] 何典,宋中山.基于Web挖掘的個(gè)性化網(wǎng)絡(luò)教育研究[J].計(jì)算機(jī)與現(xiàn)代化,2005,12(5):100-101.

猜你喜歡
置信度數(shù)據(jù)挖掘關(guān)聯(lián)
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
奇趣搭配
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
基于GPGPU的離散數(shù)據(jù)挖掘研究
富蕴县| 保山市| 沧源| 吴旗县| 水城县| 东至县| 道真| 花垣县| 会宁县| 红安县| 同心县| 甘泉县| 札达县| 精河县| 贡觉县| 海兴县| 新营市| 乐都县| 花莲市| 饶阳县| 曲水县| 尉氏县| 靖州| 乐清市| 务川| 安丘市| 张家川| 永康市| 苏尼特左旗| 正蓝旗| 江达县| 仙居县| 中方县| 阳城县| 普定县| 定结县| 屏边| 黎城县| 漾濞| 双桥区| 塔河县|