尚珍艷
摘要:特異數(shù)據(jù)挖掘的方法很多,但每種方法都有它的局限性,線性回歸模型又是現(xiàn)實(shí)中應(yīng)用較廣泛的一種,因此本文提出了基于統(tǒng)計(jì)的數(shù)值和屬性特異數(shù)據(jù)挖掘方法,不僅大大的提高了傳統(tǒng)的挖掘方法的效率,還可以通過(guò)屬性分析特異數(shù)據(jù)出現(xiàn)的原因。
關(guān)鍵詞:特異數(shù)據(jù)挖掘;線性回歸模型;聚類分析
【中圖分類號(hào)】TP311
1 引言
特異數(shù)據(jù)是指在數(shù)據(jù)庫(kù)中出現(xiàn)次數(shù)較少或跟其他數(shù)據(jù)之間的距離較遠(yuǎn)的一類數(shù)據(jù)[1]。它們中往往蘊(yùn)含著重要的信息,因此如何更好的挖掘出這些數(shù)據(jù)并分析出現(xiàn)的原因,對(duì)人們從全局出發(fā)制定相關(guān)管理決策有至關(guān)重要的作用。而基于統(tǒng)計(jì)的挖掘方法是最早的[1],但傳統(tǒng)的方法需先假定數(shù)據(jù)集服從一個(gè)隨機(jī)分布模型,但當(dāng)數(shù)據(jù)的分布未知或者不符合標(biāo)準(zhǔn)的分布時(shí),這些方法就失效了。
在統(tǒng)計(jì)中,線性模型是最基本的模型,雖在現(xiàn)實(shí)中許多變量之間的關(guān)系是非線性的,但經(jīng)過(guò)適當(dāng)?shù)淖儞Q后仍可以達(dá)到近似的線性關(guān)系,鑒于此,主要研究基于線性回歸模型下的特異數(shù)據(jù)挖掘算法。
2 特異數(shù)據(jù)挖掘方法
2.1 多元線性回歸模型[2]
隨機(jī)變量 與其影響因素 之間的多元線性回歸模型用矩陣表示為 ,其中
, , ,
回歸模型擬合程度的好壞取決于參數(shù)向量 的估計(jì)值,而尋找參數(shù)向量 的估計(jì)值,常用最小二乘估計(jì)法,得到回歸參數(shù)的估計(jì)為 。
2.2 基于聚類的數(shù)值特異數(shù)據(jù)挖掘方法
當(dāng)回歸模型擬合度較高時(shí),可用因素的取值作為隨機(jī)變量的屬性值,且在沒有異常數(shù)據(jù)干擾時(shí),它們的效果是一致的,故如果兩組數(shù)值的分析結(jié)果不一致,則必存在特異現(xiàn)象。
聚類分析的主要目標(biāo)是發(fā)現(xiàn)簇,而簇又可看作是特異數(shù)據(jù)(離群點(diǎn))的補(bǔ),故它可同時(shí)發(fā)現(xiàn)簇和特異數(shù)據(jù)。但不同的方法會(huì)得到不同的簇,因此傳統(tǒng)的基于聚類的特異數(shù)據(jù)挖掘算法依賴于所有簇的個(gè)數(shù)和數(shù)據(jù)中特異數(shù)據(jù)的存在性。鑒于此,提出一種新的基于聚類的特異數(shù)據(jù)挖掘算法。
算法的實(shí)現(xiàn)過(guò)程如圖1:
2.3 屬性特異數(shù)據(jù)挖掘方法
基于聚類的數(shù)值特異數(shù)據(jù)挖掘方法對(duì)于特異數(shù)據(jù)出現(xiàn)的原因未能解釋,需要進(jìn)一步的通過(guò)屬性特異挖掘去解釋。
對(duì)于屬性異常挖掘,主要通過(guò)高杠桿點(diǎn)集、擬合異常點(diǎn)和強(qiáng)影響點(diǎn)集三個(gè)角度挖掘,如圖2中的A、B、C點(diǎn)分別為高杠桿點(diǎn)、擬合異常點(diǎn)和強(qiáng)影響點(diǎn)[3]。
2.3.1 高杠桿點(diǎn)集的挖掘方法
2.3.2 擬合異常點(diǎn)集的挖掘方法
不與其余數(shù)據(jù)相適應(yīng)的點(diǎn)稱為擬合異常點(diǎn)。經(jīng)驗(yàn)證,學(xué)生化殘差 服從自由度為 的 分布,故當(dāng) 時(shí)的點(diǎn)為擬合異常點(diǎn)。
2.3.3 強(qiáng)影響點(diǎn)集的挖掘方法
對(duì)回歸模型的參數(shù)估計(jì)值有較大影響的點(diǎn)稱為強(qiáng)影響點(diǎn),經(jīng)驗(yàn)證,設(shè)第i個(gè)數(shù)據(jù)點(diǎn)的庫(kù)克距離 ,故當(dāng) 時(shí)的點(diǎn)為強(qiáng)影響點(diǎn)。其中
總之,屬性特異數(shù)據(jù)挖掘方法的實(shí)現(xiàn)過(guò)程如圖3:
3小結(jié)
線性回歸模型在分析數(shù)據(jù),尋找變量關(guān)系的應(yīng)用中很廣泛,具有廣闊的應(yīng)用前景,本文提出的基于統(tǒng)計(jì)的特異數(shù)據(jù)挖掘方法大大的提高了傳統(tǒng)的挖掘方法的效率,但它是在無(wú)偏估計(jì)的基礎(chǔ)上進(jìn)行研究的,因此今后可在有偏估計(jì)的基礎(chǔ)上進(jìn)一步研究。
參考文獻(xiàn)
[1] Pang-Ning Tan Michael Steinbach Vipin Kumar著.范明 范宏建等譯.數(shù)據(jù)挖掘?qū)д揫M].人民郵電出版社,2007
[2] S.韋斯伯格著(Weisberg,S.),王靜龍等譯.應(yīng)用線性回歸[M].北京:中國(guó)統(tǒng)計(jì)出版社,1998.3
[3] 孫廣山.線性回歸模型影響分析及異常點(diǎn)的統(tǒng)計(jì)診斷[D].東北林業(yè)大學(xué),2011
[4] 趙進(jìn)文.復(fù)雜數(shù)據(jù)下經(jīng)濟(jì)建模與診斷研究[M].科學(xué)出版社,2004