基于統(tǒng)計(jì)的特異數(shù)據(jù)挖掘方法

2015-06-10 00:17尚珍艷

課程教育研究·學(xué)法教法研究 2015年10期

關(guān)鍵詞：聚類分析

尚珍艷

摘要：特異數(shù)據(jù)挖掘的方法很多，但每種方法都有它的局限性，線性回歸模型又是現(xiàn)實(shí)中應(yīng)用較廣泛的一種，因此本文提出了基于統(tǒng)計(jì)的數(shù)值和屬性特異數(shù)據(jù)挖掘方法，不僅大大的提高了傳統(tǒng)的挖掘方法的效率，還可以通過(guò)屬性分析特異數(shù)據(jù)出現(xiàn)的原因。

關(guān)鍵詞：特異數(shù)據(jù)挖掘；線性回歸模型；聚類分析

【中圖分類號(hào)】TP311

1 引言

特異數(shù)據(jù)是指在數(shù)據(jù)庫(kù)中出現(xiàn)次數(shù)較少或跟其他數(shù)據(jù)之間的距離較遠(yuǎn)的一類數(shù)據(jù)[1]。它們中往往蘊(yùn)含著重要的信息，因此如何更好的挖掘出這些數(shù)據(jù)并分析出現(xiàn)的原因，對(duì)人們從全局出發(fā)制定相關(guān)管理決策有至關(guān)重要的作用。而基于統(tǒng)計(jì)的挖掘方法是最早的[1]，但傳統(tǒng)的方法需先假定數(shù)據(jù)集服從一個(gè)隨機(jī)分布模型，但當(dāng)數(shù)據(jù)的分布未知或者不符合標(biāo)準(zhǔn)的分布時(shí)，這些方法就失效了。

在統(tǒng)計(jì)中，線性模型是最基本的模型，雖在現(xiàn)實(shí)中許多變量之間的關(guān)系是非線性的，但經(jīng)過(guò)適當(dāng)?shù)淖儞Q后仍可以達(dá)到近似的線性關(guān)系，鑒于此，主要研究基于線性回歸模型下的特異數(shù)據(jù)挖掘算法。

2 特異數(shù)據(jù)挖掘方法

2.1 多元線性回歸模型[2]

隨機(jī)變量與其影響因素之間的多元線性回歸模型用矩陣表示為，其中

，，，

回歸模型擬合程度的好壞取決于參數(shù)向量的估計(jì)值，而尋找參數(shù)向量的估計(jì)值，常用最小二乘估計(jì)法，得到回歸參數(shù)的估計(jì)為。

2.2 基于聚類的數(shù)值特異數(shù)據(jù)挖掘方法

當(dāng)回歸模型擬合度較高時(shí)，可用因素的取值作為隨機(jī)變量的屬性值，且在沒有異常數(shù)據(jù)干擾時(shí)，它們的效果是一致的，故如果兩組數(shù)值的分析結(jié)果不一致，則必存在特異現(xiàn)象。

聚類分析的主要目標(biāo)是發(fā)現(xiàn)簇，而簇又可看作是特異數(shù)據(jù)（離群點(diǎn)）的補(bǔ)，故它可同時(shí)發(fā)現(xiàn)簇和特異數(shù)據(jù)。但不同的方法會(huì)得到不同的簇，因此傳統(tǒng)的基于聚類的特異數(shù)據(jù)挖掘算法依賴于所有簇的個(gè)數(shù)和數(shù)據(jù)中特異數(shù)據(jù)的存在性。鑒于此，提出一種新的基于聚類的特異數(shù)據(jù)挖掘算法。

算法的實(shí)現(xiàn)過(guò)程如圖1：

2.3 屬性特異數(shù)據(jù)挖掘方法

基于聚類的數(shù)值特異數(shù)據(jù)挖掘方法對(duì)于特異數(shù)據(jù)出現(xiàn)的原因未能解釋，需要進(jìn)一步的通過(guò)屬性特異挖掘去解釋。

對(duì)于屬性異常挖掘，主要通過(guò)高杠桿點(diǎn)集、擬合異常點(diǎn)和強(qiáng)影響點(diǎn)集三個(gè)角度挖掘，如圖2中的A、B、C點(diǎn)分別為高杠桿點(diǎn)、擬合異常點(diǎn)和強(qiáng)影響點(diǎn)[3]。

2.3.1 高杠桿點(diǎn)集的挖掘方法

2.3.2 擬合異常點(diǎn)集的挖掘方法

不與其余數(shù)據(jù)相適應(yīng)的點(diǎn)稱為擬合異常點(diǎn)。經(jīng)驗(yàn)證，學(xué)生化殘差服從自由度為的分布，故當(dāng) 時(shí)的點(diǎn)為擬合異常點(diǎn)。

2.3.3 強(qiáng)影響點(diǎn)集的挖掘方法

對(duì)回歸模型的參數(shù)估計(jì)值有較大影響的點(diǎn)稱為強(qiáng)影響點(diǎn)，經(jīng)驗(yàn)證，設(shè)第i個(gè)數(shù)據(jù)點(diǎn)的庫(kù)克距離，故當(dāng) 時(shí)的點(diǎn)為強(qiáng)影響點(diǎn)。其中

總之，屬性特異數(shù)據(jù)挖掘方法的實(shí)現(xiàn)過(guò)程如圖3：

3小結(jié)

線性回歸模型在分析數(shù)據(jù)，尋找變量關(guān)系的應(yīng)用中很廣泛，具有廣闊的應(yīng)用前景，本文提出的基于統(tǒng)計(jì)的特異數(shù)據(jù)挖掘方法大大的提高了傳統(tǒng)的挖掘方法的效率，但它是在無(wú)偏估計(jì)的基礎(chǔ)上進(jìn)行研究的，因此今后可在有偏估計(jì)的基礎(chǔ)上進(jìn)一步研究。

參考文獻(xiàn)

[1] Pang-Ning Tan Michael Steinbach Vipin Kumar著.范明范宏建等譯.數(shù)據(jù)挖掘?qū)д揫M].人民郵電出版社，2007

[2] S.韋斯伯格著（Weisberg，S.），王靜龍等譯.應(yīng)用線性回歸[M].北京：中國(guó)統(tǒng)計(jì)出版社，1998.3

[3] 孫廣山.線性回歸模型影響分析及異常點(diǎn)的統(tǒng)計(jì)診斷[D].東北林業(yè)大學(xué)，2011

[4] 趙進(jìn)文.復(fù)雜數(shù)據(jù)下經(jīng)濟(jì)建模與診斷研究[M].科學(xué)出版社，2004

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于統(tǒng)計(jì)的特異數(shù)據(jù)挖掘方法