国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)的特異數(shù)據(jù)挖掘方法

2015-06-10 00:17尚珍艷
關(guān)鍵詞:聚類分析

尚珍艷

摘要:特異數(shù)據(jù)挖掘的方法很多,但每種方法都有它的局限性,線性回歸模型又是現(xiàn)實(shí)中應(yīng)用較廣泛的一種,因此本文提出了基于統(tǒng)計(jì)的數(shù)值和屬性特異數(shù)據(jù)挖掘方法,不僅大大的提高了傳統(tǒng)的挖掘方法的效率,還可以通過(guò)屬性分析特異數(shù)據(jù)出現(xiàn)的原因。

關(guān)鍵詞:特異數(shù)據(jù)挖掘;線性回歸模型;聚類分析

【中圖分類號(hào)】TP311

1 引言

特異數(shù)據(jù)是指在數(shù)據(jù)庫(kù)中出現(xiàn)次數(shù)較少或跟其他數(shù)據(jù)之間的距離較遠(yuǎn)的一類數(shù)據(jù)[1]。它們中往往蘊(yùn)含著重要的信息,因此如何更好的挖掘出這些數(shù)據(jù)并分析出現(xiàn)的原因,對(duì)人們從全局出發(fā)制定相關(guān)管理決策有至關(guān)重要的作用。而基于統(tǒng)計(jì)的挖掘方法是最早的[1],但傳統(tǒng)的方法需先假定數(shù)據(jù)集服從一個(gè)隨機(jī)分布模型,但當(dāng)數(shù)據(jù)的分布未知或者不符合標(biāo)準(zhǔn)的分布時(shí),這些方法就失效了。

在統(tǒng)計(jì)中,線性模型是最基本的模型,雖在現(xiàn)實(shí)中許多變量之間的關(guān)系是非線性的,但經(jīng)過(guò)適當(dāng)?shù)淖儞Q后仍可以達(dá)到近似的線性關(guān)系,鑒于此,主要研究基于線性回歸模型下的特異數(shù)據(jù)挖掘算法。

2 特異數(shù)據(jù)挖掘方法

2.1 多元線性回歸模型[2]

隨機(jī)變量 與其影響因素 之間的多元線性回歸模型用矩陣表示為 ,其中

, , ,

回歸模型擬合程度的好壞取決于參數(shù)向量 的估計(jì)值,而尋找參數(shù)向量 的估計(jì)值,常用最小二乘估計(jì)法,得到回歸參數(shù)的估計(jì)為 。

2.2 基于聚類的數(shù)值特異數(shù)據(jù)挖掘方法

當(dāng)回歸模型擬合度較高時(shí),可用因素的取值作為隨機(jī)變量的屬性值,且在沒有異常數(shù)據(jù)干擾時(shí),它們的效果是一致的,故如果兩組數(shù)值的分析結(jié)果不一致,則必存在特異現(xiàn)象。

聚類分析的主要目標(biāo)是發(fā)現(xiàn)簇,而簇又可看作是特異數(shù)據(jù)(離群點(diǎn))的補(bǔ),故它可同時(shí)發(fā)現(xiàn)簇和特異數(shù)據(jù)。但不同的方法會(huì)得到不同的簇,因此傳統(tǒng)的基于聚類的特異數(shù)據(jù)挖掘算法依賴于所有簇的個(gè)數(shù)和數(shù)據(jù)中特異數(shù)據(jù)的存在性。鑒于此,提出一種新的基于聚類的特異數(shù)據(jù)挖掘算法。

算法的實(shí)現(xiàn)過(guò)程如圖1:

2.3 屬性特異數(shù)據(jù)挖掘方法

基于聚類的數(shù)值特異數(shù)據(jù)挖掘方法對(duì)于特異數(shù)據(jù)出現(xiàn)的原因未能解釋,需要進(jìn)一步的通過(guò)屬性特異挖掘去解釋。

對(duì)于屬性異常挖掘,主要通過(guò)高杠桿點(diǎn)集、擬合異常點(diǎn)和強(qiáng)影響點(diǎn)集三個(gè)角度挖掘,如圖2中的A、B、C點(diǎn)分別為高杠桿點(diǎn)、擬合異常點(diǎn)和強(qiáng)影響點(diǎn)[3]。

2.3.1 高杠桿點(diǎn)集的挖掘方法

2.3.2 擬合異常點(diǎn)集的挖掘方法

不與其余數(shù)據(jù)相適應(yīng)的點(diǎn)稱為擬合異常點(diǎn)。經(jīng)驗(yàn)證,學(xué)生化殘差 服從自由度為 的 分布,故當(dāng) 時(shí)的點(diǎn)為擬合異常點(diǎn)。

2.3.3 強(qiáng)影響點(diǎn)集的挖掘方法

對(duì)回歸模型的參數(shù)估計(jì)值有較大影響的點(diǎn)稱為強(qiáng)影響點(diǎn),經(jīng)驗(yàn)證,設(shè)第i個(gè)數(shù)據(jù)點(diǎn)的庫(kù)克距離 ,故當(dāng) 時(shí)的點(diǎn)為強(qiáng)影響點(diǎn)。其中

總之,屬性特異數(shù)據(jù)挖掘方法的實(shí)現(xiàn)過(guò)程如圖3:

3小結(jié)

線性回歸模型在分析數(shù)據(jù),尋找變量關(guān)系的應(yīng)用中很廣泛,具有廣闊的應(yīng)用前景,本文提出的基于統(tǒng)計(jì)的特異數(shù)據(jù)挖掘方法大大的提高了傳統(tǒng)的挖掘方法的效率,但它是在無(wú)偏估計(jì)的基礎(chǔ)上進(jìn)行研究的,因此今后可在有偏估計(jì)的基礎(chǔ)上進(jìn)一步研究。

參考文獻(xiàn)

[1] Pang-Ning Tan Michael Steinbach Vipin Kumar著.范明 范宏建等譯.數(shù)據(jù)挖掘?qū)д揫M].人民郵電出版社,2007

[2] S.韋斯伯格著(Weisberg,S.),王靜龍等譯.應(yīng)用線性回歸[M].北京:中國(guó)統(tǒng)計(jì)出版社,1998.3

[3] 孫廣山.線性回歸模型影響分析及異常點(diǎn)的統(tǒng)計(jì)診斷[D].東北林業(yè)大學(xué),2011

[4] 趙進(jìn)文.復(fù)雜數(shù)據(jù)下經(jīng)濟(jì)建模與診斷研究[M].科學(xué)出版社,2004

猜你喜歡
聚類分析
基于譜聚類算法的音頻聚類研究
基于Weka的江蘇13個(gè)地級(jí)市溫度聚類分析
我國(guó)中部地區(qū)農(nóng)村居民消費(fèi)行為階段特征分析
基于聚類分析的無(wú)須人工干預(yù)的中文碎紙片自動(dòng)拼接
淺析聚類分析在郫縣煙草卷煙營(yíng)銷方面的應(yīng)用
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費(fèi)支出分析
基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
“縣級(jí)供電企業(yè)生產(chǎn)經(jīng)營(yíng)統(tǒng)計(jì)一套”表輔助決策模式研究