国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

細說馬氏距離

2013-04-29 16:26:50祝青芳華劍
考試周刊 2013年97期
關(guān)鍵詞:聚類分析

祝青芳 華劍

摘 要: 在聚類分析中,關(guān)鍵一步就是要選擇測量距離,馬氏距離是非常重要的測量樣本點與總體或樣本點之間距離的工具,但大多數(shù)多元統(tǒng)計分析教材中并不對馬氏距離做詳細的講解,這讓初學(xué)聚類分析的學(xué)生深感不便,不能體會馬氏距離的重要性。本文的目的就是以盡可能淺顯易懂的語言闡述馬氏距離的意義,幫助大家搬開學(xué)習(xí)路上的絆腳石。

關(guān)鍵詞: 馬氏距離 協(xié)方差矩陣 聚類分析

多元統(tǒng)計分析處理的是如下多維的樣本數(shù)據(jù):

在聚類分析中,需要計算樣本點與數(shù)據(jù)重心之間的距離,然后根據(jù)距離的遠近對不同樣本進行分類。歐氏距離是大家比較熟悉的距離度量工具,如果用歐氏距離來度量樣本點到數(shù)據(jù)重心的距離雖然簡單,但存在一些不足之處。它沒有考慮到總體變異對“距離”的影響,在變異程度不同的維上,雖然歐氏距離相同,但是變異程度大的維上的樣本點距數(shù)據(jù)重心的距離直觀上比變異程度小的維上的樣本點距數(shù)據(jù)重心的距離要小一些。另外,歐氏距離受變量量綱影響,這對多元數(shù)據(jù)的處理是不利的。對于第一個方面,我們可以借助下圖獲得更直觀的感知。

如果在X軸與Y軸上選取兩點P1、P2,并使這兩點距數(shù)據(jù)重心(此例的數(shù)據(jù)重心為原點)的歐氏距離相同,但P2點在Y軸上相對原點有較大的變異,而P1點在X軸上相對原點有較小的變異,所以P1點距原點的直觀距離比P2點的小。

為了彌補以上提到的歐氏距離的兩點不足,印度統(tǒng)計學(xué)家馬哈拉諾比斯給出了新的距離定義,即“馬氏距離”(Mahalanobis Distance)。馬哈拉諾比斯提出”馬氏距離“的基本思路是先將不同維上的數(shù)據(jù)方差統(tǒng)一,此時,如果不同維度上的點到原點的歐氏距離相同,則它們也擁有相同的直觀距離。如下圖:

以上思路更直觀的說法是將不同維上的數(shù)據(jù)進行壓縮,使得各維上的方差保持一致。這種壓縮的最簡單做法是每一個維上的數(shù)據(jù)除以該維的標(biāo)準(zhǔn)差,那么每一個維上的方差就是1。但是,如果不同維之間相關(guān),即協(xié)方差矩陣不為對角陣,這種簡單的壓縮很不理想。如下圖:

猜你喜歡
聚類分析
基于譜聚類算法的音頻聚類研究
基于Weka的江蘇13個地級市溫度聚類分析
我國中部地區(qū)農(nóng)村居民消費行為階段特征分析
基于多元統(tǒng)計方法的高??蒲袪顩r評價分析
價值工程(2016年31期)2016-12-03 22:21:20
基于聚類分析的無須人工干預(yù)的中文碎紙片自動拼接
淺析聚類分析在郫縣煙草卷煙營銷方面的應(yīng)用
基于聚類分析研究貴州省各地區(qū)經(jīng)濟發(fā)展綜合評價
商情(2016年39期)2016-11-21 08:45:54
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費支出分析
基于省會城市經(jīng)濟發(fā)展程度的實證分析
中國市場(2016年33期)2016-10-18 12:16:58
临海市| 洞头县| 拉萨市| 塘沽区| 科尔| 麻江县| 开封县| 二连浩特市| 绥芬河市| 长阳| 普安县| 高清| 大庆市| 都兰县| 闸北区| 聊城市| 揭东县| 兴隆县| 大安市| 济阳县| 伊川县| 蒲江县| 小金县| 垫江县| 普定县| 茌平县| 土默特左旗| 建昌县| 彭阳县| 泸溪县| 郯城县| 双江| 井研县| 嘉荫县| 黄平县| 双辽市| 卫辉市| 紫阳县| 镇沅| 外汇| 阿瓦提县|