祝青芳 華劍
摘 要: 在聚類分析中,關(guān)鍵一步就是要選擇測量距離,馬氏距離是非常重要的測量樣本點與總體或樣本點之間距離的工具,但大多數(shù)多元統(tǒng)計分析教材中并不對馬氏距離做詳細的講解,這讓初學(xué)聚類分析的學(xué)生深感不便,不能體會馬氏距離的重要性。本文的目的就是以盡可能淺顯易懂的語言闡述馬氏距離的意義,幫助大家搬開學(xué)習(xí)路上的絆腳石。
關(guān)鍵詞: 馬氏距離 協(xié)方差矩陣 聚類分析
多元統(tǒng)計分析處理的是如下多維的樣本數(shù)據(jù):
在聚類分析中,需要計算樣本點與數(shù)據(jù)重心之間的距離,然后根據(jù)距離的遠近對不同樣本進行分類。歐氏距離是大家比較熟悉的距離度量工具,如果用歐氏距離來度量樣本點到數(shù)據(jù)重心的距離雖然簡單,但存在一些不足之處。它沒有考慮到總體變異對“距離”的影響,在變異程度不同的維上,雖然歐氏距離相同,但是變異程度大的維上的樣本點距數(shù)據(jù)重心的距離直觀上比變異程度小的維上的樣本點距數(shù)據(jù)重心的距離要小一些。另外,歐氏距離受變量量綱影響,這對多元數(shù)據(jù)的處理是不利的。對于第一個方面,我們可以借助下圖獲得更直觀的感知。
如果在X軸與Y軸上選取兩點P1、P2,并使這兩點距數(shù)據(jù)重心(此例的數(shù)據(jù)重心為原點)的歐氏距離相同,但P2點在Y軸上相對原點有較大的變異,而P1點在X軸上相對原點有較小的變異,所以P1點距原點的直觀距離比P2點的小。
為了彌補以上提到的歐氏距離的兩點不足,印度統(tǒng)計學(xué)家馬哈拉諾比斯給出了新的距離定義,即“馬氏距離”(Mahalanobis Distance)。馬哈拉諾比斯提出”馬氏距離“的基本思路是先將不同維上的數(shù)據(jù)方差統(tǒng)一,此時,如果不同維度上的點到原點的歐氏距離相同,則它們也擁有相同的直觀距離。如下圖:
以上思路更直觀的說法是將不同維上的數(shù)據(jù)進行壓縮,使得各維上的方差保持一致。這種壓縮的最簡單做法是每一個維上的數(shù)據(jù)除以該維的標(biāo)準(zhǔn)差,那么每一個維上的方差就是1。但是,如果不同維之間相關(guān),即協(xié)方差矩陣不為對角陣,這種簡單的壓縮很不理想。如下圖: