牛品菽 徐保民
摘要:現(xiàn)實(shí)世界中的許多系統(tǒng)都以網(wǎng)絡(luò)圖形式存在,并且近年來(lái)圖聚類(lèi)作為一種重要的分析手段已經(jīng)得到越來(lái)越多的關(guān)注。在眾多圖聚類(lèi)算法中,譜圖聚類(lèi)算法以其高效性、易于實(shí)現(xiàn)以及堅(jiān)實(shí)的理論基礎(chǔ)等特性已經(jīng)得到越來(lái)越多的關(guān)注。本文提出一種基于最短路徑的隨機(jī)游走的譜圖聚類(lèi)算法。該算法利用基于最短路徑的局部隨機(jī)游走模型將數(shù)據(jù)點(diǎn)之間的距離轉(zhuǎn)化為隨機(jī)游走的轉(zhuǎn)移概率,通過(guò)隨機(jī)游走的轉(zhuǎn)移概率構(gòu)造相似矩陣,最后利用譜方法得到聚類(lèi)結(jié)果。實(shí)驗(yàn)結(jié)果表明,使用本文所提出的聚類(lèi)方法可以有效提高聚類(lèi)效果。
關(guān)鍵字:隨機(jī)游走;圖聚類(lèi);最短距離;譜聚類(lèi)
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2015)06-
Abstract:There are many systems exiting in the form of network in the real world. And the graph clustering as an important analysis method has gained more and more attention in recent years. The spectral graph clustering algorithm is more popular because of its high efficiency, easy to implement and solid theory foundation. This paper proposes a Graph Clustering Algorithm based on Random Walk Model of the Shortest Path. This algorithm uses the random walk model based on the shortest path to transfer the distance between two data points to the transition probability, and structures the similarity matrix by the transition probability. Then the paper gets the result by using the spectral clustering algorithm. The experimental results show that using the presented clustering method can effectively improve the clustering effect.
Keywords: Random Walk; Graph Clustering; Shortest Distance; Spectral Clustering
0引言
聚類(lèi)是最常用的數(shù)據(jù)分析技術(shù)之一,已經(jīng)被廣泛地應(yīng)用到模式識(shí)別、數(shù)據(jù)挖掘和圖像處理等領(lǐng)域。聚類(lèi)分析是一個(gè)將數(shù)據(jù)樣本劃分為由相似對(duì)象組成的分組的過(guò)程。每一個(gè)組稱(chēng)為一個(gè)簇,每個(gè)簇中的數(shù)據(jù)對(duì)象的相似度大,而不同簇中的對(duì)象相似度小。從機(jī)器學(xué)習(xí)的角度來(lái)看,搜索簇就是一個(gè)無(wú)監(jiān)督學(xué)習(xí)的過(guò)程。大數(shù)據(jù)圖有很多內(nèi)部具有實(shí)際意義的數(shù)據(jù)對(duì)象組成,兩個(gè)數(shù)據(jù)對(duì)象間的相似關(guān)系可以轉(zhuǎn)化成圖模型?,F(xiàn)實(shí)世界中的許多系統(tǒng)都是由網(wǎng)絡(luò)圖形來(lái)進(jìn)行表示的,比如Facebook上的朋友關(guān)系網(wǎng)、生物上的蛋白質(zhì)互質(zhì)網(wǎng)絡(luò)、科學(xué)家合著網(wǎng)絡(luò)以及網(wǎng)頁(yè)之間的超鏈接都是常見(jiàn)的網(wǎng)絡(luò)圖模型。近年來(lái)圖聚類(lèi)作為一種重要的分析手段已經(jīng)得到越來(lái)越多的關(guān)注。圖聚類(lèi)[1]主要是將圖上的節(jié)點(diǎn)劃分為一些子圖,使得這些節(jié)點(diǎn)在類(lèi)內(nèi)具有較強(qiáng)的連接而類(lèi)間的連接則相對(duì)較弱。圖聚類(lèi)不僅有助于可視化和發(fā)現(xiàn)層次結(jié)構(gòu)[2],還具有實(shí)際的意義,比如社區(qū)發(fā)現(xiàn)[3-4]、孤立點(diǎn)檢測(cè)[5]等,此外聚類(lèi)的結(jié)果也可以用來(lái)構(gòu)建模塊,使得在一些算法中可以降低圖或模塊的復(fù)雜度[6-7]。
譜分析方法已經(jīng)成功地運(yùn)用在解決數(shù)據(jù)聚類(lèi)和圖劃分的問(wèn)題方面。譜聚類(lèi)是一種基于圖論的聚類(lèi)分析方法,近幾年,由于譜聚類(lèi)的高效性、易于實(shí)現(xiàn)以及成熟的理論基礎(chǔ)等特性已經(jīng)得到越來(lái)越多的關(guān)注,并被廣泛應(yīng)用在圖像處理、計(jì)算機(jī)視覺(jué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域[8]。其基本思想是通過(guò)對(duì)樣本數(shù)據(jù)的拉普拉斯矩陣的特征向量進(jìn)行聚類(lèi),從而達(dá)到對(duì)樣本數(shù)據(jù)聚類(lèi)的目的。關(guān)于譜聚類(lèi)算法已經(jīng)有很多人做了研究,其中經(jīng)典的算法有Perona和Freeman提出的PF算法[9]、Shi和Malik提出的SM算法[10]、Ng和Jordan等人提出的NJW算法[11]以及Meila提出的MS算法[12]等。譜聚類(lèi)克服了傳統(tǒng)聚類(lèi)方法僅在凸球形狀數(shù)據(jù)集上效果很好和會(huì)陷入局部最優(yōu)解的局限性,其在任意形狀數(shù)據(jù)集的聚類(lèi)效果都比較理想且可以收斂到全局最優(yōu)解。
本文將提出一個(gè)新的高效的基于最短路徑的隨機(jī)游走的圖聚類(lèi)算法(DWSC)。利用基于最短路徑的局部隨機(jī)游走模型將數(shù)據(jù)點(diǎn)之間的距離轉(zhuǎn)化為隨機(jī)游走的轉(zhuǎn)移概率,通過(guò)隨機(jī)游走的轉(zhuǎn)移概率構(gòu)造相似矩陣,最后利用譜方法得到聚類(lèi)結(jié)果。
1相關(guān)工作
1.1譜聚類(lèi)
譜聚類(lèi)算法的思想來(lái)自譜圖劃分理論,譜聚類(lèi)將聚類(lèi)問(wèn)題轉(zhuǎn)化為一個(gè)無(wú)向圖的多路劃分問(wèn)題。譜方法類(lèi)屬一種基于優(yōu)化的聚類(lèi)方法,最早用于解決圖分割的問(wèn)題,譜方法具有堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ),已發(fā)展成一種重要的聚類(lèi)方法。該方法主要利用圖的特征分解和拉普拉斯矩陣進(jìn)行聚類(lèi)的。常見(jiàn)的圖分割準(zhǔn)則有以下幾種。
(1)最小割集準(zhǔn)則(Minimum-Cut)[13]
給定一個(gè)圖G,構(gòu)建其劃分的最簡(jiǎn)單直接的方法是解決最小割問(wèn)題。定義 ,并且 是A的補(bǔ)集。對(duì)于給定的子集數(shù)目k,尋找劃分 的問(wèn)題為最小化目標(biāo)函數(shù):
當(dāng)k=2時(shí),最小割是一種簡(jiǎn)單有效的方法。然而,這種方法并不是總能得到一個(gè)滿(mǎn)意的劃分,因?yàn)楫?dāng)k的取值不為2時(shí),劃分容易發(fā)生傾斜,即使得一個(gè)單獨(dú)的頂點(diǎn)從整個(gè)圖中分離出來(lái)。顯然這不是研究想要的結(jié)果,聚類(lèi)結(jié)果應(yīng)該是由大量點(diǎn)組成的圖。
(2)比例割集準(zhǔn)則(Ratio-Cut)[10]
Hagen和Kahng提出了比利割集準(zhǔn)則,在該準(zhǔn)則中 為第i類(lèi)的節(jié)點(diǎn)個(gè)數(shù),其目標(biāo)函數(shù)為:
比例割集準(zhǔn)則通過(guò)引入類(lèi)中的節(jié)點(diǎn)數(shù)作為類(lèi)平衡的條件,可以避免最小割集引起的劃分傾斜問(wèn)題,但運(yùn)行速度較慢。
(3)規(guī)范割集準(zhǔn)則(Normalized-cut)[14]
Shi和Malik根據(jù)譜圖理論提出了2-way劃分的規(guī)范割集準(zhǔn)則,在該準(zhǔn)則中 為第i類(lèi)中所有頂點(diǎn)的度之和,其目標(biāo)函數(shù)為:
(4)最小最大割集準(zhǔn)則(Min-max-cut)[15]
Ding提出了最小最大割集準(zhǔn)則,該準(zhǔn)則要求在最小化 的同時(shí),最大化 ,其目標(biāo)函數(shù)為:
由于構(gòu)造相似矩陣的構(gòu)造函數(shù)不同,使用的特征向量矩陣不同以及圖劃分準(zhǔn)則不同等因素,譜圖聚類(lèi)算法也存在著差異。由Perona和Freeman提出的PF算法[9],是一種簡(jiǎn)單的譜聚類(lèi)算法。利用相似矩陣中最大特征值所對(duì)應(yīng)的特征向量進(jìn)行聚。對(duì)于塊對(duì)角相似矩陣,特征向量中非零元素對(duì)應(yīng)的點(diǎn)為一類(lèi),零元素對(duì)應(yīng)的點(diǎn)為另一類(lèi)。由Shi和Malik提出的SM算法[10]目標(biāo)函數(shù)定義為:
將x松弛到[-1,1]之間,根據(jù)Rayleigh熵原理,將最小化目標(biāo)函數(shù)的問(wèn)題轉(zhuǎn)化為求解 的第二小特征值問(wèn)題。利用特征值計(jì)算相應(yīng)的Fiedler特征向量,并根據(jù)啟發(fā)式規(guī)則在向量中尋找劃分點(diǎn),使得在該點(diǎn)上得到的Ncut(A,B)值最小,將Fiedler向量中大于該點(diǎn)值的歸為一類(lèi),小于該點(diǎn)值的為另一類(lèi)。SM算法的效率明顯優(yōu)于PF算法。由Scott等人提出的SLH算法[16]對(duì)相似矩陣求其前k個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造特征向量矩陣V。對(duì)V的行向量進(jìn)行規(guī)范化得到 ,若Q(i,j)=1則表示頂點(diǎn)i,j為同一類(lèi)。KVV[17]算法利用比例分割準(zhǔn)則,同SM算法一樣利用Fiedler向量尋找劃分點(diǎn)。該算法可以有效避免算法的過(guò)分傾斜,但是運(yùn)算速度較慢。由于2-way劃分準(zhǔn)則包含特征向量比較少,很容易丟失一些有用的信息,且算法不穩(wěn)定。Ng等人提出一種采用多路劃分準(zhǔn)則的NJW算法[11]。該算法選取拉普拉斯矩陣的前k最大特征值對(duì)應(yīng)的特征向量構(gòu)造特征矩陣,將特征矩陣行向量變換為單位向量。矩陣中每一行看作一個(gè)數(shù)據(jù)點(diǎn)并使用k-means算法或其他簡(jiǎn)單聚類(lèi)算法進(jìn)行聚類(lèi)得到聚類(lèi)結(jié)果。Meila提出了一種基于Markov鏈的隨機(jī)游走的聚類(lèi)算法[12]。該算法利用隨機(jī)游走構(gòu)造相似矩陣,并對(duì)其求前k個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造特征向量矩陣。將矩陣中每一行看作一個(gè)數(shù)據(jù)點(diǎn),在此基礎(chǔ)上使用k-means算法或其他簡(jiǎn)單聚類(lèi)算法進(jìn)行聚類(lèi)得到聚類(lèi)結(jié)果。
1.2基于最短路徑的隨機(jī)游走模型
給定一個(gè)無(wú)環(huán)無(wú)向圖 ,其中 和 分別表示節(jié)點(diǎn)集和邊集。在LRW[18]中,游走者從一個(gè)節(jié)點(diǎn)按照概率 游走到相應(yīng)的任意一個(gè)鄰居節(jié)點(diǎn)。 代表節(jié)點(diǎn)的度。如此可以得到鄰接矩陣即一步轉(zhuǎn)移概率矩陣P。 表示從節(jié)點(diǎn) 到節(jié)點(diǎn) 的概率。如果兩節(jié)點(diǎn)直接相連則 的值是 ,否則為0。同時(shí),研究還給出 階向量 。 表示經(jīng)過(guò) 步節(jié)點(diǎn) 到節(jié)點(diǎn) 的概率。初始轉(zhuǎn)移向量 表示游走者在節(jié)點(diǎn) 的初始概率為1。節(jié)點(diǎn)間轉(zhuǎn)移概率為
假如讓每個(gè)節(jié)點(diǎn)隨機(jī)游走的步數(shù)就是相互之間的最短距離。即沒(méi)有必要讓整個(gè)網(wǎng)絡(luò)采取統(tǒng)一的最優(yōu)步數(shù)。此時(shí)假設(shè) 為經(jīng)過(guò) 步節(jié)點(diǎn) 到節(jié)點(diǎn) 的概率。 為節(jié)點(diǎn) 到節(jié)點(diǎn) 的最終概率。定義 為節(jié)點(diǎn) 和 間的最短距離。顯然,當(dāng) 時(shí), 的值為零,所以節(jié)點(diǎn)間首次接觸的概率為 。用 去近似 就得到
式(8)則為基于最短路徑的局部隨機(jī)游走模型LDRW[19]。其主要特性是將最短路徑引入到隨機(jī)游走中,并引入基于最短路徑的首達(dá)概率概念。
1.3基于隨機(jī)游走的譜聚類(lèi)
圖上的隨機(jī)游走是從一個(gè)頂點(diǎn)跳到另一個(gè)頂點(diǎn)的隨機(jī)過(guò)程,因此譜聚類(lèi)的過(guò)程可以解釋為試圖尋找一個(gè)圖的劃分使得隨機(jī)游走只發(fā)生在類(lèi)內(nèi),而類(lèi)間的游走則相對(duì)較少。Meila提出MS算法[12]用Markov鏈中的隨機(jī)游走來(lái)解釋相似性,通過(guò)計(jì)算轉(zhuǎn)移概率矩陣 的特征向量,以此構(gòu)造向量空間進(jìn)行聚類(lèi)。其主要步驟為:
(1)根據(jù)數(shù)據(jù)集構(gòu)造相似矩陣S和對(duì)角矩陣D;
(2)計(jì)算轉(zhuǎn)移概率矩陣 ;
(3)計(jì)算P的前 個(gè)特征值對(duì)應(yīng)的特征向量 ,并構(gòu)造矩陣U;
(4)將矩陣E中的每一行看做 空間中的一個(gè)數(shù)據(jù)點(diǎn),利用k-means或其他經(jīng)典聚類(lèi)算法對(duì)其進(jìn)行聚類(lèi),得到結(jié)果。
2算法描述
本文提出的基于最短路徑的隨機(jī)游走的圖聚類(lèi)算法(DWSC)通過(guò)節(jié)點(diǎn)間的最短路徑的隨機(jī)游走構(gòu)造相似矩陣,利用相似矩陣構(gòu)造轉(zhuǎn)移概率矩陣并對(duì)其進(jìn)行特征分解,取前k個(gè)特征值對(duì)應(yīng)的特征向量,對(duì)N*K維的特征向量進(jìn)行k-means得到聚類(lèi)結(jié)果。
2.1問(wèn)題定義
本文中,定義無(wú)向圖 ,其中 是頂點(diǎn)集合, 是圖的邊集。相似度矩陣Similarity,其中 。對(duì)角矩陣Diagonal,其中 。概率矩陣Probability,其中 且對(duì)于矩陣Probability的任意i行有 。
2.2實(shí)驗(yàn)步驟
輸入:無(wú)向圖 和聚類(lèi)數(shù)目 ;
(1)計(jì)算圖的頂點(diǎn)間的最短距離,構(gòu)造距離矩陣distance;
(2)利用LWRD算法計(jì)算頂點(diǎn)相似度矩陣Similarity;
(3)計(jì)算對(duì)角矩陣Diagonal;
(4)計(jì)算轉(zhuǎn)移概率矩陣Probability;
(5)對(duì)Probability進(jìn)行特征分解,去前k個(gè)特征值對(duì)應(yīng)的特征向量 ;
(6)構(gòu)造矩陣 ,其中 是 中的第i列;
(7)將Eigen的每一行看做一個(gè)頂點(diǎn) ,對(duì)這n個(gè)點(diǎn) 進(jìn)行k-means聚類(lèi)得到結(jié)果 ;
輸出:聚類(lèi)結(jié)果 。
3結(jié)果與分析
3.1實(shí)驗(yàn)數(shù)據(jù)集
3.1.1 美國(guó)大學(xué)生足球聯(lián)盟網(wǎng)絡(luò)(American College Football)
這個(gè)數(shù)據(jù)集來(lái)自UCI Network Data Repository(M. Girvan and M. E. J. Newman 2002)[20],該網(wǎng)絡(luò)中共有115個(gè)節(jié)點(diǎn),615條邊。網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)表示一支大學(xué)足球隊(duì),每條邊表示兩個(gè)球隊(duì)間進(jìn)行的一場(chǎng)比賽。根據(jù)地理位置,全部的足球隊(duì)組成了12個(gè)聯(lián)盟,因此也用這12個(gè)聯(lián)盟來(lái)作為算法劃分的結(jié)果,如圖1所示。
3.1.2 美國(guó)政治書(shū)籍網(wǎng)絡(luò)(Books about US Politics)
這個(gè)數(shù)據(jù)集來(lái)自UCI Network Data Repository(Adamic and Glance 2005)[21],該網(wǎng)絡(luò)包含105個(gè)節(jié)點(diǎn),441條邊。每個(gè)節(jié)點(diǎn)代表一本書(shū)籍,每條邊代表兩本書(shū)同時(shí)被一個(gè)購(gòu)買(mǎi)者所購(gòu)買(mǎi)。全本書(shū)籍總共被分為3類(lèi),如圖2所示。
3.2實(shí)驗(yàn)結(jié)果
3.2.1 對(duì)比實(shí)驗(yàn)及評(píng)價(jià)標(biāo)準(zhǔn)
本文采用k-means算法和MS算法作為對(duì)比實(shí)驗(yàn),評(píng)價(jià)標(biāo)準(zhǔn)分別有模塊性(Modularity)[22],Normalized Mutual Information(NMI)[23],Rand Index。其中NMI和Rand Index指標(biāo)都是與正確性相關(guān)的評(píng)價(jià)指標(biāo),并且都是對(duì)兩個(gè)數(shù)據(jù)集相似性作對(duì)比,這里即是將聚類(lèi)后的結(jié)果與數(shù)據(jù)集真實(shí)的label做對(duì)比。模塊性也是評(píng)價(jià)聚類(lèi)好壞常用的一個(gè)指標(biāo),一個(gè)好的聚類(lèi)結(jié)果應(yīng)該具有較大的聚類(lèi)內(nèi)邊數(shù)和較小的聚類(lèi)間邊數(shù)。
3.2.2 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果分別如表1和表2所示。由表1和表2可以看出,本文所提出的DWSC算法大大提高了聚類(lèi)的正確性。
4結(jié)束語(yǔ)
本文提出了一個(gè)新的基于最短路徑的隨機(jī)游走的圖聚類(lèi)算法,可以很好地應(yīng)用于圖聚類(lèi)的領(lǐng)域。該算法主要利用最短路徑的隨機(jī)游走構(gòu)造相似矩陣,基于譜圖理論,利用特征向量進(jìn)行聚類(lèi)得到結(jié)果。最后利用k-means算法和MS算法進(jìn)行校驗(yàn),實(shí)驗(yàn)表明,通過(guò)最短路徑的隨機(jī)游走可以更好地發(fā)現(xiàn)網(wǎng)絡(luò)圖中的相似性并有利于發(fā)現(xiàn)聚類(lèi),同時(shí)可以提高聚類(lèi)的準(zhǔn)確性。
參考文獻(xiàn):
[1] SCHAEFFER S E. Graph clustering[J]. Computer Science Review, 2007, 1(1):27–64.
[2]HERMAN I, MELANCON G, MARSHALL M S. Graph visualization and navigation in information visualization: A survey[J]. Visualization & Computer Graphics IEEE Transactions on, 2000, 6(1):24-43.
[3] FORTUNATO S. Community detection in graphs[J]. Physics Reports, 2009, 486(3-5):75-174.
[4] WHITE S, SMYTH P. A spectral clustering approach to finding communities in graph[C]// Siam International Conference on Data Mining,Newport Beach, CA, USA: .[s.n.],2005:76-84.
[5] GUPTA M, GAO J, SUN Y, et al. Integrating community matching and outlier detection for mining evolutionary community outliers[J]. Kdd, 2012:859--867.
[6] SONG Y, ZHUANG Z, LI H, et al. Real-time automatic tag recommendation[C]// Proc. of the 31st Annual Int. ACM SIGIR Conf. on Research and Development in Information Retrieval (SIGIR), New York, NY, USA: ACM,2008:515–522.
[7] DALVI B B, KSHIRSAGAR M, SUDARSHAN S. Keyword search on external memory data graphs.[J]. Keyword search on external memory data graphs. - ResearchGate, 2008, 1(1):1189-1204.
[8] LUXBURG U V. A tutorial on spectral clustering[J]. Statistics & Computing, 2007, 17(4):395-416.
[9]Perona P, Freeman W. A factorization approach to grouping[M]//
H Burkhardt,B Neumann. Computer Vision — ECCV'98.Berlin Heidelberg: Springer, 1998:655-670.
[10] SHI J, MALIK J. Normalized cuts and image segmentation[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2000, 22(8):888-905.
[11] NG A Y, JORDAN M I, WEISS Y. On spectral clustering: Analysis and an algorithm[J]. Advances in Neural Information Processing Systems, 2002, 14:849-856.
[12] MEILA M, SHI J. Learning segmentation by random walks[C]. NIPS, Den,Co,USA:MIT Press,2000:873-879.
[13]WU Z, LEAHY R. An optimal graph theoretic approach to data clustering: theory and its application to image segmentation [J]. IEEE Transactions on PAMI,1993,15(11):1101-1113.
[14] WANG S, SISKIND J M. Image segmentation with ratio cut [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003,25(6):675-690.
[15] DING C H Q, HE X, ZHA H, et al. A Min-max Cut Algorithm for Graph Partitioning and Data Clustering[C]// 2013 IEEE 13th International Conference on Data Mining. Dallas, TX, USA: IEEE Computer Society, 2001:107.
[16] SCOTT G L, LONGUET H C. Feature grouping by "relocalisation " of eigenvectors of the proximity matrix[C]// Proceedings of the British Machine Vision Conference, Oxford UK:BMVA Press, 1990:103--108.
[17] KANNAN R, VEMPALA S, VETA A. On clusterings-good, bad and spectral[C]// 2013 IEEE 54th Annual Symposium on Foundations of Computer Science, [s.l.]: IEEE Computer Society, 2000:367-367.
[18] LüLinyuan , ZHOU A T. Link prediction in weighted networks: The role of weak ties[J]. Epl, 2010, 89(1):18001.
[19] BAOMIN XU, TINGLIN XIN, YUNFENG WANG, et al. Local Random Walk with Distance Measure[J]. Modern Physics Letters B, 2013, 27(8):269-275.
[20] GIRVAN M, NEWMAN ME J. Community structure in social and biological networks[J]. ProcNatl. Acad. Sci. USA 99, 2002, 99(12):7821-7826.
[21]ADAMIC L A, GLANCE N. The political blogosphere and the 2004 U.S. Election: Divided They Blog[C]// Proceedings of the 3rd international workshop on Link discovery,New York, NY, USA: ACM, 2005:36--43.
[22]NEWMAN M E, GIRVAN M. Finding and evaluating community structure in networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2004, 69(2Pt2):026113-026113.
[23]RAND W M. Objective criteria for the evaluation of clustering methods[J]. Journal of the American Statistical Association, 1971, 66(336):846-850.