国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

經(jīng)典相關(guān)系數(shù)及統(tǒng)計(jì)功效對(duì)比研究

2022-01-20 11:03:24邵福波
關(guān)鍵詞:單調(diào)功效網(wǎng)格

劉 輝,邵福波,宮 響*

(1.青島科技大學(xué) 數(shù)理學(xué)院,山東 青島 266061;2.北京交通大學(xué) 軌道交通控制與安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100044;3.中車工業(yè)研究院有限公司 技術(shù)部,北京 100070)

隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的迅猛發(fā)展,信息技術(shù)與人類世界的各個(gè)方面相互交融,大數(shù)據(jù)時(shí)代應(yīng)運(yùn)而生。人類的數(shù)據(jù)采集能力不斷提升,數(shù)據(jù)量每年增長(zhǎng)約50%,呈爆炸式增長(zhǎng),對(duì)數(shù)據(jù)進(jìn)行有效地分析與挖掘,將推動(dòng)國(guó)家、企業(yè)乃至整個(gè)社會(huì)的高效、可持續(xù)發(fā)展[1]。大數(shù)據(jù)時(shí)代的一個(gè)重要的特點(diǎn)是數(shù)據(jù)量大、數(shù)據(jù)維數(shù)高,如何從海量的、高維的數(shù)據(jù)中快速發(fā)掘數(shù)據(jù)的相關(guān)關(guān)系是一個(gè)重要問題[2]。

數(shù)據(jù)間的關(guān)系可分為:確定性關(guān)系,即把特征或者屬性用變量表示,變量之間存在一一對(duì)應(yīng)的映射關(guān)系,該類關(guān)系為函數(shù)關(guān)系;不確定性關(guān)系,即一個(gè)變量取一定值時(shí),另一個(gè)變量由于受到隨機(jī)因素的影響,對(duì)應(yīng)的值可能是幾個(gè),并且都是以不同的概率出現(xiàn),該類關(guān)系為相關(guān)關(guān)系。現(xiàn)實(shí)生活中,變量之間的相關(guān)關(guān)系往往是非線性的,相關(guān)程度各有差異,如何度量這樣關(guān)系的強(qiáng)弱是人們關(guān)注的問題。

相關(guān)系數(shù)是衡量變量間相關(guān)關(guān)系強(qiáng)弱的重要指標(biāo)。這里的相關(guān)系數(shù)是總稱,不按統(tǒng)計(jì)指標(biāo)的名稱區(qū)分線性、非線性及復(fù)相關(guān)系數(shù)等,文中提到的具體相關(guān)系數(shù)均采用特定名稱。1888年,GALTON從人類遺傳學(xué)中提出了“相關(guān)”的概念;1920年,PEARSON提出了沿用至今的Pearson相關(guān)系數(shù)[3]。至2000年前,相關(guān)系數(shù)研究進(jìn)展較慢,主要適用于衡量?jī)蓚€(gè)變量間的線性或非線性單調(diào)相關(guān)關(guān)系,例如Spearman相關(guān)系數(shù)[4]、Kendall相關(guān)系數(shù)[5]、Hoeffding’s D統(tǒng)計(jì)量[6]以及RéNYI在1959年提出的最大相關(guān)系數(shù)[7]等。2000年之后,隨著數(shù)據(jù)量的增長(zhǎng),維數(shù)的增多,相關(guān)系數(shù)的研究得到了快速發(fā)展,大量的相關(guān)系數(shù)的計(jì)算方法被提出,可適用于衡量更復(fù)雜的相關(guān)關(guān)系,例如2004年的基于互信息的相關(guān)系數(shù)[8]、2007年的距離相關(guān)系數(shù)[9]、2011年的最大信息系數(shù)[10]以及2013年的Heller-Heller-Gorfine(H HG)方法[11]等。

對(duì)于高維數(shù)據(jù)間的相關(guān)性,目前常用的衡量方法是距離相關(guān)系數(shù)和H HG方法,可度量任意維度上的相關(guān)系數(shù)。此外,由于高維數(shù)據(jù)可看作是一個(gè)樣品含有多個(gè)屬性,對(duì)具有高維特征的兩個(gè)變量的相關(guān)性進(jìn)行衡量就相當(dāng)于對(duì)兩大類樣品間的相關(guān)性的衡量,因此也可采用遍歷的方法分別計(jì)算。

本研究在總結(jié)相關(guān)系數(shù)計(jì)算方法的基礎(chǔ)上,選取五種經(jīng)典的主流相關(guān)系數(shù):Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)、距離相關(guān)系數(shù)、最大信息系數(shù)和HHG方法,通過對(duì)比分析不同高度復(fù)雜的數(shù)據(jù)關(guān)系,給出了不同相關(guān)系數(shù)適用范圍。

1 相關(guān)系數(shù)的定義與計(jì)算方法

1.1 相關(guān)系數(shù)類型

總體上,按計(jì)算方法,相關(guān)系數(shù)可以大致分為4類[12-13]。

1)秩統(tǒng)計(jì)量法,即計(jì)算兩個(gè)變量中每個(gè)觀測(cè)值的秩,對(duì)比兩個(gè)變量秩統(tǒng)計(jì)量之間的共同變化趨勢(shì)。Spearman相關(guān)系數(shù)是歷史最悠久的、也是普遍應(yīng)用的秩相關(guān)系數(shù)。1938年KENDALL引入?yún)f(xié)同的概念,提出了τ相關(guān)系數(shù)。1948年,HOEFFDING提出的D統(tǒng)計(jì)量,是通過計(jì)算變量的聯(lián)合秩統(tǒng)計(jì)量與其各變量間邊際秩統(tǒng)計(jì)量乘積的差異來衡量變量間是否獨(dú)立,即經(jīng)樣本計(jì)算所得的統(tǒng)計(jì)量大于某一閾值,則拒絕兩個(gè)隨機(jī)變量是獨(dú)立的假設(shè),但是該檢驗(yàn)方式不對(duì)總體分布進(jìn)行假設(shè),因此是有偏的。

2)基于距離與核方法,這種方法是Pearson相關(guān)系數(shù)的擴(kuò)展,即仍然采用Pearson相關(guān)系數(shù)的計(jì)算方式,將其度量線性相關(guān)關(guān)系擴(kuò)展到非線性相關(guān)關(guān)系。如,2005年GRETTON等[14]提出的希爾伯特-施密特獨(dú)立性準(zhǔn)則(HSIC)方法,在計(jì)算互協(xié)方差時(shí)引入核函數(shù),通過計(jì)算協(xié)方差矩陣的特征值平方和來衡量相關(guān)性,選取不同的核函數(shù)效果會(huì)有些不同,但是能夠保證HSIC(X,Y)=0時(shí),X和Y是獨(dú)立的。這一方法的一個(gè)重要進(jìn)展是SZéKELY等[15]分別于2007年和2009年通過定義新型方差計(jì)算方法,提出了距離相關(guān)系數(shù)。

3)分箱網(wǎng)格方法,即通過將X和Y離散劃分為多個(gè)區(qū)域,在每個(gè)區(qū)域內(nèi)應(yīng)用經(jīng)典統(tǒng)計(jì)方法或信息論方法。2004年,KRASKOV等[8]提出基于K-近鄰距離算法劃分網(wǎng)格的熵估計(jì),使得互信息具有自適應(yīng)性和最小偏差;RESHEF等[16]在2011年、2015年提出最大信息系數(shù),是通過對(duì)雙變量的散點(diǎn)圖進(jìn)行最優(yōu)分區(qū),并取最大的信息熵作為相關(guān)系數(shù);2013年,SUGIYAMA等[17]提出利用互信息維數(shù)衡量隨機(jī)變量間的相關(guān)性,這種方法可以看作是對(duì)最大信息系數(shù)的擴(kuò)展;同年,HELLER等通過對(duì)數(shù)據(jù)進(jìn)行分區(qū),形成多個(gè)2X2列聯(lián)表,引入置換檢驗(yàn),以提高相關(guān)關(guān)系衡量能力;2014年,WANG等[18]通過計(jì)算局部相等的秩統(tǒng)計(jì)量來挖掘雙變量間的相關(guān)關(guān)系;2016年,ZHANG[12]將相關(guān)性與Hadamard變換相結(jié)合,提出了二元擴(kuò)展統(tǒng)計(jì)量和二元擴(kuò)展檢驗(yàn)來衡量變量間的相關(guān)性;2017年,WANG等[19]提出廣義R2,這是對(duì)使用距離和劃分網(wǎng)格方法的折中;2018年,ROMANO等[13]提出隨機(jī)信息系數(shù),是通過隨機(jī)網(wǎng)格估計(jì)信息熵。

4)K-樣本檢驗(yàn)方法,用于檢驗(yàn)樣本是來源于某個(gè)分布,同時(shí),也可以應(yīng)用到相關(guān)性檢驗(yàn)。2012年,GRETTON等[20]基于最大平均差異提出了核兩樣本檢驗(yàn);2015年,JIANG等[21]提出最優(yōu)離散化的非參數(shù)K-樣本檢驗(yàn);2016年,HELLER等[22]基于互信息理論提出的一致無(wú)分布K-樣本檢驗(yàn)。

秩統(tǒng)計(jì)量法以及基于距離與核的方法,具有明確的理論推導(dǎo)式,經(jīng)常用于獨(dú)立成分分析中,提取獨(dú)立變量成分;分箱網(wǎng)格方法,能更直觀通過對(duì)散點(diǎn)圖劃分網(wǎng)格呈現(xiàn)兩個(gè)變量間的相關(guān)性,但是網(wǎng)格的劃分方式、劃分?jǐn)?shù)量都會(huì)影響到計(jì)算方式的時(shí)間復(fù)雜度;K-樣本檢驗(yàn)方法,通過檢驗(yàn)變量間的分布是否相等來確相關(guān)性,更適用于檢驗(yàn)分類型變量和連續(xù)型變量之間的相關(guān)性[23-26]。

1.2 經(jīng)典相關(guān)系數(shù)計(jì)算方法與檢驗(yàn)

1.2.1 Pearson相關(guān)系數(shù)

Pearson相關(guān)系數(shù)是最經(jīng)典的線性相關(guān)系數(shù),也是應(yīng)用最廣泛的相關(guān)系數(shù)。其計(jì)算方式是將協(xié)方差除以標(biāo)準(zhǔn)差,剔除了兩個(gè)變量量綱的影響,縮小到了0到1之間,就得到了Pearson相關(guān)系數(shù)(式1),可以將其理解為標(biāo)準(zhǔn)化后的特殊協(xié)方差。

對(duì)Pearson相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn),

檢驗(yàn)統(tǒng)計(jì)量為:

在給定的顯著性水平α下,若拒絕原假設(shè),則可認(rèn)為總體的兩個(gè)變量存在線性相關(guān)關(guān)系,其中越接近1,線性相關(guān)性越強(qiáng)。

1.2.2 Spearman相關(guān)系數(shù)

Spearman相關(guān)系數(shù)可看作是Pearson相關(guān)系數(shù)衍生出的一種度量方法,該方法基于秩的理論,不需要假設(shè)變量之間是線性關(guān)系,也不是對(duì)原始數(shù)據(jù)直接進(jìn)行計(jì)算,而是將原始數(shù)據(jù)的秩作為變量,計(jì)算Spearman相關(guān)系數(shù)。常用于推薦系統(tǒng)、經(jīng)濟(jì)分析、公共管理、生物醫(yī)療等領(lǐng)域。

假設(shè)兩個(gè)隨機(jī)變量分別為X、Y(也可以看做兩個(gè)集合),它們的元素個(gè)數(shù)均為n,兩個(gè)隨機(jī)變量取的第i(1≤i≤n)個(gè)值分別用Xi、Yi表示。對(duì)X、Y中的元素進(jìn)行排序,得到兩個(gè)元素排序后集合x、y,將排序后集合x、y中的元素對(duì)應(yīng)相減得到一個(gè)排序差分集合d。已知樣本數(shù)據(jù),Spearman相關(guān)系數(shù)的計(jì)算方式:

其中di=xi-yi,1≤i≤n,元素xi、yi分別為Xi在X中的排序以及Yi在Y中的排序。

Spearman相關(guān)系數(shù)的顯著性檢驗(yàn)與Pearson相關(guān)系數(shù)類似,在原假設(shè)成立的條件下檢驗(yàn)統(tǒng)計(jì)量為ts近似服從自由度為n-2的t分布:

在給定的顯著性水平下,若拒絕原假設(shè),則可認(rèn)為總體的兩個(gè)變量之間存在相關(guān)關(guān)系,Spearman相關(guān)系數(shù)越接近1,兩個(gè)變量間的相關(guān)性越強(qiáng)。

1.2.3 距離相關(guān)系數(shù)

距離相關(guān),顧名思義,是基于范數(shù)(距離的度量方式之一)的理論提出的,又類似于積矩協(xié)方差和相關(guān)系數(shù),是對(duì)經(jīng)典的雙變量相關(guān)性度量方法進(jìn)行的推廣和擴(kuò)展,在很大程度上克服了Pearson相關(guān)系數(shù)不能度量非線性關(guān)系的弱點(diǎn),常用于機(jī)器學(xué)習(xí)、特征工程等領(lǐng)域。該方法從隨機(jī)變量的特征函數(shù)出發(fā),定義了一個(gè)新的類似于加權(quán)2-L的范數(shù),則兩個(gè)隨機(jī)變量X、Y的協(xié)方差稱為距離協(xié)方差,記為dcov(X,Y),距離標(biāo)準(zhǔn)差分別為dcov(X)、dcov(Y)。其距離相關(guān)系數(shù)dcor(X,Y)是對(duì)距離協(xié)方差dcov(X,Y)的標(biāo)準(zhǔn)化。

在樣本數(shù)據(jù)中,分別計(jì)算X、Y的歐幾里得距離矩陣,記為,其中k,l=1,2,…,n;并記ˉak·為距離矩陣ak,l的第k行平均;記ˉa·l為距離矩陣ak,l的第l列平均;記ˉa為距離矩陣ak,l的全平均;同理,可得ˉbk·、ˉb·l以及

通過上述定義,利用樣本數(shù)據(jù)計(jì)算得到的距離相關(guān)系數(shù)為

距離相關(guān)系數(shù)的取值范圍為0~1,當(dāng)距離相關(guān)系數(shù)等于1時(shí),兩個(gè)隨機(jī)變量間存在完全相關(guān)關(guān)系;當(dāng)距離相關(guān)系數(shù)為0時(shí),兩個(gè)隨機(jī)變量間不存在相關(guān)關(guān)系,即相互獨(dú)立。

使用距離相關(guān)系數(shù)對(duì)兩個(gè)隨機(jī)變量進(jìn)行相關(guān)檢驗(yàn),檢驗(yàn)統(tǒng)計(jì)量為υ(X,Y),使用置換檢驗(yàn)來計(jì)算在原假設(shè)成立的條件下的P值。

利用距離相關(guān)系數(shù)對(duì)兩個(gè)隨機(jī)變量X、Y間的獨(dú)立性檢驗(yàn)所提出的假設(shè)為

對(duì)隨機(jī)變量X、Y之間的相關(guān)關(guān)系進(jìn)行檢驗(yàn),置換檢驗(yàn)過程如下:

3)重復(fù)步驟1、步驟2多次(例如999次),分別計(jì)算出每次排列后的檢驗(yàn)統(tǒng)計(jì)量。

置換檢驗(yàn)的P值為:重復(fù)多次計(jì)算得出的檢驗(yàn)統(tǒng)計(jì)量υ(x,y*)中大于等于原始數(shù)據(jù)的檢驗(yàn)統(tǒng)計(jì)量υ(x,y)的個(gè)數(shù)與重復(fù)次數(shù)的比值。

1.2.4 最大信息系數(shù)

最大信息系數(shù)(maximal information coefficient,MIC)于2011年提出,是用于檢測(cè)變量之間非線性相關(guān)性的最新方法。其思想為:如果兩個(gè)隨機(jī)變量之間存在某種關(guān)系,那么可以在兩個(gè)隨機(jī)變量的散點(diǎn)圖上劃分出多個(gè)網(wǎng)格,對(duì)數(shù)據(jù)進(jìn)行分區(qū)以封裝這種關(guān)系。因此,最大信息系數(shù)計(jì)算的關(guān)鍵有兩個(gè)方面:1)網(wǎng)格劃分的數(shù)目,即在給定數(shù)據(jù)的散點(diǎn)圖上要?jiǎng)澐殖啥嗌賯€(gè)分區(qū);2)網(wǎng)格劃分的位置,即若在X軸上劃分a次,那么這a次劃分點(diǎn)是如何設(shè)置在x軸上的。最大信息系數(shù)常用于生物信息、醫(yī)學(xué)等領(lǐng)域。

若已設(shè)定劃分網(wǎng)格數(shù)和劃分間隔點(diǎn),則給定了一種劃分,計(jì)算該劃分方式下的信息熵為

其中,D為給定的數(shù)據(jù)集;a、b是對(duì)這個(gè)數(shù)據(jù)集的劃分;f(x,y)是該區(qū)域內(nèi)的聯(lián)合概率密度,f(x)、f(y)分別為邊際概率密度。

若確定了劃分網(wǎng)格的數(shù)目,則通過改變網(wǎng)格的劃分間隔點(diǎn)的位置,就會(huì)得到不同的信息熵,記其中最大的信息熵為maxI(D,a,b)。為了方便在不同維數(shù)之間進(jìn)行比較,將其標(biāo)準(zhǔn)化,使其取值范圍設(shè)置在0到1之間。那么,最大信息系數(shù)定義為

對(duì)兩個(gè)隨機(jī)變量進(jìn)行的獨(dú)立性檢驗(yàn),提出假設(shè):

最大信息系數(shù)的檢驗(yàn)統(tǒng)計(jì)量為MIC(D),其置換檢驗(yàn)與上文中提到的距離相關(guān)系數(shù)的置換檢驗(yàn)是相同的。

1.2.5 HHG

HELLER等[22]提出了一個(gè)新的相關(guān)關(guān)系檢驗(yàn)方法,該方法基于秩的理論,依據(jù)距離的大小對(duì)原始數(shù)據(jù)進(jìn)行分區(qū),從而形成多個(gè)2×2列聯(lián)表,再進(jìn)行置換檢驗(yàn)以確定數(shù)據(jù)間的相關(guān)關(guān)系。對(duì)于樣本數(shù)據(jù),首先分別計(jì)算樣本內(nèi)各個(gè)個(gè)體間的距離d(xi,xj),d(yi,yj),其中i,j∈{1,2,…,n}。假設(shè)隨機(jī)變量X、Y是獨(dú)立的并且存在連續(xù)的聯(lián)合密度函數(shù),那么在樣本(X,Y)空間中存在一個(gè)點(diǎn)(xi,yi),分別在該點(diǎn)周圍有個(gè)半徑為r的空間,如果數(shù)據(jù)間存在相關(guān)關(guān)系,那么在該空間的界限處X、Y的聯(lián)合分布是不等于邊際分布的笛卡爾積。H HG常用于遺傳學(xué)等領(lǐng)域。

相關(guān)關(guān)系顯著性檢驗(yàn)過程如下,定義:

為檢驗(yàn)隨機(jī)變量X、Y之間的相關(guān)性,提出假設(shè):

其中,F為隨機(jī)變量的分布函數(shù)。

檢驗(yàn)統(tǒng)計(jì)量為

對(duì)兩個(gè)隨機(jī)變量進(jìn)行的獨(dú)立性檢驗(yàn),H HG的置換檢驗(yàn)與上文中提到的距離相關(guān)法的置換檢驗(yàn)是相同的。H HG可以采用列聯(lián)表φ相關(guān)系數(shù)衡量變量間的相關(guān)程度:

2 統(tǒng)計(jì)功效分析

2.1 統(tǒng)計(jì)功效

統(tǒng)計(jì)功效(statistical power)是指在假設(shè)檢驗(yàn)的問題中,當(dāng)原假設(shè)錯(cuò)誤時(shí),拒絕原假設(shè)的概率。其計(jì)算公式為

其中,False(H0)表示原假設(shè)是錯(cuò)誤的,β表示第二類錯(cuò)誤。

統(tǒng)計(jì)功效是檢驗(yàn)?zāi)稠?xiàng)實(shí)驗(yàn)有效性的一個(gè)很有用的指標(biāo),功效越大,說明犯第二型錯(cuò)誤的概率越小。在實(shí)際研究工作中,功效值越大說明拒絕零假設(shè)越有利,研究結(jié)果也越可靠。統(tǒng)計(jì)功效的設(shè)定一般為0.8,將它作為計(jì)算的閾值。當(dāng)假設(shè)檢驗(yàn)中的P值小于0.05且功效大于0.8時(shí)認(rèn)為是有顯著差異的。

2.2 統(tǒng)計(jì)功效的蒙特卡洛模擬

蒙特卡洛模擬,又稱為統(tǒng)計(jì)模擬方法,是一類隨機(jī)方法的統(tǒng)稱。這類方法的特點(diǎn)是,可以在隨機(jī)采樣上計(jì)算得到近似結(jié)果,隨著采樣的次數(shù)增多,得到的結(jié)果是正確結(jié)果的概率逐漸加大,最終會(huì)收斂于實(shí)際值。本工作利用蒙特卡洛模擬計(jì)算統(tǒng)計(jì)功效,是通過大量模擬次數(shù)中,原假設(shè)發(fā)生的概率小于給定值(如0.01,0.05)的次數(shù)占比。

比較不同相關(guān)系數(shù)的衡量能力,本工作選取了不同的樣本量(10、20、30、50、100、200、500)、數(shù)據(jù)類型(線性、非線性單調(diào)、非單調(diào)、非函數(shù))及噪聲水平等情景,比較不同相關(guān)系數(shù)的衡量能力。按照表1所示的數(shù)學(xué)表達(dá)式隨機(jī)生成模擬數(shù)據(jù),圖1展示本文所選取數(shù)據(jù)類型的散點(diǎn)圖。

表1 模擬數(shù)據(jù)數(shù)學(xué)表示Table 1 Mathematical representation of simulated data

圖1(a)表示兩個(gè)變量之間存在線性單調(diào)相關(guān)關(guān)系,圖1(e)表示兩個(gè)變量之間存在非線性單調(diào)相關(guān)關(guān)系,圖1(b)、(c)、(d)、(f)、(g)、(h)、(i)、(j)表示兩個(gè)變量之間存在非單調(diào)相關(guān)關(guān)系,圖1(k)、(l)表示兩個(gè)變量之間存在非函數(shù)關(guān)系。對(duì)每個(gè)相關(guān)關(guān)系在相同的噪聲水平下,選取的樣本量為10、20、30、50、100、200、300、500,通過蒙特卡洛模擬,計(jì)算得出5個(gè)相關(guān)系數(shù)的統(tǒng)計(jì)功效,結(jié)果如圖2所示。

圖1 基于蒙特卡洛方法隨機(jī)生成的不同相關(guān)關(guān)系數(shù)據(jù)Fig.1 Generated data with different correlations randomly based on Monte Carlo method

如圖2所示,5種相關(guān)系數(shù)度量方法在具有線性相關(guān)關(guān)系數(shù)據(jù)下的統(tǒng)計(jì)功效都為1,其中最大信息系數(shù)在樣本量為10時(shí),其統(tǒng)計(jì)功效較其他方法低,但仍然高于0.8;具有非線性單調(diào)相關(guān)關(guān)系的數(shù)據(jù),5種相關(guān)系數(shù)度量方法的統(tǒng)計(jì)功效也為1;對(duì)于非單調(diào)關(guān)系,如圖2(c)、(d)、(g)、(j),Pearson相關(guān)系數(shù)或Spearman相關(guān)系數(shù)隨著樣本量的遞增,其統(tǒng)計(jì)功效也大于0.8,距離相關(guān)系數(shù)、最大信息系數(shù)和H HG,在大樣本情況下,可以度量出本研究中所提到的所有非單調(diào)相關(guān)關(guān)系以及非函數(shù)相關(guān)關(guān)系,對(duì)于小樣本情況,如果數(shù)據(jù)中不存在明顯的周期性,HHG的統(tǒng)計(jì)功效高于其他方法。

圖2 不同樣本量下的統(tǒng)計(jì)功效Fig.2 Statistical power of different sample sizes

在相同的樣本量,不同的噪聲水平下,如圖3所示,5種相關(guān)系數(shù)的統(tǒng)計(jì)功效與噪聲水平呈反比;在線性相關(guān)關(guān)系和非線性單調(diào)相關(guān)關(guān)系中,Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)和距離相關(guān)系數(shù)統(tǒng)計(jì)功效優(yōu)于最大信息系數(shù)和H HG的統(tǒng)計(jì)功效;對(duì)于非單調(diào)相關(guān)關(guān)系,當(dāng)數(shù)據(jù)中存在明顯的周期性時(shí),最大信息系數(shù)的統(tǒng)計(jì)功效最高,HHG的統(tǒng)計(jì)功效次之,當(dāng)數(shù)據(jù)中不存在周期性時(shí),H HG的統(tǒng)計(jì)功效高于其他相關(guān)系數(shù)的統(tǒng)計(jì)功效;對(duì)于非函數(shù)相關(guān)關(guān)系,HHG的統(tǒng)計(jì)功效最高。

圖3 不同噪聲水平下的統(tǒng)計(jì)功效Fig.3 Statistical power at different noise levels

由圖4所示,可以根據(jù)想要挖掘的相關(guān)關(guān)系選取不同相關(guān)系數(shù)。當(dāng)數(shù)據(jù)量小于50時(shí),使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)挖掘單調(diào)相關(guān)關(guān)系,使用HHG方法挖掘非單調(diào)相關(guān)關(guān)系;當(dāng)數(shù)據(jù)量大于50時(shí),還是使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)挖掘單調(diào)相關(guān)關(guān)系,使用H HG方法挖掘非單調(diào)相關(guān)關(guān)系,使用最大信息系數(shù)挖掘周期性相關(guān)關(guān)系。由第二節(jié)中相關(guān)系數(shù)的計(jì)算方法可知,H HG方法需要提前計(jì)算出數(shù)據(jù)之間的距離,因此當(dāng)數(shù)據(jù)量過于龐大時(shí),其計(jì)算過程有較高的空間復(fù)雜度,同時(shí),H HG方法的檢驗(yàn)統(tǒng)計(jì)量是通過對(duì)數(shù)據(jù)的全局計(jì)算得到的,其時(shí)間復(fù)雜度也相對(duì)較高。在選取不同的相關(guān)系數(shù)時(shí),也需要將時(shí)間復(fù)雜度與空間復(fù)雜度考慮在內(nèi)。

圖4 基于不同數(shù)據(jù)規(guī)模和相關(guān)關(guān)系的相關(guān)數(shù)選取樹Fig.4 Correlation coefficient selection tree based on different data sizes and correlations

3 結(jié) 語(yǔ)

對(duì)比不同度量高度復(fù)雜的數(shù)據(jù)關(guān)系的方法,并通過蒙特卡洛模擬得到不同相關(guān)系數(shù)的統(tǒng)計(jì)功效,對(duì)不同類型數(shù)據(jù)關(guān)系度量方法的使用做出引導(dǎo)。Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)更適合衡量線性、非線性單調(diào)相關(guān)關(guān)系,最大信息系數(shù)則更適合衡量含有周期性的相關(guān)關(guān)系,HHG方法則更適合衡量非函數(shù)相關(guān)關(guān)系。該研究可為挖掘不同相關(guān)關(guān)系,提供相關(guān)系數(shù)選取依據(jù)。該工作主要研究的是數(shù)值型變量間的相關(guān)關(guān)系,并未對(duì)分類型變量間的相關(guān)系數(shù),如φ相關(guān)系數(shù)、V相關(guān)系數(shù)、γ相關(guān)系數(shù)、λ相關(guān)系數(shù)等,進(jìn)行對(duì)比總結(jié)。

猜你喜歡
單調(diào)功效網(wǎng)格
用全等三角形破解網(wǎng)格題
紅景天的神奇功效及作用
被扔掉的蔥須大有功效
數(shù)列的單調(diào)性
數(shù)列的單調(diào)性
對(duì)數(shù)函數(shù)單調(diào)性的應(yīng)用知多少
反射的橢圓隨機(jī)偏微分方程的網(wǎng)格逼近
藏雪茶的養(yǎng)生功效
重疊網(wǎng)格裝配中的一種改進(jìn)ADT搜索方法
如何讓你的化妝品發(fā)揮更大的功效
健康女性(2017年3期)2017-04-27 22:30:01
临夏市| 西昌市| 卫辉市| 二连浩特市| 瑞安市| 鄱阳县| 鄂尔多斯市| 宜兰县| 阿图什市| 沈丘县| 洪洞县| 涟源市| 重庆市| 辉县市| 荆州市| 新竹市| 永济市| 衢州市| 太仓市| 苍山县| 盐城市| 丰县| 宜君县| 湟中县| 新竹县| 浠水县| 石家庄市| 探索| 桂平市| 惠来县| 平遥县| 大余县| 黄浦区| 昌吉市| 淮北市| 宜昌市| 南漳县| 商水县| 泸定县| 天全县| 简阳市|