解小莉,杜俊莉,謝曉振,胡小寧,董曉萌,劉建軍,劉 璐,張軍昌,陳小蕾,袁志發(fā),郭滿才
(1.西北農(nóng)林科技大學(xué)理學(xué)院,陜西楊凌 712100; 2.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院,陜西楊凌 712100; 3.渭南師范學(xué)院數(shù)理學(xué)院,陜西渭南 714099; 4.錦州醫(yī)科大學(xué)公共基礎(chǔ)學(xué)院,遼寧錦州 121000)
廣義復(fù)相關(guān)系數(shù)及其在小麥育種上的應(yīng)用
解小莉1,杜俊莉1,謝曉振1,胡小寧1,董曉萌3,劉建軍1,劉 璐4,張軍昌2,陳小蕾1,袁志發(fā)1,郭滿才1
(1.西北農(nóng)林科技大學(xué)理學(xué)院,陜西楊凌 712100; 2.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院,陜西楊凌 712100; 3.渭南師范學(xué)院數(shù)理學(xué)院,陜西渭南 714099; 4.錦州醫(yī)科大學(xué)公共基礎(chǔ)學(xué)院,遼寧錦州 121000)
為了解決多個(gè)因變量Y和多個(gè)自變量X之間的相關(guān)分析,假設(shè)X與Y的聯(lián)合正態(tài)分布已知,而且X與Y存在線性相依,提出廣義復(fù)相關(guān)系數(shù)的定義、估計(jì)和檢驗(yàn)。廣義復(fù)相關(guān)系數(shù)是簡單相關(guān)系數(shù)和復(fù)相關(guān)系數(shù)的自然推廣,應(yīng)用上更為方便。
決定系數(shù); 復(fù)相關(guān)系數(shù);多元分析
多元分析的一個(gè)重要內(nèi)容就是研究隨機(jī)變量之間的關(guān)系[1]。假設(shè)
(1)
從現(xiàn)有的研究中,可以從三個(gè)方面得到X與Y的相關(guān)信息。
1.1 X與Y間的獨(dú)立與相關(guān)
據(jù)Anderson(1958)所述[14],由樣本(n>p+m+1)得到的樣本離差或相關(guān)陣分別為:
(2)
(3)
其中L(μ,∑)為樣本的似然函數(shù),Ω為μ和∑的變化范圍;L(μ,∑0)為H0成立時(shí)的似然函數(shù),ω為μ和∑0的變化范圍,ω 為 Ω的子集。而且
0≤vXY≤1
(4)
當(dāng)vXY=1時(shí),X與Y獨(dú)立;vXY愈接近0,X與Y相關(guān)愈強(qiáng);vXY=0,X與Y完全相關(guān)。
由于X與Y均為正態(tài)分布,故LXX>0,LXY>0,L>0, 此時(shí)有:
vXY=|Ip-B|=|Im-A|~Λ(p,n-m-1,m)
(5)
1.2X與Y典范相關(guān)分析中的相關(guān)信息[1,15]
(6)
令各特征值對(duì)應(yīng)的單位特征向量為b1,b1,…,bp,則C=(b1,b2,…bp)為正交陣且C與CT互逆,并有
(7)
由矩陣的行列式性質(zhì)有:
(8)
(9)
1.3Y關(guān)于X線性回歸中的相關(guān)信息[1,5]
(10)
回歸的無效假設(shè)為:H0:β=0,等價(jià)于H0:∑XY=0。檢驗(yàn)統(tǒng)計(jì)量為:
(11)
綜合上述1.1~1.3所述X與Y相關(guān)的信息,有
(12)
2.1 線性回歸分析中vXY、B和R2的關(guān)系
(1)直線回歸(p=m=1)
則有
1-vXY=R2=1-(1-B)
(13)
則有
1-vXY=R2=1-(1-B)
(14)
則有
(15)
2.2 廣義決定系數(shù)和廣義復(fù)相關(guān)系數(shù)的定義和估計(jì)
如何將已公認(rèn)的式(13)和(14)推廣到式(15)呢?為此,有以下的廣義決定系數(shù)和廣義復(fù)相關(guān)系數(shù)的定義和估計(jì)。
(16)
(2)ρ2和ρXY的估計(jì)
若樣本(樣本容量n>p+m+1)的離差陣L或相關(guān)陣R為式(2)所示,則ρ2的極大似然估計(jì)(ML)為:
(17)
2.3 廣義相關(guān)系數(shù)ρXY的性質(zhì)
(1)對(duì)稱性:ρXY=ρYX,由vXY的對(duì)稱性決定;
(2)0≤ρXY≤1,由0≤vXY≤1決定;
(3)ρXY=0?∑XY=0,由∑XY=0?vXY=1定;
(4)若∑Y>0且Y=CX?ρXY=1,事實(shí)上有:
∑Y=C∑XCT>0,∑XY=∑XCT,∑YX=C∑X?
(18)
(2) p=2且m>1時(shí)的F檢驗(yàn)
(19)
(3)p>2且m>1時(shí),均進(jìn)行近似χ2檢驗(yàn)
(20)
[例]西北農(nóng)業(yè)大學(xué)小麥育種組于1981年對(duì)9個(gè)小麥品種按完全隨機(jī)區(qū)組(重復(fù)3)進(jìn)行試驗(yàn),用27個(gè)樣點(diǎn)數(shù)據(jù)得到 X1(冬季分蘗)、X2(株高)、 X3(穗粒數(shù))、 X4(千粒重)、 X5(抽穗期)和 X6(成熟期)的相關(guān)陣為:
為了研究6個(gè)小麥性狀之間的相關(guān)系數(shù),按最大樹法進(jìn)行了系統(tǒng)聚類,先后形成四類: {X1,X5},{X4,X6} ,{X2,X3} ,{X1,X5,X4,X6} 。下面用廣義復(fù)相關(guān)系數(shù)描述這些性狀團(tuán)間線性密切的程度,分析中分別用R15,R46和R1546等表示X1和X5、X4和X6,X1、X5、X4和X6之間的相關(guān)陣。
4.1 2對(duì)2 的廣義復(fù)相關(guān)系數(shù)的估計(jì)和檢驗(yàn)
{X1,X5}與 {X4,X6}、{X1,X5}與{X2,X3}和{X4,X6}與{X2,X3}間均為2對(duì)2的廣義復(fù)相關(guān)系數(shù),其檢驗(yàn)均為式(19)所示F檢驗(yàn),n=27,p=m=2
F0.05(4,46)=2.586,F0.01(4,46)=3.776
(1) {X1,X5}與{X4,X6}的廣義復(fù)相關(guān)系數(shù)r(1,5)(4,6)
F=4.165>F0.01(4,46)=3.776
(2) {X1,X5}與 {X2,X3}的廣義復(fù)相關(guān)系數(shù)r(1,5)(2,3)
F=14.738>F0.01(4,46)=3.776
(3) {X4,X6}與{X2,X3}的廣義復(fù)相關(guān)系數(shù) r(4,6)(2,3)
F=2.28 4.2 2對(duì)4的廣義復(fù)相關(guān)系數(shù)r(2,3)(1,5,4,6) 檢驗(yàn)用式(19)所示χ2(pm)檢驗(yàn) 上述性狀團(tuán)間廣義復(fù)相關(guān)分析結(jié)果如圖1所示: X1~X6分別指冬季分蘗、株高、穗粒數(shù)、千粒重、抽穗期和成熟期。 X1~X6refertotillernumberinwinter,plantheight,grainnumberperspike,1 000-grainweight,headingstageandmaturity,repectively. 圖1 形狀團(tuán)間的廣義復(fù)相關(guān)分析 Fig.1 Generalized complex correlation analysis between shape clusters 在式(1)前提下,文獻(xiàn)中的廣義復(fù)相關(guān)系數(shù)有兩個(gè): ①張堯庭[1,2]提出的五種廣義相關(guān)系數(shù): ②本文提出的廣義復(fù)相關(guān)系數(shù): rxy 兩種定義的相同與相異之處為: 1)二者均具有本文2.3中所指出的五個(gè)性質(zhì)。 2)本文所提出的rxy的計(jì)算結(jié)果是唯一的,而且是國際公認(rèn)的簡單相關(guān)系數(shù)(rxy)和復(fù)相關(guān)系數(shù)(ry(x1,x1,…,xm))的自然發(fā)展,即當(dāng)p=m=1、p=1且m>1和p>1且m>1時(shí)分別為rxy、ry(x1,x1,…,xm)和r(y1,y2,…,yp)(x1,x1,…,xm)。不僅如此,還有式(18)~(20)所示的統(tǒng)計(jì)檢驗(yàn)。 是不唯一的。另外,張堯庭[1]指出五個(gè)廣義相關(guān)系數(shù)導(dǎo)出的統(tǒng)計(jì)量均為T2統(tǒng)計(jì)量,不如本文在式(18)~(20)所明確指出的F、χ2檢驗(yàn)方便。 [1] 張堯庭,方開泰.多元統(tǒng)計(jì)分析引論[M].北京:科學(xué)出版社,1982:315. ZHANG R T,FANG K T.Multivariate Statistics Analysis[M].Beijing:Science Press,1982:315. [2] 張堯庭.廣義相關(guān)系數(shù)及其應(yīng)用[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),1978,1(4):312. ZHANG R T.Generalized correlation coefficient and its application[J].ActaMathematicaeApplicataeSinica,1978,1(4):312. [3] 陳希孺.數(shù)理統(tǒng)計(jì)引論[M].北京:科學(xué)出版社,1981:439. CHEN X R.Mathematical Statistics[M].Beijing:Science Press,1981:439. [4] 陳善林,張 浙.統(tǒng)計(jì)發(fā)展史[M].上海:立信會(huì)計(jì)圖書用品社,1987:230. CHEN S L,ZHANG Z.Statistical Development History [M].Shanghai:Ericsson (Lixin) Accounting Press,1987:230. [5] 袁志發(fā),宋世德.多元統(tǒng)計(jì)分析[M].北京:科學(xué)出版社.2009:185. YUAN Z F,SONG S D.Multivariate Statistics Analysis [M].Beijing:Science Press,2009:185. [6] 袁志發(fā).通徑分析簡介[J].國外農(nóng)學(xué)—麥類作物,1981,1(3):42. YUAN Z F.Introduction of path analysis [J].ForeignAgronomy—Wheat.EtAl,1981,1(3):42. [7] 袁志發(fā),周靜芋,郭滿才,等.決策系數(shù)—通徑分析中的決策指標(biāo)[J].西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2001,39(5):131. YUAN Z F,ZHOU J Y,GUO M C.Decision coefficient-the decision index of path analysis[J].JourralofNorthwestA&FUniversity(NaturalScienceEdition),2001,39(5):131. [8] 解小莉,袁志發(fā).決策系數(shù)的檢驗(yàn)及在育種分析中的應(yīng)用[J].西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(3):111. XIE X L,YUAN Z F.Statistical test of decision coefficient and its application in breeding[J].JournalofNorthwestA&FUniversity(NaturalScienceEdition),2013,41(3):111. [9] G.A.F塞伯.線性回歸分析[M].北京:科學(xué)出版社,1987:120. SEIBER G A F.Linear Regression Analysis[M].Beijing:Science Press,1987:120. [10] 袁志發(fā),周靜芋.試驗(yàn)設(shè)計(jì)與分析[M].北京:高等教育出版社,2000:171. YUAN Z F,ZHOU J Y. Experiment Design and Analysis[M].Beijing:Higher Education Press,2000:171. [11] 俞大剛.線性回歸模型分析[M].北京:中國出版社,1987:96. YU D G.Linear Regression Model [M].Beijing:China Press,1987:96. [12] 茆詩松,周紀(jì)薌.概率論與數(shù)理統(tǒng)計(jì)[M].北京:中國統(tǒng)計(jì)出版社,2000:147. MAO S S,ZHOU J X.Probability and Statistics [M].Beijing:China Statistics Press,2000:147. [13] 徐克學(xué).生物數(shù)學(xué)[M].北京:科學(xué)出版社,2001:22. XU K X.Biomathematics [M].Beijing:Science Press,2001:22. [14] Anderson T W.Introduction to Multivariate Statistical Analysis,Wiley,1958:94. [15] 袁志發(fā),常智杰,郭滿才,等.數(shù)量性狀遺傳分析[M].北京:科學(xué)出版社,2015:207. YUAN Z F,CHANG Z J,GUO M C.Genetic Analysis of Quantitative Traits [M].Beijing:Science Press,2015:207. Generalized Multiple Correlation Coefficient and Its Application in Wheat Breeding XIE Xiaoli1,DU Junli1,XIE Xiaozhen1,HU Xiaoning1,DONG Xiaomeng3,LIU Jianjun1,LIU Lu4,ZHANG Junchang2,CHEN Xiaolei1,YUAN Zhifa1,GUO Mancai1 (1.College of Sciences,Northwest A&F University,Yangling,Shaanxi 712100,China; 2.College of Mechanical and Electronic Engineering,Northwest A&F University,Yangling,Shaanxi 712100,China; 3.School of Mathematics and Physics,Weinan Normal University,Weinan,Shaanxi 714099,China; 4.College of Public Basic Sciences,Jinzhou Medical University,Jinzhou,Liaoning 121000,China) To solve the problem of correlation analysis between multiple dependent variablesYand multiple independent variablesX,it is assumed the joint distribution ofXandYwas known andXandYhad linear dependence. The definition,estimation and test of generalized multiple correlation coefficient were proposed in this study. Generalized multiple correlation coefficient is the natural popularization of simple correlation coefficient and multiple correlation coefficient,which has more convenient application in wheat breeding. Coefficient of determination; Coefficient of multiple correlations; Multivariate analysis 時(shí)間:2017-01-03 2016-07-15 2016-10-22 E-mail:xiemary@nwsuaf.edu.cn 袁志發(fā)(E-mail:zhifayuan@nwsuaf.edu.cn);郭滿才(E-mail:guomc@nwsuaf.edu.cn) S512.1;S330 A 1009-1041(2017)01-0087-07 網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/61.1359.S.20170103.1629.024.html5 討 論