戴建國(guó)
(廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州,510006)
對(duì)數(shù)線性模型的選擇方法及其應(yīng)用
戴建國(guó)
(廣州大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州,510006)
為構(gòu)造最佳對(duì)數(shù)線性模型,通過(guò)λ系數(shù)構(gòu)造λ相關(guān)系數(shù)矩陣,將其作為對(duì)數(shù)線性模型中交互項(xiàng)選擇的方法,并用于分析肺癌治療數(shù)據(jù)。結(jié)果表明,選出的交互項(xiàng)可以構(gòu)造最佳的模型對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確的分析,因此在應(yīng)用對(duì)數(shù)線性模型分析前,先用相關(guān)系數(shù)矩陣進(jìn)行探索性研究分析是很有必要的。
對(duì)數(shù)線性模型;相關(guān)系數(shù)矩陣;交互項(xiàng)
對(duì)數(shù)線性模型是處理非線性相關(guān)離散數(shù)據(jù)常用的一種分析方法[1],而分類離散數(shù)據(jù)通常以列聯(lián)表的形式呈現(xiàn),在醫(yī)療數(shù)據(jù)和社會(huì)調(diào)查數(shù)據(jù)中尤為常見(jiàn)。列聯(lián)表有二維、三維或者更高維的形式,其表達(dá)的是多個(gè)分類變量交叉計(jì)數(shù)的資料,對(duì)數(shù)線性模型是處理這類數(shù)據(jù)的有效工具。對(duì)數(shù)線性模型分為飽和模型、條件獨(dú)立模型、部分條件獨(dú)立模型、相互獨(dú)立模型(即只含主效應(yīng))[2]。對(duì)于最簡(jiǎn)單的二維列聯(lián)表,其由2個(gè)屬性變量構(gòu)成,分別表示成行和列,具有2個(gè)主效應(yīng)和1個(gè)交互效應(yīng)。對(duì)于三維或者更高維的情況,主效應(yīng)增加,交互效應(yīng)也隨之增加,這時(shí)就需要選擇有用的效應(yīng)構(gòu)造合適的模型。之前也有一些文獻(xiàn)討論過(guò)對(duì)數(shù)線性模型的選擇方法,如:張巖波等[3]利用了 Brown’s偏關(guān)聯(lián)檢驗(yàn)篩選模型;崔靜等[4]通過(guò)自適應(yīng) Lasso對(duì)對(duì)數(shù)線性模型中的變量進(jìn)行選擇;李春紅等[5]探討了 Adaptive elastic net方法在Poisson對(duì)數(shù)線性模型選擇中應(yīng)用;唐先勇[6]將3維列聯(lián)表中所有可能的HLLM模型分成2大類,然后運(yùn)用AIC準(zhǔn)則從接受類中挑選出“最佳”模型。
本文以3維列聯(lián)表為例,引入λ系數(shù),并構(gòu)造λ相關(guān)系數(shù)矩陣對(duì)交互效應(yīng)進(jìn)行選擇,通過(guò)擬合優(yōu)度統(tǒng)計(jì)量和BIC、AIC準(zhǔn)則[1-7]對(duì)模型進(jìn)行評(píng)價(jià)。
λ系數(shù)是Leo A Goodman與William H Kruskal在1954年提出來(lái)的[8],其基本原理是假定有2離散變量X、Y分別有I和J個(gè)類別,可構(gòu)成2維聯(lián)合分布,對(duì)樣本中個(gè)體進(jìn)行隨機(jī)選擇,將一半分配到Y(jié)變量上,另一半分配到X變量上。按照相對(duì)減少誤差比例的規(guī)則對(duì)變量作出預(yù)測(cè),在未知另一個(gè)變量的情況下,猜Y變量類別時(shí),猜測(cè)個(gè)體最有可能出現(xiàn)在π+M類別上,即Y邊緣概率最大的那一類,猜對(duì)的概率為π+M/2。同理,猜測(cè)X變量時(shí),猜測(cè)個(gè)體最有可能出現(xiàn)在πM+類別上,猜對(duì)的概率為πM+/2(M為最大行列邊緣概率對(duì)應(yīng)的行與列),則總的猜錯(cuò)概率為 1?(πM++π+M)/2;而在已知另一半的情況下進(jìn)行猜測(cè)時(shí),猜測(cè)Y變量最好的預(yù)測(cè)是(其中m表示在給定行列下最大聯(lián)合概率對(duì)應(yīng)的列與行),即X每個(gè)類別下Y最大概率的總和的一半,猜測(cè)X變量最好的預(yù)測(cè)是即Y每個(gè)類別下X最大概率的總和的一半,因此猜錯(cuò)總概率為則相對(duì)減少誤差比例。其中π表示頻率,n表示頻數(shù)。下面舉例說(shuō)明,數(shù)據(jù)聯(lián)合分布見(jiàn)表1。其中X有3個(gè)類別,Y有3個(gè)類別。即X、Y的λ相關(guān)系數(shù)為0.152 8。當(dāng)有多個(gè)變量時(shí),各變量間的λ系數(shù)則可構(gòu)造λ相關(guān)矩陣。
表1 簡(jiǎn)單的二維列聯(lián)表
設(shè)一個(gè)3維列聯(lián)表有X、Y、Z3個(gè)屬性變量,Xi、Yj、Zk(i=1,2,…,R;j=1,2,…,C;k=1,2,…,T)分別表示各屬性變量的類別,期望頻數(shù)mijk=E(nijk)。3維列聯(lián)表的所有對(duì)數(shù)線性模型如表2所示。
表2 3維列聯(lián)表的各類模型
在模型表達(dá)式中:μ是指總平均;為X在i時(shí)的主效應(yīng);為相應(yīng)的主效應(yīng);為Xi與Yi的二次交互效應(yīng);為相應(yīng)的二次效應(yīng);為三次交互效應(yīng)。
表3 小細(xì)胞肺癌實(shí)驗(yàn)數(shù)據(jù)
在一項(xiàng)治療小細(xì)胞肺癌的試驗(yàn)中,患者被隨機(jī)地分成2組。連續(xù)治療組在每一個(gè)治療周期使用相同的化學(xué)藥物聯(lián)合療法,交替治療組在不同治療周期使用不同的藥物組合,分析不同性別,治療組的療效有無(wú)差別。3個(gè)屬性變量分別記為X、Y、Z,數(shù)據(jù)[9]見(jiàn)表3。通過(guò)R軟件計(jì)算三者的λ相關(guān)系數(shù)矩陣如表4所示。從λ相關(guān)系數(shù)矩陣來(lái)看,Y、Z存在交互關(guān)系,另外2對(duì)變量關(guān)系幾乎為0,所以模型中只要考慮Y、Z交互效應(yīng)。表5給出了所有可能的對(duì)數(shù)線性模型,以及相應(yīng)的似然比擬合優(yōu)度統(tǒng)計(jì)量、皮爾森卡方擬合優(yōu)度統(tǒng)計(jì)量、自由度、p值以及BIC、AIC的值。
表4λ相關(guān)系數(shù)矩陣
表5 各種對(duì)數(shù)線性模型擬合結(jié)果
由表5可知,簡(jiǎn)單模型(X,YZ)的AIC、BIC值最小,分別為94.635、101.588,并且擬合優(yōu)度統(tǒng)計(jì)量的p值均接受原假設(shè)。雖然模型(YX,YZ)、(ZX,ZY)、(XY,XZ,YZ)擬合優(yōu)度統(tǒng)計(jì)量的p值均接受原假設(shè),但其比模型(X,YZ)更為復(fù)雜,并且AIC、BIC準(zhǔn)則值均比模型(X,YZ)的值大,從而不宜作為最佳模型。而對(duì)于飽和模型一般沒(méi)有多大意義,因?yàn)樵撃P偷膮?shù)個(gè)數(shù)和列聯(lián)表單元格一樣多。這說(shuō)明選(X,YZ)作為最佳模型是合理的,與用λ相關(guān)系數(shù)矩陣選出的結(jié)果完全一樣,即性別對(duì)療效幾乎無(wú)影響,主要是受到治療方式的影響。
通過(guò)λ相關(guān)系數(shù)構(gòu)造了相關(guān)系數(shù)矩陣,其可作為探索性研究分析的有工具,使得各變量間的關(guān)系一目了然,因此在進(jìn)行構(gòu)造對(duì)數(shù)線性模型前,可以先通過(guò)λ相關(guān)矩陣進(jìn)行分析,找出變量間的關(guān)系,選擇合適的交互項(xiàng)假如對(duì)數(shù)線性模型。這樣可以為選擇最優(yōu)的對(duì)數(shù)線性模型提供有力的依據(jù),提高模型的預(yù)測(cè)能力。除此之外,還可構(gòu)造一種與文獻(xiàn)[10]類似特征選取的算法,但有待進(jìn)一步研究。
[1]Alan Agresti.An Introduction to Categorical Data Analysis [M].New York:Wiley-Interscience,2007.
[2]趙平.定性數(shù)據(jù)的統(tǒng)計(jì)分析[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2014:75-78.
[3]張巖波,何大衛(wèi).對(duì)數(shù)線性模型的最優(yōu)模型篩選策略[J].中國(guó)衛(wèi)生統(tǒng)計(jì),1996,13(6):4-7.
[4]崔靜,郭鵬江,夏志明.自適應(yīng)Lasso在Poisson對(duì)數(shù)線性回歸模型下的性質(zhì)[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,41(4):565-568.
[5]李春紅,黃登香,覃朝勇.一種改進(jìn)的 Lasso方法及其在對(duì)數(shù)線性模型中的應(yīng)用[J].廣西大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,40(3):758-765.
[6]唐先勇.3維列聯(lián)表中對(duì)數(shù)線性模型的選擇策略[J].湖南科技學(xué)院學(xué)報(bào),2003,1(1):155-159.
[7]Edwards D,Abreu G C D,Labouriau R.Selecting high-dimensional mixed graphical models using minimal AIC or BIC forests [J].BMC Bioinformatics,2010,11(1):158-180.
[8]Goodman L A,Kruskal W H.Measures of Association for Cross Classification [J].Journal of the American Statistical Association,1954,49:742-744.
[9]胡良平.SAS統(tǒng)計(jì)分析教程[M].北京:電子工業(yè)出版社,2010:162-163.
[10]胡佩姍,孫吉康,王平.基于改進(jìn)最小冗余最大相關(guān)及私有化預(yù)測(cè)用于抗菌肽活性的QSAR研究[J].湖南文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2016,28(1):29-34.
(責(zé)任編校:劉剛毅)
Logarithmic linear model selection method and its application
Dai Jianguo
(Mathematics and Information Science Department,Guangzhou University,Guangzhou 510006,China)
In order to construct the best logarithm linear model,that making the coefficient of correlation coefficient matrix as interaction item selection of a logarithmic linear model is used to analyze the lung cancer treatment data.Results show that the interaction item which had selected can construct the best model,the analysis of the data is accurate,so before the application of logarithmic linear model analysis,correlation coefficient matrix analysis of exploratory research is necessary.
logarithm linear model;the correlation coefficient matrix;interactive items
O 212.1
A
1672-6146(2017)02-0021-03
戴建國(guó),1012894435@qq.com。
2017-02-18
10.3969/j.issn.1672-6146.2017.02.006