羅 盛 劉德平 陳景武
對應分析(相應分析)其基本思想首先由理查森(Richardson)和庫德(Kuder)在1933年提出,后來法國統(tǒng)計學家Jean-Paul Benzecri和日本統(tǒng)計學家Hayashi Chikio對該方法進行了發(fā)展〔1〕,主要用于分析二維數據陣中行因素和列因素間的關系。目前對應分析已被廣泛地應用于自然科學和社會科學的各個領域,取得了可喜的成果〔2-4〕。
本次調查對象是2010年青州市小學1~6年級在校學生。采用橫斷面的隨機抽樣調查方法,對學校按地理分布分為城區(qū)、平原丘陵地區(qū)、山區(qū)三層,以學校為抽樣單位,進行分層整群抽樣,對抽取學校的小學生進行調查。共調查12個學校7144人,其中城區(qū)2個學校2404人,平原丘陵7個學校2515人,山區(qū)3個學校2225人。表1是主要15種眼病患病資料:H10.4慢性結膜炎、H52.1近視(單純性、病理性)、H53.0弱視、H53.5色覺缺陷、H13.1衣原體性沙眼、H52.0遠視、H50.0內斜視、H50.1外斜視、H02.0瞼內翻和倒睫、H10.2急性結膜炎、S05眼外傷、H55眼球震顫、H52.3屈光參差、Q12.0先天性白內障、Q10.0先天性上瞼下垂。地區(qū)用英文字母表示。12所學校劃歸為3個地區(qū),城區(qū)(cq):團結小學、職工子弟小學;農村平原(np):大王、大尹、東壩、貫店、黃樓、潘劉、陽河小學;農村山區(qū)(ns):蓮花盆、邵莊、五里小學。為了解這3個地區(qū)與主要眼病間的聚集性,應用SAS 8.0對資料進行對應分析。
表1 3個地區(qū)15種主要眼病患病率(%)
對表1進行對應分析發(fā)現(xiàn),前兩個特征根λ1、λ2累計貢獻率為100%,說明前2個因子能解釋原始資料的全部信息,此時用前2個因子表示的二維因子載荷圖能充分表達原始資料中眼病患病率與地區(qū)兩屬性變量間的關系。
表1資料的行因素(地區(qū))及列因素(眼病)的第一因子負荷(Dim1)和第二因子負荷(Dim2),列于表2。
表2 眼病患病率的因子載荷
將表2行因素及列因素的第1、第2因子負荷分別繪在同一因子圖上,得因子載荷圖。由圖可以看出三個地區(qū)分布在三個不同的象限。H52.1近視(單純性、病理性)、H02.0(瞼內翻和倒睫)聚集性比較大,代表地區(qū)為城區(qū)(cq);H53.5色覺缺陷、H53.0弱視聚集性比較大,代表地區(qū)為農村平原(np);H13.1衣原體性沙眼、H10.4慢性結膜炎、S05眼外傷聚集性比較大,代表地區(qū)為農村山區(qū)(ns)。另外H52.3屈光參差、H10.2急性結膜炎與H50.0內斜視有一定的相關性;Q10.0先天性上瞼下垂、Q12.0先天性白內障與H55眼球震顫有一定的相關性;H52.0遠視與H50.0內斜視有一定的相關性。且H52.3屈光參差、H10.2急性結膜炎高發(fā)區(qū)可能是H52.0遠視、H50.0內斜視的低發(fā)區(qū)。
(3)眼病患病率的假設檢驗
對應分析雖然可以揭示行因素和列因素間的關系,但它不能代替兩個變量之間的假設檢驗。根據研究目的需要,可以對經對應分析顯示與3個地區(qū)之間有關聯(lián)性傾向的主要眼病分別進行假設檢驗,來進一步分析不同眼病患病率在地區(qū)間的差異是否具有統(tǒng)計學意義。
(1)近視眼患病率的假設檢驗
表3 3個地區(qū)近視眼患病情況
經卡方檢驗得χ2=67.448,P<0.0001,差別有統(tǒng)計學意義,可認為近視眼患病率在三個地區(qū)間有差異,經兩兩比較得城區(qū)與農村平原患病率有差異(χ2=55.922,P <0.0001),城區(qū)與農村山區(qū)有差異(χ2=39.168,P<0.0001),農村平原與農村山區(qū)間無差異(χ2=0.978,P>0.05),且城區(qū)患病率最高,為25.7%。
(2)瞼內翻和倒睫患病率的假設檢驗
表4 3個地區(qū)瞼內翻和倒睫患病情況
經卡方檢驗得χ2=7.187,P<0.05,差別有統(tǒng)計學意義,可認為瞼內翻和倒睫患病率在三個地區(qū)間有差異。經兩兩比較得城區(qū)與農村平原患病率有差異(χ2=6.832,P=0.009),城區(qū)與農村山區(qū)無差異(χ2=2.184,P>0.05),農村平原與農村山區(qū)間無差異(χ2=1.213,P>0.05),且城區(qū)患病率最高,為1.1%。
(3)色覺缺陷患病率的假設檢驗
表5 3個地區(qū)色覺缺陷患病情況
經卡方檢驗得χ2=0.949,P>0.05,差別無統(tǒng)計學意義,尚不能認為色覺缺陷患病率在三個地區(qū)間有差異。
(4)弱視患病率的假設檢驗
表6 3個地區(qū)弱視患病情況
經卡方檢驗得 χ2=2.658,P>0.05,差別無統(tǒng)計學意義,尚不能認為弱視患病率在三個地區(qū)間有差異。
(5)衣原體性沙眼患病率的假設檢驗
表7 3個地區(qū)衣原體性沙眼患病情況
經卡方檢驗得 χ2=1.976,P>0.05,差別無統(tǒng)計學意義,尚不能認為衣原體性沙眼患病率在三個地區(qū)間有差異。
(6)慢性結膜炎患病率的假設檢驗
表8 3個地區(qū)慢性結膜炎患病情況
經卡方檢驗得 χ2=0.896,P>0.05,差別無統(tǒng)計學意義,尚不能認為慢性結膜炎患病率在三個地區(qū)間有差異。
(7)眼外傷患病率的假設檢驗
表9 3個地區(qū)眼外傷患病情況
經確切概率法得,P>0.05,差別無統(tǒng)計學意義,尚不能認為眼外傷患病率在三個地區(qū)間有差異。
對應分析可以直觀地表現(xiàn)多項分類列聯(lián)表資料中行因素和列因素間的對應情況,通過因子載荷圖使行因素和列因素間關系得以直觀的展示,從量上發(fā)現(xiàn)有聚集性傾向的眼病和主要眼病對應的高發(fā)區(qū)。但是這種直觀的有關聯(lián)性僅僅說明了一種傾向或趨勢,為進一步研究指出了方向,并無具體的計量標志,也不能代表有統(tǒng)計學意義,根據研究目的,我們可以在對應分析的基礎上結合有關假設檢驗來進一步分析,以檢驗不同地區(qū)和對應眼病間的聚集性有無統(tǒng)計學意義,從而可以確定不同眼病的高發(fā)地和低發(fā)地及不同眼病的相關性。同時,在方法學上把無具體的計量標志的對應分析方法進一步擴展,得出更精確的“量化”結論。
本研究運用對應分析對山東省青州市3個地區(qū)小學生眼病患病率資料進行分析,由因子負荷圖可以直觀地看出城區(qū)、農村平原和農村山區(qū)與眼病的對應關系以及不同眼病的聚集性,然后運用卡方檢驗分別對與3個地區(qū)間有關聯(lián)性傾向的眼病患病率進行假設檢驗以確定聚集性有無統(tǒng)計學意義。經卡方檢驗得出近視眼患病率(H52.1)、瞼內翻和倒睫患病率(H02.0)與城區(qū)的聚集性有統(tǒng)計學意義,說明城區(qū)是這兩種眼病的高發(fā)地,從而我們可以提出針對性的防治措施,為降低本地區(qū)小學生近視眼和瞼內翻和倒睫發(fā)病率提供科學的依據。
1.何曉群.多元統(tǒng)計分析.中國人民大學出社,2004:195-219.
2.Alain F.Canonical correspondence analysis of lowland pasture vegetation in the humid tropics of Mexico .Statistics for Biology and Health,2007:561-547.
3.Mao DQ.Correspondence analysis on images of Jiangxi Province as a tourist destination.Chinese Geographical Science,2005,15(3):275-280.
4.Ken R.The use of correspondence analysis to develop a scale to measure workplace morale from multi-level data.Social Indicators Research,2002,3:339-351.