莊 嚴 楊嘉偉 陳平雁
南方醫(yī)科大學生物統(tǒng)計學系(510515)
非正態(tài)縱向數(shù)據(jù)隨機生成的Monte Carlo模擬方法*
莊 嚴 楊嘉偉 陳平雁△
南方醫(yī)科大學生物統(tǒng)計學系(510515)
目的 建立非正態(tài)縱向數(shù)據(jù)的隨機序列生成方法。方法 根據(jù)任意累積分布函數(shù)均服從[0,1]的均勻分布原理,通過反函數(shù)計算即可將標準多元正態(tài)分布隨機序列轉(zhuǎn)換為任意分布下的目標隨機序列,從而隨機生成非正態(tài)縱向數(shù)據(jù)。結(jié)果 分別對指數(shù)分布和二項分布相關(guān)序列進行模擬隨機數(shù)生成,通過對樣本的統(tǒng)計分析,均滿足預先設定的結(jié)果。結(jié)論 本文提出的非正態(tài)縱向數(shù)據(jù)的隨機生成的Monte Carlo模擬方法可產(chǎn)生任意分布下的相關(guān)隨機序列,不受變量類型限制,方法簡單,且具有理論依據(jù),為非正態(tài)縱向數(shù)據(jù)的研究提供了模擬基礎(chǔ)。
Monte Carlo 縱向數(shù)據(jù) 相關(guān)序列 隨機數(shù)
在醫(yī)學統(tǒng)計的理論方法領(lǐng)域中,通常需要研究者對現(xiàn)有若干方法做比較研究,以說明各方法在應用中的優(yōu)劣勢,從而闡明其適用條件,為今后的實際應用提供理論指導。在這個過程中勢必需要產(chǎn)生隨機數(shù)據(jù)來模擬各種應用中的情況,并以此為背景評價各方法的應用性能??梢钥闯觯S機數(shù)據(jù)是整個比較研究的基礎(chǔ),其生成結(jié)果的好壞直接影響著后續(xù)方法的比較研究結(jié)果,并進一步影響方法的實際應用。關(guān)于隨機數(shù)據(jù)的生成,現(xiàn)有很多軟件,如SAS、R軟件以及Matlab等,提供有專門的模塊或語句方便大家使用,但僅能生成單變量形式的隨機樣本,若想生成具有相關(guān)性的多元隨機數(shù),如縱向數(shù)據(jù),則只能生成服從多元正態(tài)分布的隨機序列,而對于偏態(tài)的具有相關(guān)性的縱向數(shù)據(jù)隨機生成尚無現(xiàn)成模塊支持。
Li和Hammond[1]及文德智等[2]曾提出基于線性變換-非線性變換兩步變換法產(chǎn)生相關(guān)變量隨機數(shù)序列,主要是產(chǎn)生獨立標準正態(tài)分布隨機序列,通過協(xié)方差矩陣Cholesky因子分解的方法經(jīng)線性變換轉(zhuǎn)為一般正態(tài)分布隨機序列,最后經(jīng)非線性變換轉(zhuǎn)換為目標隨機序列,整個過程較為繁瑣,且僅限產(chǎn)生連續(xù)型相關(guān)序列。本文介紹基于均勻分布產(chǎn)生隨機數(shù)的Monte Carlo模擬方法[3],省去了標準正態(tài)與一般正態(tài)之間的轉(zhuǎn)換過程,由標準正態(tài)分布的隨機序列通過累積分布函數(shù)連接,進而生成目標隨機序列,過程更為簡捷,且可生成離散型相關(guān)序列。
1.Monte Carlo模擬原理
定理:令θ=FX(x),其中FX(x)為任意連續(xù)型隨機變量X的累積分布函數(shù),則0≤FX(x)≤1,那么有θ~U[0,1]。
即X~U[0,1]。
水中自救與水上救助能力是使學生安全成長并全面發(fā)展的重要培養(yǎng)手段,以核心素養(yǎng)觀之,游泳自救與水上救助能力具有三維目標的立體結(jié)構(gòu)。其外在表現(xiàn)為十字漂、水母漂、踩水、著裝游泳、潛泳、游泳技能、人工呼吸、安全運送等游泳安全能力;其內(nèi)核結(jié)構(gòu)則是學生沉著冷靜處理危機情況的自主能力與生命安全意識,強調(diào)如何有效地管理情緒、保持體力、思考和應對復雜多變的環(huán)境,從而擺脫險境;其中間聯(lián)系層則是良好的溝通機制和社會參與,強調(diào)學生處理好自救和救助他人的關(guān)系,成為具有安全意識和社會擔當?shù)娜恕?/p>
2.非正態(tài)分布縱向數(shù)據(jù)模擬方法
(1)
3.相關(guān)矩陣的計算
1.指數(shù)分布
2.二項分布
隨機數(shù)生成是統(tǒng)計學模擬研究的基礎(chǔ)。在方法比較以及評價中,如果隨機數(shù)生成出現(xiàn)問題,就可能會對最終的推斷造成偏倚。隨著縱向研究越來越受到廣大學者的關(guān)注,相關(guān)序列的隨機生成也成為一個不可避免的問題。常用軟件只能產(chǎn)生多元正態(tài)分布隨機數(shù),對于非正態(tài)分布,以往提出的方法也僅能解決連續(xù)型分布,對于離散型分布并未深入研究,且方法較復雜。本文提出基于均勻分布產(chǎn)生隨機數(shù)的Monte Carlo模擬方法,僅通過標準正態(tài)的累積分布產(chǎn)生均勻分布隨機數(shù),進一步計算反函數(shù)就可產(chǎn)生任意分布的相關(guān)序列,方法簡單,不受變量類型限制,既可產(chǎn)生連續(xù)型相關(guān)序列,也可產(chǎn)生離散型相關(guān)序列,且在多數(shù)計算軟件如Matlab、R軟件中可實現(xiàn)。
[1]Li ST,Hammond JL.Generation of pseudorandom numbers with specified univariate distributions and correlation coefficients.Systems,Man and Cybernetics,IEEE Transactions on,1975(5):557-561.
[2]文德智,卓仁鴻,丁大杰,等.蒙特卡羅模擬中相關(guān)變量隨機數(shù)序列的產(chǎn)生方法.物理學報,2012,61(22):220204.
[3]李賢平.概率論基礎(chǔ).高等教育出版社,1997.
[4]Tanner MA.Tools for statistical inference.Springer,1991.
[5]MathWorks T.Matlab r2009b.Natick,MA,2009.
[6]陳平雁,黃浙明.IBM SPSS 19 統(tǒng)計軟件應用教程.第2版.人民衛(wèi)生出版社,2012.
(責任編輯:鄧 妍)
Skewed Longitudinal Data Simulation Based on Monte Carlo Method
Zhuang Yan,Yang Jiawei,Chen Pingyan
(Department of Biostatistics,School of Public Health,Southern Medical University(510515),Guangzhou)
Objective Proposethe random sequence generation method of skewed longitudinal data.Methods Any cumulative distribution function obey standard uniform distribution,according to this principle,we can computethe inverse function,and convertthe random sequence from standard multivariate normal distribution to targeted random sequence from arbitrarily distribution,randomly generateskewed longitudinal data ultimately.Results Respectively,we simulate the exponential distribution and the binomial distribution,and the results have met pre-setthrough the statistical analysis to the samples.Conclusion This paper propose a method based on Monte Carlo simulation which can generatethe random sequencefrom any distributionwithout any limitation to the type of the variates.This method is simple,and it provide a theoretical basis for generating therandomsequence of skewed longitudinal data.
Monte Carlo;Longitudinal data;Related sequence;Random number
國家自然科學基金(81402758,81373098);廣東省“大學生創(chuàng)新創(chuàng)業(yè)訓練計劃”(1212113040)
△通信作者,陳平雁,E-mail:chenpy99@126.com